DE69015753T2

DE69015753T2 - Tonsyntheseanordnung.

Info

Publication number: DE69015753T2
Application number: DE69015753T
Authority: DE
Inventors: Dirk Jan Hermes
Original assignee: Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1989-10-04
Filing date: 1990-10-01
Publication date: 1995-07-27
Anticipated expiration: 2010-10-02
Also published as: JPH03132699A; EP0421531B1; EP0421531A3; NL8902463A; EP0421531A2; US5204934A; DE69015753D1

Description

Die Erfindung bezieht sich auf eine Klangsyntheseanordnung zur Erzeugung von gewünschten akustischen Signalen, wobei die Anordnung folgendes umfaßt:
- eine erste Signalquelle zur Abgabe eines periodischen Signals mit einer gegebenen wiederholungsfrequenz als Repräsentation der stimmhaften Anteile des gewünschten Signals,
- eine zweite Signalquelle zur Abgabe eines aperiodischen Signals oder eines Rauschsignals als Repräsentation der stimmlosen Teile des gewünschten Klangsignals,
- eine Kombinationsschaltung zur Kombination der Signale der beiden Signalquellen miteinander und
- eine Filterschaltung mit einer variablen Übertragungsfunktion zur Verarbeitung des kombinierten Signals zu dem gewünschten Ausgangssignal.
Eine solche Schaltung ist von J. Makhoul u.a. in dem Artikel "A mixedsource model for speech compression and synthesis", veröffentlicht in Proceedings of 1978, IEEE International Conference on Acoustics, Speech and Signal Processing, April 10-12, 1978, Tulsa, Oklahoma, beschrieben worden. Bei dieser Anordnung werden neben den genannten Signalquellen, der Kombinationsschaltung und der Schaltung mit variablem Filter ein zwischen die erste Signalquelle und die Kombinationsschaltung geschaltetes Tiefpaßfilter sowie ein zwischen die zweite Signalquelle und die Kombinationsschaltung geschaltetes Hochpaßfilter verwendet.
Eine ähnliche Anordnung ist von S.H. Kwon und A.J. Goldberg in dem Artikel "An enhanced vocoder with no voiced/unvoiced switch", veröffentlicht in IEEE Transactions on Acoustics, Speech and Signal Processing, Bd ASSP-32, Nr. 4, 1984, S. 851ff beschrieben worden. Bei dieser bekannten Anordnung ist neben den genannten Komponenten ein gesteuerter Verstärker nach sowohl der ersten Signalquelle als auch der zweiten Signalquelle vorhanden. Beide Verstärker werden von einem Signal, das aus der Filterschaltung mit einer variablen Übertragungsfunktion stammt, so gesteuert, daß die Kombinationsschaltung auf eine einfache Gabelschaltung reduziert werden kann.
All diese bekannten Anordnungen sind dazu bestimmt, ein Sprachsignal mit guter Wahrnehmungsqualität zu erzeugen. In der Praxis erreicht keine der bekannten Anordnungen eine Sprachqualität, die völlig zufriedenstellend ist.
Aufgabe der Erfindung ist es, anzugeben, auf welche Art und Weise eine wesentliche Verbesserung gegenüber den bekannten Anordnungen erreicht werden kann. Dazu ist die Erfindung dadurch gekennzeichnet, daß die Anordnung mit einer dritten Signalquelle zur Abgabe eines modulierten Rauschsignals ausgestattet ist, das eine Abfolge oder Sequenz von Rauschstößen umfaßt, deren zeitliche Umhüllende synchron zu der zeitlichen Umhüllenden des periodischen Signals ist und die stets die wenigstens nahezu gleiche Energie haben, wobei das modulierte Rauschsignal zusammen mit dem Signal der ersten Signalquelle der Kombinationsschaltung zugeführt wird.
Bei den bekannten Anordnungen wird dem stimmhaften periodischen Signal stationäres Rauschen zugefügt. Es hat sich herausgestellt, daß ein Zuhörer, der das am Ende von den bekannten akustischen Schaltungen produzierte Signal hört, den Eindruck bekommt, als stamme das Rauschsignal aus einer gesonderten Quelle, die von der das periodische Signal abgebenden Quelle verschieden ist, so daß die wahrnehmungsqualität vergleichsweise schlecht ist. Durch Hinzufügung eines Hochpasses oder eines Tiefpasses, wie von Makhoul beschrieben, wird zwar eine Verbesserung erreicht, aber diese Anordnung erfordert immer noch Verbesserung.
Wenn erfindungsgemäß Rauschen in Form einer Sequenz oder Abfolge von Rauschstößen hinzugefügt wird, deren zeitlichen Umhüllende die vorgenannte Bedingung erfüllt und die stets die (wenigstens nahezu) gleiche Energie heben, wird in der Wahrnehmung auf effektive Weise eine Verschmelzung des Rauschens mit dem stimmhaften periodischen Signal erreicht, wodurch eine beträchtliche Verbesserung der Wahrnehmungsqualität erzielt wird.
Auch wenn sich der vorgenannte Stand der Technik vor allem auf Anordnungen zur Erzeugung von Sprachsignalen bezieht, ist die vorliegende Erfindung nicht darauf beschränkt. Die erfindungsgemäße Anordnung kann mit Erfolg zur Synthetisierung von beispielsweise musikalischen Klängen verwendet werden. Beispielhaft sei auf den Klang einer Querflöte verwiesen, die eine "heisere" Klangfarbe hat. Bei den bekannten Musiksynthetisierungsverfahren wird dieser heisere Charakter erhalten, indem ein kammgefiltertes Rauschen hinzugefügt oder dem Beginn des Klanges unharmonische Komponenten zugefügt wird. Die Verwendung der Erfindung führt jedoch zu einem sehr viel zufriedenstellenderen Ergebnis.
In Zusammenhang mit der allgemeinen Verwendbarkeit der Erfindung sei darauf hingewiesen, daß sich die Bezeichnung "stimmhaft" in dieser Beschreibung auf nicht-rauschende Signalanteile bezieht und die Bezeichnung "stimmlos" auf rauschende Signalanteile.
Bei einer weiterentwickelten Ausführungsform der erfindungsgemäßen Anordnung werden die zwei Rauschquellen miteinander verbunden.
An sich wird in IEEE Transactions on Audio and Eletroacoustics, Bd AU- 16, Nr.1, März 1986, S.40-50, New York, USA, N.R. Dixon u.a.: "Terminal analog synthesis of continuous speech using the diphone method of segment assembly" ein Kombinationsrauschgenerator vorgestellt. Allerdings wird in dieser speziellen Quelle keinerlei Hinweis in Richtung der Hauptelemente der vorliegenden Erfindung gegeben, die sich auf die Verbesserung der Wahrnehmungsqualität von Sprache und anderen Klängen beziehen.
Ausführungsbeispiele der Erfindung sind in der Zeichnung dargestellt und werden im folgenden näher beschrieben. Es zeigen:
Figur 1 eine aus dem Stand der Technik bekannte Anordnung,
Figur 2 eine erste Ausführungsform einer erfindungsgemäßen Anordnung und
Figur 3 eine zweite Ausführungsform einer erfindungsgemäßen Anordnung.
Die in Figur 1 gezeigte Anordnung umfaßt eine erste Signalquelle 1, die dazu bestimmt ist, bei Betrieb ein periodisches Signal abzugeben, insbesondere eine Impulsfolge mit einer gegebenen wiederholungsfrequenz F&sub0;. Die Anordnung umfaßt weiterhin eine zweite Signalquelle 2, die dazu bestimmt ist, ein aperiodisches Signal abzugeben, insbesondere ein Rauschsignal. Die Ausgänge der beiden Signalquellen 1 und 2 sind mit den Eingängen einer Kombinationsschaltung 3 verbunden, die in Figur 1 in Umrissen als ein von einem VUV-Signal gesteuerter Schalter gezeigt ist. Dieses VUV-Signal bestimmt, ob ein stimmhaftes Klangsegment oder ein stimmloses Klangsegment erzeugt werden soll. Das Ausgangssignal der Kombinationsschaltung 3 wird einer Verstärkerstufe 4 mit variablem Verstärkungsfaktor G zugeführt. Das Signal G beeinflußt die Amplitude des kombinierten Signals als Funktion der Zeit. Das Ausgangssignal der Verstärkerstufe 4 wird einem variablem Filter 5 zugeführt, dem die Filterkoeffizienten C von außen zugeführt werden können. Diese Filterschaltung besteht in praktischen Ausführungsformen aus einer Anzahl Teilfilter 2. Ordnung, von denen jedes dazu bestimmt ist, eine der Formanten oder Resonanzfrequenzen zu modulieren, die innerhalb des gewahlten Bandbreitenbereiches auftreten können.
Figur 2 zeigt eine erste Ausführungsform einer erfindungsgemäßen Anordnung. wie die Anordnung aus Figur 1 ist auch die Anordnung aus Figur 2 mit einer ersten Signalquelle 11 ausgestattet, die dazu bestimmt ist, ein periodisches Signal mit einer gegebenen Wiederholungsfrequenz F&sub0; abzugeben, mit einer zweiten Signalquelle 12, die dazu bestimmt ist, bei Betrieb ein aperiodisches Signal oder ein Rauschsignal abzugeben, mit einer Kombinationsschaltung 13, in diesem Fall in Form eines Addierers, und mit einer Filterschaltung 15, die in diesem Fall ebenfalls mit einer Anzahl von Teilfiltern ausgestattet ist, die dazu bestimmt sind, die verschiedenen Formanten in dem gewählten Bandbreitenbereich zu bilden. Erfindungsgemäß ist die Anordnung aus Figur 2 außerdem mit einer dritten Signalquelle 14 ausgestattet, die eine Abfolge oder Sequenz von Rauschstößen abgibt, deren zeitliche Umhüllende synchron zur zeitlichen Umhüllenden des von der Signalquelle 11 abgegebenen Signals ist. Mit anderen worten, die von der Rauschquelle 14 abgegebenen Rauschstöße oder Rauschfolgen treten mit einer Wiederholungsfrequenz F&sub0; auf und haben außerdem alle wenigstens nahezu die gleiche Energie. Die Ausgangssgignale der Signalqellen 11, 14 werden im Addierer 17 miteinander kombiniert und, falls erforderlich, in einer Verstärkerstufe 18 verstärkt oder abgeschwächt, und das verstärkte oder abgeschwächte Signal wird der Kombinationsschaltung 13 zugeführt. Die Kombinationsschaltung 13 empfängt auch das Rauschsignal aus der Rauschquelle 12, wobei die Amplitude des Rauschsignals ebenfalls über eine Verstärker/Abschwächerstufe 19 beeinflußt werden. Auf die gleiche Weise wie in Figur 1 wird das Ausgangssignal der Kombinationsschaltung 13 ebenfalls einer Schaltung mit variablem Filter 15 zugeführt, deren Filterkoeffzienten C von außen zugeführt werden können. Das synthetische akustische Ausgangssignal wird dem Ausgang 16 zugeführt.
Mittels der erfindungsgemäßen Anordnung kann ein sehr viel natürlicherer Klang erzeugt werden, als es mit den dem Stand der Technik entsprechenden Anordnungen möglich ist. Unter Verwendung der Anordnung zur Erzeugung synthetischer Sprachsignale werden Vokale produziert, die eine solche (heisere) Klangfarbe haben, daß sogar unter idealen Bedingungen (beispielsweise beim Abhören des Sprachsignals mit einem hochwertigen Kopfhörer) die Vokale nicht oder kaum von natürlichen Vokalen unterschieden werden können, die im allgemeinen einen mehr oder weniger heiseren Eindruck vermitteln. wird die Anordnung beispielsweise zur Synthetisierung von Musik verwendet, wird ebenfalls ein Musiksignal mit solch einer "heiseren", einen natürlichen Eindruck vermittelnden Klangfarbe erhalten, daß selbst ein geübter Zuhörer es nicht oder kaum von einem Musiksignal unterscheiden kann, das von einem echten Musikinstrument erzeugt wurde. Mit anderen worten, die erfindungsgemäße Anordnung führt eine wahrnehmbare Klangfarbenveränderung herbei, im dem Sinne, daß die Klangfarbe "verrauschter" oder "heiserer" wird.
Die Rauschstöße können erhalten werden, indem das Ausgangssignal einer Rauschquelle, die ein Rauschsignal mit einem als Funktion der Zeit gleichen Energieinhalt abgibt, durch ein Filter geleitet wird, der so ausgeführt ist, daß das gefilterte Signal eine Energie aufweist, die sich mit der Zeit entsprechend einer vorher festgelegten Umhüllenden verändert. Dabei ist es vorzuziehen, daß der Zeitpunkt innerhalb der Periode, zu dem die Energie des Rauschens maximal ist, mehr oder weniger mit dem Zeitpunkt in der Periode zusammenfällt, zu dem die Energie des periodischen Signals maximal ist.
Die Anmelderin hat praktische Versuche durchgeführt, bei denen die verwendete Umhüllende ein Cosinsusquadrat-Fenster war, im Rahmen der Erfindung können jedoch auch andere Filtertypen verwendet werden, wie beispielsweise ein Gauß- Filter, ein Hamming-Filter, ein Hanning-Filter, ein Tukey-Filter usw..
Eine andere Ausführungsform der erfindungsgemäßen Anordnung ist in Figur 3 gezeigt. In Figur 3 sind die beiden Rauschquellen 14 und 12 aus Figur 2 zu einer einzigen Rauschquelle 24 kombiniert. Diese Rauschquelle 24 gibt ein in der Zeit moduliertes Rauschsignal ab, wobei die zeitliche Umhüllende dieses Rauschsignals eine Wiederholungsfrequenz F&sub0; hat, so daß die zeitliche Umhüllende der in diesem Rauschsignal auftretenden Rauschstöße synchron zur zeitlichen Umhüllenden des von der ersten Signalquelle 21 abgegebenen periodischen Signals ist. Diese erste Signalquelle 21 ist wieder vergleichbar mit der Quelle 11 aus Figur 2. Das Ausgangssignal der ersten Signalquelle 21 wird dann im Verstärker/Abschwächer 28 verstärkt oder abgeschwächt und der Kombinationsschaltung 23 zugeführt. Das Ausgangssignal des Rauschgenerators 24 wird in der Filterschaltung 27 einer Hochpaßfilterung unterzogen und dann im Verstärker/Abschwächer 29 verstärkt oder abgeschwächt und ebenfalls der Kombinationsschaltung 23 zugeführt. Das Ausgangssignal der Kombinationsschaltung 23 wird wieder einer Filterstufe 25 zugeführt, deren Filterwirkung von den von außen zugeführten Filterkoeffizienten C abhängt, und das endgültige synthetische akustische Signal wird dem Ausgang 26 zugeführt.
Schließlich sei darauf hingewiesen, daß in Figur 1 eine Verstärkerstufe mit einem variablem Verstärkungsfaktor G verwendet wird. Eine ähnliche Verstärkerstufe kann natürlich in Figur 2 und 3 aufgenommen werden. In den Figuren 2 und 3 müßte eine solche Verstärkerstufe zwischen der Kombinationsschaltung 13 beziehungsweise 23 und der Filterschaltung 15 beziehungsweise 25 aufgenommen werden. Es ist in diesem Falle ebenfalls möglich, die Kombinationsschaltung 13 beziehungsweise 23 so aufzubauen, daß die variable Verstärkungsfunktion in ihr verwirklicht wird.
Des weiteren sei darauf hingewiesen, daß lediglich in der Ausführungsform aus Figur 3 ein Tiefpaßfilter 22 und ein Hochpaßfilter 27 verwendet wird. Solche Filter können, falls erforderlich, auch in der Ausführungsform aus Figur 2 verwendet werden, wobei diese Filter dann in Reihe mit den Verstärkerstufen 18 beziehungsweise 19 geschaltet werden oder, wenn möglich, in diese Verstärkerstufen 18 und 19 integriert werden.

Claims

1. Klangsyntheseanordnung zur Erzeugung von gewünschten akustischen Signalen, wobei die Anordnung folgendes umfaßt:

- eine erste Signalquelle (1) zur Abgabe eines periodischen Signals mit einer gegebenen Wiederholungsfrequenz als Repräsentation der stimmhaften Anteile des gewünschten Signals,

- eine zweite Signalquelle (2) zur Abgabe eines aperiodischen Signals oder eines Rauschsignals als Repräsentation der stimmlosen Teile des gewünschten Klangsignals,

- eine Kombinationsschaltung (3) zur Kombination der Signale der beiden Signalquellen miteinander und

- eine Filterschaltung (5) mit einer variablen Übertragungsfunktion zur Verarbeitung des kombinierten Signals zu dem gewünschten Ausgangssignal, dadurch gekennzeichnet, daß die Anordnung mit einer dritten Signalquelle (14) zur Abgabe eines modulierten Rauschsignals ausgestattet ist, das eine Abfolge oder Sequenz von Rauschstößen umfaßt, deren zeitliche Umhüllende synchron zu der zeitlichen Umhüllenden des periodischen Signals ist und die stets die wenigstens nahezu gleiche Energie haben, wobei das modulierte Rauschsignal zusammen mit dem Signal der ersten Signalquelle (2, 11) der Kombinationsschaltung (3, 17) zugeführt wird.

2. Anordnung nach Anspruch 1, dadurch gekennzeichnet, daß die Modulation des von der dritten Signalquelle gelieferten Rauschsignals so ist, daß der Zeitpunkt innerhalb der Periode, zu dem die Energie des Rauschens maximal ist, mehr oder weniger mit dem Zeitpunkt in der Periode zusammenfällt, zu dem die Energie des periodischen Signals maximal ist.

3. Anordnung nach Anspruch 1 oder 2, zweite und die dritte Signalquelle miteinander kombiniert sind.