DE4218623C2

DE4218623C2 - Sprachsynthesizer

Info

Publication number: DE4218623C2
Application number: DE4218623A
Authority: DE
Inventors: Shunichi Yajima
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1991-06-05
Filing date: 1992-06-05
Publication date: 1996-07-04
Anticipated expiration: 2012-06-06
Also published as: JPH04358200A; DE4218623A1; US5369730A; JP3278863B2

Description

Die vorliegende Erfindung betrifft einen Sprachsynthesizer nach Anspruch 1.

Der Grundaufbau eines Sprachsynthesesystems ist beispielsweise im einzelnen in "DIGITAL PROCESSING OF SPEECH SIGNALS" von Rabiner (übersetzt von Suzuki), April 1983, Kapitel 6 und 7, und in einem Artikel "DIGITAL PROCESSING OF VOICE" von Furui, The Tokai University Publishing Society, September 1985 beschrieben.

In diesen Artikeln ist "ein Vocoder" als eine Art von Sprachsynthesizer vorgestellt. Der Vocoder dient, die Informationskomprimierbarkeit der Sprache zu erhöhen, um die Umsetzung und Synthese durchzuführen. In dem Vocoder wird die Spektrumseinhüllende aus der Sprache erhalten und die Sprache, die wieder aufzubauen ist, wird auf der Basis der Spektrumseinhüllenden synthetisiert. Die verschiedenen Arten von Voco dern sind bisher entwickelt worden, um die Klangqualität zu verbessern. In diesem Zusammenhang gibt es als typische Vocoder den Kanalvocoder und den homomorphen Vocoder.

In den Systemen, die diesen Vocoder anwenden, ist jedoch, da die Genauigkeit, die Spektrum-Einhüll-Information zu extrahieren unzurei chend ist, die Qualität der synthetisierten Sprache fragwürdig. Anderer seits ist als eine neue Methode, die Spektrum-Einhüll-Information zu extrahieren, kürzlich eine PSE-(Power Spectrum Envelope = Leistungs-Spektrum-Einhüll)-Methode vorgeschlagen worden. Diese Methode ist eine Methode, bei der das Fourier-Leistungsspektrum der Sprache mit einer Klang- bzw. Klanghöhen- bzw. Teilungsfrequenz abgetastet wird. Es wird erwogen, daß die synthetisierte Sprache, die durch diese Methode erhalten wird, eine hohe Qualität hat, verglichen mit dem System nach dem Stand der Technik. Zu den Einzelheiten davon kann Bezug genommen werden auf einen Artikel "POWER SPECTRUM ENVELOPE (PSE) SPEECH ANALYSIS/SYNTHESIS SYSTEM" von Nakajima et al. (JOURNAL OF THE ACOUSTICAL SOCIETY OF JAPAN, Bd. 44, Nr. 11, 1988-11).

Bei dem System der Sprachsynthetisierung, das die oben genannte PSE-Analyse-Synthese-Methode auf die gleiche Weise wie in dem homomor phen Vocoder verwendet, wird die Impulsantwort der synthetisierten Sprache in Intervallen der Klanghöhen- bzw. Teilungs-(Pitch)-Periode ausgesetzt. Gemäß dem obigen Artikel von Nakajima et al. wird die Impulsantwort durch Einstellen der Null-Phase erhalten. Das basiert auf dem Wissen, daß die Charakteristik akustischer Wahrnehmung eines Men schen eine geringe Empfindlichkeit gegenüber der Phase hat. Darüber hinaus werden gemäß dem obigen Artikel "DIGITAL PROCESSING OF SPEECH SIGNALS" von Rabiner zusätzlich zu der Null-Phase die minimale Phase und die maximale Phase eingestellt, um die Impuls antwort zu erhalten, und die Qualitäten der individuellen, synthetisierten Sprache werden miteinander verglichen. Als ein Ergebnis wird zu dem Schluß gekommen, daß die beste Qualität synthetisierter Sprache durch die Minimum-Phasen-Methode erhalten werden kann.

Es ist jedoch gefun den worden, daß eine Zufalls-Phasenkomponente in der Hochfrequenz komponente der Wellenform der natürlichen Sprache enthalten ist, und die Zufalls-Phasenkomponente hat eine wichtige Rolle in natürlich klin gender Sprache. Da die Wellenform der Zufalls-Phasenkomponente in die Wellenform mit einer einheitlichen Phase umgewandelt ist, existiert die natürliche Sprache bei der obigen Methode jedoch in der syntheti sierten Sprache. Darüberhinaus ist auch die gleiche Tatsache in wieder zusammengesetzten Klängen von Musikinstrumenten erkannt worden.

Die vorliegende Erfindung wurde aufgrund der obigen Umstände ge macht, und es ist eine Aufgabe, einen Sprachsynthesizer zu schaffen, der derart konstruiert ist, daß die synthetisierte Sprache bzw. der synthetisier te Klang hoher Qualität sicher bzw. dauerhaft erhalten wird.

Diese Aufgabe wird erfindungsgemäß durch einen Sprachsynthesizer gelöst, der in den Ansprüchen definiert ist.

Gemäß einem Gesichtspunkt der vorliegenden Erfindung wird ein Sprach synthesizer zum Auslesen einer partiellen Wellenform eines Klangs geschaffen, der vorher gespeichert ist, um die partielle Wellenform in jeder Periode einer Überlappungsaddition zu unterziehen, um Sprache zu erzeugen, und um eine Einheit zum Speichern einer periodischen Wellenform eines Klangs, eine Einheit zum Speichern einer aperiodischen Wellenform eines Klangs und eine Einheit zum synchronen Addieren der periodischen Wellenform und der aperiodi schen Wellenform zueinander zu schaffen.

Angesichts dessen, daß das Einstellen der einheitlichen Phase eine Ver schlechterung der Qualität der synthetisierten Sprache verursacht, um die Erzeugung der Zufallskomponente der Hochfrequenz-Wellenform davon abzuhalten, realisiert zu werden, ist der Sprachsynthesizer gemäß der vorliegenden Erfindung aufgebaut, um die Zufallskomponente einer hohen Frequenz erzeugen zu können.

Genauer gesagt werden in dem Sprachsynthesizer gemäß der vorliegenden Erfindung die Wellenform der periodischen Komponente (Impulsantwort) und jene der aperiodischen Komponente einzeln gespeichert. In bezug auf die Wellenform der periodischen Komponente wird die Wellenform der Impulsantwort der Überlappungsaddition in Intervallen der bestimm ten Periode unterzogen, d. h. die Wellenform der Impulsantwort wird verschoben, um jede vorbestimmte Periode addiert zu werden, und die Wellenform der aperiodischen Komponente wird zu der periodischen Komponente addiert, um dadurch die Wellenform der natürlichen Spra che zu erhalten, wobei die Wellenform der Zufallskomponente überlagert ist.

Als nächstes wird die Methode zum Erhalten der Wellenform der peri odischen Komponente und jener der aperiodischen Komponente beschrie ben. Die aperiodische Komponente ist in den Komponenten hoher Frequenz (z. B. 2 kHz oder mehr) enthalten. Daher wird das Ergebnis des Ausgangs des Tiefpaßfilters der ursprünglichen Sprache verwendet, um die Wellenform der periodischen Komponente zu extrahieren, wäh rend das Ergebnis des Ausgangs des Hochpaßfilters verwendet wird, die Wellenform der aperiodischen Komponente zu extrahieren. In bezug auf die Methode zum Erhalten der Wellenform der periodischen Komponente (Impulsantwort) sind die Einzelheiten in dem obigen Artikel "POWER SPECTRUM ENVELOPE SPEECH ANALYSIS/SYNTHESIS SYSTEM". von Nakajima et al. beschrieben. Das bedeutet, daß die Wellenform der periodischen Komponente durch Multiplizieren der Sprache mit dem Zeitfenster extrahiert wird (z. B. dem Hamming-Fenster), und zwar jede auf den neuesten Stand gebrachte Periode der Daten (z. B. 10 ms). Die Wellenform der aperiodischen Komponente wird durch Multiplizieren der Sprache mit dem Zeitfenster (rechtwinkliges Fenster) extrahiert, dessen Länge die gleiche ist, wie die auf den neuesten Stand gebrachte Periode, und zwar jede auf den neuesten Stand gebrachte Periode, die die gleiche wie jene der Extraktion der Wellenform der periodischen Komponente ist. Somit wird die aperiodische Komponente der Wellenform herkömm lich verarbeitet, als ob sie eine periodische Komponente ist, was eine Verschlechterung der Audio-Quantität verursacht. Andererseits wird, da die aperiodische Komponente zuvor von dem Audio-Signal getrennt ist, und die aperiodische Komponente zu der periodischen Komponente der Wellenform addiert ist, so daß die aperiodische Komponente nicht in die periodische Komponente geändert wird, die Reproduktion eines guten Hörgefühls erhalten.

Weitere Vorteile und Anwendungsmöglichkeiten der vorliegen den Erfindung ergeben sich aus der nachfolgenden Beschreibung von Ausführungsbeispielen in Verbindung mit der Zeichnung.

Fig. 1A ist ein Blockdiagramm, das die Anordnung eines Ausführungsbei spiels eines Sprach-Analyse-Synthese-Systems unter Verwendung der vorliegenden Erfindung zeigt;

Fig. 1B ist ein Wellenformdiagramm, das ein Beispiel einer in einer in Fig. 1A gezeigten Impulsantwort-Wellenform-Speichereinheit gespeicherten Wellenform zeigt;

Fig. 1C ist ein Wellenformdiagramm, das ein Beispiel einer Wellenform zeigt, die der Überlappungsaddition in einer Überlappungsaddi tionseinheit unterzogen wurde, die in Fig. 1A gezeigt ist;

Fig. 1D ist ein Wellenformdiagramm, das ein Beispiel einer Wellenform zeigt, die in einer Speichereinheit für aperiodische Wellenform gespeichert ist, die in Fig. 1A gezeigt ist;

Fig. 1E ist ein Wellenformdiagramm, das ein Beispiel einer Wellenform zeigt, die durch die Addition in einer Einheit für einfache Addition erhalten wurde, die in Fig. 1A gezeigt ist;

Fig. 2 ist ein Blockdiagramm, das die Anordnung eines Ausführungsbei spiels eines Systems für Sprachsynthese durch eine Regel gemäß der vorliegenden Erfindung zeigt;

Fig. 3 ist ein Blockdiagramm, das die Anordnung eines weiteren Aus führungsbeispiels des Systems für Sprachsynthese durch eine Regel gemäß der vorliegenden Erfindung zeigt;

Fig. 4 ist ein Blockdiagramm, das die Anordnung einer Extraktionsein heit für periodische Wellenform/aperiodische Wellenform zeigt;

Fig. 5 ist ein Blockdiagramm, das die Anordnung einer Trenneinheit für periodische Wellenform/aperiodische Wellenform zeigt;

Fig. 6A ist ein Wellenformdiagramm, das ein Beispiel eines eingegebe nen Sprachwellenformsignals zeigt;

Fig. 6B ist ein Wellenformdiagramm, das eine aperiodische Wellenform hoher Frequenz einer durch die vorliegende Erfindung syntheti sierten Sprache bzw. Geschwindigkeit zeigt; und

Fig. 6C ist ein Wellenformdiagramm, das eine aperiodische Wellenform hoher Frequenz einer durch die Null-Phasen-Einstellmethode nach dem Stand der Technik synthetisierte Sprache bzw. Ge schwindigkeit zeigt.

Die bevorzugten Ausführungsbeispiele der vorliegenden Erfindung werden im nachfolgenden im einzelnen unter Bezugnahme auf die beigefügten Zeichnungsseiten beschrieben. Übrigens sind in bezug auf die Sprachsyn these zwei Methoden wohlbekannt, d. h. die Synthese durch Analyse und die Synthese durch eine Regel.

Fig. 1A ist ein Blockdiagramm, das die Anordnung eines Sprachsynthese systems (Sprachsynthesizers) eines Ausführungsbeispiels der vorliegenden Erfindung auf der Basis der Synthese durch Analyse zeigt. In Fig. 1A ist gezeigt: eine Impulsantwort-Wellenform-Speichereinheit 101, eine Überlappungsadditions einheit 102, die die Wellenform der Impulsantwort in periodischen Inter vallen der Überlappungsaddition unterzieht, eine Einheit 103 für einfache Addition zum Addieren der durch die Überlappungsaddition erhaltenen Wellenform und die aperiodische Wellenform zueinander, ein Doppel pufferspeicher 104 zum Ausgeben von Sprachen und ein Digital/Ana log-(D/A)-Wandler 105. Darüberhinaus ist gezeigt: eine Perioden-Speicher einheit 110 und eine Perioden-Wellenform-Speichereinheit 120.

Der Betrieb des derart aufgebauten Sprachsynthesesystems ist wie folgt. Zuerst werden die Wellenformdaten in der Impulsantwort-Wellenform-Spei chereinheit 101 gespeichert, was auf einem derartigen Weg erhalten wurde, der in Fig. 1B gezeigt ist; die periodische Wellenform eines Klangs wurde in der Richtung der Zeit abgetastet, um in der Richtung der Amplitude quantisiert zu werden. Die Daten, die ein vorbestimmtes periodisches Intervall des Klangs darstellen, werden in der Perioden-Spei chereinheit 110 gespeichert. In der Überlappungsadditionseinheit 102 werden die Wellenformdaten, die von der Impulsantwort-Wellenform-Spei chereinheit 101 ausgelesen wurden, der Überlappungsaddition in periodischen Intervallen unterzogen, die von der Perioden-Speichereinheit 110 ausgelesen wurden. Das heißt, daß die Wellenformdaten verschoben werden, um jedes Periodenintervall addiert zu werden, das aus der Perioden-Speichereinheit 110 ausgelesen ist. Die resultierenden Wellen formdaten sind in Fig. 1C gezeigt. Das periodische Intervall, das in der Perioden-Speichereinheit 110 gespeichert ist, entspricht der Spitze-Spitze der Wellenformdaten, gezeigt in Fig. 1C. In der Einheit 103 für ein fache Addition wird die Wellenform, die durch die Überlappungsaddition erhalten wurde, zu den Daten aperiodischer Wellenform addiert, die aus der Speichereinheit 120 für aperiodische Wellenform ausgelesen wurden. Die Daten aperiodischer Wellenform sind beispielsweise Zufalls-Wellen formdaten, wie in Fig. 1D gezeigt. Die Wellenformdaten, die durch die Addition in der Einheit 103 für einfache Addition erhalten wurden, haben eine Wellenform, bei der die Wellenformdaten der Fig. 1D den Wellenformdaten der Fig. 1C überlagert sind, wie in Fig. 1E gezeigt. Jene Wellenformdaten werden durch den A/D-Wandler 105 durch den Doppelpufferspeicher 104 für die Sprachausgabe in eine analoge Wellen form umgewandelt und dann durch das Tiefpaßfilter 111 geführt, um in der Form einer Sprache 106 ausgegeben zu werden.

Fig. 2 ist ein Blockdiagramm, das die Anordnung eines Sprachsynthesesy stems 1 eines Ausführungsbeispiels der vorliegenden Erfindung auf der Basis der Methode der Sprachsynthese durch eine Regel zeigt. In Fig. 2 ist eine Perioden-Erzeugungseinheit 210 zum Erzeugen eines periodi schen Intervalls gezeigt. Das periodische Intervall entspricht der Spitze- Spitze der Wellenformdaten, gezeigt in Fig. 1B. Die Bezugszeichen, die andere als das Bezugszeichen 210 sind, sind die gleichen wie jene der Fig. 1. Der Betrieb des so aufgebauten Sprachsynthesesystems 1 der vorliegenden Erfindung ist wie folgt. In der Überlappungsadditions-Einheit 102 wird die Überlappungsaddition der Impulsantwort-Wellenform daten in periodischen Intervallen durchgeführt, die in der Perioden-Er zeugungseinheit 210 erhalten werden. Die nachfolgenden Operationen sind die gleichen wie jene des Beispiels des Betriebs des obigen Sprach synthesesystems. In der Perioden-Erzeugungseinheit 210 ist die Methode des Addierens oder Subtrahierens eines bestimmten konstanten Wertes zu oder von der Periode angewandt, und zwar zum Zwecke des Durch führens der Änderung der Teilungsperiode eines vorbestimmten Sprach klangs (Teilungsverschiebung), das Fujisaki-Modell, das zu dem Zweck ausgedacht wurde, auf das Sprachsynthesesystem durch eine Regel und ähnliches angewandt zu werden. Die Methode zum Erzeugen einer Periode durch das Fujisaki-Modell ist beispielsweise in der JP-A-64-28695 beschrieben und wird dem Fachmann vollständig bekannt sein.

Fig. 3 ist ein Blockdiagram, das die Anordnung eines Sprachsynthesesy stems 2 eines weiteren Ausführungsbeispiels der vorliegenden Erfindung auf der Basis der Methode der Sprachsynthese durch eine Regel zeigt. Bei der Sprachsynthese durch eine Regel ist es das wichtige Thema, die Qualität der synthetisierten Sprache möglichst jener einer natürlichen Stimme anzunähern. Es ist eine Tendenz beobachtet worden, bei der in der natürlichen Stimme das Pegelverhältnis der periodischen Wellenform zu der aperiodischen Wellenform in der Wellen form der natürlichen Stimme entsprechend der Position der Satzsprache geändert wird. Eine Tendenz der Änderung des Verhältnisses ist derart, daß, wenn die Klang- bzw. Teilungsperiode am Ende eines Satzes bei spielsweise lang wird, das Pegelverhältnis der aperiodischen Wellenform erhöht wird. Bei dem Sprachsynthesesystem durch eine Regel, in dem die Charakteristiken der Wellenform der natürlichen Stimme reflektiert werden, nähert sich die resultierende synthetisierte Sprache der natürli chen Stimme an, so daß die Qualität der synthetisierten Sprache erhöht ist. Dies ist das Sprachsynthesesystem durch eine Regel 2 in groben Zügen.

In Fig. 3 ist eine Pegel-Steuereinheit 211 zum Steuern der Spitze-Spitze der Daten aperiodischer Wellenform gezeigt. Die Bezugszeichen, die andere als das Bezugszeichen 211 sind, sind die gleichen wie jene der Fig. 2. Der Betrieb des so aufgebauten Sprachsynthesesystems durch eine Regel 2 ist wie folgt. In der Pegelsteuereinheit 211 wird der Pegelwert (der Spitzenwert der aperiodischen Wellenform), der die positive Korrelation zu dem Wert der Periode hat, die durch die Peri oden-Erzeugungseinheit 210 erzeugt ist, erhalten, und dann werden die Daten periodischer Wellenform mit dem Pegelwert multipliziert. Anders ausgedrückt ist der Spitzenwert der Wellenform gegeben, zu dem die Wellenformdaten, die in Fig. 1D gezeigt sind, überlagert wird. Die Operationen, die anders als die obigen sind, sind die gleichen wie jene des Beispiels des Betriebs des oben genannten Sprachsynthesesystems.

Fig. 4 ist ein Blockdiagramm, das ein Beispiel der Anordnung einer Einheit zum Extrahieren einer periodischen Wellenform und einer aperi odischen Wellenform zeigt. In Fig. 4 ist gezeigt: ein Eingangs-Sprach signal 401, das durch Unterziehen der Sprache der Sprache-zu-elektrisches Sprachsignal-Umwandlung durch ein Mikrofon und dergleichen erhalten wurde, ein Analog/Digital-(A/D)-Wandler 402 und ein Zweitor-Puffer speicher 403. Dieser Speicher 403 ist vorgesehen, um die Diskontinuität der Zeiteinstellung der folgenden Verarbeitung und der eingegebenen Sprache zu verhindern. Darüberhinaus ist eine Einheit 405 zum Trennen einer periodischen Wellenform und einer aperiodischen Wellenform voneinander gezeigt, ein Impulsantwort-Wellenformsignal 406 und ein Signal 407 aperiodischer Wellenform.

Der Betrieb der auf diese Weise aufgebauten periodische Wellenform/ aperiodische Wellenform-Extraktionseinheit ist in groben Zügen wie folgt.

Das eingegebene Sprachsignal 401, das durch Unterziehen der Sprache der Sprache-zu-elektrisches Sprachsignal-Wandlung durch ein Mikrofon und dergleichen erhalten wurde, wird dem Zweitor-Pufferspeicher 403 durch den A/D-Wandler 402 eingegeben. Die Sprachdaten 404, die von dem Pufferspeicher 403 ausgelesen wurden, werden der Trenneinheit für periodische Wellenform/aperiodische Wellenform-Trenneinheit 405 einge geben, die die periodische Wellenform und die aperiodische Wellenform voneinander trennt, um das Impulsantwort-Wellenformsignal 406 und das Signal 407 aperiodischer Wellenform einzeln auszugeben. In diesem Zusammenhang ist es, wenn anstelle der Impulsantwort-Wellenform-Spei chereinheit 101 und der Speichereinheit 120 für aperiodische Wellen form, die in Fig. 1 gezeigt sind, die Extraktionseinheit für periodische Wellenform/aperiodische Wellenform, die in Fig. 4 gezeigt ist, ange schlossen ist, möglich, die Sprachsynthese des eingegebenen Sprachsignals 401 zu erhalten, das kontinuierlich eingegeben wird, und zwar anstelle der gespeicherten Wellenformdaten.

Fig. 5 ist ein Blockdiagramm, das ein Beispiel der Anordnung der Trenneinheit 405 für periodische Wellenform/aperiodische Wellenform zeigt. In Fig. 5 ist gezeigt Sprachdaten 404, die aus dem Zweitorpuf ferspeicher 403 der Fig. 4 ausgelesen wurden, eine Einheit 501 zum Ausschneiden eines Blocks, eine Bandteilungseinheit 502 zum Teilen der Wellenformdaten in zwei Bänder niedriger Frequenz und hoher Frequenz, die resultierende Wellenform 510 niedriger Frequenz und die resultieren de Wellenform 520 hoher Frequenz. Darüberhinaus ist eine Teilungs- bzw. "Pitsch"-Extraktionseinheit 503 zum Erhalten einer Teilungsperiode aus der Wel lenform niedriger Frequenz gezeigt, eine Periodizitätsbeurteilungseinheit 504 zum Beurteilen der Periodizität der Wellenform hoher Frequenz, eine Wellenformherausgabeeinheit 505 zum Durchführen der Wellenform herausgabe entsprechend dem Ergebnis der Beurteilung der Periodizität, eine Impulsantwort-Wellenform-Erzeugungseinheit 506 zum Erhalten von Impulsantwort-Wellenformdaten aus der periodischen Wellenform und eine Rechteckfenster-Multipliziereinheit zum Ab- oder Ausschneiden der aperiodischen Wellenform in dem Blockintervall.

Der Betrieb der auf diese Weise aufgebauten Trenneinheit für periodi sche Wellenform/aperiodische Wellenform ist in groben Zügen wie folgt.

Wenn die Sprachdaten 404 eingegeben sind, werden die Wellenformdaten mit einer festen Zeitdauer jede Blockperiode in der Block-Ausschneid-Ein heit 501 erhalten. Die Bandteilungseinheit 502 teilt jene Wellenform daten in zwei Bänder niedriger Frequenz und hoher Frequenz, um die Wellenformdaten niedriger Frequenz 510 und die Wellenformdaten hoher Frequenz 520 auszugeben. Die Teilungsextraktionseinheit 503 erhält die Teilungsperiode aus den Wellenformdaten niedriger Frequenz 510. Der Grund dafür ist, daß die Periodizität der Wellenform niedriger Frequenz stabiler ist. In dem Fall der Sprachsynthese durch eine Regel kann zum Zwecke des Verbesserns der Qualität synthetisierter Sprache die Teilungs periode in einem nichtflüchtigen Speicher 500 gespeichert werden. In der Periodizitäts-Beurteilungseinheit 504 wird, wenn die Wellenformdaten hoher Frequenz 520 eingegeben sind, der Korrelationswert zwischen den Teilungsperiodenlängen der benachbarten periodischen Wellenformen, die in der Teilungsextraktionseinheit 503 erhalten werden, erhalten, um die Periodizität der Wellenform hoher Frequenz in Abhängigkeit von der Größe des Korrelationswertes zu beurteilen. Wenn der Korrelationswert groß ist, ist die Periodizität vorhanden, während, wenn der Korrelations wert klein ist, die Periodizität nicht vorhanden ist. In der Wellenform herausgabeeinheit bzw. -editiereinheit 505 wird die Wellenformherausgabe bzw. das -editieren entsprechend dem Ergebnis der Beurteilung der Periodizität durchgeführt. In der Wellenformherausgabeeinheit 505 werden, wenn die Periodizität vorhanden ist, die Wellenformdaten, die durch Addieren der Wellenformdaten niedriger Frequenz 510 und der Wellenformdaten hoher Frequenz 520 zueinander erhalten wurden, als Daten periodischer Wellenform ausgegeben. Zu diesem Zeitpunkt werden die Wellenformdaten, die den Wert "Null" haben, über die gesamten Intervalle als die Daten aperiodischer Wellenform ausgegeben. Andererseits werden, wenn die Periodizität nicht vorhanden ist, die Wellenformdaten 510 niedriger Frequenz als die Daten periodischer Wellenform ausgegeben, während die Wellenformdaten 520 hoher Fre quenz als die Daten aperiodischer Wellenform ausgegeben werden. Wenn die Daten periodischer Wellenform eingegeben sind, erhält die Impulsantwort-Wellenform-Erzeugungseinheit 506 die Impulsantwort-Wel lendaten 406. In diesem Zusammenhang werden die Impulsantwort-Wel lenformdaten 406 auf solche Art erhalten, daß die periodische Wel lenform der Fourier-Transformation unterzogen werden, die Spektrumein hüllende wird aus den resultierenden Spektren erhalten und die inverse Fourier-Transformation der Spektrumeinhüllenden wird durchgeführt. Darüberhinaus erhält, wenn die Daten aperiodischer Wellenform eingege ben sind, die Rechteckfenster-Multipliziereinheit 507 die Daten aperiodi scher Wellenform entsprechend dem Blockintervall, um dadurch Daten 407 aperiodischer Wellenform zu erhalten, die die Blockperiodenlänge aufweisen. In dem Fall der Sprachsynthese durch eine Regel können Impulsantwort-Wellenformdaten 406 und die Daten 407 aperiodischer Wellenform in jeweiligen nichtflüchtigen Speichern 500 gespeichert wer den.

Wie oben beschrieben ist, sind die Impulsantwort-Wellenform-Speicher einheit, die Speichereinheit 120 für aperiodische Wellenform und die Perioden-Speichereinheit 110, die in den Fig. 1A, 2 und 3 gezeigt sind, durch jene nichtflüchtigen Speicher 500 ersetzt.

Im nachfolgenden werden Einzelheiten des Betriebs der Trenneinheit für periodische Wellenform/aperiodische Wellenform beschrieben. Es gibt einige wohlbekannte Methoden zum Realisieren der Bandteilungseinheit 502. Eine davon ist eine Methode, bei der das Tiefpaßfilter präpariert ist, die Ausgabe, die durch Eingeben der Sprachdaten 404 zu jenem Filter erhalten wurde, als die Wellenformdaten niedriger Frequenz be nutzt wird, und die Daten, die durch Subtrahieren der Wellenformdaten niedriger Frequenz von den Sprachdaten 404 erhalten wurden, als die Wellenformdaten hoher Frequenz benutzt werden. Mehr Einzelheiten über den Aufbau des digitalen Filters wie beispielsweise ein Tiefpaßfilter ist in dem Artikel "DIGITAL PROCESSING OF SPEECH SIGNALS" von Rabiner (übersetzt von Suzuki) beschrieben. Es ist zu verstehen, daß es sogar, wenn das Hochpaßfilter präpariert ist, möglich ist, die gleiche Trennverarbeitung durchzuführen. Darüberhinaus erfordert die Methode, die von keinem digitalen Filter abhängt, die Fourier-Transformationsverarbeitung.

Bei dieser Methode werden, wenn die numerischen Werte der Frequenz komponenten, die durch die Fourier-Transformation erhalten wurden und deren Frequenz höher oder gleich einer vorbestimmten Frequenz ist, auf Null gesetzt werden, und dann wird die inverse Fourier-Transformation durchgeführt, und es werden Wellenformdaten niedriger Frequenz erhal ten. Für eine hohe Geschwindigkeit zum Ausführen der Methode ist die schnelle Fourier-Transformation (allgemein als FFT bekannt) wohlbe kannt. Dann ist es geeignet, daß die Trennfrequenz zwischen der hohen Frequenz und der niedrigen Frequenz (d. h. die Grenzfrequenz des Tief paßfilters) auf 2 bis 3 kHz eingestellt ist.

Weiterhin ist die Methode zum Erhalten der Teilungsperiode im einzel nen in dem obigen Artikel beschrieben.

Mit dem Korrelationswert, der in der Periodizitätsbeurteilungseinheit 504 berechnet ist, ist der Autokorrelationskoeffizient gemeint, der um die Teilungsperiode verzögert ist. Der Rechnungsausdruck wird durch die folgende Gleichung ausgedrückt:

wobei Φ den Autokorrelationskoeffizienten darstellt, Tp die Teilungs periode darstellt und W(i) die Wellenformdaten zu der Zeit i (Spitzen wert) darstellt. W(0) sind die Wellenformdaten, die jede Blockperiode an der Mitte der Wellenformgrenze sind. Der Autokorrelationskoeffizient Φ nimmt die Werte in dem Bereich von -1 bis +1 an. Wenn der Autokorrelationskoeffizient Φ einen Wert nahe 1 annimmt, wird die Wellenform beurteilt, periodisch zu sein. Wenn der Autokorrelations koeffizient Φ einen Wert geringer als 0,7 bis 0,5 annimmt, kann die Wellenform beurteilt werden, aperiodisch zu sein.

Weiterhin ist die Methode zum Erhalten der Impulsantwort-Wellenform daten aus den Daten periodischer Wellenform im einzelnen in der Beschreibung über den homomorphen Vocoder in dem Artikel "DIGITAL PROCESSING OF SPEECH SIGNALS" von Rabiner (übersetzt von Suzuki) dargestellt.

Das Sprach-Analyse-Synthesesystem kann derart realisiert werden, daß die Ein-Perioden-Wellenformdaten 406 und die Daten 407 aperiodischer Wellenform, die in der Extraktionseinheit für periodische Wellenform/ aperiodische Wellenform erhalten wurden, die unter Bezugnahme auf Fig. 4 beschrieben ist, und die Teilungsperiode 400, die unter Bezugnahme auf Fig. 5 beschrieben wurde, in dem Analyse-Synthesesystem (Fig. 1A) der Impulsantwort-Wellenform-Speichereinheit 101 und der Speichereinheit 120 für aperiodische Wellenform des Sprachsynthesesystems durch eine Regel (Fig. 2 und 3) bzw. der Perioden-Speichereinheit 110 aufgezeichnet werden. Insbesondere wenn die Zeitverzögerung zwischen der Sprach analyseverarbeitung und der Sprachsyntheseverarbeitung nicht vorhanden ist, wie es in den Fig. 1A, 2 und 3 gezeigt ist, kann die Sprachsynthese funktion derart realisiert werden, daß die Wellenformdaten direkt zu der Überlappungsadditionseinheit 102 und der Einheit 103 für einfache Addition eingegeben werden, ohne die Impulsantwort-Wellenform-Spei chereinheit 101, die Speichereinheit 120 für aperiodische Wellenform und die Periodenspeichereinheit 110 vorzubereiten.

Fig. 6A bis 6C sind jeweils Wellenformdiagramme, die experimentell erhalten wurden. Daraus zeigt Fig. 6A eine Wellenform des eingegebe nen Sprachsignals 401, das in Fig. 4 gezeigt ist, und enthält die Kom ponenten des gesamten Bandes. Die Fig. 6B zeigt die aperiodische Wellenform, die in der Speichereinheit 120 für aperiodische Wellenform gespeichert ist, die in Fig. 1A gezeigt ist, oder die aperiodische Wellen form 407, die in den Fig. 4 und 5 gezeigt ist. Das bedeutet, daß die aperiodische Wellenform 407 den in der Fig. 1D gezeigten Wellenform daten entspricht. Da jene aperiodische Wellenform die Wellenform hoher Frequenz der synthetisierten Sprache der vorliegenden Erfindung ist und die Komponente aperiodischer Wellenform des eingegebenen Sprachsignals 401, das in Fig. 6A gezeigt ist, getreu rekonstruiert, ergibt die rekonstruierte Sprache ein gutes Hörgefühl, verglichen mit der Wel lenform hoher Frequenz der synthetisierten Sprache durch die Null-Phasen-Einstellmethode nach dem Stand der Technik, die in Fig. 6C gezeigt ist, in der dargestellt ist, daß die aperiodische Komponente der Wellenform verarbeitet ist, als ob sie eine periodische Komponente ist. Es ist selbstverständlich, daß diese Sprachsynthese nicht auf die natürli che Stimme beschränkt ist und auf ähnliche Weise auf die Klänge von Musikinstrumenten und dergleichen anwendbar ist.

Claims

1. Sprachsynthesizer zum Synthetisieren von Sprache durch Überlappen eines partiellen Sprachwellenformsignals zu vorbestimmten Perioden, welcher aufweist:
eine erste Wellenformspeicherungseinrichtung (101) zum Speichern einer Ein-Perioden-Wellenformsignalkomponente in dem Sprach wellenformsignal;
eine zweite Wellenformspeicherungseinrichtung (120) zum Speichern eines aperiodischen Wellenformsignals, das aus einer hohen Fre quenzkomponente gebildet ist, die sich von der Ein-Perioden-Wellen formsignalkomponente unterscheidet; und
eine Einrichtung (102, 103) zum Generieren eines Sequentiell-Peri oden-Wellenformsignals durch Verschieben des Ein-Perioden-Wellen formsignals, das aus der ersten Wellenformspeicherungseinrichtung in jeder vorbestimmten Periode ausgelesen worden ist, und durch synchrones Überlagern des Sequentiell-Perioden-Wellenformsignals und des aperiodischen Wellenformsignals, das aus der zweiten Wel lenformspeicherungseinheit ausgelesen worden ist.

2. Sprachsynthesizer nach Anspruch 1, dadurch gekennzeichnet, daß die Einrichtung zum Generieren eines Sequentiell-Perioden-Wellenformsi gnals eine Überlappungsadditionseinheit (102) zum Generieren eines Sequentiell-Perioden-Wellenformsignals durch Verschieben des Ein- Perioden-Wellenformsignals aufweist, das aus der ersten Wellenform speicherungseinrichtung (101) in der vorbestimmten Periode ausgele sen worden ist, und eine einfache Additionseinheit (103) zum Über lagern des Sequentiell-Perioden-Wellenformsignals und des aperiodi schen Wellenformsignals aufweist, das aus der zweiten Wellenspeiche rungseinrichtung (120) ausgelesen worden ist.

3. Sprachsynthesizer nach Anspruch 2, dadurch gekennzeichnet, daß die Einrichtung zum Generieren eines Sequentiell-Perioden-Wellenform signals eine Periodenspeicherungseinheit (110) zum Speichern von Periodendaten zum Bestimmen einer Periode des Sequentiell-Peri oden-Wellenformsignals aufweist.

4. Sprachsynthesizer nach Anspruch 2, dadurch gekennzeichnet, daß die Einrichtung zum Generieren eines Sequentiell-Perioden-Wellenformsi gnals eine Perioden-Erzeugungseinheit (210) zum Bilden einer Perio de des Sequentiell-Perioden-Wellenformsignals aufweist.

5. Sprachsynthesizer nach Anspruch 4, dadurch gekennzeichnet, daß die Perioden-Erzeugungseinheit (210) mit einer Pegel-Steuereinheit (211) zum Steuern eines Spitzenwertes des aperiodischen Wellenformsignals verbunden ist, das aus der zweiten Wellenspeicherungseinrichtung (120) ausgelesen worden ist.

6. Sprachsynthesizer nach Anspruch 5, dadurch gekennzeichnet, daß die Pegel-Steuereinheit (211) den Spitzenwert bestimmt, der eine positive Korrelation zu der Periode hat, die aus der Perioden-Erzeugungsein heit (210) ausgelesen worden ist.

7. Sprachsynthesizer nach Anspruch 1 mit einem Sprachanalysator, dadurch gekennzeichnet, daß die erste Wellenformspeicherungsein richtung (101) und die zweite Wellenformspeicherungseinrichtung (120) aufweisen:
einen A/D-Wandler (402) zum Wandeln des Sprachwellenformsignals in ein Digitalsignal;
einen Pufferspeicher (403) zum Speichern des Digitalsignals; und
eine Trenneinheit (405) zum Trennen des Digitalsignals in ein perio disches Wellenformsignal und in ein aperiodisches Wellenformsignal.

8. Sprachsynthesizer nach Anspruch 7, dadurch gekennzeichnet, daß die Trenneinheit (405) aufweist:
eine Blockabschneideeinheit (501) zum Wandeln des Sprachwellen formsignals in Blockdaten, die durch Wellenformdaten kurzer Zeit konstruiert sind,
eine Bandteilungseinheit (502) zum Teilen der Blockdaten in ein Band von Wellenformdaten niedriger Frequenz und ein Band von Wellenformdaten hoher Frequenz,
eine Teilungsextraktionseinheit (503) zum Erhalten einer Teilungs periode aus den Wellenformdaten niedriger Frequenz,
eine Periodizitätsbeurteilungseinheit (504) zum Beurteilen der Perio dizität der Wellenformdaten hoher Frequenz, eine Wellenformedi tiereinheit (505) zum Editieren der Blockdaten in Daten periodischer Wellenform und Daten aperiodischer Wellenform in Übereinstim mung mit dem Ergebnis der Beurteilung der Periodizität,
eine Impulsantwort-Wellenform-Erzeugungseinheit (506) zum Erhalten von Wellenformdaten der Impulsantwort aus den Daten periodischer Wellenform, und
eine Rechteckfenster-Multipliziereinheit (507) zum Erhalten von Daten aperiodischer Wellenform eines Blockintervalls aus den Daten aperiodischer Wellenform.

9. Sprachsynthesizer nach Anspruch 8, wobei die Teilungsextraktionsein heit (503), die Impulsantwort-Wellenform-Erzeugungseinheit (506) und die Rechteckfenster-Multipliziereinheit (507) jeweils mit nichtflüchti gen Speichern (500) verbunden sind, und die Teilungsperiodendaten aus der Teilungsextraktionseinheit (503), die Impulsantwortwellenform aus der Impulsantwort-Wellenform-Erzeugungseinheit (506) und die Daten aperiodischer Wellenform aus der Rechteckfenster-Multiplizier einheit (507) jeweils in den Speichern (500) gespeichert sind.