DE69330022T2

DE69330022T2 - Sprachdekoder

Info

Publication number: DE69330022T2
Application number: DE69330022T
Authority: DE
Inventors: Toshiyuki Nomura; Kazunori Ozawa
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1992-12-24
Filing date: 1993-12-22
Publication date: 2001-08-09
Anticipated expiration: 2013-12-23
Also published as: EP0603854B1; EP0603854A3; JP2746033B2; EP0603854A2; CA2112145A1; JPH06202696A; DE69330022D1; CA2112145C; US5862518A

Description

Diese Erfindung betrifft einen Sprachdecoder zum hochwertigen Decodieren eines Sprachsignals, das mit einer niedrigen Bitrate, insbesondere 8 kb/s oder niedriger übertragen worden ist.
Ein wohlbekannter Sprachdecoder, der Rahmen mit Fehlern betrifft, wird in einer Abhandlung mit dem Titel "Channel Coding for Digital Speech Transmission in the Japanese Digital Cellular System" von Michael J. McLaughlin (Radio Communication System Research Association, RC590-27, S. 41-45) offenbart. In diesem System werden in einem Rahmen mit Fehlern die Spektralparameterdaten und die Verzögerung eines adaptiven Codebuchs, das ein Anregungssignal aufweist, das in der Vergangenheit bestimmt wurde, durch vorhergehende Rahmendaten ersetzt. Zusätzlich wird die Amplitude des vergangenen Rahmens ohne Fehler in einem vorbestimmten Verhältnis reduziert, um die reduzierte Amplitude als die Amplitude für den gegenwärtigen Rahmen zu verwenden. Auf diese Art wird ein Sprachsignal reproduziert. Ferner wird, wenn kontinuierlich mehr Fehler als die vorbestimmte Anzahl an Rahmen detektiert werden, der gegenwärtige Rahmen stumm gemacht.
In diesem bekannten System werden jedoch die Spektralparameterdaten im vorhergehenden Rahmen, die Verzögerung und die Amplitude, wie oben erwähnt, wiederholt verwendet, unabhängig davon, ob der Rahmen mit Fehlern ein stimmhafter oder ein stimmloser ist. Daher wird bei der Reproduktion des Sprachsignals der gegenwärtige Rahmen als ein stimmhafter verarbeitet, wenn der vorhergehende Rahmen ein stimmhafter ist, während er als ein stimmloser verarbeitet wird, wenn der vorhergehende Rahmen ein stimmloser ist. Dies bedeutet, daß es, wenn der gegenwärtige Rahmen ein Übergangsrahmen von einem stimmhaften zu einem stimmlosen ist, unmöglich ist, ein Sprachsignal zu reproduzieren, das stimmlose Merkmale aufweist.
Es ist daher eine Aufgabe der vorliegenden Erfindung, einen Sprachdecoder mit beträchtlich verbesserter Sprachqualität selbst für den stimmhaften/stimmlosen Rahmen bereitzustellen. Diese Aufgabe wird mit den Merkmalen der Ansprüche gelöst.
Gemäß der vorliegenden Erfindung wird ein Sprachdecoder bereitgestellt, wie in Anspruch 1 definiert.
Im obigen Sprachdecoder werden beim wiederholten Gebrauch der Spektralparameterdaten im vergangenen Rahmen in den Maskierungseinheiten für unbrauchbare Rahmen für stimmhafte und stimmlose Rahmen die Spektralparameterdaten geändert, indem die Spektralparameterdaten des vergangenen Rahmens und ein fehlerrobuster Teil der Spektralparameterdaten des gegenwärtigen Rahmens mit einem Fehler kombiniert werden.
Wenn die Verstärkungen der erhaltenen Anregung und das Anregungssignal in der Maskierungseinheit für unbrauchbare Rahmen für einen stimmhaften Rahmen gemäß der Tonhöheninformation zum Bilden eines Anregungssignals erhalten werden, wird eine Verstärkungszurückgewinnung so durchgeführt, daß die Leistung des Anregungssignals des vergangenen Rahmens und die Leistung des Anregungssignals des gegenwärtigen Rahmens zueinander gleich sind.
Gemäß der vorliegenden Erfindung wird auch ein Sprachdecoder bereitgestellt, wie er in Anspruch 4 definiert wird.
Andere Aufgaben und Merkmale werden aus der folgenden Beschreibung unter Bezugnahme auf die beigefügten Zeichnungen klar werden.
Fig. 1 ist ein Blockschaltbild, das einen Sprachdecoder zeigt, der eine erste Ausführungsform der Erfindung ausführt;
Fig. 2 ist ein Blockschaltbild, das ein Strukturbeispiel einer Entscheidungseinheit 170 für stimmhafte/stimmlose Rahmen im Sprachdecoder gemäß der ersten Ausführungsform der Erfindung zeigt;
Fig. 3 ist ein Blockschaltbild, das ein Strukturbeispiel einer Maskierungseinheit 150 für unbrauchbare Rahmen für stimmhafte Rahmen im Sprachdecoder gemäß der ersten Ausführungsform der Erfindung zeigt;
Fig. 4 ist ein Blockschaltbild, das ein Strukturbeispiel einer Maskierungseinheit 160 für unbrauchbare Rahmen für stimmlose Rahmen im Sprachdecoder gemäß der ersten Ausführungsform der Erfindung zeigt;
Fig. 5 ist ein Blockschaltbild, das ein Strukturbeispiel einer Maskierungseinheit 150 für unbrauchbare Rahmen für stimmhafte Rahmen in einem Sprachdecoder gemäß einer zweiten Ausführungsform der Erfindung zeigt;
Fig. 6 ist ein Blockschaltbild, das ein Strukturbeispiel einer Maskierungseinheit 160 für unbrauchbare Rahmen für stimmlose Rahmen im Sprachdecoder gemäß der zweiten Ausführungsform der Erfindung zeigt; und
Fig. 7 ist ein Blockschaltbild, das ein Strukturbeispiel einer Maskierungseinheit 150 für unbrauchbare Rahmen für stimmhafte Rahmen gemäß einer dritten Ausführungsform der Erfindung zeigt.
Es wird nun ein Sprachdecoder beschrieben für den Fall, wo der Einfachheit willen ein CELP-Verfahren als ein Sprachcodierungsverfahren verwendet wird.
Es wird auf die beigefügten Zeichnungen Bezug genommen. Fig. 1 ist ein Blockschaltbild, das ein Sprachcodiersystem zeigt, das eine erste Ausführungsform der Erfindung ausführt. Bezugnehmend auf Fig. 1, empfängt eine Empfangseinheit 100 Spektralparameterdaten, die für jeden Rahmen übertragen werden (für 40 ms zum Beispiel), eine Verzögerung eines adaptives Codebuchs, das ein Anregungssignal aufweist, das in der Vergangenheit bestimmt worden ist (entsprechend einer Tonhöheninformation), einen Index eines Anregungscodebuchs, das ein Anregungssignal aufweist, Verstärkungen des adaptiven und des Anregungscodebuchs und eine Amplitude eines Sprachsignals, und gibt diese Eingabedaten an eine Fehlerdetektionseinheit 110, einen Datenspeicher 120 und eine erste Verteilerschaltung 130 aus. Die Fehlerdetektionseinheit 110 prüft, ob Fehler in für die Wahrnehmung wichtigen Bits durch Kanalfehler erzeugt werden und gibt das Ergebnis der Prüfung an die erste Verteilerschaltung 130 aus. Die erste Verteilerschaltung 130 gibt die Eingabedaten an eine zweite Verteilerschaltung 180 aus, wenn ein Fehler in der Fehlerdetektionseinheit 110 detektiert wird, während sie die Eingabedaten an eine Sprachdecodereinheit 140 ausgibt, wenn kein Fehler detektiert wird. Der Datenspeicher 120 speichert die Eingabedaten, nachdem die Daten um einen Rahmen verzögert werden, und gibt die gespeicherten Daten an Maskierungseinheiten 150 und 160 für unbrauchbare Rahmen für stimmhafte bzw. stimmlose Rahmen aus. Die Sprachdecodereinheit 140 decodiert das Sprachsignal, indem sie die Spektralparameterdaten, die Verzögerung des adaptiven Codebuchs, das ein Anregungssignal aufweist, das in der Vergangenheit bestimmt worden ist, den Index des Anregungscodebuchs, das das Anregungssignal aufweist, Verstärkungen des adaptiven und des Anregungscodebuchs und die Amplitude des Sprachsignals verwendet, und gibt das Ergebnis der Decodierung an eine Entscheidungseinheit 170 für stimmhafte/stimmlose Rahmen und auch an einen Ausgangsanschluß 190 aus. Die Entscheidungseinheit 170 für stimmhafte/stimmlose Rahmen leitet mehrere Merkmalsquantitäten aus dem Sprachsignal ab, das in der Sprachdecodereinheit 140 im vorhergehenden Rahmen reproduziert worden ist. Dann prüft sie, ob der gegenwärtige Rahmen ein stimmhafter oder stimmloser ist, und gibt das Ergebnis der Prüfung an die zweite Verteilerschaltung 180 aus. Die zweite Verteilerschaltung 180 gibt die Eingabedaten an die Maskierungseinheit 150 für unbrauchbare Rahmen für stimmhafte Rahmen aus, wenn in der Entscheidungseinheit 170 für stimmhafte/- stimmlose Rahmen festgestellt wird, daß der gegenwärtige Rahmen ein stimmhafter ist. Wenn der gegenwärtige Rahmen ein stimmloser ist, gibt die zweite Verteilerschaltung 180 die Eingabedaten an die Maskierungseinheit 160 für unbrauchbare Rahmen für stimmlose Rahmen aus. Die Maskierungseinheit 150 für unbrauchbare Rahmen für stimmhafte Rahmen interpoliert das Sprachsignal unter Verwendung der Daten des vorhergehenden und gegenwärtigen Rahmens und gibt das Ergebnis an den Ausgangsanschluß 190 aus. Die Maskierungseinheit 160 für unbrauchbare Rahmen für stimmlose Rahmen interpoliert das Sprachsignal unter Verwendung der Daten des vorhergehenden und gegenwärtigen Rahmens und gibt das Ergebnis an den Ausgangsanschluß 190 aus.
Fig. 2 ist ein Blockschaltbild, das ein Strukturbeispiel der Entscheidungseinheit 170 für stimmhafte/stimmlose Rahmen in dieser Ausführungsform zeigt. Der Einfachheit willen wird ein Fall betrachtet, in dem zwei unterschiedliche Arten von Merkmalsquantitäten für die Entscheidung für stimmhafte/stimmlose Rahmen verwendet wird. Bezugnehmend auf Fig. 2, wird ein Sprachsignal, das für jeden Rahmen (von 40 ms zum Beispiel) decodiert worden ist, von einen Eingangsanschluß 200 eingegeben und an eine Datenverzögerungsschaltung 210 ausgegeben. Die Datenverzögerungsschaltung 210 verzögert das Eingangssprachsignal um einen Rahmen und gibt die verzögerten Daten an einen ersten und einen zweiten Merkmalsquantitätsauskoppler 220 und 230 aus. Der erste Merkmalsquantitätsauskoppler 220 leitet unter Verwendung der Formel (1) eine Tonhöhenschätzverstärkung ab, die die Periodizität des Sprachsignals repräsentiert, und gibt das Ergebnis an einen Komparator 240 aus. Der zweite Merkmalsquantitätsauskoppler 230 berechnet das quadratische Mittel des Sprachsignals für jeden von Teilrahmen als Abschnitte eines Rahmens und leitet die Änderung des quadratischen Mittels unter Verwendung cler Formel (2) ab, wobei das Ergebnis an den Komparator 240 ausgegeben wird. Der Komparator 240 vergleicht die beiden unterschiedlichen Arten Merkmalsquantitäten, die im ersten und zweiten Merkmalsquantitätsauskoppler 220 und 230 abgeleitet worden sind, mit Schwellenwerten der beiden Merkmalsquantitäten, die in einem Schwellenspeicher 250 gespeichert sind. Indem so verfahren wird, prüft der Komparator 240, ob das Sprachsignal ein stimmhaftes oder ein stimmloses ist, und gibt das Ergebnis der Prüfung an einen Ausgangsanschluß 260 aus.
Fig. 3 ist ein Blockschaltbild, das ein Strukturbeispiel der Maskierungseinheit 150 für unbrauchbare Rahmen für stimmhafte Rahmen in der Ausführungsform zeigt. Bezugnehmend auf Fig. 3, wird die Verzögerung des adaptiven Codebuchs von einem ersten Eingangsanschluß 300 eingegeben und wird an einen Verzögerungskompensator 320 ausgegeben. Der Verzögerungskompensator 320 kompensiert die Verzögerung des gegenwärtigen Rahmens entsprechend der Verzögerung des vorhergehenden Rahmens, der im Datenspeicher 120 gespeichert worden ist, unter Verwendung der Formel (3). Der Index des Anregungscodebuchs wird von einem zweiten Eingangsanschluß 310 eingegeben, und ein Anregungscodevektor, der jenem Index entspricht, wird von einem Anregungscodebuch 340 ausgegeben. Ein Signal, das durch Multiplizieren des Anregungscodevektors mit der Verstärkung des vorhergehenden Rahmens erhalten wird, der im Datenspeicher 120 gespeichert worden ist, und ein Signal, das durch Multiplizieren des adaptiven Codevektors, der von einem adaptiven Codebuch 330 mit der kompensierten adaptiven Codebuchverzögerung ausgegeben wird, mit der Verstärkung des vorhergehenden Rahmens erhalten wird, der im Datenspeicher 120 gespeichert worden ist, werden miteinander addiert und die sich ergebende Summe wird an einen Synthesefilter 350 ausgegeben. Der Synthesefilter 350 synthetisiert ein Sprachsignal unter Verwendung eines im Datenspeicher 120 gespeicherten Filterkoeffizienten des vorhergehenden Rahmens, und gibt das sich ergebende Sprachsignal an eine Amplitudensteuervorrichtung 360 aus. Die Amplitudensteuervorrichtung 360 führt eine Amplitudensteuerung unter Verwendung des im Datenspeicher 120 gespeicherten quadratischen Mittels des vorhergehenden Rahmens aus, und sie gibt das sich ergebene Sprachsignal an einen Ausgangsanschluß 370 aus.
Fig. 4 ist ein Blockschaltbild, das ein Strukturbeispiel der Maskierungseinheit 160 für unbrauchbare Rahmen für einen stimmlosen Rahmen in der Ausführungsform zeigt. Bezugnehmend auf Fig. 4, wird der Index des Anregungscodebuchs von einem Eingangsanschluß 400 eingegeben, und ein Anregungscodevektor, der jenem Index entspricht, wird vom Anregungscodebuch 410 ausgegeben. Der Anregungscodevektor wird mit der Verstärkung des vorhergehenden Rahmens multipliziert, die im Datenspeicher 120 gespeichert ist, und das sich ergebende Produkt wird an einen Synthesefilter 420 ausgegeben. Der Synthesefilter 420 synthetisiert das Sprachsignal unter Verwendung eines im Datenspeicher 120 gespeicherten Filterkoeffizienten des vorhergehenden Rahmens und gibt das sich ergebende Sprachsignal an eine Amplitudensteuervorrichtung 430 aus. Die Amplitudensteuervorrichtung 430 führt eine Amplitudensteuerung unter Verwendung eines im Datenspeicher 120 gespeicherten quadratischen Mittels des vorhergehenden Rahmens aus und gibt das sich ergebene Sprachsignal an einen Ausgangsanschluß 440 aus.
Fig. 5 ist ein Blockschaltbild, das ein Strukturbeispiel der Maskierungseinheit 150 für unbrauchbare Rahmen für stimmhafte Rahmen in einen Sprachdecoder zeigt, der eine zweite Ausführungsform der Erfindung ausführt. Bezugnehmend auf Fig. 5, wird die adaptive Codebuchverzögerung von einem ersten Eingangsanschluß 500 eingegeben und an einen Verzögerungskompensator 530 ausgegeben. Der Verzögerungskompensator 530 verzögert die Verzögerung des gegenwärtigen Rahmens mit vorhergehenden Verzögerungsdaten, die im Datenspeicher 120 gespeichert sind, unter Verwendung der Formel (3). Der Anregungscodebuchindex wird von einem zweiten Eingangsanschluß 510 eingegeben, und eine Anregungscodevektor, der jedem Index entspricht, wird von einem Anregungscodebuch 550 ausgegeben. Ein Signal, das durch Multiplizieren des Anregungscodevektors mit einer Verstärkung eines vorhergehenden Rahmens erhalten wird, die im Datenspeicher 120 gespeichert ist, und ein Signal, das durch Multiplizieren des adaptiven Codevektors, der von einem adaptiven Codebuch 540 mit der kompensierten adaptiven Codebuchverzögerung ausgegeben wird, mit der im Datenspeicher 120 gespeicherten Verstärkung des vorhergehenden Rahmens erhalten wird, werden miteinander addiert, und die sich ergebende Summe wird an einen Synthesefilter 570 ausgegeben. Ein Filterkoeffizienteninterpolator 560 leitet einen Filterkoeffizienten unter Verwendung von Filterkoeffizientendaten des vorhergehenden Rahmens, die im Datenspeicher 120 gespeichert sind, und eines fehlerrobusten Teils der Filterkoeffizientendaten des gegenwärtigen Rahmens ab, die von einem dritten Eingangsanschluß 520 eingegeben worden sind, und gibt den abgeleiteten Filterkoeffizient an einen Synthesefilter 570 aus. Der Synthesefilter 570 synthetisiert ein Sprachsignal unter Verwendung dieses Filterkoeffizienten und gibt dieses Sprachsignal an eine Amplitudensteuervorrichtung 580 aus. Die Amplitudensteuervorrichtung 580 führt eine Amplitudensteuerung unter Verwendung eines quadratischen Mittels des vorhergehenden Rahmens aus, das im Datenspeicher 120 gespeichert ist, und gibt das sich ergebende Sprachsignal an einen Ausgangsanschluß 590 aus.
Fig. 6 ist ein Blockschaltbild, das ein Strukturbeispiel der Maskierungseinheit 160 für unbrauchbare Rahmen für einen stimmlosen Rahmen im Sprachdecoder zeigt, der die zweite Ausführungsform der Erfindung ausführt. Bezugnehmend auf Fig. 6, wird der Anregungscodebuchindex von einem ersten Eingangsanschluß 600 eingegeben, und eine Anregungscodevektor, der jenem Index entspricht, wird von einem Anregungscodebuch 620 ausgegeben. Der Anregungscodevektor wird mit einer Verstärkung eines vorhergehenden Rahmens multipliziert, die im Datenspeicher 120 gespeichert ist, und das sich ergebende Produkt wird an einen Synthesefilter 640 ausgegeben. Ein Filterkoeffizienteninterpolator 630 leitet einen Filterkoeffizienten ab unter Verwendung von Filterkoeffizientendaten des vorhergehenden Rahmens, die im Datenspeicher 120 gespeichert sind, und einem fehlerrobusten Teil der Filterkoeffizientendaten des gegenwärtigen Rahmens, die von einem zweiten Eingangsanschluß 610 eingegeben werden, und gibt diesen Filterkoeffizienten an einen Synthesefilter 640 aus. Der Synthesefilter 640 synthetisiert ein Sprachsignal unter Verwendung dieses Filterkoeffizienten, und gibt dieses Sprachsignal an eine Amplitudensteuervorrichtung 650 aus. Die Amplitudensteuervorrichtung 650 führt eine Amplitudensteuerung unter Verwendung eines quadratischen Mittels des vorhergehenden Rahmens aus, das im Datenspeicher 120 gespeichert ist, und gibt das sich ergebende Sprachsignal an einen Ausgangsanschluß 660 aus.
Fig. 7 ist ein Blockschaltbild, das ein Strukturbeispiel einer Maskierungseinheit 150 für unbrauchbare Rahmen in einem Sprachdecoder zeigt, der eine dritte Ausführungsform der Erfindung ausführt. Bezugnehmend auf Fig. 7, wird die Verzögerung des adaptiven Codebuchs von einem ersten Eingangsanschluß 700 eingegeben und an einen Verzögerungskompensator 730 ausgegeben. Der Verzögerungskompensator 730 kompensiert die Verzögerung des gegenwärtigen Rahmens mit der Verzögerung des vorhergehenden Rahmens, die im Datenspeicher 120 gespeichert worden ist, unter Verwendung der Formel (3). Eine Verstärkungskoeffizienten-Zurückgewinnungseinheit 770 leitet die Verstärkungen des adaptiven und des Anregungscodebuchs des gegenwärtigen Rahmen entsprechend den Verstärkungen des adaptiven und Anregungscodebuchs und dem quadratisches Mittel des vorhergehenden Rahmens, die im Datenspeicher 120 gespeichert sind, unter Verwendung der Formel (4) ab. Der Anregungscodeindex wird von einem zweiten Eingangsanschluß 710 eingegeben, und ein Anregungscodevektor, cler jenem Index entspricht, wird von einem Anregungscodebuch 750 ausgegeben. Ein Signal, das durch Multiplizieren des Anregungscodebuchvektors mit der Verstärkung erhalten wird, die in einer Verstärkungskoeffizienten-Zurückgewinnungseinheit 770 erhalten wird, und ein Signal, das durch Multiplizieren des adaptiven Codevektors, der von einem adaptiven Codebuch 740 mit der kompensierten Verzögerung des adaptive Codebuchs ausgegeben wird, mit der Verstärkung, die in der Verstärkungskoeffizienten-Zurückgewinnungseinheit 770 erhalten wird, werden miteinander addiert, und die sich ergebende Summe wird an einen Synthesefilter 780 ausgegeben. Ein Filterkoeffizientenkompensator 760 leitet einen Filterkoeffizienten unter Verwendung von Filterkoeffizientendaten des vorhergehenden Rahmens, die im Datenspeicher 120 gespeichert sind und eines fehlerrobusten Teils der Filterkoeffizientendaten des gegenwärtigen Rahmens ab, die von einem dritten Eingangsanschluß 720 eingegeben werden, und gibt diesen Filterkoeffizienten an einen Synthesefilter 780 aus. Der Synthesefilter 780 synthetisiert ein Sprachsignal unter Verwendung dieses Filterkoeffizienten und gibt das sich ergebende Sprachsignal an eine Amplitudensteuervorrichtung 790 aus. Die Amplitudensteuervorrichtung 790 führt eine Amplitudensteuerung unter Verwendung des quadratischen Mittels des vorhergehenden Rahmens aus, das im Datenspeicher 120 gespeichert ist, und gibt das sich ergebende Sprachsignal an einen Ausgangsanschluß 800 aus. Die Tonhöhenschätzverstärkung G wird unter Verwendung einer Formel
erhalten, wobei x ein Vektor des vorhergehenden Rahmens ist, und c ein Vektor ist, der einem vergangenen Zeitpunkt entspricht, der um die Tonhöhenperiode liegt. Als (,) wird das innere Produkt gezeigt. Wenn man das quadratische Mittel jedes Teilrahmens des vorhergehenden Rahmens durch rms&sub1;, rms&sub2;, ..., rms&sub5; bezeichnet, wird die Änderung V des quadratischen Mittels durch die folgende Formel gegeben. In diesem Fall ist der Rahmen in fünf Teilrahmen unterteilt.
Unter Verwendung der Verzögerung Lp des vorhergehenden Rahmens und der Verzögerung L des gegenwärtigen Rahmens erhalten wir
0,95 · Lp < L < 1,05 · Lp (3)
Wenn L die Formel (3) erfüllt, wird L so bestimmt, daß die Verzögerung die des gegenwärtigen Rahmens ist. Andernfalls wird Lp so bestimmt, daß die Verzögerung die des gegenwärtigen Rahmens ist.
Eine Verstärkung zum Minimieren des nächsten Fehlers EI wird mit der folgenden Formel (4) ausgewählt:
Ei = Rp · G²ap + G²ep - R · G²ai+G²ei (4)
wobei Rp das quadratische Mittel des vorhergehenden Rahmens ist, R das quadratische Mittel des gegenwärtigen Rahmens ist, Gap und Gep Verstärkungen der adaptiven und Anregungscodebücher des vorhergehenden Rahmens sind, und Gai und Gei die Verstärkungen des adaptiven und Anregungscodebuchs des Index i sind. Es ist möglich, dieses System auch in Kombination mit einem anderen Codierungsverfahren als dem CELP-Verfahren zu verwenden.
Wie im vorhergehenden beschrieben worden ist, ist es gemäß der ersten Ausführungsform der Erfindung möglich, eine befriedigende Sprachqualität mit der Entscheidungseinheit für stimmhafte/stimmlose Rahmen zu erhalten, die eine Prüfung ausführt, ob der gegenwärtige Rahmen ein stimmhafter oder ein stimmloser ist und durch Schalten der Maskierungsprozedur für unbrauchbare Rahmen des gegenwärtigen Rahmens zwischen die Maskierungseinheiten für unbrauchbare Rahmen für stimmhafte und stimmlose Rahmen. Die zweite Ausführungsform der Erfindung macht es möglich, eine höhere Sprachqualität zu erhalten, indem während wiederholt die Spektralparameter des vergangen Rahmens verwendet werden, Änderungen der Spektralparameter bewirkt werden, indem die Spektralparameter des vergangenen Rahmens und der fehlerrobuste Teil der fehlerenthaltenden Spektralparameterdaten des gegenwärtigen Rahmens kombiniert werden. Ferner ist es gemäß der dritten Ausführungsform der Erfindung möglich, eine höhere Sprachqualität zu erhalten, indem eine Zurückgewinnung der Verstärkungen des adaptiven und Anregungscodebuch durchgeführt wird, so daß die Leistung des Anregungssignals des vergangenen Rahmen und jene des gegenwärtigen Rahmens gleich sind.

Claims

1. Sprachdecoder, der aufweist:

eine Empfangseinheit (100) zum Empfangen von Parametern von Spektraldaten, Tonhöhendaten, die einer Tonhöhenperiode entsprechen, und Indexdaten und Verstärkungsdaten eines Anregungssignals für jeden Rahmen, der eine vorbestimmte Länge eines Sprachsignals aufweist, und um sie auszugeben;

eine Sprachdecodereinheit (140) zum Reproduzieren eines Sprachsignals unter Verwendung der Parameter;

einen Datenspeicher (120) zum Speichern der Eingabedaten nach Verzögern der Daten um einen Rahmen,

eine Fehlerkorrektureinheit zum Korrigieren eines Fehlers im Sprachsignal;

eine Fehlerdetektionseinheit (110) zum Detektieren eines nicht korrigierbaren Fehlerrahmens im Sprachsignal;

eine Entscheidungseinheit (170) für stimmhafte/stimmlose Rahmen zum Entscheiden, ob der Fehlerrahmen, der durch die Fehlerdetektionseinheit detektiert wird, ein stimmhafter Rahmen oder ein stimmloser Rahmen ist, beruhend auf mehreren Merkmalsquantitäten des Sprachsignals, das in der Sprachdecodereinheit in einem vergangenen Rahmen reproduziert worden ist;

eine Maskierungseinheit (150) für unbrauchbare Rahmen für stimmhafte Rahmen zum Reproduzieren eines Sprachsignals des Fehlerrahmens, der durch die Fehlerdetektionseinheit detektiert wird und als ein stimmhafter Rahmen unter Verwendung der Spektraldaten, der Tonhöhendaten und der Verstärkungsdaten des vergangenen Rahmens und der Indexdaten des Fehlerrahmens entschieden wird;

eine Maskierungseinheit (160) für unbrauchbare Rahmen für stimmlose Rahmen zum Reproduzieren eines Sprachsignals des Fehlerrahmens, der durch die Fehlerdetektionseinheit detektiert wird und als ein stimmloser Rahmen unter Verwendung der Spektraldaten und der Verstärkungsdaten des vergangenen Rahmens und der Indexdaten des Fehlerrahmens entschieden wird; und

eine Verteilereinheit (180) zum Ausgeben der Eingabedaten an entweder die Maskierungseinheit (150) für unbrauchbare Rahmen für stimmhafte Rahmen oder an die Maskierungseinheit (160) für unbrauchbare Rahmen für stimmlose Rahmen entsprechend dem Entscheidungsergebnis in der Entscheidungseinheit für stimmhafte/stimmlose Rahmen.

2. Sprachdecoder nach Anspruch 1, wobei beim wiederholten Gebrauch der Spektraldaten im vergangenen Rahmen im Prozeß der Maskierungseinheiten für unbrauchbare Rahmen für stimmhafte oder stimmlose Rahmen die Spektraldaten beruhend auf einer Kombination der Spektraldaten des vergangenen Rahmens und eines fehlerrobusten Teils der Spektraldaten des Fehlerrahmens geändert werden.

3. Sprachdecoder nach Anspruch 1, wobei Verstärkungen der erhaltenen Anregung beruhend auf den Tonhöhendaten und dem Anregungssignal im Prozeß der Maskierungseinheit für unbrauchbare Rahmen für stimmhafte Rahmen zurückgewonnen werden, so daß die Leistung des Anregungssignals des vergangenen Rahmens und die Leistung des Anregungssignals des Fehlerrahmens einander gleich sind.

4. Sprachdecoder, der aufweist:

eine Empfangseinheit (100) zum Empfangen von Spektraldaten, die für jeden Rahmen übertragen werden, einer Verzögerung eines adaptiven Codebuchs, das ein in der Vergangenheit bestimmtes Anregungssignal aufweist, das Tonhöhendaten entspricht, eines Index eines Anregungscodebuchs, das ein Anregungssignal ausmacht, Verstärkungen des adaptiven und des Anregungscodebuchs und einer Amplitude eines Sprachsignals, und zum Ausgeben dieser Eingabedaten;

eine Fehlerdetektionseinheit (110) zum Prüfen, ob ein Fehler des Rahmens beruhend auf den Eingabedaten in für die Wahrnehmung wichtigen Bits durch Fehler erzeugt wird;

einen Datenspeicher (120) zum Speichern der Eingabedaten, nachdem die Daten um einen Rahmen verzögert werden;

eine Sprachdecodereinheit (140) zum Decodieren, wenn kein Fehler durch die Fehlerdetektionseinheit detektiert wird, des Sprachsignals unter Verwendung der Spektraldaten, einer Verzögerung des adaptiven Codebuchs, das ein in der Vergangenheit bestimmtes Anregungssignal aufweist, eines Index des Anregungscodebuchs, das das Anregungssignal aufweist, Verstärkungen des adaptiven und des Anregungscodebuchs und einer Amplitude des Sprachsignals;

eine Entscheidungseinheit für stimmhafte/stimmlose Rahmen (170) zum Ableiten mehrerer Merkmalsquantitäten aus dem Sprachsignal, das in der Sprachdecodereinheit im vorhergehenden Rahmen reproduziert worden ist, und Entscheiden, ob der gegenwärtige Rahmen ein stimmhafter oder stimmloser ist;

eine Maskierungseinheit (150) für unbrauchbare Rahmen für stimmhafte Rahmen zum Interpolieren, wenn ein Fehler detektiert wird und der gegenwärtige Rahmen stimmlos ist, des Sprachsignals unter Verwendung der Daten des vorhergehenden und gegenwärtigen Rahmens und;

eine Maskierungseinheit. (160) für unbrauchbare Rahmen für stimmlose Rahmen zum Interpolieren, wenn ein Fehler detektiert wird und der gegenwärtige Rahmen stimmhaft ist, des Sprachsignals unter Verwendung der Daten des vorhergehenden und gegenwärtigen Rahmens; und