DE69330022T2 - Sprachdekoder - Google Patents

Sprachdekoder

Info

Publication number
DE69330022T2
DE69330022T2 DE69330022T DE69330022T DE69330022T2 DE 69330022 T2 DE69330022 T2 DE 69330022T2 DE 69330022 T DE69330022 T DE 69330022T DE 69330022 T DE69330022 T DE 69330022T DE 69330022 T2 DE69330022 T2 DE 69330022T2
Authority
DE
Germany
Prior art keywords
frame
data
unit
error
voiced
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69330022T
Other languages
English (en)
Other versions
DE69330022D1 (de
Inventor
Toshiyuki Nomura
Kazunori Ozawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Application granted granted Critical
Publication of DE69330022D1 publication Critical patent/DE69330022D1/de
Publication of DE69330022T2 publication Critical patent/DE69330022T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

  • Diese Erfindung betrifft einen Sprachdecoder zum hochwertigen Decodieren eines Sprachsignals, das mit einer niedrigen Bitrate, insbesondere 8 kb/s oder niedriger übertragen worden ist.
  • Ein wohlbekannter Sprachdecoder, der Rahmen mit Fehlern betrifft, wird in einer Abhandlung mit dem Titel "Channel Coding for Digital Speech Transmission in the Japanese Digital Cellular System" von Michael J. McLaughlin (Radio Communication System Research Association, RC590-27, S. 41-45) offenbart. In diesem System werden in einem Rahmen mit Fehlern die Spektralparameterdaten und die Verzögerung eines adaptiven Codebuchs, das ein Anregungssignal aufweist, das in der Vergangenheit bestimmt wurde, durch vorhergehende Rahmendaten ersetzt. Zusätzlich wird die Amplitude des vergangenen Rahmens ohne Fehler in einem vorbestimmten Verhältnis reduziert, um die reduzierte Amplitude als die Amplitude für den gegenwärtigen Rahmen zu verwenden. Auf diese Art wird ein Sprachsignal reproduziert. Ferner wird, wenn kontinuierlich mehr Fehler als die vorbestimmte Anzahl an Rahmen detektiert werden, der gegenwärtige Rahmen stumm gemacht.
  • In diesem bekannten System werden jedoch die Spektralparameterdaten im vorhergehenden Rahmen, die Verzögerung und die Amplitude, wie oben erwähnt, wiederholt verwendet, unabhängig davon, ob der Rahmen mit Fehlern ein stimmhafter oder ein stimmloser ist. Daher wird bei der Reproduktion des Sprachsignals der gegenwärtige Rahmen als ein stimmhafter verarbeitet, wenn der vorhergehende Rahmen ein stimmhafter ist, während er als ein stimmloser verarbeitet wird, wenn der vorhergehende Rahmen ein stimmloser ist. Dies bedeutet, daß es, wenn der gegenwärtige Rahmen ein Übergangsrahmen von einem stimmhaften zu einem stimmlosen ist, unmöglich ist, ein Sprachsignal zu reproduzieren, das stimmlose Merkmale aufweist.
  • Es ist daher eine Aufgabe der vorliegenden Erfindung, einen Sprachdecoder mit beträchtlich verbesserter Sprachqualität selbst für den stimmhaften/stimmlosen Rahmen bereitzustellen. Diese Aufgabe wird mit den Merkmalen der Ansprüche gelöst.
  • Gemäß der vorliegenden Erfindung wird ein Sprachdecoder bereitgestellt, wie in Anspruch 1 definiert.
  • Im obigen Sprachdecoder werden beim wiederholten Gebrauch der Spektralparameterdaten im vergangenen Rahmen in den Maskierungseinheiten für unbrauchbare Rahmen für stimmhafte und stimmlose Rahmen die Spektralparameterdaten geändert, indem die Spektralparameterdaten des vergangenen Rahmens und ein fehlerrobuster Teil der Spektralparameterdaten des gegenwärtigen Rahmens mit einem Fehler kombiniert werden.
  • Wenn die Verstärkungen der erhaltenen Anregung und das Anregungssignal in der Maskierungseinheit für unbrauchbare Rahmen für einen stimmhaften Rahmen gemäß der Tonhöheninformation zum Bilden eines Anregungssignals erhalten werden, wird eine Verstärkungszurückgewinnung so durchgeführt, daß die Leistung des Anregungssignals des vergangenen Rahmens und die Leistung des Anregungssignals des gegenwärtigen Rahmens zueinander gleich sind.
  • Gemäß der vorliegenden Erfindung wird auch ein Sprachdecoder bereitgestellt, wie er in Anspruch 4 definiert wird.
  • Andere Aufgaben und Merkmale werden aus der folgenden Beschreibung unter Bezugnahme auf die beigefügten Zeichnungen klar werden.
  • Fig. 1 ist ein Blockschaltbild, das einen Sprachdecoder zeigt, der eine erste Ausführungsform der Erfindung ausführt;
  • Fig. 2 ist ein Blockschaltbild, das ein Strukturbeispiel einer Entscheidungseinheit 170 für stimmhafte/stimmlose Rahmen im Sprachdecoder gemäß der ersten Ausführungsform der Erfindung zeigt;
  • Fig. 3 ist ein Blockschaltbild, das ein Strukturbeispiel einer Maskierungseinheit 150 für unbrauchbare Rahmen für stimmhafte Rahmen im Sprachdecoder gemäß der ersten Ausführungsform der Erfindung zeigt;
  • Fig. 4 ist ein Blockschaltbild, das ein Strukturbeispiel einer Maskierungseinheit 160 für unbrauchbare Rahmen für stimmlose Rahmen im Sprachdecoder gemäß der ersten Ausführungsform der Erfindung zeigt;
  • Fig. 5 ist ein Blockschaltbild, das ein Strukturbeispiel einer Maskierungseinheit 150 für unbrauchbare Rahmen für stimmhafte Rahmen in einem Sprachdecoder gemäß einer zweiten Ausführungsform der Erfindung zeigt;
  • Fig. 6 ist ein Blockschaltbild, das ein Strukturbeispiel einer Maskierungseinheit 160 für unbrauchbare Rahmen für stimmlose Rahmen im Sprachdecoder gemäß der zweiten Ausführungsform der Erfindung zeigt; und
  • Fig. 7 ist ein Blockschaltbild, das ein Strukturbeispiel einer Maskierungseinheit 150 für unbrauchbare Rahmen für stimmhafte Rahmen gemäß einer dritten Ausführungsform der Erfindung zeigt.
  • Es wird nun ein Sprachdecoder beschrieben für den Fall, wo der Einfachheit willen ein CELP-Verfahren als ein Sprachcodierungsverfahren verwendet wird.
  • Es wird auf die beigefügten Zeichnungen Bezug genommen. Fig. 1 ist ein Blockschaltbild, das ein Sprachcodiersystem zeigt, das eine erste Ausführungsform der Erfindung ausführt. Bezugnehmend auf Fig. 1, empfängt eine Empfangseinheit 100 Spektralparameterdaten, die für jeden Rahmen übertragen werden (für 40 ms zum Beispiel), eine Verzögerung eines adaptives Codebuchs, das ein Anregungssignal aufweist, das in der Vergangenheit bestimmt worden ist (entsprechend einer Tonhöheninformation), einen Index eines Anregungscodebuchs, das ein Anregungssignal aufweist, Verstärkungen des adaptiven und des Anregungscodebuchs und eine Amplitude eines Sprachsignals, und gibt diese Eingabedaten an eine Fehlerdetektionseinheit 110, einen Datenspeicher 120 und eine erste Verteilerschaltung 130 aus. Die Fehlerdetektionseinheit 110 prüft, ob Fehler in für die Wahrnehmung wichtigen Bits durch Kanalfehler erzeugt werden und gibt das Ergebnis der Prüfung an die erste Verteilerschaltung 130 aus. Die erste Verteilerschaltung 130 gibt die Eingabedaten an eine zweite Verteilerschaltung 180 aus, wenn ein Fehler in der Fehlerdetektionseinheit 110 detektiert wird, während sie die Eingabedaten an eine Sprachdecodereinheit 140 ausgibt, wenn kein Fehler detektiert wird. Der Datenspeicher 120 speichert die Eingabedaten, nachdem die Daten um einen Rahmen verzögert werden, und gibt die gespeicherten Daten an Maskierungseinheiten 150 und 160 für unbrauchbare Rahmen für stimmhafte bzw. stimmlose Rahmen aus. Die Sprachdecodereinheit 140 decodiert das Sprachsignal, indem sie die Spektralparameterdaten, die Verzögerung des adaptiven Codebuchs, das ein Anregungssignal aufweist, das in der Vergangenheit bestimmt worden ist, den Index des Anregungscodebuchs, das das Anregungssignal aufweist, Verstärkungen des adaptiven und des Anregungscodebuchs und die Amplitude des Sprachsignals verwendet, und gibt das Ergebnis der Decodierung an eine Entscheidungseinheit 170 für stimmhafte/stimmlose Rahmen und auch an einen Ausgangsanschluß 190 aus. Die Entscheidungseinheit 170 für stimmhafte/stimmlose Rahmen leitet mehrere Merkmalsquantitäten aus dem Sprachsignal ab, das in der Sprachdecodereinheit 140 im vorhergehenden Rahmen reproduziert worden ist. Dann prüft sie, ob der gegenwärtige Rahmen ein stimmhafter oder stimmloser ist, und gibt das Ergebnis der Prüfung an die zweite Verteilerschaltung 180 aus. Die zweite Verteilerschaltung 180 gibt die Eingabedaten an die Maskierungseinheit 150 für unbrauchbare Rahmen für stimmhafte Rahmen aus, wenn in der Entscheidungseinheit 170 für stimmhafte/- stimmlose Rahmen festgestellt wird, daß der gegenwärtige Rahmen ein stimmhafter ist. Wenn der gegenwärtige Rahmen ein stimmloser ist, gibt die zweite Verteilerschaltung 180 die Eingabedaten an die Maskierungseinheit 160 für unbrauchbare Rahmen für stimmlose Rahmen aus. Die Maskierungseinheit 150 für unbrauchbare Rahmen für stimmhafte Rahmen interpoliert das Sprachsignal unter Verwendung der Daten des vorhergehenden und gegenwärtigen Rahmens und gibt das Ergebnis an den Ausgangsanschluß 190 aus. Die Maskierungseinheit 160 für unbrauchbare Rahmen für stimmlose Rahmen interpoliert das Sprachsignal unter Verwendung der Daten des vorhergehenden und gegenwärtigen Rahmens und gibt das Ergebnis an den Ausgangsanschluß 190 aus.
  • Fig. 2 ist ein Blockschaltbild, das ein Strukturbeispiel der Entscheidungseinheit 170 für stimmhafte/stimmlose Rahmen in dieser Ausführungsform zeigt. Der Einfachheit willen wird ein Fall betrachtet, in dem zwei unterschiedliche Arten von Merkmalsquantitäten für die Entscheidung für stimmhafte/stimmlose Rahmen verwendet wird. Bezugnehmend auf Fig. 2, wird ein Sprachsignal, das für jeden Rahmen (von 40 ms zum Beispiel) decodiert worden ist, von einen Eingangsanschluß 200 eingegeben und an eine Datenverzögerungsschaltung 210 ausgegeben. Die Datenverzögerungsschaltung 210 verzögert das Eingangssprachsignal um einen Rahmen und gibt die verzögerten Daten an einen ersten und einen zweiten Merkmalsquantitätsauskoppler 220 und 230 aus. Der erste Merkmalsquantitätsauskoppler 220 leitet unter Verwendung der Formel (1) eine Tonhöhenschätzverstärkung ab, die die Periodizität des Sprachsignals repräsentiert, und gibt das Ergebnis an einen Komparator 240 aus. Der zweite Merkmalsquantitätsauskoppler 230 berechnet das quadratische Mittel des Sprachsignals für jeden von Teilrahmen als Abschnitte eines Rahmens und leitet die Änderung des quadratischen Mittels unter Verwendung cler Formel (2) ab, wobei das Ergebnis an den Komparator 240 ausgegeben wird. Der Komparator 240 vergleicht die beiden unterschiedlichen Arten Merkmalsquantitäten, die im ersten und zweiten Merkmalsquantitätsauskoppler 220 und 230 abgeleitet worden sind, mit Schwellenwerten der beiden Merkmalsquantitäten, die in einem Schwellenspeicher 250 gespeichert sind. Indem so verfahren wird, prüft der Komparator 240, ob das Sprachsignal ein stimmhaftes oder ein stimmloses ist, und gibt das Ergebnis der Prüfung an einen Ausgangsanschluß 260 aus.
  • Fig. 3 ist ein Blockschaltbild, das ein Strukturbeispiel der Maskierungseinheit 150 für unbrauchbare Rahmen für stimmhafte Rahmen in der Ausführungsform zeigt. Bezugnehmend auf Fig. 3, wird die Verzögerung des adaptiven Codebuchs von einem ersten Eingangsanschluß 300 eingegeben und wird an einen Verzögerungskompensator 320 ausgegeben. Der Verzögerungskompensator 320 kompensiert die Verzögerung des gegenwärtigen Rahmens entsprechend der Verzögerung des vorhergehenden Rahmens, der im Datenspeicher 120 gespeichert worden ist, unter Verwendung der Formel (3). Der Index des Anregungscodebuchs wird von einem zweiten Eingangsanschluß 310 eingegeben, und ein Anregungscodevektor, der jenem Index entspricht, wird von einem Anregungscodebuch 340 ausgegeben. Ein Signal, das durch Multiplizieren des Anregungscodevektors mit der Verstärkung des vorhergehenden Rahmens erhalten wird, der im Datenspeicher 120 gespeichert worden ist, und ein Signal, das durch Multiplizieren des adaptiven Codevektors, der von einem adaptiven Codebuch 330 mit der kompensierten adaptiven Codebuchverzögerung ausgegeben wird, mit der Verstärkung des vorhergehenden Rahmens erhalten wird, der im Datenspeicher 120 gespeichert worden ist, werden miteinander addiert und die sich ergebende Summe wird an einen Synthesefilter 350 ausgegeben. Der Synthesefilter 350 synthetisiert ein Sprachsignal unter Verwendung eines im Datenspeicher 120 gespeicherten Filterkoeffizienten des vorhergehenden Rahmens, und gibt das sich ergebende Sprachsignal an eine Amplitudensteuervorrichtung 360 aus. Die Amplitudensteuervorrichtung 360 führt eine Amplitudensteuerung unter Verwendung des im Datenspeicher 120 gespeicherten quadratischen Mittels des vorhergehenden Rahmens aus, und sie gibt das sich ergebene Sprachsignal an einen Ausgangsanschluß 370 aus.
  • Fig. 4 ist ein Blockschaltbild, das ein Strukturbeispiel der Maskierungseinheit 160 für unbrauchbare Rahmen für einen stimmlosen Rahmen in der Ausführungsform zeigt. Bezugnehmend auf Fig. 4, wird der Index des Anregungscodebuchs von einem Eingangsanschluß 400 eingegeben, und ein Anregungscodevektor, der jenem Index entspricht, wird vom Anregungscodebuch 410 ausgegeben. Der Anregungscodevektor wird mit der Verstärkung des vorhergehenden Rahmens multipliziert, die im Datenspeicher 120 gespeichert ist, und das sich ergebende Produkt wird an einen Synthesefilter 420 ausgegeben. Der Synthesefilter 420 synthetisiert das Sprachsignal unter Verwendung eines im Datenspeicher 120 gespeicherten Filterkoeffizienten des vorhergehenden Rahmens und gibt das sich ergebende Sprachsignal an eine Amplitudensteuervorrichtung 430 aus. Die Amplitudensteuervorrichtung 430 führt eine Amplitudensteuerung unter Verwendung eines im Datenspeicher 120 gespeicherten quadratischen Mittels des vorhergehenden Rahmens aus und gibt das sich ergebene Sprachsignal an einen Ausgangsanschluß 440 aus.
  • Fig. 5 ist ein Blockschaltbild, das ein Strukturbeispiel der Maskierungseinheit 150 für unbrauchbare Rahmen für stimmhafte Rahmen in einen Sprachdecoder zeigt, der eine zweite Ausführungsform der Erfindung ausführt. Bezugnehmend auf Fig. 5, wird die adaptive Codebuchverzögerung von einem ersten Eingangsanschluß 500 eingegeben und an einen Verzögerungskompensator 530 ausgegeben. Der Verzögerungskompensator 530 verzögert die Verzögerung des gegenwärtigen Rahmens mit vorhergehenden Verzögerungsdaten, die im Datenspeicher 120 gespeichert sind, unter Verwendung der Formel (3). Der Anregungscodebuchindex wird von einem zweiten Eingangsanschluß 510 eingegeben, und eine Anregungscodevektor, der jedem Index entspricht, wird von einem Anregungscodebuch 550 ausgegeben. Ein Signal, das durch Multiplizieren des Anregungscodevektors mit einer Verstärkung eines vorhergehenden Rahmens erhalten wird, die im Datenspeicher 120 gespeichert ist, und ein Signal, das durch Multiplizieren des adaptiven Codevektors, der von einem adaptiven Codebuch 540 mit der kompensierten adaptiven Codebuchverzögerung ausgegeben wird, mit der im Datenspeicher 120 gespeicherten Verstärkung des vorhergehenden Rahmens erhalten wird, werden miteinander addiert, und die sich ergebende Summe wird an einen Synthesefilter 570 ausgegeben. Ein Filterkoeffizienteninterpolator 560 leitet einen Filterkoeffizienten unter Verwendung von Filterkoeffizientendaten des vorhergehenden Rahmens, die im Datenspeicher 120 gespeichert sind, und eines fehlerrobusten Teils der Filterkoeffizientendaten des gegenwärtigen Rahmens ab, die von einem dritten Eingangsanschluß 520 eingegeben worden sind, und gibt den abgeleiteten Filterkoeffizient an einen Synthesefilter 570 aus. Der Synthesefilter 570 synthetisiert ein Sprachsignal unter Verwendung dieses Filterkoeffizienten und gibt dieses Sprachsignal an eine Amplitudensteuervorrichtung 580 aus. Die Amplitudensteuervorrichtung 580 führt eine Amplitudensteuerung unter Verwendung eines quadratischen Mittels des vorhergehenden Rahmens aus, das im Datenspeicher 120 gespeichert ist, und gibt das sich ergebende Sprachsignal an einen Ausgangsanschluß 590 aus.
  • Fig. 6 ist ein Blockschaltbild, das ein Strukturbeispiel der Maskierungseinheit 160 für unbrauchbare Rahmen für einen stimmlosen Rahmen im Sprachdecoder zeigt, der die zweite Ausführungsform der Erfindung ausführt. Bezugnehmend auf Fig. 6, wird der Anregungscodebuchindex von einem ersten Eingangsanschluß 600 eingegeben, und eine Anregungscodevektor, der jenem Index entspricht, wird von einem Anregungscodebuch 620 ausgegeben. Der Anregungscodevektor wird mit einer Verstärkung eines vorhergehenden Rahmens multipliziert, die im Datenspeicher 120 gespeichert ist, und das sich ergebende Produkt wird an einen Synthesefilter 640 ausgegeben. Ein Filterkoeffizienteninterpolator 630 leitet einen Filterkoeffizienten ab unter Verwendung von Filterkoeffizientendaten des vorhergehenden Rahmens, die im Datenspeicher 120 gespeichert sind, und einem fehlerrobusten Teil der Filterkoeffizientendaten des gegenwärtigen Rahmens, die von einem zweiten Eingangsanschluß 610 eingegeben werden, und gibt diesen Filterkoeffizienten an einen Synthesefilter 640 aus. Der Synthesefilter 640 synthetisiert ein Sprachsignal unter Verwendung dieses Filterkoeffizienten, und gibt dieses Sprachsignal an eine Amplitudensteuervorrichtung 650 aus. Die Amplitudensteuervorrichtung 650 führt eine Amplitudensteuerung unter Verwendung eines quadratischen Mittels des vorhergehenden Rahmens aus, das im Datenspeicher 120 gespeichert ist, und gibt das sich ergebende Sprachsignal an einen Ausgangsanschluß 660 aus.
  • Fig. 7 ist ein Blockschaltbild, das ein Strukturbeispiel einer Maskierungseinheit 150 für unbrauchbare Rahmen in einem Sprachdecoder zeigt, der eine dritte Ausführungsform der Erfindung ausführt. Bezugnehmend auf Fig. 7, wird die Verzögerung des adaptiven Codebuchs von einem ersten Eingangsanschluß 700 eingegeben und an einen Verzögerungskompensator 730 ausgegeben. Der Verzögerungskompensator 730 kompensiert die Verzögerung des gegenwärtigen Rahmens mit der Verzögerung des vorhergehenden Rahmens, die im Datenspeicher 120 gespeichert worden ist, unter Verwendung der Formel (3). Eine Verstärkungskoeffizienten-Zurückgewinnungseinheit 770 leitet die Verstärkungen des adaptiven und des Anregungscodebuchs des gegenwärtigen Rahmen entsprechend den Verstärkungen des adaptiven und Anregungscodebuchs und dem quadratisches Mittel des vorhergehenden Rahmens, die im Datenspeicher 120 gespeichert sind, unter Verwendung der Formel (4) ab. Der Anregungscodeindex wird von einem zweiten Eingangsanschluß 710 eingegeben, und ein Anregungscodevektor, cler jenem Index entspricht, wird von einem Anregungscodebuch 750 ausgegeben. Ein Signal, das durch Multiplizieren des Anregungscodebuchvektors mit der Verstärkung erhalten wird, die in einer Verstärkungskoeffizienten-Zurückgewinnungseinheit 770 erhalten wird, und ein Signal, das durch Multiplizieren des adaptiven Codevektors, der von einem adaptiven Codebuch 740 mit der kompensierten Verzögerung des adaptive Codebuchs ausgegeben wird, mit der Verstärkung, die in der Verstärkungskoeffizienten-Zurückgewinnungseinheit 770 erhalten wird, werden miteinander addiert, und die sich ergebende Summe wird an einen Synthesefilter 780 ausgegeben. Ein Filterkoeffizientenkompensator 760 leitet einen Filterkoeffizienten unter Verwendung von Filterkoeffizientendaten des vorhergehenden Rahmens, die im Datenspeicher 120 gespeichert sind und eines fehlerrobusten Teils der Filterkoeffizientendaten des gegenwärtigen Rahmens ab, die von einem dritten Eingangsanschluß 720 eingegeben werden, und gibt diesen Filterkoeffizienten an einen Synthesefilter 780 aus. Der Synthesefilter 780 synthetisiert ein Sprachsignal unter Verwendung dieses Filterkoeffizienten und gibt das sich ergebende Sprachsignal an eine Amplitudensteuervorrichtung 790 aus. Die Amplitudensteuervorrichtung 790 führt eine Amplitudensteuerung unter Verwendung des quadratischen Mittels des vorhergehenden Rahmens aus, das im Datenspeicher 120 gespeichert ist, und gibt das sich ergebende Sprachsignal an einen Ausgangsanschluß 800 aus. Die Tonhöhenschätzverstärkung G wird unter Verwendung einer Formel
  • erhalten, wobei x ein Vektor des vorhergehenden Rahmens ist, und c ein Vektor ist, der einem vergangenen Zeitpunkt entspricht, der um die Tonhöhenperiode liegt. Als (,) wird das innere Produkt gezeigt. Wenn man das quadratische Mittel jedes Teilrahmens des vorhergehenden Rahmens durch rms&sub1;, rms&sub2;, ..., rms&sub5; bezeichnet, wird die Änderung V des quadratischen Mittels durch die folgende Formel gegeben. In diesem Fall ist der Rahmen in fünf Teilrahmen unterteilt.
  • Unter Verwendung der Verzögerung Lp des vorhergehenden Rahmens und der Verzögerung L des gegenwärtigen Rahmens erhalten wir
  • 0,95 · Lp < L < 1,05 · Lp (3)
  • Wenn L die Formel (3) erfüllt, wird L so bestimmt, daß die Verzögerung die des gegenwärtigen Rahmens ist. Andernfalls wird Lp so bestimmt, daß die Verzögerung die des gegenwärtigen Rahmens ist.
  • Eine Verstärkung zum Minimieren des nächsten Fehlers EI wird mit der folgenden Formel (4) ausgewählt:
  • Ei = Rp · G²ap + G²ep - R · G²ai+G²ei (4)
  • wobei Rp das quadratische Mittel des vorhergehenden Rahmens ist, R das quadratische Mittel des gegenwärtigen Rahmens ist, Gap und Gep Verstärkungen der adaptiven und Anregungscodebücher des vorhergehenden Rahmens sind, und Gai und Gei die Verstärkungen des adaptiven und Anregungscodebuchs des Index i sind. Es ist möglich, dieses System auch in Kombination mit einem anderen Codierungsverfahren als dem CELP-Verfahren zu verwenden.
  • Wie im vorhergehenden beschrieben worden ist, ist es gemäß der ersten Ausführungsform der Erfindung möglich, eine befriedigende Sprachqualität mit der Entscheidungseinheit für stimmhafte/stimmlose Rahmen zu erhalten, die eine Prüfung ausführt, ob der gegenwärtige Rahmen ein stimmhafter oder ein stimmloser ist und durch Schalten der Maskierungsprozedur für unbrauchbare Rahmen des gegenwärtigen Rahmens zwischen die Maskierungseinheiten für unbrauchbare Rahmen für stimmhafte und stimmlose Rahmen. Die zweite Ausführungsform der Erfindung macht es möglich, eine höhere Sprachqualität zu erhalten, indem während wiederholt die Spektralparameter des vergangen Rahmens verwendet werden, Änderungen der Spektralparameter bewirkt werden, indem die Spektralparameter des vergangenen Rahmens und der fehlerrobuste Teil der fehlerenthaltenden Spektralparameterdaten des gegenwärtigen Rahmens kombiniert werden. Ferner ist es gemäß der dritten Ausführungsform der Erfindung möglich, eine höhere Sprachqualität zu erhalten, indem eine Zurückgewinnung der Verstärkungen des adaptiven und Anregungscodebuch durchgeführt wird, so daß die Leistung des Anregungssignals des vergangenen Rahmen und jene des gegenwärtigen Rahmens gleich sind.

Claims (4)

1. Sprachdecoder, der aufweist:
eine Empfangseinheit (100) zum Empfangen von Parametern von Spektraldaten, Tonhöhendaten, die einer Tonhöhenperiode entsprechen, und Indexdaten und Verstärkungsdaten eines Anregungssignals für jeden Rahmen, der eine vorbestimmte Länge eines Sprachsignals aufweist, und um sie auszugeben;
eine Sprachdecodereinheit (140) zum Reproduzieren eines Sprachsignals unter Verwendung der Parameter;
einen Datenspeicher (120) zum Speichern der Eingabedaten nach Verzögern der Daten um einen Rahmen,
eine Fehlerkorrektureinheit zum Korrigieren eines Fehlers im Sprachsignal;
eine Fehlerdetektionseinheit (110) zum Detektieren eines nicht korrigierbaren Fehlerrahmens im Sprachsignal;
eine Entscheidungseinheit (170) für stimmhafte/stimmlose Rahmen zum Entscheiden, ob der Fehlerrahmen, der durch die Fehlerdetektionseinheit detektiert wird, ein stimmhafter Rahmen oder ein stimmloser Rahmen ist, beruhend auf mehreren Merkmalsquantitäten des Sprachsignals, das in der Sprachdecodereinheit in einem vergangenen Rahmen reproduziert worden ist;
eine Maskierungseinheit (150) für unbrauchbare Rahmen für stimmhafte Rahmen zum Reproduzieren eines Sprachsignals des Fehlerrahmens, der durch die Fehlerdetektionseinheit detektiert wird und als ein stimmhafter Rahmen unter Verwendung der Spektraldaten, der Tonhöhendaten und der Verstärkungsdaten des vergangenen Rahmens und der Indexdaten des Fehlerrahmens entschieden wird;
eine Maskierungseinheit (160) für unbrauchbare Rahmen für stimmlose Rahmen zum Reproduzieren eines Sprachsignals des Fehlerrahmens, der durch die Fehlerdetektionseinheit detektiert wird und als ein stimmloser Rahmen unter Verwendung der Spektraldaten und der Verstärkungsdaten des vergangenen Rahmens und der Indexdaten des Fehlerrahmens entschieden wird; und
eine Verteilereinheit (180) zum Ausgeben der Eingabedaten an entweder die Maskierungseinheit (150) für unbrauchbare Rahmen für stimmhafte Rahmen oder an die Maskierungseinheit (160) für unbrauchbare Rahmen für stimmlose Rahmen entsprechend dem Entscheidungsergebnis in der Entscheidungseinheit für stimmhafte/stimmlose Rahmen.
2. Sprachdecoder nach Anspruch 1, wobei beim wiederholten Gebrauch der Spektraldaten im vergangenen Rahmen im Prozeß der Maskierungseinheiten für unbrauchbare Rahmen für stimmhafte oder stimmlose Rahmen die Spektraldaten beruhend auf einer Kombination der Spektraldaten des vergangenen Rahmens und eines fehlerrobusten Teils der Spektraldaten des Fehlerrahmens geändert werden.
3. Sprachdecoder nach Anspruch 1, wobei Verstärkungen der erhaltenen Anregung beruhend auf den Tonhöhendaten und dem Anregungssignal im Prozeß der Maskierungseinheit für unbrauchbare Rahmen für stimmhafte Rahmen zurückgewonnen werden, so daß die Leistung des Anregungssignals des vergangenen Rahmens und die Leistung des Anregungssignals des Fehlerrahmens einander gleich sind.
4. Sprachdecoder, der aufweist:
eine Empfangseinheit (100) zum Empfangen von Spektraldaten, die für jeden Rahmen übertragen werden, einer Verzögerung eines adaptiven Codebuchs, das ein in der Vergangenheit bestimmtes Anregungssignal aufweist, das Tonhöhendaten entspricht, eines Index eines Anregungscodebuchs, das ein Anregungssignal ausmacht, Verstärkungen des adaptiven und des Anregungscodebuchs und einer Amplitude eines Sprachsignals, und zum Ausgeben dieser Eingabedaten;
eine Fehlerdetektionseinheit (110) zum Prüfen, ob ein Fehler des Rahmens beruhend auf den Eingabedaten in für die Wahrnehmung wichtigen Bits durch Fehler erzeugt wird;
einen Datenspeicher (120) zum Speichern der Eingabedaten, nachdem die Daten um einen Rahmen verzögert werden;
eine Sprachdecodereinheit (140) zum Decodieren, wenn kein Fehler durch die Fehlerdetektionseinheit detektiert wird, des Sprachsignals unter Verwendung der Spektraldaten, einer Verzögerung des adaptiven Codebuchs, das ein in der Vergangenheit bestimmtes Anregungssignal aufweist, eines Index des Anregungscodebuchs, das das Anregungssignal aufweist, Verstärkungen des adaptiven und des Anregungscodebuchs und einer Amplitude des Sprachsignals;
eine Entscheidungseinheit für stimmhafte/stimmlose Rahmen (170) zum Ableiten mehrerer Merkmalsquantitäten aus dem Sprachsignal, das in der Sprachdecodereinheit im vorhergehenden Rahmen reproduziert worden ist, und Entscheiden, ob der gegenwärtige Rahmen ein stimmhafter oder stimmloser ist;
eine Maskierungseinheit (150) für unbrauchbare Rahmen für stimmhafte Rahmen zum Interpolieren, wenn ein Fehler detektiert wird und der gegenwärtige Rahmen stimmlos ist, des Sprachsignals unter Verwendung der Daten des vorhergehenden und gegenwärtigen Rahmens und;
eine Maskierungseinheit. (160) für unbrauchbare Rahmen für stimmlose Rahmen zum Interpolieren, wenn ein Fehler detektiert wird und der gegenwärtige Rahmen stimmhaft ist, des Sprachsignals unter Verwendung der Daten des vorhergehenden und gegenwärtigen Rahmens; und
eine Verteilereinheit (180) zum Ausgeben der Eingabedaten an entweder die Maskierungseinheit (150) für unbrauchbare Rahmen für stimmhafte Rahmen oder an die Maskierungseinheit (160) für unbrauchbare Rahmen für stimmlose Rahmen entsprechend dem Entscheidungsergebnis in der Entscheidungseinheit für stimmhafte/stimmlose Rahmen.
DE69330022T 1992-12-24 1993-12-22 Sprachdekoder Expired - Lifetime DE69330022T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4343723A JP2746033B2 (ja) 1992-12-24 1992-12-24 音声復号化装置

Publications (2)

Publication Number Publication Date
DE69330022D1 DE69330022D1 (de) 2001-04-19
DE69330022T2 true DE69330022T2 (de) 2001-08-09

Family

ID=18363756

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69330022T Expired - Lifetime DE69330022T2 (de) 1992-12-24 1993-12-22 Sprachdekoder

Country Status (5)

Country Link
US (1) US5862518A (de)
EP (1) EP0603854B1 (de)
JP (1) JP2746033B2 (de)
CA (1) CA2112145C (de)
DE (1) DE69330022T2 (de)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1996037964A1 (en) * 1995-05-22 1996-11-28 Ntt Mobile Communications Network Inc. Sound decoding device
FR2751813B1 (fr) * 1996-07-29 1999-01-08 Alcatel Mobile Comm France Procede et dispositif d'estimation de la nature acceptable ou non acceptable de blocs d'information recus via un systeme de transmission utilisant un codage par blocs
FI113600B (fi) * 1996-09-17 2004-05-14 Nokia Corp Signalointi digitaalisessa matkaviestinjärjestelmässä
US7788092B2 (en) * 1996-09-25 2010-08-31 Qualcomm Incorporated Method and apparatus for detecting bad data packets received by a mobile telephone using decoded speech parameters
US6205130B1 (en) * 1996-09-25 2001-03-20 Qualcomm Incorporated Method and apparatus for detecting bad data packets received by a mobile telephone using decoded speech parameters
EP1686563A3 (de) 1997-12-24 2007-02-07 Mitsubishi Denki Kabushiki Kaisha Verfahren und System zur Sprachdekodierung
US6810377B1 (en) * 1998-06-19 2004-10-26 Comsat Corporation Lost frame recovery techniques for parametric, LPC-based speech coding systems
US6681203B1 (en) * 1999-02-26 2004-01-20 Lucent Technologies Inc. Coupled error code protection for multi-mode vocoders
DE19921504A1 (de) * 1999-05-10 2000-11-23 Alcatel Sa Verfahren und Schaltungsanordnung zur Ermittlung einer Qualitätsinformation über die Übertragungsqualität eines Sprachsignals in einem digitalen Übertragungssystem
JP4218134B2 (ja) * 1999-06-17 2009-02-04 ソニー株式会社 復号装置及び方法、並びにプログラム提供媒体
JP4464488B2 (ja) 1999-06-30 2010-05-19 パナソニック株式会社 音声復号化装置及び符号誤り補償方法、音声復号化方法
JP3365360B2 (ja) 1999-07-28 2003-01-08 日本電気株式会社 音声信号復号方法および音声信号符号化復号方法とその装置
FR2813722B1 (fr) * 2000-09-05 2003-01-24 France Telecom Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif
US7031926B2 (en) * 2000-10-23 2006-04-18 Nokia Corporation Spectral parameter substitution for the frame error concealment in a speech decoder
KR100591350B1 (ko) * 2001-03-06 2006-06-19 가부시키가이샤 엔.티.티.도코모 오디오 데이터 보간장치 및 방법, 오디오 데이터관련 정보작성장치 및 방법, 오디오 데이터 보간 정보 송신장치 및방법, 및 그 프로그램 및 기록 매체
US7206986B2 (en) 2001-11-30 2007-04-17 Telefonaktiebolaget Lm Ericsson (Publ) Method for replacing corrupted audio data
JP3523243B1 (ja) * 2002-10-01 2004-04-26 沖電気工業株式会社 ノイズ低減装置
US6985856B2 (en) * 2002-12-31 2006-01-10 Nokia Corporation Method and device for compressed-domain packet loss concealment
US8209168B2 (en) * 2004-06-02 2012-06-26 Panasonic Corporation Stereo decoder that conceals a lost frame in one channel using data from another channel
US7831421B2 (en) * 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
JP4827661B2 (ja) * 2006-08-30 2011-11-30 富士通株式会社 信号処理方法及び装置
CN100578618C (zh) * 2006-12-04 2010-01-06 华为技术有限公司 一种解码方法及装置
CN101226744B (zh) * 2007-01-19 2011-04-13 华为技术有限公司 语音解码器中实现语音解码的方法及装置
CN101542593B (zh) * 2007-03-12 2013-04-17 富士通株式会社 语音波形内插装置及方法
US8169992B2 (en) 2007-08-08 2012-05-01 Telefonaktiebolaget Lm Ericsson (Publ) Uplink scrambling during random access
CN100550133C (zh) 2008-03-20 2009-10-14 华为技术有限公司 一种语音信号处理方法及装置
JP5440272B2 (ja) * 2010-03-08 2014-03-12 富士通株式会社 プッシュ信号の伝送状況判定方法、プログラム及び装置
CN106960673A (zh) * 2017-02-08 2017-07-18 中国人民解放军信息工程大学 一种语音掩蔽方法和设备
WO2020164752A1 (en) 2019-02-13 2020-08-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio transmitter processor, audio receiver processor and related methods and computer programs

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2451680A1 (fr) * 1979-03-12 1980-10-10 Soumagne Joel Discriminateur parole/silence pour interpolation de la parole
EP0076233B1 (de) * 1981-09-24 1985-09-11 GRETAG Aktiengesellschaft Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
JPS58143394A (ja) * 1982-02-19 1983-08-25 株式会社日立製作所 音声区間の検出・分類方式
IT1180126B (it) * 1984-11-13 1987-09-23 Cselt Centro Studi Lab Telecom Procedimento e dispositivo per la codifica e decodifica del segnale vocale mediante tecniche di quantizzazione vettoriale
US4910781A (en) * 1987-06-26 1990-03-20 At&T Bell Laboratories Code excited linear predictive vocoder using virtual searching
JPH0286231A (ja) * 1988-09-21 1990-03-27 Matsushita Electric Ind Co Ltd 音声予測符号化装置
JPH02288520A (ja) * 1989-04-28 1990-11-28 Hitachi Ltd 背景音再生機能付き音声符号復号方式
IT1229725B (it) * 1989-05-15 1991-09-07 Face Standard Ind Metodo e disposizione strutturale per la differenziazione tra elementi sonori e sordi del parlato
US5073940A (en) * 1989-11-24 1991-12-17 General Electric Company Method for protecting multi-pulse coders from fading and random pattern bit errors
JP3102015B2 (ja) * 1990-05-28 2000-10-23 日本電気株式会社 音声復号化方法
US5226084A (en) * 1990-12-05 1993-07-06 Digital Voice Systems, Inc. Methods for speech quantization and error correction

Also Published As

Publication number Publication date
EP0603854B1 (de) 2001-03-14
EP0603854A3 (de) 1995-01-04
JP2746033B2 (ja) 1998-04-28
EP0603854A2 (de) 1994-06-29
CA2112145A1 (en) 1994-06-25
JPH06202696A (ja) 1994-07-22
DE69330022D1 (de) 2001-04-19
CA2112145C (en) 1998-10-13
US5862518A (en) 1999-01-19

Similar Documents

Publication Publication Date Title
DE69330022T2 (de) Sprachdekoder
DE69113866T2 (de) Sprachdecoder.
DE69132013T2 (de) Verfahren für sprachquantisierung und fehlerkorrektur
DE69932575T2 (de) Sprachkodierer und sprachdekodierer
DE69810361T2 (de) Verfahren und Vorrichtung zur mehrkanaligen akustischen Signalkodierung und -dekodierung
DE69227401T2 (de) Verfahren zum Kodieren und Dekodieren von Sprachsignalen
DE60217522T2 (de) Verbessertes verfahren zur verschleierung von bitfehlern bei der sprachcodierung
DE69625874T2 (de) Verfahren und Vorrichtung zur Wiedergabe von Sprachsignalen, zur Dekodierung, zur Sprachsynthese und tragbares Funkendgerät
DE2945414C2 (de) Sprachsignal-Voraussageprozessor und Verfahren zur Verarbeitung eines Sprachleistungssignals
DE60006271T2 (de) Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung
DE69029120T2 (de) Stimmenkodierer
DE69023402T2 (de) Verfahren zur Sprachkodierung und -dekodierung.
DE69910240T2 (de) Vorrichtung und verfahren zur wiederherstellung des hochfrequenzanteils eines überabgetasteten synthetisierten breitbandsignals
DE69900786T2 (de) Sprachkodierung
DE69029232T2 (de) System und Methode zur Sprachkodierung
DE69530442T2 (de) Vorrichtung zur Sprachkodierung
DE69521004T2 (de) Kompensationsverfahren bei Rahmenauslöschung oder Paketverlust
DE69412913T2 (de) Verfahren und Vorrichtung für digitale Sprachkodierung mit Sprachsignalhöhenabschätzung und Klassifikation in digitalen Sprachkodierern
DE69731588T2 (de) Coderienrichtung mit verringerter komplexität für ein signalübertragungssystem
DE69529672T2 (de) System zur sprachkodierung
DE602004006211T2 (de) Verfahren zur Maskierung von Paketverlusten und/oder Rahmenausfall in einem Kommunikationssystem
DE60118631T2 (de) Verfahren zum ersetzen verfälschter audiodaten
DE102008042579A1 (de) Verfahren zur Fehlerverdeckung bei fehlerhafter Übertragung von Sprachdaten
DE69106580T2 (de) Codieranordnung mit einem Unterbandcoder und Sender mit der Codieranordnung.
DE69033510T2 (de) Numerischer sprachkodierer mit verbesserter langzeitvorhersage durch subabtastauflösung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition