DE69330022T2 - Sprachdekoder - Google Patents
SprachdekoderInfo
- Publication number
- DE69330022T2 DE69330022T2 DE69330022T DE69330022T DE69330022T2 DE 69330022 T2 DE69330022 T2 DE 69330022T2 DE 69330022 T DE69330022 T DE 69330022T DE 69330022 T DE69330022 T DE 69330022T DE 69330022 T2 DE69330022 T2 DE 69330022T2
- Authority
- DE
- Germany
- Prior art keywords
- frame
- data
- unit
- error
- voiced
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000005284 excitation Effects 0.000 claims description 53
- 230000000873 masking effect Effects 0.000 claims description 29
- 230000003044 adaptive effect Effects 0.000 claims description 26
- 230000003595 spectral effect Effects 0.000 claims description 21
- 238000001514 detection method Methods 0.000 claims description 9
- 238000000034 method Methods 0.000 claims description 7
- 230000003111 delayed effect Effects 0.000 claims description 2
- 230000008447 perception Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 14
- 230000015572 biosynthetic process Effects 0.000 description 13
- 238000003786 synthesis reaction Methods 0.000 description 13
- 238000011084 recovery Methods 0.000 description 5
- 230000001934 delay Effects 0.000 description 2
- 101100037607 Neurospora crassa (strain ATCC 24698 / 74-OR23-1A / CBS 708.71 / DSM 1257 / FGSC 987) rms5 gene Proteins 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
- Diese Erfindung betrifft einen Sprachdecoder zum hochwertigen Decodieren eines Sprachsignals, das mit einer niedrigen Bitrate, insbesondere 8 kb/s oder niedriger übertragen worden ist.
- Ein wohlbekannter Sprachdecoder, der Rahmen mit Fehlern betrifft, wird in einer Abhandlung mit dem Titel "Channel Coding for Digital Speech Transmission in the Japanese Digital Cellular System" von Michael J. McLaughlin (Radio Communication System Research Association, RC590-27, S. 41-45) offenbart. In diesem System werden in einem Rahmen mit Fehlern die Spektralparameterdaten und die Verzögerung eines adaptiven Codebuchs, das ein Anregungssignal aufweist, das in der Vergangenheit bestimmt wurde, durch vorhergehende Rahmendaten ersetzt. Zusätzlich wird die Amplitude des vergangenen Rahmens ohne Fehler in einem vorbestimmten Verhältnis reduziert, um die reduzierte Amplitude als die Amplitude für den gegenwärtigen Rahmen zu verwenden. Auf diese Art wird ein Sprachsignal reproduziert. Ferner wird, wenn kontinuierlich mehr Fehler als die vorbestimmte Anzahl an Rahmen detektiert werden, der gegenwärtige Rahmen stumm gemacht.
- In diesem bekannten System werden jedoch die Spektralparameterdaten im vorhergehenden Rahmen, die Verzögerung und die Amplitude, wie oben erwähnt, wiederholt verwendet, unabhängig davon, ob der Rahmen mit Fehlern ein stimmhafter oder ein stimmloser ist. Daher wird bei der Reproduktion des Sprachsignals der gegenwärtige Rahmen als ein stimmhafter verarbeitet, wenn der vorhergehende Rahmen ein stimmhafter ist, während er als ein stimmloser verarbeitet wird, wenn der vorhergehende Rahmen ein stimmloser ist. Dies bedeutet, daß es, wenn der gegenwärtige Rahmen ein Übergangsrahmen von einem stimmhaften zu einem stimmlosen ist, unmöglich ist, ein Sprachsignal zu reproduzieren, das stimmlose Merkmale aufweist.
- Es ist daher eine Aufgabe der vorliegenden Erfindung, einen Sprachdecoder mit beträchtlich verbesserter Sprachqualität selbst für den stimmhaften/stimmlosen Rahmen bereitzustellen. Diese Aufgabe wird mit den Merkmalen der Ansprüche gelöst.
- Gemäß der vorliegenden Erfindung wird ein Sprachdecoder bereitgestellt, wie in Anspruch 1 definiert.
- Im obigen Sprachdecoder werden beim wiederholten Gebrauch der Spektralparameterdaten im vergangenen Rahmen in den Maskierungseinheiten für unbrauchbare Rahmen für stimmhafte und stimmlose Rahmen die Spektralparameterdaten geändert, indem die Spektralparameterdaten des vergangenen Rahmens und ein fehlerrobuster Teil der Spektralparameterdaten des gegenwärtigen Rahmens mit einem Fehler kombiniert werden.
- Wenn die Verstärkungen der erhaltenen Anregung und das Anregungssignal in der Maskierungseinheit für unbrauchbare Rahmen für einen stimmhaften Rahmen gemäß der Tonhöheninformation zum Bilden eines Anregungssignals erhalten werden, wird eine Verstärkungszurückgewinnung so durchgeführt, daß die Leistung des Anregungssignals des vergangenen Rahmens und die Leistung des Anregungssignals des gegenwärtigen Rahmens zueinander gleich sind.
- Gemäß der vorliegenden Erfindung wird auch ein Sprachdecoder bereitgestellt, wie er in Anspruch 4 definiert wird.
- Andere Aufgaben und Merkmale werden aus der folgenden Beschreibung unter Bezugnahme auf die beigefügten Zeichnungen klar werden.
- Fig. 1 ist ein Blockschaltbild, das einen Sprachdecoder zeigt, der eine erste Ausführungsform der Erfindung ausführt;
- Fig. 2 ist ein Blockschaltbild, das ein Strukturbeispiel einer Entscheidungseinheit 170 für stimmhafte/stimmlose Rahmen im Sprachdecoder gemäß der ersten Ausführungsform der Erfindung zeigt;
- Fig. 3 ist ein Blockschaltbild, das ein Strukturbeispiel einer Maskierungseinheit 150 für unbrauchbare Rahmen für stimmhafte Rahmen im Sprachdecoder gemäß der ersten Ausführungsform der Erfindung zeigt;
- Fig. 4 ist ein Blockschaltbild, das ein Strukturbeispiel einer Maskierungseinheit 160 für unbrauchbare Rahmen für stimmlose Rahmen im Sprachdecoder gemäß der ersten Ausführungsform der Erfindung zeigt;
- Fig. 5 ist ein Blockschaltbild, das ein Strukturbeispiel einer Maskierungseinheit 150 für unbrauchbare Rahmen für stimmhafte Rahmen in einem Sprachdecoder gemäß einer zweiten Ausführungsform der Erfindung zeigt;
- Fig. 6 ist ein Blockschaltbild, das ein Strukturbeispiel einer Maskierungseinheit 160 für unbrauchbare Rahmen für stimmlose Rahmen im Sprachdecoder gemäß der zweiten Ausführungsform der Erfindung zeigt; und
- Fig. 7 ist ein Blockschaltbild, das ein Strukturbeispiel einer Maskierungseinheit 150 für unbrauchbare Rahmen für stimmhafte Rahmen gemäß einer dritten Ausführungsform der Erfindung zeigt.
- Es wird nun ein Sprachdecoder beschrieben für den Fall, wo der Einfachheit willen ein CELP-Verfahren als ein Sprachcodierungsverfahren verwendet wird.
- Es wird auf die beigefügten Zeichnungen Bezug genommen. Fig. 1 ist ein Blockschaltbild, das ein Sprachcodiersystem zeigt, das eine erste Ausführungsform der Erfindung ausführt. Bezugnehmend auf Fig. 1, empfängt eine Empfangseinheit 100 Spektralparameterdaten, die für jeden Rahmen übertragen werden (für 40 ms zum Beispiel), eine Verzögerung eines adaptives Codebuchs, das ein Anregungssignal aufweist, das in der Vergangenheit bestimmt worden ist (entsprechend einer Tonhöheninformation), einen Index eines Anregungscodebuchs, das ein Anregungssignal aufweist, Verstärkungen des adaptiven und des Anregungscodebuchs und eine Amplitude eines Sprachsignals, und gibt diese Eingabedaten an eine Fehlerdetektionseinheit 110, einen Datenspeicher 120 und eine erste Verteilerschaltung 130 aus. Die Fehlerdetektionseinheit 110 prüft, ob Fehler in für die Wahrnehmung wichtigen Bits durch Kanalfehler erzeugt werden und gibt das Ergebnis der Prüfung an die erste Verteilerschaltung 130 aus. Die erste Verteilerschaltung 130 gibt die Eingabedaten an eine zweite Verteilerschaltung 180 aus, wenn ein Fehler in der Fehlerdetektionseinheit 110 detektiert wird, während sie die Eingabedaten an eine Sprachdecodereinheit 140 ausgibt, wenn kein Fehler detektiert wird. Der Datenspeicher 120 speichert die Eingabedaten, nachdem die Daten um einen Rahmen verzögert werden, und gibt die gespeicherten Daten an Maskierungseinheiten 150 und 160 für unbrauchbare Rahmen für stimmhafte bzw. stimmlose Rahmen aus. Die Sprachdecodereinheit 140 decodiert das Sprachsignal, indem sie die Spektralparameterdaten, die Verzögerung des adaptiven Codebuchs, das ein Anregungssignal aufweist, das in der Vergangenheit bestimmt worden ist, den Index des Anregungscodebuchs, das das Anregungssignal aufweist, Verstärkungen des adaptiven und des Anregungscodebuchs und die Amplitude des Sprachsignals verwendet, und gibt das Ergebnis der Decodierung an eine Entscheidungseinheit 170 für stimmhafte/stimmlose Rahmen und auch an einen Ausgangsanschluß 190 aus. Die Entscheidungseinheit 170 für stimmhafte/stimmlose Rahmen leitet mehrere Merkmalsquantitäten aus dem Sprachsignal ab, das in der Sprachdecodereinheit 140 im vorhergehenden Rahmen reproduziert worden ist. Dann prüft sie, ob der gegenwärtige Rahmen ein stimmhafter oder stimmloser ist, und gibt das Ergebnis der Prüfung an die zweite Verteilerschaltung 180 aus. Die zweite Verteilerschaltung 180 gibt die Eingabedaten an die Maskierungseinheit 150 für unbrauchbare Rahmen für stimmhafte Rahmen aus, wenn in der Entscheidungseinheit 170 für stimmhafte/- stimmlose Rahmen festgestellt wird, daß der gegenwärtige Rahmen ein stimmhafter ist. Wenn der gegenwärtige Rahmen ein stimmloser ist, gibt die zweite Verteilerschaltung 180 die Eingabedaten an die Maskierungseinheit 160 für unbrauchbare Rahmen für stimmlose Rahmen aus. Die Maskierungseinheit 150 für unbrauchbare Rahmen für stimmhafte Rahmen interpoliert das Sprachsignal unter Verwendung der Daten des vorhergehenden und gegenwärtigen Rahmens und gibt das Ergebnis an den Ausgangsanschluß 190 aus. Die Maskierungseinheit 160 für unbrauchbare Rahmen für stimmlose Rahmen interpoliert das Sprachsignal unter Verwendung der Daten des vorhergehenden und gegenwärtigen Rahmens und gibt das Ergebnis an den Ausgangsanschluß 190 aus.
- Fig. 2 ist ein Blockschaltbild, das ein Strukturbeispiel der Entscheidungseinheit 170 für stimmhafte/stimmlose Rahmen in dieser Ausführungsform zeigt. Der Einfachheit willen wird ein Fall betrachtet, in dem zwei unterschiedliche Arten von Merkmalsquantitäten für die Entscheidung für stimmhafte/stimmlose Rahmen verwendet wird. Bezugnehmend auf Fig. 2, wird ein Sprachsignal, das für jeden Rahmen (von 40 ms zum Beispiel) decodiert worden ist, von einen Eingangsanschluß 200 eingegeben und an eine Datenverzögerungsschaltung 210 ausgegeben. Die Datenverzögerungsschaltung 210 verzögert das Eingangssprachsignal um einen Rahmen und gibt die verzögerten Daten an einen ersten und einen zweiten Merkmalsquantitätsauskoppler 220 und 230 aus. Der erste Merkmalsquantitätsauskoppler 220 leitet unter Verwendung der Formel (1) eine Tonhöhenschätzverstärkung ab, die die Periodizität des Sprachsignals repräsentiert, und gibt das Ergebnis an einen Komparator 240 aus. Der zweite Merkmalsquantitätsauskoppler 230 berechnet das quadratische Mittel des Sprachsignals für jeden von Teilrahmen als Abschnitte eines Rahmens und leitet die Änderung des quadratischen Mittels unter Verwendung cler Formel (2) ab, wobei das Ergebnis an den Komparator 240 ausgegeben wird. Der Komparator 240 vergleicht die beiden unterschiedlichen Arten Merkmalsquantitäten, die im ersten und zweiten Merkmalsquantitätsauskoppler 220 und 230 abgeleitet worden sind, mit Schwellenwerten der beiden Merkmalsquantitäten, die in einem Schwellenspeicher 250 gespeichert sind. Indem so verfahren wird, prüft der Komparator 240, ob das Sprachsignal ein stimmhaftes oder ein stimmloses ist, und gibt das Ergebnis der Prüfung an einen Ausgangsanschluß 260 aus.
- Fig. 3 ist ein Blockschaltbild, das ein Strukturbeispiel der Maskierungseinheit 150 für unbrauchbare Rahmen für stimmhafte Rahmen in der Ausführungsform zeigt. Bezugnehmend auf Fig. 3, wird die Verzögerung des adaptiven Codebuchs von einem ersten Eingangsanschluß 300 eingegeben und wird an einen Verzögerungskompensator 320 ausgegeben. Der Verzögerungskompensator 320 kompensiert die Verzögerung des gegenwärtigen Rahmens entsprechend der Verzögerung des vorhergehenden Rahmens, der im Datenspeicher 120 gespeichert worden ist, unter Verwendung der Formel (3). Der Index des Anregungscodebuchs wird von einem zweiten Eingangsanschluß 310 eingegeben, und ein Anregungscodevektor, der jenem Index entspricht, wird von einem Anregungscodebuch 340 ausgegeben. Ein Signal, das durch Multiplizieren des Anregungscodevektors mit der Verstärkung des vorhergehenden Rahmens erhalten wird, der im Datenspeicher 120 gespeichert worden ist, und ein Signal, das durch Multiplizieren des adaptiven Codevektors, der von einem adaptiven Codebuch 330 mit der kompensierten adaptiven Codebuchverzögerung ausgegeben wird, mit der Verstärkung des vorhergehenden Rahmens erhalten wird, der im Datenspeicher 120 gespeichert worden ist, werden miteinander addiert und die sich ergebende Summe wird an einen Synthesefilter 350 ausgegeben. Der Synthesefilter 350 synthetisiert ein Sprachsignal unter Verwendung eines im Datenspeicher 120 gespeicherten Filterkoeffizienten des vorhergehenden Rahmens, und gibt das sich ergebende Sprachsignal an eine Amplitudensteuervorrichtung 360 aus. Die Amplitudensteuervorrichtung 360 führt eine Amplitudensteuerung unter Verwendung des im Datenspeicher 120 gespeicherten quadratischen Mittels des vorhergehenden Rahmens aus, und sie gibt das sich ergebene Sprachsignal an einen Ausgangsanschluß 370 aus.
- Fig. 4 ist ein Blockschaltbild, das ein Strukturbeispiel der Maskierungseinheit 160 für unbrauchbare Rahmen für einen stimmlosen Rahmen in der Ausführungsform zeigt. Bezugnehmend auf Fig. 4, wird der Index des Anregungscodebuchs von einem Eingangsanschluß 400 eingegeben, und ein Anregungscodevektor, der jenem Index entspricht, wird vom Anregungscodebuch 410 ausgegeben. Der Anregungscodevektor wird mit der Verstärkung des vorhergehenden Rahmens multipliziert, die im Datenspeicher 120 gespeichert ist, und das sich ergebende Produkt wird an einen Synthesefilter 420 ausgegeben. Der Synthesefilter 420 synthetisiert das Sprachsignal unter Verwendung eines im Datenspeicher 120 gespeicherten Filterkoeffizienten des vorhergehenden Rahmens und gibt das sich ergebende Sprachsignal an eine Amplitudensteuervorrichtung 430 aus. Die Amplitudensteuervorrichtung 430 führt eine Amplitudensteuerung unter Verwendung eines im Datenspeicher 120 gespeicherten quadratischen Mittels des vorhergehenden Rahmens aus und gibt das sich ergebene Sprachsignal an einen Ausgangsanschluß 440 aus.
- Fig. 5 ist ein Blockschaltbild, das ein Strukturbeispiel der Maskierungseinheit 150 für unbrauchbare Rahmen für stimmhafte Rahmen in einen Sprachdecoder zeigt, der eine zweite Ausführungsform der Erfindung ausführt. Bezugnehmend auf Fig. 5, wird die adaptive Codebuchverzögerung von einem ersten Eingangsanschluß 500 eingegeben und an einen Verzögerungskompensator 530 ausgegeben. Der Verzögerungskompensator 530 verzögert die Verzögerung des gegenwärtigen Rahmens mit vorhergehenden Verzögerungsdaten, die im Datenspeicher 120 gespeichert sind, unter Verwendung der Formel (3). Der Anregungscodebuchindex wird von einem zweiten Eingangsanschluß 510 eingegeben, und eine Anregungscodevektor, der jedem Index entspricht, wird von einem Anregungscodebuch 550 ausgegeben. Ein Signal, das durch Multiplizieren des Anregungscodevektors mit einer Verstärkung eines vorhergehenden Rahmens erhalten wird, die im Datenspeicher 120 gespeichert ist, und ein Signal, das durch Multiplizieren des adaptiven Codevektors, der von einem adaptiven Codebuch 540 mit der kompensierten adaptiven Codebuchverzögerung ausgegeben wird, mit der im Datenspeicher 120 gespeicherten Verstärkung des vorhergehenden Rahmens erhalten wird, werden miteinander addiert, und die sich ergebende Summe wird an einen Synthesefilter 570 ausgegeben. Ein Filterkoeffizienteninterpolator 560 leitet einen Filterkoeffizienten unter Verwendung von Filterkoeffizientendaten des vorhergehenden Rahmens, die im Datenspeicher 120 gespeichert sind, und eines fehlerrobusten Teils der Filterkoeffizientendaten des gegenwärtigen Rahmens ab, die von einem dritten Eingangsanschluß 520 eingegeben worden sind, und gibt den abgeleiteten Filterkoeffizient an einen Synthesefilter 570 aus. Der Synthesefilter 570 synthetisiert ein Sprachsignal unter Verwendung dieses Filterkoeffizienten und gibt dieses Sprachsignal an eine Amplitudensteuervorrichtung 580 aus. Die Amplitudensteuervorrichtung 580 führt eine Amplitudensteuerung unter Verwendung eines quadratischen Mittels des vorhergehenden Rahmens aus, das im Datenspeicher 120 gespeichert ist, und gibt das sich ergebende Sprachsignal an einen Ausgangsanschluß 590 aus.
- Fig. 6 ist ein Blockschaltbild, das ein Strukturbeispiel der Maskierungseinheit 160 für unbrauchbare Rahmen für einen stimmlosen Rahmen im Sprachdecoder zeigt, der die zweite Ausführungsform der Erfindung ausführt. Bezugnehmend auf Fig. 6, wird der Anregungscodebuchindex von einem ersten Eingangsanschluß 600 eingegeben, und eine Anregungscodevektor, der jenem Index entspricht, wird von einem Anregungscodebuch 620 ausgegeben. Der Anregungscodevektor wird mit einer Verstärkung eines vorhergehenden Rahmens multipliziert, die im Datenspeicher 120 gespeichert ist, und das sich ergebende Produkt wird an einen Synthesefilter 640 ausgegeben. Ein Filterkoeffizienteninterpolator 630 leitet einen Filterkoeffizienten ab unter Verwendung von Filterkoeffizientendaten des vorhergehenden Rahmens, die im Datenspeicher 120 gespeichert sind, und einem fehlerrobusten Teil der Filterkoeffizientendaten des gegenwärtigen Rahmens, die von einem zweiten Eingangsanschluß 610 eingegeben werden, und gibt diesen Filterkoeffizienten an einen Synthesefilter 640 aus. Der Synthesefilter 640 synthetisiert ein Sprachsignal unter Verwendung dieses Filterkoeffizienten, und gibt dieses Sprachsignal an eine Amplitudensteuervorrichtung 650 aus. Die Amplitudensteuervorrichtung 650 führt eine Amplitudensteuerung unter Verwendung eines quadratischen Mittels des vorhergehenden Rahmens aus, das im Datenspeicher 120 gespeichert ist, und gibt das sich ergebende Sprachsignal an einen Ausgangsanschluß 660 aus.
- Fig. 7 ist ein Blockschaltbild, das ein Strukturbeispiel einer Maskierungseinheit 150 für unbrauchbare Rahmen in einem Sprachdecoder zeigt, der eine dritte Ausführungsform der Erfindung ausführt. Bezugnehmend auf Fig. 7, wird die Verzögerung des adaptiven Codebuchs von einem ersten Eingangsanschluß 700 eingegeben und an einen Verzögerungskompensator 730 ausgegeben. Der Verzögerungskompensator 730 kompensiert die Verzögerung des gegenwärtigen Rahmens mit der Verzögerung des vorhergehenden Rahmens, die im Datenspeicher 120 gespeichert worden ist, unter Verwendung der Formel (3). Eine Verstärkungskoeffizienten-Zurückgewinnungseinheit 770 leitet die Verstärkungen des adaptiven und des Anregungscodebuchs des gegenwärtigen Rahmen entsprechend den Verstärkungen des adaptiven und Anregungscodebuchs und dem quadratisches Mittel des vorhergehenden Rahmens, die im Datenspeicher 120 gespeichert sind, unter Verwendung der Formel (4) ab. Der Anregungscodeindex wird von einem zweiten Eingangsanschluß 710 eingegeben, und ein Anregungscodevektor, cler jenem Index entspricht, wird von einem Anregungscodebuch 750 ausgegeben. Ein Signal, das durch Multiplizieren des Anregungscodebuchvektors mit der Verstärkung erhalten wird, die in einer Verstärkungskoeffizienten-Zurückgewinnungseinheit 770 erhalten wird, und ein Signal, das durch Multiplizieren des adaptiven Codevektors, der von einem adaptiven Codebuch 740 mit der kompensierten Verzögerung des adaptive Codebuchs ausgegeben wird, mit der Verstärkung, die in der Verstärkungskoeffizienten-Zurückgewinnungseinheit 770 erhalten wird, werden miteinander addiert, und die sich ergebende Summe wird an einen Synthesefilter 780 ausgegeben. Ein Filterkoeffizientenkompensator 760 leitet einen Filterkoeffizienten unter Verwendung von Filterkoeffizientendaten des vorhergehenden Rahmens, die im Datenspeicher 120 gespeichert sind und eines fehlerrobusten Teils der Filterkoeffizientendaten des gegenwärtigen Rahmens ab, die von einem dritten Eingangsanschluß 720 eingegeben werden, und gibt diesen Filterkoeffizienten an einen Synthesefilter 780 aus. Der Synthesefilter 780 synthetisiert ein Sprachsignal unter Verwendung dieses Filterkoeffizienten und gibt das sich ergebende Sprachsignal an eine Amplitudensteuervorrichtung 790 aus. Die Amplitudensteuervorrichtung 790 führt eine Amplitudensteuerung unter Verwendung des quadratischen Mittels des vorhergehenden Rahmens aus, das im Datenspeicher 120 gespeichert ist, und gibt das sich ergebende Sprachsignal an einen Ausgangsanschluß 800 aus. Die Tonhöhenschätzverstärkung G wird unter Verwendung einer Formel
- erhalten, wobei x ein Vektor des vorhergehenden Rahmens ist, und c ein Vektor ist, der einem vergangenen Zeitpunkt entspricht, der um die Tonhöhenperiode liegt. Als (,) wird das innere Produkt gezeigt. Wenn man das quadratische Mittel jedes Teilrahmens des vorhergehenden Rahmens durch rms&sub1;, rms&sub2;, ..., rms&sub5; bezeichnet, wird die Änderung V des quadratischen Mittels durch die folgende Formel gegeben. In diesem Fall ist der Rahmen in fünf Teilrahmen unterteilt.
- Unter Verwendung der Verzögerung Lp des vorhergehenden Rahmens und der Verzögerung L des gegenwärtigen Rahmens erhalten wir
- 0,95 · Lp < L < 1,05 · Lp (3)
- Wenn L die Formel (3) erfüllt, wird L so bestimmt, daß die Verzögerung die des gegenwärtigen Rahmens ist. Andernfalls wird Lp so bestimmt, daß die Verzögerung die des gegenwärtigen Rahmens ist.
- Eine Verstärkung zum Minimieren des nächsten Fehlers EI wird mit der folgenden Formel (4) ausgewählt:
- Ei = Rp · G²ap + G²ep - R · G²ai+G²ei (4)
- wobei Rp das quadratische Mittel des vorhergehenden Rahmens ist, R das quadratische Mittel des gegenwärtigen Rahmens ist, Gap und Gep Verstärkungen der adaptiven und Anregungscodebücher des vorhergehenden Rahmens sind, und Gai und Gei die Verstärkungen des adaptiven und Anregungscodebuchs des Index i sind. Es ist möglich, dieses System auch in Kombination mit einem anderen Codierungsverfahren als dem CELP-Verfahren zu verwenden.
- Wie im vorhergehenden beschrieben worden ist, ist es gemäß der ersten Ausführungsform der Erfindung möglich, eine befriedigende Sprachqualität mit der Entscheidungseinheit für stimmhafte/stimmlose Rahmen zu erhalten, die eine Prüfung ausführt, ob der gegenwärtige Rahmen ein stimmhafter oder ein stimmloser ist und durch Schalten der Maskierungsprozedur für unbrauchbare Rahmen des gegenwärtigen Rahmens zwischen die Maskierungseinheiten für unbrauchbare Rahmen für stimmhafte und stimmlose Rahmen. Die zweite Ausführungsform der Erfindung macht es möglich, eine höhere Sprachqualität zu erhalten, indem während wiederholt die Spektralparameter des vergangen Rahmens verwendet werden, Änderungen der Spektralparameter bewirkt werden, indem die Spektralparameter des vergangenen Rahmens und der fehlerrobuste Teil der fehlerenthaltenden Spektralparameterdaten des gegenwärtigen Rahmens kombiniert werden. Ferner ist es gemäß der dritten Ausführungsform der Erfindung möglich, eine höhere Sprachqualität zu erhalten, indem eine Zurückgewinnung der Verstärkungen des adaptiven und Anregungscodebuch durchgeführt wird, so daß die Leistung des Anregungssignals des vergangenen Rahmen und jene des gegenwärtigen Rahmens gleich sind.
Claims (4)
1. Sprachdecoder, der aufweist:
eine Empfangseinheit (100) zum Empfangen von Parametern von
Spektraldaten, Tonhöhendaten, die einer Tonhöhenperiode
entsprechen, und Indexdaten und Verstärkungsdaten eines
Anregungssignals für jeden Rahmen, der eine vorbestimmte Länge
eines Sprachsignals aufweist, und um sie auszugeben;
eine Sprachdecodereinheit (140) zum Reproduzieren eines
Sprachsignals unter Verwendung der Parameter;
einen Datenspeicher (120) zum Speichern der Eingabedaten
nach Verzögern der Daten um einen Rahmen,
eine Fehlerkorrektureinheit zum Korrigieren eines Fehlers im
Sprachsignal;
eine Fehlerdetektionseinheit (110) zum Detektieren eines
nicht korrigierbaren Fehlerrahmens im Sprachsignal;
eine Entscheidungseinheit (170) für stimmhafte/stimmlose
Rahmen zum Entscheiden, ob der Fehlerrahmen, der durch die
Fehlerdetektionseinheit detektiert wird, ein stimmhafter
Rahmen oder ein stimmloser Rahmen ist, beruhend auf mehreren
Merkmalsquantitäten des Sprachsignals, das in der
Sprachdecodereinheit in einem vergangenen Rahmen reproduziert worden
ist;
eine Maskierungseinheit (150) für unbrauchbare Rahmen für
stimmhafte Rahmen zum Reproduzieren eines Sprachsignals des
Fehlerrahmens, der durch die Fehlerdetektionseinheit
detektiert wird und als ein stimmhafter Rahmen unter Verwendung
der Spektraldaten, der Tonhöhendaten und der
Verstärkungsdaten des vergangenen Rahmens und der Indexdaten des
Fehlerrahmens
entschieden wird;
eine Maskierungseinheit (160) für unbrauchbare Rahmen für
stimmlose Rahmen zum Reproduzieren eines Sprachsignals des
Fehlerrahmens, der durch die Fehlerdetektionseinheit
detektiert wird und als ein stimmloser Rahmen unter Verwendung
der Spektraldaten und der Verstärkungsdaten des vergangenen
Rahmens und der Indexdaten des Fehlerrahmens entschieden
wird; und
eine Verteilereinheit (180) zum Ausgeben der Eingabedaten
an entweder die Maskierungseinheit (150) für unbrauchbare
Rahmen für stimmhafte Rahmen oder an die Maskierungseinheit
(160) für unbrauchbare Rahmen für stimmlose Rahmen
entsprechend dem Entscheidungsergebnis in der Entscheidungseinheit
für stimmhafte/stimmlose Rahmen.
2. Sprachdecoder nach Anspruch 1, wobei beim wiederholten
Gebrauch der Spektraldaten im vergangenen Rahmen im Prozeß der
Maskierungseinheiten für unbrauchbare Rahmen für stimmhafte
oder stimmlose Rahmen die Spektraldaten beruhend auf einer
Kombination der Spektraldaten des vergangenen Rahmens und
eines fehlerrobusten Teils der Spektraldaten des
Fehlerrahmens geändert werden.
3. Sprachdecoder nach Anspruch 1, wobei Verstärkungen der
erhaltenen Anregung beruhend auf den Tonhöhendaten und dem
Anregungssignal im Prozeß der Maskierungseinheit für
unbrauchbare Rahmen für stimmhafte Rahmen zurückgewonnen werden, so
daß die Leistung des Anregungssignals des vergangenen
Rahmens und die Leistung des Anregungssignals des Fehlerrahmens
einander gleich sind.
4. Sprachdecoder, der aufweist:
eine Empfangseinheit (100) zum Empfangen von Spektraldaten,
die für jeden Rahmen übertragen werden, einer Verzögerung
eines adaptiven Codebuchs, das ein in der Vergangenheit
bestimmtes Anregungssignal aufweist, das Tonhöhendaten
entspricht, eines Index eines Anregungscodebuchs, das ein
Anregungssignal ausmacht, Verstärkungen des adaptiven und des
Anregungscodebuchs und einer Amplitude eines Sprachsignals,
und zum Ausgeben dieser Eingabedaten;
eine Fehlerdetektionseinheit (110) zum Prüfen, ob ein Fehler
des Rahmens beruhend auf den Eingabedaten in für die
Wahrnehmung wichtigen Bits durch Fehler erzeugt wird;
einen Datenspeicher (120) zum Speichern der Eingabedaten,
nachdem die Daten um einen Rahmen verzögert werden;
eine Sprachdecodereinheit (140) zum Decodieren, wenn kein
Fehler durch die Fehlerdetektionseinheit detektiert wird,
des Sprachsignals unter Verwendung der Spektraldaten, einer
Verzögerung des adaptiven Codebuchs, das ein in der
Vergangenheit bestimmtes Anregungssignal aufweist, eines Index des
Anregungscodebuchs, das das Anregungssignal aufweist,
Verstärkungen des adaptiven und des Anregungscodebuchs und
einer Amplitude des Sprachsignals;
eine Entscheidungseinheit für stimmhafte/stimmlose Rahmen
(170) zum Ableiten mehrerer Merkmalsquantitäten aus dem
Sprachsignal, das in der Sprachdecodereinheit im
vorhergehenden Rahmen reproduziert worden ist, und Entscheiden, ob
der gegenwärtige Rahmen ein stimmhafter oder stimmloser ist;
eine Maskierungseinheit (150) für unbrauchbare Rahmen für
stimmhafte Rahmen zum Interpolieren, wenn ein Fehler
detektiert wird und der gegenwärtige Rahmen stimmlos ist, des
Sprachsignals unter Verwendung der Daten des vorhergehenden
und gegenwärtigen Rahmens und;
eine Maskierungseinheit. (160) für unbrauchbare Rahmen für
stimmlose Rahmen zum Interpolieren, wenn ein Fehler
detektiert wird und der gegenwärtige Rahmen stimmhaft ist, des
Sprachsignals unter Verwendung der Daten des vorhergehenden
und gegenwärtigen Rahmens; und
eine Verteilereinheit (180) zum Ausgeben der Eingabedaten
an entweder die Maskierungseinheit (150) für unbrauchbare
Rahmen für stimmhafte Rahmen oder an die Maskierungseinheit
(160) für unbrauchbare Rahmen für stimmlose Rahmen
entsprechend dem Entscheidungsergebnis in der Entscheidungseinheit
für stimmhafte/stimmlose Rahmen.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4343723A JP2746033B2 (ja) | 1992-12-24 | 1992-12-24 | 音声復号化装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69330022D1 DE69330022D1 (de) | 2001-04-19 |
DE69330022T2 true DE69330022T2 (de) | 2001-08-09 |
Family
ID=18363756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69330022T Expired - Lifetime DE69330022T2 (de) | 1992-12-24 | 1993-12-22 | Sprachdekoder |
Country Status (5)
Country | Link |
---|---|
US (1) | US5862518A (de) |
EP (1) | EP0603854B1 (de) |
JP (1) | JP2746033B2 (de) |
CA (1) | CA2112145C (de) |
DE (1) | DE69330022T2 (de) |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1996037964A1 (en) * | 1995-05-22 | 1996-11-28 | Ntt Mobile Communications Network Inc. | Sound decoding device |
FR2751813B1 (fr) * | 1996-07-29 | 1999-01-08 | Alcatel Mobile Comm France | Procede et dispositif d'estimation de la nature acceptable ou non acceptable de blocs d'information recus via un systeme de transmission utilisant un codage par blocs |
FI113600B (fi) * | 1996-09-17 | 2004-05-14 | Nokia Corp | Signalointi digitaalisessa matkaviestinjärjestelmässä |
US7788092B2 (en) * | 1996-09-25 | 2010-08-31 | Qualcomm Incorporated | Method and apparatus for detecting bad data packets received by a mobile telephone using decoded speech parameters |
US6205130B1 (en) * | 1996-09-25 | 2001-03-20 | Qualcomm Incorporated | Method and apparatus for detecting bad data packets received by a mobile telephone using decoded speech parameters |
EP1686563A3 (de) | 1997-12-24 | 2007-02-07 | Mitsubishi Denki Kabushiki Kaisha | Verfahren und System zur Sprachdekodierung |
US6810377B1 (en) * | 1998-06-19 | 2004-10-26 | Comsat Corporation | Lost frame recovery techniques for parametric, LPC-based speech coding systems |
US6681203B1 (en) * | 1999-02-26 | 2004-01-20 | Lucent Technologies Inc. | Coupled error code protection for multi-mode vocoders |
DE19921504A1 (de) * | 1999-05-10 | 2000-11-23 | Alcatel Sa | Verfahren und Schaltungsanordnung zur Ermittlung einer Qualitätsinformation über die Übertragungsqualität eines Sprachsignals in einem digitalen Übertragungssystem |
JP4218134B2 (ja) * | 1999-06-17 | 2009-02-04 | ソニー株式会社 | 復号装置及び方法、並びにプログラム提供媒体 |
JP4464488B2 (ja) | 1999-06-30 | 2010-05-19 | パナソニック株式会社 | 音声復号化装置及び符号誤り補償方法、音声復号化方法 |
JP3365360B2 (ja) | 1999-07-28 | 2003-01-08 | 日本電気株式会社 | 音声信号復号方法および音声信号符号化復号方法とその装置 |
FR2813722B1 (fr) * | 2000-09-05 | 2003-01-24 | France Telecom | Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif |
US7031926B2 (en) * | 2000-10-23 | 2006-04-18 | Nokia Corporation | Spectral parameter substitution for the frame error concealment in a speech decoder |
KR100591350B1 (ko) * | 2001-03-06 | 2006-06-19 | 가부시키가이샤 엔.티.티.도코모 | 오디오 데이터 보간장치 및 방법, 오디오 데이터관련 정보작성장치 및 방법, 오디오 데이터 보간 정보 송신장치 및방법, 및 그 프로그램 및 기록 매체 |
US7206986B2 (en) | 2001-11-30 | 2007-04-17 | Telefonaktiebolaget Lm Ericsson (Publ) | Method for replacing corrupted audio data |
JP3523243B1 (ja) * | 2002-10-01 | 2004-04-26 | 沖電気工業株式会社 | ノイズ低減装置 |
US6985856B2 (en) * | 2002-12-31 | 2006-01-10 | Nokia Corporation | Method and device for compressed-domain packet loss concealment |
US8209168B2 (en) * | 2004-06-02 | 2012-06-26 | Panasonic Corporation | Stereo decoder that conceals a lost frame in one channel using data from another channel |
US7831421B2 (en) * | 2005-05-31 | 2010-11-09 | Microsoft Corporation | Robust decoder |
JP4827661B2 (ja) * | 2006-08-30 | 2011-11-30 | 富士通株式会社 | 信号処理方法及び装置 |
CN100578618C (zh) * | 2006-12-04 | 2010-01-06 | 华为技术有限公司 | 一种解码方法及装置 |
CN101226744B (zh) * | 2007-01-19 | 2011-04-13 | 华为技术有限公司 | 语音解码器中实现语音解码的方法及装置 |
CN101542593B (zh) * | 2007-03-12 | 2013-04-17 | 富士通株式会社 | 语音波形内插装置及方法 |
US8169992B2 (en) | 2007-08-08 | 2012-05-01 | Telefonaktiebolaget Lm Ericsson (Publ) | Uplink scrambling during random access |
CN100550133C (zh) | 2008-03-20 | 2009-10-14 | 华为技术有限公司 | 一种语音信号处理方法及装置 |
JP5440272B2 (ja) * | 2010-03-08 | 2014-03-12 | 富士通株式会社 | プッシュ信号の伝送状況判定方法、プログラム及び装置 |
CN106960673A (zh) * | 2017-02-08 | 2017-07-18 | 中国人民解放军信息工程大学 | 一种语音掩蔽方法和设备 |
WO2020164752A1 (en) | 2019-02-13 | 2020-08-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio transmitter processor, audio receiver processor and related methods and computer programs |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2451680A1 (fr) * | 1979-03-12 | 1980-10-10 | Soumagne Joel | Discriminateur parole/silence pour interpolation de la parole |
EP0076233B1 (de) * | 1981-09-24 | 1985-09-11 | GRETAG Aktiengesellschaft | Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung |
JPS58143394A (ja) * | 1982-02-19 | 1983-08-25 | 株式会社日立製作所 | 音声区間の検出・分類方式 |
IT1180126B (it) * | 1984-11-13 | 1987-09-23 | Cselt Centro Studi Lab Telecom | Procedimento e dispositivo per la codifica e decodifica del segnale vocale mediante tecniche di quantizzazione vettoriale |
US4910781A (en) * | 1987-06-26 | 1990-03-20 | At&T Bell Laboratories | Code excited linear predictive vocoder using virtual searching |
JPH0286231A (ja) * | 1988-09-21 | 1990-03-27 | Matsushita Electric Ind Co Ltd | 音声予測符号化装置 |
JPH02288520A (ja) * | 1989-04-28 | 1990-11-28 | Hitachi Ltd | 背景音再生機能付き音声符号復号方式 |
IT1229725B (it) * | 1989-05-15 | 1991-09-07 | Face Standard Ind | Metodo e disposizione strutturale per la differenziazione tra elementi sonori e sordi del parlato |
US5073940A (en) * | 1989-11-24 | 1991-12-17 | General Electric Company | Method for protecting multi-pulse coders from fading and random pattern bit errors |
JP3102015B2 (ja) * | 1990-05-28 | 2000-10-23 | 日本電気株式会社 | 音声復号化方法 |
US5226084A (en) * | 1990-12-05 | 1993-07-06 | Digital Voice Systems, Inc. | Methods for speech quantization and error correction |
-
1992
- 1992-12-24 JP JP4343723A patent/JP2746033B2/ja not_active Expired - Lifetime
-
1993
- 1993-12-22 EP EP93120685A patent/EP0603854B1/de not_active Expired - Lifetime
- 1993-12-22 DE DE69330022T patent/DE69330022T2/de not_active Expired - Lifetime
- 1993-12-22 CA CA002112145A patent/CA2112145C/en not_active Expired - Fee Related
- 1993-12-23 US US08/172,171 patent/US5862518A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP0603854B1 (de) | 2001-03-14 |
EP0603854A3 (de) | 1995-01-04 |
JP2746033B2 (ja) | 1998-04-28 |
EP0603854A2 (de) | 1994-06-29 |
CA2112145A1 (en) | 1994-06-25 |
JPH06202696A (ja) | 1994-07-22 |
DE69330022D1 (de) | 2001-04-19 |
CA2112145C (en) | 1998-10-13 |
US5862518A (en) | 1999-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69330022T2 (de) | Sprachdekoder | |
DE69113866T2 (de) | Sprachdecoder. | |
DE69132013T2 (de) | Verfahren für sprachquantisierung und fehlerkorrektur | |
DE69932575T2 (de) | Sprachkodierer und sprachdekodierer | |
DE69810361T2 (de) | Verfahren und Vorrichtung zur mehrkanaligen akustischen Signalkodierung und -dekodierung | |
DE69227401T2 (de) | Verfahren zum Kodieren und Dekodieren von Sprachsignalen | |
DE60217522T2 (de) | Verbessertes verfahren zur verschleierung von bitfehlern bei der sprachcodierung | |
DE69625874T2 (de) | Verfahren und Vorrichtung zur Wiedergabe von Sprachsignalen, zur Dekodierung, zur Sprachsynthese und tragbares Funkendgerät | |
DE2945414C2 (de) | Sprachsignal-Voraussageprozessor und Verfahren zur Verarbeitung eines Sprachleistungssignals | |
DE60006271T2 (de) | Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung | |
DE69029120T2 (de) | Stimmenkodierer | |
DE69023402T2 (de) | Verfahren zur Sprachkodierung und -dekodierung. | |
DE69910240T2 (de) | Vorrichtung und verfahren zur wiederherstellung des hochfrequenzanteils eines überabgetasteten synthetisierten breitbandsignals | |
DE69900786T2 (de) | Sprachkodierung | |
DE69029232T2 (de) | System und Methode zur Sprachkodierung | |
DE69530442T2 (de) | Vorrichtung zur Sprachkodierung | |
DE69521004T2 (de) | Kompensationsverfahren bei Rahmenauslöschung oder Paketverlust | |
DE69412913T2 (de) | Verfahren und Vorrichtung für digitale Sprachkodierung mit Sprachsignalhöhenabschätzung und Klassifikation in digitalen Sprachkodierern | |
DE69731588T2 (de) | Coderienrichtung mit verringerter komplexität für ein signalübertragungssystem | |
DE69529672T2 (de) | System zur sprachkodierung | |
DE602004006211T2 (de) | Verfahren zur Maskierung von Paketverlusten und/oder Rahmenausfall in einem Kommunikationssystem | |
DE60118631T2 (de) | Verfahren zum ersetzen verfälschter audiodaten | |
DE102008042579A1 (de) | Verfahren zur Fehlerverdeckung bei fehlerhafter Übertragung von Sprachdaten | |
DE69106580T2 (de) | Codieranordnung mit einem Unterbandcoder und Sender mit der Codieranordnung. | |
DE69033510T2 (de) | Numerischer sprachkodierer mit verbesserter langzeitvorhersage durch subabtastauflösung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition |