DE60032068T2 - Sprachdekodierung - Google Patents

Sprachdekodierung Download PDF

Info

Publication number
DE60032068T2
DE60032068T2 DE60032068T DE60032068T DE60032068T2 DE 60032068 T2 DE60032068 T2 DE 60032068T2 DE 60032068 T DE60032068 T DE 60032068T DE 60032068 T DE60032068 T DE 60032068T DE 60032068 T2 DE60032068 T2 DE 60032068T2
Authority
DE
Germany
Prior art keywords
decoded
speech
signal
gain
circuit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60032068T
Other languages
English (en)
Other versions
DE60032068D1 (de
Inventor
Atsushi Minato-ku Murashima
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Application granted granted Critical
Publication of DE60032068D1 publication Critical patent/DE60032068D1/de
Publication of DE60032068T2 publication Critical patent/DE60032068T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

  • Die vorliegende Erfindung betrifft Kodier- und Dekodiervorrichtungen zum Senden eines Sprachsignals mit einer niedrigen Bitrate und insbesondere ein Sprachsignaldekodierverfahren und eine Vorrichtung zur Verbesserung der Qualität von stimmloser Sprache.
  • Als ein beliebtes Verfahren zum Kodieren eines Sprachsignals bei niedrigen und mittleren Bitraten mit hoher Effizienz wird ein Sprachsignal in ein Signal für ein lineares Vorhersagefilter und sein Steuertonquellensignal (Schallquellensignal) geteilt. Eines der typischen Verfahren ist CELP (Code Excited Linear Prediction = kodeangeregte lineare Vorhersage). CELP erzielt ein synthetisiertes Sprachsignal (wiederhergestelltes Signal), indem ein lineares Vorhersagefilter mit einem linearen Vorhersagekoeffizienten, der die wesentlichen Frequenzeigenschaften der eingegebenen Sprache darstellt, durch ein Anregungssignal gesteuert wird, das durch die Summe eines Grundtonsignals, das die Grundtonperiode der Sprache darstellt, und eines Schallquellensignals gegeben ist, welches aus einer Zufallszahl und einem Impuls gebildet ist. CELP ist in „Code-excited linear prediction: High-quality speech at very low bit rates", M. Schroeder et al., Proc. of IEEE Int. Conf. on Acoust., Speech and Signal Processing, S. 937–940, 1985 (Referenz 1), beschrieben.
  • Mobile Kommunikationseinrichtungen, wie etwa tragbare Telefone, erfordern eine hohe Sprachkommunikationsqualität in Rauschumgebungen, die durch eine bevölkerte Straße einer Innenstadt und ein fahrendes Auto dargestellt werden. Die Sprachkodierung, die auf der oben erwähnten CELP basiert, erleidet eine Verschlechterung der Qualität von Sprache (Sprache mit Hintergrundrauschen), der Rauschen überla gert ist. Um die Kodierqualität von Sprache mit Hintergrundrauschen zu verbessern, wird die Verstärkung eines Schallquellensignals in dem Dekoder geglättet. Der Artikel „Enhancement of VSELP Coded Speech under Background Noise", Taniguchi T. et al., IEEE Workshop on Speech Coding for Telecommunications, 1995, offenbart die Glättung von LPC-Parametern in Rauschabschnitten.
  • Ein Verfahren zum Glätten der Verstärkung eines Schallquellensignals ist in "Digital Cellular Telecommunication System; Adaptive Multi-Rate Speech Transcoding", ETSI Technical Report, GSM 06.90, Version 2.0.0, Januar 1999 (Referenz 2), beschrieben.
  • 4 zeigt ein Beispiel für eine herkömmliche Sprachsignaldekodiervorrichtung zur Verbesserung der Kodierqualität von Hintergrundrauschen durch Glätten der Verstärkung eines Schallquellensignals. Ein Bitstrom wird in einer Zeitspanne (Rahmen) von Tfr ms (z.B. 20 ms) eingegeben, und ein wiederhergestellter Vektor wird in einer Zeitspanne (Teilrahmen) von Tfr/Nsfr ms (z.B. 5 ms) für eine ganze Zahl Nsfr (z.B. 4) wiederhergestellt. Die Rahmenlänge ist durch Lfr Abtastungen (z.B. 320 Abtastungen) gegeben, und die Teilrahmenlänge ist durch Lsfr Abtastungen (z.B. 80 Abtastungen) gegeben. Diese Anzahlen von Abtastungen werden durch die Abtastfrequenz (z.B. 16 kHz) eines Eingangssignals bestimmt. Jeder Block wird beschrieben.
  • Der Kode eines Bitstroms wird von einem Eingangsanschluß 10 eingegeben. Eine Kodeeingangsschaltung 1010 segmentiert den Kode des von dem Eingangsanschluß 10 eingegebenen Bitstroms in mehrere Segmente und wandelt sie in Indizes um, die mehreren Dekodierparametern entsprechen. Die Kodeeingangsschaltung 1010 gibt einen Index, der einem LSP (linearen Spektrumpaar) entspricht, welches die wesentlichen Frequenzeigenschaften des Eingangssignals darstellt, an eine LSP-Dekodierschaltung 1020 aus. Die Schaltung 1010 gibt einen Index, der einer Verzögerung Lpd entspricht, welche die Grundtonperiode des Eingangssignals darstellt, an eine Grundtonsignal-Dekodierschaltung 1210, und einen Index, der einem Tonquellenvektor entspricht, welcher aus einer Zufallszahl und einem Impuls besteht, an eine Schallquellensignal-Dekodierschaltung 1110 aus. Die Schaltung 1010 gibt einen der ersten Verstärkung entsprechenden Index an eine erste Verstärkungsdekodierschaltung 1220 und einen der zweiten Verstärkung entsprechenden Index an eine zweite Verstärkungsdekodierschaltung 1120 aus.
  • Die LSP-Dekodierschaltung 1020 hat eine Tabelle, die mehrere Sätze von LSPs speichert. Die LSP-Dekodierschaltung 1020 empfängt den von der Kodeeingangsschaltung 1010 ausgegebenen Index, liest ein dem Index entsprechendes LSP aus der Tabelle und setzt das LSP als
    Figure 00030001
    j = 1, λ, Np, in dem Nsfr-ten Teilrahmen des aktuellen Rahmens (n-ter Rahmen). Np ist eine lineare Vorhersagereihenfolge. Die LSPs der ersten bis (Nsfr – 1)-ten Teilrahmen werden durch lineare Interpolation von
    Figure 00030002
    erhalten. LSPq ^(m)j (n), j = 1, λ, Np, m = 1, λ, Nsfr werden an eine lineare Vorhersagekoeffizienten-Umwandlungsschaltung 1030 und Glättungskoeffizienten-Berechnungsschaltung 1310 ausgegeben.
  • Die lineare Vorhersagekoeffizienten-Umwandlungsschaltung 1030 empfängt LSPq ^(m)j (n), j = 1, λ, Np, m = 1, λ, Nsfr, die von der LSP-Dekodierschaltung 1020 ausgegeben werden. Die lineare Vorhersagekoeffizienten-Umwandlungsschaltung 1030 wandelt das empfangene q ^(m)j (n) in einen linearen Vorhersagekoeffizienten α ^(m)j (n), j = 1, λ, Np, m = 1, λ, Nsfr, um und gibt α ^(m)j (n) an ein Synthesefilter 1040 aus. Die Umwandlung des LSP in den linearen Vorhersagekoeffizienten kann ein bekanntes Verfahren, z.B. ein in Abschnitt 5.2.4 der Referenz 2 beschriebenes Verfahren, einsetzen.
  • Die Schallquellensignal-Dekodierschaltung 1110 hat eine Tabelle, die mehrere Tonquellenvektoren speichert. Die Schallquellensignal-Dekodierschaltung 1110 empfängt den von der Kodeeingangsschaltung 1010 ausgegebenen Index, liest einen dem Index entsprechenden Tonquellenvektor aus der Tabelle und gibt den Vektor an eine zweite Verstärkungsschaltung 1130 aus.
  • Die zweite Verstärkungsdekodierschaltung 1120 hat eine Tabelle, die mehrere Verstärkungen speichert. Die zweite Verstärkungsdekodierschaltung 1120 empfängt den von der Kodeeingangsschaltung 1010 ausgegebenen Index, liest eine dem Index entsprechenden zweite Verstärkung aus der Tabelle und gibt die zweite Verstärkung an eine Glättungsschaltung 1320 aus.
  • Die zweite Verstärkungsschaltung 1130 empfängt den ersten von der Schallquellensignal-Dekodierschaltung 1110 ausgegebenen ersten Tonquellenvektor und die von der Glättungsschaltung 1320 ausgegebene zweite Verstärkung, multipliziert den ersten Tonquellenvektor und die zweite Verstärkung, um einen zweiten Tonquellenvektor zu dekodieren, und gibt den dekodierten zweiten Tonquellenvektor an einen Addierer 1050 aus.
  • Eine Speicherschaltung 1240 empfängt und hält einen Anregungsvektor von dem Addierer 1050. Die Speicherschaltung 1240 gibt einen eingegebenen und gehaltenen Anregungsvektor an die Grundtonsignal-Dekodierschaltung 1210 aus.
  • Die Grundtonsignal-Dekodierschaltung 1210 empfängt den von der Speicherschaltung 1240 gehaltenen vergangenen Anregungsvektor und den von der Kodeeingangsschaltung 1010 ausgegebenen Index. Der Index bezeichnet die Verzögerung Lpd. Die Grundtonsignal-Dekodierschaltung 1210 extrahiert einen Vektor für Lsfr-Abtastungen, die der Vektorlänge von dem Anfangspunkt des aktuellen Rahmens um Lpd Abtastungen zu einem vergangenen Punkt in dem vergangenen Anregungsvektor entsprechen. Dann dekodiert die Schaltung 1210 ein erstes Grundtonsignal (Vektor). Für Lpd < Lsfr extrahiert die Schaltung 1210 einen Vektor für Lpd Abtastungen und verbindet die extrahierten Lpd Abtastungen wiederholt, um den er sten Grundtonvektor mit einer Vektorlänge von Lsfr Abtastungen zu dekodieren. Die Grundtonsignal-Dekodierschaltung 1210 gibt den ersten Grundtonvektor an eine erste Verstärkungsschaltung 1230 aus.
  • Die erste Verstärkungsdekodierschaltung 1220 hat eine Tabelle, die mehrere Verstärkungen speichert. Die erste Verstärkungsdekodierschaltung 1220 empfängt den von der Kodeeingangsschaltung 1010 ausgegebenen Index, liest eine dem Index entsprechende erste Verstärkung und gibt die erste Verstärkung an die erste Verstärkungsschaltung 1230 aus.
  • Die erste Verstärkungsschaltung 1230 empfängt den von der Grundtonsignal-Dekodierschaltung 1210 ausgegebenen ersten Grundtonvektor und die von der ersten Verstärkungsdekodierschaltung 1220 ausgegebene erste Verstärkung, multipliziert den ersten Grundtonvektor und die erste Verstärkung, um einen zweiten Grundtonvektor zu erzeugen, und gibt den erzeugten zweiten Grundtonvektor an den Addierer 1050 aus.
  • Der Addierer 1050 empfängt den von der ersten Verstärkungsschaltung 1230 ausgegebenen zweiten Grundtonvektor und den von der zweiten Verstärkungsschaltung 1130 ausgegebenen zweiten Tonquellenvektor, addiert sie und gibt die Summe als einen Anregungsvektor an das Synthesefilter 1040 aus.
  • Die Glättungskoeffizienten-Berechnungsschaltung 1310 empfängt das von der LSP-Dekodierschaltung 1020 ausgegebene LSPq ^(m)j (n) und berechnet ein Mittel LSPq 0j(n):
  • Figure 00050001
  • Die Glättungskoeffizienten-Berechnungsschaltung 1310 berechnet einen LSP-Abweichungsbetrag d0(m) für jeden Teilrahmen m:
    Figure 00050002
    Die Glättungskoeffizienten-Berechnungsschaltung 1310 berechnet einen Glättungskoeffizienten k0(m) des Teilrahmens m: k0(m) = min(0,25, max(0, d0(m) – 0,4))/0,25wobei min(x, y) ein Funktion ist, die von x und y das kleinere verwendet, und max(x, y) eine Funktion ist, die von x und y das größere verwendet. Die Glättungskoeffizienten-Berechnungsschaltung 1310 gibt den Glättungskoeffizienten k0(m) an die Glättungsschaltung 1320 aus.
  • Die Glättungsschaltung 1320 empfängt den von der Glättungskoeffizienten-Berechnungsschaltung 1310 ausgegebenen Glättungskoeffizienten k0(m) und die von der zweiten Verstärkungsdekodierschaltung 1120 ausgegebene zweite Verstärkung. Die Glättungsschaltung 1320 berechnet eine mittlere Verstärkung g 0(m) aus einer zweiten Verstärkung ĝ0(m) des Teilrahmens m durch:
  • Figure 00060001
  • Die zweite Verstärkung ĝ0(m) wird ersetzt durch: ĝ0(m) = ĝ0(m)·k0(m) + g 0(m)·(1 – k0(m))
  • Die Glättungsschaltung 1320 gibt die zweite Verstärkung ĝ0(m) an die zweite Verstärkungsschaltung 1130 aus.
  • Das Synthesefilter 1040 empfängt den von dem Addierer 1050 ausgegebenen Anregungsvektor und einen von der linearen Vorhersagekoeffizienten-Umwandlungsschaltung 1030 ausgegebenen linearen Vorhersagekoeffizienten αi, j = 1, Λ, Np. Das Synthesefilter 1040 berechnet einen wiederhergestellten Vektor, indem es das Synthesefilter 1/A(z), in dem der lineare Vorhersagekoeffizient gesetzt ist, durch den Anregungsvektor steuert. Dann gibt das Synthesefilter 1040 den wiederhergestellten Vektor aus einem Ausgangsanschluß 20 aus. Sei αi, i = 1, Λ, Np, der lineare Vorhersagekoeffizient, ist die Transferfunktion 1/A(z) des Synthesefilters gegeben durch:
  • Figure 00070001
  • 5 zeigt die Anordnung einer Sprachsignalkodiervorrichtung in einer herkömmlichen Sprachsignalkodier-/dekodiervorrichtung. Eine erste Verstärkungsschaltung 1230, eine zweite Verstärkungsschaltung 1130, ein Addierer 1050 und eine Speicherschaltung 1240 sind die gleichen wie die in der herkömmlichen Sprachsignaldekodiervorrichtung in 4 beschriebenen, und eine Beschreibung davon wird weggelassen.
  • Ein Eingangssignal (Eingangsvektor), das durch Abtasten eines Sprachsignals und Kombinieren mehrerer Abtastungen als einem Rahmen in einen Vektor erzeugt wird, wird von einem Eingangsanschluß 30 eingegeben. Eine lineare Vorhersagekoeffizienten-Berechnungsschaltung 5510 empfängt den Eingangsvektor von dem Eingangsanschluß 30. Die lineare Vorhersagekoeffizienten-Berechnungsschaltung 5510 führt die lineare Vorhersageanalyse für den Eingangsvektor durch, um einen linearen Vorhersagekoeffizienten zu erhalten. Die lineare Vorhersageanalyse ist in Kapitel 8 "Linear Predicitve Coding of Speech" der Referenz 4 beschrieben.
  • Die lineare Vorhersagekoeffizienten-Berechnungsschaltung 5510 gibt den linearen Vorhersagekoeffizienten an eine LSP-Umwandlungs-/Quantisierungsschaltung 5520, ein Gewichtungsfilter 5050 und ein Gewichtungssynthesefilter 5040 aus.
  • Die LSP-Umwandlungs-/Quantisierungsschaltung 5520 empfängt den von der linearen Vorhersagekoeffizienten-Berechnungsschaltung 5510 ausgegebenen linearen Vorhersagekoeffizienten, wandelt den linearen Vorhersagekoeffizienten in das LSP um und quantisiert das LSP, um das quantisierte LSP zu erzielen. Die Umwandlung des linearen Vorhersagekoeffizienten in das LSP kann ein bekanntes Verfahren, z.B. ein in Abschnitt 5.2.4 der Referenz 2 beschriebenes Verfahren, verwenden.
  • Die Quantisierung des LSP kann ein in Abschnitt 5.2.5 der Referenz 2 beschriebenes Verfahren verwenden. Wie in der LSP-Dekodierschaltung von 4 (bisheriger Stand der Technik) beschrieben, ist das quantisierte LSP das quantisierte
    Figure 00080001
    j = 1, Λ, Np, in dem Nsfr-ten Teilrahmen des aktuellen Rahmens (n-ter Rahmen). Die quantisierten LSPs der ersten bis (Nsfr – 1)-ten Teilrahmen werden durch lineare Interpolation von
    Figure 00080002
    erhalten. Das LSP ist
    Figure 00080003
    j = 1, Λ, Np, in dem Nsfr-ten Teilrahmen des aktuellen Rahmens (n-ter Rahmen). Die LSPs der ersten bis (Nsfr – 1)-ten Teilrahmen werden durch lineare Interpolation von
    Figure 00080004
    erhalten.
  • Die LSP-Umwandlungs-/Quantisierungsschaltung 5520 gibt das LSPq(m)j (n), j = 1, Λ, Np, m = 1, Λ, Nsfr, und das quantisierte LSPq ^(m)j (n), j = 1, Λ, Np, m = 1, Λ, Nsfr, an eine lineare Vorhersagekoeffizienten-Umwandlungsschaltung 5030 und einen dem quantisierten
    Figure 00080005
    j = 1, Λ, Np, entsprechenden Index an die Kodeausgangsschaltung 6010 aus.
  • Die lineare Vorhersagekoeffizienten-Umwandlungsschaltung 5030 empfängt das LSPq(m)j (n), j = 1, Λ, Np, m = 1, Λ, Nsfr, und das quantisierte LSPq ^(m)j (n), j = 1, Λ, Np, m = 1, Λ, Nsfr, die von der LSP-Umwandlungs-/Quantisierungsschaltung 5520 ausgegeben werden. Die Schaltung 5030 wandelt q(m)j (n) in einen linearen Vorhersagekoeffizienten α(m)j (n), j = 1, Λ, Np, m = 1, Λ, Nsfr, und q ^(m)j (n) in einen quantisierten linearen Vorhersagekoeffizienten α ^(m)j (n), j = 1, Λ, Np, m = 1, Λ, Nsfr, um. Die lineare Vorhersagekoeffizienten-Umwandlungsschaltung 5030 gibt α(m)j (n) an das Gewichtungsfilter 5050 und das Ge wichtungssynthesefilter 5040 und α ^(m)j (n) an das Gewichtungssynthesefilter 5040 aus. Die Umwandlung des LSP in den linearen Vorhersagekoeffizienten und die Umwandlung des quantisierten LSP in den quantisierten linearen Vorhersagekoeffizienten kann ein bekanntes Verfahren, z.B. ein in Abschnitt 5.2.4 der Referenz 2 beschriebenes Verfahren, verwenden.
  • Das Gewichtungsfilter 5050 empfängt den Eingangsvektor von dem Eingangsanschluß 30 und den von der linearen Vorhersagekoeffizienten-Umwandlungsschaltung 5030 ausgegebenen linearen Vorhersagekoeffizienten und erzeugt unter Verwendung des linearen Vorhersagekoeffizienten ein Gewichtungsfilter W(z), das dem menschlichen Hörsinn entspricht. Das Gewichtungsfilter wird von dem Eingangsvektor gesteuert, um einen gewichteten Eingangsvektor zu erhalten. Das Gewichtungsfilter 5050 gibt den gewichteten Eingangsvektor an einen Subtrahierer 5060 aus. Die Transferfunktion W(z) des Gewichtungsfilters 5050 ist gegeben durch W(z) = Q(z/γ1)/Q(z/γ2).
  • Es ist zu beachten, daß
    Figure 00090001
    und
    Figure 00090002
    wobei γ1 und γ2 Konstanten sind, z.B. γ1 = 0,9 und γ2 = 0,6. Details des Gewichtungsfilters sind in der Referenz 1 beschrieben.
  • Das Gewichtungssynthesefilter 5040 empfängt den von dem Addierer 1050 ausgegebenen Anregungsvektor und den linearen Vorhersagekoeffizienten α(m)j (n), j = 1, Λ, Np, m = 1, Λ, Nsfr, und den quantisierten linearen Vorhersagekoeffizienten α ^(m)j (n), j = 1, Λ, Np, m = 1, Λ, Nsfr, die von der linearen Vorhersagekoeffizienten-Umwandlungsschaltung 5030 ausgegeben werden. Ein Gewichtungssynthesefilter H(z)W(z) = Q(z/γ1)/[A(z)Q(z/γ2)] mit α(m)j (n) und α ^(m)j (n) wird durch den An regungsvektor gesteuert, um einen gewichteten wiederhergestellten Vektor zu erhalten. Die Transferfunktion H(z) = 1/A(z) des Synthesefilters ist gegeben durch
  • Figure 00100001
  • Der Subtrahierer 5060 empfängt den von dem Gewichtungsfilter 5050 ausgegebenen gewichteten Eingangsvektor und den von dem Gewichtungssynthesefilter 5040 ausgegebenen gewichteten wiederhergestellten Vektor, berechnet ihre Differenz und gibt sie als einen Differenzvektor an eine Minimierungsschaltung 5070 aus.
  • Die Minimierungsschaltung 5070 gibt nacheinander alle Indizes, die in einer Schallquellensignal-Erzeugungsschaltung 5110 gespeicherten Tonquellenvektoren entsprechen, an die Schallquellensignal-Erzeugungsschaltung 5110 aus. Die Minimierungsschaltung 5070 gibt nacheinander Indizes an eine Grundtonsignal-Erzeugungsschaltung 5210 aus, die allen Verzögerungen Lpd innerhalb eines von der Grundtonsignal-Erzeugungsschaltung 5210 definierten Bereichs entsprechen. Die Minimierungsschaltung 5070 gibt nacheinander Indizes, die allen in einer ersten Verstärkungserzeugungsschaltung 6220 gespeicherten ersten Verstärkungen entsprechen, an die erste Verstärkungserzeugungsschaltung 6220 und Indizes, die allen in einer zweiten Verstärkungserzeugungsschaltung 6120 gespeicherten zweiten Verstärkungen entsprechen, an die zweite Verstärkungserzeugungsschaltung 6120 aus.
  • Die Minimierungsschaltung 5070 empfängt nacheinander von dem Subtrahierer 5060 ausgegebene Differenzvektoren, berechnet ihre Beträge, wählt einen Tonquellenvektor, die Verzögerung Lpd und erste und zweite Verstärkungen, die den Betrag minimieren, und gibt entsprechende Indizes an die Kodeausgangsschaltung 6010 aus. Die Grundtonsignal-Erzeugungsschaltung 5210, die Schallquellensignal-Erzeugungsschaltung 5110, die erste Verstärkungserzeugungsschaltung 6220 und die zweite Verstärkungserzeugungsschaltung 6120 empfangen nach einander von der Minimierungsschaltung 5070 ausgegebene Indizes.
  • Die Grundtonsignal-Erzeugungsschaltung 5210, die Schallquellensignal-Erzeugungsschaltung 5110, die erste Verstärkungserzeugungsschaltung 6220 und die zweite Verstärkungserzeugungsschaltung 6120 sind die gleichen wie die Grundtonsignal-Dekodierschaltung 1210, die Schallquellensignal-Dekodierschaltung 1110, die erste Verstärkungsdekodierschaltung 1220 und die zweite Verstärkungsdekodierschaltung 1120 in 4, abgesehen von den Eingangs-/Ausgangsverbindungen, und eine detaillierte Beschreibung davon wird weggelassen.
  • Die Kodeausgangsschaltung 6010 empfängt einen Index, der dem von der LSP-Umwandlungs-/Quantisierungsschaltung 5520 ausgegebenen quantisierten LSP entspricht, und Indizes, die dem Tonquellenvektor, der Verzögerung Lpd, entsprechen, und erste und zweite Verstärkungen, die von der Minimierungsschaltung 5070 ausgegeben werden. Die Kodeausgangsschaltung 6010 wandelt diese Indizes in einen Bitstromkode um und gibt ihn über einen Ausgangsanschluß 40 aus.
  • Das erste Problem ist, daß ein Ton, der sich von normaler stimmhafter Sprache unterscheidet, in kurzer stimmloser Sprache erzeugt wird, welcher intermittierend in der stimmhaften Sprache enthalten oder Teil der stimmhaften Sprache ist. Als ein Ergebnis wird in der stimmhaften Sprache ein unstetiger Klang erzeugt. Dies liegt daran, daß der LSP-Abweichungsbetrag d0(m) in der kurzen stimmlosen Sprache abnimmt und den Glättungskoeffizienten erhöht. Da d0(m) sich zeitlich stark ändert, zeigt d0(m) in Teilen der stimmhaften Sprache bis zu einem gewissen Grad einen hohen Wert, aber der Glättungskoeffizient wird nicht 0.
  • Das zweite Problem ist, daß der Glättungskoeffizient sich in der stimmlosen Sprache unvermittelt ändert. Als ein Ergebnis wird ein unstetiger Klang in der stimmlosen Sprache erzeugt. Dies liegt daran, daß der Glättungskoeffizient un ter Verwendung von d0(m) bestimmt wird, das sich zeitlich stark ändert.
  • Das dritte Problem ist, daß die passende Glättungsverarbeitung, die der Art des Hintergrundrauschens entspricht, nicht ausgewählt werden kann. Als ein Ergebnis verschlechtert sich die Dekodierqualität. Dies liegt daran, daß der Dekodierparameter basierend auf einem einzigen Algorithmus lediglich unter Verwendung eines unterschiedlichen Parametersatzes geglättet wird.
  • Es ist eine Aufgabe der vorliegenden Erfindung, ein Sprachsignaldekodierverfahren und eine Vorrichtung zur Verbesserung der Qualität der wiederhergestellten Sprache gegenüber Hintergrundrauschsprache zur Verfügung zu stellen.
  • Um die obige Aufgabe zu lösen, wird gemäß der vorliegenden Erfindung ein Sprachsignal-Dekodierverfahren bereitgestellt, das die Schritte aufweist: Dekodieren von Informationen, die zumindest ein Schallquellensignal, eine Verstärkung und Filterkoeffizienten enthalten, aus einem empfangenen Bitstrom, Identifizieren von stimmhafter und stimmloser Sprache, eines Sprachsignals unter Verwendung der dekodierten Informationen, Auswählen der Glättungsverarbeitung basierend auf den dekodierten Informationen, Durchführen der Glättungsverarbeitung für die dekodierte Verstärkung und/oder die dekodierten Filterkoeffizienten in der stimmlosen Sprache und Dekodieren des Sprachsignals durch Steuern eines Filters mit den dekodierten Filterkoeffizienten durch ein Anregungssignal, das durch Multiplizieren des dekodierten Schallquellensignals mit der dekodierten Verstärkung unter Verwendung eines Ergebnisses der Glättungsverarbeitung erhalten wird. Es werden auch eine Vorrichtung wie in Anspruch 10 dargelegt, ein Verfahren wie in Anspruch 19 dargelegt und eine Vorrichtung wie in Anspruch 20 dargelegt, zur Verfügung gestellt.
  • Kurze Beschreibung der Zeichnungen
  • 1 ist ein Blockschaltbild, das eine Sprachsignaldekodiervorrichtung gemäß der ersten Ausführungsform der vorliegenden Erfindung zeigt;
  • 2 ist ein Blockschaltbild, das eine Sprachsignaldekodiervorrichtung gemäß der zweiten Ausführungsform der vorliegenden Erfindung zeigt;
  • 3 ist ein Blockschaltbild, das eine in der vorliegenden Erfindung verwendete Sprachsignalkodiervorrichtung zeigt;
  • 4 ist ein Blockschaltbild, das eine herkömmliche Sprachsignaldekodiervorrichtung zeigt; und
  • 5 ist ein Blockschaltbild, das eine herkömmliche Sprachsignalkodiervorrichtung zeigt.
  • Beschreibung der bevorzugten Ausführungsformen
  • Die vorliegende Erfindung wird weiter unten unter Bezug auf die beigefügten Zeichnungen im Detail beschrieben.
  • 1 zeigt eine Sprachsignaldekodiervorrichtung gemäß der ersten Ausführungsform der vorliegenden Erfindung. Ein Eingangsanschluß 10, ein Ausgangsanschluß 20, eine LSP-Dekodierschaltung 1020, eine lineare Vorhersagekoeffizienten-Umwandlungsschaltung 1030, eine Schallquellensignal-Dekodierschaltung 1110, eine Speicherschaltung 1240, eine Grundtonsignal-Dekodierschaltung 1210, eine erste Verstärkungsschaltung 1230, eine zweite Verstärkungsschaltung 1130, ein Addierer 1050 und ein Synthesefilter 1040 sind die gleichen wie die in dem bisherigen Stand der Technik von 4 beschriebenen, und eine Beschreibung davon wird weggelassen.
  • Eine Kodeeingangsschaltung 1010, eine Stimmhaft/Stimmlos-Erkennungsschaltung 2020, eine Rauscheinteilungsschaltung 2030, eine erste Umschaltschaltung 2110, eine zweite Umschaltschaltung 2210, ein erstes Filter 2150, ein zweites Filter 2160, ein drittes Filter 2170, ein viertes Filter 2250, ein fünftes Filter 2260, ein sechstes Filter 2270, eine erste Verstärkungsdekodierschaltung 2220 und eine zweite Verstärkungsdekodierschaltung 2120 werden beschrieben.
  • Ein Bitstrom wird in einer Zeitspanne (Rahmen) von Tfr ms (z.B. 20 ms) eingegeben, und ein wiederhergestellter Vektor wird in einer Zeitspanne (Teilrahmen) von Tfr/Nsfr ms (z.B. 5 ms) für eine ganze Zahl Nsfr (z.B. 4) wiederhergestellt. Die Rahmenlänge ist durch Lfr Abtastungen (z.B. 320 Abtastungen) gegeben, und die Teilrahmenlänge ist durch Lsfr Abtastungen (z.B. 80 Abtastungen) gegeben. Diese Anzahlen von Abtastungen werden durch die Abtastfrequenz (z.B. 16 kHz) eines Eingangssignals bestimmt. Jeder Block wird beschrieben.
  • Die Kodeeingangsschaltung 1010 segmentiert den Kode des von einem Eingangsanschluß 10 eingegebenen Bitstroms in mehrere Segmente und wandelt sie in Indizes um, die mehreren Dekodierparametern entsprechen. Die Kodeeingangsschaltung 1010 gibt einen dem LSP entsprechenden Index an die LSP-Dekodierschaltung 1020 aus. Die Schaltung 1010 gibt einen Index, der einem Sprachmodus entspricht, an eine Sprachmodus-Dekodierschaltung 2050, einen Index, der einer Rahmenenergie entspricht, an eine Rahmenleistungs-Dekodierschaltung 2040, einen Index, der einer Verzögerung Lpd entspricht, an die Grundtonsignal-Dekodierschaltung 1210, und einen Index, der einem Tonquellenvektor entspricht, an die Schallquellensignal-Dekodierschaltung 1110 aus. Die Schaltung 1010 gibt einen der ersten Verstärkung entsprechenden Index an die erste Verstärkungsdekodierschaltung 2220 und einen der zweiten Verstärkung entsprechenden Index an die zweite Verstärkungsdekodierschaltung 2120 aus.
  • Die Sprachmodus-Dekodierschaltung 2050 empfängt den Index, der dem Sprachmodus entspricht, welcher von der Kodeeingangsschaltung 1010 ausgegeben wird, und stellt einen dem Index entsprechenden Sprachmodus Smode ein. Der Sprachmodus wird durch die Schwellwertverarbeitung für ein Mittel innerhalb von Rahmen Gop(n) einer Vorwärtssteuerungs- Grundtonvorhersageverstärkung Gop(m) bestimmt, das unter Verwendung eines wahrnehmungsgewichteten Eingangssignals in einem Sprachkodierer berechnet wird. Der Sprachmodus wird an den Dekoder gesendet. In diesem Fall stellt n die Rahmennummer und m die Teilrahmennummer dar. Die Bestimmung des Sprachmodus ist in „M-LCELP Speech Coding at 4 kb/s with Multi-Mode and Multi-Codebook", Ozawa et al, IEICE Trans. on Commun., Bd. E77-B, Nr. 9, S. 1114–1121, September 1994 (Referenz 3), beschrieben.
  • Die Sprachmodus-Dekodierschaltung 2050 gibt den Sprachmodus Smode an die Stimmhaft/Stimmlos-Erkennungsschaltung 2020, die erste Verstärkungsdekodierschaltung 2220 und die zweite Verstärkungsdekodierschaltung 2120 aus.
  • Die Rahmenleistungs-Dekodierschaltung 2040 hat eine Tabelle 2040a, die mehrere Rahmenenergien speichert. Die Rahmenleistungs-Dekodierschaltung 2040 empfängt den der Rahmenleistung entsprechenden Index, der von der Kodeeingangsschaltung 1010 ausgegeben wird, und liest eine dem Index entsprechende Rahmenleistung Êrms aus der Tabelle 2040a. Die Rahmenleistung wird durch Quantisieren der Leistung eines Eingangssignals in den Sprachkodierer erzielt, und ein dem quantisierten Wert entsprechender Index wird an den Dekodierer gesendet. Die Rahmenleistungs-Dekodierschaltung 2040 gibt die Rahmenleistung Êrms an die Stimmhaft/Stimmlos-Erkennungsschaltung 2020, die erste Verstärkungsdekodierschaltung 2220 und die zweite Verstärkungsdekodierschaltung 2120 aus.
  • Die Stimmhaft/Stimmlos-Erkennungsschaltung 2020 empfängt das von der LSP-Dekodierschaltung 1020 ausgegebene LSPq ^(m)j (n), den von der Sprachmodus-Dekodierschaltung 2050 ausgegebenen Sprachmodus Smode und die von der Rahmenleistungs-Dekodierschaltung 2040 ausgegebene Rahmenleistung Êrms. Der Ablauf für die Erzielung eines Abweichungsbetrags eines Spektralparameters wird erklärt.
  • Als der Spektralparameter wird LSPq ^(m)j (n) verwendet. In dem n-ten Rahmen wird ein langfristiges Mittel q j(n) des LSP berechnet durch:
    Figure 00160001
    j = 1, Λ, Np, wobei β0 = 0,9.
  • Ein Abweichungsbetrag dq(n) des LSP in dem n-ten Rahmen ist definiert durch:
    Figure 00160002
    wobei D(m)q,j (n) dem Abstand zwischen q j(n) und q ^(m)j (n) entspricht.
    Zum Beispiel D(m)q,j (n) = (q j(n) – q ^(m)j (n))2 oder D(m)q,j (n) = |q j(n) – q ^(m)j (n)|In diesem Fall wird D(m)q,j (n) = |q j(n) – q ^(m)j (n)| verwendet.
  • Ein Abschnitt, in dem der Abweichungsbetrag dq(n) groß ist, entspricht im wesentlichen stimmhafter Sprache, während ein Abschnitt, in dem der Abweichungsbetrag dq(n) klein ist, im wesentlichen stimmloser Sprache entspricht. Der Abweichungsbetrag dq(n) ändert sich jedoch mit der Zeit erheblich, und der Bereich von dq(n) in der stimmhaften Sprache und der in der stimmlosen Sprache überlappen sich gegenseitig. Somit ist es schwierig, einen Schwellwert für die Erkennung stimmhafter und stimmloser Sprache einzustellen.
  • Aus diesem Grund wird das langfristige Mittel von dq(n) verwendet, um stimmhafte Sprache und stimmlose Sprache zu erkennen. Ein langfristiges Mittel d q1(n) von dq(n) wird unter Verwendung eines linearen oder nichtlinearen Filters berechnet. Als d q1(n) kann das Mittel, der zentrale oder der häufigste Wert von dq(n) angewendet werden. In diesem Fall wird d q1(n) = β1·d q1(n – 1) + (1 – β1)·dq(n)verwendet, wobei β1 = 0,9.
  • Die Schwellwertverarbeitung für d q1(n) bestimmt ein Identifizierungskennzeichen Svs:
    Falls (d q1(n) ≥ Cth1), dann Svs = 1,
    sonst Svs = 0
    wobei Cth1 eine gegebene Konstante (z.B. 2,2) ist, Svs = 1 stimmhafter Sprache entspricht und Svs = 0 stimmloser Sprache entspricht.
  • Selbst stimmhafte Sprache kann in einem Abschnitt, in dem die Stetigkeit hoch ist, mit stimmloser Sprache verwechselt werden, weil dq(n) klein ist. Um dies zu vermeiden, wird ein Abschnitt, in dem die Rahmenleistung und die Grundtonvorhersageverstärkung groß sind, als stimmhafte Sprache betrachtet. Für Svs = 0 wird Svs durch die folgende zusätzliche Bestimmung korrigiert:
    Wenn (Êrms ≥ Crms und Smode ≥ 2) dann Svs = 1,
    sonst Svs = 0
    wobei Crms eine gegebene Konstante (z.B. 10000) ist, und Smode ≥ 2 einem Mittel G op(n) innerhalb von Rahmen von 3,5 dB oder mehr für die Grundtonvorhersageverstärkung entspricht.
  • Dies wird durch den Kodierer definiert.
  • Die Stimmhaft/Stimmlos-Erkennungsschaltung 2020 gibt Svs an die Rauscheinteilungsschaltung 2030, die erste Umschaltschaltung 2110 und die zweite Umschaltschaltung 2210 und d q1(n) an die Rauscheinteilungsschaltung 2030 aus.
  • Die Rauscheinteilungsschaltung 2030 empfängt d q1(n) und Svs, die von der Stimmhaft/Stimmlos-Erkennungsschaltung 2020 ausgegeben werden. In der stimmlosen Sprache (Rauschen) wird unter Verwendung eines linearen oder nichtlinearen Filters ein Wert von d q2(n) erhalten, der das mittlere Verhalten von d q1(n) widerspiegelt.
    Für Svs = 0 wird d q2(n) = β2·d q2(n – 1) + (1 – β2)·dq1(n)für β2 = 0,94 berechnet.
  • Die Schwellwertverarbeitung für d q2(n) teilt Rauschen ein, um ein Einteilungskennzeichen Snz zu erhalten:
    Falls (d q2(n) ≥ Cth2), dann Snz = 1,
    sonst Snz = 0
    wobei Cth2 eine gegebene Konstante (z.B. 1,7) ist, Snz = 1 Rauschen entspricht, dessen Frequenzeigenschaften sich über die Zeit unstetig ändern, und Snz = 0 Rauschen entspricht, dessen Frequenzeigenschaften sich über die Zeit stetig ändern. Die Rauscheinteilungsschaltung 2030 gibt Snz an die ersten und die zweiten Umschaltschaltungen 2110 und 2210 aus.
  • Die erste Umschaltschaltung 2110 empfängt LSPq ^(m)j (n), das von der LSP-Dekodierschaltung 1020 ausgegeben wird, das Identifizierungskennzeichen Svs, das von der Stimmhaft/Stimmlos-Erkennungsschaltung 2020 ausgegeben wird, und das Einteilungskennzeichen Snz, das von der Rauscheinteilungsschaltung 2030 ausgegeben wird. Die erste Umschaltschaltung 2110 wird gemäß den Werten für das Identifizierungskennzeichen und das Einteilungskennzeichen geschaltet, um LSPq ^(m)j (n) für Svs = 0 und Snz = 0 an das erste Filter 2150, für Svs = 0 und Snz = 1 an das zweite Filter 2160 und für Svs = 1 an das dritte Filter 2170 auszugeben.
  • Das erste Filter 2150 empfängt das von der ersten Umschaltschaltung 2110 ausgegebene LSPq ^(m)j (n), glättet es un ter Verwendung eines linearen oder nichtlinearen Filters und gibt es als ein erstes geglättetes LSPq (m)1,j (n) an die lineare Vorhersagekoeffizienten-Umwandlungsschaltung 1030 aus. In diesem Fall verwendet das erste Filter 2150 ein Filter, das gegeben ist durch: q (m)1,j (n) = γ1·q (m-1)1,j (n) + (1 – γ1)·q ^(m)j (n), j = 1, Λ, Np, wobei
    Figure 00190001
    und γ1 = 0,5.
  • Das zweite Filter 2160 empfängt das von der ersten Umschaltschaltung 2110 ausgegebene LSPq ^(m)j (n), glättet es unter Verwendung eines linearen oder nichtlinearen Filters und gibt es als ein zweites geglättetes LSPq (m)2,j (n) an die lineare Vorhersagekoeffizienten-Umwandlungsschaltung 1030 aus. In diesem Fall verwendet das zweite Filter 2160 ein Filter, das gegeben ist durch: q (m)2,j (n) = γ2·q (m-1)2,j (n) + (1 – γ2)·q ^(m)j (n), j = 1, Λ, Np, wobei
    Figure 00190002
    und γ1 = 0,0.
  • Das dritte Filter 2170 empfängt das von der ersten Umschaltschaltung 2110 ausgegebene LSPq ^(m)j (n), glättet es unter Verwendung eines linearen oder nichtlinearen Filters und gibt es als ein drittes geglättetes LSPq (m)3,j (n) an die lineare Vorhersagekoeffizienten-Umwandlungsschaltung 1030 aus. In diesem Fall ist q (m)3,j (n) = q ^(m)j (n).
  • Die zweite Umschaltschaltung 2210 empfängt die von der zweiten Verstärkungsdekodierschaltung 2120 ausgegebene zweite Verstärkung ĝ(m)2 (n), das von der Stimmhaft/Stimmlos-Erkennungsschaltung 2020 ausgegebene Identifizierungskennzeichen Svs und das von der Rauscheinteilungsschaltung 2030 ausgegebene Einteilungskennzeichen Snz. Die zweite Umschaltschaltung 2210 wird gemäß den Werten für das Identifizie rungs- und das Einteilungskennzeichen geschaltet, um die zweite Verstärkung ĝ(m)2 (n) für Svs = 0 und Snz = 0 an das vierte Filter 2250, für Svs = 0 und Snz = 1 an das fünfte Filter 2260 und für Svs = 1 an das sechste Filter 2270 auszugeben.
  • Das vierte Filter 2250 empfängt die von der zweiten Umschaltschaltung 2210 ausgegebene zweite Verstärkung ĝ(m)2 (n), glättet sie unter Verwendung eines linearen oder nichtlinearen Filters und gibt sie als eine erste geglättete Verstärkung g (m)2,1 (n) an die zweite Verstärkungsschaltung 1130 aus. In diesem Fall verwendet das vierte Filter 2250 ein Filter, das gegeben ist durch: g (m)2,1 (n) = γ2·g (m-1)2,1 (n) + (1 – γ2)·ĝ(m)2 (n)wobei
    Figure 00200001
    und γ2 = 0,9.
  • Das fünfte Filter 2260 empfängt die von der zweiten Umschaltschaltung 2210 ausgegebene zweite Verstärkung q ^(m)2 (n), glättet sie unter Verwendung eines linearen oder nichtlinearen Filters und gibt sie als eine zweite geglättete Verstärkung q (m)2,2 (n) an die zweite Verstärkungsschaltung 1130 aus. In diesem Fall verwendet das fünfte Filter 2260 ein Filter, das gegeben ist durch: g (m)2,2 (n) = γ2·g (m-1)2,2 (n) + (1 – γ2)·ĝ(m)2 (n)wobei
    Figure 00200002
    und γ2 = 0,9.
  • Das sechste Filter 2270 empfängt die von der zweiten Umschaltschaltung 2210 ausgegebene zweite Verstärkung ĝ(m)2 (n), glättet sie unter Verwendung eines linearen oder nichtlinearen Filters und gibt sie als eine dritte geglättete Verstärkung g (m)2,3 (n) an die zweite Verstärkungsschaltung 1130 aus. In diesem Fall ist g (m)2,3 (n) = ĝ(m)2 (n).
  • Die erste Verstärkungsdekodierschaltung 2220 hat eine Tabelle 2220a, die mehrere Verstärkungen speichert. Die erste Verstärkungsdekodierschaltung 2220 empfängt einen Index, welcher der dritten Verstärkung entspricht, die von der Kodeeingangschaltung 1010 ausgegeben wird, den Sprachmodus Smode, der von der Sprachmodus-Dekodierschaltung 2050 ausgegeben wird, die Rahmenleistung Êrms, die von der Rahmenleistungs-Dekodierschaltung 2040 ausgegeben wird, den linearen Vorhersagekoeffizienten α ^(m)j (n), j = 1, Λ, Np, des m-ten Teilrahmens des n-ten Rahmens, der von der linearen Vorhersagekoeffizienten-Umwandlungsschaltung 1030 ausgegeben wird, und einen Grundtonvektor cac(i), i = 1, Λ, Lsfr, der von der Grundtonsignal-Dekodierschaltung 1210 ausgegeben wird.
  • Die erste Verstärkungsdekodierschaltung 2220 berechnet einen k-Parameter k(m)j (n), j = 1, Λ, Np, (der einfach als kj dargestellt werden soll) aus dem linearen Vorhersagekoeffizienten α ^(m)j (n). Dies wird durch ein bekanntes Verfahren, z.B. ein in Abschnitt 8.3.2 in „Digital Processing of Speech Signals", L. R. Rabiner et al., Prentice-Hall, 1978 (Referenz 4) beschriebenes Verfahren, berechnet. Dann berechnet die erste Verstärkungsdekodierschaltung 2220 unter Verwendung von kj eine geschätzte Restleistung Ẽres:
  • Figure 00210001
  • Die erste Verstärkungsdekodierschaltung 2220 liest eine dem Index entsprechende dritte Verstärkung
    Figure 00210002
    aus der Tabelle 2220a, die von dem Sprachmodus Smode geschaltet ist, und berechnet eine erste Verstärkung ĝac:
  • Figure 00210003
  • Die erste Verstärkungsdekodierschaltung 2220 gibt die erste Verstärkung ĝac an die erste Verstärkungsschaltung 1230 aus. Die zweite Verstärkungsdekodierschaltung 2120 hat eine Tabelle 2120a, die mehrere Verstärkungen speichert.
  • Die zweite Verstärkungsdekodierschaltung 2120 empfängt einen Index, welcher der vierten Verstärkung entspricht, die von der Kodeeingangschaltung 1010 ausgegeben wird, den Sprachmodus Smode, der von der Sprachmodus-Dekodierschaltung 2050 ausgegeben wird, die Rahmenleistung Êrms, die von der Rahmenleistungs-Dekodierschaltung 2040 ausgegeben wird, den linearen Vorhersagekoeffizienten α ^(m)j (n), j = 1, Λ, Np, des m-ten Teilrahmens des n-ten Rahmens, der von der linearen Vorhersagekoeffizienten-Umwandlungsschaltung 1030 ausgegeben wird, und einen Tonquellenvektor cec(i), i = 1, Λ, Lsfr, der von der Schallquellensignal-Dekodierschaltung 1110 ausgegeben wird.
  • Die zweite Verstärkungsdekodierschaltung 2120 berechnet einen k-Parameter k(m)j (n), j = 1, Λ, Np, (der einfach als kj dargestellt werden soll) aus dem linearen Vorhersagekoeffizienten α ^(m)j (n). Dies wird durch das gleiche bekannte Verfahren, wie für die erste Verstärkungsdekodierschaltung 2220 beschrieben, berechnet. Dann berechnet die zweite Verstärkungsdekodierschaltung 2120 unter Verwendung von kj eine geschätzte Restleistung Ẽes:
  • Figure 00220001
  • Die zweite Verstärkungsdekodierschaltung 2120 liest eine dem Index entsprechende vierte Verstärkung γ ^gec aus der Tabelle 2120a, die von dem Sprachmodus Smode geschaltet ist, und berechnet eine zweite Verstärkung ĝec:
  • Figure 00220002
  • Die zweite Verstärkungsdekodierschaltung 2120 gibt die zweite Verstärkung ĝec an die zweite Umschaltschaltung 2210 aus.
  • 2 zeigt eine Sprachsignal-Dekodiervorrichtung gemäß der zweiten Ausführungsform der vorliegenden Erfindung.
  • Diese Sprachsignal-Dekodiervorrichtung der vorliegenden Erfindung wird implementiert, indem die Rahmenleistungs-Dekodierschaltung 2040 in der ersten Ausführungsform durch eine Leistungsberechnungsschaltung 3040, die Sprachmodus-Dekodierschaltung 2050 durch eine Sprachmodus-Bestimmungsschaltung 3050, die erste Verstärkungsdekodierschaltung 2220 durch eine erste Verstärkungsdekodierschaltung 1220 und die zweite Verstärkungsdekodierschaltung 2120 durch eine zweite Verstärkungsdekodierschaltung 1120 ersetzt wird. In dieser Anordnung werden die Rahmenleistung und der Sprachmodus nicht in dem Kodierer kodiert und gesendet, und die Rahmenleistung (Leistung) und der Sprachmodus werden unter Verwendung von Parametern in dem Dekoder erhalten.
  • Die erste und die zweite Dekodierschaltung 1220 und 1120 sind die gleichen wie die in dem bisherigen Stand der Technik in 4 beschriebenen, und eine Beschreibung davon wird weggelassen.
  • Die Leistungsberechnungsschaltung 3040 empfängt einen von einem Synthesefilter 1040 ausgegebenen wiederhergestellten Vektor, berechnet eine Leistung aus der Summe der Quadrate der wiederhergestellten Vektoren und gibt die Leistung an eine Stimmhaft/Stimmlos-Erkennungsschaltung 2020 aus. In diesem Fall wird die Leistung für jeden Teilrahmen berechnet. Die Berechnung der Leistung in dem m-ten Teilrahmen verwendet ein von dem Synthesefilter 1040 wiederhergestelltes Signal in dem (m – 1)-ten Teilrahmen. Für ein wiederhergestelltes Signal Ssyn(i), i = 1, Λ, Lsfr, wird die Leistung Erms z.B. berechnet durch RMS (mittlere Quadratwurzel):
  • Figure 00240001
  • Die Sprachmodus-Bestimmungsschaltung 3050 empfängt einen vergangenen Anregungsvektor emem(i), i = 1, Λ, Lmem – 1, der von einer Speicherschaltung 1240 gehalten wird, und den von der Kodeeingangsschaltung 1010 ausgegebenen Index. Der Index bezeichnet eine Verzögerung Lpd. Lmem ist eine Konstante, die durch den Maximalwert von Lpd bestimmt ist.
  • In dem m-ten Teilrahmen wird eine Grundtonvorhersageverstärkung Gemem(m), m = 1, Λ, Nsfr, aus dem vergangenen Anregungsvektor emem(i) und der Verzögerung Lpd berechnet: Gemem(m) = 10·log10(gemem(m))wobei
  • Figure 00240002
  • Die Grundtonvorhersageverstärkung Gemem(m) oder das Mittel innerhalb von Rahmen G emem(n) in dem n-ten Rahmen von Gemem(m) erfährt die folgende Schwellwertverarbeitung, um einen Sprachmodus Smode einzustellen:
    Falls (G emem(n) ≥ 3,5), dann ist Smode = 2
    sonst Smode = 0.
    Die Sprachmodus-Bestimmungsschaltung 3050 gibt den Sprachmodus Smode an die Stimmhaft/Stimmlos-Erkennungsschaltung 2020 aus.
  • 3 zeigt eine in der vorliegenden Erfindung verwendete Sprachsignalkodiervorrichtung.
  • Die Sprachsignalkodiervorrichtung in 3 wird implementiert, indem bei dem bisherigen Stand der Technik von 5 eine Rahmenleistungs-Berechnungsschaltung 5540 und eine Sprachmodus-Bestimmungsschaltung 5540 hinzugefügt werden und die ersten und zweiten Verstärkungserzeugungsschaltungen 6220 und 6120 durch erste und zweite Verstärkungserzeugungsschaltungen 5220 und 5120 ersetzt werden und die Kodeausgangsschaltung 6010 durch eine Kodeausgangsschaltung 5010 ersetzt wird. Die ersten und zweiten Verstärkungserzeugungsschaltungen 5220 und 5120, ein Addierer 1050 und eine Speicherschaltung 1240 sind die gleichen wie die in dem bisherigen Stand der Technik von 5 beschriebenen, und eine Beschreibung davon wird weggelassen.
  • Die Rahmenleistungs-Berechnungsschaltung 5540 hat eine Tabelle 5540a, die mehrere Rahmenenergien speichert. Die Rahmenleistungs-Berechnungsschaltung 5540 empfängt einen Eingangsvektor von einem Eingangsanschluß 30, berechnet den RMS (mittlere Quadratwurzel) des Eingangsvektors und quantisiert den RMS unter Verwendung der Tabelle, um eine quantisierte Rahmenleistung Êrms zu erhalten. Für einen Eingangsvektor si(i), i = 1, Λ, Lsfr, ist eine Leistung Eirms gegeben durch:
  • Figure 00250001
  • Die Rahmenleistungs-Berechnungsschaltung 5540 gibt die quantisierte Rahmenleistung Êrms an die ersten und zweiten Verstärkungserzeugungsschaltungen 5220 und 5120 aus und einen Êrms entsprechenden Index an die Kodeausgangsschaltung 5010 aus.
  • Die Sprachmodus-Bestimmungsschaltung 5550 empfängt einen gewichteten Eingangsvektor, der von einem Gewichtungsfilter 5050 ausgegeben wird.
  • Der Sprachmodus Smode wird durch Ausführen einer Schwellwertverarbeitung für das Mittel innerhalb von Rahmen G op(n) einer Vorwärtssteuerungs-Grundtonvorhersageverstärkung Gop(m) bestimmt, das unter Verwendung des gewichteten Eingangsvektors berechnet wird. In diesem Fall stellt n die Rahmennummer und m die Teilrahmennummer dar.
  • In dem m-ten Teilrahmen werden aus einem gewichteten Eingangsvektor swi(i) und der Verzögerung Ltmp die folgenden zwei Gleichungen berechnet, und Ltmp, das E2sctmp (m)/Esa2tmp maximiert, wird erhalten und als Lop gesetzt:
  • Figure 00260001
  • Aus dem gewichteten Eingangsvektor swi(i) und der Verzögerung Lop wird die Grundtonvorhersageverstärkung Gop(m), m = 1, Λ, Nsfr, berechnet: Gop(m) = 10·log10(gop(m))wobei
    Figure 00260002
    Die Grundtonvorhersageverstärkung Gop(m) oder das Mittel G op(n) innerhalb von Rahmen in dem n-ten Rahmen von Gop(m) erfährt die folgende Schwellwertverarbeitung, um den Sprachmodus Smode einzustellen:
    Falls (G op(n) ≥ 3,5), dann ist Smode = 2
    sonst Smode = 0.
  • Die Bestimmung des Sprachmodus ist in „M-LCELP Speech Coding at 4 kb/s with Multi-Mode and Multi-Codebook", K. Ozawa et al., IEICE Trans. on Commun., Bd. E77-B, Nr. 9, S. 1114–1121, 1994 (Referenz 3), beschrieben.
  • Die Sprachmodus-Bestimmungsschaltung 5550 gibt den Sprachmodus Smode an die ersten und zweiten Verstärkungserzeugungsschaltungen 5220 und 5120 und einen dem Sprachmodus Smode entsprechenden Index an die Codeausgangsschaltung 5010 aus.
  • Eine Grundtonsignal-Erzeugungsschaltung 5210, eine Schallquellensignal-Erzeugungsschaltung 5110 und die ersten und zweiten Verstärkungserzeugungsschaltungen 5220 und 5120 empfangen nacheinander von einer Minimierungsschaltung 5070 ausgegebene Indizes. Die Grundtonsignal-Erzeugungsschaltung 5210, die Schallquellensignal-Erzeugungsschaltung 5110, die erste Verstärkungserzeugungsschaltung 5220 und die zweite Verstärkungserzeugungsschaltungen 5120 sind die gleichen wie die Grundtonsignal-Dekodierschaltung 1210, die Schallquellensignal-Dekodierschaltung 1110, die erste Verstärkungsdekodierschaltung 2220 und die zweite Verstärkungsdekodierschaltung 2120 in 1, abgesehen von den Eingangs/Ausgangsverbindungen, und eine detaillierte Beschreibung dieser Blöcke wird weggelassen.
  • Die Kodeausgangsschaltung 5010 empfängt einen Index, welcher der quantisierten LSP-Ausgabe von der LSP-Umwandlungs-/Quantisierungsschaltung 5520 entspricht, einen Index, welcher der quantisierten Rahmenleistung entspricht, die von der Rahmenleistungs-Berechnungsschaltung 5540 ausgegeben wird, einen Index, welcher dem Sprachmodus entspricht, der von der Sprachmodus-Bestimmungsschaltung 5550 ausgegeben wird, und Indizes, die dem Tonquellenvektor entsprechen, die Verzögerung Lpd und erste und zweite Verstärkungen, die von der Minimierungsschaltung 5070 ausgegeben werden. Die Kodeausgangsschaltung 5010 wandelt diese Indizes in einen Bitstromkode um und gibt ihn über einen Ausgangsanschluß 40 aus.
  • Die Anordnung einer Sprachsignal-Kodiervorrichtung in einer Sprachsignal-Kodier-/Dekodiervorrichtung gemäß der vierten Ausführungsform der vorliegenden Erfindung ist die gleiche wie die der Sprachsignal-Kodiervorrichtung in der herkömmlichen Sprachsignal-Kodier-/Dekodiervorrichtung, und eine Beschreibung davon wird weggelassen.
  • In den weiter oben beschriebenen Ausführungsformen ändert sich das langfristige Mittel von d0(m) mit der Zeit allmählicher als d0(m) und nimmt nicht intermittierend in der stimmhaften Sprache ab. Wenn der Glättungskoeffizient gemäß diesem Mittel bestimmt wird, kann ein unstetiger Klang, der in kurzer stimmloser Sprache erzeugt wird und intermittierend in stimmhafter Sprache enthalten ist, verringert werden. Durch Ausführen der Erkennung von stimmhafter oder stimmloser Sprache unter Verwendung des Mittels kann der Glättungskoeffizient des Dekodierparameters in stimmhafter Sprache ganz auf 0 gesetzt werden.
  • Die Verwendung des langfristigen Mittels von d0(m) auch für stimmlose Sprache kann verhindern, daß sich der Glättungskoeffizient unvermittelt ändert.
  • Die vorliegende Erfindung glättet den Dekodierparameter in stimmloser Sprache nicht unter Verwendung einer einzigen Verarbeitung, sondern durch selektive Verwendung von mehreren Verarbeitungsverfahren, die unter Berücksichtigung der wesentlichen Eigenschaften eines Eingangssignals ausgearbeitet werden. Diese Verfahren umfassen das Verschieben der Mittelverarbeitung bei der Berechnung des Dekodierparameters von vergangenen Dekodierparametern innerhalb ei nes begrenzten Abschnitts, die autoregressive Verarbeitung, die fähig ist, langfristigen vergangenen Einfluß zu berücksichtigen, und die nichtlineare Verarbeitung zur Begrenzung eines voreingestellten Werts durch eine obere oder untere Grenze nach der Mittelberechnung.
  • Gemäß des ersten Ergebnisses der vorliegenden Erfindung kann ein Ton, der sich von normaler stimmhafter Sprache unterscheidet, der in kurzer stimmloser Sprache erzeugt wird, welcher intermittierend in der stimmhaften Sprache enthalten oder Teil der stimmhaften Sprache ist, verringert werden, um den unstetigen Klang in der stimmhaften Sprache zu verringern. Dies liegt daran, daß das langfristige Mittel von d0(m), das sich zeitlich kaum ändert, in der kurzen stimmlosen Sprache verwendet wird und daß stimmhafte und stimmlose Sprache erkannt werden und der Glättungskoeffizient in der stimmhaften Sprache auf 0 gesetzt wird.
  • Gemäß des zweiten Ergebnisses der vorliegenden Erfindung werden unvermittelte Änderungen des Glättungskoeffizienten in stimmloser Sprache verringert, um den unstetigen Klang in der stimmlosen Sprache zu verringern. Dies liegt daran, daß der Glättungskoeffizient unter Verwendung des langfristigen Mittels von d0(m) bestimmt wird, das sich zeitlich kaum ändert.
  • Gemäß des dritten Ergebnisses der vorliegenden Erfindung kann die Glättungsverarbeitung gemäß der Art des Hintergrundrauschens ausgewählt werden, um die Dekodierqualität zu verbessern. Dies liegt daran, daß der Dekodierparameter selektiv unter Verwendung mehrerer Verarbeitungsverfahren entsprechend den wesentlichen Eigenschaften eines Eingangssignals geglättet wird.
  • Die Erfindung ist in den Patentansprüchen definiert.

Claims (20)

  1. Sprachsignal-Dekodierverfahren, das die folgenden Schritte aufweist: Dekodieren von Informationen, die mindestens ein Schallquellensignal, eine Verstärkung und Filterkoeffizienten enthalten, aus einem empfangenen Bitstrom; Erkennen von stimmhafter Sprache und stimmloser Sprache eines Sprachsignals unter Verwendung der dekodierten Informationen; gekennzeichnet durch Auswählen der Glättungsverarbeitung basierend auf den dekodierten Informationen, Durchführen der Glättungsverarbeitung für die dekodierte Verstärkung und/oder die dekodierten Filterkoeffizienten in der stimmlosen Sprache; und Dekodieren des Sprachsignals durch Steuern eines Filters (1040) mit den dekodierten Filterkoeffizienten durch ein Anregungssignal, das durch Multiplizieren des dekodierten Schallquellensignals mit der dekodierten Verstärkung unter Verwendung eines Ergebnisses der Glättungsverarbeitung erhalten wird.
  2. Verfahren nach Anspruch 1, wobei das Verfahren ferner den Schritt Einteilen von stimmloser Sprache entsprechend den dekodierten Informationen aufweist, und der Schritt Durchführen der Glättungsverarbeitung den Schritt Durchführen der Glättungsverarbeitung entsprechend eines Einteilungsergebnisses für die stimmlose Sprache für die dekodierte Verstärkung und/oder die dekodierten Filterkoeffizienten in der stimmlosen Sprache aufweist.
  3. verfahren nach Anspruch 1 oder 2, wobei der Erkennungsschritt den Schritt Durchführen eines Erkennungsarbeitsgangs unter Verwendung eines Werts aufweist, der durch Mitteln eines langfristigen Änderungsbetrags basierend auf einer Differenz zwischen den dekodierten Filterkoeffizienten und ihrem langfristigen Mittel erhalten wird.
  4. Verfahren nach Anspruch 2 oder 3, wobei der Einteilungsschritt den Schritt Durchführen eines Einteilungsarbeitsgangs unter Verwendung eines Werts aufweist, der durch Mitteln eines langfristigen Änderungsbetrags basierend auf einer Differenz zwischen den dekodierten Filterkoeffizienten und ihrem langfristigen Mittel erhalten wird.
  5. Verfahren nach Anspruch 1, wobei der Dekodierschritt den Schritt Dekodieren von Informationen, die eine Tonlagenperiodizität und eine Leistung des Sprachsignals enthalten, aus dem empfangenen Bitstrom aufweist, und der Erkennungsschritt den Schritt Durchführen eines Erkennungsarbeitsgangs unter Verwendung der dekodierten Tonlagenperiodizität und/oder der dekodierten Leistung aufweist.
  6. Verfahren nach Anspruch 2, wobei der Dekodierschritt den Schritt Dekodieren von Informationen, die eine Tonlagenperiodizität und eine Leistung des Sprachsignals enthalten, aus dem empfangenen Bitstrom aufweist, und der Einteilungsschritt den Schritt Durchführen eines Einteilungsarbeitsgangs unter Verwendung der dekodierten Tonlagenperiodizität und/oder der dekodierten Leistung aufweist.
  7. Verfahren nach Anspruch 1, wobei das Verfahren ferner den Schritt Schätzen der Tonlagenperiodizität und einer Leistung des Sprachsignals aus dem Anregungssignal und dem dekodierten Sprachsignal aufweist, und der Erkennungsschritt den Schritt Durchführen eines Erkennungsarbeitsgangs unter Verwendung der geschätzten Tonlagenperiodizitätsinformation und/oder der geschätzten Leistung aufweist.
  8. Verfahren nach Anspruch 2, wobei das Verfahren ferner den Schritt Schätzen der Tonlagenperiodizität und einer Leistung des Sprachsignals aus dem Anregungssignal und dem dekodierten Sprachsignal aufweist, und der Einteilungsschritt den Schritt Durchführen eines Einteilungsarbeitsgangs unter Verwendung der geschätzten Tonlagenperiodizität und/oder der geschätzten Leistung aufweist.
  9. Verfahren nach einem der Ansprüche 2 bis 8, wobei der Einteilungsschritt den Schritt Einteilen von stimmloser Sprache durch Vergleichen eines aus den dekodierten Filterkoeffizienten erhaltenen Werts mit einem vorbestimmten Schwellwert aufweist.
  10. Sprachsignal-Dekodiervorrichtung, die aufweist: mehrere Dekodiereinrichtungen (1020, 1110, 2040, 2050, 1210, 2120, 2220) zum Dekodieren von Informationen, die mindestens ein Schallquellensignal, eine Verstärkung und Filterkoeffizienten enthalten, aus einem empfangenen Bitstrom; eine Erkennungseinrichtung (2020) zum Erkennen von stimmhafter Sprache und stimmloser Sprache eines Sprachsignals unter Verwendung der dekodierten Informationen; gekennzeichnet durch Glättungseinrichtungen (21502170, 22502270) zum Auswählen der Glättungsverarbeitung basierend auf den dekodierten Informationen und Durchführen der Glättungsverarbeitung für die dekodierte Verstärkung und/oder die dekodierten Filterkoeffizienten in der durch die Erkennungseinrichtung erkannten stimmlosen Sprache; und eine Filtereinrichtung (1040) mit den dekodierten Filterkoeffizienten, die durch ein Anregungssignal gesteuert wird, das durch Multiplizieren des dekodierten Schallquellensignals mit der dekodierten Verstärkung unter Verwendung der dekodierten Filterkoeffizienten und/oder der dekodierten Verstärkung unter Verwendung eines Ausgangsergebnisses der Glättungseinrichtung erhalten wird.
  11. Vorrichtung nach Anspruch 10, wobei die Vorrichtung ferner aufweist: die Einteilungsvorrichtung (2030) zum Einteilen von stimmloser Sprache entsprechend den dekodierten Informationen, und die Glättungseinrichtung, welche die Glättungsverarbeitung entsprechend einem Einteilungsergebnis der Einteilungseinrichtung für die dekodierte Verstärkung und/oder die dekodierten Filterkoeffizienten in der durch die Erkennungseinrichtung erkannten stimmlosen Sprache durchführt.
  12. Vorrichtung nach Anspruch 10 oder 11, wobei die Erkennungseinrichtung den Erkennungsarbeitsgang unter Verwendung eines Werts durchführt, der durch Mitteln eines langfristigen Änderungsbetrags basierend auf einer Differenz zwischen den dekodierten Filterkoeffizienten und ihrem langfristigen Mittel erhalten wird.
  13. Vorrichtung nach Anspruch 11 oder 12, wobei die Einteilungseinrichtung den Einteilungsarbeitsgang unter Verwendung eines Werts durchführt, der durch Mitteln eines langfristigen Änderungsbetrags basierend auf einer Differenz zwischen den dekodierten Filterkoeffizienten und ihrem langfristigen Mittel erhalten wird.
  14. Vorrichtung nach Anspruch 10, wobei die Dekodiereinrichtung Informationen, die eine Tonlagenperiodizität und eine Leistung des Sprachsignals enthalten, aus dem empfangenen Bitstrom dekodiert, und die Erkennungseinrichtung den Erkennungsarbeitsgang unter Verwendung der dekodierten Tonlagenperiodizität und/oder der dekodierten Leistung durchführt, die von der Dekodiereinrichtung ausgegeben werden.
  15. Vorrichtung nach Anspruch 11, wobei die Dekodiereinrichtung Informationen, die eine Tonlagenperiodizität und eine Leistung des Sprachsignals enthalten, aus dem empfangenen Bitstrom dekodiert, und die Einteilungseinrichtung den Einteilungsarbeitsgang unter Verwendung der dekodierten Tonlagenperiodizität und/oder der dekodierten Leistung durchführt, die von der Dekodiereinrichtung ausgegeben werden.
  16. Vorrichtung nach Anspruch 10, wobei die Vorrichtung ferner die Schätzeinrichtung (3040, 3050) zum Schätzen der Tonlagenperiodizität und einer Leistung des Sprachsignals aus dem Anregungssignal und dem dekodierten Sprachsignal aufweist, und die Erkennungseinrichtung den Erkennungsarbeitsgang unter Verwendung der geschätzten Tonlagenperiodizität und/oder der geschätzten Leistung durchführt, die von der Schätzeinrichtung ausgegeben werden.
  17. Vorrichtung nach Anspruch 11, wobei die Vorrichtung ferner die Schätzeinrichtung (3040, 3050) zum Schätzen der Tonlagenperiodizität und einer Leistung des Sprachsignals aus dem Anregungssignal und dem dekodierten Sprachsignal aufweist, und die Einteilungseinrichtung den Einteilungsarbeitsgang unter Verwendung der geschätzten Tonlagenperiodizität und/oder der geschätzten Leistung durchführt, die von der Schätzeinrichtung ausgegeben werden.
  18. Vorrichtung nach einem der Ansprüche 11 bis 17, wobei die Einteilungseinrichtung stimmlose Sprache durch Vergleichen eines aus den dekodierten Filterkoeffizienten von der Dekodiereinrichtung erhaltenen Werts mit einem vorbestimmten Schwellwert aufweist.
  19. Sprachsignal-Dekodier-/Kodierverfahren, das die folgenden Schritte aufweist: Kodieren eines Sprachsignals durch Ausdrücken des Sprachsignals durch mindestens ein Schallquellensignal, eine Verstärkung und Filterkoeffizienten; Dekodieren von Informationen, die ein Schallquellensignal, eine Verstärkung und Filterkoeffizienten enthalten, aus einem empfangenen Bitstrom; Erkennen von stimmhafter Sprache und stimmloser Sprache des Sprachsignals unter Verwendung der dekodierten Informationen; gekennzeichnet durch Auswählen der Glättungsverarbeitung basierend auf den dekodierten Informationen, Durchführen der Glättungsverarbeitung für die dekodierte Verstärkung und/oder die dekodierten Filterkoeffizienten in der stimmlosen Sprache; und Dekodieren des Sprachsignals durch Steuern eines Filters (1040) mit den dekodierten Filterkoeffizienten durch ein Anregungssignal, das durch Multiplizieren des dekodierten Schallquellensignals mit der dekodierten Verstärkung unter Verwendung eines Ergebnisses der Glättungsverarbeitung erhalten wird.
  20. Sprachsignal-Dekodier-/Kodiervorrichtung, die aufweist: eine Sprachsignal-Kodiervorrichtung (3) zum Kodieren eines Sprachsignals durch Ausdrücken des Sprachsignals durch mindestens ein Schallquellensignal, eine Verstärkung und Filterkoeffizienten; mehrere Dekodiereinrichtungen (1020, 1110, 2040, 2050, 1210, 2120, 2220) zum Dekodieren von Informationen, die ein Schallquellensignal, eine Verstärkung und Filterkoeffizienten enthalten, aus einem empfangenen Bitstrom ausgegeben von der Sprachsignal-Kodiervorrichtung; eine Erkennungseinrichtung (2020) zum Erkennen von stimmhafter Sprache und stimmloser Sprache eines Sprachsignals unter Verwendung der dekodierten Informationen; gekennzeichnet durch Glättungseinrichtungen (21502170, 22502270) zum Auswählen der Glättungsverarbeitung basierend auf den dekodierten Informationen und Durchführen der Glättungsverarbeitung für die dekodierte Verstärkung und/oder die dekodierten Filterkoeffizienten in der durch die Erkennungseinrichtung erkannten stimmlosen Sprache; und eine Filtereinrichtung (1040) mit den dekodierten Filterkoeffizienten, die durch ein Anregungssignal gesteuert wird, das durch Multiplizieren des dekodierten Schallquellensignals mit der dekodierten Verstärkung unter Verwendung der dekodierten Filterkoeffizienten und/oder der dekodierten Verstärkung unter Verwendung eines Ausgangsergebnisses der Glättungseinrichtung erhalten wird.
DE60032068T 1999-07-28 2000-07-28 Sprachdekodierung Expired - Lifetime DE60032068T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP21429299A JP3365360B2 (ja) 1999-07-28 1999-07-28 音声信号復号方法および音声信号符号化復号方法とその装置
JP21429299 1999-07-28

Publications (2)

Publication Number Publication Date
DE60032068D1 DE60032068D1 (de) 2007-01-11
DE60032068T2 true DE60032068T2 (de) 2007-06-28

Family

ID=16653319

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60032068T Expired - Lifetime DE60032068T2 (de) 1999-07-28 2000-07-28 Sprachdekodierung

Country Status (5)

Country Link
US (3) US7050968B1 (de)
EP (2) EP1727130A3 (de)
JP (1) JP3365360B2 (de)
CA (1) CA2315324C (de)
DE (1) DE60032068T2 (de)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3365360B2 (ja) * 1999-07-28 2003-01-08 日本電気株式会社 音声信号復号方法および音声信号符号化復号方法とその装置
FR2813722B1 (fr) * 2000-09-05 2003-01-24 France Telecom Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif
US20030135374A1 (en) * 2002-01-16 2003-07-17 Hardwick John C. Speech synthesizer
US7305340B1 (en) * 2002-06-05 2007-12-04 At&T Corp. System and method for configuring voice synthesis
JP2004151123A (ja) * 2002-10-23 2004-05-27 Nec Corp 符号変換方法、符号変換装置、プログラム及びその記憶媒体
JP4572123B2 (ja) 2005-02-28 2010-10-27 日本電気株式会社 音源供給装置及び音源供給方法
US20070270987A1 (en) * 2006-05-18 2007-11-22 Sharp Kabushiki Kaisha Signal processing method, signal processing apparatus and recording medium
CN101578656A (zh) * 2007-01-05 2009-11-11 Lg电子株式会社 用于处理音频信号的装置和方法
CN101266798B (zh) * 2007-03-12 2011-06-15 华为技术有限公司 一种在语音解码器中进行增益平滑的方法及装置
EP3364411B1 (de) * 2009-12-14 2022-06-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vektorquantisierungsvorrichtung, sprachcodierungsvorrichtung, vektorquantisierungsverfahren und sprachcodierungsverfahren
KR101747917B1 (ko) 2010-10-18 2017-06-15 삼성전자주식회사 선형 예측 계수를 양자화하기 위한 저복잡도를 가지는 가중치 함수 결정 장치 및 방법
TWI498884B (zh) * 2013-09-09 2015-09-01 Pegatron Corp 具有過濾背景音功能的電子裝置及其方法
CN104143337B (zh) 2014-01-08 2015-12-09 腾讯科技(深圳)有限公司 一种提高音频信号音质的方法和装置
US20170194019A1 (en) * 2014-02-14 2017-07-06 Donald James DERRICK System for audio analysis and perception enhancement
KR102298767B1 (ko) * 2014-11-17 2021-09-06 삼성전자주식회사 음성 인식 시스템, 서버, 디스플레이 장치 및 그 제어 방법

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5267317A (en) 1991-10-18 1993-11-30 At&T Bell Laboratories Method and apparatus for smoothing pitch-cycle waveforms
JP2746033B2 (ja) 1992-12-24 1998-04-28 日本電気株式会社 音声復号化装置
JP3328080B2 (ja) * 1994-11-22 2002-09-24 沖電気工業株式会社 コード励振線形予測復号器
US5991725A (en) 1995-03-07 1999-11-23 Advanced Micro Devices, Inc. System and method for enhanced speech quality in voice storage and retrieval systems
GB9512284D0 (en) * 1995-06-16 1995-08-16 Nokia Mobile Phones Ltd Speech Synthesiser
JP4005154B2 (ja) * 1995-10-26 2007-11-07 ソニー株式会社 音声復号化方法及び装置
JPH09244695A (ja) 1996-03-04 1997-09-19 Kobe Steel Ltd 音声符号化装置及び復号化装置
JP3270922B2 (ja) 1996-09-09 2002-04-02 富士通株式会社 符号化,復号化方法及び符号化,復号化装置
JPH10124097A (ja) 1996-10-21 1998-05-15 Olympus Optical Co Ltd 音声記録再生装置
US6202046B1 (en) * 1997-01-23 2001-03-13 Kabushiki Kaisha Toshiba Background noise/speech classification method
JPH10222194A (ja) 1997-02-03 1998-08-21 Gotai Handotai Kofun Yugenkoshi 音声符号化における有声音と無声音の識別方法
JP3297346B2 (ja) * 1997-04-30 2002-07-02 沖電気工業株式会社 音声検出装置
JPH11133997A (ja) 1997-11-04 1999-05-21 Matsushita Electric Ind Co Ltd 有音無音判定装置
US6122611A (en) * 1998-05-11 2000-09-19 Conexant Systems, Inc. Adding noise during LPC coded voice activity periods to improve the quality of coded speech coexisting with background noise
US6098036A (en) * 1998-07-13 2000-08-01 Lockheed Martin Corp. Speech coding system and method including spectral formant enhancer
US6377915B1 (en) * 1999-03-17 2002-04-23 Yrp Advanced Mobile Communication Systems Research Laboratories Co., Ltd. Speech decoding using mix ratio table
JP3365360B2 (ja) * 1999-07-28 2003-01-08 日本電気株式会社 音声信号復号方法および音声信号符号化復号方法とその装置

Also Published As

Publication number Publication date
JP3365360B2 (ja) 2003-01-08
CA2315324C (en) 2008-02-05
EP1073039B1 (de) 2006-11-29
US7050968B1 (en) 2006-05-23
US7693711B2 (en) 2010-04-06
EP1073039A3 (de) 2003-12-10
EP1727130A3 (de) 2007-06-13
US7426465B2 (en) 2008-09-16
JP2001042900A (ja) 2001-02-16
US20060116875A1 (en) 2006-06-01
EP1727130A2 (de) 2006-11-29
DE60032068D1 (de) 2007-01-11
CA2315324A1 (en) 2001-01-28
EP1073039A2 (de) 2001-01-31
US20090012780A1 (en) 2009-01-08

Similar Documents

Publication Publication Date Title
DE69934608T2 (de) Adaptive kompensation der spektralen verzerrung eines synthetisierten sprachresiduums
DE69926821T2 (de) Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen
DE69934320T2 (de) Sprachkodierer und verfahren zur codebuch-suche
DE60121405T2 (de) Transkodierer zur Vermeidung einer Kaskadenkodierung von Sprachsignalen
DE60029990T2 (de) Glättung des verstärkungsfaktors in breitbandsprach- und audio-signal dekodierer
DE60027573T2 (de) Quantisierung der spektralen amplitude in einem sprachkodierer
DE60017763T2 (de) Verfahren und vorrichtung zur erhaltung einer ziel-bitrate in einem sprachkodierer
DE60122203T2 (de) Verfahren und system zur erzeugung von behaglichkeitsrauschen bei der sprachkommunikation
DE69534285T2 (de) Verfahren und Vorrichtung zur Auswahl der Kodierrate in einem Vocoder mit variabler Rate
DE60032068T2 (de) Sprachdekodierung
DE69628103T2 (de) Verfahren und Filter zur Hervorbebung von Formanten
DE69910058T2 (de) Verbesserung der periodizität eines breitbandsignals
EP0698877B1 (de) Postfilter und Verfahren zur Postfilterung
DE60120734T2 (de) Vorrichtung zur erweiterung der bandbreite eines audiosignals
DE69535723T2 (de) Verfahren und vorrichtung zur sprachkodierung mit reduzierter, variabler bitrate
DE69727895T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE60219351T2 (de) Signaländerungsverfahren zur effizienten kodierung von sprachsignalen
DE60011051T2 (de) Celp-transkodierung
DE60006271T2 (de) Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung
DE19681070C2 (de) Verfahren und Vorrichtung zum Betreiben eines Kommunikationssystems mit Rauschunterdrückung
DE60024501T2 (de) Verbesserung der perzeptuellen Qualität von SBR (Spektralbandreplikation) UND HFR (Hochfrequenzen-Rekonstruktion) Kodierverfahren mittels adaptivem Addieren von Grundrauschen und Begrenzung der Rauschsubstitution
DE69916321T2 (de) Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen
DE69730779T2 (de) Verbesserungen bei oder in Bezug auf Sprachkodierung
DE19647298C2 (de) Kodiersystem
DE60012760T2 (de) Multimodaler sprachkodierer

Legal Events

Date Code Title Description
8364 No opposition during term of opposition