DE60225400T2 - Verfahren und Vorrichtung zur Verarbeitung eines dekodierten Sprachsignals - Google Patents

Verfahren und Vorrichtung zur Verarbeitung eines dekodierten Sprachsignals Download PDF

Info

Publication number
DE60225400T2
DE60225400T2 DE60225400T DE60225400T DE60225400T2 DE 60225400 T2 DE60225400 T2 DE 60225400T2 DE 60225400 T DE60225400 T DE 60225400T DE 60225400 T DE60225400 T DE 60225400T DE 60225400 T2 DE60225400 T2 DE 60225400T2
Authority
DE
Germany
Prior art keywords
filter
signal
frame
gain
term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60225400T
Other languages
English (en)
Other versions
DE60225400D1 (de
Inventor
Juin-Hwey Irvine Chen
Jes Laguna Niguel THYSSEN
Chris C. Irvine Lee
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Broadcom Corp
Original Assignee
Broadcom Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Broadcom Corp filed Critical Broadcom Corp
Publication of DE60225400D1 publication Critical patent/DE60225400D1/de
Application granted granted Critical
Publication of DE60225400T2 publication Critical patent/DE60225400T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Filters That Use Time-Delay Elements (AREA)

Description

  • Die vorliegende Erfindung betrifft allgemein Verfahren zur Filterung von Signalen und insbesondere Verfahren zur Filterung von Sprachsignalen und/oder Audiosignalen.
  • Bei der digitalen Sprachkommunikation, die Codierungs- und Decodierungsoperationen umfasst, ist es bekannt, dass ein in geeigneter Weise ausgelegtes Filter, das an den Ausgang des Sprachdecodierers angelegt wird, in der Lage ist, das wahrgenommene Codierungsrauschen zu reduzieren, wodurch die Qualität der decodierten Sprache verbessert wird. Ein solches adaptives Filter wird oft als adaptives Nachfilter bezeichnet, und von dem adaptiven Nachfilter wird gesagt, dass es die adaptive Nachfilterung durchführt.
  • Die adaptive Nachfilterung kann unter Verwendung von Frequenzbereich-Lösungswegen durchgeführt werden, d. h., unter Verwendung eines Frequenzbereich-Nachfilters. Herkömmliche Frequenzbereich-Lösungswege erfordern auf unvorteilhafte Weise eine relativ hohe Rechenkomplexität und führen eine unerwünschte Pufferungsverzögerung für Overlap-Add-Operationen ein, die verwendet werden, um Wellenformdiskontinuitäten an Blockgrenzen zu vermeiden. Deshalb besteht ein Bedarf an einem adaptiven Nachfilter, das die Qualität der decodierten Sprache verbessern kann, während es die Rechenkomplexität und die Pufferungsverzögerung im Vergleich zu herkömmlichen Frequenzbereich-Nachfiltern verringert.
  • Die adaptive Nachfilterung kann auch unter Verwendung von Zeitbereich-Lösungswegen durchgeführt werden, d. h., unter Verwendung eines adaptiven Zeitbereich-Nachfilters. Ein bekanntes adaptives Zeitbereich-Nachfilter umfasst ein Langzeit-Nachfilter und ein Kurzzeit-Nachfilter. Das Langzeit-Nachfilter wird verwendet, wenn das Sprachspektrum eine harmonische Struktur aufweist, z. B. während einer stimmhaften Sprache, wenn die Sprachwellenform beinahe periodisch ist. Das Langzeit-Nachfilter wird typischerweise zur Durchführung der Langzeitfilterung verwendet, um spektrale Täler zwischen Oberschwingungen im Sprachspektrum zu dämpfen. Das Kurzzeit-Nachfilter führt eine Kurzzeitfilterung zum Dämpfen der Täler in der spektralen Hüllkurve, d. h., der Täler zwischen Formantspitzen, durch. Ein Nachteil einiger der älteren adaptiven Zeitbereich-Nachfilter liegt darin, dass sie dazu neigen, die nachgefilterte Sprache gedämpft klingen zu lassen, da sie dazu neigen, während einer stimmhaften Sprache einen Tiefpass- Spectral Tilt aufzuweisen. In neuerer Zeit vorgeschlagene herkömmliche Zeitbereich-Nachfilter verringern einen solchen Spectral Tilt stark, jedoch auf Kosten der Verwendung von viel komplizierteren Filterstrukturen, um dieses Ziel zu erreichen. Deshalb besteht ein Bedarf an einem adaptiven Nachfilter, das einen derartigen Spectral Tilt mit einer einfachen Filterstruktur verringert.
  • Es ist wünschenswert, eine Verstärkung eines adaptiven Nachfilters so zu skalieren, dass die nachgefilterte Sprache in etwa die gleiche Größe wie die ungefilterte Sprache aufweist. Mit anderen Worten, es ist wünschenswert, dass ein adaptives Nachfilter eine adaptive Verstärkungsregelung (AGC; adaptive gain control) aufweist. So beschreibt zum Beispiel die EP 0994463 ein Verfahren zur Verarbeitung eines decodierten Sprachsignals, das die adaptive Filterung, die Verstärkungsskalierung und die Glättung quer über Rahmengrenzen umfasst, wobei die Verstärkungsberechnung die Berechnung von kostspieligen Wurzelquadrat-Operationen beinhaltet. Die AGC kann jedoch auf unvorteilhafte Weise die Rechenkomplexität des adaptiven Nachfilters erhöhen. Daher besteht ein Bedarf nach einem adaptiven Nachfilter mit einer AGC, bei dem die Rechenkomplexität, die mit der AGC assoziiert ist, minimiert ist.
  • Gemäß einer Ausführungsform der vorliegenden Erfindung ist ein Verfahren nach Anspruch 1 bereitgestellt.
  • Gemäß einer anderen Ausführungsform der vorliegenden Erfindung ist eine Vorrichtung nach Anspruch 8 bereitgestellt.
  • Gemäß noch einer anderen Ausführungsform der vorliegenden Erfindung ist ein Computerprogramm nach Anspruch 15 bereitgestellt.
  • Ein Ausführungsbeispiel der vorliegenden Erfindung umfasst ein Verfahren zur Verarbeitung eines decodierten Sprachsignals (DS-Signals), das aufeinanderfolgende DS-Rahmen umfasst, wobei jeder DS-Rahmen DS-Abtastwerte umfasst. Das Verfahren umfasst Folgendes: adaptives Filtern des DS-Signals, um ein gefiltertes Signal zu erzeugen; Verstärkungsskalieren des gefilterten Signals mit einer adaptiven Verstärkung, die einmal pro DS-Rahmen aktualisiert wird, wodurch ein verstärkungsskaliertes Signal erzeugt wird; und Durchführen einer Glättungsoperation, um mögliche Wellenformdiskontinuitäten in dem verstärkungsskalierten Signal zu glät ten. Ein anderes Ausführungsbeispiel umfasst eine Vorrichtung zur Durchführung des oben beschriebenen Verfahrens.
  • Ausführungsbeispiele der vorliegenden Erfindung werden unter Bezugnahme auf die beigefügten Zeichnungen beschrieben. In den Zeichnungen bezeichnen gleiche Bezugszeichen identische oder in ihrer Funktion ähnliche Elemente. Die im vorliegenden Dokument verwendeten Ausdrücke "früher" und "aktuell" geben eine relative zeitliche Beziehung an und sind jeweils mit den Ausdrücken "aktuell" und "nächste"/"zukünftige" austauschbar, um die gleiche zeitliche Beziehung anzugeben. Ferner sind die oben erwähnten Ausdrücke aus praktischen Gründen mit Ausdrücken wie "erste" oder "zweite" etc. austauschbar.
  • 1A ist ein Blockdiagramm eines beispielhaften Nachfiltersystems zum Verarbeiten von Sprach- und/oder Audio-bezogenen Signalen gemäß einem Ausführungsbeispiel der vorliegenden Erfindung.
  • 1B ist ein Blockdiagramm eines adaptiven Nachfilters aus dem Stand der Technik in dem ITU-T Recommendation G.729 Sprachcodierungsstandard.
  • 2A ist ein Blockdiagramm eines beispielhaften Filter-Controllers von 1A zum Ableiten von Kurzzeit-Filterkoeffizienten.
  • 2B ist ein Blockdiagramm eines weiteren beispielhaften Filter-Controllers von 1A zum Ableiten von Kurzzeit-Filterkoeffizienten.
  • 2C, 2D und 2E enthalten jeweils Veranschaulichungen eines decodierten Sprachspektrums und von Filterfrequenzgängen, die mit dem Filter-Controller von 1A in Bezug stehen.
  • 3 ist ein Blockdiagramm eines beispielhaften adaptiven Nachfilters des Nachfiltersystems von 1A.
  • 4 ist ein Blockdiagramm eines alternativen adaptiven Nachfilters des Nachfiltersystems von 1A.
  • 5 ist ein Ablaufdiagramm eines beispielhaften Verfahrens zum adaptiven Filtern eines decodierten Sprachsignals zum Glätten von Signaldiskontinuitäten, die auf Grund einer Filteraktualisierung an einer Sprachrahmengrenze entstehen können.
  • 6 ist ein Blockdiagramm höherer Ebene eines beispielhaften adaptiven Filters.
  • 7 ist ein Zeitablaufdiagramm für beispielhafte Abschnitte von verschiedenen Signalen, die in Verbindung mit dem Filter von 7 erörtert werden.
  • 8 ist ein Ablaufdiagramm eines beispielhaften verallgemeinerten Verfahrens zum adaptiven Filtern eines verallgemeinerten Signals zum Glätten von gefilterten Signaldiskontinuitäten, die auf Grund einer Filteraktualisierung entstehen können.
  • 9 ist ein Blockdiagramm eines Computersystems, in dem die vorliegende Erfindung ablaufen kann.
  • Bei der Sprachcodierung wird das Sprachsignal typischerweise Rahmen um Rahmen codiert und decodiert, wobei jeder Rahmen eine feste Länge irgendwo zwischen 5 ms bis 40 ms aufweist. Bei der prädiktiven Codierung von Sprache wird jeder Rahmen häufig weiter in Subrahmen einer gleichen Länge aufgeteilt, wobei jeder Subrahmen typischerweise zwischen 1 bis 10 ms dauert. Die meisten adaptiven Nachfilter werden Subrahmen um Subrahmen angepasst. D. h., die Koeffizienten und Parameter des Nachfilters werden nur einmal pro Subrahmen aktualisiert und werden innerhalb jedes Subrahmens konstant gehalten. Dies trifft sowohl auf das herkömmliche adaptive Nachfilter als auch auf die unten beschriebenen Ausführungsbeispiele zu.
  • 1. Übersicht über ein Nachfiltersystem
  • 1A ist ein Blockdiagramm eines beispielhaften Nachfiltersystems zum Verarbeiten von Sprach- und/oder Audio-bezogenen Signalen gemäß einem Ausführungsbeispiel der vorliegenden Erfindung. Das System weist einen Sprachdecodierer 101 (der nicht Teil der vorliegenden Erfindung darstellt), einen Filter-Controller 102 und ein adaptives Nachfilter 103 (auch als Filter 103 bezeichnet) auf, das von dem Controller 102 gesteuert wird. Das Filter 103 umfasst ein Kurzzeit-Nachfilter 104 und ein Langzeit-Nachfilter 105 (auch jeweils als Filter 104 bzw. 105 bezeichnet).
  • Der Sprachdecodierer 101 empfangt einen Bitstrom, der für ein codiertes Sprach- und/oder Audiosignal repräsentativ ist. Der Decodierer 101 decodiert den Bitstrom, um ein decodiertes Sprach-(DS)-Signal s ~(n) zu erzeugen. Der Filter-Controller 102 verarbeitet das DS-Signal s ~(n), um Filtersteuersignale 106 zum Steuern des Filters 103 abzuleiten/zu erzeugen, und liefert die Steuersignale an das Filter. Die Filtersteuersignale 106 steuern die Eigenschaften des Filters 103 und umfassen zum Beispiel Kurzzeit-Filterkoeffizienten di für das Kurzzeitfilter 104, Langzeit-Filterkoeffizienten für das Langzeitfilter 105, AGC-Verstärkungen, und so weiter. Der Filter-Controller 102 führt ein erneutes Ableiten oder ein Aktualisieren der Filtersteuersignale 106 auf einer periodischen Basis durch, z. B. auf einer Rahmen-um-Rahmen-Basis oder einer Subrahmen-um-Subrahmen-Basis, wenn das DS-Signal s ~(n) aufeinander folgende DS-Rahmen oder -Subrahmen enthält.
  • Das Filter 103 empfangt periodisch aktualisierte Filtersteuersignale 106 und spricht auf die Filtersteuersignale an. Beispielsweise steuern die Kurzzeit-Filterkoeffizienten di, die in den Steuersignalen 106 enthalten sind, eine Transferfunktion (z. B. einen Frequenzgang) des Kurzzeitfilters 104. Da die Steuersignale 106 periodisch aktualisiert werden, arbeitet das Filter 103 als ein adaptives oder zeitvariables Filter im Ansprechen auf die Steuersignale.
  • Das Filter 103 filtert das DS-Signal s ~(n) in Übereinstimmung mit den Steuersignalen 106. Genauer gesagt filtern die Kurzzeit- und Langzeitfilter 104 und 105 das DS-Signal ss ~(n) in Übereinstimmung mit den Steuersignalen 106. Dieser Filtervorgang wird auch als "Nachfiltern" bezeichnet, da er in der Umgebung eines Nachfilters stattfindet. Beispielsweise veranlassen die Kurzzeit-Filterkoeffizienten di das Kurzzeitfilter 104 zu dem oben erwähnten Filterfrequenzgang, und das Kurzzeitfilter filtert das DS-Signal s ~(n) unter Verwendung dieses Frequenzgangs. Das Langzeitfilter 105 kann vor dem Kurzzeitfilter 104 angeordnet sein, oder umgekehrt.
  • 2. Kurzzeit-Nachfilter
  • 2.1 Herkömmliches Nachfilter - Kurzzeit-Nachfilter
  • Ein herkömmliches adaptives Nachfilter, das in dem ITU-T Recommendation G.729 Sprachcodierungsstandard verwendet wird, ist in 1B abgebildet. Es sei angenommen, dass
    Figure 00060001
    die Transferfunktion des Kurzzeit-Synthesefilters des G.729 Sprachdecodierers sei. Das Kurzzeit-Nachfilter in 1B besteht aus einem Pol-Null-Filter mit einer Transferfunktion
    Figure 00060002
    wobei 0 < β < α < 1 ist, gefolgt von einem Allnull-Filter erster Ordnung 1 – μz–1. Grundsätzlich gibt der Allpol-Abschnitt des Pol-Null-Filters oder
    Figure 00060003
    eine geglättete Version des Frequenzgangs des Kurzzeit-Synthesefilters
    Figure 00060004
    das selbst die spektrale Hüllkurve der eingegebenen Sprache approximiert. Der Allnull-Abschnitt des Pol-Null-Filters oder Â(z/β) wird verwendet, um einen Großteil des Spectral Tilt in
    Figure 00060005
    zu tilgen. Aber er kann den Spectral Tilt nicht vollständig tilgen. Das Filter erster Ordnung 1 – μz–1 versucht, den restlichen Spectral Tilt in dem Frequenzgang des Pol-Null-Filters
    Figure 00060006
    zu tilgen.
  • 2.2. Filter-Controller und Verfahren zum Ableiten von Kurzzeit-Filterkoeffizienten
  • In einem Nachfilter-Ausführungsbeispiel der vorliegenden Erfindung ist das Kurzzeitfilter (zum Beispiel das Kurzzeitfilter 104) ein einfaches Allpol-Filter, das eine Transferfunktion
    Figure 00060007
    aufweist. Die 2A und die 2B sind Blockdiagramme von zwei verschiedenen beispielhaften Filter-Controllern, die dem Filter-Controller 102 entsprechen, zum Ableiten der Koeffizienten di des Polynoms D(z), wobei i = 1, 2, ..., L und L die Ordnung des Kurzzeit-Nachfilters ist. Es soll selbstverständlich sein, dass die 2A und die 2B auch jeweilige Verfahren zum Ableiten der Koeffizienten des Polynoms D(z) darstellen, die von dem Filter-Controller 102 durchgeführt werden. Beispielsweise führt jeder der Funktionsblöcke oder jede der Gruppen von Funktionsblöcken, die in 2A und 2B dargestellt sind, einen oder mehrere Verfahrensschritte eines Gesamtverfahrens zur Verarbeitung von decodierter Sprache durch.
  • Es sei angenommen, dass der Sprach-Codec ein prädiktiver Codec, der einen herkömmlichen LPC-Prädiktor anwendet, mit einer Kurzzeit-Synthesefilter-Transferfunktion von
    Figure 00070001
    ist, wobei
    Figure 00070002
    ist und M die Ordnung des LPC-Prädiktors ist, die für Gewöhnlich für 8 kHz abgetastete Sprache 10 beträgt. Diese Beschreibung trifft auf viele bekannte prädiktive Sprach-Codecs zu, einschließlich Codecs, die Adaptive Predictive Coding (APC), Multi-Pulse Linear Predictive Coding (MPLPC), Code-Excited Linear Prediction (CELP) und Noise Feedback Coding (NFC) verwenden.
  • Die beispielhafte Anordnung des Filter-Controllers 102, die in 2A dargestellt ist, umfasst die Blöcke 220290. Der Sprachdecodierer 101 kann als außerhalb des Filter-Controllers befindlich angesehen werden. Wie oben bereits erwähnt wurde, decodiert der Sprachdecodierer 101 den eintreffenden Bitstrom in das DS-Signal s ~(n). Es sei angenommen, dass dem Decodierer 101 die decodierten LPC-Prädiktorkoeffizienten α ^i, i = 1, 2, ..., M zur Verfügung stehen (es sei angemerkt, dass α ^0 = 1 wie immer ist). In dem Frequenzbereich weist das DS-Signal s ~(n) eine spektrale Hüllkurve auf, die eine erste Vielzahl von Formantspitzen aufweist. Typischerweise weisen die Formantspitzen jeweilige unterschiedliche Amplituden auf, die über einen weiten dynamischen Bereich verbreitet sind.
  • Ein Bandbreitenaufweitungsblock 220 skaliert die α ^i-Koeffizienten, um die Koeffizienten 222 eines Formungsfilterblocks 230 zu bilden, der eine Transferfunktion von
    Figure 00070003
    aufweist. Ein geeigneter Wert für α ist 0,90.
  • Als Alternative kann die beispielhafte Anordnung des Filter-Controllers 102 verwendet werden, die in 2B dargestellt ist, um die Koeffizienten des For mungsfilters (Block 230) abzuleiten. Der Filter-Controller von 2B umfasst Blöcke oder Module 215290. Anstatt eine Bandbreitenaufweitung der decodierten LPC-Prädiktorkoeffizienten α ^i, i = 1, 2, ..., M durchzuführen, weist der Controller von 2B den Block 215 zur Durchführung einer LPC-Analyse auf, um die LPC-Prädiktorkoeffizienten aus dem decodierten Sprachsignal abzuleiten, und verwendet dann einen Bandbreitenaufweitungsblock 220, um eine Bandbreitenaufweitung an dem resultierenden Satz von LPC-Prädiktorkoeffizienten durchzuführen. Dieses alternative Verfahren (d. h., das in 2B veranschaulichte Verfahren) ist von Nutzen, wenn der Sprachdecodierer 101 keine decodierten LPC-Prädiktorkoeffizienten zur Verfügung stellt, oder wenn solche decodierten LPC-Prädiktorkoeffizienten als unzuverlässig angesehen werden. Es sei angemerkt, dass der Controller von 2B abgesehen von der Hinzufügung des Blockes 215 ansonsten identisch zu dem Controller von 2A ist. Mit anderen Worten, jeder der Funktionsblöcke in 2A ist mit dem entsprechenden Funktionsblock in 2B identisch, der die gleiche Blocknummer aufweist.
  • Ein Allnull-Formungsfilter 230, das die Transferfunktion Â(z/α) aufweist, filtert dann das decodierte Sprachsignal s ~(n), um ein Ausgangssignal f(n) zu erhalten, wobei das Signal f(n) ein Zeitbereichsignal ist. Dieses Formungsfilter Â(z/α) (230) entfernt einen Großteil des Spectral Tilt in der spektralen Hüllkurve des decodierten Sprachsignals ss ~(n), während es die Formantstruktur in der spektralen Hüllkurve des gefilterten Signals f(n) bewahrt. Aber es bleibt immer noch ein gewisser Rest an Spectral Tilt übrig.
  • Allgemeiner gesagt weist das Signal f(n) in dem Frequenzbereich eine spektrale Hüllkurve mit einer Vielzahl von Formatspitzen auf, die der Vielzahl von Formatspitzen der spektralen Hüllkurve des DS-Signals ss ~(n) entsprechen. Eine oder mehrere Amplitudendifferenzen zwischen den Formatspitzen der spektralen Hüllkurve des Signals f(n) werden bezogen auf eine oder mehrere Amplitudendifferenzen zwischen entsprechenden Formatspitzen der spektralen Hüllkurve des DS-Signals ss ~(n) reduziert. Somit ist das Signal f(n) bezogen auf die decodierte Sprache s ~(n) "spektral abgeflacht".
  • Ein Kompensationsfilter 260 niedriger Ordnung für den Spectral Tilt wird daraufhin verwendet, um den verbleibenden Spectral Tilt weiter zu entfernen. Die Ordnung dieses Filters sei als K angenommen. Um die Koeffizienten dieses Filters abzuleiten, führt ein Block 240 eine LPC-Analyse K-ter Ordnung bei dem Signal f(n) durch, was in einem LPC-Prädiktionsfehler-Filter K-ter Ordnung resultiert, das definiert ist durch
    Figure 00090001
  • Eine geeignete Filterordnung ist K = 1 oder 2. Ein gutes Resultat wird durch die Verwendung einer einfachen Autokorrelations-LPC-Analyse mit einem rechteckigen Fenster über dem aktuellen Subrahmen von f(n) erhalten.
  • Ein Block 250, der auf den Block 240 folgt, führt dann eine allgemein bekannte Bandbreitenaufweitungsprozedur an den Koeffizienten von B(z) durch, um das Kompensationsfilter für den Spectral Tilt (Block 260) zu erhalten, das eine Transferfunktion von
    Figure 00090002
    aufweist. Für die oben gewählten Parameterwerte ist ein geeigneter Wert für δ 0,96.
  • Das Signal f(n) wird durch das Allnull-Spectral Tilt-Kompensationsfilter B(z/δ) (260) geleitet. Das Filter 260 filtert das spektral abgeflachte Signal f(n), um Amplitudendifferenzen zwischen Formantspitzen in der spektralen Hüllkurve des Signals f(n) zu reduzieren. Der resultierende gefilterte Ausgang des Blocks 260 wird als Signal t(n) bezeichnet. Das Signal t(n) ist ein Zeitbereichsignal, d. h., das Signal t(n) weist eine Reihe von zeitbezogenen Signalabtastwerten auf. Das Signal t(n) weist eine spektrale Hüllkurve mit einer Vielzahl von Formantspitzen auf, die den Formantspitzen in den spektralen Hüllkurven der Signale f(n) und des DS-Signals s ~(n) entsprechen. Die Formantspitzen des Signals t(n) stimmen in ihrer Frequenz annährend mit den Formantspitzen des DS-Signals s ~(n) überein. Amplitudendifferenzen zwischen den Formantspitzen der spektralen Hüllkurve des Signals t(n) sind im Vergleich mit den Amplitudendifferenzen zwischen entsprechenden Formantspitzen der spektralen Hüllkurve des DS-Signals s ~(n) wesentlich reduziert. Somit ist das Signal t(n) im Hinblick auf das DS-Signal s ~(n) (und auch auf das Signal f(n)) "spektral abgeflacht". Die Formantspitzen des spektral abgeflachten Zeitbereichsignals t(n) weisen jeweilige Amplituden (als Formantamplituden bezeichnet) auf, die annähernd gleich zueinander sind (z. B. innerhalb von 3 dB von einander), während die Formantamplituden des DS-Signals s ~(n) beträchtlich unterschiedlich voneinander sein können (z. B. um bis zu 30 dB).
  • Aus diesen Gründen ist in der spektralen Hüllkurve des Signals t(n) sehr wenig Spectral Tilt übrig, aber die Formantspitzen in der decodierten Sprache sind zum Großteil immer noch erhalten. Somit ist es ein Hauptzweck der Blöcke 230 und 260, zu veranlassen, dass die Formantspitzen im Spektrum von s ~(n) zu Spektralspitzen im Spektrum von t(n) mit einer annähred gleichen Größe werden, damit ein wünschenswertes Kurzzeit-Nachfilter aus dem Signal t(n) abgeleitet werden kann. Bei dem Vorgang, die Spektralspitzen von t(n) zu einer annähernd gleichen Größe zu machen, wird der Spectral Tilt von t(n) vorteilhaft reduziert oder minimiert.
  • Ein Analyseblock 270 führt daraufhin eine LPC-Analyse höherer Ordnung an dem spektral abgeflachten Zeitbereichsignal t(n) durch, um die Koeffizienten αi zu erzeugen. Bei einem Ausführungsbeispiel werden die Koeffizienten αi erzeugt, ohne dass eine Konvertierung von einem Zeitbereich in einen Frequenzbereich durchgeführt wird. Ein alternatives Ausführungsbeispiel kann eine solche Konvertierung umfassen. Das resultierende LPC-Synthesefilter weist eine Transferfunktion von
    Figure 00100001
    auf. Hierbei kann die Filterordnung L möglicherweise, muß aber nicht, die Gleiche wie M sein, welche die Ordnung des LPC-Synthesefilters im Sprachdecodierer ist. Der typische Wert von L ist 10 oder 8 für 8 kHz abgetastete Sprache.
  • Dieses Allpol-Filter weist einen Frequenzgang mit Spektralspitzen auf, die etwa bei den Frequenzen der Formantspitzen der decodierten Sprache liegen. Die Spektralspitzen weisen jeweilige Niveaus auf einem annähernd gleichen Niveau auf, d. h., die Spektralspitzen weisen etwa gleiche jeweilige Amplituden auf (anders als die Formantspitzen von Sprache, welche Amplituden aufweisen, die sich typischerweise über einen breiten dynamischen Bereich erstrecken). Der Grund dafür ist, dass der Spectral Tilt in dem decodierten Sprachsignal s ~(n) zum Großteil durch das Formungsfilter Â(z/α) (230) und das Spectral Tilt -Kompensationsfilter B(z/δ) (260) entfernt wurde. Die Koeffizienten αi können direkt verwendet werden, um ein Filter zum Filtern des decodierten Sprachsignals s ~(n) zu erstellen. Darauf folgende Verarbeitungsschritte, die von den Blöcken 280 und 290 durchgeführt werden, modifizieren jedoch die Koeffizienten und verleihen hierbei den Koeffizienten αi gewünschte Eigenschaften, wie aus der nachfolgenden Beschreibung hervorgeht.
  • Als nächstes führt ein Bandbreitenaufweitungsblock 280 eine Bandbreitenaufweitung an den Koeffizienten des Allpol-Filters
    Figure 00110001
    durch, um den Betrag an Kurzzeit-Nachfiltern zu steuern. Nach der Bandbreitenaufweitung besitzt das resultierende Filter eine Transferfunktion von
    Figure 00110002
  • Ein geeigneter Wert für θ kann in dem Bereich von 0,60 bis 0,75 liegen, je nachdem, wie verrauscht die decodierte Sprache ist und wie viel Rauschunterdrückung gewünscht wird. Ein höherer Wert von θ liefert mehr Rauschunterdrückung, aber auf die Gefahr hin, dass eine merklichere Nachfilterungsverzerrung eingeführt wird, und umgekehrt.
  • Um sicher zu stellen, dass sich ein solches Kurzzeit-Nachfilter in einer gleichförmigen Art und Weise von Subrahmen zu Subrahmen entwickelt, ist es von Nutzen, die Filterkoeffizienten α ~i = αiθi, i = 1, 2, ..., L unter Verwendung eines Allpol-Tiefpassfilters erster Ordnung zu glätten. Es sei hierbei angenommen, dass α ~i(k) den i-ten Koeffizienten α ~i = αiθi in dem k-ten Subrahmen bezeichnet, und dass di(k) seine geglättete Version bezeichnet. Ein Koeffizienten-Glättungsblock 290 führt die folgende Tiefpass-Glättungsoperation di(k) = pdi(k – 1) + (1 – p)α ~i(k),wobei i = 1, 2, ..., L
    durch. Ein geeigneter Wert für p ist 0,75.
  • Das Unterdrücken des Subrahmenindex k zur Vereinfachung ergibt das resultierende Allpol-Filter mit einer Transferfunktion von
    Figure 00120001
    als das endgültige Kurzzeit-Nachfilter, das in einem Ausführungsbeispiel der vorliegenden Erfindung verwendet wird. Es zeigt sich, dass mit θ zwischen 0,60 und 0,75 und mit p = 0,75 dieses einzelne Allpol-Kurzzeit-Nachfilter einen geringeren durchschnittlichen Spectral Tilt als ein herkömmliches Kurzzeit-Nachfilter ergibt.
  • Die Glättungsoperation, die im Block 290 durchgeführt wird, um den Satz von Koeffizienten di zu erhalten, wobei i = 1, 2, ..., L, ist im Grunde ein gewichteter Mittelwert von zwei Sätzen von Koeffizienten für zwei Allpol-Filter. Selbst wenn diese zwei Allpol-Filter für sich stabil sind, ist theoretisch nicht gewährleistet, dass die gewichteten Mittelwerte dieser beiden Sätze von Koeffizienten ein stabiles Allpol-Filter ergeben. Um Stabilität zu gewährleisten, müssen theoretisch die Impulsantworten der zwei Allpol-Filter berechnet werden, der gewichtete Mittelwert der zwei Impulsantworten muß berechnet werden, und dann muß das gewünschte Kurzzeit-Nachfilter als ein Allnull-Filter unter Verwendung einer gestutzten Version des gewichteten Mittelwerts der Impulsantworten implementiert werden. Dies wird jedoch die Rechenkomplexität beträchtlich erhöhen, da die Ordnung des resultierenden Allnull-Filters für Gewöhnlich viel höher als die Ordnung L des Allpol-Filters ist.
  • In der Praxis hat sich herausgestellt, dass auf Grund der Tatsache, dass die Pole des Filters
    Figure 00120002
    bereits gut innerhalb des Einheitskreises (d. h., weit weg von der Einheitskreisgrenze) skaliert sind, ein großer "Sicherheitsabstand" vorhanden ist und das geglättete Allpol-Filter
    Figure 00120003
    nach unseren Beobachtungen immer stabil ist.
  • Daher ruft für praktische Zwecke ein direktes Glätten der Allpol-Filterkoeffizienten α ~i = αiθi, i = 1, 2, ..., L keine Instabilitätsprobleme hervor und wird somit in einem Ausführungsbeispiel der vorliegenden Erfindung wegen seiner Einfachheit und seiner geringeren Komplexität verwendet.
  • Um noch sicherer zu gehen, dass das Kurzzeit-Nachfilter nicht instabil werden wird, kann dann der oben erwähnte Lösungsweg des gewichteten Mittelwerts von Impulsantworten verwendet werden. Bei den oben erwähnten Parameterauswahlen stellte sich heraus, dass die Impulsantworten nach dem 16. Abtastwert fast immer auf ein vernachlässigbares Niveau absinken. Daher können zufriedenstellende Resultate erzielt werden, indem die Impulsantwort auf 16 Abtastwerte gestutzt wird und ein FIR-(Allnull)-Kurzzeit-Nachfilter 15. Ordnung verwendet wird.
  • Eine andere Möglichkeit, eine potentielle Instabilität zu behandeln, ist die Approximation des Allpol-Filters
    Figure 00130001
    durch ein Allnull-Filter durch die Verwendung der Durbin-Rekursion. Genauer gesagt können die Autokorrelationskoeffizienten der Allpol-Filter-Koeffizientenreihe α ~i oder di für i = 0, 1, 2, ..., L berechnet werden, und die Durbin-Rekursion kann auf der Grundlage von solchen Autokorrelationskoeffizienten durchgeführt werden. Die Ausgangsreihe einer solchen Durbin-Rekursion ist ein Satz von Koeffizienten für ein FIR-(Allnull)-Filter, das unmittelbar an Stelle des Allpol-Filters
    Figure 00130002
    verwendet werden kann. Da es sich um ein FIR-Filter handelt, wird es keine Instabilität geben. Wenn ein solches FIR-Filter aus den Koeffizienten von
    Figure 00130003
    abgeleitet wird, kann ein weiteres Glätten nötig sein, aber wenn es von den Koeffizienten von
    Figure 00130004
    abgeleitet wird, dann ist kein zusätzliches Glätten notwendig.
  • Es sei angemerkt, dass bei bestimmten Anwendungen die Koeffizienten des Kurzzeit-Synthesefilters
    Figure 00130005
    möglicherweise nicht genügend Quantisierungsauflösung besitzen oder überhaupt nicht am Decodierer zur Verfügung stehen (z. B. bei einem nicht-prädiktiven Codec). In diesem Fall kann eine separate LPC-Analyse bei der decodierten Sprache s ~(n) durchgeführt werden, um die Koeffizienten von Â(z) zu erhalten. Der Rest der oben erläuterten Prozeduren bleibt gleich.
  • Es soll angemerkt werden, dass es bei dem herkömmlichen Kurzzeit-Nachfilter von G.729, das in 1B gezeigt ist, zwei adaptive Skalierungsfaktoren Gs und Gl für das Pol-Null-Filter und das Spectral Tilt -Kompensationsfilter erster Ordnung gibt. Die Berechnung dieser Skalierungsfaktoren ist kompliziert. Zum Beispiel umfasst die Berechnunvong von Gs das Berechnen der Imulsantwort des Pol-Null-Filters
    Figure 00130006
    das Nehmen von Absolutwerten, das Summieren der Absolutwerte und das Nehmen des Kehrwertes. Die Berechnung Gl umfasst auch den Absolutwert, die Subtraktion und den Kehrwert. Im Vergleich dazu ist bei dem Kurzzeit-Nachfilter der Ausführungsbeispiele kein solcher adaptiver Skalierungsfaktor nötig, und zwar wegen der Verwendung einer neuartigen Overlap-Add-Prozedur später in der Nachfilterstruktur.
  • Beispielhafte Spektraldiagramme für den Filter-Controller
  • 2C ist ein erster Satz von drei beispielhaften Spektraldiagrammen C in Verbindung mit dem Filter-Controller 102, die aus einem ersten beispielhaften DS-Signal s ~(n) resultieren, das dem "oe"-Abschnitt des von einem männlichen Sprecher gesprochenen englischsprachigen Wortes "canoe" entspricht. Der Antwortsatz C umfasst ein Frequenzspektrum, d. h., ein Spektraldiagramm 291C (in kurz gestrichelter Linie dargestellt) des DS-Signals s ~(n), das dem "oe"-Abschnitt des von einem männlichen Sprecher gesprochenen englischsprachigen Wortes "canoe" entspricht. Das Spektrum 219C weist eine Formantstruktur auf, die eine Vielzahl von Spektralspitzen 291C(1)–(n) umfasst. Die hervorstechendsten Spektrelspitzen 291C(1), 291C(2), 291C(3) und 291C(4) weisen jeweilige verschiedene Formantamplituden auf. Insgesamt nehmen die Formantamplituden monoton ab. Daher hat/zeigt das Spektrum 291C einen Tiefpass- Spectral Tilt.
  • Der Antwortsatz C umfasst auch eine spektrale Hüllkurve 292C (als durchgezogene Linie dargestellt) des DS-Signals s ~(n), die dem Frequenzspektrum 291C entspricht. Die spektrale Hüllkurve 292C ist die spektrale LPC-Entsprechung des DS-Signals s ~(n). Mit anderen Worten, die spektrale Hüllkurve 292C ist der Filterfrequenzgang des LPC-Filters, repräsentiert durch die Koeffizienten α ^i (siehe 2A und 2B). Die spektrale Hüllkurve 292C umfasst Formantspitzen 292C(1)292C(4), die den Formantspitzen 291C(1)291C(4) entsprechen und annähernd in der Frequenz damit zusammenfallen. Die spektrale Hüllkurze 292C folgt der allgemeinen Form des Spektrums 291C und weist daher den Tiefpass- Spectral Tilt auf. Die Formantamplituden der Spektren 291C und 292C weisen einen dynamischen Bereich (d. h., eine maximale Amplitudendifferenz) von annähernd 30 dB auf. Beispielsweise liegt die Amplitudendifferenz zwischen den minimalen und maximalen Formantamplituden 292C(4) und 292C(1) innerhalb dieses Bereichs.
  • Der Antwortsatz C umfasst auch eine spektrale Hüllkurve 293C (als langgestrichelte Linie dargestellt) des spektral abgeflachten Signals t(n), die dem Frequenz spektrum 291C entspricht. Die spektrale Hüllkurve 293C ist die spektrale LPC-Entsprechung des spektral abgeflachten DS-Signals t(n). Mit anderen Worten, die spektrale Hüllkurve 293C ist der Filterfrequenzgang des LPC-Filters, das durch die Koeffizienten αi in der 2A und der 2B repräsentiert ist, entsprechend dem spektral abgeflachten Signal t(n). Die spektrale Hüllkurve 293C umfasst Formantspitzen 293C(1)293(4), die jeweiligen Formantspitzen der Formantspitzen 291C(1)–(4) und 292C(1)–(4) der Spektren 291C und 292C entsprechen und annähernd in der Frequenz damit zusammenfallen. Die Formantspitzen 293(1)293(4) des Spektrums 293C weisen jedoch annähernd gleiche Amplituden auf. D. h., die Formantamplituden des Spektrums 293C sind einander annähernd gleich. Während beispielsweise die Formantamplituden der Spektren 291C und 292C einen dynamischen Bereich von annähernd 30 dB aufweisen, liegen die Formantamplituden des Spektrums 293C innerhalb von etwa 3 dB bei einander.
  • 2D ist ein zweiter Satz von drei beispielhaften Spektraldiagrammen D in Verbindung mit dem Filter-Controller 102, die aus einem zweiten beispielhaften DS-Signal s ~(n) resultieren, das dem "sh"-Abschnitt des von einem männlichen Sprecher gesprochenen englischsprachigen Wortes "fish" entspricht. Der Antwortsatz D umfasst ein Spektrum 291D des DS-Signals s ~(n), eine spektrale Hüllkurve 292D des DS-Signals s ~(n), die dem Spektrum 291D entspricht, und eine spektrale Hüllkurve 293D des spektral abgeflachten Signals t(n). Die Spektren 291D und 292D sind den Spektren 291C und 292C von 2C ähnlich, abgesehen davon, dass die Spektren 291D und 292D monoton zunehmende Formantamplituden aufweisen. Somit haben die Spektren 291D und 292D Hochpass- Spectral Tilts an Stelle von Tiefpass-Spectral Tilts. Andererseits umfasst die spektrale Hüllkurve 293D Formantspitzen, die jeweilige annähernd gleiche Amplituden aufweisen.
  • 2E ist ein dritter Satz von drei beispielhaften Spektraldiagrammen E in Verbindung mit dem Filter-Controller 102, die aus einem dritten beispielhaften DS-Signal s ~(n) resultieren, welches dem "c" (/k/-Ton) des von einem männlichen Sprecher gesprochenen englischsprachigen Wortes "canoe" entspricht. Der Antwortsatz E umfasst ein Spektrum 291E des DS-Signals s ~(n), eine spektrale Hüllkurve 292E des DS-Signals s ~(n), die dem Spektrum 291E entspricht, und eine spektrale Hüllkurve 293E des spektral abgeflachten Signals t(n). Anders als die oben erörterten Spektren 291C und 292C und 291D und 292D weisen die Formantamplituden in den Spektren 291E und 292E keinen klaren Spectral Tilt auf. Statt dessen ist z. B. die Spitzenamp litude des zweiten Formanten 292D(2) jeweils höher als die der ersten und der dritten Formantspitzen 292D(1) bzw. 292D(3). Dennoch umfasst die spektrale Hüllkurve 293E Formantspitzen, die jeweilige annähernd gleiche Amplituden aufweisen.
  • Aus den beispielhaften 2C bis 2E geht hervor, dass die Formantspitzen des spektral abgeflachten DS-Signals t(n) jeweilige annähernd gleiche Amplituden für eine Vielfalt von verschiedenen Formantstrukturen des Eingangsspektrums aufweisen, darunter Eingangsformantstrukturen mit einem Tiefpass- Spectral Tilt, einem Hochpass- Spectral Tilt, einer großen Formantspitze zwischen zwei kleinen Formantspitzen, usw..
  • Unter erneuter Bezugnahme auf 1A und 2A und 2B kann angenommen werden, dass der Filter-Controller der vorliegenden Erfindung eine erste Stufe 294 gefolgt von einer zweiten Stufe 295 aufweist. Die erste Stufe 294 umfasst eine erste Anordnung von Signalverarbeitungsblöcken 220260 in 2A und eine zweite Anordnung von Signalverarbeitungsblöcken 215260 in 2B. Die zweite Stufe 296 weist Blöcke 270290 auf. Wie oben beschrieben wurde, weist das DS-Signal s ~(n) eine spektrale Hüllkurve auf, die eine erste Vielzahl von Formantspitzen (z. B. 291C(1)–(4)) aufweist. Die erste Vielzahl von Formantspitzen besitzt typischerweise jeweilige beträchtlich unterschiedliche Amplituden. Die erste Stufe 294 erzeugt aus dem DS-Signal s ~(n) das spektral abgeflachte DS-Signal t(n) als ein Zeitbereichsignal (z. B. als eine Reihe von Zeitbereichsignal-Abtastwerten). Das spektral abgeflachte DS-Zeitbereichsignal t(n) weist eine spektrale Hüllkurve auf, die eine zweite Vielzahl von Formantspitzen (z. B. 293C(1)–(4)) entsprechend der ersten Vielzahl von Formantspitzen des DS-Signals s ~(n) aufweist. Die zweite Vielzahl von Formantspitzen besitzt jeweilige Amplituden, die einander annähernd gleich sind.
  • Die zweite Stufe 296 leitet den Satz von Filterkoeffizienten di von dem spektral abgeflachten DS-Zeitbereichsignal t(n) ab. Die Filterkoeffizienten di repräsentieren einen Filterfrequenzgang, der im Kurzzeitfilter 104 ausgeführt wird, z. B. mit einer Vielzahl von Spektralspitzen, die in der Frequenz etwa mit den Formantspitzen der spektralen Hüllkurve des DS-Signals s ~(n) zusammen fallen. Die Filterspitzen weisen jeweilige Größen auf, die einander annähernd gleich sind.
  • Das Filter 103 empfangt Filterkoeffizienten di. Die Koeffizienten di veranlassen das Kurzzeitfilter 104 zu dem oben beschriebenen Filterfrequenzgang. Das Filter 104 filtert das DS-Signal s ~(n) (oder eine langzeitgefilterte Version davon in Ausführungsbeispielen, bei denen ein Langzeitfiltern vor dem Kurzzeitfiltern stattfindet) unter Verwendung von Koeffizienten di, und somit in Übereinstimmung mit dem oben beschriebenen Filterfrequenzgang. Wie oben erwähnt wurde, enthält der Frequenzgang des Filters 104 Spektralspitzen mit annähernd gleicher Amplitude, die in der Frequenz mit den Formantspitzen der spektralen Hüllkurve des DS-Signals s ~(n) zusammen fallen. Somit behält das Filter 103 auf vorteilhafte Weise die relativen Amplituden der Formantspitzen der spektralen Hüllkurve des DS-Signals s ~(n) bei und vertieft dabei spektrale Täler zwischen den Formantspitzen. Dies bewahrt die Gesamt-Formantstruktur des DS-Signals s ~(n) und reduziert dabei das Codierungsrauschen, das mit dem DS-Signal (das in den spektralen Tälern zwischen den Formatspitzen in der spektralen DS-Hüllkurve liegt) assoziiert ist.
  • In einem Ausführungsbeispiel sind die Filterkoeffizienten di Allpol-Kurzzeit-Filterkoeffizienten. Somit arbeitet bei diesem Ausführungsbeispiel das Kurzzeitfilter 104 als ein Allpol-Kurzzeitfilter. In anderen Ausführungsbeispielen können die Kurzzeit-Filterkoeffizienten von dem Signal t(n) als Allnull- oder Pol-Null-Koeffizienten abgeleitet werden, wie dies für einen Durchschnittsfachmann auf dem/den relevanten Gebiet(en) nach der Lektüre der vorliegenden Beschreibung ersichtlich wäre.
  • 3. Langzeit-Nachfilter
  • Es ist bedeutsam, dass das Langzeit-Nachfilter der Ausführungsbeispiele (z. B. das Langzeitfilter 105) infolge der Verwendung einer neuartigen Overlap-Add-Prozedur später in der Nachfilterstruktur keinen adaptiven Skalierungsfaktor verwendet. Es wurde gezeigt, dass der adaptive Skalierungsfaktor aus dem Langzeit-Nachfilter weggelassen werden kann, ohne einen hörbaren Unterschied zu verursachen.
  • Es sei angenommen, dass p die Pitch-Periode für den aktuellen Subrahmen bezeichnet. Für das Langzeit-Nachfilter können die Ausführungsbeispiele ein Allnull-Filter der Form 1 + γz–p, ein Allpol-Filter der Form
    Figure 00170001
    oder ein Pol-Null-Filter der Form
    Figure 00170002
    verwenden. In den oben stehenden Transferfunktionen sind die Filterkoeffizienten γ und λ typischerweise positive Zahlen zwischen 0 und 0,5.
  • In einem prädiktiven Sprach-Codec wird die Pitch-Perioden-Information häufig als Teil der Nebeninformationen übertragen. Am Decodierer kann die decodierte Pitch-Periode unverändert für das Langzeit-Nachfilter verwendet werden. Alternativ dazu kann eine Suche nach einer verfeinerten Pitch-Periode in der Nachbarschaft des übertragenen Pitch vorgenommen werden, um eine besser geeignete Pitch-Periode zu finden. Auf ähnliche Weise werden die Koeffizienten γ und λ manchmal von dem decodierten Pitch-Prädiktor-Tap-Wert abgeleitet, aber manchmal am Decodierer auf der Grundlage des decodierten Sprachsignals erneut abgeleitet. Es kann auch ein Schwelleneffekt vorliegen, so dass die Koeffizienten γ und λ auf Null gesetzt werden, wenn die Periodizität des Sprachsignals zu gering ist, um die Verwendung eines Langzeit-Nachfilters zu rechtfertigen. Alle diese Standard-Vorgehensweisen sind im früheren Stand der Technik von Langzeit-Nachfiltern gut bekannt und können mit dem Langzeit-Nachfilter in den Ausführungsbeispielen verwendet werden.
  • 4. Gesamt-Nachfilterstruktur
  • 3 ist ein Blockdiagramm einer beispielhaften Anordnung 300 eines adaptiven Nachfilters 103. Mit anderen Worten, das Nachfilter 300 in 3 entwickelt sich aus dem Nachfilter 103 in 1A. Das Nachfilter 300 umfasst ein Langzeit-Nachfilter 310 (entsprechend dem Langzeitfilter 105 in 1A), gefolgt von einem Kurzzeit-Nachfilter 320 (entsprechend dem Kurzzeitfilter 104 in 1A). Im Vergleich mit der herkömmlichen Nachfilterstruktur von 1 ist ein auffälliger Unterschied das Fehlen von separaten Verstärkungsskalierungsfaktoren für das Langzeit-Nachfilter 310 und das Kurzzeit-Nachfilter 320 in 3. Ein weiterer wichtiger Unterschied ist das Fehlen des Abtastwert-um-Abtastwert-Glättens eines AGC-Skalierungsfaktors G in 3. Die Eliminierung dieser Verarbeitungsblöcke wird durch das Hinzufügen eines Overlap-Add-Blocks 350 ermöglicht, der Wellenformdiskontinuitäten an den Subrahmengrenzen glättet.
  • Das adaptive Nachfilter 300 in 3 ist mit einem Allnull-Langzeit-Nachfilter (310) dargestellt. 4 zeigt eine alternative adaptive Nachfilteranordnung 400 des Filters 103 mit einem Allpol-Langzeit-Nachfilter 410. Die Funktion jedes Verarbeitungsblocks in 3 wird nachstehend beschrieben. Es soll selbstverständlich sein, dass 3 und 4 auch jeweilige Verfahren zum Filtern eines Signals repräsentieren. Beispielsweise führt jeder der Funktionsblöcke, oder jede der Grup pen von Funktionsblöcken, die in 3 und 4 dargestellt sind, einen oder mehrere Verfahrensschritte eines Gesamtverfahrens zum Filtern eines Signals durch.
  • Es sei angenommen, dass s ~(n) den n-ten Abtastwert der decodierten Sprache bezeichnet. Der Filterblock 310 führt ein Allnull-Langzeit-Nachfiltern folgendermaßen durch, um das Langzeit-nachgefilterte Signal sl(n) zu erhalten, das definiert ist als si(n) = s ~(n) + γs ~(n – p).
  • Der Filterblock 320 führt dann eine Kurzzeit-Nachfilteroperation bei sl(n) durch, um das Kurzzeit-nachgefilterte Signal ss(n) zu erhalten, das angegeben ist durch
    Figure 00190001
  • Einmal pro Subrahmen misst ein Verstärkungsskalierer-Block 330 eine durchschnittliche "Verstärkung" des decodierten Sprachsignals s ~(n) und des Kurzzeit-gefilterten Signals ss(n) in dem aktuellen Subrahmen und berechnet das Verhältnis dieser zwei Verstärkungen. Die "Verstärkung" kann auf eine Anzahl von verschiedenen Arten und Weisen bestimmt werden. Beispielsweise kann die Verstärkung der quadratische Mittelwert (RMS; Root Mean Sqare) sein, der über den aktuellen Subrahmen berechnet wurde, wie dies in der EP 0994463 beschrieben ist. Um die Quadratwurzeloperation zu vermeiden und die Rechenkomplexität gering zu halten, berechnet eine Ausführungsform des Verstärkungsskalierer-Blocks 330 den einmal-pro-Rahmen- AGC-Skalierungsfaktor G als
    Figure 00190002
    wobei N die Anzahl von Sprachabtastwerten in einem Subrahmen ist und der Zeitindex n = 1, 2, ..., N dem aktuellen Subrahmen entspricht.
  • Der Block 340 multipliziert den aktuellen Subrahmen des Kurzzeit-nachgefilterten Signals ss(n) mit dem einmal-pro-Rahmen-AGC-Skalierungsfaktor G, um das verstärkungsskalierte nachgefilterte Signal sg(n) zu erhalten, wie in sg(n) = G ss(n),für n = 1, 2, ..., N.
  • 5. Rahmengrenzenglättung
  • Der Block 350 führt eine spezielle Overlap-Add-Operation wie folgt durch. Zuerst führt er am Anfang des aktuellen Subrahmens die Operationen der Blöcke 310, 320 und 340 für J Abtastwerte unter Verwendung der Nachfilterparameter (γ‚ p und di, i = 1, 2, ..., L) und der AGC-Verstärkung G des letzten Subrahmens durch, wobei J die Anzahl von Abtastwerten für die Overlap-Add-Operation ist und J ≤ N. Dies ist äquivalent dazu, die Operationen der Blöcke 310, 320 und 340 des letzten Subrahmens für zusätzliche J Abtastwerte in den aktuellen Subrahmen hinein weiterführen zu lassen, ohne die Nachfilterparameter und die AGC-Verstärkung zu aktualisieren. Die resultierenden J Abtastwerte des Ausgangs des Blocks 340 seien als sp(n), n = 1, 2, ..., J bezeichnet. Dann sind diese J Wellenform-Abtastwerte des Signals sp(n) im Wesentlichen eine Fortführung des sg(n)-Signals im letzten Subrahmen, weshalb ein glatter Übergang über die Grenze zwischen dem letzten Subrahmen und dem aktuellen Subrahmen vorliegen sollte. An dieser Subrahmengrenze sollte keine Wellenformdiskontinuität auftreten.
  • Es sei angenommen, dass wd(n) und wu(n) das Overlap-Add-Fenster bezeichnen, das jeweils eine absteigende bzw. eine aufsteigende Rampe aufweist. Der Overlap-Add-Block 350 berechnet das endgültige Nachfilter-Ausgangs-Sprachsignal sf(n) wie folgt:
    Figure 00200001
  • In der Praxis stellt sich heraus, dass für eine Subrahmengröße von 40 Abtastwerten (5 ms für 8 kHz Abtastung) zufriedenstellende Ergebnisse mit einer Overlap-Add-Länge von J = 20 Abtastwerte erhalten wurden. Die Overlap-Add-Fensterfunktionen wd(n) und wu(n) können jegliche der allgemein bekannten Fensterfunktionen für die Overlap-Add-Operation sein. Beispielsweise können sie beide Kosinusquadratfenster oder beide Dreiecksfenster sein, mit der Erfordernis, dass wd(n) + wu(n) = 1, wobei n = 1, 2, ..., J. Es stellt sich heraus, dass die einfacheren Dreiecksfenster zufriedenstellend funktionieren.
  • Es sei angemerkt, dass an dem Ende eines Subrahmens das endgültige nachgefilterte Sprachsignal sf(n) mit dem verstärkungsskalierten Signal sg(n) identisch ist. Da das Signal sp(n) eine Fortführung des Signals sg(n) des letzten Subrahmens ist, und da die oben erwähnte Overlap-Add-Operation dazu führt, dass das endgültige nachgefilterte Sprachsignal sf(n) einen allmählichen Übergang von sp(n) zu sg(n) in den ersten J Abtastwerten des aktuellen Subrahmens ausführt, wird jegliche Wellenformdiskontinuität in dem Signal sg(n), die an der Subrahmengrenze vorliegen kann (wobei n = 1), durch die Overlap-Add-Operation geglättet. Es ist dieser Glättungseffekt, der von dem Overlap-Add-Block 350 bereit gestellt wird, der die Beseitigung der individuellen Verstärkungsskalierungsfaktoren für Langzeit- und Kurzzeit-Nachfilter sowie das Abtastwert-um-Abtastwert-Glätten des AGC-Skalierungsfaktors ermöglichte.
  • Die AGC-Einheit von herkömmlichen Nachfiltern (wie diejenige in 1B) versucht, eine gleichmäßige Abtastwert-um-Abtastwert-Entwicklung des Verstärkungsskalierungsfaktors aufzuweisen, um so eine wahrgenommene Diskontinuität in der Ausgangswellenform zu vermeiden. Bei einem solchen Glätten gibt es immer Abstriche. Falls das Glätten nicht ausreichend ist, kann die ausgegebene Sprache hörbare Diskontinuitäten aufweisen, die manchmal als ein knackendes Geräusch beschrieben werden. Bei übermäßigem Glätten hingegen kann sich der AGC-Verstärkungsskalierungsfaktor sehr schwerfällig anpassen – so schwerfällig, dass die Größe der nachgefilterten Sprache möglicherweise der schnellen Größenänderung in bestimmten Teilen der ungefilterten decodierten Sprache nicht folgen kann.
  • Im Gegensatz dazu gibt es keine solche "Schwerfälligkeit" der Verstärkungsverfolgung bei der vorliegenden Erfindung. Vor der Overlap-Add-Operation hat das verstärkungsskalierte Signal sg(n) garantiert die gleiche durchschnittliche "Verstärkung" über dem aktuellen Subrahmen wie die ungefilterte decodierte Sprache, ungeachtet der Definition der "Verstärkung". Daher erzeugt die vorliegende Erfindung auf einem Subrahmenniveau ein endgültiges nachgefiltertes Sprachsignal, das vollständig "verstärkungssynchronisiert" mit der ungefilterten decodierten Sprache ist. Die vor liegende Erfindung muß niemals der plötzlichen Änderung der "Verstärkung" in dem ungefilterten Signal "nachjagen", wie es bei früheren Nachfiltern der Fall ist.
  • 5 ist ein Ablaufdiagramm eines beispielhaften Verfahrens 500 zum adaptiven Filtern eines DS-Signals, das aufeinander folgende DS-Rahmen enthält (wobei jeder Rahmen eine Reihe von DS-Abtastwerten umfasst), zum Glätten, und somit zum im Wesentlichen Eliminieren von Signaldiskontinuitäten, die durch eine Filteraktualisierung an einer DS-Rahmengrenze entstehen können. Das Verfahren 500 wird auch als ein Verfahren zum Glätten eines adaptiv gefilterten DS-Signals bezeichnet.
  • Ein anfänglicher Schritt 502 umfasst das Ableiten eines früheren Satzes von Filterkoeffizienten auf der Grundlage von wenigstens einem Abschnitt eines früheren DS-Rahmens. Beispielsweise kann der Schritt 502 das Ableiten von Kurzzeit-Filterkoeffizienten di von einem früheren DS-Rahmen umfassen.
  • Ein nächster Schritt 503 umfasst das Filtern des früheren DS-Rahmens unter Verwendung des früheren Satzes von Filterkoeffizienten zum Erzeugen eines früheren gefilterten DS-Rahmens.
  • Ein nächster Schritt 506 umfasst das Filtern eines Anfangsabschnitts oder -segments eines aktuellen DS-Rahmens unter Verwendung der früheren Filterkoeffizienten zum Erzeugen eines ersten gefilterten DS-Rahmenabschnitts oder -segments. Beispielsweise erzeugt der Schritt 506 einen ersten gefilterten Rahmenabschnitt, der als ein Signal sp(n) für n = 1...J dargestellt ist, auf die oben beschriebene Art und Weise.
  • Ein nächster Schritt 508 umfasst das Ableiten eines aktuellen Satzes von Filterkoeffizienten auf der Grundlage von wenigstens einem Abschnitt, wie etwa dem Anfangsabschnitt, des aktuellen DS-Rahmens.
  • Ein nächster Schritt 510 umfasst das Filtern des Anfangsabschnitts oder -segments des aktuellen DS-Rahmens unter Verwendung der aktuellen Filterkoeffizienten, wodurch ein zweiter gefilterter DS-Rahmenabschnitt erzeugt wird. Beispielsweise erzeugt der Schritt 510 einen zweiten gefilterten Rahmenabschnitt, der als Signal sg(n) für n = 1...J dargestellt ist, auf die oben beschriebene Art und Weise.
  • Ein nächster Schritt 512 (der z. B. von den Blöcken 350 und 450 in 3 und 4 durchgeführt wird) umfasst das Modifizieren des zweiten gefilterten DS-Rahmenabschnitts mit dem ersten gefilterten DS-Rahmenabschnitt, um eine mögliche Signaldiskontinuität an einer Grenze zwischen dem früheren gefilterten DS-Rahmen und dem aktuellen gefilterten DS-Rahmen zu glätten. Beispielsweise führt der Schritt 512 die nachfolgende Operation auf die oben beschriebene Weise durch: sf(n) = wd(n)sp(n) + wu(n)sg(n),n = 1, 2, ..., N.
  • Im dem Verfahren 500 resultieren die Schritte 506, 510 und 512 in einem Glätten der möglichen gefilterten Signalwellenform-Diskontinuität, die aus dem Umschalten von Filterkoeffizienten an einer Rahmengrenze entstehen kann.
  • Alle Filterschritte in dem Verfahren 500 (z. B. die Filterungsschritte 504, 506 und 510) können eine Kurzzeitfilterung oder eine Langzeitfilterung oder eine Kombination aus den beiden umfassen. Die Filterschritte in dem Verfahren 500 können auch eine Kurzzeit- und/oder Langzeitfilterung gefolgt von einer Verstärkungsskalierung umfassen.
  • Das Verfahren 500 kann auf jegliches Signal angewendet werden, das mit einem Sprach- und/oder Audiosignal zusammenhängt. Das Verfahren 500 kann auch allgemeiner auf das adaptive Filtern (einschließlich sowohl Nachfiltern als auch Nicht-Nachfiltern) eines jeglichen Signals angewendet werden, einschließlich eines Signals, das nicht mit Sprach- und/oder Audiosignalen zusammenhängt.
  • 6. Weitere Ausführungsbeispiele
  • 4 zeigt eine alternative adaptive Nachfilterstruktur gemäß einem Ausführungsbeispiel. Der einzige Unterschied ist, dass das Allnull-Langzeit-Nachfilter 310 in 3 nun durch ein Allpol-Langzeit-Nachfilter 410 ersetzt ist. Dieses Allpol-Langzeit-Nachfilter 410 führt eine Langzeit-Nachfilterung gemäß der folgenden Gleichung durch. si(n) = s ~(n) + λsi(n – p)
  • Die Funktionen der übrigen vier Blöcke in 4 sind identisch mit den ähnlich bezifferten vier Blöcken in 3.
  • Wie im Abschnitt 2.2 oben erörtert wurde, können auch andere alternative Formen eines Kurzzeit-Nachfilters als
    Figure 00240001
    verwendet werden, nämlich die FIR-(Allnull)-Versionen des Kurzzeit-Nachfilters. Obgleich die 3 und die 4 nur
    Figure 00240002
    als das Kurzzeit-Nachfilter zeigen, sollte es klar sein, dass jegliche der in Abschnitt 2.2 erwähnten alternativen Allnull-Kurzzeit-Nachfilter auch in der in 3 und 4 dargestellten Nachfilterstruktur verwendet werden können. Darüber hinaus kann, auch wenn das Kurzzeit-Nachfilter in 3 und 4 als auf das Langzeit-Nachfilter folgend gezeigt ist, in der Praxis die Reihenfolge des Kurzzeit-Nachfilters und Langzeit-Nachfilters umgekehrt sein, ohne dass die Ausgabesprachqualität beeinträchtigt wird. Das Nachfilter der Ausführungsbeispiele kann auch nur ein Kurzzeitfilter (d. h., ein Kurzzeitfilter, aber kein Langzeitfilter) oder nur ein Langzeitfilter umfassen.
  • Noch ein anderes alternatives Ausführungsbeispiel liegt in der Anwendung eines Lösungsweges mit einem "Pitch-Vorfilter", der in einem bekannten Decodierer verwendet wird, wobei das Langzeit-Nachfilter von 3 oder 4 vor das LPC-Synthesefilter des Sprachdecodierers verschoben wird. In diesem Fall müsste jedoch wahrscheinlich ein geeigneter Verstärkungsskalierungsfaktor für das Langzeit-Nachfilter verwendet werden, ansonsten könnte das LPC-Synthesefilter-Ausgangssignal eine Signalverstärkung aufweisen, die ziemlich verschieden von derjenigen der ungefilterten decodierten Sprache ist. In diesem Szenario könnten der Block 330 und der Block 430 das LPC-Synthesefilter-Ausgangssignal als das Bezugssignal zum Bestimmen des geeigneten AGC-Verstärkungsfaktors verwenden.
  • 7. Verallgemeinerte adaptive Filterung unter Verwendung von Overlap-Add
  • Wie oben erwähnt wurde, kann das beschriebene Overlap-Add-Verfahren bei der adaptiven Filterung eines jeglichen Signaltyps verwendet werden. Zum Beispiel kann ein adaptives Filter Komponenten des oben beschriebenen Overlap-Add-Verfahrens zum Filtern eines beliebigen Signals verwenden. 6 ist ein Blockdiagramm höherer Ebene eines beispielhaften, verallgemeinerten adaptiven oder zeitva riablen Filters 600. Der Begriff "verallgemeinert" soll angeben, dass das Filter 600 einen beliebigen Signaltyp filtern kann, und dass das Signal nicht in Rahmen von Abtastwerten segmentiert werden muß.
  • Im Ansprechen auf ein Filtersteuersignal 604 schaltet das adaptive Filter 602 zwischen aufeinander folgenden Filtern um. Beispielsweise schaltet das adaptive Filter 602 im Ansprechen auf das Filtersteuersignal 604 an einem Filteraktualisierungszeitpunkt tU von einem ersten Filter F1 auf ein zweites Filter F2 um. Jedes Filter kann eine andere Filtertransferfunktion (d. h., Frequenzgang), ein anderes Niveau der Verstärkungsskalierung usw. repräsentieren. Beispielsweise kann jedes verschiedene Filter aus einem anderen Satz von Filterkoeffizienten oder einer in dem Steuersignal 604 vorhandenen aktualisierten Verstärkung resultieren. Bei einem Ausführungsbeispiel besitzen die beiden Filter F1 und F2 genau die gleichen Strukturen, und das Umschalten beinhaltet das Aktualisieren der Filterkoeffizienten von einem ersten Satz auf einen zweiten Satz, wodurch die Transfercharakteristiken des Filters verändert werden. In einem alternativen Ausführungsbeispiel können die Filter sogar verschiedene Strukturen besitzen, und das Umschalten beinhaltet das Aktualisieren der gesamten Filterstruktur einschließlich der Filterkoeffizienten. In beiden Fällen wird dies als Umschalten von einem ersten Filter F1 auf ein zweites Filter F2 bezeichnet. Dies könnte auch als Umschalten zwischen verschiedenen Filtervariationen F1 und F2 angesehen werden.
  • Das adaptive Filter 602 filtert ein verallgemeinertes Eingangssignal 606 gemäß den aufeinander folgenden Filtern, um ein gefiltertes Ausgangssignals 608 zu erzeugen. Das adaptive Filter 602 arbeitet gemäß dem oben und weiter unten beschriebenen Overlap-Add-Verfahren.
  • 7 ist ein Zeitablaufdiagramm von beispielhaften Abschnitten (als Wellenformen (a) bis (d) bezeichnet) verschiedener Signale im Zusammenhang mit dem adaptiven Filter 600, was im Nachfolgenden erörtert wird. Diese verschiedenen Signale besitzen eine gemeinsame Zeitachse. Die Wellenform (a) repräsentiert einen Abschnitt des Eingangssignals 606. Die Wellenform (b) repräsentiert einen Abschnitt eines gefilterten Signals, das von dem Filter 600 unter Verwendung des Filters F1 erzeugt wurde. Die Wellenform (c) repräsentiert einen Abschnitt eines gefilterten Signals, das von dem Filter 600 unter Verwendung des Filters F2 erzeugt wurde. Die Wellenform (d) repräsentiert das Overlap-Add-Ausgangssegment, einen Abschnitt des Signals 608, der von dem Filter 600 unter Verwendung des Overlap-Add-Verfahrens der Ausführungsbeispiele erzeugt wurde. Ebenfalls in 7 dargestellt sind die Zeitperioden tF1 und tF2, die Zeitperioden repräsentieren, während denen jeweils das Filter F1 bzw. F2 aktiv ist.
  • 8 ist ein Ablaufdiagramm eines beispielhaften Verfahrens 800 zum adaptiven Filtern eines Signals zur Vermeidung von Signaldiskontinuitäten, die sich aus einer Filteraktualisierung ergeben können. Das Verfahren 800 wird zu Veranschaulichungszwecken in Verbindung mit dem adaptiven Filter 600 und den Wellenformen von 7 beschrieben.
  • Ein erster Schritt 802 umfasst das Filtern eines früheren Signalsegments mit einem früheren Filter, wodurch ein früheres gefiltertes Segment erzeugt wird. Beispielsweise unter Verwendung des Filters F1 filtert das Filter 602 ein früheres Signalsegment 702 des Signals 606 zum Erzeugen eines früheren gefilterten Segments 704. Dieser Schritt entspricht dem Schritt 504 des Verfahrens 500.
  • Ein nächster Schritt 804 umfasst das Umschalten auf ein aktuelles Filter an einem Filteraktualisierungszeitpunkt. Beispielsweise schaltet das adaptive Filter 602 an dem Filteraktualisierungszeitpunkt tU von dem Filter F1 auf das Filter F2 um.
  • Ein nächster Schritt 806 umfasst das Filter eines aktuellen Signalsegments beginnend bei dem Filteraktualisierungszeitpunkt mit dem früheren Filter zum Erzeugen eines ersten gefilterten Segments. Beispielsweise filtert das Filter 602 unter Verwendung des Filters F1 ein aktuelles Signalsegment 706 ab dem Filteraktualisierungszeitpunkt tU, um ein erstes gefiltertes Segment 708 zu erzeugen. Dieser Schritt entspricht dem Schritt 506 des Verfahrens 500. In einer alternativen Anordnung ist die Reihenfolge der Schritte 804 und 806 umgekehrt.
  • Ein nächster Schritt 810 umfasst das Filtern des aktuellen Signalsegments mit dem aktuellen Filter, um ein zweites gefiltertes Segment zu erzeugen. Das erste und das zweite gefilterte Segment überlappen einander zeitlich beginnend ab dem Zeitpunkt tU. Beispielsweise filtert das Filter 602 das aktuelle Signalsegment 706 unter Verwendung des Filters F2, um ein zweites gefiltertes Segment 710 zu erzeugen, welches das erste gefilterte Segment 708 überlappt. Dieser Schritt entspricht dem Schritt 510 des Verfahrens 500.
  • Ein nächster Schritt 812 umfasst das Modifizieren des zweiten gefilterten Segments mit dem ersten gefilterten Segment zum Glätten einer möglichen gefilterten Signaldiskontinuität am Filteraktualisierungszeitpunkt. Beispielsweise modifiziert das Filter 602 das zweite gefilterte Segment 710 unter Verwendung des ersten gefilterten Segments 708, um ein gefiltertes, geglättetes Ausgangssignalsegment 714 zu erzeugen. Dieser Schritt entspricht dem Schritt 512 des Verfahrens 500. Zusammen glätten die Schritte 806, 810 und 812 in dem Verfahren 800 jegliche Diskontinuitäten, die durch das Umschalten der Filter in Schritt 804 verursacht worden sein können.
  • Das adaptive Filter 602 führt fort, das Signal 606 mit dem Filter F2 zu filtern, um das gefilterte Segment 716 zu erzeugen. Das von dem Filter 602 erzeugte gefilterte Ausgangssignal 608 beinhaltet aneinander angrenzende, aufeinander folgende gefilterte Signalsegmente 704, 714 und 716. Der Modifizierungsschritt 812 glättet eine Diskontinuität, die zwischen den gefilterten Signalsegmenten 704 und 710 infolge des Umschalten zwischen den Filtern F1 und F2 am Zeitpunkt tU entstehen kann, und führt daher zu einem glatten Signalübergang zwischen den gefilterten Ausgangssegmenten 704 und 714.
  • Vorliegend wurden verschiedene Verfahren und Vorrichtungen zum Verarbeiten von Signalen beschrieben. Beispielsweise wurden Verfahren zum Ableiten von Filterkoeffizienten aus einem decodierten Sprachsignal und Verfahren zum adaptiven Filtern eines decodierten Sprachsignals (oder eines verallgemeinerten Signals) beschrieben. Es sollte selbstverständlich sein, dass solche Verfahren und Vorrichtungen dazu bestimmt sind, wenigstens Abschnitte oder Segmente des erwähnten Sprachsignals (bzw. verallgemeinerten Signals) zu verarbeiten. Beispielsweise wirken die Ausführungsbeispiele wenigstens auf einen Abschnitt eines decodierten Sprachsignals (z. B. einen decodierten Sprachrahmen oder -subrahmen) oder ein Zeitsegment des decodierten Sprachsignals ein. Zu diesem Zweck kann der Begriff "decodiertes Sprachsignal" (oder allgemein "Signal") als synonym mit "wenigstens ein Abschnitt des decodierten Sprachsignals" (oder "wenigstens ein Abschnitt des Signals") betrachtet werden.
  • 8. Hardware- und Software-Implementierungen
  • Die folgende Beschreibung eines Universal-Computersystems wird vollständigkeitshalber bereitgestellt. Die Ausführungsbeispiele können in Hardware oder als eine Kombination aus Software und Hardware implementiert werden. Folglich kann die Erfindung in der Umgebung eines Computersystems oder eines anderen Verarbeitungssystems implementiert werden. Ein Beispiel eines solchen Computersystems 900 ist in 9 gezeigt. In der vorliegenden Erfindung können zum Beispiel alle der Signalverarbeitungsblöcke, die in den 1A, 2A2B, 34 und 6 dargestellt sind, in einem oder mehreren unterschiedlichen Computersystem(en) 900 ausgeführt werden, um die verschiedenen Verfahren der vorliegenden Erfindung zu implementieren. Das Computersystem 900 umfasst einen oder mehrere Prozessoren, wie etwa den Prozessor 904. Der Prozessor 904 kann ein digitaler Spezial- oder Universal-Signalprozessor sein. Der Prozessor 904 ist mit einer Kommunikationsinfrastruktur 906 (zum Beispiel einem Bus oder einem Netzwerk) verbunden. Verschiedene Software-Implementierungen werden in bezug auf dieses beispielhafte Computersystem beschrieben. Nach dem Lesen dieser Beschreibung wird es einem Fachmann auf dem relevanten Fachgebiet offensichtlich werden, wie die Erfindung unter Verwendung anderer Computersysteme und/oder Computerarchitekturen implementiert werden kann.
  • Das Computersystem 900 umfasst auch einen Hauptspeicher 905, vorzugsweise einen Direktzugriffsspeicher (RAM; random access memory), und kann auch einen externen Speicher 910 umfassen. Der externe Speicher 910 kann zum Beispiel ein Festplattenlaufwerk 912 und/oder ein Wechselspeicherlaufwerk 914 umfassen, das ein Disketten-Laufwerk, ein Magnetbandlaufwerk, ein CD-Laufwerk, etc. darstellt. Das Wechselspeicherlaufwerk 914 liest aus einer und/oder schreibt in eine Wechselspeichereinheit 915 in einer allgemein bekannten Art und Weise. Die Wechselspeichereinheit 915 stellt eine Diskette, ein Magnetband, eine CD etc. dar, die von dem Wechselspeicherlaufwerk 914 gelesen und geschrieben wird. Wie klar sein wird, umfasst die Wechselspeichereinheit 915 ein von einem Computer nutzbares Speichermedium, auf dem Computersoftware und/oder Daten gespeichert sind.
  • In alternativen Implementierungen kann der externe Speicher 910 andere ähnliche Einrichtungen umfassen, die es gestatten, dass Computerprogramme oder andere Befehle in das Computersystem 900 geladen werden können. Solche Einrichtungen können zum Beispiel eine Wechselspeichereinheit 922 und eine Schnittstelle 920 umfassen. Beispiele für solche Einrichtungen können eine Programmkassette und eine Kassettenschnittstelle (wie etwa diejenigen, die in Videospielvorrichtungen zu finden sind), einen herausnehmbaren Speicherchip (wie etwa ein EPROM oder PROM) und zugehörige Anschlüsse, und andere Wechselspeichereinheiten 922 und Schnittstellen 920 umfassen, die es erlauben, dass Software und Daten von der Wechselspeichereinheit 922 auf das Computersystem 900 übertragen werden können.
  • Das Computersystem 900 kann auch eine Kommunikationsschnittstelle 924 umfassen. Die Kommunikationsschnittstelle 924 erlaubt es, dass Software und Daten zwischen dem Computersystem 900 und externen Geräten transferiert werden können. Beispiele einer solchen Kommunikationsschnittstelle 924 können ein Modem, eine Netzwerkschnittstelle (wie etwa eine Ethernet-Karte), einen Kommunikationsport, einen PCMCIA-Steckplatz und eine PCMCIA-Karte, etc. umfassen. Software und Daten, die über eine Kommunikationsschnittstelle 924 übertragen werden, liegen in der Form von Signalen 925 vor, die elektronische, elektromagnetische, optische oder andere Signale sein können, die von der Kommunikationsschnittstelle 924 empfangen werden können. Diese Signale 925 werden der Kommunikationsschnittstelle 924 über einen Übertragungsweg 926 zugeführt. Der Übertragungsweg 926 überträgt Signale 925 und kann unter Verwendung von Draht oder Kabeln, Glasfasern, einer Telefonleitung, einer zellularen Telefonverbindung, einer HF-Verbindung und anderen Kommunikationskanälen implementiert werden. Beispiele für Signale, die über die Schnittstelle 924 übertragen werden können, umfassen: Signale und/oder Parameter, die codiert und/oder decodiert werden sollen, wie etwa Sprach- und/oder Audiosignale und Bitstromrepräsentationen solcher Signale; jegliche Signale/Parameter, die aus der Codierung und Decodierung von Sprach- und/oder Audiosignalen resultieren; Signale, die nicht mit Sprach- und/oder Audiosignalen in Bezug stehen, die unter Verwendung der hier beschriebenen Techniken gefiltert werden sollen.
  • In diesem Dokument werden die Begriffe "Computerprogrammmedium" und "von einem Computer nutzbares Medium" verwendet, um sich allgemein auf Medien wie etwa ein Wechselspeicherlaufwerk 914, eine Festplatte, die in dem Festplattenlaufwerk 912 installiert ist, und Signale 925 zu beziehen. Diese Computerprogrammerzeugnisse sind Einrichtungen zum Bereitstellen von Software für das Computersystem 900.
  • Computerprogramme (die auch Computersteuerlogik genannt werden) sind in dem Hauptspeicher 905 und/oder dem externen Speicher 910 gespeichert. Es kön nen auch decodierte Sprachsegmente, gefilterte Sprachrahmen, Filterparameter wie etwas Filterkoeffizienten und Filterverstärkungen, und so weiter alle in den oben genannten Speichern gespeichert werden. Computerprogramme können auch über eine Kommunikationsschnittstelle 924 empfangen werden. Solche Computerprogramme ermöglichen es dem Computersystem 900 dann, wenn sie ausgeführt werden, die Ausführungsbeispiele so, wie sie hier erläutert worden sind, zu implementieren. Insbesondere ermöglichen es die Computerprogramme, wenn sie ausgeführt werden, dem Prozessor 904, die Prozesse der Ausführungsbeispiele zu implementieren, wie etwa die Verfahren, die zum Beispiel in den 2A2B, 3-5 und 8 veranschaulicht worden sind. Demgemäss stellen solche Computerprogramme Controller des Computersystems 900 dar. Als Beispiel können bei den Ausführungsbeispielen der Erfindung die Prozesse/Verfahren, die von Signalverarbeitungsblöcken von Quantisierern und/oder inversen Quantisierern ausgeführt werden, von einer Computersteuerlogik ausgeführt werden. Wenn die Erfindung unter Verwendung von Software implementiert wird, kann die Software in einem Computerprogrammerzeugnis gespeichert werden und in das Computersystem 900 unter Verwendung eines Wechselspeicherlaufwerks 914, eines Festplattenlaufwerks 912 oder einer Kommunikationsschnittstelle 924 geladen werden.
  • In einem anderen Ausführungsbeispiel werden die Merkmale der Erfindung primär in Hardware implementiert, wobei zum Beispiel Hardwarekomponenten wie etwa anwendungsspezifische integrierte Schaltungen (ASICs; Application Specific Integrated Circuits) und Gate-Arrays verwendet werden. Die Implementierung einer Hardware-Zustandsmaschine, um so die hier beschriebenen Funktionen durchzuführen, wird den Fachleuten in dem/den relevanten Fachgebiet(en) ebenfalls ersichtlich sein.
  • 9. Schlussfolgerung
  • Obwohl oben verschiedene Ausführungsbeispiele der vorliegenden Erfindung beschrieben worden sind, sollte es klar sein, dass sie nur beispielshalber präsentiert worden sind und keine Beschränkung darstellen. Es wird den Fachlauten auf den relevanten Fachgebieten klar sein, dass verschiedene Änderungen bezüglich der Form und der Einzelheiten vorgenommen werden können, ohne dass von dem Schutzumfang der Erfindung, wie sie in den angehängten Ansprüchen definiert ist, abgewichen wird.
  • Die vorliegende Erfindung wurde oben stehend mit Hilfe von funktionellen Bausteinen und Verfahrensschritten beschrieben, welche die Performanz von spezifizierten Funktionen und Beziehungen davon veranschaulichen. Ein Fachmann auf dem Gebiet wird erkennen, dass diese funktionellen Bausteine durch diskrete Komponenten, anwendungsspezifische integrierte Schaltungen, Prozessoren für die Ausführung von geeigneter Software und dergleichen oder als eine beliebige Kombination aus diesen implementiert werden können. Daher soll der Umfang und der Schutzbereich der vorliegenden Erfindung nicht durch einzelne der oben beschriebenen, exemplarischen Ausführungsbeispiele eingeschränkt sein, sondern soll nur in Übereinstimmung mit den nachfolgenden Patentansprüchen definiert werden.

Claims (15)

  1. Verfahren (500) zur Verarbeitung eines decodierten Sprach-DS-Signals (s ~(n)), wobei das Signal aufeinanderfolgende DS-Rahmen umfasst, wobei jeder DS-Rahmen DS-Abtastwerte umfasst, mit folgenden Schritten: (a) adaptives Filtern des DS-Signals (s ~(n)) zur Erzeugung eines gefilterten Signals (ss(n)), wobei das Filtern das Filtern (510) eines Anfangsabschnitts eines aktuellen DS-Rahmens unter Verwendung eines aktuellen Satzes von Filterkoeffizienten umfasst, um einen ersten gefilterten Rahmenabschnitt (sg(n)) zu erzeugen; (b) Verstärkungsskalieren des gefilterten Signals (ss(n)) mit einer adaptiven Verstärkung, die einmal pro DS-Rahmen aktualisiert wird, wobei der erste gefilterte Rahmenabschnitt (sg(n)) unter Verwendung einer aktuellen Verstärkung verstärkungsskaliert wird, um einen ersten verstärkungsskalierten Rahmenabschnitt zu erzeugen; und (c) Durchführen einer Glättungsoperation zum Glätten von möglichen Wellenformdiskontinuitäten in dem verstärkungsskalierten Signal an der Grenze zwischen dem aktuellen und dem vorhergehenden DS-Rahmen, was das Filtern (504) und das Verstärkungsskalieren des Anfangsabschnitts des aktuellen DS-Rahmens jeweils unter Verwendung des Satzes von Filterkoeffizienten und der Verstärkung des vorhergehenden DS-Rahmens, um einen zweiten verstärkungsskalierten Rahmenabschnitt zu erzeugen, und das Modifizieren des ersten verstärkungsskalierten Rahmenabschnitts mit dem zweiten verstärkungsskalierten Rahmenabschnitt umfasst, um so eine mögliche Wellenformdiskontinuität an der Grenze zwischen dem vorhergehenden angrenzenden DS-Rahmen und dem aktuellen DS-Rahmen zu glätten, dadurch gekennzeichnet, dass ein Verstärkungsfaktor G für die Verstärkungsskalierung verwendet wird, der berechnet wird als
    Figure 00330001
    wobei N die Anzahl an Signalabtastwerten in einem Rahmen ist, s ~(n) den n-ten Abtastwert des decodierten Sprachsignals (s ~(n)) bezeichnet, ss(n) den n-ten Abtastwert des nachgefilterten Sprachsignals (ss(n)) bezeichnet, und wobei der Zeitindex n = 1, 2, ..., N jeweils dem früheren Rahmen entspricht, wenn der frühere Satz von Filterkoeffizienten verwendet wird, und dem aktuellen Rahmen entspricht, wenn der aktuelle Satz von Filterkoeffizienten verwendet wird.
  2. Verfahren (500) nach Anspruch 1, wobei Schritt (c) des Weiteren das Durchführen einer Overlap-Add-Operation auf der Basis der ersten und zweiten verstärkungsskalierten Signalrahmenabschnitte umfasst.
  3. Verfahren (500) nach Anspruch 2, wobei die Overlap-Add-Operation das Gewichten der ersten und zweiten Rahmenabschnitte mit einer Gewichtungsfunktion, wobei die Gewichtungsfunktion eine von einer Dreiecksfunktion und einer Kosinusquadratfunktion ist, und das Addieren der ersten und zweiten Rahmenabschnitte umfasst.
  4. Verfahren (500) nach einem der vorhergehenden Ansprüche, wobei der Filterschritt (a) wenigstens eines von einem Langzeitfiltern (310) und einem Kurzzeitfiltern (320) umfasst.
  5. Verfahren (500) nach einem der vorhergehenden Ansprüche, wobei der Filterungsschritt (a) des Weiteren wenigstens eines von einem Langzeitfiltern (310), gefolgt von einem Kurzzeitfiltern (320), und einem Kurzzeitfiltern (320), gefolgt von einem Langzeitfiltern (310) umfasst.
  6. Verfahren (500) nach einem der vorhergehenden Ansprüche, wobei der Filterungsschritt (a) ein Kurzzeitfiltern (320) unter Verwendung eines von einem Allnull-Filter, einem Allpol-Filter und einem Pol-Null-Filter umfasst.
  7. Verfahren (500) nach einem der vorhergehenden Ansprüche, wobei der Filterungsschritt (a) ein Langzeitfiltern (310) unter Verwendung eines von einem Allnull-Filter, einem Allpol-Filter und einem Pol-Null-Filter umfasst.
  8. Vorrichtung zur Verarbeitung eines decodierten Sprach-DS-Signals, wobei das DS-Signal aufeinanderfolgende DS-Rahmen umfasst, wobei jeder DS-Rahmen DS-Abtastwerte umfasst, mit: (a) einem adaptiven Filter, das so konfiguriert ist, dass es das DS-Signal adaptiv filtert, um ein gefiltertes Signal zu erzeugen, wobei das Filter so konfiguriert ist, dass es einen Anfangsabschnitt eines aktuellen DS-Rahmens unter Verwendung eines aktuellen Satzes von Filterkoeffizienten filtert, um einen ersten gefilterten Rahmenabschnitt (sg(n)) zu erzeugen; (b) einem Verstärkungsskalierer (320), der so konfiguriert ist, dass er das gefilterte Signal mit einer adaptiven Verstärkung verstärkungsskaliert, die einmal pro DS-Rahmen aktualisiert wird, wobei der Verstärkungsskalierer (340) so konfiguriert ist, dass er den ersten gefilterten Rahmenabschnitt (sg(n)) unter Verwendung einer aktuellen Verstärkung skaliert, um einen ersten verstärkungsskalierten Rahmenabschnitt zu erzeugen; (c) einem Modul, das so konfiguriert ist, dass es eine Glättungsoperation durchführt, um mögliche Wellenformdiskontinuitäten in dem verstärkungsskalierten Signal an der Grenze zwischen dem aktuellen und dem vorhergehenden DS-Rahmen zu glätten, wobei das Modul eine Einrichtung zur Durchführung der Glättungsoperation und eine Einrichtung zur Filterung und Verstärkungsskalierung des Anfangsabschnitts des aktuellen DS-Rahmens, die jeweils den Satz von Filterkoeffizienten und die Verstärkung des DS-Rahmens verwendet, um einen zweiten verstärkungsskalierten Abschnitt zu erzeugen, und eine Einrichtung zur Modifizierung des ersten verstärkungsskalierten Rahmenabschnitts mit dem zweiten verstärkungsskalierten Rahmenabschnitt umfasst, um so eine mögliche Wellenformdiskontinuität an der Grenze zwischen dem vorhergehenden DS-Rahmen und dem aktuellen DS-Rahmen zu glätten, dadurch gekennzeichnet, dass der Verstärkungsskalierer einen Verstärkungsfaktor als
    Figure 00350001
    berechnet und verwendet, wobei N die Anzahl an Signalabtastwerten in einem Rahmen ist, s ~(n) den n-ten Abtastwert des decodierten Sprachsignals (s ~(n)) bezeichnet, ss(n) den n-ten Abtastwert des nachgefilterten Sprachsignals (ss(n)) bezeichnet, und wobei der Zeitindex n = 1, 2, ..., N jeweils dem früheren Rahmen entspricht, wenn der frühere Satz von Filterkoeffizienten verwendet wird, und dem aktuellen Rahmen entspricht, wenn der aktuelle Satz von Filterkoeffizienten verwendet wird.
  9. Vorrichtung nach Anspruch 8, wobei die Einrichtung von (c) des Weiteren eine Einrichtung (350) zur Durchführung einer Overlap-Add-Operation auf der Basis der verstärkungsskalierten Signalrahmenabschnitte umfasst.
  10. Vorrichtung nach Anspruch 9, wobei die Einrichtung von (c) des Weiteren eine Einrichtung zur Gewichtung der ersten und zweiten Rahmenabschnitte mit einer Gewichtungsfunktion, wobei die Gewichtungsfunktion eine von einer Dreiecksfunktion und einer Kosinusquadratfunktion ist, und des Weiteren eine Einrichtung (450) zur Addierung der ersten und zweiten Rahmenabschnitte umfasst.
  11. Vorrichtung nach einem der vorhergehenden Ansprüche 8 bis 10, wobei das Filter wenigstens eines von einem Langzeitfilter (310) und einem Kurzzeitfilter (320) umfasst.
  12. Vorrichtung nach einem der vorhergehenden Ansprüche 8 bis 11, wobei das Filter des Weiteren eines von einem Langzeitfilter (310), gefolgt von einem Kurzzeitfilter (320), und einem Kurzzeitfilter (320), gefolgt von einem Langzeitfilter (310) umfasst.
  13. Vorrichtung nach einem der vorhergehenden Ansprüche 8 bis 12, wobei das Filter ein Kurzzeitfilter (320) umfasst, das eine von einer Allnull-Filtercharakteristik, einer Allpol-Filtercharakteristik und einer Pol-Null-Filtercharakteristik aufweist.
  14. Vorrichtung nach einem der vorhergehenden Ansprüche 8 bis 13, wobei das Filter ein Langzeitfilter (310) umfasst, das eine von einer Allnull-Filtercharakteristik, einer Allpol-Filtercharakteristik und einer Pol-Null-Filtercharakteristik aufweist.
  15. Computerprogramm mit einem Code, welcher eine programmierbare Vorrichtung veranlasst, das Verfahren nach einem der vorhergehenden Ansprüche 1 bis 7 durchzuführen.
DE60225400T 2001-10-03 2002-10-03 Verfahren und Vorrichtung zur Verarbeitung eines dekodierten Sprachsignals Expired - Lifetime DE60225400T2 (de)

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
US183554 1998-10-29
US32644901P 2001-10-03 2001-10-03
US326449P 2001-10-03
US183418 2002-06-28
US10/183,554 US7512535B2 (en) 2001-10-03 2002-06-28 Adaptive postfiltering methods and systems for decoding speech
US10/183,418 US7353168B2 (en) 2001-10-03 2002-06-28 Method and apparatus to eliminate discontinuities in adaptively filtered signals
US10/215,048 US8032363B2 (en) 2001-10-03 2002-08-09 Adaptive postfiltering methods and systems for decoding speech
US215048 2002-08-09

Publications (2)

Publication Number Publication Date
DE60225400D1 DE60225400D1 (de) 2008-04-17
DE60225400T2 true DE60225400T2 (de) 2009-02-26

Family

ID=26909634

Family Applications (3)

Application Number Title Priority Date Filing Date
DE60209861T Expired - Lifetime DE60209861T2 (de) 2001-10-03 2002-10-03 Adaptive Postfilterung zur Sprachdekodierung
DE60214814T Expired - Lifetime DE60214814T2 (de) 2001-10-03 2002-10-03 Verfahren und Vorrichtung zur Beseitigung von Diskontinuitäten eines adaptiv gefilterten Signals
DE60225400T Expired - Lifetime DE60225400T2 (de) 2001-10-03 2002-10-03 Verfahren und Vorrichtung zur Verarbeitung eines dekodierten Sprachsignals

Family Applications Before (2)

Application Number Title Priority Date Filing Date
DE60209861T Expired - Lifetime DE60209861T2 (de) 2001-10-03 2002-10-03 Adaptive Postfilterung zur Sprachdekodierung
DE60214814T Expired - Lifetime DE60214814T2 (de) 2001-10-03 2002-10-03 Verfahren und Vorrichtung zur Beseitigung von Diskontinuitäten eines adaptiv gefilterten Signals

Country Status (3)

Country Link
US (3) US7512535B2 (de)
EP (3) EP1308932B1 (de)
DE (3) DE60209861T2 (de)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7047190B1 (en) * 1999-04-19 2006-05-16 At&Tcorp. Method and apparatus for performing packet loss or frame erasure concealment
US7117156B1 (en) 1999-04-19 2006-10-03 At&T Corp. Method and apparatus for performing packet loss or frame erasure concealment
US7512535B2 (en) * 2001-10-03 2009-03-31 Broadcom Corporation Adaptive postfiltering methods and systems for decoding speech
EP1383110A1 (de) * 2002-07-17 2004-01-21 STMicroelectronics N.V. Verfahren und Vorrichtung für Breitbandsprachkodierung, insbesondere mit einer verbesserten Qualität der stimmhaften Rahmen
US7478040B2 (en) * 2003-10-24 2009-01-13 Broadcom Corporation Method for adaptive filtering
US8473286B2 (en) * 2004-02-26 2013-06-25 Broadcom Corporation Noise feedback coding system and method for providing generalized noise shaping within a simple filter structure
WO2006052596A2 (en) * 2004-11-05 2006-05-18 Interdigital Technology Corporation Adaptive equalizer with a dual-mode active taps mask generator and a pilot reference signal amplitude control unit
US7707034B2 (en) * 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
US7831421B2 (en) * 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
US20070299655A1 (en) * 2006-06-22 2007-12-27 Nokia Corporation Method, Apparatus and Computer Program Product for Providing Low Frequency Expansion of Speech
JP5096468B2 (ja) * 2006-08-15 2012-12-12 ドルビー ラボラトリーズ ライセンシング コーポレイション サイド情報なしの時間的ノイズエンベロープの自由な整形
US8239191B2 (en) * 2006-09-15 2012-08-07 Panasonic Corporation Speech encoding apparatus and speech encoding method
US8005671B2 (en) * 2006-12-04 2011-08-23 Qualcomm Incorporated Systems and methods for dynamic normalization to reduce loss in precision for low-level signals
JPWO2008072701A1 (ja) * 2006-12-13 2010-04-02 パナソニック株式会社 ポストフィルタおよびフィルタリング方法
CN101622666B (zh) * 2007-03-02 2012-08-15 艾利森电话股份有限公司 非因果后置滤波器
PL2118889T3 (pl) * 2007-03-05 2013-03-29 Ericsson Telefon Ab L M Sposób i sterownik do wygładzania stacjonarnego szumu tła
CN101303858B (zh) * 2007-05-11 2011-06-01 华为技术有限公司 实现基音增强后处理的方法及装置
CN101308655B (zh) * 2007-05-16 2011-07-06 展讯通信(上海)有限公司 一种音频编解码方法与装置
US7826572B2 (en) * 2007-06-13 2010-11-02 Texas Instruments Incorporated Dynamic optimization of overlap-and-add length
WO2009002245A1 (en) * 2007-06-27 2008-12-31 Telefonaktiebolaget Lm Ericsson (Publ) Method and arrangement for enhancing spatial audio signals
JP5326311B2 (ja) * 2008-03-19 2013-10-30 沖電気工業株式会社 音声帯域拡張装置、方法及びプログラム、並びに、音声通信装置
CN101483495B (zh) * 2008-03-20 2012-02-15 华为技术有限公司 一种背景噪声生成方法以及噪声处理装置
US9197181B2 (en) * 2008-05-12 2015-11-24 Broadcom Corporation Loudness enhancement system and method
US8645129B2 (en) * 2008-05-12 2014-02-04 Broadcom Corporation Integrated speech intelligibility enhancement system and acoustic echo canceller
JP4735711B2 (ja) * 2008-12-17 2011-07-27 ソニー株式会社 情報符号化装置
CA3160488C (en) * 2010-07-02 2023-09-05 Dolby International Ab Audio decoding with selective post filtering
WO2013066238A2 (en) * 2011-11-02 2013-05-10 Telefonaktiebolaget L M Ericsson (Publ) Generation of a high band extension of a bandwidth extended audio signal
CN102930872A (zh) * 2012-11-05 2013-02-13 深圳广晟信源技术有限公司 用于宽带语音解码中基音增强后处理的方法及装置
FR3008533A1 (fr) * 2013-07-12 2015-01-16 Orange Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences
EP2980796A1 (de) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zur Verarbeitung eines Audiosignals, Audiodecodierer und Audiocodierer
CN110444219B (zh) 2014-07-28 2023-06-13 弗劳恩霍夫应用研究促进协会 选择第一编码演算法或第二编码演算法的装置与方法
EP3483878A1 (de) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiodecoder mit auswahlfunktion für unterschiedliche verlustmaskierungswerkzeuge
EP3483882A1 (de) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Steuerung der bandbreite in codierern und/oder decodierern
EP3483886A1 (de) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Auswahl einer grundfrequenz
EP3483884A1 (de) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signalfiltrierung
EP3483880A1 (de) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Zeitliche rauschformung
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483883A1 (de) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiokodierung und -dekodierung mit selektiver nachfilterung
EP3483879A1 (de) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analyse-/synthese-fensterfunktion für modulierte geläppte transformation

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL8400728A (nl) * 1984-03-07 1985-10-01 Philips Nv Digitale spraakcoder met basisband residucodering.
US4617676A (en) * 1984-09-04 1986-10-14 At&T Bell Laboratories Predictive communication system filtering arrangement
US4969192A (en) * 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
US5241650A (en) * 1989-10-17 1993-08-31 Motorola, Inc. Digital speech decoder having a postfilter with reduced spectral distortion
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
US5615298A (en) * 1994-03-14 1997-03-25 Lucent Technologies Inc. Excitation signal synthesis during frame erasure or packet loss
US5574825A (en) * 1994-03-14 1996-11-12 Lucent Technologies Inc. Linear prediction coefficient generation during frame erasure or packet loss
EP0732687B2 (de) 1995-03-13 2005-10-12 Matsushita Electric Industrial Co., Ltd. Vorrichtung zur Erweiterung der Sprachbandbreite
US5664055A (en) * 1995-06-07 1997-09-02 Lucent Technologies Inc. CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity
US5699485A (en) * 1995-06-07 1997-12-16 Lucent Technologies Inc. Pitch delay modification during frame erasures
US5699458A (en) * 1995-06-29 1997-12-16 Intel Corporation Efficient browsing of encoded images
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US5864798A (en) * 1995-09-18 1999-01-26 Kabushiki Kaisha Toshiba Method and apparatus for adjusting a spectrum shape of a speech signal
CA2185745C (en) * 1995-09-19 2001-02-13 Juin-Hwey Chen Synthesis of speech signals in the absence of coded parameters
JP3680380B2 (ja) * 1995-10-26 2005-08-10 ソニー株式会社 音声符号化方法及び装置
TW321810B (de) * 1995-10-26 1997-12-01 Sony Co Ltd
JP3653826B2 (ja) * 1995-10-26 2005-06-02 ソニー株式会社 音声復号化方法及び装置
US5867814A (en) * 1995-11-17 1999-02-02 National Semiconductor Corporation Speech coder that utilizes correlation maximization to achieve fast excitation coding, and associated coding method
AU3702497A (en) * 1996-07-30 1998-02-20 British Telecommunications Public Limited Company Speech coding
US6269331B1 (en) * 1996-11-14 2001-07-31 Nokia Mobile Phones Limited Transmission of comfort noise parameters during discontinuous transmission
TW326070B (en) * 1996-12-19 1998-02-01 Holtek Microelectronics Inc The estimation method of the impulse gain for coding vocoder
GB2326572A (en) * 1997-06-19 1998-12-23 Softsound Limited Low bit rate audio coder and decoder
US6073092A (en) * 1997-06-26 2000-06-06 Telogy Networks, Inc. Method for speech coding based on a code excited linear prediction (CELP) model
FI980132A (fi) * 1998-01-21 1999-07-22 Nokia Mobile Phones Ltd Adaptoituva jälkisuodatin
US6078880A (en) * 1998-07-13 2000-06-20 Lockheed Martin Corporation Speech coding system and method including voicing cut off frequency analyzer
US6094629A (en) * 1998-07-13 2000-07-25 Lockheed Martin Corp. Speech coding system and method including spectral quantizer
US6173255B1 (en) * 1998-08-18 2001-01-09 Lockheed Martin Corporation Synchronized overlap add voice processing using windows and one bit correlators
US6449590B1 (en) * 1998-08-24 2002-09-10 Conexant Systems, Inc. Speech encoder using warping in long term preprocessing
US6104992A (en) * 1998-08-24 2000-08-15 Conexant Systems, Inc. Adaptive gain reduction to produce fixed codebook target signal
US6330533B2 (en) * 1998-08-24 2001-12-11 Conexant Systems, Inc. Speech encoder adaptively applying pitch preprocessing with warping of target signal
US6507814B1 (en) * 1998-08-24 2003-01-14 Conexant Systems, Inc. Pitch determination using speech classification and prior pitch estimation
US6480822B2 (en) * 1998-08-24 2002-11-12 Conexant Systems, Inc. Low complexity random codebook structure
US6385573B1 (en) * 1998-08-24 2002-05-07 Conexant Systems, Inc. Adaptive tilt compensation for synthesized speech residual
GB2342829B (en) * 1998-10-13 2003-03-26 Nokia Mobile Phones Ltd Postfilter
US6691092B1 (en) * 1999-04-05 2004-02-10 Hughes Electronics Corporation Voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system
US6826527B1 (en) * 1999-11-23 2004-11-30 Texas Instruments Incorporated Concealment of frame erasures and method
US6665638B1 (en) * 2000-04-17 2003-12-16 At&T Corp. Adaptive short-term post-filters for speech coders
US6584438B1 (en) * 2000-04-24 2003-06-24 Qualcomm Incorporated Frame erasure compensation method in a variable rate speech coder
US6842733B1 (en) * 2000-09-15 2005-01-11 Mindspeed Technologies, Inc. Signal processing system for filtering spectral content of a signal for speech coding
ATE439666T1 (de) * 2001-02-27 2009-08-15 Texas Instruments Inc Verschleierungsverfahren bei verlust von sprachrahmen und dekoder dafer
US7512535B2 (en) 2001-10-03 2009-03-31 Broadcom Corporation Adaptive postfiltering methods and systems for decoding speech

Also Published As

Publication number Publication date
US7353168B2 (en) 2008-04-01
EP1315150B1 (de) 2006-03-15
EP1308932A3 (de) 2004-07-21
DE60214814D1 (de) 2006-11-02
US20030088406A1 (en) 2003-05-08
EP1308932A2 (de) 2003-05-07
EP1315149A3 (de) 2004-07-14
US7512535B2 (en) 2009-03-31
US20030088405A1 (en) 2003-05-08
EP1315150A3 (de) 2004-07-21
DE60214814T2 (de) 2007-09-20
DE60225400D1 (de) 2008-04-17
DE60209861T2 (de) 2007-02-22
US20030088408A1 (en) 2003-05-08
EP1315150A2 (de) 2003-05-28
EP1315149A2 (de) 2003-05-28
DE60209861D1 (de) 2006-05-11
EP1308932B1 (de) 2008-03-05
EP1315149B1 (de) 2006-09-20
US8032363B2 (en) 2011-10-04

Similar Documents

Publication Publication Date Title
DE60225400T2 (de) Verfahren und Vorrichtung zur Verarbeitung eines dekodierten Sprachsignals
DE60006271T2 (de) Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung
DE602004006211T2 (de) Verfahren zur Maskierung von Paketverlusten und/oder Rahmenausfall in einem Kommunikationssystem
DE69527410T2 (de) CELP-Koder und -Dekoder und Verfahren dazu
DE60029990T2 (de) Glättung des verstärkungsfaktors in breitbandsprach- und audio-signal dekodierer
DE69123500T2 (de) 32 Kb/s codeangeregte prädiktive Codierung mit niedrigen Verzögerung für Breitband-Sprachsignal
DE69317958T2 (de) Kodierer von Audiosignalen mit niedriger Verzögerung, unter Verwendung von Analyse-durch-Synthese-Techniken
DE69634645T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE4237563C2 (de) Verfahren zum Synthetisieren von Sprache
DE60218385T2 (de) Nachfilterung von kodierter Sprache im Frequenzbereich
DE60024501T2 (de) Verbesserung der perzeptuellen Qualität von SBR (Spektralbandreplikation) UND HFR (Hochfrequenzen-Rekonstruktion) Kodierverfahren mittels adaptivem Addieren von Grundrauschen und Begrenzung der Rauschsubstitution
DE4492048C2 (de) Vektorquantisierungs-Verfahren
DE60219351T2 (de) Signaländerungsverfahren zur effizienten kodierung von sprachsignalen
DE69916321T2 (de) Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen
DE60117144T2 (de) Sprachübertragungssystem und verfahren zur behandlung verlorener datenrahmen
DE3244476C2 (de)
DE10041512B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE69614752T2 (de) Vorrichtung und Verfahren zur Sprachkodierung unter Verwendung eines Filters zur Verbesserung der Signalqualität
DE60128121T2 (de) Wahrnehmungsbezogen verbesserte aufbesserung kodierter akustischer signale
DE69730779T2 (de) Verbesserungen bei oder in Bezug auf Sprachkodierung
EP0076234A1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
DE69420183T2 (de) Verfahren und Vorrichtung zur Sprachkodierung und Sprachdekodierung und Sprachnachverarbeitung
DE69329569T2 (de) Digitale Kodierung von Sprachsignalen
DE60224962T2 (de) Verfahren und Vorrichtung zur Verschleierung von fehlerbehafteten Sprachrahmen
DE69720861T2 (de) Verfahren zur Tonsynthese

Legal Events

Date Code Title Description
8364 No opposition during term of opposition