DE69123500T2 - 32 Kb/s codeangeregte prädiktive Codierung mit niedrigen Verzögerung für Breitband-Sprachsignal - Google Patents

32 Kb/s codeangeregte prädiktive Codierung mit niedrigen Verzögerung für Breitband-Sprachsignal

Info

Publication number
DE69123500T2
DE69123500T2 DE69123500T DE69123500T DE69123500T2 DE 69123500 T2 DE69123500 T2 DE 69123500T2 DE 69123500 T DE69123500 T DE 69123500T DE 69123500 T DE69123500 T DE 69123500T DE 69123500 T2 DE69123500 T2 DE 69123500T2
Authority
DE
Germany
Prior art keywords
filter
weighting
parameters
coding
celp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69123500T
Other languages
English (en)
Other versions
DE69123500D1 (de
Inventor
Erik Ordentlich
Yair Shoham
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Publication of DE69123500D1 publication Critical patent/DE69123500D1/de
Application granted granted Critical
Publication of DE69123500T2 publication Critical patent/DE69123500T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

    Erfindungsgebiet
  • Die vorliegende Erfindung betrifft Verfahren und Einrichtungen zur wirkungsvollen Codierung und Decodierung von Signalen einschließlich von Sprachsignalen. Insbesondere betrifft die vorliegende Erfindung Verfahren und Einrichtungen zur Codierung und Decodierung von klanggetreuen Sprachsignalen. Weiterhin betrifft die vorliegende Erfindung insbesondere digitale Kommunikationssysteme einschließlich derer, die ISDN-Dienste anbieten, bei denen diese Codierer und Decodierer zum Einsatz kommen.
  • Stand der Technik
  • In jüngsten Jahren sind viele Verbesserungen bei der Codierung und Decodierung für digitale Kommunikationssysteme erschienen. Unter Verwendung von Verfahren wie beispielsweise der linearen Prädiktionscodierung sind bedeutende Verbesserungen der Qualität wiedergegebener Signale mit verringerten Bitraten erreicht worden.
  • Ein Bereich dieser Verbesserungen trägt die Bezeichnung lineare Prädiktionscodierer mit Codeanregung (CELP - code excited linear predictive coders) und ist beispielsweise beschrieben von B. S. Atal und M. R. Schroeder, "Stochastic Coding of Speech Signals at Very Low Bit Rates" (Stochastische Codierung von Sprachsignalen mit sehr niedrigen Bitraten), Proc. IEEE Int. Conf. Comm., Mai 1984, Seite 48.1; M . R. Schroeder und B. S. Atal, "Code-Excited Linear Predictive (CELP): High Quality Speech at Very Low Bit Rates" (Lineare Prädiktionscodierung mit Codeanregung (CELP): klanggetreue Sprache mit sehr niedrigen Bitraten), Proc. IEEE Int. Conf. ASSP., 1985, Seiten 937-940; P. Kroon und E. F. Deprettere "A Class of Analysis-by-Synthesis Predictive Coders for High-Quality Speech Coding at Rate Between 4.8 and 16 kB/s" (Eine Klasse von Prädiktions codierern mit Analyse durch Synthese für klanggetreue Sprachcodierung mit Raten zwischen 4,8 und 16 kB/s), IEEE J. on Sel. Area in Comm SAC-6(2), Februar 1988, Seiten 353-363, und dem oben angeführten US-Patent 4 827 517. Diese Verfahren haben beispielsweise in Fernsprechkanälen mit Sprachbandbreite einschließlich von Mobilfunkkanälen Anwendung gefunden.
  • Die Aussicht auf klanggetreue Mehrkanal-/Mehrbenutzer-Sprachkommunikation über das entstehende ISDN hat das Interesse an fortgeschrittenen Codieralgorithmen für Breitbandsprache gesteigert. Im Gegensatz zum standardmäßigen Fernsprechband von 200 bis 3400 Hz ist der Breitbandsprache das Band von 50 bis 7000 Hz zugewiesen und wird für die digitale Weiterverarbeitung mit einer Rate von 16000 Hz abgetastet. Die zusätzlichen niedrigen Frequenzen erhöhen die Natürlichkeit der Sprache und verstärken das Gefühl der Nähe, während die zusätzlichen hohen- Frequenzen die Sprache klarer und verständlicher klingen lassen. Die Gesamtqualität von Breitbandsprache nach der obigen Definition genügt für eine andauernde Sprachkommunikation mit Kommentargüte so wie sie beispielsweise bei der Mehrbenutzer-Audio/Videokonferenz erforderlich ist. Breitbandsprache ist jedoch schwieriger zu codieren, da die Daten auf hohen Frequenzen sehr unstrukturiert sind und die spektrale Dynamik sehr hoch ist. In manchen Netzanwendungen besteht auch ein Erfordernis einer kurzen Codierverzögerung, die die Größe des Verarbeitungsrahmens begrenzt und die Wirksamkeit des Codieralgorithmus verringert. Damit wird der Schwierigkeit dieses Codierproblems eine weitere Dimension hinzugefügt.
  • Zusammenfassung der Erfindung
  • Wenn die gutbekannten CELP-Codierer und -Decodierer auf die Kommunikation von Breitband-Sprachinformationen (z.B im Frequenzbereich 50 bis 7000 Hz) angewandt werden, werden viele ihrer Vorteile nicht vollständig realisiert. Die vorliegende Erfindung versucht in typischen Ausführungsformen, bestehende CELP-Verfahren so anzupassen, daß sie sich auf die Kommunikation solcher Breitband-Sprach- und anderer derartiger Signale erstrecken.
  • Insbesondere bieten die beispielhaften Ausführungsformen der vorliegenden Erfindung die geänderte Gewichtung von Eingangssignalen zur Verstärkung der relativen Höhe der Signalenergie im Verhältnis zur Geräuschenergie als Funktion der Frequenz. Zusätzlich wird die spektrale Gesamtschräge der Gewichtungsfilterkennlinie vorteilhafterweise von der Bestimmung des Verlaufs bei bestimmten Frequenzen, die z.B. Formanten entsprechen, abgekuppelt.
  • Während CELP-Codierer des Standes der Technik ein Gewichtungsfilter benutzen, das hauptsächlich auf dem Formanteninhalt basiert, erweist es sich daher entsprechend einer Lehre der vorliegenden Erfindung als vorteilhaft, eine Kaskade eines Gewichtungsfilters des Standes der Technik und eines zusätzlichen Filtergliedes zur Steuerung der spektralen Schräge des zusammengesetzten Gewichtungsfilters zu benutzen.
  • Kurze Beschreibung der Zeichnung
  • Figur 1 zeigt ein digitales Kommunikationssystem mit der vorliegenden Erfindung.
  • Figur 2 zeigt eine Modifikation des Systems nach Figur 1 entsprechend der Ausführungsform der vorliegenden Erfindung.
  • Figur 3 zeigt einen geänderten Frequenzgang, der sich aus der Anwendung einer typischen Ausführungsform der vorliegenden Erfindung ergibt.
  • Ausführliche Beschreibung
  • In Figur 1 ist die Grundstruktur herkömmlicher CELP (beispielsweise nach der Beschreibung in den oben angeführten Schriften) dargestellt.
  • Gezeigt ist der Senderteil oben in der Figur, der Empfängerteil unten und die verschiedenen Parameter (j, g, M, β und A), die über einen Kommunikationskanal 50 übertragen werden. CELP beruht auf dem klassischen Anregungsfiltermodell, bei dem ein aus einer Anregungscodetabelle 10 entzogenes Anregungssignal als Eingabe in ein Allpolfilter benutzt wird, das gewöhnlich eine Kaskade eines LPC-abgeleiteten Filters 1/A(z) (20 in der Figur 1) und eines sogenannten Tonhöhenfilters 1/B(z) 30 ist. Das LPC-Polynom ist durch A(z) =
  • gegeben und wird durch eine standardmäßige LPC Analyse Mter Ordnung des Sprachsignais erhalten. Das Tonhöhenfilter wird durch das Polynom B(z) =
  • bestimmt, wobei P die aktuelle "Tonhöhen-"Nacheilung ist - ein Wert, der am besten die aktuelle Periodizität der Eingabe darstellt, und bj die aktuellen Tonhöhenanzapfungen sind. Die Ordnung des Tonhöhenfilters ist am häufigsten q = 1 und ist selten höher als 3. Die beiden Polynome A(z), B(z) sind monomorph.
  • Der CELP-Algorithmus implementiert ein Suchverfahren mit geschlossener Schleife (Analyse durch Synthese) zum Finden der besten Anregung und möglicherweise der besten Tonhöhenparameter. In der Anregungssuchschleife wird jeder der Anregungsvektoren durch das LPC- und das Tonhöhenfilter durchgeführt, in einer Bemühung, die beste Paarigkeit (nach Bestimmung durch Vergleicher und Minimierschaltung 41) mit der Ausgabe zu finden, gewöhnlich im Sinne eines gewichteten mittleren Fehlerquadrats (WMSE - weighted mean-squared error). Nach der Figur 1 wird die WMSE-Anpassung durch Verwendung eines Rauschgewichtungsfilters W(z) 35 erreicht. Die Eingangssprache s(n) wird erst von W(z) vorgefiltert und das sich ergebende Signal x(n) (X(z) = S(z) W(z)) dient als Bezugssignal in der Suche in geschlossener Schleife. Die quantisierte Version von x(n), die durch y(n) bezeichnet wird, ist eine gefilterte Anregung, die x(n) in einem MSE-Sinn am nächsten ist. Das in der Suchschleife benutzte Filter ist das gewichtete Synthesefilter H(z) = W(z)/[B(z) A(z)]. Man beachte jedoch, daß das quantisierte Endsignal am Ausgang des ungewichteten Synthesefilters 1/ erhalten wird, was bedeutet, daß W(z) vom Empfänger nicht zur Synthetisierung der Ausgabe benutzt wird. Im wesentlichen (aber nicht streng genommen) minimiert diese Schleife den WMSE zwischen der Eingabe und der Ausgabe, nämlich den MSE des Signals (S(z) - (z)) W(z).
  • Das Filter W(z) ist zum Erreichen einer hohen perzeptorischen Güte in CELP-Systemen von Bedeutung und spielt eine zentrale Rolle in dem hier dargestellten CELP-basierenden Breitbandcodierer, wie noch erläutert wird.
  • Die Suche in geschlossener Schleife nach den besten Tonhöhenparametern findet gewöhnlich durch Durchgabe von Segmenten vergangener Anregung durch das gewichtete Filter und Optimierung von B(z) auf minimalen WMSE in Bezug auf das Zielsignal X(z) statt. Der Suchalgorithmus wird noch ausführlicher beschrieben.
  • Nach der Figur 1 sind die Codetabelleneinträge durch einen an die Skalierschaltung 15 angelegten Verstärkungsfaktor g skaliert. Diese Verstärkung kann entweder explizit optimiert und übertragen werden (Vorwärtsmodus) oder kann von vorher quantisierten Daten erhalten werden (Rückwärtsmodus). Eine Kombination der Vorwärts- und Rückwärtsmoden wird ebenfalls manchmal benutzt (man sehe z.B. den Vorschlag von AT&T für den CCITT-Standard für 16 kB/s-Sprachcodierung COM N Nr. 2., STUDY GROUP N, "Description of 16 kB/s Low-Delay Code-excited Linear Predictive Coding (LD-CELP) Algorithm" (Beschreibung des 16-kB/s-Algorithmus für lineare Prädiktionscodierung mit Codeanregung und niedriger Laufzeit), März 1989).
  • Im allgemeinen codiert und überträgt der CELP-Sender die folgenden fünf Instanzen: den Anregungsvektor (j), die Anregungsverstärkung (g), die Tonhöhennacheilung (p), die Tonhöhenanzapfung(en) (β) und die LPC-Parameter (A). Die Gesamt-Übertragungsbitrate wird durch die Summe aller zur Codierung dieser Instanzen erforderlichen Bit bestimmt. Die übertragenen Informationen werden auf gutbekannte Weise am Empfänger zur Wiedergewinnung der ursprünglichen Eingangsinformationen benutzt.
  • Der CELP ist ein vorwärtsschauender Codierer und muß in seinem Speicher einen Block uzukünftigern Abtastwerte aufweisen, um den aktuellen Abtastwert zu verarbeiten, wodurch natürlich eine Codierverzögerung erzeugt wird. Die Größe dieses Blocks ist von der spezifischen Struktur des Codierers abhängig. Im allgemeinen benötigen unterschiedliche Teile des Codieralgorithmus gegebenenfalls zukünftige Blöcke unterschiedlicher Größe. Der kleinste Block von Abtastwerten der unmittelbaren Zukunft wird gewöhnlich durch den Codetabellensuchalgorithmus benötigt und gleicht der Codevektorabmessung. Die Tonhöhenschleife benötigt u.U. eine längere Blockgröße je nach der Aktualisierungsrate der Tonhöhenparameter. Bei einem herkömmlichen CELP wird die längste Blocklänge durch den LPC-Analysator bestimmt, der gewöhnlich ca. 20 msec an zukünftigen Daten benötigt. Die sich ergebende lange Codierverzögerung der herkömmlichen CELP ist daher in manchen Anwendungen unannehmbar. Dadurch wurde die Entwicklung des CELP-Algorithmus mit kurzer Verzögerung (LD-CELP - Low-Delay CELP) motiviert (siehe auch den oben angeführten Vorschlag von AT&T für den 16-kB/s-Sprachcodierstandard des CCITT).
  • Die CELP mit kurzer Verzögerung leitet ihren Namen aus der Tatsache ab, daß sie die kürzestmögliche Blocklänge - die Vektorabmessung - benutzt. Anders gesagt dürfen die Tonhöhen- und LPC-Analysatoren keine Daten jenseits dieser Grenze benutzen. So entspricht die Grund- Codierverzögerungseinheit der Vektorgröße mit nur wenigen Abtastwerten (zwischen 5 bis 10 Abtastwerten). Der LPC- Analysator braucht typischerweise einen viel längeren Datenblock als die Vektorabmessung. Bei LD-CELP kann daher die LPC-Analyse an einem hinreichend langen Block der jüngsten vergangenen Daten zuzüglich (möglicherweise) der verfügbaren neuen Daten durchgeführt werden. Man beachte jedoch, daß eine codierte Version der vergangenen Daten sowohl am Empfänger als auch am Sender verfügbar ist. Das legt einen äußerst wirksamen Codiermodus nahe, der rückwärts adaptive Codierung genannt wird. In dieser Betriebsart kopiert der Empfänger die LPC-Analyse des Senders unter Verwendung derselben quantisierten vergangenen Daten und erzeugt die LPC-Parameter lokal. Es werden keine LPC-Informationen übertragen und die eingesparten Bit werden der Anregung zugewiesen. Das wiederum trägt dazu bei, die Codierverzögerung weiter zu verringern, da das Vorhandensein von mehr Bit für die Anregung die Verwendung kürzerer Eingangsblöcke erlaubt. Dieser Codiermodus ist jedoch für den Pegel des Quantisierungsrauschens empfindlich. Rauschen mit hohem Pegel beeinträchtigt die Güte der LPC-Analyse und mindert den Codier-Wirkungsgrad. Das Verfahren ist daher nicht auf Codierer mit niedriger Rate anwendbar. Es ist erfolgreich in 16-kB/s-LD-CELP-Systemen angewandt worden (siehe oben angeführten Vorschlag von AT&T für den 16-kB/s-Sprachcodierstandard des CCITT), aber nicht so erfolgreich bei niedrigeren Raten.
  • Wenn die Rückwärts-LPC-Analyse aufgrund übermäßigen Rauschens unwirksam wird, kann innerhalb der Struktur von LD-CELP eine Vorwärts-LPC-Analyse eingesetzt werden. In dieser Betriebsart wird die LPC-Analyse an einem sauberen vergangenen Signal durchgeführt und dem Empfänger LPC-Informationen zugesandt. Vorwärts- und kombinierte Vorwärts-Rückwärts-LD-CELP-Systeme werden gegenwärtig untersucht.
  • Die Tonhöhenanalyse kann auch in einem Rückwärtsmodus unter Verwendung von nur vergangenen quantisierten Daten durchgeführt werden. Es hat sich jedoch herausgestellt, daß diese Analyse äußerst empfindlich für Kanalfehler ist, die nur am Empfänger erscheinen und eine Fehlanpassung zwischen Sender und Empfänger verursachen. So wird bei LD-CELP das Tonhöhenfilter B(z) entweder vollständig vermieden oder wird in einem kombinierten Rückwärts-Vorwärtsmodus implementiert, bei dem einige Informationen über die Tonhöhenverzögerung und/oder Tonhöhenanzapfung zum Empfänger gesandt werden.
  • Die hier vorgeschlagene LD-CELP zur Codierung von Breitbandsprache mit 32 kB/s verwendet vorteilhafterweise Rückwrts-LPC. Zwei Versionen des Codierers werden noch ausführlicher unten beschrieben. Der erste enthält eine Vorwärts-Tonhöhenschleife und der zweite benutzt überhaupt keine Tonhöhenschleife. Die allgemeine Struktur des Codierers ist die der Figur 1 ausschließlich der Übertragung der LPC-Informationen. Auch ist bei unbenutzter Tonhöhenschleife B(z) - 1 und die Tonhöheninformationen werden nicht übertragen. Die algorithmischen Einzelheiten des Codierers werden unten gegeben.
  • Ein Grundergebnis bei der MSE-Wellenformcodierung besteht darin, daß das Quantisierungsrauschen an der Minimierungsstelle ein flaches Spektrum aufweist, nämlich das Differenzsignal zwischen Ausgabe und Ziel weiß ist. Andererseits ist das Eingangssprachsignal nicht weiß und weist aufgrund der Formantenstruktur und dem Hochfrequenzabfall eine breite Spektraldynamik auf. Als Ergebnis ist der Rauschabstand (SNR - signal-noise ratio) über den Frequenzbereich nicht gleichförmig. Der SNR ist an spektralen Spitzen hoch und in spektralen Tälern niedrig. Die spektralen Informationen mit niedriger Energie werden durch das Rauschen maskiert und es ergibt sich eine hörbare Verzerrung, es sei denn dem flachen Rauschen wird eine neue Form gegeben. Dieses Problem ist erkannt worden und im Zusammenhang mit CELP-Codierung von Sprache mit Fernsprechbandbreite adressiert worden (siehe "Predictive Coding of Speech Signals and Subjective Error Criteria" (Prädiktionscodierung von Sprachsignalen und subjektive Fehlerkriterien), IEEE Tr. ASSP, Band ASSP-27, Nr. 3, Juni 1979, Seiten 247-254). Die Lösung nahm die Form eines Rauschgewichtungsfilters an, der der CELP-Suchschleife wie in Figur 1 gezeigt hinzugefügt wurde. Die Standardform dieses Filters ist:
  • (1)
  • wobei A(z) das LPC-Polynom ist. Die Wirkung von g&sub1; oder g&sub2; besteht in der Verlegung der Wurzeln von A(z) zum Ursprung hin, wodurch die spektralen Spitzen von 1/A(z) verringert werden. Bei g&sub1; und g&sub2; wie in Gleichung (1) weist der Verlauf von W(z) Täler (Antiformanten) an den Formantenstellen auf und die Bereiche zwischen den Formanten werden betont. Zusätzlich wird die Höhe eines spektralen Gesamtabfalls im Vergleich zu der durch 1/A(z) gegebenen spektralen Hüllkurve von Sprache verringert.
  • Im CELP-System der Figur 1 ist das ungewichtete Fehlersignal E(z) = Y(z) - X(z) weiß, da dies das Signal ist, das wirklich minimiert wird. Das Endfehlersignal ist
  • (2)
  • und hat die spektrale Form von W&supmin;¹(z). Das bedeutet, daß das Rauschen nunmehr an den Formantenspitzen konzentriert ist und zwischen den Formanten abgedämpft ist. Der Gedanke hinter dieser Rauschformung ist die Ausnutzung der Maskierwirkung des Gehörs. Rauschen ist nicht so hörbar, wenn es dasselbe spektrale Band mit einem tonähnlichen Signal hohen Pegeis teilt. Aus diesem Effekt Kapital schlagend verbessert das Filter W(z) sehr die perzeptorische Qualität des CELP-Codierers.
  • Im Gegensatz zu dem standardmäßigen Fernsprechband von 200 bis 3400 Hz ist die hier betrachtete Breitbandsprache durch ein spektrales Band von 50 bis 7000 Hz gekennzeichnet. Die zusätzlichen niedrigen Frequenzen verbessern die Natürlichkeit und Echtheit der Sprachtöne. Die zusätzlichen hohen Frequenzen machen den Ton klarer und verständlicher. Das Signal wird für die digitale Verarbeitung durch das CELP-System mit 16 kllz abgetastet. Durch die höhere Abtastrate und die zusätzlichen niedrigen Frequenzen wird das Signal vorhersagbarer und die Gesamtprädiktionsverstärkung ist typischerweise auch höher als die der standardmäßigen Fernsprechsprache. Die spektrale Dynamik ist beträchtlich höher als die der Fernsprechsprache, bei der der zusätzliche Hochfrequenzbereich von 3400 bis 6000 Hz gewöhnlich am unteren Ende dieses Bereichs liegt. Auf Grundlage der Analyse im vorangehenden Teil ist es klar, daß, während die Codierung des niederfrequenten Gebiets leichter sein sollte, die Codierung des Hochfrequenzgebiets ein ernsthaftes Problem darstellt. In diesem Gebiet neigt der anfängliche ungewichtete spektrale Rauschabstand dazu, Behr negativ zu sein. Andererseits ist das Gehörsystem in diesem Gebiet sehr empfindlich und die Quantisierungsverzerrungen sind in der Form von Knacken und Zischen deutlich hörbar. Bei Breitband-CELP ist daher die Rauschgewichtung kritischer. Das Gleichgewicht zwischen Niederfrequenz- und Hochfrequenzcodierung ist heikler. Bei dieser Studie bestanden die Hauptbemühungen darin, ein gutes Gewichtungsfilter zu finden, das eine bessere Steuerung dieses Gleichgewichts erlauben würde.
  • Ein Ausgangspunkt für das bessere Verständnis des durch die vorliegende Erfindung beigetragenen technischen Fortschritts ist das Gewichtungsfilter der herkömmlichen CELP nach Gleichung (1). Das Anfangsziel bestand darin, eine Menge (g&sub1;, g&sub2;) für beste perzeptorische Leistung zu finden. Es hat sich herausgestellt, daß ähnlich dem Schmalbandfall, die Werte g&sub1; = 0,9, g&sub2; = 0,4 vernünftige Ergebnisse lieferten. Die Leistung ließ jedoch Raum für Verbesserung. Es stellte sich heraus, daß das Filter W(z) nach Gleichung (1) eine ihm eigene Begrenzung bei der gleichzeitigen Modellierung der Formantenstruktur und der erforderlichen spektralen Schräge aufwies. Man fand, daß die spektrale Schräge annähernd durch die Differenz g&sub1; - g&sub2; gesteuert wurde. Die Schräge ist globaler Beschaffenheit und es ist nicht leicht möglich, sie getrennt bei hohen Frequenzen anzuheben. Ändern der Schräge beeinflußt auch die Form der Formanten von W(z). Es wird zusammen mit höheren und breiteren Formanten eine betonte Schräge erhalten, die zu viel Rauschen auf niedrige Frequenzen und zwischen die Formanten legt. Die Schlußfolgerung war, daß die Probleme der Formanten und der Schräge voneinander abgekoppelt sein müßten. Der eingeschlagene Weg bestand darin, W(z) nur für die Formantenmodellierung zu benutzen und ein weiteres Glied zur Steuerung von nur der Schräge hinzuzufügen. Die allgemeine Form des neuen Filters ist
  • Wp(z) = W(z) P(z) (3)
  • wobei P(z) nur für die Schräge verantwortlich ist. Die Realisierung dieser Verbesserung ist in Figur 2 dargestellt, wo das Gewichtungsfilter 35 der Figur 1 durch eine Kaskade des Filters 220, das einen durch P(z) gegebenen Verlauf mit dem ursprünglichen Filter 35 aufweist, ersetzt wird. Das kaskadierte Filter Wp(z) ist durch Gleichung (3) gegeben. Es können verschiedene Formen von P(z) benutzt werden.
  • Diese Formen sind: festes Drei-Pol-Glied (zwei komplex, einer real), festes Drei-Null-Glied, adaptives Drei-Pol-Glied, adaptives Drei-Null-Glied und adaptives Zwei-Pol-Glied. Die festen Glieder wurden so ausgelegt, daß sie eine ungleiche aber feste spektrale Schräge mit einer steileren Schräge bei hohen Frequenzen aufwiesen. Die Koeffizienten der adaptiven Glieder wurden dynamisch über LPC-Analyse berechnet, um p-1 (z) zu einer Annäherung zweiter oder dritter Ordnung des aktuellen Spektrums zu machen, wodurch im wesentlichen nur die spektrale Schräge eingefangen wird.
  • Zusätzlich war ein für P(z) gewählter Modus eine Schrittfunktion im Frequenzbereich in Bereichmitte. Dadurch wird der Verlauf in der unteren Hälfte des Bereichs gedämpft und in der höheren Hälfte um eine vorbestimmte Konstante verstärkt. Für diesen Zweck wurde ein All-Pol-Glied 14ter Ordnung benutzt.
  • Durch sorgfältige Hörproben stellte es sich heraus, daß das Zwei-Pol-Glied die beste Wahl darstellte. Für diesen Fall ist das Glied gegeben durch
  • (4)
  • Die Koeffizienten pi werden durch Anwendung des standardmäßigen LPC-Algorithmus auf die ersten drei Korrelationskoeffizienten der Folge ai des inversen LPC-Filters (A(z)) für den aktuellen Rahmen gefunden. Der Parameter δ wird zur Einstellung der spektralen Schräge von P(z) benutzt. Es stellte sich heraus, daß der Wert δ = 0,7 eine gute Wahl darstellte. Diese Form von P(z) in Kombination mit W(z), wobei g&sub1; = 0,98, g&sub2; = 0,8, ergab die beste perzeptorische Leistung gegenüber allen anderen in dieser Arbeit untersuchten Systemen.
  • Zusätzlich zu dem oben beschriebenen P(z)-Verfahren beruht das erste Nicht-P(z)-Verfahren auf psychoakustischer Wahrnehmungstheorie (siehe Brian C. J. Moore, "An Introduction to the Psychology of Hearing" (Einführung in die Psychologie des Hörens), Academic Press Inc., 1982), die gegenwärtig bei der perzeptorischen Transformationscodierung (PTC - Perceptual Transform Coding) von Tonsignalen angewandt wird (siehe auch James D. Johnston, "Transform Coding of Audio Signals Using Perceptual Noise Criteria" (Transformationscodierung von Tonsignalen unter Verwendung von perzeptorischen Rauschkriterien), IEEE Sel. Areas in Comm., 6(2), Februar 1988, und K. Brandenburg, "A Contribution to the Methods and the Evaluation of Quality for High-Grade Musi Coding" (Beitrag zu den Verfahren und der Qualitätsbewertung für tongetreue Musikcodierung), Dr.-Dissertation, Universität von Erlangen-Nürnberg, 1989). Bei der PTC werden bei der Berechnung einer Rauschschwellwertfunktion (NTF - Noise Threshold Function) der Frequenz bekannte psychoakustische Gehörmaskierungseffekte benutzt. Nach der Theorie sollte alles Rauschen unterhalb dieses Schwellwerts unhörbar sein. Die NTF wird bei der Bestimmung der Bitzuteilung und/oder der Quantisiererschrittgröße für jeden der Transformationskoeffizienten benutzt, die später zur Neusynthetisierung des Signals mit der gewünschten Quantisierungsrauschform benutzt werden. Hier wird die NTF im Rahmen eines LPC-basierenden Codierers wie CELP benutzt. Grundlegend ist W(z) so ausgelegt, daß es die NTF-Form für den aktuellen Rahmen aufweist. Die NTF kann jedoch eine ziemlich komplexe Funktion der Frequenz mit scharfen Tälern und Spitzen sein. Bei der genauen Modellierung der NTF wird daher vorteilhafterweise ein Pol-Null-Filter hoher Ordnung benutzt, was in der Technik gut bekannt ist.
  • Ein zweiter erfolgreich benutzter Ansatz besteht in CELP-Codierung mit geteiltem Band&sub1; wobei das Signal zuerst durch einen Satz von zwei Quadraturspiegelfiltern (QMF - quadrature-mirror filters) in Nieder- und Hochfrequenzbänder geteilt wird und dann jedes Band separat durch seinen eigenen Codierer codiert wird. Ein ähnliches Verfahren wurde bei P. Mermelstein "G.722, a New CCITT Coding Standard for Digital Transmission of Wideband Audio Signals" (G.722, ein neuer CCITT-Codierstandard für digitale Übertragung von Breitbandtonsignalen), IEEE Comm. Mag., Seiten 8-15, Januar 1988, benutzt. Dieser Ansatz bietet die Flexibilität der Zuteilung unterschiedlicher Bitraten zu den niedrigen und hohen Bändern und zum Erreichen eines optimalen Gleichgewichts zwischen spektralen Verzerrungen des hohen und niedrigen Bands. Flexibilität wird auch in dem Sinne erreicht, daß in jedem Band vollständig unterschiedliche Codiersysteme eingesetzt werden knnen, wodurch die Leistung in jedem Frequenzbereich optimiert wird. In der vorliegenden beispielhaften Ausführungsform wird jedoch LD-CELP in allen (beiden) Bändern benutzt. Für die beiden Bänder wurden verschiedene Bitratenzuteilungen versucht, mit der Beschränkung einer Gesamtrate von 32 kB/s. Es stellte sich heraus, daß das beste Verhältnis zwischen der Bitratenzuteilung des niedrigen und hohen Bandes 3:1 war.
  • Alle oben erwähnten Systeme können verschiedene Tonhöhenschleifen, d.h. verschiedene Ordnungen für B(z) und verschiedene Anzahlen von Bit für die Tonhöhenanzapfungen enthalten. Ein interessanter Punkt ist, daß es sich manchmal als vorteilhaft herausstellen kann, ein System ohne Tonhöhenschleife zu benutzen, d.h. B(z) = 1. In der Tat bot in manchen Prüfungen ein solches System das beste Ergebnis. Die Erklärung dafür kann wie folgt sein. Die Tonhöhenschleife beruht auf der Verwendung vergangener Restfolgen als Anfangsanregung des Synthesefilters. Dies stellt eine Quantisierung der ersten Stufe in einem zweistufigen VQ-System dar, wobei der vergangene Rest als adaptive Codetabelle dient. Es ist bekannt, daß zweistufige VQ mindestens aus einem MSE-Gesichtspunkt schlechter als einstufige (reguläre) VQ ist. Anders gesagt finden die Bit bessere Verwendung, wenn sie mit einer Codetabelle mit Einzelanregung benutzt werden. Die Tonhöhenschleife bietet dann hauptsächlich perzeptorische Verbesserung aufgrund der verstärkten Periodizität, was bei niedrigratigen Codierern wie 4-8-kB/s-CELP von Wichtigkeit ist, wo der MSE-Rauschabstand sowieso niedrig ist. Bei 32 kB/s mit hohem MSE-Rauschabstand überwiegt der Beitrag der Tonhöhenschleife nicht die Wirksamkeit einer Einzel-VQ-Konfiguration und es besteht daher kein Grund, sie zu benutzen.
  • Während die obige Beschreibung anhand von Breitbandsprache erfolgte, wird es dem Fachmann klar sein, daß die vorliegende Erfindung Anwendung in anderen bestimmten Zusammenhängen finden wird. Figur 3 zeigt eine repräsentative Modifikation des Frequenzganges des Gesamtgewichtungsfilters nach den Lehren der vorliegenden Erfindung. In der Figur 3 stellt eine durchgezogene Linie Gewichtung nach einem Verfahren des Standes der Technik dar und die gepunktete Kurve entspricht einem beispielhaften modifizierten Verlauf nach einer typischen beispielhaften Ausführungsform der vorliegenden Erfindung.

Claims (17)

1. Kommunikationsverfahren zur Übermittlung von Informationen in Eingangsfolgen anzeigenden Parametern über einen Kommunikationskanal, wobei die besagten Parameter Frequenzgewichtung der besagten Eingangsinformationen widerspiegelnde Parameter enthalten,
dadurch gekennzeichnet, daß die besagte Frequenzgewichtung Gewichtung in Bezug auf relative Amplitude bei bestimmten Frequenzen und die spektrale Gesamtschräge widerspiegelnde Gewichtung umfaßt.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die besagten Eingangsinformationen Sprachinformationen sind und die besagte Gewichtung bei bestimmten Frequenzen Gewichtung bei mit einem Formanten der besagten Sprachinformationen verbundenen Frequenzen umfaßt.
3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die besagte Gewichtung in einem durch
W,(z) = W(z)P(z),
gekennzeichneten Filter erreicht wird, wobei P(z) hauptsächlich nur die spektrale Schräge des Filters beeinflußt.
4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß P(z) ein Drei-Pol-Filterglied ist.
5. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß P(z) ein Drei-Null-Filterglied ist.
6. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß P(z) ein Zwei-Null-Filterglied ist.
7. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß P(z) ein Zwei-Pol-Glied ist.
8. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß P(z) ein adaptives Filterglied ist, das durch von einer linearen Prädiktionsanalyse des aktuellen Spektrums der besagten Eingangsfolgen abgeleitete Parameter gekennzeichnet ist.
9. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß P(z) ein Filterglied mit einem Frequenzgang mit einem ersten Wert für einen Bereich von Frequenzen unterhalb eines im wesentlichen in der Mitte des Spektrums der besagten Eingangsfolgen liegenden Punkts und einem zweiten Wert für andere Punkte des besagten Spektrums ist.
10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, daß das besagte Filter ein Allpolfilter einer größeren Ordnung als 3 ist.
11. Verfahren nach Anspruch 10, dadurch gekennzeichnet, daß das besagte Allpolfilter ein Filter der Ordnung 14 ist.
12. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die besagte Gewichtung in einem perzeptorischen Transformationscodierungsfilter erreicht wird.
13. Verfahren nach Anspruch 12, dadurch gekennzeichnet, daß das besagte perzeptorische Transformationsfilter einen durch die Rauschschwellwertfunktion für die gegenwärtige Eingangsfolge bestimmten Frequenzgang aufweist.
14. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die besagte Gewichtung in einem Quadraturspiegelfilter mit einer Mehrzahl von Frequenzbändern erreicht wird und die besagten Eingangsfolgen getrennt für jedes Frequenzband codiert werden.
15. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die besagten Parameter ein CELP-Codierverfahren kennzeichnen.
16. Verfahren nach Anspruch 15, dadurch gekennzeichnet, daß die besagten Parameter keine Tonhöhenparameter enthalten.
17. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die besagten Eingangsinformationen ein nichtgleichförmiges Spektrum aufweisen und die besagte Gewichtung bei bestimmten Frequenzen Gewichtung bei mit einem Formanten der besagten Informationen verbundenen Frequenzen umfaßt.
DE69123500T 1990-06-29 1991-06-20 32 Kb/s codeangeregte prädiktive Codierung mit niedrigen Verzögerung für Breitband-Sprachsignal Expired - Lifetime DE69123500T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US07/546,627 US5235669A (en) 1990-06-29 1990-06-29 Low-delay code-excited linear-predictive coding of wideband speech at 32 kbits/sec

Publications (2)

Publication Number Publication Date
DE69123500D1 DE69123500D1 (de) 1997-01-23
DE69123500T2 true DE69123500T2 (de) 1997-04-17

Family

ID=24181283

Family Applications (2)

Application Number Title Priority Date Filing Date
DE69132885T Expired - Lifetime DE69132885T2 (de) 1990-06-29 1991-06-20 CELP-Kodierung niedriger Verzögerung und 32 kbit/s für ein Breitband-Sprachsignal
DE69123500T Expired - Lifetime DE69123500T2 (de) 1990-06-29 1991-06-20 32 Kb/s codeangeregte prädiktive Codierung mit niedrigen Verzögerung für Breitband-Sprachsignal

Family Applications Before (1)

Application Number Title Priority Date Filing Date
DE69132885T Expired - Lifetime DE69132885T2 (de) 1990-06-29 1991-06-20 CELP-Kodierung niedriger Verzögerung und 32 kbit/s für ein Breitband-Sprachsignal

Country Status (4)

Country Link
US (1) US5235669A (de)
EP (2) EP0465057B1 (de)
JP (1) JP3234609B2 (de)
DE (2) DE69132885T2 (de)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI95086C (fi) * 1992-11-26 1995-12-11 Nokia Mobile Phones Ltd Menetelmä puhesignaalin tehokkaaksi koodaamiseksi
FI96248C (fi) * 1993-05-06 1996-05-27 Nokia Mobile Phones Ltd Menetelmä pitkän aikavälin synteesisuodattimen toteuttamiseksi sekä synteesisuodatin puhekoodereihin
JP3321971B2 (ja) * 1994-03-10 2002-09-09 ソニー株式会社 音声信号処理方法
IT1271182B (it) * 1994-06-20 1997-05-27 Alcatel Italia Metodo per migliorare le prestazioni dei codificatori vocali
JP3237089B2 (ja) * 1994-07-28 2001-12-10 株式会社日立製作所 音響信号符号化復号方法
SE504010C2 (sv) * 1995-02-08 1996-10-14 Ericsson Telefon Ab L M Förfarande och anordning för prediktiv kodning av tal- och datasignaler
US5751907A (en) * 1995-08-16 1998-05-12 Lucent Technologies Inc. Speech synthesizer having an acoustic element database
EP0763818B1 (de) * 1995-09-14 2003-05-14 Kabushiki Kaisha Toshiba Verfahren und Filter zur Hervorbebung von Formanten
US5864798A (en) * 1995-09-18 1999-01-26 Kabushiki Kaisha Toshiba Method and apparatus for adjusting a spectrum shape of a speech signal
US5950151A (en) * 1996-02-12 1999-09-07 Lucent Technologies Inc. Methods for implementing non-uniform filters
US6516299B1 (en) 1996-12-20 2003-02-04 Qwest Communication International, Inc. Method, system and product for modifying the dynamic range of encoded audio signals
US6463405B1 (en) 1996-12-20 2002-10-08 Eliot M. Case Audiophile encoding of digital audio data using 2-bit polarity/magnitude indicator and 8-bit scale factor for each subband
US5864820A (en) * 1996-12-20 1999-01-26 U S West, Inc. Method, system and product for mixing of encoded audio signals
US5864813A (en) * 1996-12-20 1999-01-26 U S West, Inc. Method, system and product for harmonic enhancement of encoded audio signals
US5845251A (en) * 1996-12-20 1998-12-01 U S West, Inc. Method, system and product for modifying the bandwidth of subband encoded audio data
US6782365B1 (en) 1996-12-20 2004-08-24 Qwest Communications International Inc. Graphic interface system and product for editing encoded audio data
US6477496B1 (en) 1996-12-20 2002-11-05 Eliot M. Case Signal synthesis by decoding subband scale factors from one audio signal and subband samples from different one
US7024355B2 (en) 1997-01-27 2006-04-04 Nec Corporation Speech coder/decoder
JP3329216B2 (ja) * 1997-01-27 2002-09-30 日本電気株式会社 音声符号化装置及び音声復号装置
GB9714001D0 (en) * 1997-07-02 1997-09-10 Simoco Europ Limited Method and apparatus for speech enhancement in a speech communication system
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
SE9803698L (sv) 1998-10-26 2000-04-27 Ericsson Telefon Ab L M Metoder och anordningar i ett telekommunikationssystem
CA2252170A1 (en) * 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
DE19906223B4 (de) * 1999-02-15 2004-07-08 Siemens Ag Verfahren und Funk-Kommunikationssystem zur Sprachübertragung, insbesondere für digitale Mobilkummunikationssysteme
US6233552B1 (en) * 1999-03-12 2001-05-15 Comsat Corporation Adaptive post-filtering technique based on the Modified Yule-Walker filter
US7058572B1 (en) * 2000-01-28 2006-06-06 Nortel Networks Limited Reducing acoustic noise in wireless and landline based telephony
US6691085B1 (en) 2000-10-18 2004-02-10 Nokia Mobile Phones Ltd. Method and system for estimating artificial high band signal in speech codec using voice activity information
KR100503415B1 (ko) * 2002-12-09 2005-07-22 한국전자통신연구원 대역폭 확장을 이용한 celp 방식 코덱간의 상호부호화 장치 및 그 방법
US6983241B2 (en) * 2003-10-30 2006-01-03 Motorola, Inc. Method and apparatus for performing harmonic noise weighting in digital speech coders
WO2006009074A1 (ja) * 2004-07-20 2006-01-26 Matsushita Electric Industrial Co., Ltd. 音声復号化装置および補償フレーム生成方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4133976A (en) * 1978-04-07 1979-01-09 Bell Telephone Laboratories, Incorporated Predictive speech signal coding with reduced noise effects
US4472832A (en) * 1981-12-01 1984-09-18 At&T Bell Laboratories Digital speech coder
USRE32580E (en) * 1981-12-01 1988-01-19 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech coder
US4694298A (en) * 1983-11-04 1987-09-15 Itt Gilfillan Adaptive, fault-tolerant narrowband filterbank
US4701954A (en) * 1984-03-16 1987-10-20 American Telephone And Telegraph Company, At&T Bell Laboratories Multipulse LPC speech processing arrangement
US4617676A (en) * 1984-09-04 1986-10-14 At&T Bell Laboratories Predictive communication system filtering arrangement
US4811261A (en) * 1985-03-04 1989-03-07 Oki Electric Industry Co., Ltd. Adaptive digital filter for determining a transfer equation of an unknown system
US4827517A (en) * 1985-12-26 1989-05-02 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech processor using arbitrary excitation coding
US4941178A (en) * 1986-04-01 1990-07-10 Gte Laboratories Incorporated Speech recognition using preclassification and spectral normalization
US4969192A (en) * 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
FR2624675B1 (fr) * 1987-12-15 1990-05-11 Charbonnier Alain Dispositif et procede de traitement d'un signal de base echantillonne, en particulier representatif de sons
EP0331405B1 (de) * 1988-02-29 1996-11-27 Sony Corporation Verfahren und Einrichtung zur Digitalsignalverarbeitung

Also Published As

Publication number Publication date
EP0732686A2 (de) 1996-09-18
JPH04233600A (ja) 1992-08-21
EP0465057B1 (de) 1996-12-11
EP0465057A1 (de) 1992-01-08
DE69132885D1 (de) 2002-01-31
JP3234609B2 (ja) 2001-12-04
DE69123500D1 (de) 1997-01-23
EP0732686A3 (de) 1997-03-19
DE69132885T2 (de) 2002-08-01
EP0732686B1 (de) 2001-12-19
US5235669A (en) 1993-08-10

Similar Documents

Publication Publication Date Title
DE69123500T2 (de) 32 Kb/s codeangeregte prädiktive Codierung mit niedrigen Verzögerung für Breitband-Sprachsignal
DE69634645T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE3856211T2 (de) Verfahren zur adaptiven Filterung von Sprach- und Audiosignalen
DE602004007786T2 (de) Verfahren und vorrichtung zur quantisierung des verstärkungsfaktors in einem breitbandsprachkodierer mit variabler bitrate
DE60121405T2 (de) Transkodierer zur Vermeidung einer Kaskadenkodierung von Sprachsignalen
DE69916321T2 (de) Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen
DE69621393T2 (de) Quantisierung von Sprachsignalen in prädiktiven Kodiersystemen unter Verwendung von Modellen menschlichen Hörens
DE60006271T2 (de) Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung
DE60029990T2 (de) Glättung des verstärkungsfaktors in breitbandsprach- und audio-signal dekodierer
EP2022043B1 (de) Informationssignalcodierung
EP1979901B1 (de) Verfahren und anordnungen zur audiosignalkodierung
DE60024501T2 (de) Verbesserung der perzeptuellen Qualität von SBR (Spektralbandreplikation) UND HFR (Hochfrequenzen-Rekonstruktion) Kodierverfahren mittels adaptivem Addieren von Grundrauschen und Begrenzung der Rauschsubstitution
DE69926821T2 (de) Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen
DE60011051T2 (de) Celp-transkodierung
DE69618422T2 (de) Verfahren zur Sprachdekodierung und tragbares Endgerät
DE60110679T3 (de) Perzeptuelle Kodierung von Audiosignalen unter Verwendung von getrennter Reduzierung von Irrelevanz und Redundanz
DE69910058T2 (de) Verbesserung der periodizität eines breitbandsignals
DE69608947T2 (de) Verfahren zur Analyse eines Audiofrequenzsignals durch lineare Prädiktion, und Anwendung auf ein Verfahren zur Kodierung und Dekodierung eines Audiofrequenzsignals
DE69317958T2 (de) Kodierer von Audiosignalen mit niedriger Verzögerung, unter Verwendung von Analyse-durch-Synthese-Techniken
DE69620967T2 (de) Synthese von Sprachsignalen in Abwesenheit kodierter Parameter
DE60128121T2 (de) Wahrnehmungsbezogen verbesserte aufbesserung kodierter akustischer signale
DE69930848T2 (de) Skalierbarer audiokodierer und dekodierer
DE60012760T2 (de) Multimodaler sprachkodierer
EP1388147B1 (de) Verfahren zur erweiterung der bandbreite eines schmalbandig gefilterten sprachsignals, insbesondere eines von einem telekommunikationsgerät gesendeten sprachsignals
EP1825461A1 (de) Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition