DE69923079T2 - Kodierung von stimmlosen sprachsegmenten mit niedriger datenrate - Google Patents

Kodierung von stimmlosen sprachsegmenten mit niedriger datenrate Download PDF

Info

Publication number
DE69923079T2
DE69923079T2 DE69923079T DE69923079T DE69923079T2 DE 69923079 T2 DE69923079 T2 DE 69923079T2 DE 69923079 T DE69923079 T DE 69923079T DE 69923079 T DE69923079 T DE 69923079T DE 69923079 T2 DE69923079 T2 DE 69923079T2
Authority
DE
Germany
Prior art keywords
speech
energy
frame
generating
quantized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69923079T
Other languages
English (en)
Other versions
DE69923079D1 (de
Inventor
Amitava Das
Sharath Manjunath
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Application granted granted Critical
Publication of DE69923079D1 publication Critical patent/DE69923079D1/de
Publication of DE69923079T2 publication Critical patent/DE69923079T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Error Detection And Correction (AREA)
  • Detection And Correction Of Errors (AREA)

Description

  • Hintergrund der Erfindung
  • 1. Gebiet der Erfindung
  • Die vorliegende Erfindung bezieht sich allgemein auf die Sprachverarbeitung und insbesondere bezieht sich die Erfindung auf ein Verfahren und eine Vorrichtung zum Codieren von stimmlosen Segmenten der Sprache mit einer niedrigen Bitrate.
  • 2. Hintergrund
  • Das Übertragen bzw. Senden von Sprache durch Digitalverfahren erfolgt in großem Umfang insbesondere bei Anwendungen auf dem Gebiet der Ferngespräche und des digitalen Funktelefons. Dies wiederum hat Interesse geschaffen hinsichtlich der Bestimmung der kleinsten Informationsmenge, die über einen Kanal gesendet werden kann, während die wahrgenommene Qualität der rekonstruierten Sprache erhalten bleibt. Wenn Sprache einfach durch Tasten und Digitalisieren übertragen wird, ist eine Datenrate in der Größenordnung von vierundsechzig Kilobit pro Sekunde (kbps) erforderlich, um eine Sprachqualität des konventionellen Analogtelefons zu erreichen. Durch die Verwendung der Sprachanalyse gefolgt von geeigneter Codierung, Übertragung und Resynthese am Empfänger, kann jedoch eine signifikante Reduktion der Datenrate erreicht werden.
  • Vorrichtungen, die Sprachkompressionstechniken verwenden, und zwar durch Extraktion von Parametern, die sich auf ein Modell der menschlichen Spracherzeugung beziehen, werden als Sprachcodierer bezeichnet. Ein Sprachcodierer unterteilt das ankommende Sprachsignal in Zeitblöcke oder Analyserahmen. Sprachcodierer weisen typischerweise einen Codierer und einen Decodierer oder Codec auf. Der Codierer analysiert den ankommenden Sprachrahmen, um bestimmte relevante Parameter zu extrahieren und quantisiert sodann die Parameter in binärer Darstellung, d.h. in einen Satz von Bits oder ein binäres Datenpaket. Die Datenpakete werden über den Nachrichtenkanal zu einem Empfänger und einem Decodierer übertragen bzw. gesendet. Der Decodierer verarbeitet die Datenpakete, entquantisiert diese, um die Parameter zu erzeugen und resynthetisiert sodann die Sprachrahmen unter Verwendung der entquantisierten Parameter.
  • Die Funktion des Sprachcodierers besteht darin, das digitalisierte Sprachsignal in ein eine niedrige Bitrate besitzendes Signal zu komprimieren, und zwar durch Entfernung sämtlicher natürlicher Redundanzen, die in der Sprache inhärenterweise vorhanden sind. Die Digitalkompression wird dadurch erreicht, dass man den Eingangs- oder Eingabesprachrahmen mit einem Satz von Parametern repräsentiert und die Quantisierung anwendet, um die Parameter mit einem Satz von Bits zu repräsentieren. Wenn der Eingangssprachrahmen eine Anzahl von Bits Ni und das durch den Sprachcodierer erzeugte Datenpaket eine Anzahl von Bits NO aufweist, so ist der durch den Sprachcodierer erreichte Kompressionsfaktor Cτ = Ni/NO. Die Herausforderung besteht nun darin, eine hohe Sprachqualität der decodierten Sprache zu erhalten, während der Zielkompressionsfaktor erreicht wird. Die Performance oder Leistungsfähigkeit eines Sprachcodierers hängt von Folgendem ab: (1) wie gut das Sprachmodell oder die Kombination des oben beschriebenen Analyse- und Syntheseprozesses arbeitet und (2) wie gut der Parameterquantisierungsprozess bei der Zielbitrate von NO Bits pro Rahmen ausgeführt wird. Das Ziel des Sprachmodells besteht somit darin, die Essenz oder das Wesentliche des Sprachsignals zu erfassen bzw. einzufangen, oder aber die Zielsprachqualität zu erreichen, und zwar mit einem kleinen Satz von Parametern für jeden Rahmen.
  • Ein effektives Verfahren zum Codieren der Sprache in effizienter Weise mit einer niedrigen Bitrate ist das Multimode-Codieren. Ein Multimode-Codierer verwendet unterschiedliche Modes bzw. Modi oder Codier-Decodieralgorithmen auf unterschiedliche Arten von Eingangssprachrahmen an. Jeder Mode (Modus) oder Betriebsart oder jeder Codier-Decodierprozess ist auf einen speziellen Fall zugeschnitten, um einen bestimmten Typ des Sprachsegments (d.h. stimmhaft bzw. mit Sprache, stimmlos bzw. ohne Sprache, Hinter grundrauschen) in der am meisten effizienten Art und Weise zu repräsentieren. Ein externer Mode-Entscheidungsmechanismus prüft den Eingangssprachrahmen und trifft eine Entscheidung hinsichtlich des auf den Rahmen anzuwendenden Modus. Typischerweise wird die Mode-Entscheidung nach Art einer offenen Schleife (open-loop) vorgenommen, und zwar durch Extrahieren einer Anzahl von Parametern aus dem Eingangsrahmen und durch Auswerten derselben, um eine Entscheidung zu treffen, welcher Mode oder Betriebsart anzuwenden ist. Somit wird die Mode- oder Betriebsartentscheidung ohne vorheriges Wissen bezüglich des exakten Zustands der Ausgangssprache gemacht, d.h. wie ähnlich die Ausgangs- oder Abgabesprache zur Eingangssprache hinsichtlich Sprachqualität oder irgendeinem anderen Performancemaß ist. Eine beispielhafte Open-loop-Mode-Entscheidung für einen Sprachcodec ist in U.S. Patent 5,414,796 beschrieben, welches auf den Inhaber der vorliegenden Erfindung übertragen ist.
  • Das Multimode-Codieren kann Multimode-Codieren mit fester Rate sein, und zwar unter Verwendung der gleichen Anzahl von Bits NO für jeden Rahmen, oder Multimode-Codieren mit variabler Rate, wobei unterschiedliche Bitraten für unterschiedliche Modi oder Betriebsarten verwendet werden. Das Ziel bei dem Codieren mit variabler Rate besteht darin, nur die Menge oder Anzahl von Bits zu benutzen, die notwendig sind, um die Codec-Parameter zu codieren, und zwar auf einen Pegel adäquat zum Erhalt der Target- oder Zielqualität. Infolgedessen kann die gleiche Zielsprachqualität wie die eines mit fester Rate arbeitenden eine höhere Rate besitzenden Codierers mit einer signifikant niedrigeren Durchschnittsrate unter Verwendung der variablen Bitraten (VBR) Techniken erreicht werden. Ein beispielhafter eine variable Rate besitzender Sprachcodierer ist in U.S. Patent 5,414,796 beschrieben, wobei diese Erfindung auf den Inhaber der vorliegenden Erfindung übertragen ist.
  • Es gibt derzeit ein Ansteigen des Forschungsinteresses und starke kommerzielle Notwendigkeiten, einen eine hohe Qualität besitzenden Sprachcodierer zu entwickeln, der mit mittleren bis zu niedrigen Bitraten (d.h. im Bereich von 2,4 bis 4 kbps und darunter) arbeitet. Die Anwendungsgebiete umfassen da bei Folgendes: drahtlose Telefonie, Satellitennachrichtenverbindungen, Internettelefonie, verschiedene Multimedia- und Sprach-Strömungsanwendungen (voice streaming applications), Sprach- oder Voice-Mail und andere Voice- oder Sprachspeichersysteme. Treibende Kräfte sind die Notwendigkeit hoher Kapazität und die Anforderung nach einer robusten Arbeitsweise bei Paketverlustsituationen. Verschiedene kürzliche Sprachcodier-Normungsbemühungen sind eine weitere direkte treibende Kraft für den Antrieb der Forschung und Entwicklung von Sprachcodieralgorithmen mit niedriger Rate. Ein eine niedrige Rate besitzender Sprachcodierer schafft mehr Kanäle oder Nutzer bzw. Teilnehmer pro zulässige Anwendungsbandbreite und ein eine niedrige Rate besitzender Sprachcodierer könnte mit einer zusätzlichen Schicht geeigneter Kanalcodierung in das gesamte Bitbudget oder Budget von Codierspezifikationen passen und eine robuste Leistungsfähigkeit bei Kanalfehlerzuständen liefern.
  • Das Multimode VBR (variable-bit-rate) Sprachcodieren ist daher ein effektiver Mechanismus zum Codieren von Sprache mit niedriger Bitrate. Konventionelle Multimode-Schemata erfordern die Konstruktion von effizienten Codierschemata oder Modes für verschiedene Segmente der Sprache (beispielsweise stimmlos, stimmhaft und Übergang) und auch einen Mode für Hintergrundrauschen oder Stille. Die Gesamtperformance oder -leistungsfähigkeit des Sprachcodierers hängt davon ab, wie gut jede Mode oder Betriebsart arbeitet und die Durchschnittsrate des Codierers hängt von den Bitraten der unterschiedlichen Modes ab, und zwar für die stimmlosen, stimmhaften und anderen Segmente der Sprache. Um die Zielqualität mit einer niedrigen Durchschnittsrate zu erreichen, ist es notwendig, effiziente Hochleistungsmodes zu konstruieren, wobei einige davon bei niedrigen Bitraten arbeiten müssen. Typischerweise werden stimmhafte und stimmlose Sprachsegmente bei hohen Bitraten eingefangen und Hintergrundrauschen und stille Segmente werden mit Modes repräsentiert, die mit einer signifikant niedrigeren Rate arbeiten. Somit gibt es hier eine Notwendigkeit für ein Niedrig-Bitraten-Codierverfahren, das genau die stimmlosen Segmente der Sprache einfängt oder auswertet, wobei eine minimale Anzahl von Bits pro Rahmen verwendet wird.
  • WO-A-95/28824 beschreibt ein Verfahren zum Codieren eines Sprache enthaltenden Signals in einem Bitraten „Codebook Excited Linear Predictor Communication System". Das System weist einen Sender auf, der ein Sprache enthaltendes Signal in Rahmen von 40 Millisekunden Dauer organisiert und jeden Rahmen in einem von drei Modes oder Betriebsarten klassifiziert: stimmhaft und stationär, stimmlos oder vorübergehend (transient) und Hintergrundrauschen.
  • Zusammenfassung der Erfindung
  • Die vorliegende Erfindung bezieht sich auf ein eine niedrige Bitrate besitzendes Codierverfahren, welches in genauer Weise die stimmlosen Segmente der Sprache einfängt oder verarbeitet, während eine Minimalzahl von Bits pro Rahmen verwendet wird. Gemäß einem Aspekt der Erfindung wird ein Verfahren zum Codieren von stimmlosen Segmenten der Sprache vorgesehen, wobei das Verfahren Folgendes aufweist: Extrahieren von Energiekoeffizienten aus Subbändern des Rahmens der Sprache; Quantisieren der Energiekoeffizienten; Erzeugen einer Energieeinhüllenden aus den quantisierten Energiekoeffizienten; und Rekonstiutionieren eines Restsignals durch Formen eines zufällig erzeugten Rauschvektors mit quantisierten Werten der Energieeinhüllenden:
    Gemäß einem weiteren Aspekt der vorliegenden Erfindung weist ein Sprachcodierer zum Codieren von stimmlosen Segmenten der Sprache Folgendes auf: Mittel zum Extrahieren von Energiekoeffizienten aus den Subbändern eines Rahmens von Sprache; Mittel zum Quantisieren der Energiekoeffizienten; Mittel zum Erzeugen einer Energieeinhüllenden aus den quantisierten Energiekoeffizienten; und Mittel zur Rekonstitution eines Restsignals durch Formen eines zufällig erzeugten Rauschvektors mit quantisierten Werten der Energieeinhüllenden.
  • Gemäß einem bevorzugten Ausführungsbeispiel weist der Sprachcodierer ein Modul auf, und zwar konfiguriert, um Energiekoeffizienten aus einem Sprachrahmen zu extrahieren; ein Modul, konfiguriert zur Quantisierung der Energiekoeffizienten; ein Modul konfiguriert zur Erzeugung der Energieeinhüllenden aus den quantisierten Energiekoeffizienten; und ein Modul konfiguriert zur Rekonstituierung eines Restsignals durch Formen eines zufälllig erzeugten Rauschvektors mit quantisierten Werten der Energieeinhüllenden.
  • Kurze Beschreibung der Zeichnungen
  • 1 ist ein Blockdiagramm eines Nachrichtenkanals, abgeschlossen an jedem Ende durch Sprachcodierer.
  • 2 ist ein Blockdiagramm eines Codierers;
  • 3 ist ein Blockdiagramm eines Decodieres;
  • 4 ist ein Flussdiagramm, welches die Schritte eines Niedrig-Bitraten-Codierverfahrens für stimmlose Segmente der Sprache veranschaulicht;
  • 5A–E sind graphische Darstellungen der Signalamplitude, abhängig von einem diskreten Zeitindex;
  • 6 ist ein Funktionsdiagramm, welches einen Pyramidenvektorquantisierungscodierprozess zeigt;
  • 7 ist ein Funktionsdiagramm, welches einen Pyramidenvektorquantisierungsdecodierprozess zeigt.
  • Detaillierte Beschreibung der bevorzugten Ausführungsbeispiele
  • In 1 empfängt ein erster Codierer 10 digitalisierte Sprachtastungen s(n) und codiert die Tastungen s(n) zur Übertragung auf einem Übertragungsmedium 12 oder Nachrichtenkanal 12, zu einem ersten Decodierer 14. Der Decodierer 14 decodiert die codierten Sprachtastungen und synthetisiert ein Ausgangssprachsignal sSYNTH(n). Zur Übertragung in der entgegengesetzten Richtung codiert ein zweiter Codierer 16 digitalisierte Sprachtastungen s(n), die auf einem Nachrichtenkanal 18 übertragen werden. Ein zweiter Decodierer 20 empfängt und decodiert die codierten Sprachtastungen und erzeugt ein synthetisiertes Ausgangssprachsignal sSYNTH(n).
  • Die Sprachtastungen s(n) repräsentieren Sprachsignale, die digitalisiert und quantisiert wurden, und zwar gemäß irgendeinem der verschiedenen Verfahren, die im Stand der Technik bekannt sind, beispielsweise gemäß der Pulscodemodulation (PCM), des erweiterten μ-Gesetzes (companded μ-law) oder gemäß einem A-Gesetz (A-law). Wie im Stand der Technik bekannt, werden die Sprachtastungen s(n) in Rahmen von Eingangsdaten organisiert, wobei jeder Rahmen eine vorbestimmte Anzahl von digitalisierten Sprachtastungen s(n) umfasst. In einem exemplarischen Ausführungsbeispiel mit einer Tastrate von 8 kHz umfasst jeder 20 ms Rahmen 160 Tastwerte oder Tastungen. In den unten beschriebenen Ausführungsbeispielen kann die Datenübertragungsrate vorteilhafterweise auf einer Rahmen-zu-Rahmen-Basis verändert werden, und zwar von 8 kbps (volle Rate), 4 kbps (halbe Rate) zu 2 kbps (Viertelrate) zu 1 kbps (Achtelrate). Das Verändern der Datenübertragungsrate ist deshalb vorteilhaft, weil niedrigere Bitraten selektiv für Rahmen verwendet werden können, die relativ wenig Sprachinformation enthalten. Der Fachmann erkennt, dass andere Tastraten, Rahmengrößen und Datenübertragungsraten verwendet werden können.
  • Der erste Codierer 10 und der zweite Decodierer 20 weisen zusammen einen ersten Sprachcodierer oder Sprachcodec auf. In ähnlicher Weise bilden der zweite Codierer 16 und der erste Decodierer 14 zusammen einen zweiten Sprachcodierer. Es ist dem Fachmann klar, dass die Sprachcodierer mit einem Digitalsignalprozessor (DSP) einem anwendungsspezifischen integrierten Schaltkreis (ASIC), diskreter Gate-Logik, Firmware oder irgendeinem konventionellen programmierbaren Softwaremodul und einem Mikroprozessor implementiert werden können. Das Softwaremodul könnte in einem RAM-Speicher sitzen oder in einem Flash-Speicher, Register oder in irgendeiner Form von beschreibbaren Speichermedium, wie dies im Stand der Technik bekannt ist. Alternativ könnte irgendein konventioneller Prozessor, Controller oder eine State Machine für den Mikroprozessor eingesetzt werden. Exemplarische ASIC's kontruiert speziell für Sprachcodieren sind in U.S. Patent 5,727,123 und U.S. Patent 5,784,532 beschrieben, wobei beide Patente auf den Anmelder der vorliegenden Erfindung übertragen sind.
  • Gemäß 2 weist ein Codierer 100, der in einem Sprachcodierer verwendet werden kann Folgendes auf: ein Mode-Entscheidungsmodul, ein Pitch- oder Tonhöhenschätzungsmodul 104, ein LP-Analysemodul 106 und ein LP-Analysefilter 108, ein LP-Quantisierungsmodul 110 und ein Restquantisierungsmodul 112. Eingangssprachrahmen s(n) werden an das Mode-Entscheidungsmodul 102 geliefert, ferner an das Pitch- oder Tonhöhenschätzungsmodul 104, das LP-Analysemodul 106 und das LP-Analysefilter 108. Das Mode-Entscheidungsmodul 102 erzeugt einen Mode-Index IM und einen Mode M basierend auf der Periodizität jedes Eingangssprachrahmens s(n). Verschiedene Verfahren zum Klassifizieren von Sprachrahmen gemäß der Periodizität sind in dem U.S. Patent 5,911,121, übertragen auf den Inhaber der vorliegenden Erfindung, beschrieben. Solche Verfahren sind auch in den Normen der „Telecommunication Industry Association" enthalten, und zwar in den „Interim Standards TIA/EIA IS-127 und TIA/EIA IS-733.
  • Das Pitch- oder Tonhöhenschätzungsmodul 104 erzeugt einen Pitch- oder Tonhöhen-Index IP und einen Lag- oder Verzögerungswert (Abstandswert) P0 basierend auf jedem Eingangssprachrahmen s(n). Das LP-Analysemodul 106 führt eine lineare, prädiktive oder vorhersagende Analyse an jedem Eingangssprachrahmen s(n) aus, um einen LP-Parameter a zu erzeugen. Der LP-Parameter a wird an das LP-Quantisierungsmodul 110 geliefert. Das LP-Quantisierungsmodul 110 empfängt auch die Mode oder Betriebsart M. Das LP-Quantisierungsmodul 110 erzeugt einen LP-Index ILP und einen quantisierten LP-Parameter â. Das LP-Analysefilter 108 empfängt den quantisierten LP-Parameter â zusätzlich zu dem Eingangssprachrahmen s(n). Das LP-Analysefilter 108 erzeugt ein LP-Restsignal R[n], welches den Fehler zwischen den Eingangssprachrahmen s(n) und den quantisierten linearen vorhergesagten Parametern â repräsentiert. Der LP-Rest R[n], die Mode M und der quantisierte LP-Parameter â werden an das Restquantisierungsmodul 112 geliefert. Basierend auf diesen Werten erzeugt das Restquantisierungsmodul 112 einen Restindex IR und ein quantisiertes Restsignal R ^[n].
  • In 3 kann ein Decodierer 200 in einem Sprachcodierer verwendet werden und weist einen LP-Parameter Decodiermodul 202 auf, ferner ein Restdecodiermodul 204, ein Mode-Decodiermodul 206 und ein LP-Synthesefilter 208. Das Mode-Decodiermodul 206 empfängt und decodiert einen Mode-Index IM, und erzeugt daraus eine Mode M. Das LP-Parameter Decodiermodul 202 empfängt die Mode M und einen LP-Index ILP. Das LP-Parameter Decodiermodul 202 decodiert die empfangenen Werte, um einen quantisierten LP-Parameter â zu erzeugen. Das Restdecodiermodul 204 empfängt einen Restindex IR, einen Pitch- oder Tonhöhen-Index IP und den Mode-Index IM. Das Restdecodiermodul 204 decodiert die empfangenen Werte, um ein quantisiertes Restsignal R ^[n] zu erzeugen. Das quantisierte. Restsignal R ^[n] und der quantisierte LP-Parameter â werden an das LP-Synthesefilter 208 geliefert, welches daraus ein decodiertes Ausgangssprachsignal ŝ[n] synthetisiert.
  • Der Betrieb und die Implementation der verschiedenen Module des Codierers 100 der 2 und des Decodierers der 3 sind auf diesem Gebiet der Technik bekannt und im Einzelnen in der folgenden Literaturstelle beschrieben: L.B. Rabiner & R.W. Schafer, Digital Processing of Speech Signals, Seiten 396–453 (1978). Ein beispielhafter Codierer und ein beispielhafter Decodierer sind in dem oben genannten U.S. Patent 5,414,796 beschrieben.
  • Das Flussdiagramm der 4 veranschaulicht ein eine niedrige Bitrate besitzendes Codierverfahren für stimmlose Segmente gemäß einem Ausführungsbeispiel. Der eine niedrige Rate besitzende stimmlose Codierungsmode, gezeigt im Ausführungsbeispiel der 4, bietet vorteilhafterweise Multimode-Sprachcodierer mit einer niedrigeren Durchschnittsbitrate, wobei eine insgesamt hohe Sprachqualität erhalten bleibt, und zwar durch ein genaues Erfassen (Einfangen) von stimmlosen Segmenten mit einer geringeren Anzahl von Bits pro Rahmen.
  • Im Schritt 300 führt der Codierer eine externe Ratenentscheidung durch, identifiziert ankommende Sprachrahmen als entweder stimmlos oder nichtstimmlos. Die Ratenentscheidung erfolgt durch Berücksichtigung einer Anzahl von Parametern, extrahiert aus dem Sprachrahmen S[n], wobei n = 1,2,3, N ist, wie beispielsweise der Energie des Rahmens (E), der Rahmen-Periodizität (Rp) und der spektralen Kippung (spectral tilt) (Ts). Die Parameter werden mit einem Satz von vorbestimmten Schwellenwerten verglichen. Eine Entscheidung wird getroffen, ob der laufende Rahmen stimmlos ist, und zwar basierend auf den Ergebnissen der Vergleiche. Wenn der laufende Rahmen stimmlos ist, so wird er als ein stimmloser Rahmen, wie unten beschrieben, codiert.
  • Die Rahmenenergie kann vorteilhafterweise gemäß der folgenden Gleichung bestimmt werden.
  • Figure 00100001
  • Die Rahmen-Periodizität kann vorteilhafterweise gemäß der folgenden Gleichung bestimmt werden:
    Figure 00100002
    wobei
    Figure 00100003
    x[n], x[n+k]) eine Autokorrelationsfunktion von x ist. Die spektrale Kippung kann vorteilhafterweise entsprechend der folgenden Gleichung bestimmt werden: Ts = (Eh/El),wobei Eh und El Energiewerte von Sl[n] und Sh[n] sind und wobei Sl und Sh Tiefpass- und Hochpasskomponenten des ursprünglichen Sprachrahmens S[n] sind, wobei die Komponenten vorteilhafterweise durch einen Satz von Tiefpass- und Hochpassfiltern erzeugt werden können.
  • Im Schritt 302 wird eine LP-Analyse durchgeführt, um den linearen vorhergesagten Rest des stimmlosen Rahmens zu erzeugen. Die lineare vorhersagende LP (linear predictive) Analyse wird mit Techniken erreicht, die im Stand der Technik bekannt sind und beispielsweise in den folgenden Literaturstellen beschrieben ist: Das erwähnte U.S. Patent 5,414,796 und L.B. Rabiner & R.W. Schafer, Digital Processing of Speech Signals, Seiten 396–453 (1978). Die N-Tastung, der stimmlose LP-Rest, R[n], wobei n = 1,2, ..., N ist, werden aus dem Eingangssprachrahmen S[n] erzeugt, wo n = 1,2, ..., N ist. Die LP-Parameter werden in dem Linienspektralpaar (LSP) Bereich mit bekannten LSP-Quantisierungstechniken quantisiert, wie dies in einer der oben genannten Literaturstellen beschrieben ist. Eine graphische Darstellung der ursprünglichen Sprachsignalamplitude, abhängig von dem diskreten Zeitindex ist in 5A gezeigt. Eine graphische Darstellung der quantisierten stimmlosen Sprachsignalamplitude abhängig von dem diskreten Zeitindex ist in 5B gezeigt. Eine graphische Darstellung der ursprünglichen stimmlosen Restsignalamplitude abhängig von dem diskreten Zeitindex in 5C gezeigt. Eine graphische Darstellung der Energieeinhüllendenamplitude abhängig von dem diskreten Zeitindex ist in 5D dargestellt. Eine graphische Darstellung der quantisierten stimmlosen Restsignalamplitude abhängig von dem diskreten Zeitindex ist in 5E gezeigt
  • Im Schritt 304 werden die Fein-Zeit-Auflösungsenergieparameter des stimmlosen Rests extrahiert. Eine Anzahl (M) von örtlichen Energieparametern Ei, wobei i = 1,2, ..., M ist, wird aus dem stimmlosen Rest R[n] extrahiert, und zwar durch Durchführen der folgenden Schritte. Der N-Tastrest R[n] wird in (M-2) Subblöcke Xi unterteilt, wobei i = 1,2,3, ..., M-1 ist, wobei jeder Block Xi eine Länge L = N/(M-2) aufweist. Die L-Tastung nach dem Restblock X1 wird erhalten aus dem vergangenen quantisierten Rest des vorherigen Rahmens. (Die L-Tastung nach dem Restblock X1 umfasst die letzten L-Tastungen des N-Tastrestes des letzten Sprachrahmens). Die L-Tastung des zukünftigen Rest blocks XM wird erhalten aus dem LP-Rest des folgenden Rahmens (Der L-Tastungszukunftsrestblock XM umfasst die ersten L-Tastungen des N-Tast-LP-Rests des nächsten Sprachrahmens). Eine Anzahl M der örtlichen Energieparameter Ei, wobei i = 1,2, ..., M ist, wird aus jedem der M Blöcke Xi erzeugt, wobei i = 1,2, ..., M ist, und zwar gemäß der folgenden Gleichung:
    Figure 00120001
  • Im Schritt 306 werden die M Energieparameter codiert, und zwar mit Nr Bits gemäß einer Pyramidenvektor-Quantisierung (PVQ = pyramid vector quantization)-Methode. Auf diese Weise werden die M-1 lokalen oder örtlichen Energiewerte Ei, wobei i = 2,3, ..., M ist, codiert, und zwar mit Nr Bits zur Bildung quantisierter Energiewerte Wi, wobei i = 2,3, ..., M ist. Ein K-Schritt PVQ Codierschema mit Bits N1, N2, ..., NK wird verwendet derart, dass N1 + N2 + ... + NK = Nr, die Gesamtzahl der Bits verfügbar zur Quantisierung des stimmlosen Rests R[n] ist. Für jede der k-Stufen, wo k = 1,2, ..., K ist, werden die folgenden Schritte ausgeführt. Für die erste Stufe (d.h. k = 1), wird die Bandzahl auf Bk = B1 = 1 gesetzt und die Bandlänge wird auf Lk = 1 gesetzt. Für jedes Band Bk ergibt sich der mittlere Wert meanj, wobei j = 1,2, ..., Bk ist, gemäß der folgenden Gleichung:
    Figure 00120002
  • Die Bk Mittelwerte meanj, wobei j = 1,2, ..., Bk ist, werden quantisiert mit Nk = N1 Bits, um den quantisierten Satz von Mittelwerten q meanj zu bilden, wobei j = 1,2, ..., Bk ist. Die zu jedem Band Bk gehörende Energie wird durch den zugehörigen quantisierten Mittelwert q meanj geteilt, was einen neuen Satz von Energiewerten {Ek,i} = {E1,i} erzeugt, wobei i = 1,2, ..., M ist. Im Falle der ersten Stufe (d.h. für k = 1) ergibt sich für jedes i, wobei i = 1,2,3, ..., M ist, Folgendes: E1,i = Ei/q mean1
  • Das Verfahren des Aufbrechens in Subbänder, des Extrahierens der Mittel für jedes Band, des Quantisierens der Mittel (means)mit Bits verfügbar für die Stufe und sodann des Teilens der Komponenten des Subbandes durch das quantisierte Mittel (means) des Subbandes wird für jede darauffolgende Stufe k, wobei k = 2,3, ..., K-1 ist, wiederholt.
  • In der K-ten Stufe werden die Subvektoren jedes der Bk Subbänder mit individuellen VQ's designiert für jedes Band quantisiert, und zwar unter Verwendung einer Gesamtzahl von Nk Bits. Der PVQ Codierprozess für M = 8 und Stufe (stage) = 4 wird anhand des Beispiels der 6 veranschaulicht.
  • Im Schritt 308 werden M quantisierte Energievektoren gebildet. Die M quantisierten Energievektoren werden aus den Codebooks (Codebücher) und den Nr Bits, die die PVQ Information repräsentieren, gebildet, und zwar durch Umkehr des oben beschriebenen PVQ Codierprozesses mit den finalen oder endgültigen Restsubvektoren und quantisierten Mitteln (means). Der PVQ Decodierprozess für M = 3 und Stufe k = 3 wird anhand von 7 beispielhaft veranschaulicht. Der Fachmann erkennt, dass die stimmlosen (UV = unvoiced) Verstärkungen quantisiert werden können, und zwar mit irgendeinem konventionellen Codierverfahren. Das Codierschema braucht nicht auf das PVQ Schema des oben beschriebenen Ausführungsbeispiels gemäß den 47 eingeschränkt bleiben.
  • Im Schritt 310 wird eine eine hohe Auflösung besitzende Energieeinhüllende gebildet. Ein N-Tastwert (d.h. die Länge des Sprachrahmens), die Hoch-Zeitauflösungsenergieeinhüllende ENV[n], wobei n = 1,2,3, ..., N ist, wird aus den decodierten Energiewerten Wi, wobei i = 1,2,3, ,M ist, gemäß den unten beschriebenen Berechnungen, ermittelt. Die M Energiewerte repräsentieren die Energien von M-2 Subrahmen des laufenden Rests der Sprache, wobei jeder Subrahmen eine Länge L = N/M besitzt. Die Werte W1 und WM repräsen tieren die Energie der vergangenen L-Tastungen des letzten Rahmens des Restes bzw. die Energie der zukünftigen L-Tastungen des nächsten Rahmens des Restes.
  • Wenn Wm–1, Wm und Wm+1 repräsentativ für die Energien des (m–1)ten, m-ten und (m+1)ten Subbandes sind, dann gilt Entsprechendes für die Tastungen der Energieeinhüllenden ENV[n] für n = m*L–L/2 bis n = m*L+L/2, was den m-ten Subrahmen, berechnet wie folgt, repräsentiert: Für n = m*L–L/2 bis n = m*L gilt:
    Figure 00140001
    Und für n = m*L bis n = m*L + L/2 gilt:
    Figure 00140002
  • Die Schritte zur Berechnung der Energieeinhüllenden ENV[n] werden für jedes der M-1 Bänder wiederholt, wobei m = 2,3,4, ..., M ist, um die gesamte Energieeinhüllende ENV[n] zu berechnen, wobei n = 1,2, ..., N für den laufenden Restrahmen ist.
  • Im Schritt 312 wird ein quantisierter stimmloser Rest gebildet, und zwar durch „Coloring" (Einfärben) von Zufallsrauschen mit der Energieeinhüllenden ENV[n]. Der quantisierte stimmlose Rest qR[n] wird gemäß der folgenden Gleichung gebildet. qR[n] = Noise[n]*ENV[n], für n = 1,2, ..., N,wobei Noise[n] ein zufälliges weißes Rauschsignal ist, und zwar mit Einheitsvarianz, die vorteilhafterweise künstlich durch einen Zufallszahlgenerator erzeugt wird, und zwar synchron mit dem Codierer und Decodierer.
  • Im Schritt 314 wird ein quantisierter stimmloser Sprachrahmen gebildet. Der quantisierte stimmlose Rest qS[n] wird durch inverses LP-Filtern der quanti sierten stimmlosen Sprache mit konventionellen LP Synthesetechniken erzeugt, wie dies in den erwähnten Literaturstellen beschrieben ist, nämlich U.S. Patent 5,414,796 und L.B. Rabiner & R.W. Schafer, Digital Processing of Speech Signals, Seiten 396–458 (1978).
  • Gemäß einem Ausführungsbeispiel kann ein Qualitätskontrollschritt durchgeführt werden, und zwar durch Messen eines wahrgenommenen Fehlermaßes, wie beispielsweise eines wahrgenommenen Signal-zu-Rausch-Verhältnisses (PSNR = perceptual signal-to-noise-ratio), welches wie folgt definiert ist:
    Figure 00150001
    wobei x[n] = h[n]*R[n], und e(n) = h[n]*qR[n], wobei ferner „*" einen Faltungs- oder Filterungsvorgang bezeichnet, h[n] ein wahrnehmungsgewichtetes LP Filter ist und R[n] bzw. qR[n] der ursprüngliche bzw. quantisierte stimmlose Rest ist. Das PSNR wird mit einer vorbestimmten Schwelle verglichen. Wenn das PSNR kleiner ist als die Schwelle hat das stimmlose Codierschema nicht ausreichend gearbeitet und es kann ein mit höherer Rate arbeitender Codiermodus angewandt werden anstelle der genaueren Einfangung oder Erfassendes laufenden Rahmens. Wenn andererseits das PSNR die vorbestimmte Schwelle übersteigt, hat das stimmlose Schema gut gearbeitet und die Mode-Entscheidung wird beibehalten.
  • Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung wurden somit gezeigt und beschrieben. Für einen Fachmann ist es jedoch klar, dass zahlreiche Abwandlungen der hier offenbaren Ausführungsbeispiele vorgenommen können, ohne den Rahmen der Erfindung zu verlassen. Daher ist die Erfindung insofern auch nicht beschränkt und wird durch die Ansprüche definiert.

Claims (12)

  1. Ein Verfahren zum Codieren von nicht-sprachbelegten Segmenten von Sprache, wobei folgendes vorgesehen ist: Extrahieren (304) von Energie-Koeffizienten aus Teil- bzw. Subbändern eines Rahmens von Sprache (Sprachrahmen); Quantisieren (308) der Energie-Koeffizienten; und Erzeugung (310) einer Energieeinhüllenden aus den quantisierten Energie-Koeffizienten, gekennzeichnet durch: Rekonstituierung (312) eines Rest-Signals durch Formen eines zufallserzeugten Rauschvektors mit quantisierten Werten der Energieeinhüllenden.
  2. Verfahren nach Anspruch 1, wobei die Quantisierung (308) entsprechend einem Pyramidenvektor-Quantisierungsschehma durchgeführt wird.
  3. Verfahren nach Anspruch 1, wobei die Erzeugung (310) mit linearer Interpolation erreicht wird.
  4. Verfahren nach Anspruch 1, wobei ferner folgendes vorgesehen ist: Erhalt einer Nachverarbeitungs-Pertormance- bzw. Leistungsfähigkeitsmessung und Vergleichen der Nachverarbeitungs-Pertormancemessung mit einer vorbestimmten Schwelle.
  5. Verfahren nach Anspruch 1, wobei die Erzeugung (310) folgendes vorsieht: Erzeugung einer Energieeinhüllenden einschließlich einer Repräsentation der Energie einer vordefinierten Anzahl von vergangenen Proben oder Tastungen eines vorausgegangenen Rahmens von Resten (Restrahmen).
  6. Verfahren nach Anspruch 1, wobei die Erzeugung (310) folgendes vorsieht: Erzeugung einer Energieeinhüllenden einschließlich einer Repräsentation von Energie einer vordefinierten Anzahl von zukünftigen Proben oder Tastungen eines nächsten Restrahmens.
  7. Ein Sprachcodierer (10, 16) zum Codieren von nicht-sprachbelegten Segmenten von Sprache, wobei folgendes vorgesehen ist: Mittel (102, 104, 106) zum Extrahieren von Energie-Koeffizienten aus den Subbändern eines Rahmens von Sprache (Sprachrahmen); Mittel (110) zum Quantisieren der Energie-Koeffizienten; und Mittel zum Erzeugen einer Energieeinhüllenden aus den quantisierten Energiekoeffizienten, gekennzeichnet durch: Mittel (112) zum Rekonstituieren eines Restsignals durch Formen eines zufallserzeugten Rauschvektors mit quantisierten Werten der Energieeinhüllenden.
  8. Ein Sprachcodierer nach Anspruch 7, wobei die Mittel (110) zum Quantisieren folgendes aufweisen: Mittel zum Quantisieren entsprechend einem Pyramidenvektor-Quantisierungsschehma.
  9. Ein Sprachcodierer nach Anspruch 7, wobei die Mittel zum Erzeugen ein lineares Interpolationsmodul aufweisen.
  10. Ein Sprachcodierer nach Anspruch 7, wobei ferner Mittel vorgesehen sind zum Erhalt einer Nachverarbeitungs-Performancemessung und Mittel zum Vergleichen der Nachverarbeitungs-Performancemessung mit einer vorbestimmten Schwelle.
  11. Ein Sprachcodierer nach Anspruch 7, wobei die Mittel zur Erzeugung Mittel aufweisen zur Erzeugung einer Energieeinhüllenden einschließlich einer Repräsentation von Energie von einer vorbestimmten Anzahl von vergangenen Proben oder Tastungen eines vorausgegangenen Restrahmens.
  12. Ein Sprachcodierer nach Anspruch 7, wobei die Mittel zur Erzeugung Mittel aufweisen zur Erzeugung einer Energieeinhüllenden einschließlich einer Energierepräsentation einer vorbestimmten Anzahl von zukünftigen Tastungen eines nächsten Restrahmens.
DE69923079T 1998-11-13 1999-11-12 Kodierung von stimmlosen sprachsegmenten mit niedriger datenrate Expired - Lifetime DE69923079T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/191,633 US6463407B2 (en) 1998-11-13 1998-11-13 Low bit-rate coding of unvoiced segments of speech
US191633 1998-11-13
PCT/US1999/026851 WO2000030074A1 (en) 1998-11-13 1999-11-12 Low bit-rate coding of unvoiced segments of speech

Publications (2)

Publication Number Publication Date
DE69923079D1 DE69923079D1 (de) 2005-02-10
DE69923079T2 true DE69923079T2 (de) 2005-12-15

Family

ID=22706272

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69923079T Expired - Lifetime DE69923079T2 (de) 1998-11-13 1999-11-12 Kodierung von stimmlosen sprachsegmenten mit niedriger datenrate

Country Status (11)

Country Link
US (3) US6463407B2 (de)
EP (1) EP1129450B1 (de)
JP (1) JP4489960B2 (de)
KR (1) KR100592627B1 (de)
CN (2) CN1815558B (de)
AT (1) ATE286617T1 (de)
AU (1) AU1620700A (de)
DE (1) DE69923079T2 (de)
ES (1) ES2238860T3 (de)
HK (1) HK1042370B (de)
WO (1) WO2000030074A1 (de)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6463407B2 (en) * 1998-11-13 2002-10-08 Qualcomm Inc. Low bit-rate coding of unvoiced segments of speech
US6937979B2 (en) * 2000-09-15 2005-08-30 Mindspeed Technologies, Inc. Coding based on spectral content of a speech signal
US6947888B1 (en) * 2000-10-17 2005-09-20 Qualcomm Incorporated Method and apparatus for high performance low bit-rate coding of unvoiced speech
KR20020075592A (ko) * 2001-03-26 2002-10-05 한국전자통신연구원 광대역 음성 부호화기용 lsf 양자화기
JP2004519738A (ja) * 2001-04-05 2004-07-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 決定された信号型式に固有な技術を適用する信号の時間目盛修正
US7162415B2 (en) * 2001-11-06 2007-01-09 The Regents Of The University Of California Ultra-narrow bandwidth voice coding
US6917914B2 (en) * 2003-01-31 2005-07-12 Harris Corporation Voice over bandwidth constrained lines with mixed excitation linear prediction transcoding
KR100487719B1 (ko) * 2003-03-05 2005-05-04 한국전자통신연구원 광대역 음성 부호화를 위한 엘에스에프 계수 벡터 양자화기
CA2475283A1 (en) * 2003-07-17 2005-01-17 Her Majesty The Queen In Right Of Canada As Represented By The Minister Of Industry Through The Communications Research Centre Method for recovery of lost speech data
US20050091044A1 (en) * 2003-10-23 2005-04-28 Nokia Corporation Method and system for pitch contour quantization in audio coding
US20050091041A1 (en) * 2003-10-23 2005-04-28 Nokia Corporation Method and system for speech coding
US8219391B2 (en) * 2005-02-15 2012-07-10 Raytheon Bbn Technologies Corp. Speech analyzing system with speech codebook
US8032369B2 (en) * 2006-01-20 2011-10-04 Qualcomm Incorporated Arbitrary average data rates for variable rate coders
US8090573B2 (en) * 2006-01-20 2012-01-03 Qualcomm Incorporated Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision
US8346544B2 (en) * 2006-01-20 2013-01-01 Qualcomm Incorporated Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision
RU2426179C2 (ru) * 2006-10-10 2011-08-10 Квэлкомм Инкорпорейтед Способ и устройство для кодирования и декодирования аудиосигналов
AU2007318506B2 (en) * 2006-11-10 2012-03-08 Iii Holdings 12, Llc Parameter decoding device, parameter encoding device, and parameter decoding method
GB2466666B (en) * 2009-01-06 2013-01-23 Skype Speech coding
US20100285938A1 (en) * 2009-05-08 2010-11-11 Miguel Latronica Therapeutic body strap
US9570093B2 (en) * 2013-09-09 2017-02-14 Huawei Technologies Co., Ltd. Unvoiced/voiced decision for speech processing
EP3111560B1 (de) 2014-02-27 2021-05-26 Telefonaktiebolaget LM Ericsson (publ) Verfahren und vorrichtung zur pyramidenvektorquantisierungsindexierung und -deindexierung von audio/videosamplevektoren
US10586546B2 (en) 2018-04-26 2020-03-10 Qualcomm Incorporated Inversely enumerated pyramid vector quantizers for efficient rate adaptation in audio coding
US10573331B2 (en) * 2018-05-01 2020-02-25 Qualcomm Incorporated Cooperative pyramid vector quantizers for scalable audio coding
US10734006B2 (en) 2018-06-01 2020-08-04 Qualcomm Incorporated Audio coding based on audio pattern recognition
CN113627499B (zh) * 2021-07-28 2024-04-02 中国科学技术大学 基于检查站柴油车尾气图像的烟度等级估算方法及设备

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4731846A (en) * 1983-04-13 1988-03-15 Texas Instruments Incorporated Voice messaging system with pitch tracking based on adaptively filtered LPC residual signal
EP0163829B1 (de) * 1984-03-21 1989-08-23 Nippon Telegraph And Telephone Corporation Sprachsignaleverarbeitungssystem
IL95753A (en) * 1989-10-17 1994-11-11 Motorola Inc Digits a digital speech
JP2841765B2 (ja) * 1990-07-13 1998-12-24 日本電気株式会社 適応ビット割当て方法及び装置
US5226108A (en) * 1990-09-20 1993-07-06 Digital Voice Systems, Inc. Processing a speech signal with estimated pitch
DE69232202T2 (de) 1991-06-11 2002-07-25 Qualcomm Inc Vocoder mit veraendlicher bitrate
US5255339A (en) * 1991-07-19 1993-10-19 Motorola, Inc. Low bit rate vocoder means and method
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
US5381512A (en) * 1992-06-24 1995-01-10 Moscom Corporation Method and apparatus for speech feature recognition based on models of auditory signal processing
US5517595A (en) * 1994-02-08 1996-05-14 At&T Corp. Decomposition in noise and periodic signal waveforms in waveform interpolation
US5742734A (en) * 1994-08-10 1998-04-21 Qualcomm Incorporated Encoding rate selection in a variable rate vocoder
US5839102A (en) * 1994-11-30 1998-11-17 Lucent Technologies Inc. Speech coding parameter sequence reconstruction by sequence classification and interpolation
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US6463407B2 (en) * 1998-11-13 2002-10-08 Qualcomm Inc. Low bit-rate coding of unvoiced segments of speech
US6754624B2 (en) * 2001-02-13 2004-06-22 Qualcomm, Inc. Codebook re-ordering to reduce undesired packet generation

Also Published As

Publication number Publication date
ES2238860T3 (es) 2005-09-01
JP2002530705A (ja) 2002-09-17
US6820052B2 (en) 2004-11-16
ATE286617T1 (de) 2005-01-15
HK1042370B (zh) 2006-09-29
WO2000030074A1 (en) 2000-05-25
US20020184007A1 (en) 2002-12-05
US20050043944A1 (en) 2005-02-24
CN1241169C (zh) 2006-02-08
US6463407B2 (en) 2002-10-08
EP1129450B1 (de) 2005-01-05
DE69923079D1 (de) 2005-02-10
AU1620700A (en) 2000-06-05
KR20010080455A (ko) 2001-08-22
CN1815558B (zh) 2010-09-29
CN1342309A (zh) 2002-03-27
KR100592627B1 (ko) 2006-06-23
US7146310B2 (en) 2006-12-05
HK1042370A1 (en) 2002-08-09
CN1815558A (zh) 2006-08-09
EP1129450A1 (de) 2001-09-05
JP4489960B2 (ja) 2010-06-23
US20010049598A1 (en) 2001-12-06

Similar Documents

Publication Publication Date Title
DE69923079T2 (de) Kodierung von stimmlosen sprachsegmenten mit niedriger datenrate
DE60133757T2 (de) Verfahren und vorrichtung zur kodierung von stimmloser sprache
DE60011051T2 (de) Celp-transkodierung
DE60121405T2 (de) Transkodierer zur Vermeidung einer Kaskadenkodierung von Sprachsignalen
DE60123651T2 (de) Verfahren und vorrichtung zur robusten sprachklassifikation
DE69910058T2 (de) Verbesserung der periodizität eines breitbandsignals
DE69133458T2 (de) Verfahren zur Sprachquantisierung und Fehlerkorrektur
DE60024123T2 (de) Lpc-harmonischer sprachkodierer mit überrahmenformat
DE60128677T2 (de) Verfahren und vorrichtung zur prädiktiven quantisierung von stimmhaften sprachsignalen
DE69924280T2 (de) Sprachsynthese aus grundfrequenz-prototypwellenformen durch zeit-synchrone wellenforminterpolation
DE60122203T2 (de) Verfahren und system zur erzeugung von behaglichkeitsrauschen bei der sprachkommunikation
DE60017763T2 (de) Verfahren und vorrichtung zur erhaltung einer ziel-bitrate in einem sprachkodierer
DE602004003610T2 (de) Halbrätiger Vocoder
DE69727895T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE602004004950T2 (de) Vorrichtung und Verfahren zum bitraten-skalierbaren Sprachkodieren und -dekodieren
DE60319590T2 (de) Verfahren zur codierung und decodierung von audio mit variabler rate
DE60031002T2 (de) Multimodaler mischbereich-sprachkodierer mit geschlossener regelschleife
DE60032006T2 (de) Prädiktionssprachkodierer mit musterauswahl für kodierungsshema zum reduzieren der empfindlichkeit für rahmenfehlern
DE60024080T2 (de) Kodierung von sprachsegmenten mit signalübergängen durch interpolation von mehrimpulsanregungssignalen
DE60128479T2 (de) Verfahren und vorrichtung zur bestimmung eines synthetischen höheren bandsignals in einem sprachkodierer
DE10296562T5 (de) Rauschunterdrückung
DE60117558T2 (de) Verfahren zur rauschrobusten klassifikation in der sprachkodierung
DE69820362T2 (de) Nichtlinearer Filter zur Geräuschunterdrückung in linearen Prädiktions-Sprachkodierungs-Vorrichtungen
DE60027012T2 (de) Verfahren und vorrichtung zur verschachtelung der quantisierungsverfahren der spektralen frequenzlinien in einem sprachkodierer
DE60124079T2 (de) Sprachverarbeitung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition