DE60024080T2 - Kodierung von sprachsegmenten mit signalübergängen durch interpolation von mehrimpulsanregungssignalen - Google Patents

Kodierung von sprachsegmenten mit signalübergängen durch interpolation von mehrimpulsanregungssignalen Download PDF

Info

Publication number
DE60024080T2
DE60024080T2 DE60024080T DE60024080T DE60024080T2 DE 60024080 T2 DE60024080 T2 DE 60024080T2 DE 60024080 T DE60024080 T DE 60024080T DE 60024080 T DE60024080 T DE 60024080T DE 60024080 T2 DE60024080 T2 DE 60024080T2
Authority
DE
Germany
Prior art keywords
samples
speech
subset
frame
transient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60024080T
Other languages
English (en)
Other versions
DE60024080D1 (de
Inventor
Amitava Das
Sharath Vijayanagar Bangalore MANJUNATH
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Application granted granted Critical
Publication of DE60024080D1 publication Critical patent/DE60024080D1/de
Publication of DE60024080T2 publication Critical patent/DE60024080T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Analogue/Digital Conversion (AREA)

Description

  • Hintergrund der Erfindung
  • I. Gebiet der Erfindung
  • Die vorliegende Erfindung betrifft im Allgemeinen das Gebiet einer Sprachverarbeitung und insbesondere eine Mehrfachpuls-Interpolations-Codierung von Übergangssprachrahmen.
  • II. Hintergrund
  • Eine Übertragung von Sprache durch digitale Techniken ist weit verbreitet, insbesondere bei Fern- und digitalen Funktelefonanwendungen. Dies hat wiederum Interesse geweckt an der Bestimmung der geringsten Menge an Information, die über einen Kanal gesendet werden kann, während die wahrgenommene Qualität der rekonstruierten Sprache beibehalten wird. Wenn Sprache durch einfach Abtasten und Digitalisieren übertragen wird, ist eine Datenrate in dem Bereich von vierundsechzig Kilobits pro Sekunde (kbps) erforderlich, um eine Sprachqualität eines herkömmlichen analogen Telefons zu erzielen. Durch die Verwendung von Sprachanalyse jedoch, gefolgt von der geeigneten Codierung, Übertragung und Resynthese an dem Empfänger, kann eine signifikante Reduzierung der Datenrate erzielt werden.
  • Vorrichtungen, die Techniken einsetzen, um Sprache durch Extrahieren von Parametern zu komprimieren, die einem Modell einer menschlichen Spracherzeugung entsprechen, werden als Sprachcodierer bezeichnet. Ein Sprachcodierer teilt das eingehende Sprachsignal in zeitliche Blöcke oder Analyserahmen. Sprachcodierer weisen typischerweise einen Codierer und einen Decodierer auf. Der Codierer analysiert den eingehenden Sprachrahmen, um bestimmte relevante Parameter zu extrahieren, und quantisiert dann die Parameter in eine binäre Darstellung, d.h. in einen Satz von Bits oder ein binäres Datenpaket. Die Datenpakete werden über den Kommunikationskanal an einen Empfänger und einen Decodierer übertragen. Der Decodierer verarbeitet die Datenpakete, dequantisiert sie, um Parameter zu erzeugen, und resynthetisiert die Sprachrahmen unter Verwendung der dequantisierten Parameter.
  • Die Funktion des Sprachcodierers liegt darin, das digitalisierte Sprachsignal in ein Signal geringer Bitrate durch Entfernen aller in der Sprache inhärenten natürlichen Redundanzen zu komprimieren. Die digitale Komprimierung wird erreicht durch Darstellen des Eingangssprachrahmens mit einem Satz von Parametern und durch Einsatz einer Quantisierung, um die Parameter mit einem Satz von Bits darzustellen. Wenn der Eingangssprachrahmen eine Anzahl von Bits Ni aufweist und das von dem Sprachcodierer erzeugte Datenpaket eine Anzahl von Bits No aufweist, beträgt der von dem Sprachcodierer erzielte Komprimierungsfaktor Cr = Ni/No. Die Herausforderung liegt darin, eine hohe Sprachqualität der decodierten Sprache während einer Erzielung des Soll-Komprimierungsfaktors beizubehalten. Die Leistung eines Sprachcodierers hängt ab davon, (1) wie gut das Sprachmodell oder die Kombination des oben beschriebenen Analyse- und Synthesevorgangs arbeitet, und (2) wie gut der Parameterquantisierungsvorgang bei der Soll-Bitrate von No Bits pro Rahmen durchgeführt wird. Das Ziel des Sprachmodells ist somit, die Essenz des Sprachsignals oder die Soll-Sprachqualität mit einem kleinen Satz von Parametern für jeden Rahmen vorzusehen.
  • Sprachcodierer können implementiert werden als Zeitbereichs-Codierer, die versuchen, die Zeitbereichs-Sprachwellenform zu erfassen durch Einsatz einer hohen Zeitauflösungsverarbeitung, um jeweils kleine Segmente von Sprache (typischerweise 5 Millisekunden (ms) Teilrahmen) zu codieren. Ein Beispiel eines Zeitbereichs-Codierers wird offenbart in dem U.S.-Patent 4,821,324, wobei kleine Segmente eines Sprachrahmens codiert werden. Der Sprachrahmen wird rekonstruiert durch Anwenden einer so genannten Interpolation über den aktuellen Rahmen, unter Verwendung von regenerierten Segmenten in den vorherigen, aktuellen und folgenden Sprachrah men. In anderen Beispielen wird für jeden Teilrahmen ein hochgenauer Repräsentant aus einem Codebuchraum mittels verschiedener in der Technik bekannter Suchalgorithmen gefunden. Alternativ können Sprachcodierer als Frequenzbereichs-Codierer implementiert werden, die versuchen, das Kurzzeit-Sprachspektrum des Eingangssprachrahmens mit einem Satz von Parametern zu erfassen (Analyse), und einen entsprechenden Syntheseprozess einsetzen, um die Sprachwellenform aus den spektralen Parametern wiederherzustellen. Der Parameter-Quantisierer erhält die Parameter, indem er sie durch gespeicherte Darstellungen von Code-Vektoren gemäß bekannten Quantisierungstechniken darstellt, die von A. Gersho & R. M. Gray in „Vector Quantization and Signal Compression" (1992) beschrieben werden.
  • Ein weithin bekannter Zeitbereichs-Sprachcodierer ist der CELP(Code Excited Linear Predictive)-Codierer, der von L. B. Rabiner & R. W. Schafer in „Digital Processing of Speech Signals", 396–453, (1978) beschrieben wird.
  • In einem CELP-Codierer werden die Kurzzeit-Korrelationen oder Redundanzen in dem Sprachsignal von einer LP(linear prediction)-Analyse entfernt, welche die Koeffizienten eines Kurzzeit-Formant-Filters findet. Ein Anwenden des Kurzzeit-Voraussage(prediction)-Filters auf den eingehenden Sprachrahmen erzeugt ein LP-Restsignal, das weiter mit Langzeit-Voraussage-Filter-Parametern und einem nachfolgenden stochastischem Codebuch modelliert und quantisiert wird. Somit teilt eine CELP-Codierung die Aufgabe einer Codierung der Zeitbereichs-Sprachwellenform in die getrennten Aufgaben einer Codierung der LP-Kurzzeit-Filter-Koeffizienten und einer Codierung des LP-Rests. Eine Zeitbereichs-Codierung kann mit einer festen Rate (d.h. unter Verwendung derselben Anzahl von Bits, No, für jeden Rahmen) oder mit einer variablen Rate (in der unterschiedliche Bitraten für unterschiedliche Typen von Rahmeninhalten verwendet werden) durchgeführt werden. Codierer mit variabler Rate versuchen, nur die Menge von Bits zu verwenden, die erforderlich ist, um die Codec-Parameter auf einen Level zu codieren, der ausreichend ist, um eine Soll-Qualität zu erhalten. Ein bei spielhafter CELP-Codierer mit variabler Rate wird in dem U.S.-Patent Nr. 5,414,798 beschrieben, das der Anmelderin der vorliegenden Erfindung erteilt wurde und unter Bezugnahme hier vollständig aufgenommen ist.
  • Zeitbereichs-Codierer, wie der CELP-Codierer, stützen sich auf eine hohe Anzahl von Bits, No, pro Rahmen, um die Genauigkeit der Zeitbereichs-Sprachwellenform zu bewahren. Derartige Codierer liefern typischerweise eine exzellente Sprachqualität, vorausgesetzt, die Anzahl von Bits, No, pro Rahmen ist relativ groß (z.B. 8 kbps oder höher). Bei niedrigen Bitraten (4 kbps und darunter) jedoch scheitern Zeitbereichs-Codierer aufgrund der begrenzten Anzahl von verfügbaren Bits, eine hohe Qualität und robuste Leistung aufrechtzuerhalten. Bei niedrigen Bitraten beschneidet (clip) der begrenzte Codebuchraum die Wellenformübereinstimmungs-Fähigkeit von herkömmlichen Zeitbereichs-Codierern, die erfolgreich in kommerziellen Anwendungen mit höherer Rate eingesetzt werden.
  • Momentan gibt es einen Anstieg eines Forschungsinteresses und eine hohe kommerzielle Notwendigkeit, einen hochwertigen Sprachcodierer zu entwickeln, der bei mittleren bis geringen Bitraten arbeitet (d.h. in dem Bereich von 2.4 bis 4 kbps und darunter). Die Anwendungsgebiete umfassen ein drahtloses Fernsprechwesen, Satellitenkommunikation, Internettelephonie, verschiedene Multimedia- und Sprach-Streaming-Anwendungen, Voice-Mail und andere Sprachspeichersysteme. Die treibenden Kräfte sind die Notwendigkeit einer hohen Kapazität und die Nachfrage nach robuster Leistung in Paketverlustsituationen. Verschiedene Sprachcodier-Standardisierungsversuche der letzten Zeit sind eine weitere direkte Antriebskraft, die Forschung und Entwicklung von Sprachcodieralgorithmen niedriger Rate antreiben. Ein Sprachcodierer mit niedriger Rate erzeugt mehr Kanäle oder Benutzer pro zulässiger Anwendungsbandbreite und ein Sprachcodierer niedriger Rate verbunden mit einer zusätzlichen Ebene einer geeigneten Kanalcodierung kann für das gesamte Bit-Budget von Codierer-Spezifikationen geeignet sein und eine robuste Leistung unter Kanalfehlerbedingungen liefern.
  • Eine erfolgreiche Technik, um Sprache effektiv bei niedrigen Bitraten zu codieren, ist eine Multimode-Codierung. Eine beispielhafte Multimode-Codierungstechnik wird von Amitava Das et. al. in „Multimode and Variable-Rate Coding of Speech", in Speech Coding and Synthesis, Kap. 7 (W. B. Kleijn & K. K. Paliwal, Ed., 1995) beschrieben. Herkömmliche Multimode-Codierer wenden unterschiedliche Modi, oder Codierungs-Decodierungs-Algorithmen, auf unterschiedliche Typen von Eingangssprachrahmen an. Jeder Modus oder Codierungs-Decodierungs-Prozess ist individuell angepasst, um optimal einen bestimmten Typ eines Sprachsegments, wie z.B. stimmhafte Sprache, stimmlose Sprache, Übergangssprache (z.B. zwischen stimmhaft und stimmlos) und Hintergrundrauschen (keine Sprache), auf die effizienteste Weise darzustellen. Ein externer Modus-Entscheidungsmechanismus ohne Rückkopplung (open-loop) untersucht den Eingangssprachrahmen und fällt eine Entscheidung hinsichtlich welcher Modus auf den Rahmen anzuwenden ist. Die Modus-Entscheidung ohne Rückkopplung wird typischerweise durch Extrahieren einer Anzahl von Parametern aus dem Eingangsrahmen, Evaluieren der Parameter, um zeitliche und spektrale Charakteristiken zu bestimmen, und Basieren einer Modus-Entscheidung auf die Evaluierung durchgeführt. Die Modus-Entscheidung wird somit gefällt, ohne im Vorhinein die exakte Beschaffenheit der ausgegebenen Sprache zu wissen, d.h. wie nah die ausgegebene Sprache bezüglich einer Sprachqualität oder anderer Leistungsmaße zu der eingegebene Sprache ist.
  • Um eine hohe Sprachqualität beizubehalten ist es kritisch, Übergangssprachrahmen genau darzustellen. Für einen Sprachcodierer mit niedriger Bitrate, der eine begrenzte Anzahl von Bits pro Rahmen verwendet, hat sich dies herkömmlich als schwierig erwiesen. Somit besteht eine Notwendigkeit für einen Sprachcodierer, der Übergangssprachrahmen, die mit einer niedrigen Bitrate codiert sind, genau darstellt.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Die vorliegende Erfindung betrifft einen Sprachcodierer, der Übergangssprachrahmen, die mit einer niedrigen Bitrate codiert sind, genau darstellt. Demgemäß umfasst in einem Aspekt der Erfindung ein Verfahren zur Codierung von Übergangssprachrahmen vorteilhafterweise die Schritte einer Darstellung eines ersten Rahmens von Übergangssprachabtastwerten durch einen ersten Teilsatz der Abtastwerte (samples) des ersten Rahmens; und eines Interpolierens des ersten Teilsatzes von Abtastwerten und eines ausgerichteten zweiten Teilsatzes von Abtastwerten, der aus einem zweiten, früher empfangenen Rahmen von Übergangssprachabtastwerten extrahiert wird, um andere Abtastwerte des ersten Rahmens zu synthetisieren, die nicht in dem ersten Teilsatz enthalten sind.
  • In einem weiteren Aspekt der Erfindung umfasst ein Sprachcodierer zur Codierung von Übergangssprachrahmen vorteilhafterweise Mittel zur Darstellung eines ersten Rahmens von Übergangssprachabtastwerten durch einen ersten Teilsatz der Abtastwerte des ersten Rahmens; und Mittel zur Interpolierung des ersten Teilsatzes von Abtastwerten und eines ausgerichteten zweiten Teilsatzes von Abtastwerten, der aus einem zweiten, früher empfangenen Rahmen von Übergangssprachabtastwerten extrahiert wird, um andere Abtastwerte des ersten Rahmens zu synthetisieren, die nicht in dem ersten Teilsatz enthalten sind.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • 1 ist eine Blockdarstellung eines Kommunikationskanals, der an jedem Ende von Sprachcodierern begrenzt wird.
  • 2 ist eine Blockdarstellung eines Codierers.
  • 3 ist eine Blockdarstellung eines Decodierers.
  • 4 ist ein Ablaufdiagramm, das einen Sprachcodierentscheidungsprozess darstellt.
  • 5A ist ein Graph einer Sprachsignalamplitude gegenüber der Zeit, und 5B ist ein Graph einer LP(linear amplitude)-Rest-Amplitude gegenüber der Zeit.
  • 6 ist ein Ablaufdiagramm, das einen Mehrfachpuls-Interpolations-Codierungsprozess für Übergangssprachrahmen darstellt.
  • 7 ist eine Blockdarstellung eines Systems zum Filtern eines LP-Rest-Domäne-Signals, um ein Sprach-Domäne-Signal zu erzeugen, oder zum inversen Filtern eines Sprach-Domäne-Signals, um ein LP-Rest-Domäne-Signal zu erzeugen.
  • 8A–D sind Graphen einer Signalamplitude gegenüber der Zeit jeweils für ursprüngliche Übergangssprache, nicht codierter Rest, codierter/quantisierter Rest und decodierte/rekonstruierte Sprache.
  • DETAILLIERTE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSBEISPIELE
  • In 1 empfängt ein erster Codierer 10 digitalisierte Sprachabtastwerte s(n) und codiert die Abtastwerte s(n) zur Übertragung auf einem Übertragungsmittel 12 oder einem Kommunikationskanal 12 an einen ersten Decodierer 14. Der Decodierer 14 decodiert die codierten Sprachabtastwerte und synthetisiert ein Ausgabesprachsignal sSYNTH(n). Zur Übertragung in die entgegengesetzte Richtung codiert ein zweiter Codierer 16 digitalisierte Sprachabtastwerte s(n), die auf einem Kommunikationskanal 18 übertragen werden. Ein zweiter Decodierer 20 empfängt und decodiert die codierten Sprachabtastwerte und erzeugt ein synthetisiertes Ausgabesprachsignal sSYNTH(n).
  • Die Sprachabtastwerte s(n) stellen Sprachsignale dar, die gemäß verschiedenen in dem Stand der Technik bekannten Verfahren digitalisiert und quan tisiert wurden, z.B. Pulscode-Modulation (PCM – pulse code modulation), kompandiertes μ-Gesetz (μ-law) oder A-Gesetz (A-law). Wie in dem Stand der Technik bekannt ist, werden die Sprachabtastwerte s(n) in Rahmen von Eingangsdaten organisiert, wobei jeder Rahmen eine vorgegebene Anzahl von digitalisierten Sprachabtastwerten s(n) aufweist. In einem beispielhaften Ausführungsbeispiel wird eine Abtastrate von 8 kHz eingesetzt, wobei jeder 20-ms-Rahmen 160 Abtastwerte aufweist. In den im Folgenden beschriebenen Ausführungsbeispielen kann die Rate einer Datenübertragung vorteilhafterweise auf einer Rahmen-zu-Rahmen-Basis von 13.2 kbps (volle Rate) zu 6.2 kbps (halbe Rate) zu 2.6 kbps (viertel Rate) zu 1 kbps (achtel Rate) variiert werden. Ein Variieren der Datenübertragungsrate ist vorteilhaft, da niedrigere Bitraten selektiv für Rahmen eingesetzt werden können, die relativ wenig Sprachinformation enthalten. Wie für Fachleute offensichtlich ist, können andere Abtastraten, Rahmengrößen und Datenübertragungsraten verwendet werden.
  • Der erste Codierer 10 und der zweite Decodierer 20 weisen zusammen einen ersten Sprachcodierer oder Sprachcodec auf. Ähnlich weisen der zweite Codierer 16 und der erste Decodierer 14 zusammen einen zweiten Sprachcodierer auf. Es ist Fachleuten bekannt, dass Sprachcodierer implementiert werden können mit einem digitalen Signalprozessor (DSP – digital signal processor), einem anwendungsspezifischen Schaltkreis (ASIC – applicationspecific integrated circuit), einer diskreten Gatter-Logik, einer Firmware oder einem herkömmlichen programmierbaren Softwaremodul und einem Mikroprozessor. Das Softwaremodul kann sich in einem RAM-Speicher, einem Flash-Speicher, Registern oder jeder anderen in der Technik bekannten Form eines beschreibbaren Speichermittels befinden. Alternativ kann jeder herkömmliche Prozessor, jede Steuereinrichtung oder Zustandsmaschine für den Mikroprozessor eingesetzt werden. Beispielhafte ASICs, die spezifisch für eine Sprachcodierung gestaltet sind, werden beschrieben in dem U.S.-Patent Nr. 5,727,123, das der Anmelderin der vorliegenden Erfindung erteilt wurde, und in der U.S.-Anmeldung Nr. 08/197,417 mit dem Titel „Vocoder ASIC", angemeldet 16. Februar 1994 von der Anmelderin der vorliegenden Erfindung.
  • In 2 umfasst ein Codierer 100, der in einem Sprachcodierer verwendet werden kann, ein Modus-Entscheidungs-Modul 102, ein Pitch-Schätz-Modul 104, ein LP-Analyse-Modul 106, ein LP-Analyse-Filter 108, ein LP-Quantisierungs-Modul 110 und ein Rest-Quantisierungs-Modul 112. Eingangssprachrahmen s(n) werden an das Modus-Entscheidungs-Modul 102, das Pitch-Schätz-Modul 104, das LP-Analyse-Modul 106 und den LP-Analyse-Filter 108 geliefert. Das Modus-Entscheidungs-Modul 102 erzeugt einen Modusindex IM und einen Modus M basierend auf der Periodizität jedes Eingangssprachrahmens s(n). Verschiedene Verfahren einer Klassifizierung von Sprachrahmen gemäß einer Periodizität werden in der U.S.-Anmeldung Nr. 08/815,354 mit dem Titel „Method and Apparatus for Performing Reduced Rate Variable Rate Vocoding" beschrieben, angemeldet am 11. März 1997 von der Anmelderin der vorliegenden Erfindung. Derartige Verfahren sind auch in den „Telecommunication Industry Association Industry Interim Standards" TIA/EIA IS-127 und TIA/EIA IS-733 enthalten.
  • Das Pitch-Schätz-Modul 104 erzeugt einen Pitch-Index Ip und einen Verzögerungs(lag)wert P0 basierend auf jeden Eingangssprachrahmen s(n). Das LP-Analyse-Modul 106 führt eine Lineare-Prädiktions-Analyse auf jedem Eingangssprachrahmen s(n) durch, um einen LP-Parameter a zu erzeugen. Der LP-Parameter a wird an das LP-Quantisierungs-Modul 110 geliefert. Das LP-Quantisierungs-Modul 110 empfängt auch den Modus M, wodurch es den Quantisierungsprozess auf eine Modus-abhängige Weise durchführt. Das LP-Quantisierungs-Modul 110 erzeugt einen LP-Index ILP und einen quantisierten LP-Parameter â. Der LP-Analyse-Filter 108 empfängt den quantisierten LP-Parameter â zusätzlich zu dem Eingangssprachrahmen s(n). Der LP-Analyse-Filter 108 erzeugt ein LP-Rest-Signal R[n], das den Fehler zwischen den Eingangssprachrahmen s(n) und der rekonstruierten Sprache basierend auf den quantisierten LP-Parametern â darstellt. Der LP-Rest R[n], der Modus M und der quantisierte LP-Parameter â werden an das Rest-Quantisierungs-Modul 112 geliefert. Basierend auf diesen Werten erzeugt das Rest-Quantisierungs-Modul 112 einen Rest-Index IR und ein quantisiertes Rest-Signal R ^[n].
  • In 3 umfasst ein Decodierer 200, der in einem Sprachcodierer verwendet werden kann, ein LP-Parameter-Decodierungs-Modul 202, ein Rest-Decodierungs-Modul 204, ein Modus-Decodierungs-Modul 206 und einen LP-Synthese-Filter 208. Das Modus-Decodierungs-Modul 206 empfängt und decodiert einen Modus-Index IM, aus dem es einen Modus M erzeugt. Das LP-Parameter-Decodierungs-Modul 202 empfängt den Modus M und einen LP-Index ILP. Das LP-Parameter-Decodierungs-Modul 202 decodiert die empfangenen Werte, um einen quantisierten LP-Parameter â zu erzeugen. Das Rest-Decodierungs-Modul 204 empfängt einen Rest-Index 1R , einen Pitch-Index IP und den Modus-Index IM. Das Rest-Decodierungs-Modul 204 decodiert die empfangenen Werte, um ein quantisiertes Rest-Signal R ^[n] zu erzeugen. Das quantisierte Rest-Signal R ^[n] und der quantisierte LP-Parameter â werden an den LP-Synthese-Filter 208 geliefert, der daraus ein decodiertes Sprachsignal ŝ[n] synthetisiert.
  • Betrieb und Implementierung der verschiedenen Module des Codierers 100 von 2 und des Decodierers 200 von 3 sind in dem Stand der Technik bekannt und werden in dem oben erwähnten U.S.-Patent Nr. 5,414,796 und von L. B. Rabiner & R. W. Schafer in „Digital Processing of Speech Signals", 396–453, (1978) beschrieben.
  • Wie in dem Ablaufdiagramm von 4 dargestellt wird, folgt ein Sprachcodierer gemäß einem Ausführungsbeispiel bei der Verarbeitung von Sprachabtastwerten zur Übertragung einer Reihe von Schritten. In Schritt 300 empfängt der Sprachcodierer digitale Abtastwerte eines Sprachsignals in aufeinander folgenden Rahmen. Bei Empfang eines bestimmten Rahmens geht der Sprachcodierer zu Schritt 302 weiter. In Schritt 302 erfasst der Sprachcodierer die Energie des Rahmens. Die Energie ist ein Maß der Sprachaktivi tät des Rahmens. Eine Spracherfassung wird durchgeführt durch Summieren der Quadrate der Amplituden der digitalisierten Sprachabtastwerte und Vergleichen der resultierenden Energie mit einem Schwellenwert. In einem Ausführungsbeispiel passt sich der Schwellenwert basierend auf dem sich ändernden Pegel von Hintergrundrauschen an. Ein beispielhafter Detektor einer Sprachaktivität mit variabler Schwelle wird in dem oben erwähnten U.S.-Patent Nr. 5,414,796 beschrieben. Einige stimmlose Sprachlaute können Abtastwerte mit extrem niedriger Energie sein, die irrtümlicherweise als Hintergrundrauschen codiert werden. Um dies zu verhindern, kann die spektrale Neigung (spectral tilt) von Abtastwerten mit niedriger Energie verwendet werden, um die stimmlose Sprache von einem Hintergrundrauschen zu unterscheiden, wie in dem oben erwähnten U.S.-Patent Nr. 5,414,796 beschrieben wird.
  • Nach der Erfassung der Energie des Rahmens geht der Sprachcodierer zu Schritt 304 weiter. In Schritt 304 bestimmt der Sprachcodierer, ob die erfasste Rahmenenergie ausreichend ist, um den Rahmen als eine Sprachinformation enthaltend zu klassifizieren. Wenn die erfasste Rahmenenergie unter einen vordefinierten Schwellenpegel fällt, geht der Sprachcodierer zu Schritt 306. In Schritt 306 codiert der Sprachcodierer den Rahmen als Hintergrundrauschen (d.h. keine Sprache oder Schweigen). In einem Ausführungsbeispiel wird der Rahmen des Hintergrundrauschens mit einer 1/8-Rate oder 1 kbps codiert. Wenn in Schritt 304 die erfasste Rahmenenergie den vordefinierten Schwellenpegel erreicht oder übersteigt, wird der Rahmen als Sprache klassifiziert und der Sprachcodierer geht zu Schritt 308.
  • In Schritt 308 bestimmt der Sprachcodierer, ob der Rahmen eine stimmlose Sprache ist, d.h. der Sprachcodierer untersucht die Periodizität des Rahmens. Verschiedene bekannte Verfahren einer Periodizitätsbestimmung umfassen z.B. die Verwendung von Nulldurchgängen und die Verwendung von normalisierten Autokorrelationsfunktionen (NACFs – normalized autocorrelation functions). Insbesondere wird die Verwendung von Nulldurchgängen und NACFs zur Erfassung von Periodizität in der U.S.-Anmeldung Nr. 081815,354 mit dem Titel „Method and Apparatus for Performing Reduced Rate Variable Rate Vocoding", angemeldet am 11. März 1997 von der Anmelderin der vorliegenden Erfindung, beschrieben. Zusätzlich sind die obigen Verfahren, die verwendet werden, um stimmhafte Sprache von stimmloser Sprache zu unterscheiden in den „Telecommunication Industry Association Industry Interim Standards" TIA/EIA IS-127 und TIA/EIA IS-733 enthalten. Wenn in Schritt 308 bestimmt wird, dass der Rahmen eine stimmlose Sprache ist, geht der Sprachcodierer zu Schritt 310. In Schritt 310 codiert der Sprachcodierer den Rahmen als stimmlose Sprache. In einem Ausführungsbeispiel werden stimmlose Sprachrahmen mit einer viertel Rate oder 2.6 kbps codiert. Wenn in Schritt 308 der Rahmen nicht als stimmlose Sprache bestimmt wird, geht der Sprachcodierer zu Schritt 312.
  • In Schritt 312 bestimmt der Sprachcodierer unter Verwendung von Periodizitätserfassungsverfahren, die in dem Stand der Technik bekannt sind, wie z.B. in der oben erwähnten U.S.-Anmeldung Nr. 08/815,354 beschrieben wird, ob der Rahmen eine Übergangssprache ist. Wenn bestimmt wird, dass der Rahmen eine Übergangssprache ist, geht der Sprachcodierer zu Schritt 314. In Schritt 314 wird der Rahmen als eine Übergangssprache (d.h. ein Übergang von stimmloser Sprache zu stimmhafter Sprache) codiert. In einem Ausführungsbeispiel wird der Übergangssprachrahmen gemäß einem Mehrfachpuls-Interpolations-Codierungsverfahren codiert, das im Folgenden unter Bezugnahme auf 6 beschrieben wird.
  • Wenn in Schritt 312 der Sprachcodierer bestimmt, dass der Rahmen keine Übergangssprache ist, geht der Sprachcodierer zu Schritt 316 weiter. In Schritt 316 codiert der Sprachcodierer den Rahmen als stimmhafte Sprache. In einem Ausführungsbeispiel können stimmhafte Sprachrahmen mit voller Rate oder 13.2 kbps codiert werden.
  • Fachleute werden verstehen, dass entweder das Sprachsignal oder der entsprechende LP-Rest durch Folgen der in 4 gezeigten Schritte codiert werden kann. Die Wellenform-Charakteristiken von Rauschen, stimmloser Sprache, Übergangssprache und stimmhafter Sprache können als eine Funktion der Zeit in dem Graph von 5A betrachtet werden. Die Wellenform-Charakteristiken von Rauschen, stimmloser Sprache, Übergangssprache und stimmhaftem LP-Rest können als eine Funktion der Zeit in dem Graph von 5B betrachtet werden.
  • In einem Ausführungsbeispiel verwendet ein Sprachcodierer einen Mehrfachpuls-Interpolations-Codierungs-Algorithmus, um Übergangssprachrahmen gemäß den Verfahrensschritten zu codieren, die in dem Ablaufdiagramm von 6 gezeigt werden. In Schritt 400 schätzt der Sprachcodierer die Pitch-Periode M des aktuellen K-Abtastwert-LP-Sprach-Rest-Rahmens S[n], wobei n = 1, 2, ..., K, und die unmittelbare zukünftige Nachbarschaft des Rahmens S[n]. In einem Ausführungsbeispiel weist der LP-Sprach-Rest-Rahmen S[n] 160 Abtastwerte auf (d.h. K = 160). Die Pitch-Periode M ist eine grundlegende Periode, die sich innerhalb eines bestimmten Rahmens wiederholt. Der Sprachcodierer geht dann zu Schritt 402. In Schritt 402 extrahiert der Sprachcodierer einen Pitch-Prototyp X mit den letzten M Abtastwerten des aktuellen Restrahmens. Der Pitch-Prototyp X kann vorteilhafterweise die letzte Pitch-Periode (M Abtastwerte) des Rahmens S[n] sein. Als Alternative kann der Pitch-Prototyp X jede Pitch-Periode M des Rahmens S[n] sein. Der Sprachcodierer geht dann zu Schritt 404 weiter.
  • In Schritt 404 wählt der Sprachcodierer N wichtige Abtastwerte oder Pulse mit Amplituden Qi und Vorzeichen Si, wobei i = 1, 2, ..., N, aus Positionen Pi aus dem M-Abtastwert-Pitch-Prototyp X. Somit werden N „beste" Abtastwerte aus dem M-Abtastwert-Pitch-Prototyp X gewählt und M – N nicht gewählte Abtastwerte bleiben in dem Pitch-Prototyp X. Der Sprachcodierer geht dann zu Schritt 406. In Schritt 406 codiert der Sprachcodierer die Positionen der Pulse mit Bp Bits. Der Sprachcodierer geht dann zu Schritt 408. In Schritt 408 codiert der Sprachcodierer die Vorzeichen der Pulse mit Bs Bits. Der Sprachcodierer geht dann zu Schritt 410. In Schritt 410 codiert der Sprachcodierer die Amplituden der Pulse mit Ba Bits. Die quantisierten Werte der N Pulsamplituden Qi werden als Zi bezeichnet, wobei i = 1, 2, ..., N. Der Sprachcodierer geht dann zu Schritt 412.
  • In Schritt 412 extrahiert der Sprachcodierer die Pulse. In einem Ausführungsbeispiel wird der Pulsextrahierungsschritt durchgeführt durch Anordnen aller M Pulse gemäß der absoluten (d.h. ohne Vorzeichen) Amplitude und dann Auswählen der N höchsten Pulse (d.h. die N Pulse mit den größten absoluten Amplituden). In einem alternativen Ausführungsbeispiel wählt der Pulsextrahierungsschritt die N „besten" Pulse von dem Standpunkt einer Wahrnehmungswichtigkeit gemäß der folgenden Beschreibung aus.
  • Wie in 7 dargestellt, kann ein Sprachsignal von der LP-Rest-Domäne zu der Sprach-Domäne durch Filtern konvertiert werden. Umgekehrt kann das Sprachsignal von der Sprach-Domäne zu der LP-Rest-Domäne durch umgekehrtes Filtern konvertiert werden. Gemäß einem Ausführungsbeispiel, in 7 gezeigt, wird ein Pitch-Prototyp X in einen ersten LP-Synthesefilter 500, als H(z) bezeichnet, eingegeben. Der erste LP-Synthesefilter 500 erzeugt eine wahrnehmungsmäßig gewichtete Sprach-Domäne-Version des Pitch-Prototyps X, als S(n) bezeichnet. Ein Form-Codebuch 502 erzeugt Formvektorwerte, die an einen Multiplizierer 504 geliefert werden. Ein Verstärkungs-Codebuch 506 erzeugt Verstärkungsvektorwerte, die ebenfalls an den Multiplizierer 504 geliefert werden. Der Multiplizierer 504 multipliziert die Formvektorwerte mit den Verstärkungsvektorwerten, wodurch er Form-Verstärkungs-Produktwerte erzeugt. Die Form-Verstärkungs-Produktwerte werden an einen ersten Addierer 508 geliefert. Eine Anzahl N von Pulsen (die Anzahl N, wie unten beschrieben, ist die Anzahl von Abtastwerten, die den Form-Verstärkungs-Fehler E zwischen dem Pitch-Prototyp X und einem Modell-Prototyp e_mod[n] minimiert) wird ebenfalls an den ersten Addierer 508 geliefert. Der erste Addierer 508 addiert die N Pulse zu den Form-Verstärkungs-Produktwerten, wodurch er einen Modell-Prototyp e_mod[n] erzeugt. Der Modell-Prototyp e_mod[n] wird an einen zweiten LP-Synthesefilter 510 geliefert, der ebenfalls als H(z) bezeichnet wird. Der zweite LP-Synthesefilter 510 erzeugt eine wahrnehmungsmäßig gewichtete Sprach-Domäne-Version des Modell-Prototyps e_mod[n], als Se(n) bezeichnet. Die Sprach-Domäne-Werte S(n) und Se(n) werden an einen zweiten Addierer 512 geliefert. Der zweite Addierer 512 subtrahiert S(n) von Se(n) und liefert Differenzwerte an einen Quadratsummen-Kalkulator 514. Der Quadratsummen-Kalkulator 514 berechnet die Quadrate der Differenzwerte, wodurch er einen Energie- oder Fehler-Wert E erzeugt.
  • Gemäß dem oben unter Bezugnahme auf 6 erwähnten alternativen Ausführungsbeispiel wird die Puls-Antwort für einen LP-Synthesefilter H(z) (nicht gezeigt) oder einen wahrnehmungsmäßig gewichteten LP-Synthesefilter H(z/α) für den aktuellen Übergangssprachrahmen als H(n) bezeichnet. Das Modell des Pitch-Prototyps X wird als e_mod[n] bezeichnet. Ein wahrnehmungsmäßig gewichteter Sprach-Domäne-Fehler E kann gemäß der folgenden Gleichung definiert werden:
    Figure 00150001
    wobei Se(n) = H(n)*e_mod(n)und S(n) = H(n)*Xwobei „*" eine geeignete Filter- oder Faltungs-Operation bezeichnet, wie in dem Stand der Technik bekannt, und Se(n) und S(n) jeweils wahrnehmungsmäßig gewichtete Sprach-Domäne-Versionen der Pitch-Prototypen e_mod[n] und X bezeichnen. In dem beschriebenen alternativen Ausführungsbeispiel können die N besten Abtastwerte gewählt werden, um e_mod[n] aus den M Abtastwerten des Pitch-Prototypen X wie folgt zu bilden: die N Abtastwerte, die als der j-te Satz aus möglichen MCN Kombinationen bezeichnet werden können, werden vorteilhafterweise gewählt, das Modell e_modj(n) derart zu erzeugen, dass der Fehler Ej für alle j, die zu j = 1, 2, 3, ..., MCN gehören, minimiert wird, wobei Ej gemäß den folgenden Gleichungen definiert ist:
    Figure 00160001
    und Sej(n) = H(n)*e_modj[n].
  • Nach dem Extrahieren der Pulse geht der Sprachcodierer zu Schritt 414. In Schritt 414 werden die verbleibenden M – N Abtastwerte des Pitch-Prototyps X gemäß einem von zwei möglichen Verfahren dargestellt, die zu alternativen Ausführungsbeispielen gehören. In einem Ausführungsbeispiel können die verbleibenden M – N Abtastwerte des Pitch-Prototyps X durch Ersetzen der M – N Abtastwerte mit Nullwerten gewählt werden. In einem alternativen Ausführungsbeispiel können die verbleibenden M – N Abtastwerte des Pitch-Prototyps X durch Ersetzen der M – N Abtastwerte mit einem Formvektor unter Verwendung eines Codebuchs mit Rs Bits und einer Verstärkung unter Verwendung eines Codebuchs mit Rg Bits gewählt werden. Demgemäß stellen eine Verstärkung g und ein Formvektor H die M – N Abtastwerte dar. Die Verstärkung g und der Formvektor H weisen Komponentenwerte gj und Hk auf, die aus den Codebüchern gewählt werden durch Minimieren der Verzerrung Ejk. Die Verzerrung Ejk wird durch die folgende Gleichung geliefert:
    Figure 00160002
    und Sejk(n) = H(n)*e_modjk[n],wobei der Modell-Prototyp e_modjk[n] gebildet wird mit den oben beschriebenen M Pulsen und den M – N Abtastwerten, die von dem j-ten Verstärkungs-Codewort gj und dem k-ten Form-Codewort Hk dargestellt werden. Die Auswahl kann somit vorteilhafterweise auf eine gemeinsam optimierte Weise durchgeführt werden durch Wählen der Kombination {j, k}, die den Minimalwert von Ejk liefert. Der Sprachcodierer geht dann zu Schritt 416.
  • In Schritt 416 wird der codierte Pitch-Prototyp Y berechnet. Der codierte Pitch-Prototyp Y modelliert den ursprünglichen Pitch-Prototyp X durch Zurücksetzen der N Pulse in die Positionen Pi, Ersetzen der Amplituden Qi mit Si*Zi und Ersetzen der verbleibenden M – N Abtastwerte entweder mit Nullen (in einem Ausführungsbeispiel) oder den Abtastwerten aus der gewählten Verstärkungs-Form-Darstellung g*H, wie oben beschrieben (in einem alternativen Ausführungsbeispiel). Der codierte Pitch-Prototyp Y entspricht der Summe der rekonstruierten oder synthetisierten N „besten" Abtastwerte plus den rekonstruierten oder synthetisierten verbleibenden M – N Abtastwerten. Der Sprachcodierer geht dann zu Schritt 418.
  • In Schritt 418 extrahiert der Sprachcodierer einen M-Abtastwert „letzter Prototyp" W aus dem letzten (d.h. unmittelbar vorausgehenden) decodierten Rest-Rahmen. Der letzte Prototyp W wird extrahiert durch Entnehmen der letzten M Abtastwerte aus dem letzten decodierten Rest-Rahmen. Alternativ kann der letzte Prototyp W aus einem anderen Satz von M Abtastwerten des letzten Rahmens konstruiert werden, vorausgesetzt, der Pitch-Prototyp X wurde aus einem entsprechenden Satz von M Abtastwerten des aktuellen Rahmens entnommen. Der Sprachcodierer geht dann zu Schritt 420.
  • In Schritt 420 rekonstruiert der Sprachcodierer die gesamten K Abtastwerte des decodierten aktuellen Rahmens des Rests SSYNTH[n]. Die Rekonstruktion wird vorteilhafterweise mit jedem herkömmlichen Interpolationsverfahren erreicht, indem die letzten M Abtastwerte mit dem rekonstruierten Pitch-Prototyp Y gebildet werden und die ersten K – M Abtastwerte durch Interpolieren des letzten Prototyps W und des aktuellen codierten Pitch-Prototyps Y gebildet werden. In einem Ausführungsbeispiel kann die Interpolation gemäß den folgenden Schritten durchgeführt werden:
    W und Y werden vorteilhafterweise zuerst ausgerichtet, um die optimale relative Positionierung und die durchschnittliche für eine Interpolation zu verwendende Pitch-Periode zu erhalten. Die Ausrichtung A* wird erlangt als die Rotation des aktuellen Pitch-Prototyps Y, die der maximalen Kreuzkorrelation des rotierten Y mit W entspricht. Die Kreuzkorrelationen C[A] an jeder möglichen Ausrichtung A, mit Werten von 0 bis M – 1 oder einem Teilsatz in dem Bereich von 0 bis M – 1, kann wiederum gemäß der folgenden Gleichung berechnet werden:
  • Figure 00180001
  • Die durchschnittliche Pitch-Periode Lav wird dann gemäß der folgenden Gleichung berechnet: Lav = (160 – M)M/(MNp – A*),wobei Np = round{A*/M + (160 – M)/M}.
  • Eine Interpolation wird durchgeführt, um die ersten K – M Abtastwerte gemäß der folgenden Gleichung zu berechnen: SSYNTH = {(160 – n – M)W[(nα)%M] + nY[(nα + A*)%M]}/(160 – M),wobei α = M/Lav und der Abtastwert bei nicht-ganzzahligen Werten für die Indices n' (die entweder zu nα oder nα + A* gleich sind) unter Verwendung eines herkömmlichen Interpolationsverfahrens abhängig von der gewünschten Genauigkeit des fraktionalen Werts von n' berechnet wird. Die Rundungsoperation und die Modulo-Operation (durch das %-Symbol bezeichnet) in den obigen Gleichungen sind in dem Stand der Technik weithin bekannt. Graphen einer ursprünglichen Übergangssprache, eines uncodierten Rests, eines codierten/quantisierten Rests und einer decodierten/rekonstruierten Sprache hinsichtlich der Zeit werden jeweils in den 8A–D gezeigt.
  • In einem Ausführungsbeispiel kann der codierte Übergangs-Rest-Rahmen gemäß einer Technik mit einer Rückkopplungsschleife (closed-loop) berech net werden. Demgemäß wird der codierte Übergangs-Rest-Rahmen wie oben beschrieben berechnet. Dann wird der Wahrnehmungs-Rauschabstand (PSNR – perceptual signal-to-noise ratio) für den gesamten Rahmen berechnet. Wenn der PSNR über einen vordefinierten Schwellenwert steigt, kann ein geeignetes hochpräzises Wellenform-Codierverfahren hoher Rate wie CELP verwendet werden, um den Rahmen zu codieren. Eine derartige Technik wird beschrieben in der U.S.-Anmeldung Nr. 09/259,151, angemeldet am 26. Februar 1999 mit dem Titel „Closed-Loop Multimode Mixed-Domain Linear Prediction (MDLP) Speech Coder" von der Anmelderin der vorliegenden Erfindung. Durch eine Verwendung des oben beschriebenen Sprachcodierverfahrens niedriger Bitrate, wenn möglich, und Ersetzen eines CELP-Sprachcodierverfahrens hoher Rate, wenn das Sprachcodierverfahrens niedriger Bitrate keinen Sollwert des Verzerrungsmaßes liefert, können Übergangssprachrahmen mit einer relativ hohen Qualität (wie von einem Schwellenwert oder dem verwendeten Verzerrungsmaß bestimmt) codiert werden, während eine niedrige durchschnittliche Codierrate verwendet wird.
  • Somit wurde ein neuer Mehrfachpuls-Interpolations-Codierer für Übergangssprachrahmen beschrieben. Für Fachleute ist offensichtlich, dass die verschiedenen erläuternden logischen Blöcke und Algorithmus-Schritte, die in Verbindung mit den hier offenbarten Ausführungsbeispielen beschrieben werden, mit einem digitalen Signalprozessor (DSP – digital signal processor), einem anwendungsspezifischen Schaltkreis (ASIC – application-specific integrated circuit), einer diskreten Gatter- oder Transistor-Logik, diskreten Hardware-Komponenten, wie z.B. Register und FIFO, einem Prozessor, der einen Satz von Firmware-Anweisungen ausgeführt oder jedem herkömmlichen programmierbaren Softwaremodul und einem Prozessor implementiert oder durchgeführt werden können. Der Prozessor kann vorteilhafterweise ein Mikroprozessor sein, aber als Alternative kann der Prozessor jeder herkömmliche Prozessor, jede Steuereinrichtung, Mikro-Steuereinrichtung oder Zustandsmaschine sein. Das Softwaremodul kann sich in einem RAM-Speicher, einem Flash-Speicher, Registern oder jeder anderen in der Technik bekannten Form eines beschreibbaren Speichermittels befinden. Für Fachleute ist weiter offensichtlich, dass die Daten, Anweisungen, Befehle, Information, Signale, Bits, Symbole und Chips, auf die in der obigen Beschreibung Bezug genommen wird, vorteilhafterweise von Spannungen, Strom, elektromagnetischen Wellen, magnetischen Feldern oder Teilchen, optischen Feldern oder Teilchen oder jeder Kombination daraus dargestellt werden können.
  • Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung wurden somit gezeigt und beschrieben. Es ist jedoch für Fachleute offensichtlich, dass zahlreiche Änderungen an den hier offenbarten Ausführungsbeispielen gemacht werden können ohne vom Umfang der Erfindung abzuweichen. Somit soll die vorliegende Erfindung nicht eingeschränkt sein, außer gemäß den folgenden Ansprüchen.

Claims (17)

  1. Ein Verfahren zum Kodieren von Übergangssprachrahmen (transitional speech frames), wobei das Verfahren folgende Schritte aufweist: Repräsentieren eines ersten Rahmens von Übergangssprachabtastungen durch einen ersten Teilsatz von Abtastungen bzw. Samples (402, 416) des ersten Rahmens; und Interpolieren (420) des ersten Teilsatzes von Abtastungen (402, 416) und eines ausgerichteten zweiten Teilsatzes von Abtastungen (418), die aus einem zweiten, früher empfangenen Rahmen von Übergangssprachabtastungen extrahiert wurden, um andere Abtastungen des ersten Rahmens, die in dem ersten Teilsatz (402, 416) nicht enthalten sind, zu synthetisieren bzw. generieren.
  2. Verfahren nach Anspruch 1, das weiterhin folgende Schritte aufweist: Senden des ersten Teilsatzes von Abtastungen (402, 416) nach Ausführen des Repräsentierungsschrittes, und Empfangen des erstens Teilsatzes von Abtastungen (402, 416) vor dem Ausführen des Interpolierungsschrittes (420).
  3. Verfahren nach Anspruch 1, das weiterhin den Schritt des Vereinfachens des ersten Teilsatzes von Abtastungen (402, 416) aufweist.
  4. Verfahren nach Anspruch 3, wobei der Vereinfachungsschritt folgende Schritte aufweist: Auswählen von wahrnehmungsmäßig signifikanten Abtastungen (7) aus dem ersten Teilsatz von Abtastungen (402, 416) und Zuweisen eines Nullwertes zu allen nicht ausgewählten Abtastungen (414, 416).
  5. Verfahren nach Anspruch 3, wobei der Vereinfachungsschritt folgende Schritte aufweist: Auswählen von Abtastungen mit relativ hohen Betragsamplituden (412) aus dem ersten Teilsatz von Abtastungen (402, 416) und Zuweisen eines Nullwertes für alle nicht ausgewählten Abtastungen (414, 416).
  6. Verfahren nach Anspruch 4, wobei die wahrnehmungsmäßig signifikanten Abtastungen (7) Abtastungen sind, die ausgewählt werden, um wahrnehmungsmäßig gewichtete Sprachdomän- bzw. Ebenenfehler (5147) zwischen dem ersten Rahmen von Übergangssprachabtastungen und einem generierten ersten Rahmen von Übergangsprachabtastungen zu minimieren.
  7. Verfahren nach Anspruch 3, wobei der Vereinfachungsschritt die Schritte des Auswählens von wahrnehmungsmäßig signifikanten Abtastungen (7) aus dem ersten Teilsatz von Abtastungen (402, 416) und das Quantisieren eines Teils von allen nicht ausgewählten Abtastungen (414) aufweist.
  8. Verfahren nach Anspruch 3, wobei der Vereinfachungsschritt die Schritte des Auswählen von Abtastungen mit relativ hohen Betragsamplituden (412) aus dem ersten Teilsatz von Abtastungen (402, 416) und das Quantisieren eines Teils von allen nicht ausgewählten Abtastungen aufweist.
  9. Verfahren nach Anspruch 7, wobei die wahrnehmungsmäßig signifikanten Abtastungen (7) Abtastungen sind, die ausgewählt werden um Verstärkungs- bzw. Gain- und Formfehler (414) zwischen dem ersten Rahmen von Übergangssprachabtastungen und einem generierten ersten Rahmen von Übergangsprachabtastungen zu minimieren.
  10. Ein Sprachkodierer zum Kodieren von Übergangsprachrahmen der Folgendes aufweist: Mittel zum Repräsentieren eines ersten Rahmens von Übergangssprachabtastungen durch einen ersten Teilsatz der Abtastungen (402, 416) des ersten Rahmens; und Mittel zum Interpolieren (420) des ersten Teilsatzes von Abtastungen (402, 416) und eines ausgerichteten zweiten Teilsatzes von Abtastungen (418), die aus einem zweiten, vorher empfangenen Rahmen von Übergangsprachabtastungen extrahiert wurden, um andere Abtastungen des ersten Rahmens, die nicht in dem ersten Teilsatz (402, 416) enthalten sind zu generieren bzw. synthetisieren.
  11. Sprachkodierer nach Anspruch 10, der weiter Mittel zum Vereinfachen des ersten Teilsatzes von Abtastungen (402, 416) aufweist.
  12. Sprachkodierer nach Anspruch 11, wobei die Mittel zum Vereinfachen Mittel aufweisen zum Auswählen von wahrnehmungsmäßig signifikanten Abtastungen (7) aus dem ersten Teilsatz von Abtastungen (402, 416) und Mittel zum Zuweisen eines Nullwertes für alle nicht ausgewählten Abtastungen (414, 416).
  13. Sprachkodierer nach Anspruch 11, wobei die Mittel zum Vereinfachen Mittel aufweisen zum Auswählen von Abtastungen mit relativ hohen Betrags- bzw. Absolutamplituden (412) von dem ersten Teilsatz von Abtastungen (402, 416), und Mittel zum Zuweisen eines Nullwertes für alle nicht ausgewählten Abtastungen (414, 416).
  14. Sprachkodierer nach Anspruch 12, wobei die wahrnehmungsmäßig signifikanten Abtastungen (7) Abtastungen sind, die ausgewählt werden, um wahrnehmungsmäßig gewichtete Sprachdomänfehler (5147) zwischen den ersten Rahmen von Übergangssprachabtastungen und einem generierten ersten Rahmen von Übergangsprachabtastungen zu minimieren.
  15. Sprachkodierer nach Anspruch 11, wobei die Mittel zum Vereinfachen Mittel aufweisen zum Auswählen von wahrnehmungsmäßig signifikanten Abtastungen (7) aus dem ersten Teilsatz von Abtastungen (402, 416) und Mittel zum Quantisieren eines Teils von allen nicht ausgewählten Abtastungen (414).
  16. Sprachkodierer nach Anspruch 11, wobei die Mittel zum Vereinfachen Mittel aufweisen zum Auswählen von Abtastungen mit relativ hohen Betragsamplituden (412) aus dem ersten Teilsatz von Abtastungen (402, 416) und Mittel zum Quantisieren eines Teils von allen nicht ausgewählten Abtastungen (414).
  17. Sprachkodierer nach Anspruch 15, wobei die wahrnehmungsmäßig signifikanten Abtastungen (7) Abtastungen sind, die ausgewählt werden um Verstärkungs- und Formfehler (414) zwischen den ersten Rahmen von Übergangssprachabtastungen und einem generierten ersten Rahmen von Übergangssprachabtastungen zu minimieren.
DE60024080T 1999-05-07 2000-05-08 Kodierung von sprachsegmenten mit signalübergängen durch interpolation von mehrimpulsanregungssignalen Expired - Lifetime DE60024080T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US307294 1999-05-07
US09/307,294 US6260017B1 (en) 1999-05-07 1999-05-07 Multipulse interpolative coding of transition speech frames
PCT/US2000/012656 WO2000068935A1 (en) 1999-05-07 2000-05-08 Multipulse interpolative coding of transition speech frames

Publications (2)

Publication Number Publication Date
DE60024080D1 DE60024080D1 (de) 2005-12-22
DE60024080T2 true DE60024080T2 (de) 2006-08-03

Family

ID=23189096

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60024080T Expired - Lifetime DE60024080T2 (de) 1999-05-07 2000-05-08 Kodierung von sprachsegmenten mit signalübergängen durch interpolation von mehrimpulsanregungssignalen

Country Status (11)

Country Link
US (1) US6260017B1 (de)
EP (1) EP1181687B1 (de)
JP (1) JP4874464B2 (de)
KR (1) KR100700857B1 (de)
CN (1) CN1188832C (de)
AT (1) ATE310303T1 (de)
AU (1) AU4832200A (de)
DE (1) DE60024080T2 (de)
ES (1) ES2253226T3 (de)
HK (1) HK1044614B (de)
WO (1) WO2000068935A1 (de)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6456964B2 (en) * 1998-12-21 2002-09-24 Qualcomm, Incorporated Encoding of periodic speech using prototype waveforms
US6681203B1 (en) * 1999-02-26 2004-01-20 Lucent Technologies Inc. Coupled error code protection for multi-mode vocoders
GB2355607B (en) * 1999-10-20 2002-01-16 Motorola Israel Ltd Digital speech processing system
US6757301B1 (en) * 2000-03-14 2004-06-29 Cisco Technology, Inc. Detection of ending of fax/modem communication between a telephone line and a network for switching router to compressed mode
US7606703B2 (en) * 2000-11-15 2009-10-20 Texas Instruments Incorporated Layered celp system and method with varying perceptual filter or short-term postfilter strengths
US20050234712A1 (en) * 2001-05-28 2005-10-20 Yongqiang Dong Providing shorter uniform frame lengths in dynamic time warping for voice conversion
US20040199383A1 (en) * 2001-11-16 2004-10-07 Yumiko Kato Speech encoder, speech decoder, speech endoding method, and speech decoding method
KR101019936B1 (ko) * 2005-12-02 2011-03-09 퀄컴 인코포레이티드 음성 파형의 정렬을 위한 시스템, 방법, 및 장치
KR100883652B1 (ko) * 2006-08-03 2009-02-18 삼성전자주식회사 음성 구간 검출 방법 및 장치, 및 이를 이용한 음성 인식시스템
CN101540612B (zh) * 2008-03-19 2012-04-25 华为技术有限公司 编码、解码***、方法及装置
US8195452B2 (en) * 2008-06-12 2012-06-05 Nokia Corporation High-quality encoding at low-bit rates
WO2010007211A1 (en) * 2008-07-17 2010-01-21 Nokia Corporation Method and apparatus for fast nearestneighbor search for vector quantizers
CN101615911B (zh) * 2009-05-12 2010-12-08 华为技术有限公司 一种编解码方法和装置
KR20110001130A (ko) * 2009-06-29 2011-01-06 삼성전자주식회사 가중 선형 예측 변환을 이용한 오디오 신호 부호화 및 복호화 장치 및 그 방법
CN102598124B (zh) * 2009-10-30 2013-08-28 松下电器产业株式会社 编码装置、解码装置及其方法
CN102222505B (zh) * 2010-04-13 2012-12-19 中兴通讯股份有限公司 可分层音频编解码方法***及瞬态信号可分层编解码方法
US8990094B2 (en) * 2010-09-13 2015-03-24 Qualcomm Incorporated Coding and decoding a transient frame
US11270721B2 (en) * 2018-05-21 2022-03-08 Plantronics, Inc. Systems and methods of pre-processing of speech signals for improved speech recognition

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4441201A (en) * 1980-02-04 1984-04-03 Texas Instruments Incorporated Speech synthesis system utilizing variable frame rate
CA1255802A (en) 1984-07-05 1989-06-13 Kazunori Ozawa Low bit-rate pattern encoding and decoding with a reduced number of excitation pulses
CA1252568A (en) 1984-12-24 1989-04-11 Kazunori Ozawa Low bit-rate pattern encoding and decoding capable of reducing an information transmission rate
JP2707564B2 (ja) 1987-12-14 1998-01-28 株式会社日立製作所 音声符号化方式
JPH01207800A (ja) 1988-02-15 1989-08-21 Nec Corp 音声合成方式
JPH02160300A (ja) * 1988-12-13 1990-06-20 Nec Corp 音声符号化方式
JP3102015B2 (ja) * 1990-05-28 2000-10-23 日本電気株式会社 音声復号化方法
CA2483322C (en) 1991-06-11 2008-09-23 Qualcomm Incorporated Error masking in a variable rate vocoder
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
US5884253A (en) 1992-04-09 1999-03-16 Lucent Technologies, Inc. Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter
US5784532A (en) 1994-02-16 1998-07-21 Qualcomm Incorporated Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system
TW271524B (de) * 1994-08-05 1996-03-01 Qualcomm Inc
JP3747492B2 (ja) * 1995-06-20 2006-02-22 ソニー株式会社 音声信号の再生方法及び再生装置
SE506341C2 (sv) * 1996-04-10 1997-12-08 Ericsson Telefon Ab L M Metod och anordning för rekonstruktion av en mottagen talsignal
JPH10214100A (ja) * 1997-01-31 1998-08-11 Sony Corp 音声合成方法
US6029133A (en) * 1997-09-15 2000-02-22 Tritech Microelectronics, Ltd. Pitch synchronized sinusoidal synthesizer
EP1424346A4 (de) * 2001-07-31 2008-05-07 Mitsubishi Chem Corp Polymerisationsverfahren und düse zur verwendung bei dem polymerisationsverfahren

Also Published As

Publication number Publication date
EP1181687A1 (de) 2002-02-27
ATE310303T1 (de) 2005-12-15
CN1355915A (zh) 2002-06-26
KR100700857B1 (ko) 2007-03-29
EP1181687B1 (de) 2005-11-16
JP2002544551A (ja) 2002-12-24
US6260017B1 (en) 2001-07-10
WO2000068935A1 (en) 2000-11-16
HK1044614B (zh) 2005-07-08
ES2253226T3 (es) 2006-06-01
CN1188832C (zh) 2005-02-09
DE60024080D1 (de) 2005-12-22
JP4874464B2 (ja) 2012-02-15
KR20010112480A (ko) 2001-12-20
HK1044614A1 (en) 2002-10-25
AU4832200A (en) 2000-11-21

Similar Documents

Publication Publication Date Title
DE60129544T2 (de) Kompensationsverfahren bei rahmenauslöschung in einem sprachkodierer mit veränderlicher datenrate
DE60123651T2 (de) Verfahren und vorrichtung zur robusten sprachklassifikation
DE60133757T2 (de) Verfahren und vorrichtung zur kodierung von stimmloser sprache
DE60024080T2 (de) Kodierung von sprachsegmenten mit signalübergängen durch interpolation von mehrimpulsanregungssignalen
DE60128677T2 (de) Verfahren und vorrichtung zur prädiktiven quantisierung von stimmhaften sprachsignalen
DE60031002T2 (de) Multimodaler mischbereich-sprachkodierer mit geschlossener regelschleife
DE60027573T2 (de) Quantisierung der spektralen amplitude in einem sprachkodierer
DE69900786T2 (de) Sprachkodierung
DE60017763T2 (de) Verfahren und vorrichtung zur erhaltung einer ziel-bitrate in einem sprachkodierer
DE60011051T2 (de) Celp-transkodierung
DE69928288T2 (de) Kodierung periodischer sprache
DE60121405T2 (de) Transkodierer zur Vermeidung einer Kaskadenkodierung von Sprachsignalen
DE602004003610T2 (de) Halbrätiger Vocoder
DE60219351T2 (de) Signaländerungsverfahren zur effizienten kodierung von sprachsignalen
DE69923079T2 (de) Kodierung von stimmlosen sprachsegmenten mit niedriger datenrate
DE60012760T2 (de) Multimodaler sprachkodierer
DE60032006T2 (de) Prädiktionssprachkodierer mit musterauswahl für kodierungsshema zum reduzieren der empfindlichkeit für rahmenfehlern
DE69924280T2 (de) Sprachsynthese aus grundfrequenz-prototypwellenformen durch zeit-synchrone wellenforminterpolation
DE60027012T2 (de) Verfahren und vorrichtung zur verschachtelung der quantisierungsverfahren der spektralen frequenzlinien in einem sprachkodierer
DE60128479T2 (de) Verfahren und vorrichtung zur bestimmung eines synthetischen höheren bandsignals in einem sprachkodierer
DE60023913T2 (de) Verfahren und vorrichtung zur unterabtastung der im phasenspektrum erhaltenen information
DE60023851T2 (de) Verfahren und vorrichtung zur erzeugung von zufallszahlen für mit 1/8 bitrate arbeitenden sprachkodierer
DE60030997T2 (de) Verteilung des Frequenzspektrums einer Prototypwellenform
DE69808339T2 (de) Verfahren zur sprachkodierung bei hintergrundrauschen
DE60025471T2 (de) Verfahren und vorrichtung zum nachführen der phase eines fast periodischen signals

Legal Events

Date Code Title Description
8364 No opposition during term of opposition