DE60024080T2

DE60024080T2 - Kodierung von sprachsegmenten mit signalübergängen durch interpolation von mehrimpulsanregungssignalen

Info

Publication number: DE60024080T2
Application number: DE60024080T
Authority: DE
Inventors: Amitava Das; Sharath Vijayanagar Bangalore MANJUNATH
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 1999-05-07
Filing date: 2000-05-08
Publication date: 2006-08-03
Anticipated expiration: 2020-05-09
Also published as: EP1181687A1; ATE310303T1; CN1355915A; KR100700857B1; EP1181687B1; JP2002544551A; US6260017B1; WO2000068935A1; HK1044614B; ES2253226T3; CN1188832C; DE60024080D1; JP4874464B2; KR20010112480A; HK1044614A1; AU4832200A

Description

Hintergrund der Erfindung
I. Gebiet der Erfindung
Die vorliegende Erfindung betrifft im Allgemeinen das Gebiet einer Sprachverarbeitung und insbesondere eine Mehrfachpuls-Interpolations-Codierung von Übergangssprachrahmen.
II. Hintergrund
Eine Übertragung von Sprache durch digitale Techniken ist weit verbreitet, insbesondere bei Fern- und digitalen Funktelefonanwendungen. Dies hat wiederum Interesse geweckt an der Bestimmung der geringsten Menge an Information, die über einen Kanal gesendet werden kann, während die wahrgenommene Qualität der rekonstruierten Sprache beibehalten wird. Wenn Sprache durch einfach Abtasten und Digitalisieren übertragen wird, ist eine Datenrate in dem Bereich von vierundsechzig Kilobits pro Sekunde (kbps) erforderlich, um eine Sprachqualität eines herkömmlichen analogen Telefons zu erzielen. Durch die Verwendung von Sprachanalyse jedoch, gefolgt von der geeigneten Codierung, Übertragung und Resynthese an dem Empfänger, kann eine signifikante Reduzierung der Datenrate erzielt werden.
Vorrichtungen, die Techniken einsetzen, um Sprache durch Extrahieren von Parametern zu komprimieren, die einem Modell einer menschlichen Spracherzeugung entsprechen, werden als Sprachcodierer bezeichnet. Ein Sprachcodierer teilt das eingehende Sprachsignal in zeitliche Blöcke oder Analyserahmen. Sprachcodierer weisen typischerweise einen Codierer und einen Decodierer auf. Der Codierer analysiert den eingehenden Sprachrahmen, um bestimmte relevante Parameter zu extrahieren, und quantisiert dann die Parameter in eine binäre Darstellung, d.h. in einen Satz von Bits oder ein binäres Datenpaket. Die Datenpakete werden über den Kommunikationskanal an einen Empfänger und einen Decodierer übertragen. Der Decodierer verarbeitet die Datenpakete, dequantisiert sie, um Parameter zu erzeugen, und resynthetisiert die Sprachrahmen unter Verwendung der dequantisierten Parameter.
Die Funktion des Sprachcodierers liegt darin, das digitalisierte Sprachsignal in ein Signal geringer Bitrate durch Entfernen aller in der Sprache inhärenten natürlichen Redundanzen zu komprimieren. Die digitale Komprimierung wird erreicht durch Darstellen des Eingangssprachrahmens mit einem Satz von Parametern und durch Einsatz einer Quantisierung, um die Parameter mit einem Satz von Bits darzustellen. Wenn der Eingangssprachrahmen eine Anzahl von Bits N_i aufweist und das von dem Sprachcodierer erzeugte Datenpaket eine Anzahl von Bits N_o aufweist, beträgt der von dem Sprachcodierer erzielte Komprimierungsfaktor C_r = N_i/N_o. Die Herausforderung liegt darin, eine hohe Sprachqualität der decodierten Sprache während einer Erzielung des Soll-Komprimierungsfaktors beizubehalten. Die Leistung eines Sprachcodierers hängt ab davon, (1) wie gut das Sprachmodell oder die Kombination des oben beschriebenen Analyse- und Synthesevorgangs arbeitet, und (2) wie gut der Parameterquantisierungsvorgang bei der Soll-Bitrate von N_o Bits pro Rahmen durchgeführt wird. Das Ziel des Sprachmodells ist somit, die Essenz des Sprachsignals oder die Soll-Sprachqualität mit einem kleinen Satz von Parametern für jeden Rahmen vorzusehen.
Sprachcodierer können implementiert werden als Zeitbereichs-Codierer, die versuchen, die Zeitbereichs-Sprachwellenform zu erfassen durch Einsatz einer hohen Zeitauflösungsverarbeitung, um jeweils kleine Segmente von Sprache (typischerweise 5 Millisekunden (ms) Teilrahmen) zu codieren. Ein Beispiel eines Zeitbereichs-Codierers wird offenbart in dem U.S.-Patent 4,821,324, wobei kleine Segmente eines Sprachrahmens codiert werden. Der Sprachrahmen wird rekonstruiert durch Anwenden einer so genannten Interpolation über den aktuellen Rahmen, unter Verwendung von regenerierten Segmenten in den vorherigen, aktuellen und folgenden Sprachrah men. In anderen Beispielen wird für jeden Teilrahmen ein hochgenauer Repräsentant aus einem Codebuchraum mittels verschiedener in der Technik bekannter Suchalgorithmen gefunden. Alternativ können Sprachcodierer als Frequenzbereichs-Codierer implementiert werden, die versuchen, das Kurzzeit-Sprachspektrum des Eingangssprachrahmens mit einem Satz von Parametern zu erfassen (Analyse), und einen entsprechenden Syntheseprozess einsetzen, um die Sprachwellenform aus den spektralen Parametern wiederherzustellen. Der Parameter-Quantisierer erhält die Parameter, indem er sie durch gespeicherte Darstellungen von Code-Vektoren gemäß bekannten Quantisierungstechniken darstellt, die von A. Gersho & R. M. Gray in „Vector Quantization and Signal Compression" (1992) beschrieben werden.
Ein weithin bekannter Zeitbereichs-Sprachcodierer ist der CELP(Code Excited Linear Predictive)-Codierer, der von L. B. Rabiner & R. W. Schafer in „Digital Processing of Speech Signals", 396–453, (1978) beschrieben wird.
In einem CELP-Codierer werden die Kurzzeit-Korrelationen oder Redundanzen in dem Sprachsignal von einer LP(linear prediction)-Analyse entfernt, welche die Koeffizienten eines Kurzzeit-Formant-Filters findet. Ein Anwenden des Kurzzeit-Voraussage(prediction)-Filters auf den eingehenden Sprachrahmen erzeugt ein LP-Restsignal, das weiter mit Langzeit-Voraussage-Filter-Parametern und einem nachfolgenden stochastischem Codebuch modelliert und quantisiert wird. Somit teilt eine CELP-Codierung die Aufgabe einer Codierung der Zeitbereichs-Sprachwellenform in die getrennten Aufgaben einer Codierung der LP-Kurzzeit-Filter-Koeffizienten und einer Codierung des LP-Rests. Eine Zeitbereichs-Codierung kann mit einer festen Rate (d.h. unter Verwendung derselben Anzahl von Bits, N_o, für jeden Rahmen) oder mit einer variablen Rate (in der unterschiedliche Bitraten für unterschiedliche Typen von Rahmeninhalten verwendet werden) durchgeführt werden. Codierer mit variabler Rate versuchen, nur die Menge von Bits zu verwenden, die erforderlich ist, um die Codec-Parameter auf einen Level zu codieren, der ausreichend ist, um eine Soll-Qualität zu erhalten. Ein bei spielhafter CELP-Codierer mit variabler Rate wird in dem U.S.-Patent Nr. 5,414,798 beschrieben, das der Anmelderin der vorliegenden Erfindung erteilt wurde und unter Bezugnahme hier vollständig aufgenommen ist.
Zeitbereichs-Codierer, wie der CELP-Codierer, stützen sich auf eine hohe Anzahl von Bits, N_o, pro Rahmen, um die Genauigkeit der Zeitbereichs-Sprachwellenform zu bewahren. Derartige Codierer liefern typischerweise eine exzellente Sprachqualität, vorausgesetzt, die Anzahl von Bits, N_o, pro Rahmen ist relativ groß (z.B. 8 kbps oder höher). Bei niedrigen Bitraten (4 kbps und darunter) jedoch scheitern Zeitbereichs-Codierer aufgrund der begrenzten Anzahl von verfügbaren Bits, eine hohe Qualität und robuste Leistung aufrechtzuerhalten. Bei niedrigen Bitraten beschneidet (clip) der begrenzte Codebuchraum die Wellenformübereinstimmungs-Fähigkeit von herkömmlichen Zeitbereichs-Codierern, die erfolgreich in kommerziellen Anwendungen mit höherer Rate eingesetzt werden.
Momentan gibt es einen Anstieg eines Forschungsinteresses und eine hohe kommerzielle Notwendigkeit, einen hochwertigen Sprachcodierer zu entwickeln, der bei mittleren bis geringen Bitraten arbeitet (d.h. in dem Bereich von 2.4 bis 4 kbps und darunter). Die Anwendungsgebiete umfassen ein drahtloses Fernsprechwesen, Satellitenkommunikation, Internettelephonie, verschiedene Multimedia- und Sprach-Streaming-Anwendungen, Voice-Mail und andere Sprachspeichersysteme. Die treibenden Kräfte sind die Notwendigkeit einer hohen Kapazität und die Nachfrage nach robuster Leistung in Paketverlustsituationen. Verschiedene Sprachcodier-Standardisierungsversuche der letzten Zeit sind eine weitere direkte Antriebskraft, die Forschung und Entwicklung von Sprachcodieralgorithmen niedriger Rate antreiben. Ein Sprachcodierer mit niedriger Rate erzeugt mehr Kanäle oder Benutzer pro zulässiger Anwendungsbandbreite und ein Sprachcodierer niedriger Rate verbunden mit einer zusätzlichen Ebene einer geeigneten Kanalcodierung kann für das gesamte Bit-Budget von Codierer-Spezifikationen geeignet sein und eine robuste Leistung unter Kanalfehlerbedingungen liefern.
Eine erfolgreiche Technik, um Sprache effektiv bei niedrigen Bitraten zu codieren, ist eine Multimode-Codierung. Eine beispielhafte Multimode-Codierungstechnik wird von Amitava Das et. al. in „Multimode and Variable-Rate Coding of Speech", in Speech Coding and Synthesis, Kap. 7 (W. B. Kleijn & K. K. Paliwal, Ed., 1995) beschrieben. Herkömmliche Multimode-Codierer wenden unterschiedliche Modi, oder Codierungs-Decodierungs-Algorithmen, auf unterschiedliche Typen von Eingangssprachrahmen an. Jeder Modus oder Codierungs-Decodierungs-Prozess ist individuell angepasst, um optimal einen bestimmten Typ eines Sprachsegments, wie z.B. stimmhafte Sprache, stimmlose Sprache, Übergangssprache (z.B. zwischen stimmhaft und stimmlos) und Hintergrundrauschen (keine Sprache), auf die effizienteste Weise darzustellen. Ein externer Modus-Entscheidungsmechanismus ohne Rückkopplung (open-loop) untersucht den Eingangssprachrahmen und fällt eine Entscheidung hinsichtlich welcher Modus auf den Rahmen anzuwenden ist. Die Modus-Entscheidung ohne Rückkopplung wird typischerweise durch Extrahieren einer Anzahl von Parametern aus dem Eingangsrahmen, Evaluieren der Parameter, um zeitliche und spektrale Charakteristiken zu bestimmen, und Basieren einer Modus-Entscheidung auf die Evaluierung durchgeführt. Die Modus-Entscheidung wird somit gefällt, ohne im Vorhinein die exakte Beschaffenheit der ausgegebenen Sprache zu wissen, d.h. wie nah die ausgegebene Sprache bezüglich einer Sprachqualität oder anderer Leistungsmaße zu der eingegebene Sprache ist.
Um eine hohe Sprachqualität beizubehalten ist es kritisch, Übergangssprachrahmen genau darzustellen. Für einen Sprachcodierer mit niedriger Bitrate, der eine begrenzte Anzahl von Bits pro Rahmen verwendet, hat sich dies herkömmlich als schwierig erwiesen. Somit besteht eine Notwendigkeit für einen Sprachcodierer, der Übergangssprachrahmen, die mit einer niedrigen Bitrate codiert sind, genau darstellt.
ZUSAMMENFASSUNG DER ERFINDUNG
Die vorliegende Erfindung betrifft einen Sprachcodierer, der Übergangssprachrahmen, die mit einer niedrigen Bitrate codiert sind, genau darstellt. Demgemäß umfasst in einem Aspekt der Erfindung ein Verfahren zur Codierung von Übergangssprachrahmen vorteilhafterweise die Schritte einer Darstellung eines ersten Rahmens von Übergangssprachabtastwerten durch einen ersten Teilsatz der Abtastwerte (samples) des ersten Rahmens; und eines Interpolierens des ersten Teilsatzes von Abtastwerten und eines ausgerichteten zweiten Teilsatzes von Abtastwerten, der aus einem zweiten, früher empfangenen Rahmen von Übergangssprachabtastwerten extrahiert wird, um andere Abtastwerte des ersten Rahmens zu synthetisieren, die nicht in dem ersten Teilsatz enthalten sind.
In einem weiteren Aspekt der Erfindung umfasst ein Sprachcodierer zur Codierung von Übergangssprachrahmen vorteilhafterweise Mittel zur Darstellung eines ersten Rahmens von Übergangssprachabtastwerten durch einen ersten Teilsatz der Abtastwerte des ersten Rahmens; und Mittel zur Interpolierung des ersten Teilsatzes von Abtastwerten und eines ausgerichteten zweiten Teilsatzes von Abtastwerten, der aus einem zweiten, früher empfangenen Rahmen von Übergangssprachabtastwerten extrahiert wird, um andere Abtastwerte des ersten Rahmens zu synthetisieren, die nicht in dem ersten Teilsatz enthalten sind.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 ist eine Blockdarstellung eines Kommunikationskanals, der an jedem Ende von Sprachcodierern begrenzt wird.
2 ist eine Blockdarstellung eines Codierers.
3 ist eine Blockdarstellung eines Decodierers.
4 ist ein Ablaufdiagramm, das einen Sprachcodierentscheidungsprozess darstellt.
5A ist ein Graph einer Sprachsignalamplitude gegenüber der Zeit, und 5B ist ein Graph einer LP(linear amplitude)-Rest-Amplitude gegenüber der Zeit.
6 ist ein Ablaufdiagramm, das einen Mehrfachpuls-Interpolations-Codierungsprozess für Übergangssprachrahmen darstellt.
7 ist eine Blockdarstellung eines Systems zum Filtern eines LP-Rest-Domäne-Signals, um ein Sprach-Domäne-Signal zu erzeugen, oder zum inversen Filtern eines Sprach-Domäne-Signals, um ein LP-Rest-Domäne-Signal zu erzeugen.
8A–D sind Graphen einer Signalamplitude gegenüber der Zeit jeweils für ursprüngliche Übergangssprache, nicht codierter Rest, codierter/quantisierter Rest und decodierte/rekonstruierte Sprache.
DETAILLIERTE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSBEISPIELE
In 1 empfängt ein erster Codierer 10 digitalisierte Sprachabtastwerte s(n) und codiert die Abtastwerte s(n) zur Übertragung auf einem Übertragungsmittel 12 oder einem Kommunikationskanal 12 an einen ersten Decodierer 14. Der Decodierer 14 decodiert die codierten Sprachabtastwerte und synthetisiert ein Ausgabesprachsignal s_SYNTH(n). Zur Übertragung in die entgegengesetzte Richtung codiert ein zweiter Codierer 16 digitalisierte Sprachabtastwerte s(n), die auf einem Kommunikationskanal 18 übertragen werden. Ein zweiter Decodierer 20 empfängt und decodiert die codierten Sprachabtastwerte und erzeugt ein synthetisiertes Ausgabesprachsignal s_SYNTH(n).
Die Sprachabtastwerte s(n) stellen Sprachsignale dar, die gemäß verschiedenen in dem Stand der Technik bekannten Verfahren digitalisiert und quan tisiert wurden, z.B. Pulscode-Modulation (PCM – pulse code modulation), kompandiertes μ-Gesetz (μ-law) oder A-Gesetz (A-law). Wie in dem Stand der Technik bekannt ist, werden die Sprachabtastwerte s(n) in Rahmen von Eingangsdaten organisiert, wobei jeder Rahmen eine vorgegebene Anzahl von digitalisierten Sprachabtastwerten s(n) aufweist. In einem beispielhaften Ausführungsbeispiel wird eine Abtastrate von 8 kHz eingesetzt, wobei jeder 20-ms-Rahmen 160 Abtastwerte aufweist. In den im Folgenden beschriebenen Ausführungsbeispielen kann die Rate einer Datenübertragung vorteilhafterweise auf einer Rahmen-zu-Rahmen-Basis von 13.2 kbps (volle Rate) zu 6.2 kbps (halbe Rate) zu 2.6 kbps (viertel Rate) zu 1 kbps (achtel Rate) variiert werden. Ein Variieren der Datenübertragungsrate ist vorteilhaft, da niedrigere Bitraten selektiv für Rahmen eingesetzt werden können, die relativ wenig Sprachinformation enthalten. Wie für Fachleute offensichtlich ist, können andere Abtastraten, Rahmengrößen und Datenübertragungsraten verwendet werden.
Der erste Codierer 10 und der zweite Decodierer 20 weisen zusammen einen ersten Sprachcodierer oder Sprachcodec auf. Ähnlich weisen der zweite Codierer 16 und der erste Decodierer 14 zusammen einen zweiten Sprachcodierer auf. Es ist Fachleuten bekannt, dass Sprachcodierer implementiert werden können mit einem digitalen Signalprozessor (DSP – digital signal processor), einem anwendungsspezifischen Schaltkreis (ASIC – applicationspecific integrated circuit), einer diskreten Gatter-Logik, einer Firmware oder einem herkömmlichen programmierbaren Softwaremodul und einem Mikroprozessor. Das Softwaremodul kann sich in einem RAM-Speicher, einem Flash-Speicher, Registern oder jeder anderen in der Technik bekannten Form eines beschreibbaren Speichermittels befinden. Alternativ kann jeder herkömmliche Prozessor, jede Steuereinrichtung oder Zustandsmaschine für den Mikroprozessor eingesetzt werden. Beispielhafte ASICs, die spezifisch für eine Sprachcodierung gestaltet sind, werden beschrieben in dem U.S.-Patent Nr. 5,727,123, das der Anmelderin der vorliegenden Erfindung erteilt wurde, und in der U.S.-Anmeldung Nr. 08/197,417 mit dem Titel „Vocoder ASIC", angemeldet 16. Februar 1994 von der Anmelderin der vorliegenden Erfindung.
In 2 umfasst ein Codierer 100, der in einem Sprachcodierer verwendet werden kann, ein Modus-Entscheidungs-Modul 102, ein Pitch-Schätz-Modul 104, ein LP-Analyse-Modul 106, ein LP-Analyse-Filter 108, ein LP-Quantisierungs-Modul 110 und ein Rest-Quantisierungs-Modul 112. Eingangssprachrahmen s(n) werden an das Modus-Entscheidungs-Modul 102, das Pitch-Schätz-Modul 104, das LP-Analyse-Modul 106 und den LP-Analyse-Filter 108 geliefert. Das Modus-Entscheidungs-Modul 102 erzeugt einen Modusindex I_M und einen Modus M basierend auf der Periodizität jedes Eingangssprachrahmens s(n). Verschiedene Verfahren einer Klassifizierung von Sprachrahmen gemäß einer Periodizität werden in der U.S.-Anmeldung Nr. 08/815,354 mit dem Titel „Method and Apparatus for Performing Reduced Rate Variable Rate Vocoding" beschrieben, angemeldet am 11. März 1997 von der Anmelderin der vorliegenden Erfindung. Derartige Verfahren sind auch in den „Telecommunication Industry Association Industry Interim Standards" TIA/EIA IS-127 und TIA/EIA IS-733 enthalten.
Das Pitch-Schätz-Modul 104 erzeugt einen Pitch-Index I_p und einen Verzögerungs(lag)wert P₀ basierend auf jeden Eingangssprachrahmen s(n). Das LP-Analyse-Modul 106 führt eine Lineare-Prädiktions-Analyse auf jedem Eingangssprachrahmen s(n) durch, um einen LP-Parameter a zu erzeugen. Der LP-Parameter a wird an das LP-Quantisierungs-Modul 110 geliefert. Das LP-Quantisierungs-Modul 110 empfängt auch den Modus M, wodurch es den Quantisierungsprozess auf eine Modus-abhängige Weise durchführt. Das LP-Quantisierungs-Modul 110 erzeugt einen LP-Index I_LP und einen quantisierten LP-Parameter â. Der LP-Analyse-Filter 108 empfängt den quantisierten LP-Parameter â zusätzlich zu dem Eingangssprachrahmen s(n). Der LP-Analyse-Filter 108 erzeugt ein LP-Rest-Signal R[n], das den Fehler zwischen den Eingangssprachrahmen s(n) und der rekonstruierten Sprache basierend auf den quantisierten LP-Parametern â darstellt. Der LP-Rest R[n], der Modus M und der quantisierte LP-Parameter â werden an das Rest-Quantisierungs-Modul 112 geliefert. Basierend auf diesen Werten erzeugt das Rest-Quantisierungs-Modul 112 einen Rest-Index I_R und ein quantisiertes Rest-Signal R ^[n].
In 3 umfasst ein Decodierer 200, der in einem Sprachcodierer verwendet werden kann, ein LP-Parameter-Decodierungs-Modul 202, ein Rest-Decodierungs-Modul 204, ein Modus-Decodierungs-Modul 206 und einen LP-Synthese-Filter 208. Das Modus-Decodierungs-Modul 206 empfängt und decodiert einen Modus-Index I_M, aus dem es einen Modus M erzeugt. Das LP-Parameter-Decodierungs-Modul 202 empfängt den Modus M und einen LP-Index I_LP. Das LP-Parameter-Decodierungs-Modul 202 decodiert die empfangenen Werte, um einen quantisierten LP-Parameter â zu erzeugen. Das Rest-Decodierungs-Modul 204 empfängt einen Rest-Index 1_R , einen Pitch-Index I_P und den Modus-Index I_M. Das Rest-Decodierungs-Modul 204 decodiert die empfangenen Werte, um ein quantisiertes Rest-Signal R ^[n] zu erzeugen. Das quantisierte Rest-Signal R ^[n] und der quantisierte LP-Parameter â werden an den LP-Synthese-Filter 208 geliefert, der daraus ein decodiertes Sprachsignal ŝ[n] synthetisiert.
Betrieb und Implementierung der verschiedenen Module des Codierers 100 von 2 und des Decodierers 200 von 3 sind in dem Stand der Technik bekannt und werden in dem oben erwähnten U.S.-Patent Nr. 5,414,796 und von L. B. Rabiner & R. W. Schafer in „Digital Processing of Speech Signals", 396–453, (1978) beschrieben.
Wie in dem Ablaufdiagramm von 4 dargestellt wird, folgt ein Sprachcodierer gemäß einem Ausführungsbeispiel bei der Verarbeitung von Sprachabtastwerten zur Übertragung einer Reihe von Schritten. In Schritt 300 empfängt der Sprachcodierer digitale Abtastwerte eines Sprachsignals in aufeinander folgenden Rahmen. Bei Empfang eines bestimmten Rahmens geht der Sprachcodierer zu Schritt 302 weiter. In Schritt 302 erfasst der Sprachcodierer die Energie des Rahmens. Die Energie ist ein Maß der Sprachaktivi tät des Rahmens. Eine Spracherfassung wird durchgeführt durch Summieren der Quadrate der Amplituden der digitalisierten Sprachabtastwerte und Vergleichen der resultierenden Energie mit einem Schwellenwert. In einem Ausführungsbeispiel passt sich der Schwellenwert basierend auf dem sich ändernden Pegel von Hintergrundrauschen an. Ein beispielhafter Detektor einer Sprachaktivität mit variabler Schwelle wird in dem oben erwähnten U.S.-Patent Nr. 5,414,796 beschrieben. Einige stimmlose Sprachlaute können Abtastwerte mit extrem niedriger Energie sein, die irrtümlicherweise als Hintergrundrauschen codiert werden. Um dies zu verhindern, kann die spektrale Neigung (spectral tilt) von Abtastwerten mit niedriger Energie verwendet werden, um die stimmlose Sprache von einem Hintergrundrauschen zu unterscheiden, wie in dem oben erwähnten U.S.-Patent Nr. 5,414,796 beschrieben wird.
Nach der Erfassung der Energie des Rahmens geht der Sprachcodierer zu Schritt 304 weiter. In Schritt 304 bestimmt der Sprachcodierer, ob die erfasste Rahmenenergie ausreichend ist, um den Rahmen als eine Sprachinformation enthaltend zu klassifizieren. Wenn die erfasste Rahmenenergie unter einen vordefinierten Schwellenpegel fällt, geht der Sprachcodierer zu Schritt 306. In Schritt 306 codiert der Sprachcodierer den Rahmen als Hintergrundrauschen (d.h. keine Sprache oder Schweigen). In einem Ausführungsbeispiel wird der Rahmen des Hintergrundrauschens mit einer 1/8-Rate oder 1 kbps codiert. Wenn in Schritt 304 die erfasste Rahmenenergie den vordefinierten Schwellenpegel erreicht oder übersteigt, wird der Rahmen als Sprache klassifiziert und der Sprachcodierer geht zu Schritt 308.
In Schritt 308 bestimmt der Sprachcodierer, ob der Rahmen eine stimmlose Sprache ist, d.h. der Sprachcodierer untersucht die Periodizität des Rahmens. Verschiedene bekannte Verfahren einer Periodizitätsbestimmung umfassen z.B. die Verwendung von Nulldurchgängen und die Verwendung von normalisierten Autokorrelationsfunktionen (NACFs – normalized autocorrelation functions). Insbesondere wird die Verwendung von Nulldurchgängen und NACFs zur Erfassung von Periodizität in der U.S.-Anmeldung Nr. 081815,354 mit dem Titel „Method and Apparatus for Performing Reduced Rate Variable Rate Vocoding", angemeldet am 11. März 1997 von der Anmelderin der vorliegenden Erfindung, beschrieben. Zusätzlich sind die obigen Verfahren, die verwendet werden, um stimmhafte Sprache von stimmloser Sprache zu unterscheiden in den „Telecommunication Industry Association Industry Interim Standards" TIA/EIA IS-127 und TIA/EIA IS-733 enthalten. Wenn in Schritt 308 bestimmt wird, dass der Rahmen eine stimmlose Sprache ist, geht der Sprachcodierer zu Schritt 310. In Schritt 310 codiert der Sprachcodierer den Rahmen als stimmlose Sprache. In einem Ausführungsbeispiel werden stimmlose Sprachrahmen mit einer viertel Rate oder 2.6 kbps codiert. Wenn in Schritt 308 der Rahmen nicht als stimmlose Sprache bestimmt wird, geht der Sprachcodierer zu Schritt 312.
In Schritt 312 bestimmt der Sprachcodierer unter Verwendung von Periodizitätserfassungsverfahren, die in dem Stand der Technik bekannt sind, wie z.B. in der oben erwähnten U.S.-Anmeldung Nr. 08/815,354 beschrieben wird, ob der Rahmen eine Übergangssprache ist. Wenn bestimmt wird, dass der Rahmen eine Übergangssprache ist, geht der Sprachcodierer zu Schritt 314. In Schritt 314 wird der Rahmen als eine Übergangssprache (d.h. ein Übergang von stimmloser Sprache zu stimmhafter Sprache) codiert. In einem Ausführungsbeispiel wird der Übergangssprachrahmen gemäß einem Mehrfachpuls-Interpolations-Codierungsverfahren codiert, das im Folgenden unter Bezugnahme auf 6 beschrieben wird.
Wenn in Schritt 312 der Sprachcodierer bestimmt, dass der Rahmen keine Übergangssprache ist, geht der Sprachcodierer zu Schritt 316 weiter. In Schritt 316 codiert der Sprachcodierer den Rahmen als stimmhafte Sprache. In einem Ausführungsbeispiel können stimmhafte Sprachrahmen mit voller Rate oder 13.2 kbps codiert werden.
Fachleute werden verstehen, dass entweder das Sprachsignal oder der entsprechende LP-Rest durch Folgen der in 4 gezeigten Schritte codiert werden kann. Die Wellenform-Charakteristiken von Rauschen, stimmloser Sprache, Übergangssprache und stimmhafter Sprache können als eine Funktion der Zeit in dem Graph von 5A betrachtet werden. Die Wellenform-Charakteristiken von Rauschen, stimmloser Sprache, Übergangssprache und stimmhaftem LP-Rest können als eine Funktion der Zeit in dem Graph von 5B betrachtet werden.
In einem Ausführungsbeispiel verwendet ein Sprachcodierer einen Mehrfachpuls-Interpolations-Codierungs-Algorithmus, um Übergangssprachrahmen gemäß den Verfahrensschritten zu codieren, die in dem Ablaufdiagramm von 6 gezeigt werden. In Schritt 400 schätzt der Sprachcodierer die Pitch-Periode M des aktuellen K-Abtastwert-LP-Sprach-Rest-Rahmens S[n], wobei n = 1, 2, ..., K, und die unmittelbare zukünftige Nachbarschaft des Rahmens S[n]. In einem Ausführungsbeispiel weist der LP-Sprach-Rest-Rahmen S[n] 160 Abtastwerte auf (d.h. K = 160). Die Pitch-Periode M ist eine grundlegende Periode, die sich innerhalb eines bestimmten Rahmens wiederholt. Der Sprachcodierer geht dann zu Schritt 402. In Schritt 402 extrahiert der Sprachcodierer einen Pitch-Prototyp X mit den letzten M Abtastwerten des aktuellen Restrahmens. Der Pitch-Prototyp X kann vorteilhafterweise die letzte Pitch-Periode (M Abtastwerte) des Rahmens S[n] sein. Als Alternative kann der Pitch-Prototyp X jede Pitch-Periode M des Rahmens S[n] sein. Der Sprachcodierer geht dann zu Schritt 404 weiter.
In Schritt 404 wählt der Sprachcodierer N wichtige Abtastwerte oder Pulse mit Amplituden Qi und Vorzeichen Si, wobei i = 1, 2, ..., N, aus Positionen Pi aus dem M-Abtastwert-Pitch-Prototyp X. Somit werden N „beste" Abtastwerte aus dem M-Abtastwert-Pitch-Prototyp X gewählt und M – N nicht gewählte Abtastwerte bleiben in dem Pitch-Prototyp X. Der Sprachcodierer geht dann zu Schritt 406. In Schritt 406 codiert der Sprachcodierer die Positionen der Pulse mit Bp Bits. Der Sprachcodierer geht dann zu Schritt 408. In Schritt 408 codiert der Sprachcodierer die Vorzeichen der Pulse mit Bs Bits. Der Sprachcodierer geht dann zu Schritt 410. In Schritt 410 codiert der Sprachcodierer die Amplituden der Pulse mit Ba Bits. Die quantisierten Werte der N Pulsamplituden Qi werden als Zi bezeichnet, wobei i = 1, 2, ..., N. Der Sprachcodierer geht dann zu Schritt 412.
In Schritt 412 extrahiert der Sprachcodierer die Pulse. In einem Ausführungsbeispiel wird der Pulsextrahierungsschritt durchgeführt durch Anordnen aller M Pulse gemäß der absoluten (d.h. ohne Vorzeichen) Amplitude und dann Auswählen der N höchsten Pulse (d.h. die N Pulse mit den größten absoluten Amplituden). In einem alternativen Ausführungsbeispiel wählt der Pulsextrahierungsschritt die N „besten" Pulse von dem Standpunkt einer Wahrnehmungswichtigkeit gemäß der folgenden Beschreibung aus.
Wie in 7 dargestellt, kann ein Sprachsignal von der LP-Rest-Domäne zu der Sprach-Domäne durch Filtern konvertiert werden. Umgekehrt kann das Sprachsignal von der Sprach-Domäne zu der LP-Rest-Domäne durch umgekehrtes Filtern konvertiert werden. Gemäß einem Ausführungsbeispiel, in 7 gezeigt, wird ein Pitch-Prototyp X in einen ersten LP-Synthesefilter 500, als H(z) bezeichnet, eingegeben. Der erste LP-Synthesefilter 500 erzeugt eine wahrnehmungsmäßig gewichtete Sprach-Domäne-Version des Pitch-Prototyps X, als S(n) bezeichnet. Ein Form-Codebuch 502 erzeugt Formvektorwerte, die an einen Multiplizierer 504 geliefert werden. Ein Verstärkungs-Codebuch 506 erzeugt Verstärkungsvektorwerte, die ebenfalls an den Multiplizierer 504 geliefert werden. Der Multiplizierer 504 multipliziert die Formvektorwerte mit den Verstärkungsvektorwerten, wodurch er Form-Verstärkungs-Produktwerte erzeugt. Die Form-Verstärkungs-Produktwerte werden an einen ersten Addierer 508 geliefert. Eine Anzahl N von Pulsen (die Anzahl N, wie unten beschrieben, ist die Anzahl von Abtastwerten, die den Form-Verstärkungs-Fehler E zwischen dem Pitch-Prototyp X und einem Modell-Prototyp e_mod[n] minimiert) wird ebenfalls an den ersten Addierer 508 geliefert. Der erste Addierer 508 addiert die N Pulse zu den Form-Verstärkungs-Produktwerten, wodurch er einen Modell-Prototyp e_mod[n] erzeugt. Der Modell-Prototyp e_mod[n] wird an einen zweiten LP-Synthesefilter 510 geliefert, der ebenfalls als H(z) bezeichnet wird. Der zweite LP-Synthesefilter 510 erzeugt eine wahrnehmungsmäßig gewichtete Sprach-Domäne-Version des Modell-Prototyps e_mod[n], als Se(n) bezeichnet. Die Sprach-Domäne-Werte S(n) und Se(n) werden an einen zweiten Addierer 512 geliefert. Der zweite Addierer 512 subtrahiert S(n) von Se(n) und liefert Differenzwerte an einen Quadratsummen-Kalkulator 514. Der Quadratsummen-Kalkulator 514 berechnet die Quadrate der Differenzwerte, wodurch er einen Energie- oder Fehler-Wert E erzeugt.
Gemäß dem oben unter Bezugnahme auf 6 erwähnten alternativen Ausführungsbeispiel wird die Puls-Antwort für einen LP-Synthesefilter H(z) (nicht gezeigt) oder einen wahrnehmungsmäßig gewichteten LP-Synthesefilter H(z/α) für den aktuellen Übergangssprachrahmen als H(n) bezeichnet. Das Modell des Pitch-Prototyps X wird als e_mod[n] bezeichnet. Ein wahrnehmungsmäßig gewichteter Sprach-Domäne-Fehler E kann gemäß der folgenden Gleichung definiert werden:
wobei Se(n) = H(n)*e_mod(n)und S(n) = H(n)*Xwobei „*" eine geeignete Filter- oder Faltungs-Operation bezeichnet, wie in dem Stand der Technik bekannt, und Se(n) und S(n) jeweils wahrnehmungsmäßig gewichtete Sprach-Domäne-Versionen der Pitch-Prototypen e_mod[n] und X bezeichnen. In dem beschriebenen alternativen Ausführungsbeispiel können die N besten Abtastwerte gewählt werden, um e_mod[n] aus den M Abtastwerten des Pitch-Prototypen X wie folgt zu bilden: die N Abtastwerte, die als der j-te Satz aus möglichen ^MC_N Kombinationen bezeichnet werden können, werden vorteilhafterweise gewählt, das Modell e_mod_j(n) derart zu erzeugen, dass der Fehler E_j für alle j, die zu j = 1, 2, 3, ..., ^MC_N gehören, minimiert wird, wobei E_j gemäß den folgenden Gleichungen definiert ist:
und Sej(n) = H(n)*e_modj[n].
Nach dem Extrahieren der Pulse geht der Sprachcodierer zu Schritt 414. In Schritt 414 werden die verbleibenden M – N Abtastwerte des Pitch-Prototyps X gemäß einem von zwei möglichen Verfahren dargestellt, die zu alternativen Ausführungsbeispielen gehören. In einem Ausführungsbeispiel können die verbleibenden M – N Abtastwerte des Pitch-Prototyps X durch Ersetzen der M – N Abtastwerte mit Nullwerten gewählt werden. In einem alternativen Ausführungsbeispiel können die verbleibenden M – N Abtastwerte des Pitch-Prototyps X durch Ersetzen der M – N Abtastwerte mit einem Formvektor unter Verwendung eines Codebuchs mit Rs Bits und einer Verstärkung unter Verwendung eines Codebuchs mit Rg Bits gewählt werden. Demgemäß stellen eine Verstärkung g und ein Formvektor H die M – N Abtastwerte dar. Die Verstärkung g und der Formvektor H weisen Komponentenwerte g_j und H_k auf, die aus den Codebüchern gewählt werden durch Minimieren der Verzerrung E_jk. Die Verzerrung E_jk wird durch die folgende Gleichung geliefert:
und Sejk(n) = H(n)*e_modjk[n],wobei der Modell-Prototyp e_mod_jk[n] gebildet wird mit den oben beschriebenen M Pulsen und den M – N Abtastwerten, die von dem j-ten Verstärkungs-Codewort g_j und dem k-ten Form-Codewort H_k dargestellt werden. Die Auswahl kann somit vorteilhafterweise auf eine gemeinsam optimierte Weise durchgeführt werden durch Wählen der Kombination {j, k}, die den Minimalwert von E_jk liefert. Der Sprachcodierer geht dann zu Schritt 416.
In Schritt 416 wird der codierte Pitch-Prototyp Y berechnet. Der codierte Pitch-Prototyp Y modelliert den ursprünglichen Pitch-Prototyp X durch Zurücksetzen der N Pulse in die Positionen Pi, Ersetzen der Amplituden Qi mit Si*Zi und Ersetzen der verbleibenden M – N Abtastwerte entweder mit Nullen (in einem Ausführungsbeispiel) oder den Abtastwerten aus der gewählten Verstärkungs-Form-Darstellung g*H, wie oben beschrieben (in einem alternativen Ausführungsbeispiel). Der codierte Pitch-Prototyp Y entspricht der Summe der rekonstruierten oder synthetisierten N „besten" Abtastwerte plus den rekonstruierten oder synthetisierten verbleibenden M – N Abtastwerten. Der Sprachcodierer geht dann zu Schritt 418.
In Schritt 418 extrahiert der Sprachcodierer einen M-Abtastwert „letzter Prototyp" W aus dem letzten (d.h. unmittelbar vorausgehenden) decodierten Rest-Rahmen. Der letzte Prototyp W wird extrahiert durch Entnehmen der letzten M Abtastwerte aus dem letzten decodierten Rest-Rahmen. Alternativ kann der letzte Prototyp W aus einem anderen Satz von M Abtastwerten des letzten Rahmens konstruiert werden, vorausgesetzt, der Pitch-Prototyp X wurde aus einem entsprechenden Satz von M Abtastwerten des aktuellen Rahmens entnommen. Der Sprachcodierer geht dann zu Schritt 420.
In Schritt 420 rekonstruiert der Sprachcodierer die gesamten K Abtastwerte des decodierten aktuellen Rahmens des Rests S_SYNTH[n]. Die Rekonstruktion wird vorteilhafterweise mit jedem herkömmlichen Interpolationsverfahren erreicht, indem die letzten M Abtastwerte mit dem rekonstruierten Pitch-Prototyp Y gebildet werden und die ersten K – M Abtastwerte durch Interpolieren des letzten Prototyps W und des aktuellen codierten Pitch-Prototyps Y gebildet werden. In einem Ausführungsbeispiel kann die Interpolation gemäß den folgenden Schritten durchgeführt werden:
W und Y werden vorteilhafterweise zuerst ausgerichtet, um die optimale relative Positionierung und die durchschnittliche für eine Interpolation zu verwendende Pitch-Periode zu erhalten. Die Ausrichtung A* wird erlangt als die Rotation des aktuellen Pitch-Prototyps Y, die der maximalen Kreuzkorrelation des rotierten Y mit W entspricht. Die Kreuzkorrelationen C[A] an jeder möglichen Ausrichtung A, mit Werten von 0 bis M – 1 oder einem Teilsatz in dem Bereich von 0 bis M – 1, kann wiederum gemäß der folgenden Gleichung berechnet werden:
Die durchschnittliche Pitch-Periode Lav wird dann gemäß der folgenden Gleichung berechnet: Lav = (160 – M)M/(MNp – A*),wobei Np = round{A*/M + (160 – M)/M}.
Eine Interpolation wird durchgeführt, um die ersten K – M Abtastwerte gemäß der folgenden Gleichung zu berechnen: SSYNTH = {(160 – n – M)W[(nα)%M] + nY[(nα + A*)%M]}/(160 – M),wobei α = M/Lav und der Abtastwert bei nicht-ganzzahligen Werten für die Indices n' (die entweder zu nα oder nα + A* gleich sind) unter Verwendung eines herkömmlichen Interpolationsverfahrens abhängig von der gewünschten Genauigkeit des fraktionalen Werts von n' berechnet wird. Die Rundungsoperation und die Modulo-Operation (durch das %-Symbol bezeichnet) in den obigen Gleichungen sind in dem Stand der Technik weithin bekannt. Graphen einer ursprünglichen Übergangssprache, eines uncodierten Rests, eines codierten/quantisierten Rests und einer decodierten/rekonstruierten Sprache hinsichtlich der Zeit werden jeweils in den 8A–D gezeigt.
In einem Ausführungsbeispiel kann der codierte Übergangs-Rest-Rahmen gemäß einer Technik mit einer Rückkopplungsschleife (closed-loop) berech net werden. Demgemäß wird der codierte Übergangs-Rest-Rahmen wie oben beschrieben berechnet. Dann wird der Wahrnehmungs-Rauschabstand (PSNR – perceptual signal-to-noise ratio) für den gesamten Rahmen berechnet. Wenn der PSNR über einen vordefinierten Schwellenwert steigt, kann ein geeignetes hochpräzises Wellenform-Codierverfahren hoher Rate wie CELP verwendet werden, um den Rahmen zu codieren. Eine derartige Technik wird beschrieben in der U.S.-Anmeldung Nr. 09/259,151, angemeldet am 26. Februar 1999 mit dem Titel „Closed-Loop Multimode Mixed-Domain Linear Prediction (MDLP) Speech Coder" von der Anmelderin der vorliegenden Erfindung. Durch eine Verwendung des oben beschriebenen Sprachcodierverfahrens niedriger Bitrate, wenn möglich, und Ersetzen eines CELP-Sprachcodierverfahrens hoher Rate, wenn das Sprachcodierverfahrens niedriger Bitrate keinen Sollwert des Verzerrungsmaßes liefert, können Übergangssprachrahmen mit einer relativ hohen Qualität (wie von einem Schwellenwert oder dem verwendeten Verzerrungsmaß bestimmt) codiert werden, während eine niedrige durchschnittliche Codierrate verwendet wird.
Somit wurde ein neuer Mehrfachpuls-Interpolations-Codierer für Übergangssprachrahmen beschrieben. Für Fachleute ist offensichtlich, dass die verschiedenen erläuternden logischen Blöcke und Algorithmus-Schritte, die in Verbindung mit den hier offenbarten Ausführungsbeispielen beschrieben werden, mit einem digitalen Signalprozessor (DSP – digital signal processor), einem anwendungsspezifischen Schaltkreis (ASIC – application-specific integrated circuit), einer diskreten Gatter- oder Transistor-Logik, diskreten Hardware-Komponenten, wie z.B. Register und FIFO, einem Prozessor, der einen Satz von Firmware-Anweisungen ausgeführt oder jedem herkömmlichen programmierbaren Softwaremodul und einem Prozessor implementiert oder durchgeführt werden können. Der Prozessor kann vorteilhafterweise ein Mikroprozessor sein, aber als Alternative kann der Prozessor jeder herkömmliche Prozessor, jede Steuereinrichtung, Mikro-Steuereinrichtung oder Zustandsmaschine sein. Das Softwaremodul kann sich in einem RAM-Speicher, einem Flash-Speicher, Registern oder jeder anderen in der Technik bekannten Form eines beschreibbaren Speichermittels befinden. Für Fachleute ist weiter offensichtlich, dass die Daten, Anweisungen, Befehle, Information, Signale, Bits, Symbole und Chips, auf die in der obigen Beschreibung Bezug genommen wird, vorteilhafterweise von Spannungen, Strom, elektromagnetischen Wellen, magnetischen Feldern oder Teilchen, optischen Feldern oder Teilchen oder jeder Kombination daraus dargestellt werden können.
Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung wurden somit gezeigt und beschrieben. Es ist jedoch für Fachleute offensichtlich, dass zahlreiche Änderungen an den hier offenbarten Ausführungsbeispielen gemacht werden können ohne vom Umfang der Erfindung abzuweichen. Somit soll die vorliegende Erfindung nicht eingeschränkt sein, außer gemäß den folgenden Ansprüchen.

Claims

Ein Verfahren zum Kodieren von Übergangssprachrahmen (transitional speech frames), wobei das Verfahren folgende Schritte aufweist: Repräsentieren eines ersten Rahmens von Übergangssprachabtastungen durch einen ersten Teilsatz von Abtastungen bzw. Samples (402, 416) des ersten Rahmens; und Interpolieren (420) des ersten Teilsatzes von Abtastungen (402, 416) und eines ausgerichteten zweiten Teilsatzes von Abtastungen (418), die aus einem zweiten, früher empfangenen Rahmen von Übergangssprachabtastungen extrahiert wurden, um andere Abtastungen des ersten Rahmens, die in dem ersten Teilsatz (402, 416) nicht enthalten sind, zu synthetisieren bzw. generieren.
Verfahren nach Anspruch 1, das weiterhin folgende Schritte aufweist: Senden des ersten Teilsatzes von Abtastungen (402, 416) nach Ausführen des Repräsentierungsschrittes, und Empfangen des erstens Teilsatzes von Abtastungen (402, 416) vor dem Ausführen des Interpolierungsschrittes (420).
Verfahren nach Anspruch 1, das weiterhin den Schritt des Vereinfachens des ersten Teilsatzes von Abtastungen (402, 416) aufweist.
Verfahren nach Anspruch 3, wobei der Vereinfachungsschritt folgende Schritte aufweist: Auswählen von wahrnehmungsmäßig signifikanten Abtastungen (7) aus dem ersten Teilsatz von Abtastungen (402, 416) und Zuweisen eines Nullwertes zu allen nicht ausgewählten Abtastungen (414, 416).
Verfahren nach Anspruch 3, wobei der Vereinfachungsschritt folgende Schritte aufweist: Auswählen von Abtastungen mit relativ hohen Betragsamplituden (412) aus dem ersten Teilsatz von Abtastungen (402, 416) und Zuweisen eines Nullwertes für alle nicht ausgewählten Abtastungen (414, 416).
Verfahren nach Anspruch 4, wobei die wahrnehmungsmäßig signifikanten Abtastungen (7) Abtastungen sind, die ausgewählt werden, um wahrnehmungsmäßig gewichtete Sprachdomän- bzw. Ebenenfehler (514 – 7) zwischen dem ersten Rahmen von Übergangssprachabtastungen und einem generierten ersten Rahmen von Übergangsprachabtastungen zu minimieren.
Verfahren nach Anspruch 3, wobei der Vereinfachungsschritt die Schritte des Auswählens von wahrnehmungsmäßig signifikanten Abtastungen (7) aus dem ersten Teilsatz von Abtastungen (402, 416) und das Quantisieren eines Teils von allen nicht ausgewählten Abtastungen (414) aufweist.
Verfahren nach Anspruch 3, wobei der Vereinfachungsschritt die Schritte des Auswählen von Abtastungen mit relativ hohen Betragsamplituden (412) aus dem ersten Teilsatz von Abtastungen (402, 416) und das Quantisieren eines Teils von allen nicht ausgewählten Abtastungen aufweist.
Verfahren nach Anspruch 7, wobei die wahrnehmungsmäßig signifikanten Abtastungen (7) Abtastungen sind, die ausgewählt werden um Verstärkungs- bzw. Gain- und Formfehler (414) zwischen dem ersten Rahmen von Übergangssprachabtastungen und einem generierten ersten Rahmen von Übergangsprachabtastungen zu minimieren.
Ein Sprachkodierer zum Kodieren von Übergangsprachrahmen der Folgendes aufweist: Mittel zum Repräsentieren eines ersten Rahmens von Übergangssprachabtastungen durch einen ersten Teilsatz der Abtastungen (402, 416) des ersten Rahmens; und Mittel zum Interpolieren (420) des ersten Teilsatzes von Abtastungen (402, 416) und eines ausgerichteten zweiten Teilsatzes von Abtastungen (418), die aus einem zweiten, vorher empfangenen Rahmen von Übergangsprachabtastungen extrahiert wurden, um andere Abtastungen des ersten Rahmens, die nicht in dem ersten Teilsatz (402, 416) enthalten sind zu generieren bzw. synthetisieren.
Sprachkodierer nach Anspruch 10, der weiter Mittel zum Vereinfachen des ersten Teilsatzes von Abtastungen (402, 416) aufweist.
Sprachkodierer nach Anspruch 11, wobei die Mittel zum Vereinfachen Mittel aufweisen zum Auswählen von wahrnehmungsmäßig signifikanten Abtastungen (7) aus dem ersten Teilsatz von Abtastungen (402, 416) und Mittel zum Zuweisen eines Nullwertes für alle nicht ausgewählten Abtastungen (414, 416).
Sprachkodierer nach Anspruch 11, wobei die Mittel zum Vereinfachen Mittel aufweisen zum Auswählen von Abtastungen mit relativ hohen Betrags- bzw. Absolutamplituden (412) von dem ersten Teilsatz von Abtastungen (402, 416), und Mittel zum Zuweisen eines Nullwertes für alle nicht ausgewählten Abtastungen (414, 416).
Sprachkodierer nach Anspruch 12, wobei die wahrnehmungsmäßig signifikanten Abtastungen (7) Abtastungen sind, die ausgewählt werden, um wahrnehmungsmäßig gewichtete Sprachdomänfehler (514 – 7) zwischen den ersten Rahmen von Übergangssprachabtastungen und einem generierten ersten Rahmen von Übergangsprachabtastungen zu minimieren.
Sprachkodierer nach Anspruch 11, wobei die Mittel zum Vereinfachen Mittel aufweisen zum Auswählen von wahrnehmungsmäßig signifikanten Abtastungen (7) aus dem ersten Teilsatz von Abtastungen (402, 416) und Mittel zum Quantisieren eines Teils von allen nicht ausgewählten Abtastungen (414).
Sprachkodierer nach Anspruch 11, wobei die Mittel zum Vereinfachen Mittel aufweisen zum Auswählen von Abtastungen mit relativ hohen Betragsamplituden (412) aus dem ersten Teilsatz von Abtastungen (402, 416) und Mittel zum Quantisieren eines Teils von allen nicht ausgewählten Abtastungen (414).
Sprachkodierer nach Anspruch 15, wobei die wahrnehmungsmäßig signifikanten Abtastungen (7) Abtastungen sind, die ausgewählt werden um Verstärkungs- und Formfehler (414) zwischen den ersten Rahmen von Übergangssprachabtastungen und einem generierten ersten Rahmen von Übergangssprachabtastungen zu minimieren.