DE60129544T2

DE60129544T2 - Kompensationsverfahren bei rahmenauslöschung in einem sprachkodierer mit veränderlicher datenrate

Info

Publication number: DE60129544T2
Application number: DE60129544T
Authority: DE
Inventors: Sharath Basavanagudi MANJUNATH; Penjung San Diego HUANG; Eddie-Lun Tik Carlsbad CHOY
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2000-04-24
Filing date: 2001-04-18
Publication date: 2008-04-17
Anticipated expiration: 2021-04-19
Also published as: JP2004501391A; AU2001257102A1; TW519615B; KR20020093940A; JP4870313B2; CN1432175A; ATE368278T1; HK1055174A1; EP1850326A2; ES2360176T3; EP2099028A1; CN1223989C; DE60129544D1; ATE502379T1; EP1276832A2; KR100805983B1; EP1850326A3; DE60144259D1; EP1276832B1; BR0110252A

Description

Hintergrund der Erfindung
I. Gebiet der Erfindung
Die vorliegende Erfindung betrifft im Allgemeinen das Gebiet der Sprachverarbeitung und insbesondere Verfahren und eine Vorrichtung zur Kompensierung von Rahmenlöschungen in Sprachcodierern mit variabler Rate.
II. Hintergrund
Eine Übertragung von Sprache durch digitale Techniken ist weit verbreitet, insbesondere bei Fern- und digitalen Funktelefonanwendungen. Dies wiederum hat Interesse erzeugt an der Bestimmung der geringsten Menge an Information, die über einen Kanal gesendet werden kann, während die wahrgenommene Qualität der rekonstruierten Sprache beibehalten wird. Wenn Sprache durch einfaches Abtasten und Digitalisieren übertragen wird, ist eine Datenrate im Bereich von 64 Kilobits pro Sekunde (kbps – kilobits per second) erforderlich, um eine Sprachqualität eines herkömmlichen analogen Telefons zu erreichen. Jedoch kann durch die Verwendung einer Sprachanalyse, gefolgt von der geeigneten Codierung, Übertragung und Resynthese an dem Empfänger eine signifikante Reduzierung der Datenrate erreicht werden.
Vorrichtungen für die Komprimierung von Sprache finden Verwendung in vielen Gebieten der Telekommunikation. Ein beispielhaftes Gebiet ist die drahtlose Kommunikation. Das Gebiet der drahtlosen Kommunikation hat viele Anwendungen, einschließlich zum Beispiel schnurlose Telefone, Paging, drahtlose Teilnehmeranschlussleitungen, drahtlose Telefonie, wie zellulare und PCS-Telefonsysteme, mobile Internetprotokoll(IP – internet protocol)-Telefonie und Satellitenkommunikationssysteme. Eine besonders wichtige Anwendung ist eine drahtlose Telefonie für mobile Teilnehmer.
Verschiedene über-die-Luft-Schnittstellen wurden für drahtlose Kommunikationssysteme entwickelt, einschließlich zum Beispiel FDMA (frequency division multiple access), TDMA (time division multiple access) und CDMA (code division multiple access). In Verbindung damit wurden verschiedene inländische und internationale Standards errichtet, einschließlich zum Beispiel AMPS (Advanced Mobile Phone Service), GSM (Global System for Mobile Communications) und IS-95 (Interim Standard 95). Ein beispielhaftes drahtloses Telefonkommunikationssystem ist ein CDMA(code division multiple access)-System. Der IS-95-Standard und seine Ableitungen, IS-95A, ANSIJ-STD-008, IS-956, vorgeschlagene Standards der dritten Generation IS-95C und IS-2000, usw. (hier insgesamt als IS-95 bezeichnet), werden durch die Telecommunication Industry Association (TIA) und andere weithin bekannte Standard-Gremien veröffentlicht, um die Verwendung einer CDMA-über-die-Luft-Schnittstelle für zellulare oder PCS-Telefonkommunikationssysteme zu spezifizieren. Beispielhafte drahtlose Kommunikationssysteme, die im Wesentlichen gemäß der Verwendung des IS-95-Standards konfiguriert sind, werden in den U.S.-Patenten Nr. 5,103,459 und 4,901,307 beschrieben.
Vorrichtungen, die Techniken einsetzen, um Sprache durch Extraktion von Parametern zu komprimieren, die ein Modell einer menschlichen Spracherzeugung betreffen, werden als Sprachcodierer bezeichnet. Ein Sprachcodierer teilt das ankommende Sprachsignal in Zeitblöcke oder Analyserahmen. Sprachcodierer weisen typischerweise einen Codierer und einen Decodierer auf. Der Codierer analysiert den ankommenden Sprachrahmen, um bestimmte relevante Parameter zu extrahieren, und quantisiert dann die Parameter in binäre Darstellungen, d.h. in einen Satz von Bits oder ein binäres Datenpaket. Die Datenpakete werden über den Kommunikationskanal an einen Empfänger und einen Decodierer übertragen. Der Decodierer verarbeitet die Datenpakete, entquantisiert sie, um die Parameter zu erzeugen, und resynthesiert die Sprachrahmen unter Verwendung der entquantisierten Parameter.
Die Funktion des Sprachcodierers ist, das digitalisierte Sprachsignal in ein Signal mit geringer Bitrate zu komprimieren durch Entfernen aller natürlichen Redundanzen, die in der Sprache inhärent sind. Die digitale Komprimierung wird erreicht durch Darstellen des Eingangssprachrahmens durch einen Satz von Parametern und Einsetzen einer Quantisierung, um die Parameter mit einem Satz von Bits darzustellen. Wenn der Eingangssprachrahmen eine Anzahl von Bits N_i hat und das von dem Sprachcodierer erzeugte Datenpaket eine Anzahl von Bits N_o hat, dann ist der von dem Sprachcodierer erzielte Komprimierungsfaktor C_r = N_i/N_o. Die Aufgabe ist, eine hohe Sprachqualität der decodierten Sprache zu erhalten bei Erzielung des Ziel-Komprimierungsfaktors. Die Leistung eines Sprachcodierers hängt davon ab, (1) wie gut das Sprachmodell oder die oben beschriebene Kombination des Analyse- und Syntheseprozesses arbeitet, und (2) wie gut der Parameterquantisierungsprozess an der Zielbitrate von N_o Bits pro Rahmen durchgeführt wird. Das Ziel des Sprachmodells ist somit, die Essenz des Sprachsignals oder die Ziel-Sprachqualität mit einem kleinen Satz von Parametern für jeden Rahmen zu erfassen.
Vielleicht am wichtigsten bei der Gestaltung eines Sprachcodierers ist die Suche nach einem guten Satz von Parametern (einschließlich Vektoren), um das Sprachsignal zu beschreiben. Ein guter Satz von Parametern erfordert eine niedrige Systembandbreite für die Rekonstruktion eines wahrnehmbar genauen Sprachsignals. Pitch bzw. Tonhöhe, Signalleistung, spektrale Hülle (oder Formanten), Amplitudenspektren und Phasenspektren sind Beispiele der Sprachcodierparameter.
Sprachcodierer können als Zeitbereichs- bzw. Zeitdomain-Codierer implementiert werden, die versuchen, die Zeitbereichs-Sprachwellenform zu erfassen durch Einsatz einer Verarbeitung mit hoher Zeitauflösung, um jeweils kleine Segmente von Sprache (typischerweise 5 Millisekunden (ms) Teilrahmen) zu codieren. Für jeden Teilrahmen wird ein hochgenauer Repräsentant aus einem Codebuchraum mittels verschiedener in der Technik bekannter Suchalgorithmen gefunden. Alternativ können Sprachcodierer als Frequenz bereichs- bzw. Frequenzdomain-Codierer implementiert werden, die versuchen, das Kurzzeit-Sprachspektrum des Eingangssprachrahmens mit einem Satz von Parametern zu erfassen (Analyse), und einen entsprechenden Syntheseprozess einsetzen, um die Sprachwellenform aus den spektralen Parametern wieder herzustellen. Der Parameter-Quantisierer erhält die Parameter, indem er sie durch gespeicherte Darstellungen von Code-Vektoren gemäß bekannten Quantisierungstechniken darstellt, die von A. Gersho & R. M. Gray in „Vector Quantization and Signal Compression" (1992) beschrieben werden.
Ein weithin bekannter Zeitbereichs-Sprachcodierer ist der CELP(Code Excited Linear Predictive)-Codierer, der von L. B. Rabiner & R.W. Schafer in „Digital Processing of Speech Signals", 396–453, (1978) beschrieben wird. In einem CELP-Codierer werden die Kurzzeit-Korrelationen oder Redundanzen in dem Sprachsignal durch eine LP(linear prediction)-Analyse entfernt, welche die Koeffizienten eines Kurzzeit-Formant-Filters findet. Ein Anwenden des Kurzzeit-Voraussage(prediction)-Filters auf den Eingangssprachrahmen erzeugt ein LP-Restsignal, das weiter mit Langzeit-Voraussage(bzw. Vorhersage)-Filter-Parametern und einem nachfolgenden stochastischem Codebuch modelliert und quantisiert wird. Somit teilt eine CELP-Codierung die Aufgabe einer Codierung der Zeitbereichs-Sprachwellenform in die getrennten Aufgaben einer Codierung der LP-Kurzzeit-Filter-Koeffizienten und einer Codierung des LP-Rests. Eine Zeitbereichs-Codierung kann mit einer festen Rate (d.h. unter Verwendung derselben Anzahl von Bits, N_o, für jeden Rahmen) oder mit einer variablen Rate (in der unterschiedliche Bitraten für unterschiedliche Typen von Rahmeninhalten verwendet werden) durchgeführt werden. Codierer mit variabler Rate versuchen, nur die Menge von Bits zu verwenden, die erforderlich ist, um die Codec-Parameter auf einem Level zu codieren, der ausreichend ist, um eine Soll-Qualität zu erhalten. Ein beispielhafter CELP-Codierer mit variabler Rate wird in dem U.S.-Patent Nr. 5,414,796 beschrieben.
Zeitbereichs-Codierer, wie der CELP-Codierer, stützen sich typischerweise auf eine hohe Anzahl von Bits, N_o, pro Rahmen, um die Genauigkeit der Zeitbereichs-Sprachwellenform zu bewahren. Derartige Codierer liefern typischerweise eine exzellente Sprachqualität, vorausgesetzt, die Anzahl von Bits, N_o, pro Rahmen ist relativ groß (z.B. 8 kbps oder höher). Bei niedrigen Bitraten (4 kbps und darunter) jedoch scheitern Zeitbereichs-Codierer aufgrund der begrenzten Anzahl von verfügbaren Bits, eine hohe Qualität und robuste Leistung aufrechtzuerhalten. Bei niedrigen Bitraten beschneidet (clips) der begrenzte Codebuchraum die Wellenformübereinstimmungs-Fähigkeit von herkömmlichen Zeitbereichs-Codierern, die so erfolgreich in kommerziellen Anwendungen mit höherer Rate eingesetzt werden. Somit leiden trotz Verbesserungen mit der Zeit viele CELP-Codiersysteme, die bei niedrigen Bitraten arbeiten, an einer wahrnehmbar signifikanten Verzerrung, die typischerweise als Rauschen charakterisiert wird.
Momentan gibt es einen Anstieg eines Forschungsinteresses und eine hohe kommerzielle Notwendigkeit, einen hochwertigen Sprachcodierer zu entwickeln, der bei mittleren bis geringen Bitraten arbeitet (d.h. in dem Bereich von 2.4 bis 4 kbps und darunter). Die Anwendungsgebiete umfassen ein drahtloses Fernsprechwesen, Satellitenkommunikation, Internettelephonie, verschiedene Multimedia- und Sprach-Streaming-Anwendungen, Voice-Mail und andere Sprachspeichersysteme. Die treibenden Kräfte sind die Notwendigkeit einer hohen Kapazität und die Nachfrage nach robuster Leistung in Paketverlustsituationen. Verschiedene Sprachcodier-Standardisierungsversuche der letzten Zeit sind eine weitere direkte Antriebskraft, die Forschung und Entwicklung von Sprachcodieralgorithmen niedriger Rate antreiben. Ein Sprachcodierer mit niedriger Rate ergibt mehr Kanäle oder Benutzer pro zulässiger Anwendungsbandbreite und ein Sprachcodierer niedriger Rate verbunden mit einer zusätzlichen Schicht einer geeigneten Kanalcodierung kann für das gesamte Bit-Budget von Codierer-Spezifikationen geeignet sein und eine robuste Leistung unter Kanalfehlerbedingungen liefern.
Eine effektive Technik, um Sprache effizient mit geringen Bitraten zu codieren, ist eine Multimodecodierung. Eine beispielhafte Multimodecodiertechnik wird in dem U.S.-Patent Nr. 6,691,084 mit dem Titel „Variable Rate Speech Coding" beschrieben, angemeldet am 21. Dezember 1998. Herkömmliche Multimodecodierer wenden unterschiedliche Modi oder Codier-Decodier-Algorithmen auf unterschiedliche Typen von Eingangssprachrahmen an. Jeder Modus oder Codier-Decodier-Prozess ist spezifisch, um einen bestimmten Typ von Sprachsegment, wie zum Beispiel stimmhafte (voiced) Sprache, stimmlose (unvoiced) Sprache, Übergangssprache (zum Beispiel zwischen stimmhaft und stimmlos) und Hintergrundrauschen (Stille oder keine Sprache), optimal auf die wirksamste Weise darzustellen. Ein externer Steuer(open loop)modus-Entscheidungsmechanismus untersucht den Eingangssprachrahmen und entscheidet, welcher Modus auf den Rahmen anzuwenden ist. Die Steuermodus-Entscheidung wird typischerweise durchgeführt durch Extrahieren einer Anzahl von Parametern aus dem Eingangsrahmen, Evaluieren der Parameter in Bezug auf bestimmte zeitliche und spektrale Charakteristiken und Basieren einer Modusentscheidung auf die Evaluierung.
Codiersysteme, die mit Raten in dem Bereich von 2.4 kbps arbeiten, sind im Allgemeinen parametrisch. Das heißt, derartige Codiersysteme arbeiten durch Übertragung von Parametern, welche die Pitch-Periode und die spektrale Hülle (oder Formanten) des Sprachsignals in regelmäßigen Intervallen beschreiben. Das LP-Vocoder-System veranschaulicht diese so genannten parametrischen Codierer.
LP-Vocoder modellieren ein stimmhaftes Sprachsignal mit einem einzelnen Puls pro Pitch-Periode. Diese grundlegende Technik kann erweitert werden, um unter anderem eine Übertragungsinformation über die spektrale Hülle zu umfassen. Obwohl LP-Vocoder im Allgemeinen eine vernünftige Leistung bieten, können sie eine wahrnehmbar signifikante Verzerrung einführen, typischerweise als Brummen bzw. Summen (buzz) charakterisiert.
In den letzten Jahren sind Codierer entstanden, die Hybriden aus sowohl Wellenformcodierern als auch parametrischen Codierern sind. Das Prototyp-Wellenform-Interpolations(PWI – prototype waveform interpolation)-Sprachcodiersystem veranschaulicht diese so genannten hybriden Codierer. Das PWI-Codiersystem kann auch als ein PPP(prototype pitch period)-Sprachcodierer bekannt sein. Ein PWI-Codiersystem liefert ein effizientes Verfahren zur Codierung von stimmhafter Sprache. Das grundlegende Konzept von PWI liegt darin, einen repräsentativen Pitch-Zyklus (die Prototyp-Wellenform) in festen Intervallen zu extrahieren, seine Beschreibung zu übertragen und das Sprachsignal durch eine Interpolation zwischen den Prototyp-Wellenformen zu rekonstruieren. Das PWI-Verfahren kann entweder auf dem LP-Rest-Signal oder auf dem Sprachsignal arbeiten. Ein beispielhafter PWI- oder PPP-Sprachcodierer wird in dem U.S.-Patent Nr. 6,456,964 mit dem Titel „Periodic Speech Coding" beschrieben, das am 21. Dezember 1998 angemeldet wurde. Andere PWI- oder PPP-Sprachcodierer werden in dem U.S.-Patent Nr. 5,884,253 , und in W. Bastiaan Kleijn & Wolfgang Granzow in „Methods for Waveform Interpolation in Speech Coding" in 1 Digital Signal Processing, 215–230 (1991) beschrieben.
In den meisten herkömmlichen Sprachcodierern werden die Parameter eines gegebenen Pitch-Prototyps oder eines gegebenen Rahmens von dem Codierer jeweils individuell quantisiert und übertragen. Zusätzlich wird ein Differenzwert für jeden Parameter übertragen. Der Differenzwert spezifiziert die Differenz zwischen dem Parameterwert für den aktuellen Rahmen oder Prototyp und dem Parameterwert für den vorhergehenden Rahmen oder Prototyp. EP 0,731,448 (AT & T Corp.) offenbart ein Sprachcodiersystem, in dem verschiedene Sprachparameterwerte sowie ein Sprachparameter-Delta übertragen werden, wobei das Sprachparameter-Delta eine Änderung der Pitch-Verzögerung von einem aktuellen Rahmen zu einem unmittelbar vorhergehenden Rahmen darstellt. Jedoch erfordert ein Quantisieren der Parameterwerte und der Differenzwerte eine Verwendung von Bits (und somit Bandbreite). In einem Sprachcodierer mit niedriger Bitrate ist es vorteilhaft, die geringste Anzahl von Bits zu übertragen, die möglicht ist, um eine zufrie denstellende Sprachqualität aufrecht zu erhalten. Aus diesem Grund werden in herkömmlichen Sprachcodierern mit niedriger Bitrate nur die absoluten Parameterwerte quantisiert und übertragen. Es wäre wünschenswert, die Anzahl der übertragenen Bits zu verringern, ohne den Informationswert zu verringern. Demgemäß wird ein Quantisierungsschema, das die Differenz zwischen einer gewichteten Summe der Parameterwerte für frühere Rahmen und dem Parameterwert für den aktuellen Rahmen quantisiert, in EP 1279167 B1 mit dem Titel „Method and Apparatus for Predictively Quantizing Voiced Speech" beschrieben, das der Anmelderin der vorliegenden Erfindung erteilt wurde.
Sprachcodierer erfahren eine Rahmenlöschung oder einen Paketverlust aufgrund schlechter Kanalbedingungen. Eine Lösung, die in herkömmlichen Sprachcodieren verwendet wurde, war, dass der Decodierer einfach den vorhergehenden Rahmen wiederholt, wenn eine Rahmenlöschung empfangen wurde. Eine Verbesserung wurde beobachtet bei der Verwendung eines adaptiven Codebuchs, das dynamisch den Rahmen anpasst, der unmittelbar auf eine Rahmenlöschung folgt. Eine weitere Verbesserung, der verbesserte Codierer mit variabler Rate (EVRC – enhanced variable rate coder), wird in dem Telecommunication Industry Association Interim Standard EIA/TIA IS-127 standardisiert. Der EVRC-Codierer ist auf einen korrekt empfangenen, niedrig-prädiktiv codierten Rahmen angewiesen, um in dem Codiererspeicher den Rahmen zu verändern, der nicht empfangen wurde, und dadurch die Qualität des korrekt empfangenen Rahmens zu verbessern.
Ein Problem mit dem EVRC-Codierer ist jedoch, dass Diskontinuitäten zwischen einer Rahmenlöschung und einem nachfolgenden angepassten guten Rahmen entstehen können. Zum Beispiel können Pitch-Pulse zu nahe oder zu weit auseinander platziert werden im Vergleich zu ihren relativen Positionen in dem Fall, dass keine Rahmenlöschung stattgefunden hat. Derartige Diskontinuitäten können einen hörbaren Klick verursachen.
Im Allgemeinen arbeiten Sprachcodierer, die eine niedrige Vorhersagbarkeit umfassen (wie die in dem obigen Abschnitt beschriebenen), besser unter Rahmenlöschungsbedingungen. Jedoch erfordern, wie diskutiert, derartige Sprachcodierer relativ höhere Bitraten. Im Gegensatz kann ein hoch-prädiktiver Sprachcodierer eine gute Qualität einer synthetisierten Sprachausgabe erzielen (insbesondere für eine stark periodische Sprache, wie stimmhafte Sprache), arbeitet aber schlechter unter Rahmenlöschungsbedingungen. Es wäre wünschenswert, die Qualitäten beider Typen von Sprachcodierern zu kombinieren. Es wäre weiter vorteilhaft, ein Verfahren zum Glätten von Diskontinuitäten zwischen Rahmenlöschungen und nachfolgenden veränderten guten Rahmen vorzusehen. Somit gibt es eine Notwendigkeit für ein Rahmenlöschungskompensationsverfahren, das eine prädiktive Codierer-Leistung in dem Fall von Rahmenlöschungen verbessert und Diskontinuitäten zwischen Rahmenlöschungen und nachfolgenden guten Rahmen glättet.
ZUSAMMENFASSUNG DER ERFINDUNG
Die vorliegende Erfindung betrifft ein Rahmenlöschungskompensationsverfahren, das eine prädiktive Codierer-Leistung in dem Fall von Rahmenlöschungen verbessert und Diskontinuitäten zwischen Rahmenlöschungen und nachfolgenden guten Rahmen glättet. Demgemäß wird in einem Aspekt der Erfindung ein Verfahren zum Kompensieren für eine Rahmenlöschung in einem Sprachcodierer vorgesehen. Das Verfahren umfasst vorteilhafterweise ein Entquantisieren eines Pitch- bzw. Tonhöhenverzögerungswerts und eines ersten Delta-Werts für einen aktuellen Rahmen, der verarbeitet wird, nachdem ein gelöschter Rahmen deklariert bzw. festgestellt wurde, wobei der erste Delta-Wert gleich zu der Differenz zwischen dem Pitch-Verzögerungswert für den aktuellen Rahmen und einem Pitch-Verzögerungswert für einen Rahmen ist, der dem aktuellen Rahmen unmittelbar vorausgeht; Empfangen eines quantisierten zweiten Delta-Werts für zumindest einen Rahmen vor dem aktuellen Rahmen und nach der Rahmenlöschung, ohne einen quantisierten Pitch-Verzögerungswert für den zumin dest einen Rahmen zu empfangen; Entquantisieren des zweiten Delta-Werts für zumindest einen Rahmen vor dem aktuellen Rahmen und nach der Rahmenlöschung, wobei der zweite Delta-Wert gleich zu der Differenz zwischen einem Pitch-Verzögerungswert für den zumindest einen Rahmen und einem Pitch-Verzögerungswert für einen Rahmen ist, der unmittelbar dem zumindest einem Rahmen vorausgeht; Subtrahieren des ersten Delta-Werts von dem Pitch-Verzögerungswert für den aktuellen Rahmen, um einen Pitch-Verzögerungswert für den zumindest einen Rahmen vor dem aktuellen Rahmen zu erzeugen; und Subtrahieren des zweiten Delta-Werts von dem erzeugten Pitch-Verzögerungswert für den zumindest einen Rahmen vor dem aktuellen Rahmen, um einen Pitch-Verzögerungswert für den gelöschten Rahmen zu erzeugen.
In einem anderen Aspekt der Erfindung ist ein Sprachcodierer vorgesehen, der zum Kompensieren für eine Rahmenlöschung konfiguriert ist. Der Sprachcodierer umfasst vorteilhafterweise erste Mittel zum Entquantisieren eines Pitch-Verzögerungswerts und eines ersten Delta-Werts für einen aktuellen Rahmen, der verarbeitet wird, nachdem ein gelöschter Rahmen deklariert bzw. festgestellt wurde, wobei der erste Delta-Wert gleich zu der Differenz zwischen dem Pitch-Verzögerungswert für den aktuellen Rahmen und einem Pitch-Verzögerungswert für einen Rahmen ist, der dem aktuellen Rahmen unmittelbar vorausgeht; Mittel zum Empfangen eines quantisierten zweiten Delta-Werts für zumindest einen Rahmen vor dem aktuellen Rahmen und nach der Rahmenlöschung, ohne einen quantisierten Pitch-Verzögerungswert für den zumindest einen Rahmen zu empfangen; Mittel zum Entquantisieren des zweiten Delta-Werts für den zumindest einen Rahmen vor dem aktuellen Rahmen und nach der Rahmenlöschung, wobei der Delta-Wert gleich zu der Differenz zwischen einem Pitch-Verzögerungswert für den zumindest einen Rahmen und einem Pitch-Verzögerungswert für einen Rahmen ist, der unmittelbar dem zumindest einem Rahmen vorausgeht; Mittel zum Subtrahieren des ersten Delta-Werts von dem Pitch-Verzögerungswert für den aktuellen Rahmen, um einen Pitch-Verzögerungswert für den zumindest einen Rahmen vor dem aktuellen Rahmen zu erzeugen; und Mittel zum Subtrahieren des zweiten Delta-Werts von dem erzeugten Pitch-Verzögerungswert für den zumindest einen Rahmen vor dem aktuellen Rahmen, um einen Pitch-Verzögerungswert für den gelöschten Rahmen zu erzeugen.
In einem bevorzugten Ausführungsbeispiel der Erfindung ist eine Teilnehmereinheit vorgesehen, welche die Merkmale des oben beschriebenen Sprachcodierers enthält. In diesem Ausführungsbeispiel ist das erste Mittel zum Entquantisieren des Pitch-Verzögerungswerts und des ersten Delta-Werts für den aktuellen Rahmen, der verarbeitet wird, nachdem ein gelöschter Rahmen deklariert wurde, ein erster Sprachcodierer; das zweite Mittel zum Entquantisieren des zweiten Delta-Werts für den zumindest einen Rahmen vor dem aktuellen Rahmen und nach der Rahmenlöschung ist ein zweiter Sprachcodierer; und das Mittel zum Subtrahieren ist ein Steuerungsprozessor, der mit dem ersten und zweiten Sprachcodierer verbunden ist.
In einem anderen Aspekt der Erfindung ist ein Infrastrukturelement vorgesehen, das zum Kompensieren für eine Rahmenlöschung konfiguriert ist. Das Infrastrukturelement umfasst vorteilhafterweise einen Prozessor; und ein Speichermedium, das mit dem Prozessor verbunden ist und einen Satz von Anweisungen enthält, der durch den Prozessor ausführbar ist, um das oben dargelegte Verfahren durchzuführen.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 ist ein Blockdiagramm eines drahtlosen Telefonsystems.
2 ist ein Blockdiagramm eines Kommunikationskanals, der an jedem Ende von Sprachcodierern terminiert wird.
3 ist ein Blockdiagramm eines Sprachcodierers.
4 ist ein Blockdiagramm eines Sprachdecodierers.
5 ist ein Blockdiagramm eines Sprachcodierers, einschließlich Codierer/Sender- und Decodierer/Empfänger-Teile.
6 ist ein Graph einer Signalamplitude über der Zeit für ein Segment einer stimmhaften Sprache.
7 zeigt ein erstes Rahmenlöschungsverarbeitungsschema, das in dem Decodierer/Empfänger-Teil des Sprachcodierers von 5 verwendet werden kann.
8 zeigt ein zweites Rahmenlöschungsverarbeitungsschema, das für einen Sprachcodierer mit variabler Rate zugeschnitten ist, das in dem Decodierer/Empfänger-Teil des Sprachcodierers von 5 verwendet werden kann.
9 zeichnet eine Signalamplitude über der Zeit für verschiedene Linearprädiktiv(LP – linear predictive)-Rest-Wellenformen, um ein Rahmenlöschungsverarbeitungsschema darzustellen, das verwendet werden kann, um einen Übergang zwischen einem beschädigten Rahmen und einem guten Rahmen zu glätten.
10 zeichnet eine Signalamplitude über der Zeit für verschiedene LP-Rest-Wellenformen, um die Vorteile des in 9 dargestellten Rahmenlöschungsverarbeitungsschemas darzustellen.
11 zeichnet eine Signalamplitude über der Zeit für verschiedene Wellenformen, um eine Pitch-Periode-Prototyp- oder Wellenform-Interpolations-Codier-Technik darzustellen.
12 ist ein Blockdiagramm eines Prozessors, der mit einem Speichermittel verbunden ist.
Detaillierte Beschreibung der bevorzugten Ausführungsbeispiele
Die im Folgenden hier beschriebenen beispielhaften Ausführungsbeispiele befinden sich in einem drahtlosen Telefonkommunikationssystem, das konfiguriert ist, eine CDMA-über-die-Luft-Schnittstelle einzusetzen. Dennoch ist für Fachleute offensichtlich, dass ein Verfahren und eine Vorrichtung zum prädiktiven Codieren von stimmhafter Sprache, die Merkmale der vorliegenden Erfindung einsetzen, sich in jedem von verschiedenen Kommunikationssystemen befinden können, die einen weiten Bereich von Technologien einsetzen, die Fachleuten bekannt sind.
Wie in 1 dargestellt wird, umfasst ein drahtloses CDMA-Telefonsystem im Allgemeinen eine Vielzahl von mobilen Teilnehmereinheiten 10, eine Vielzahl von Basisstationen (BS – base stations) 12, Basisstation-Steuereinrichtungen (BSCs – base station controllers) 14 und eine mobile Vermittlungsstelle (MSC – mobile switching center) 16. Die MSC 16 ist konfiguriert, eine Schnittstelle mit einem herkömmlichen öffentlichen Telefonnetz (PSTN – public switch telephone network) 18 zu haben. Die MSC 16 ist auch konfiguriert, mit den BSCs 14 verbunden zu sein. Die BSCs 14 sind mit den Basisstationen 12 über Backhaul-Leitungen verbunden. Die Backhaul-Leitungen können konfiguriert sein, jede von mehreren bekannten Schnittstellen zu unterstützen, einschließlich zum Beispiel E1/T1, ATM, IP, PPP, Frame Relay, HDSL, ADSL oder xDSL. Es sollte angemerkt werden, dass es mehr als zwei BSCs 14 in dem System geben kann. Jede Basisstation 12 umfasst vorteilhafterweise zumindest einen Sektor (nicht gezeigt), wobei jeder Sektor eine omnidirektionale Antenne oder eine Antenne aufweist, die in eine bestimmte Richtung radial weg von der Basisstation 12 gerichtet ist. Alternativ kann jeder Sektor zwei Antennen für einen Diversity-Empfang aufweisen. Jede Basisstation 12 kann vorteilhafterweise gestaltet sein, eine Vielzahl von Frequenzzuteilungen zu unterstützen. Die Schnittstelle eines Sektors und einer Frequenzzuteilung kann als ein CDMA-Kanal bezeichnet werden. Die Basisstationen 12 können auch als Basisstation-Transceiver-Teilsysteme (BTSs – base station transceiver subsystems) 12 bekannt sein.
Alternativ kann „Basisstation" in der Industrie verwendet werden, um kollektiv eine BSC 14 und ein oder mehrere BTSs 12 zu bezeichnen. Die BTSs 12 können auch als „Zellenstandorte" 12 bezeichnet werden. Alternativ können individuelle Sektoren eines bestimmten BTS 12 als Zellenstandorte bezeichnet werden. Die mobilen Teilnehmereinheiten 10 sind typischerweise zellulare oder PCS-Telefone 10. Das System ist vorteilhafterweise konfiguriert zur Verwendung gemäß dem IS-95-Standard.
Während eines typischen Betriebs des zellularen Telefonsystems empfangen die Basisstationen 12 Sätze von Rückwärtsverbindungssignalen von Sätzen von mobilen Einheiten 10. Die mobilen Einheiten 10 führen Telefonanrufe oder eine andere Kommunikation durch. Jedes von einer gegebenen Basisstation 12 empfangene Rückwärtsverbindungssignal wird in dieser Basisstation 12 verarbeitet. Die resultierenden Daten werden an die BSCs 14 weitergeleitet. Die BSCs 14 sehen eine Anrufressourcenzuteilung und eine Mobilitätsverwaltungsfunktionalität vor, einschließlich der Instrumentation von weichen Übergaben bzw. Handovers (soff handoffs) zwischen den Basisstationen 12. Die BSCs 14 leiten auch die empfangenen Daten an die MSC 16, die zusätzliche Routing-Dienste zur Verbindung mit dem PSTN 18 vorsieht. Ähnlich ist das PSTN 18 mit der MSC 16 verbunden und die MSC 16 ist mit den BSCs 14 verbunden, die wiederum die Basisstationen 12 steuern, um Sätze von Vorwärtsverbindungssignalen an Sätze von mobilen Einheiten 10 zu übertragen. Es sollte für Fachleute offensichtlich sein, dass die Teilnehmereinheiten 10 in alternativen Ausführungsbeispielen feste Einheiten sein können.
In 2 empfängt ein erster Codierer 100 digitalisierte Sprachabtastwerte s(n) und codiert die Abtastwerte s(n) zur Übertragung auf einem Übertragungsmittel 102 oder einem Kommunikationskanal 102 an einen ersten Decodierer 104. Der Decodierer 104 decodiert die codierten Sprachabtastwerte und synthetisiert ein Ausgabesprachsignal s_SYNTH(n). Zur Übertragung in die entgegengesetzte Richtung codiert ein zweiter Codierer 106 digitalisierte Sprachabtastwerte s(n), die auf einem Kommunikationskanal 108 übertragen werden. Ein zweiter Decodierer 110 empfängt und decodiert die codierten Sprachabtastwerte und erzeugt ein synthetisiertes Ausgabesprachsignal s_SYNTH(n).
Die Sprachabtastwerte s(n) stellen Sprachsignale dar, die gemäß verschiedenen in dem Stand der Technik bekannten Verfahren digitalisiert und quantisiert wurden, z.B. Pulscode-Modulation (PCM – pulse code modulation), kompandiertes μ-Gesetz (μ-law) oder A-Gesetz (A-law). Wie in der Technik bekannt ist, werden die Sprachabtastwerte s(n) in Rahmen von Eingangsdaten organisiert, wobei jeder Rahmen eine vorgegebene Anzahl von digitalisierten Sprachabtastwerten s(n) aufweist. In einem beispielhaften Ausführungsbeispiel wird eine Abtastrate von 8 kHz eingesetzt, wobei jeder 20-ms-Rahmen 160 Abtastwerte aufweist. In den im Folgenden beschriebenen Ausführungsbeispielen kann die Rate einer Datenübertragung vorteilhafterweise auf einer Rahmen-zu-Rahmen-Basis von voller Rate zu (halber Rate zu viertel Rate zu achtel Rate) variiert werden. Ein Variieren der Datenübertragungsrate ist vorteilhaft, da niedrigere Bitraten selektiv für Rahmen eingesetzt werden können, die relativ wenig Sprachinformation enthalten. Wie für Fachleute offensichtlich ist, können andere Abtastraten und/oder Rahmengrößen verwendet werden. Auch kann in den im Folgenden beschriebenen Ausführungsbeispielen der Sprach-Codierungs(oder Codier)-Modus auf einer Rahmen-zu-Rahmen-Basis als Reaktion auf die Sprachinformation oder Energie des Rahmens variiert werden.
Der erste Codierer 100 und der zweite Decodierer 110 bilden zusammen einen ersten Sprachcodierer (Codierer/Decodierer) oder Sprachcodec. Der Sprachcodierer kann in jeder Kommunikationsvorrichtung zur Übertragung von Sprachsignalen verwendet werden, einschließlich zum Beispiel die Teilnehmereinheiten, BTSs oder BSCs, die oben unter Bezugnahme auf 1 beschrieben werden. Ähnlich bilden der zweite Codierer 106 und der erste Decodierer 104 zusammen einen zweiten Sprachcodierer. Es ist Fachleuten bekannt, dass Sprachcodierer implementiert werden können mit einem digitalen Signalprozessor (DSP – digital signal processor), einem anwendungs spezifischen Schaltkreis (ASIC – application-specific integrated circuit), einer diskreten Gatter-Logik, einer Firmware oder einem herkömmlichen programmierbaren Softwaremodul und einem Mikroprozessor. Das Softwaremodul kann sich in einem RAM-Speicher, einem Flash-Speicher, Registern oder jeder anderen in der Technik bekannten Form eines Speichermittels befinden. Alternativ kann jeder herkömmliche Prozessor, jede Steuereinrichtung oder Zustandsmaschine für den Mikroprozessor eingesetzt werden. Beispielhafte ASICs, die spezifisch für eine Sprachcodierung gestaltet sind, werden in dem U.S.-Patent Nr. 5,727,123 und dem U.S.-Patent Nr. 5,784,532 mit dem Titel „VOCODER ASIC", angemeldet am 16. Februar 1994, beschrieben.
In 3 umfasst ein Codierer 200, der in einem Sprachcodierer verwendet werden kann, ein Modus-Entscheidungs-Modul 202, ein Pitch-Schätz-Modul 204, ein LP-Analyse-Modul 206, einen LP-Analyse-Filter 208, ein LP-Quantisierungs-Modul 210 und ein Rest-Quantisierungs-Modul 212. Eingangssprachrahmen s(n) werden an das Modus-Entscheidungs-Modul 202, das Pitch-Schätz-Modul 204, das LP-Analyse-Modul 206 und den LP-Analyse-Filter 208 geliefert. Das Modus-Entscheidungs-Modul 202 erzeugt einen Modusindex I_M und einen Modus M basierend auf der Periodizität, der Energie, des Rauschabstands (SNR – signal-to-noise ratio) oder einer Nulldurchgangsrate, unter anderen Merkmalen, jedes Eingangssprachrahmens s(n). Verschiedene Verfahren einer Klassifizierung von Sprachrahmen gemäß einer Periodizität werden in dem U.S.-Patent Nr. 5,911,128 beschrieben, das der Anmelderin der vorliegenden Erfindung erteilt wurde und durch Bezugnahme hier vollständig aufgenommen ist. Derartige Verfahren sind auch in den „Telecommunication Industry Association Industry Interim Standards" TIA/EIA IS-127 und TIA/EIA IS-733 enthalten. Ein beispielhaftes Modus-Entscheidungs-Schema wird auch in dem oben erwähnten U.S.-Patent Nr. 6,691,084 beschrieben.
Das Pitch-Schätz-Modul 204 erzeugt einen Pitch-Index I_p und einen Verzögerungs(lag)wert P₀ basierend auf jedem Eingangssprachrahmen s(n). Das LP-Analyse-Modul 206 führt eine Lineare-Prädiktions-Analyse auf jedem Eingangssprachrahmen s(n) durch, um einen LP-Parameter α zu erzeugen. Der LP-Parameter α wird an das LP-Quantisierungs-Modul 210 geliefert. Das LP-Quantisierungs-Modul 210 empfängt auch den Modus M, wodurch es den Quantisierungsprozess auf eine Modus-abhängige Weise durchführt. Das LP-Quantisierungs-Modul 210 erzeugt einen LP-Index I_LP und einen quantisierten LP-Parameter α ^. Der LP-Analyse-Filter 208 empfängt den quantisierten LP-Parameter α ^ zusätzlich zu dem Eingangssprachrahmen s(n). Der LP-Analyse-Filter 208 erzeugt ein LP-Rest-Signal R[n], das den Fehler zwischen den Eingangssprachrahmen s(n) und der rekonstruierten Sprache basierend auf den quantisierten LP-Parametern α ^ darstellt. Der LP-Rest R[n], der Modus M und der quantisierte LP-Parameter α ^ werden an das Rest-Quantisierungs-Modul 212 geliefert. Basierend auf diesen Werten erzeugt das Rest-Quantisierungs-Modul 212 einen Rest-Index I_R und ein quantisiertes Rest-Signal R ^[n].
In 4 umfasst ein Decodierer 300, der in einem Sprachcodierer verwendet werden kann, ein LP-Parameter-Decodierungs-Modul 302, ein Rest-Decodierungs-Modul 304, ein Modus-Decodierungs-Modul 306 und einen LP-Synthese-Filter 308. Das Modus-Decodierungs-Modul 306 empfängt und decodiert einen Modus-Index I_M, aus dem es einen Modus M erzeugt. Das LP-Parameter-Decodierungs-Modul 302 empfängt den Modus M und einen LP-Index I_LP. Das LP-Parameter-Decodierungs-Modul 302 decodiert die empfangenen Werte, um einen quantisierten LP-Parameter α ^ zu erzeugen. Das Rest-Decodierungs-Modul 304 empfängt einen Rest-Index I_R, einen Pitch-Index I_P und den Modus-Index I_M. Das Rest-Decodierungs-Modul 304 decodiert die empfangenen Werte, um ein quantisiertes Rest-Signal R ^[n] zu erzeugen. Das quantisierte Rest-Signal R ^[n] und der quantisierte LP-Parameter
werden an den LP-Synthese-Filter 308 geliefert, der daraus ein decodiertes Sprachsignal ŝ[n] synthetisiert.
Betrieb und Implementierung der verschiedenen Module des Codierers 200 von 3 und des Decodierers 300 von 4 sind in der Technik bekannt und werden in dem oben erwähnten U.S.-Patent Nr. 5,414,796 und von L. B. Rabiner & R. W. Schafer in „Digital Processing of Speech Signals", 396–453, (1978) beschrieben.
In einem Ausführungsbeispiel kommuniziert ein Multimode-Sprachcodierer 400 mit einem Multimode-Sprachdecodierer 402 über einen Kommunikationskanal oder ein Übertragungsmedium 404. Der Kommunikationskanal 404 ist vorteilhafterweise eine HF-Schnittstelle, die gemäß dem IS-95-Standard konfiguriert ist. Es dürfte für Fachleute offensichtlich sein, dass der Codierer 400 einen zugehörigen Decodierer hat (nicht gezeigt). Der Codierer 400 und sein zugehöriger Decodierer bilden zusammen einen ersten Sprachcodierer. Es dürfte für Fachleute ebenfalls offensichtlich sein, dass der Decodierer 402 einen zugehörigen Codierer hat (nicht gezeigt). Der Decodierer 402 und sein zugehöriger Codierer bilden zusammen einen zweiten Sprachcodierer. Der erste und der zweite Sprachcodierer können vorteilhafterweise als Teil von ersten und zweiten DSPs implementiert werden und können sich zum Beispiel in einer Teilnehmereinheit und einer Basisstation in einem PCS oder zellularen Telefonsystem oder in einer Teilnehmereinheit und einem Gateway in einem Satellitensystem befinden.
Der Codierer 400 umfasst einen Parameter-Kalkulator 406, ein Modus-Klassifikations-Modul 408, eine Vielzahl von Codierungs-Modi 410 und ein Paketformatierungs-Modul 412. Die Anzahl der Codierungs-Modi 410 wird als n gezeigt, was, wie Fachleute verstehen werden, jede sinnvolle Anzahl von Codierungs-Modi 410 bedeuten kann. Zur Einfachheit werden nur drei Codierungs-Modi 410 gezeigt, wobei eine gepunktete Linie die Existenz anderer Codierungs-Modi 410 anzeigt. Der Decodierer 402 umfasst ein Paket-Disassembler- und Paketverlusterfassungs-Modul 414, eine Vielzahl von Decodierungs-Modi 416, einen Löschungs-Decodierer 418 und einen Post-Filter oder Sprach-Synthesizer 420. Die Anzahl der Decodierungs-Modi 416 wird als n gezeigt, was, wie Fachleute verstehen werden, jede sinnvolle An zahl von Deodierungs-Modi 416 bedeuten kann. Zur Einfachheit werden nur drei Decodierungs-Modi 416 gezeigt, wobei eine gepunktete Linie die Existenz anderer Decodierungs-Modi 416 anzeigt.
Ein Sprachsignal s(n) wird an den Parameter-Kalkulator 406 geliefert. Das Sprachsignal wird in Blöcke von Abtastwerte, als Rahmen bezeichnet, geteilt. Der Wert n gibt die Rahmennummer an. In einem alternativen Ausführungsbeispiel wird ein Linear-Prädiktions(LP – linear prediction)-Rest-Fehler-Signal statt des Sprachsignals verwendet. Der LP-Rest wird von Sprachcodierern verwendet, wie zum Beispiel dem CELP-Codierer. Eine Berechnung des LP-Rests wird vorteilhafterweise durchgeführt durch Liefern des Sprachsignals an einen inversen LP-Filter (nicht gezeigt). Die Transfer-Funktion des inversen LP-Filters A(z) wird gemäß der folgenden Gleichung berechnet: A(z) = 1 – a1z–1 – a2z–2 – ... – apz–p wobei die Koeffizienten a₁ Filter-Taps mit vordefinierten Werten sind, die gemäß bekannten Verfahren gewählt werden, wie in dem oben angeführten U.S.-Patent Nr. 5,414,796 und dem U.S.-Patent Nr. 6,456,964 beschrieben. Die Anzahl p gibt die Anzahl von vorhergehenden Abtastwerten an, die der inverse LP-Filter für Vorhersagezwecke verwendet. In einem bestimmten Ausführungsbeispiel ist p auf zehn gesetzt.
Der Parameter-Kalkulator 406 leitet verschiedene Parameter basierend auf dem aktuellen Rahmen ab. In einem Ausführungsbeispiel umfassen diese Parameter zumindest eines der Folgenden: LPC(linear predictive coding)-Filter-Koeffizienten, LSP(linear spectral pair)-Koeffizienten, normalisierte Autokorrelationsfunktionen (NACFs – normalized autocorrelation functions), offener Regelkreis-Verzögerung, Nulldurchgangsraten, Bandenergien und das Formant-Rest-Signal. Eine Berechnung von LPC-Koeffizienten, LSP-Koeffizienten, offener Regelkreis-Verzögerung, Bandenergien und des Formant-Rest-Signals wird detailliert in dem oben angeführten U.S.-Patent Nr. 5,414,796 beschrieben. Eine Berechnung der NACFs und Nulldurchgangsra ten wird detailliert in dem oben angeführten U.S.-Patent Nr. 5,911,128 beschrieben.
Der Parameter-Kalkulator 406 ist mit dem Modus-Klassifikations-Modul 408 verbunden. Der Parameter-Kalkulator 406 liefert die Parameter an das Modus-Klassifikations-Modul 408. Das Modus-Klassifikations-Modul 408 ist verbunden, um dynamisch zwischen den Codierungs-Modi 410 auf einer Rahmen-zu-Rahmen-Basis umzuschalten, um den geeignetsten Codierungs-Modus 410 für den aktuellen Rahmen zu wählen. Das Modus-Klassifikations-Modul 408 wählt einen bestimmten Codierungs-Modus 410 für den aktuellen Rahmen durch Vergleichen der Parameter mit vordefinierten Schwellen- und/oder Obergrenzen-Werten. Basierend auf dem Energieinhalt des Rahmens klassifiziert das Modus-Klassifikations-Modul 408 den Rahmen als keine Sprache oder inaktive Sprache (z.B. Stille, Hintergrundrauschen oder Pausen zwischen Wörtern) oder Sprache. Basierend auf der Periodizität des Rahmens klassifiziert das Modus-Klassifikations-Modul 408 dann Sprachrahmen als einen bestimmten Typ von Sprache, zum Beispiel stimmhaft, stimmlos oder transient.
Stimmhafte Sprache ist Sprache, die einen relativ hohen Grad an Periodizität zeigt. Ein Segment von stimmhafter Sprache wird in dem Graph von 6 gezeigt. Wie dargestellt ist die Pitch-Periode eine Komponente eines Sprachrahmens, die vorteilhafterweise verwendet werden kann, um die Inhalte des Rahmens zu analysieren und zu rekonstruieren. Stimmlose Sprache weist typischerweise Konsonanten-Töne auf. Transiente Sprachrahmen sind typischerweise Übergänge zwischen stimmhafter und stimmloser Sprache. Rahmen, die weder als stimmhafte noch stimmlose Sprache klassifiziert werden, werden als transiente Sprache klassifiziert. Es sollte für Fachleute offensichtlich sein, dass jedes geeignete Klassifikationsschema eingesetzt werden kann.
Eine Klassifizierung der Sprachrahmen ist vorteilhaft, da verschiedene Codierungs-Modi 410 verwendet werden können, um unterschiedliche Typen von Sprache zu codieren, was zu einer effizienteren Verwendung von Bandbreite in einem gemeinsam benutzten Kanal führt, wie dem Kommunikationskanal 404. Da zum Beispiel eine stimmhafte Sprache periodisch ist und somit gut vorhersagbar, kann ein hoch-prädiktiver Codierungs-Modus 410 mit geringer Bitrate eingesetzt werden, um stimmhafte Sprache zu codieren. Klassifikations-Module, wie das Klassifikations-Modul 408, werden detailliert in dem oben angeführten U.S.-Patent Nr. 6,691,084 und in dem U.S.-Patent Nr. 6,640,209 mit dem Titel „CLOSED-LOOP MULTIMODE MIXED-DOMAIN LINEAR PREDICTION (MDLP) SPEECH CODER", angemeldet am 26. Februar 1999, beschrieben.
Das Modus-Klassifikations-Modul 408 wählt einen Codierungs-Modus 410 für den aktuellen Rahmen basierend auf der Klassifikation des Rahmens. Die verschiedenen Codierungs-Modi 410 sind parallel verbunden. Einer oder mehrere der Codierungs-Modi 410 können zu jeder Zeit betriebsfähig sein. Dennoch arbeitet vorteilhafterweise nur ein Codierungs-Modus 410 zu jeder Zeit und wird gemäß der Klassifikation des aktuellen Rahmens gewählt.
Die unterschiedlichen Codierungs-Modi 410 arbeiten vorteilhafterweise gemäß unterschiedlicher Codierungs-Bitraten, unterschiedlicher Codierungsschemen oder unterschiedlicher Kombinationen von Codierungs-Bitrate und Codierungsschema. Die verschiedenen verwendeten Codierungsraten können volle Rate, halbe Rate, viertel Rate und/oder achtel Rate sein. Die verschiedenen verwendeten Codierungsschemen können eine CELP-Codierung, PPP(prototype pitch periode)-Codierung (oder Wellenform-Interpolations(WI – waveform interpolation)-Codierung) und/oder NELP(noise excited linear prediction)-Codierung sein. Somit kann zum Beispiel ein bestimmter Codierungs-Modus 410 ein CELP mit voller Rate sein, ein anderer Codierungs-Modus 410 kann ein CELP mit halber Rate sein, ein anderer Codierungs-Modus 410 kann ein PPP mit viertel Rate sein und ein anderer Codierungs-Modus 410 kann ein NELP sein.
Gemäß einem CELP-Codierungs-Modus 410 wird ein linear prädiktives Stimmtrakt-Modell mit einer quantisierten Version des LP-Rest-Signals angeregt. Die quantisierten Parameter für den gesamten vorherigen Rahmen werden verwendet, um den aktuellen Rahmen zu rekonstruieren. Der CELP-Codierungs-Modus 410 liefert somit eine relativ genaue Reproduktion von Sprache, aber auf Kosten einer relativ hohen Codierungs-Bitrate. Der CELP-Codierungs-Modus 410 kann vorteilhafterweise verwendet werden, um Rahmen zu codieren, die als transiente Sprache klassifiziert sind. Ein beispielhafter CELP-Sprachcodierer mit variabler Rate wird detailliert in dem oben angeführten U.S.-Patent Nr. 5,414,796 beschrieben.
Gemäß einem NELP-Codierungs-Modus 410 wird ein gefiltertes pseudozufälliges Rauschsignal verwendet, um den Sprachrahmen zu modellieren. Der NELP-Codierungs-Modus 410 ist eine relativ einfache Technik, die eine niedrige Bitrate erzielt. Der NELP-Codierungs-Modus 410 kann vorteilhafterweise verwendet werden, um Rahmen zu codieren, die als stimmlose Sprache klassifiziert sind. Ein beispielhafter NELP-Codierungsmodus wird detailliert in dem oben angeführten U.S.-Patent Nr. 6,456,964 beschrieben.
Gemäß einem PPP-Codierungs-Modus 410 wird nur ein Teilsatz der Pitchperioden in jedem Rahmen codiert. Die verbleibenden Perioden des Sprachsignals werden rekonstruiert durch eine Interpolation zwischen diesen Prototyp-Perioden. In einer Zeitbereichs-Implementierung von PPP-Codierung wird ein erster Satz von Parametern berechnet, der beschriebt, wie eine vorherige Prototyp-Periode zu modifizieren ist, um die aktuelle Prototyp-Periode zu approximieren. Ein oder mehrere Codevektoren werden ausgewählt, die, wenn summiert, die Differenz zwischen der aktuellen Prototyp-Periode und der modifizierten vorherigen Prototyp-Periode approximieren. Ein zweiter Satz von Parametern beschreibt diese gewählten Codevektoren. In einer Frequenzbereichs-Implementierung der PPP-Codierung wird ein Satz von Parametern berechnet, um Amplitude und Phasenspektra des Prototyps zu beschreiben. Dies kann durchgeführt werden entweder in einem absoluten Sinn oder prädiktiv. Ein Verfahren zum prädiktiven Quantisieren der Amplitu de und Phasenspektra eines Prototyps (oder eines gesamten Rahmens) wird in der oben angeführten verwandten Anmeldung beschrieben, die hiermit angemeldet wird, mit dem Titel „METHOD AND APPARATUS FOR PREDICTIVELY QUANTIZING VOICED SPEECH". Gemäß jeder Implementierung der PPP-Codierung synthetisiert der Decodierer ein Ausgabesprachsignal durch Rekonstruieren eines aktuellen Prototyps basierend auf dem ersten und zweiten Satz von Parametern. Das Sprachsignal wird dann über den Bereich zwischen der aktuellen rekonstruierten Prototyp-Periode und einer vorherigen rekonstruierten Prototyp-Periode interpoliert. Der Prototyp ist somit ein Teil des aktuellen Rahmens, der linear interpoliert wird mit Prototypen von vorherigen Rahmen, die in dem Rahmen ähnlich positioniert sind, um das Sprachsignal oder das LP-Restsignal an dem Decodierer zu rekonstruieren (d.h. eine vergangene Prototyp-Periode wird verwendet als Prädiktor der aktuellen Prototyp-Periode). Ein beispielhafter PPP-Sprachcodierer wird detailliert in dem oben angeführten U.S.-Patent Nr. 6,456,964 beschrieben.
Ein Codieren der Prototyp-Periode statt des gesamten Sprachrahmens reduziert die erforderliche Codierungsbitrate. Als stimmhafte Sprache klassifizierte Rahmen können vorteilhafterweise mit einem PPP-Codierungs-Modus 410 codiert werden. Wie in 6 dargestellt, enthält stimmhafte Sprache langsam zeitvariierende periodische Komponenten, die vorteilhafterweise durch den PPP-Codierungs-Modus 410 ausgenutzt werden. Durch Ausnutzen der Periodizität der stimmhaften Sprache kann der PPP-Codierungs-Modus 410 eine niedrigere Bitrate als der CELP-Codierungs-Modus 410 erzielen.
Der gewählte Codierungs-Modus 410 ist mit dem Paket-Formatierungs-Modul 412 verbunden. Der gewählte Codierungs-Modus 410 codiert oder quantisiert den aktuellen Rahmen und liefert die quantisierten Rahmenparameter an das Paket-Formatierungs-Modul 412. Das Paket-Formatierungs-Modul 412 assembliert vorteilhafterweise die quantisierte Information in Pakete zur Übertragung über den Kommunikationskanal 404. In einem Ausführungsbeispiel ist das Paket-Formatierungs-Modul 412 konfiguriert, eine Feh lerkorrekturcodierung vorzusehen und das Paket gemäß dem IS-95-Standard zu formatieren. Das Paket wird an einen Sender (nicht gezeigt) geliefert, in analoges Format konvertiert, moduliert und über den Kommunikationskanal 404 an einen Empfänger (ebenfalls nicht gezeigt) übertragen, der das Paket empfängt, demoduliert und digitalisiert und das Paket an den Decodierer 402 liefert.
In dem Decodierer 402 empfängt das Paket-Disassembler- und Paketverlusterfassungs-Modul 414 das Paket von dem Empfänger. Das Paket-Disassembler- und Paketverlusterfassungs-Modul 414 ist verbunden, um dynamisch zwischen den Decodierungs-Modi 416 auf einer Paket-zu-Paket-Basis umzuschalten. Die Anzahl von Decodierungs-Modi 416 ist dieselbe wie die Anzahl von Codierungs-Modi 410 und wie für Fachleute offensichtlich sein dürfte, gehört jeder nummerierte Codierungs-Modus 410 zu einem jeweiligen ähnlich nummerierten Decodierungs-Modus 416, der konfiguriert ist, dieselbe Codierungsbitrate und das Codierungsschema einzusetzen.
Wenn das Paket-Disassembler- und Paketverlusterfassungs-Modul 414 das Paket erfasst, wird das Paket disassembliert und an den entsprechenden Decodierungs-Modus 416 geliefert. Wenn das Paket-Disassembler- und Paketverlusterfassungs-Modul 414 kein Paket erfasst, wird ein Paketverlust erklärt und der Löschungs-Decodierer 418 führt vorteilhafterweise eine Rahmenlöschungsverarbeitung durch, wie im Folgenden detailliert beschrieben wird.
Das parallele Array der Decodierungs-Modi 416 und der Löschungs-Decodierer 418 sind mit dem Post-Filter 420 verbunden. Der entsprechende Decodierungs-Modus 416 decodiert oder entquantisiert das Paket und liefert die Information an den Post-Filter 420. Der Post-Filter 420 rekonstruiert oder synthetisiert den Sprachrahmen und gibt die synthetisierten Sprachrahmen ŝ(n) aus. Beispielhafte Decodierungs-Modi und Post-Filter werden detailliert in dem oben erwähnten U.S.-Patent Nr. 5,414,796 und dem U.S.-Patent Nr. 6,456,964 beschrieben.
In einem Ausführungsbeispiel werden die quantisierten Parameter selbst nicht übertragen. Stattdessen werden Codebuch-Indizes übertragen, die Adressen in verschiedenen Verweistabellen (LUTs – look-up tables) (nicht gezeigt) in dem Decodierer 402 spezifizieren. Der Decodierer 402 empfängt die Codebuch-Indizes und durchsucht die verschiedenen Codebuch-LUTs nach geeigneten Parameterwerten. Demgemäß können Codebuch-Indizes für Parameter, wie zum Beispiel Pitchverzögerung, adaptive Codebuchverstärkung und LSP, übertragen werden und drei zugehörige Codebuch-LUTs werden von dem Decodierer 402 durchsucht.
Gemäß dem CELP-Codierungs-Modus 410 werden Pitch-Verzögerung, Amplitude, Phase und LSP-Parameter übertragen. Die LSP-Codebuch-Indizes werden übertragen, da das LP-Restsignal an dem Decodierer 402 zu synthetisieren ist. Zusätzlich wird die Differenz zwischen dem Pitchverzögerungswert für den aktuellen Rahmen und dem Pitchverzögerungswert für den vorherigen Rahmen übertragen.
Gemäß einem herkömmlichen PPP-Codierungs-Modus, in dem das Sprachsignal an dem Decodierer zu synthetisieren ist, wird nur die Pitch-Verzögerung, Amplitude und die Phasenparameter übertragen. Die niedrigere Bitrate, die von herkömmlichen PPP-Sprachcodierungs-Techniken eingesetzt wird, erlaubt keine Übertragung von sowohl einer absoluten Pitch-Verzögerungs-Information als auch relativen Pitch-Verzögerungs-Differenzwerten.
Gemäß einem Ausführungsbeispiel werden stark periodische Rahmen, wie stimmhafte Sprachrahmen, mit einem PPP-Codierungs-Modus 410 mit niedriger Bitrate übertragen, der die Differenz zwischen dem Pitchverzögerungswert für den aktuellen Rahmen und dem Pitchverzögerungswert für den vorherigen Rahmen zur Übertragung quantisiert und nicht den Pitchverzögerungswert für den aktuellen Rahmen zur Übertragung quantisiert. Da stimmhafte Rahmen eine stark periodische Eigenschaft haben, ermöglicht eine Übertragung des Differenzwerts im Gegensatz zu dem absoluten Pitchverzögerungswert, dass eine niedrigere Codierungsbitrate erzielt wird. In einem Ausführungsbeispiel wird diese Quantisierung derart generalisiert, dass eine gewichtete Summe der Parameterwerte für vorherige Rahmen berechnet wird, wobei die Summe der Gewichtungen eins ist und die gewichtetet Summe von dem Parameterwert für den aktuellen Rahmen subtrahiert wird. Die Differenz wird dann quantisiert. Diese Technik wird detailliert in dem oben angeführten EP 1279167 B1 mit dem Titel „METHOD AND APPARATUS FOR PREDICTIVELY QUANTIZING VOICED SPEECH" beschrieben.
Gemäß einem Ausführungsbeispiel codiert ein Codiersystem mit variabler Rate unterschiedliche Typen von Sprache, wie durch einen Steuerungsprozessor bestimmt, mit unterschiedlichen Codierern oder Codierungs-Modi, gesteuert durch den Prozessor oder Modus-Klassifizierer. Die Codierer modifizieren das Rest-Signal des aktuellen Rahmens (oder alternativ des Sprachsignals) gemäß einer Pitch-Kontur, wie von dem Pitchverzögerungswert für den vorherigen Rahmen L_–1 und dem Pitchverzögerungswert für den aktuellen Rahmen L spezifiziert. Ein Steuerungsprozessor für die Decodierer folgt derselben Pitch-Kontur, um einen adaptiven Codebuch-Beitrag {P(n)} aus einem Pitch-Speicher für den quantisierten Rest oder Sprache für den aktuellen Rahmen zu rekonstruieren.
Wenn der vorherige Pitchverzögerungswert L_–1 verloren ist, können die Decodierer die korrekte Pitch-Kontur nicht rekonstruieren. Dies verursacht, dass der adaptive Codebuch-Beitrag {P(n)} verzerrt ist. Darauf erleidet die synthetisierte Sprache eine schwerwiegende Verschlechterung, obwohl kein Paket für den aktuellen Rahmen verloren ist. Als eine Lösung setzen einige herkömmliche Codierer ein Schema ein, um sowohl L als auch die Differenz zwischen L und L_–1 zu codieren. Diese Differenz oder Delta-Pitch-Wert kann durch Δ bezeichnet werden, wobei Δ = L – L_–1 dem Zweck der Wiederherstellung von L_–1 dient, wenn L_–1 in dem vorherigen Rahmen verloren ist.
Das momentan beschriebene Ausführungsbeispiel kann auf vorteilhafteste Weise in einem Codiersystem mit variabler Rate verwendet werden. Insbesondere codiert ein erster Codierer (oder Codierungs-Modus), durch C bezeichnet, den Pitchverzögerungswert L des aktuellen Rahmens und den Delta-Pitchverzögerungswert Δ, wie oben beschrieben. Ein zweiter Codierer (oder Codierungs-Modus), durch Q bezeichnet, codiert den Delta-Pitchverzögerungswert Δ, codiert aber nicht notwendigerweise den Pitchverzögerungswert L. Dies ermöglicht dem zweiten Codierer Q, die zusätzlichen Bits zu verwenden, um andere Parameter zu codieren, oder die Bits überhaupt zu sparen (d.h. als ein Codierer mit niedriger Bitrate zu funktionieren). Der erste Codierer C kann vorteilhafterweise ein Codierer sein, der verwendet wird, um relativ nicht-periodische Sprache zu codieren, wie zum Beispiel ein CELP-Codierer mit voller Rate. Der zweite Codierer Q kann vorteilhafterweise ein Codierer sein, der verwendet wird, um stark periodische Sprache (zum Beispiel stimmhafte Sprache) zu codieren, wie zum Beispiel ein PPP-Codierer mit viertel Rate.
Wie in dem Beispiel von 7 dargestellt, wird, wenn das Paket des vorherigen Rahmens, Rahmen n-1, verloren ist, der Pitch-Speicher-Beitrag {P_–2(n)} nach der Decodierung des Rahmens, der vor dem vorherigen Rahmen empfangen wurde, Rahmen n-2, in dem Codiererspeicher (nicht gezeigt) gespeichert. Der Pitchverzögerungswert für Rahmen n-2, L_–2, wird ebenfalls in dem Codiererspeicher gespeichert. Wenn der aktuelle Rahmen, Rahmen n, durch den Codierer C codiert wird, kann der Rahmen n als C-Rahmen bezeichnet werden. Der Codierer C kann den vorherigen Pitchverzögerungswert L_–1 aus dem Delta-Pitch-Wert Δ unter Verwendung der Gleichung L_–1 = L – Δ wiederherstellen. Somit kann eine korrekte Pitch-Kontur mit den Werten L_–1 und L_–2 rekonstruiert werden. Der adaptive Codebuch-Beitrag für den Rahmen n-1 kann repariert werden unter Voraussetzung der richtigen Pitch-Kontur und wird nachfolgend verwendet, um den adaptiven Codebuch-Beitrag für den Rahmen n zu erzeugen. Für Fachleute ist offensichtlich, dass ein derartiges Schema in einigen herkömmlichen Codierern, wie dem EVRC-Codierer, verwendet wird.
Gemäß einem Ausführungsbeispiel wird eine Rahmenlöschungsleistung in einem Sprachcodiersystem mit variabler Rate unter Verwendung der oben beschriebenen zwei Typen von Codierern (Codierer C und Codierer Q) verbessert, wie im Folgenden beschrieben wird. Wie in dem Beispiel von 8 dargestellt wird, kann ein Codiersystem mit variabler Rate ausgebildet sein, sowohl den Codierer C als auch den Codierer Q zu verwenden. Der aktuelle Rahmen, Rahmen n, ist ein C-Rahmen und sein Paket ist nicht verloren. Der vorherige Rahmen, Rahmen n-1, ist ein Q-Rahmen. Das Paket für den Rahmen, der dem Q-Rahmen vorausgeht, (d.h. das Paket für den Rahmen n-2) war verloren.
Bei der Rahmenlöschungs-Verarbeitung für den Rahmen n-2 wird der Pitch-Speicher-Beitrag {P_–3(n)} nach der Decodierung des Rahmens n-3 in dem Codiererspeicher (nicht gezeigt) gespeichert. Der Pitchverzögerungswert für den Rahmen n-3, L_–3, wird ebenfalls in dem Codiererspeicher gespeichert. Der Pitchverzögerungswert für den Rahmen n-1, L_–1, kann durch Verwendung des Delta-Pitchverzögerungswerts Δ (der gleich zu L – L_–1 ist) in dem C-Rahmen-Paket gemäß der Gleichung L_–1 = L – Δ wiederhergestellt werden. Der Rahmen n-1 ist ein Q-Rahmen mit einem zugehörigen eigenen codierten Delta-Pitchverzögerungswert Δ_–1, gleich L_–1 – L_–2. Somit kann der Pitchverzögerungswert für den Löschungsrahmen, Rahmen n-2, L_–2, gemäß der Gleichung L_–2 = L_–1 – Δ_–1 wiederhergestellt werden. Mit den korrekten Pitchverzögerungswerten für den Rahmen n-2 und den Rahmen n-1 können Pitch-Konturen für diese Rahmen vorteilhafterweise rekonstruiert werden und der adaptive Codebuch-Beitrag kann demgemäß repariert werden. Somit hat der C-Rahmen den verbesserten Pitch-Speicher, der erforderlich ist, um den adaptiven Codebuch-Beitrag für sein quantisiertes LP-Rest-Signal (oder Sprachsignal) zu berechnen. Dieses Verfahren kann einfach erweitert werden, um die Existenz mehrerer Q-Rahmen zwischen dem Löschungs- Rahmen und dem C-Rahmen zu ermöglichen, wie für Fachleute offensichtlich sein dürfte.
Wie graphisch in der 9 gezeigt, rekonstruiert, wenn ein Rahmen gelöscht wird, der Löschungs-Decodierer (zum Beispiel das Element 418 von 5) den quantisierten LP-Rest (oder das Sprachsignal) ohne die exakte Information des Rahmens. Wenn die Pitch-Kontur und der Pitch-Speicher des gelöschten Rahmens gemäß dem oben beschriebenen Verfahren zur Rekonstruktion des quantisierten LP-Rests (oder des Sprachsignals) des aktuellen Rahmens wiederhergestellt wurden, ist der resultierende quantisierte LP-Rest (oder das Sprachsignal) unterschiedlich zu dem, wenn der beschädigte Pitch-Speicher verwendet worden wäre. Eine derartige Änderung des Codierer-Pitch-Speichers resultiert in einer Diskontinuität der quantisierten Reste (oder Sprachsignale) über Rahmen. Somit ist oft ein Übergangston oder Klick in herkömmlichen Sprachcodierern zu hören, wie dem EVRC-Codierer.
Gemäß einem Ausführungsbeispiel werden Pitch-Perioden-Prototypen aus dem beschädigten Pitch-Speicher vor einer Reparatur extrahiert. Der LP-Rest (oder das Sprachsignal) für den aktuellen Rahmen wird ebenfalls extrahiert gemäß einem normalen Entquantisierungsprozess. Der quantisierte LP-Rest (oder Sprachsignal) für den aktuellen Rahmen wird dann rekonstruiert gemäß einem Wellenform-Interpolations(WI – waveform interpolation)-Verfahren. In einem bestimmten Ausführungsbeispiel arbeitet das WI-Verfahren gemäß dem oben beschriebenen PPP-Codiermodus. Dieses Verfahren dient vorteilhafterweise dazu, die oben beschriebene Diskontinuität zu glätten und weiter die Rahmenlöschungsleistung des Sprachcodierers zu verbessern. Ein derartiges WI-Schema kann verwendet werden, wenn der Pitch-Speicher repariert wird aufgrund einer Löschungsverarbeitung, unabhängig der verwendeten Techniken, um die Reparatur durchzuführen (einschließlich, aber nicht darauf begrenzt, zum Beispiel die Techniken, die hier oben beschrieben wurden).
Die Graphen von 10 zeigen die Erscheinungsdifferenz zwischen einem LP-Rest-Signal, das gemäß herkömmlichen Techniken angepasst wurde, das einen hörbaren Klick erzeugt, und einem LP-Rest-Signal, das nachfolgend geglättet wurde gemäß dem oben beschriebenen WI-Glättungsschema. Die Graphen von 11 zeigen die Prinzipien einer PPP- oder WI-Codiertechnik.
Somit wurde ein neues und verbessertes Rahmen-Löschungs-Kompensationsverfahren in einem Sprachcodierer mit variabler Rate beschrieben. Für Fachleute ist offensichtlich, dass die Daten, Anweisungen, Befehle, Information, Signale, Bits, Symbole und Chips, die in der obigen Beschreibung angeführt werden, vorteilhafterweise durch Spannungen, Ströme, elektromagnetische Wellen, magnetische Felder oder Partikel, optische Felder oder Partikel oder jeder Kombination daraus dargestellt werden. Für Fachleute ist weiter offensichtlich, dass die verschiedenen illustrativen logischen Blöcke, Module, Schaltungen und Algorithmusschritte, die in Verbindung mit den hier offenbarten Ausführungsbeispielen beschrieben werden, als elektronische Hardware, Computersoftware oder Kombinationen aus beiden implementiert werden können. Die verschiedenen illustrativen Komponenten, Blöcke, Module, Schaltungen und Schritte wurden im Allgemeinen hinsichtlich ihrer Funktionalität beschrieben. Ob die Funktionalität als Hardware oder Software implementiert wird, hängt von der bestimmten Anwendung und Gestaltungsbeschränkungen ab, die dem Gesamtsystem auferlegt sind. Fachleute erkennen die Austauschbarkeit von Hardware und Software unter diesen Umständen und wie die beschriebene Funktionalität für jede bestimmte Anwendung am besten zu implementieren ist. Als Beispiele können die verschiedenen illustrativen Blöcke, Module, Schaltungen und Algorithmusschritte, die in Verbindung mit den hier offenbarten Ausführungsbeispielen beschrieben werden, mit einem digitalen Signalprozessor (DSP – digital signal processor), einem anwendungsspezifischen Schaltkreis (ASIC – application-specific integrated circuit), einem FPLA (field programmable gate array) oder einer anderen programmierbaren logischen Vorrichtung, einer diskreten Gatter- oder Transistor-Logik, diskreten Hardware- Komponenten, wie z.B. Register und FIFO, einem Prozessor, der einen Satz von Firmware-Anweisungen ausgeführt, jedem herkömmlichen programmierbaren Softwaremodul und einem Prozessor oder jeder Kombination daraus, die ausgebildet ist, die hier beschriebenen Funktionen durchzuführen, implementiert oder durchgeführt werden. Der Prozessor kann vorteilhafterweise ein Mikroprozessor sein, aber als Alternative kann der Prozessor jeder herkömmliche Prozessor, jede Steuereinrichtung, Mikrosteuereinrichtung oder Zustandsmaschine sein. Das Softwaremodul kann sich in einem RAM-Speicher, einem Flash-Speicher, einem ROM-Speicher, einem EPROM-Speicher, einem EEPROM-Speicher, Registern, einer Festplatte, einer auswechselbare Platte, einer CD-ROM oder jeder anderen in der Technik bekannten Form eines Speichermediums befinden. Wie in der 12 dargestellt wird, wird ein beispielhafter Prozessor 500 vorteilhafterweise mit einem Speichermedium 502 verbunden, um Information aus dem Speichermedium 502 zu lesen und Information in das Speichermedium 502 zu schreiben. Alternativ kann das Speichermedium 502 integral zu dem Prozessor 500 sein. Der Prozessor 500 und das Speichermedium 502 können sich in einem ASIC (nicht gezeigt) befinden. Der ASIC kann sich in einem Telefon (nicht gezeigt) befinden. Alternativ können sich der Prozessor 500 und das Speichermedium 502 in einem Telefon befinden. Der Prozessor 500 kann als eine Kombination aus einem DSP und einem Mikroprozessor implementiert werden oder als zwei Mikroprozessoren in Verbindung mit einem DSP-Kern, usw.
Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung wurden somit gezeigt und beschrieben. Es ist für Fachleute jedoch offensichtlich, dass verschiedene Änderungen der hier offenbarten Ausführungsbeispiele gemacht werden können, ohne von dem Umfang der Erfindung abzuweichen. Somit soll die vorliegende Erfindung nicht eingeschränkt sein, außer gemäß den folgenden Ansprüchen.

Claims

Ein Verfahren zum Kompensieren hinsichtlich einer Rahmenlöschung in einem Sprach-Codierer, wobei das Verfahren Folgendes aufweist: Entquantisieren eines Pitch- bzw. Tonhöhenverzögerungswertes und eines ersten Delta-Wertes für einen momentanen Rahmen, der verarbeitet wird nach dem ein Löschungsrahmen deklariert wurde, wobei der erste Delta-Wert gleich zu der Differenz zwischen dem Pitch-Verzögerungswert für den momentanen Rahmen und einem Pitch-Verzögerungswert für einen Rahmen unmittelbar vorausgehend zu dem momentanen Rahmen ist; Empfangen eines quantisierten zweiten Delta-Wertes, für zumindest einen Rahmen vor dem momentanen Rahmen und nach der Rahmenlöschung ohne dabei einen quantisierten Pitch-Verzögerungswert für den mindestens einen Rahmen zu empfangen; Entquantisieren des zweiten Delta-Wertes für den mindestens einen Rahmen vor den momentanen Rahmen und nach der Rahmenlöschung, wobei der zweite Delta-Wert gleich ist zu der Differenz zwischen einem Pitch-Verzögerungs-Wert für den mindestens einen Rahmen und einem Pitch-Verzögerungswert für einen Rahmen unmittelbar vorausgehend zu dem mindestens einen Rahmen; Subtrahieren des ersten Delta-Wertes von dem Pitch-Verzögerungswert für den momentanen Rahmen, um einen Pitch-Verzögerungswert für den mindestens einen Rahmen vor den momentanen Rahmen zu generieren; und Subtrahieren des zweiten Delta-Wertes von dem generierten Pitch-Verzögerungswert für den mindestens einen Rahmen vor den momentanen Rahmen, um einen Pitch-Verzögerungswert für den gelöschten Rahmen zu generieren.
Verfahren nach Anspruch 1, das weiterhin das Rekonstruieren des gelöschten Rahmens zum Generieren eines rekonstruierten Rahmens, aufweist.
Verfahren nach Anspruch 2, das weiterhin das Ausführen einer Wellenform-Interpolation aufweist, um jegliche Diskontinuität zu glätten, die zwischen dem momentanen Rahmen und dem rekonstruierten Rahmen existiert.
Verfahren nach Anspruch 1, wobei das Dequantisieren bzw. Entquantisieren ausgeführt wird, gemäß einem relativ nicht-prädiktiven Codierungs-Modus.
Verfahren nach Anspruch 1, wobei das Entquantisieren ausgeführt wird, gemäß einem relativ prädiktiven Codierungs-Modus.
Eine Vorrichtung angepasst zum Kompensieren hinsichtlich einer Rahmenlöschung, wobei die Vorrichtung Folgendes aufweist: erste Mittel (418) zum Entquantisieren eines Pitch-Verzögerungswertes und eines ersten Delta-Wertes für einen momentanen Rahmen, verarbeitet nach einer Deklarierung eines gelöschten Rahmens, wobei der erste Delta-Wert gleich ist zu der Differenz zwischen dem Pitch-Verzögerungswert für den momentanen Rahmen und einen Pitch-Verzögerungswert für einen Rahmen unmittelbar vorhergehend zu dem momentanen Rahmen; Mittel (402) zum Empfangen eines quantisierten zweiten Delta-Wertes für mindestens einen Rahmen vor den momentanen Rahmen und nach der Rahmenlöschung ohne einen quantisierten Pitch-Verzögerungswert für den mindestens einen Rahmen zu empfangen; zweite Mittel (418) zum Entquantisieren des zweiten Delta-Wertes für den mindestens einen Rahmen vor dem momentanen Rahmen und nach der Rahmenlöschung, wobei der Delta-Wert gleich ist zu der Differenz zwischen einem Pitch-Verzögerungswert für den mindestens einen Rahmen und einen Pitch-Verzögerungswert für einen Rahmen unmittelbar vorausgehend zu dem mindestens einen Rahmen; Mittel (418) zum Subtrahieren des ersten Delta-Wertes von dem Pitch-Verzögerungswert für den momentanen Rahmen, um einen Pitch-Verzögerungswert für den mindestens einen Rahmen vor den momentanen Rahmen zu generieren; und Mittel (418) zum Subtrahieren des zweiten Delta-Wertes von dem generierten Pitch-Verzögerungswert für den mindestens einen Rahmen vor dem momentanen Rahmen, um einen Pitch-Verzögerungswert für den gelöschten Rahmen zu erzeugen.
Vorrichtung nach Anspruch 6, die weiterhin Mittel (420) aufweist zum Rekonstruieren des gelöschten Rahmens um einen rekonstruierten Rahmen zu generieren.
Vorrichtung nach Anspruch 7, die weiterhin Mittel aufweist zum Ausführen einer Wellenform-Interpolation um jegliche Diskontinuitäten zu glätten, die zwischen dem momentanen Rahmen und dem rekonstruierten Rahmen existieren.
Vorrichtung nach Anspruch 6, wobei die ersten Mittel (418) zum Entquantisieren Mittel aufweisen zum Entquantisieren gemäß einem relativ nicht-prädiktiven Codierungs-Modus.
Sprach-Codierer nach Anspruch 6, wobei die zweiten Mittel (418) zum Entquantisieren Mittel aufweisen zum Entquantisieren gemäß einem relativ prädiktiven Codierungs-Modus.
Eine Teilnehmer-Einheit gemäß der Vorrichtung nach Anspruch 6, wobei die ersten Mittel (418) zum Entquantisieren des Pitch-Verzögerungswertes und des ersten Delta-Wertes für den momenta nen Rahmen, verarbeitet nach der Deklarierung eines gelöschten Rahmens, ein erster Sprach-Codierer sind; die zweiten Mittel (418) zum Entquantisieren des zweiten Delta-Wertes für den mindestens einen Rahmen vor dem momentanen Rahmen und nach der Rahmenlöschung ein zweiter Sprach-Codierer sind; und die Mittel (418) zum Subtrahieren ein Steuerprozessor gekoppelt an den ersten und zweiten Sprach-Codierer sind.
Teilnehmereinheit nach Anspruch 12, wobei der Steuerprozessor weiter konfiguriert ist, um den gelöschten Rahmen zu rekonstruieren, um einen rekonstruierten Rahmen zu generieren.
Teilnehmereinheit nach Anspruch 12, wobei der Steuerprozessor weiter konfiguriert ist, um eine Wellenform-Interpolation auszuführen, um jegliche Diskontinuitäten, die zwischen dem momentanen Rahmen und dem rekonstruierten Rahmen existieren, zu glätten.
Teilnehmereinheit nach Anspruch 11, wobei der erste Sprach-Codierer konfiguriert ist, um gemäß einem relativ nicht-prädiktiven Codierungs-Modus zu entquantisieren.
Teilnehmereinheit nach Anspruch 11, wobei der zweite Sprach-Codierer konfiguriert ist, um gemäß einem relativ prädiktiven Codierungs-Modus zu entquantisieren.
Ein Speichermedium, das einen Satz von Instruktionen enthält, der wenn ausgeführt durch einen Prozessor jeden der Verfahrensschritte nach einem der Ansprüche 1 bis 11 ausführt.