DE60129544T2 - Kompensationsverfahren bei rahmenauslöschung in einem sprachkodierer mit veränderlicher datenrate - Google Patents

Kompensationsverfahren bei rahmenauslöschung in einem sprachkodierer mit veränderlicher datenrate Download PDF

Info

Publication number
DE60129544T2
DE60129544T2 DE60129544T DE60129544T DE60129544T2 DE 60129544 T2 DE60129544 T2 DE 60129544T2 DE 60129544 T DE60129544 T DE 60129544T DE 60129544 T DE60129544 T DE 60129544T DE 60129544 T2 DE60129544 T2 DE 60129544T2
Authority
DE
Germany
Prior art keywords
frame
pitch lag
speech
value
lag value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60129544T
Other languages
English (en)
Other versions
DE60129544D1 (de
Inventor
Sharath Basavanagudi MANJUNATH
Penjung San Diego HUANG
Eddie-Lun Tik Carlsbad CHOY
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Application granted granted Critical
Publication of DE60129544D1 publication Critical patent/DE60129544D1/de
Publication of DE60129544T2 publication Critical patent/DE60129544T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/097Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using prototype waveform decomposition or prototype waveform interpolative [PWI] coders

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Analogue/Digital Conversion (AREA)
  • Stereophonic System (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Devices For Executing Special Programs (AREA)

Description

  • Hintergrund der Erfindung
  • I. Gebiet der Erfindung
  • Die vorliegende Erfindung betrifft im Allgemeinen das Gebiet der Sprachverarbeitung und insbesondere Verfahren und eine Vorrichtung zur Kompensierung von Rahmenlöschungen in Sprachcodierern mit variabler Rate.
  • II. Hintergrund
  • Eine Übertragung von Sprache durch digitale Techniken ist weit verbreitet, insbesondere bei Fern- und digitalen Funktelefonanwendungen. Dies wiederum hat Interesse erzeugt an der Bestimmung der geringsten Menge an Information, die über einen Kanal gesendet werden kann, während die wahrgenommene Qualität der rekonstruierten Sprache beibehalten wird. Wenn Sprache durch einfaches Abtasten und Digitalisieren übertragen wird, ist eine Datenrate im Bereich von 64 Kilobits pro Sekunde (kbps – kilobits per second) erforderlich, um eine Sprachqualität eines herkömmlichen analogen Telefons zu erreichen. Jedoch kann durch die Verwendung einer Sprachanalyse, gefolgt von der geeigneten Codierung, Übertragung und Resynthese an dem Empfänger eine signifikante Reduzierung der Datenrate erreicht werden.
  • Vorrichtungen für die Komprimierung von Sprache finden Verwendung in vielen Gebieten der Telekommunikation. Ein beispielhaftes Gebiet ist die drahtlose Kommunikation. Das Gebiet der drahtlosen Kommunikation hat viele Anwendungen, einschließlich zum Beispiel schnurlose Telefone, Paging, drahtlose Teilnehmeranschlussleitungen, drahtlose Telefonie, wie zellulare und PCS-Telefonsysteme, mobile Internetprotokoll(IP – internet protocol)-Telefonie und Satellitenkommunikationssysteme. Eine besonders wichtige Anwendung ist eine drahtlose Telefonie für mobile Teilnehmer.
  • Verschiedene über-die-Luft-Schnittstellen wurden für drahtlose Kommunikationssysteme entwickelt, einschließlich zum Beispiel FDMA (frequency division multiple access), TDMA (time division multiple access) und CDMA (code division multiple access). In Verbindung damit wurden verschiedene inländische und internationale Standards errichtet, einschließlich zum Beispiel AMPS (Advanced Mobile Phone Service), GSM (Global System for Mobile Communications) und IS-95 (Interim Standard 95). Ein beispielhaftes drahtloses Telefonkommunikationssystem ist ein CDMA(code division multiple access)-System. Der IS-95-Standard und seine Ableitungen, IS-95A, ANSIJ-STD-008, IS-956, vorgeschlagene Standards der dritten Generation IS-95C und IS-2000, usw. (hier insgesamt als IS-95 bezeichnet), werden durch die Telecommunication Industry Association (TIA) und andere weithin bekannte Standard-Gremien veröffentlicht, um die Verwendung einer CDMA-über-die-Luft-Schnittstelle für zellulare oder PCS-Telefonkommunikationssysteme zu spezifizieren. Beispielhafte drahtlose Kommunikationssysteme, die im Wesentlichen gemäß der Verwendung des IS-95-Standards konfiguriert sind, werden in den U.S.-Patenten Nr. 5,103,459 und 4,901,307 beschrieben.
  • Vorrichtungen, die Techniken einsetzen, um Sprache durch Extraktion von Parametern zu komprimieren, die ein Modell einer menschlichen Spracherzeugung betreffen, werden als Sprachcodierer bezeichnet. Ein Sprachcodierer teilt das ankommende Sprachsignal in Zeitblöcke oder Analyserahmen. Sprachcodierer weisen typischerweise einen Codierer und einen Decodierer auf. Der Codierer analysiert den ankommenden Sprachrahmen, um bestimmte relevante Parameter zu extrahieren, und quantisiert dann die Parameter in binäre Darstellungen, d.h. in einen Satz von Bits oder ein binäres Datenpaket. Die Datenpakete werden über den Kommunikationskanal an einen Empfänger und einen Decodierer übertragen. Der Decodierer verarbeitet die Datenpakete, entquantisiert sie, um die Parameter zu erzeugen, und resynthesiert die Sprachrahmen unter Verwendung der entquantisierten Parameter.
  • Die Funktion des Sprachcodierers ist, das digitalisierte Sprachsignal in ein Signal mit geringer Bitrate zu komprimieren durch Entfernen aller natürlichen Redundanzen, die in der Sprache inhärent sind. Die digitale Komprimierung wird erreicht durch Darstellen des Eingangssprachrahmens durch einen Satz von Parametern und Einsetzen einer Quantisierung, um die Parameter mit einem Satz von Bits darzustellen. Wenn der Eingangssprachrahmen eine Anzahl von Bits Ni hat und das von dem Sprachcodierer erzeugte Datenpaket eine Anzahl von Bits No hat, dann ist der von dem Sprachcodierer erzielte Komprimierungsfaktor Cr = Ni/No. Die Aufgabe ist, eine hohe Sprachqualität der decodierten Sprache zu erhalten bei Erzielung des Ziel-Komprimierungsfaktors. Die Leistung eines Sprachcodierers hängt davon ab, (1) wie gut das Sprachmodell oder die oben beschriebene Kombination des Analyse- und Syntheseprozesses arbeitet, und (2) wie gut der Parameterquantisierungsprozess an der Zielbitrate von No Bits pro Rahmen durchgeführt wird. Das Ziel des Sprachmodells ist somit, die Essenz des Sprachsignals oder die Ziel-Sprachqualität mit einem kleinen Satz von Parametern für jeden Rahmen zu erfassen.
  • Vielleicht am wichtigsten bei der Gestaltung eines Sprachcodierers ist die Suche nach einem guten Satz von Parametern (einschließlich Vektoren), um das Sprachsignal zu beschreiben. Ein guter Satz von Parametern erfordert eine niedrige Systembandbreite für die Rekonstruktion eines wahrnehmbar genauen Sprachsignals. Pitch bzw. Tonhöhe, Signalleistung, spektrale Hülle (oder Formanten), Amplitudenspektren und Phasenspektren sind Beispiele der Sprachcodierparameter.
  • Sprachcodierer können als Zeitbereichs- bzw. Zeitdomain-Codierer implementiert werden, die versuchen, die Zeitbereichs-Sprachwellenform zu erfassen durch Einsatz einer Verarbeitung mit hoher Zeitauflösung, um jeweils kleine Segmente von Sprache (typischerweise 5 Millisekunden (ms) Teilrahmen) zu codieren. Für jeden Teilrahmen wird ein hochgenauer Repräsentant aus einem Codebuchraum mittels verschiedener in der Technik bekannter Suchalgorithmen gefunden. Alternativ können Sprachcodierer als Frequenz bereichs- bzw. Frequenzdomain-Codierer implementiert werden, die versuchen, das Kurzzeit-Sprachspektrum des Eingangssprachrahmens mit einem Satz von Parametern zu erfassen (Analyse), und einen entsprechenden Syntheseprozess einsetzen, um die Sprachwellenform aus den spektralen Parametern wieder herzustellen. Der Parameter-Quantisierer erhält die Parameter, indem er sie durch gespeicherte Darstellungen von Code-Vektoren gemäß bekannten Quantisierungstechniken darstellt, die von A. Gersho & R. M. Gray in „Vector Quantization and Signal Compression" (1992) beschrieben werden.
  • Ein weithin bekannter Zeitbereichs-Sprachcodierer ist der CELP(Code Excited Linear Predictive)-Codierer, der von L. B. Rabiner & R.W. Schafer in „Digital Processing of Speech Signals", 396–453, (1978) beschrieben wird. In einem CELP-Codierer werden die Kurzzeit-Korrelationen oder Redundanzen in dem Sprachsignal durch eine LP(linear prediction)-Analyse entfernt, welche die Koeffizienten eines Kurzzeit-Formant-Filters findet. Ein Anwenden des Kurzzeit-Voraussage(prediction)-Filters auf den Eingangssprachrahmen erzeugt ein LP-Restsignal, das weiter mit Langzeit-Voraussage(bzw. Vorhersage)-Filter-Parametern und einem nachfolgenden stochastischem Codebuch modelliert und quantisiert wird. Somit teilt eine CELP-Codierung die Aufgabe einer Codierung der Zeitbereichs-Sprachwellenform in die getrennten Aufgaben einer Codierung der LP-Kurzzeit-Filter-Koeffizienten und einer Codierung des LP-Rests. Eine Zeitbereichs-Codierung kann mit einer festen Rate (d.h. unter Verwendung derselben Anzahl von Bits, No, für jeden Rahmen) oder mit einer variablen Rate (in der unterschiedliche Bitraten für unterschiedliche Typen von Rahmeninhalten verwendet werden) durchgeführt werden. Codierer mit variabler Rate versuchen, nur die Menge von Bits zu verwenden, die erforderlich ist, um die Codec-Parameter auf einem Level zu codieren, der ausreichend ist, um eine Soll-Qualität zu erhalten. Ein beispielhafter CELP-Codierer mit variabler Rate wird in dem U.S.-Patent Nr. 5,414,796 beschrieben.
  • Zeitbereichs-Codierer, wie der CELP-Codierer, stützen sich typischerweise auf eine hohe Anzahl von Bits, No, pro Rahmen, um die Genauigkeit der Zeitbereichs-Sprachwellenform zu bewahren. Derartige Codierer liefern typischerweise eine exzellente Sprachqualität, vorausgesetzt, die Anzahl von Bits, No, pro Rahmen ist relativ groß (z.B. 8 kbps oder höher). Bei niedrigen Bitraten (4 kbps und darunter) jedoch scheitern Zeitbereichs-Codierer aufgrund der begrenzten Anzahl von verfügbaren Bits, eine hohe Qualität und robuste Leistung aufrechtzuerhalten. Bei niedrigen Bitraten beschneidet (clips) der begrenzte Codebuchraum die Wellenformübereinstimmungs-Fähigkeit von herkömmlichen Zeitbereichs-Codierern, die so erfolgreich in kommerziellen Anwendungen mit höherer Rate eingesetzt werden. Somit leiden trotz Verbesserungen mit der Zeit viele CELP-Codiersysteme, die bei niedrigen Bitraten arbeiten, an einer wahrnehmbar signifikanten Verzerrung, die typischerweise als Rauschen charakterisiert wird.
  • Momentan gibt es einen Anstieg eines Forschungsinteresses und eine hohe kommerzielle Notwendigkeit, einen hochwertigen Sprachcodierer zu entwickeln, der bei mittleren bis geringen Bitraten arbeitet (d.h. in dem Bereich von 2.4 bis 4 kbps und darunter). Die Anwendungsgebiete umfassen ein drahtloses Fernsprechwesen, Satellitenkommunikation, Internettelephonie, verschiedene Multimedia- und Sprach-Streaming-Anwendungen, Voice-Mail und andere Sprachspeichersysteme. Die treibenden Kräfte sind die Notwendigkeit einer hohen Kapazität und die Nachfrage nach robuster Leistung in Paketverlustsituationen. Verschiedene Sprachcodier-Standardisierungsversuche der letzten Zeit sind eine weitere direkte Antriebskraft, die Forschung und Entwicklung von Sprachcodieralgorithmen niedriger Rate antreiben. Ein Sprachcodierer mit niedriger Rate ergibt mehr Kanäle oder Benutzer pro zulässiger Anwendungsbandbreite und ein Sprachcodierer niedriger Rate verbunden mit einer zusätzlichen Schicht einer geeigneten Kanalcodierung kann für das gesamte Bit-Budget von Codierer-Spezifikationen geeignet sein und eine robuste Leistung unter Kanalfehlerbedingungen liefern.
  • Eine effektive Technik, um Sprache effizient mit geringen Bitraten zu codieren, ist eine Multimodecodierung. Eine beispielhafte Multimodecodiertechnik wird in dem U.S.-Patent Nr. 6,691,084 mit dem Titel „Variable Rate Speech Coding" beschrieben, angemeldet am 21. Dezember 1998. Herkömmliche Multimodecodierer wenden unterschiedliche Modi oder Codier-Decodier-Algorithmen auf unterschiedliche Typen von Eingangssprachrahmen an. Jeder Modus oder Codier-Decodier-Prozess ist spezifisch, um einen bestimmten Typ von Sprachsegment, wie zum Beispiel stimmhafte (voiced) Sprache, stimmlose (unvoiced) Sprache, Übergangssprache (zum Beispiel zwischen stimmhaft und stimmlos) und Hintergrundrauschen (Stille oder keine Sprache), optimal auf die wirksamste Weise darzustellen. Ein externer Steuer(open loop)modus-Entscheidungsmechanismus untersucht den Eingangssprachrahmen und entscheidet, welcher Modus auf den Rahmen anzuwenden ist. Die Steuermodus-Entscheidung wird typischerweise durchgeführt durch Extrahieren einer Anzahl von Parametern aus dem Eingangsrahmen, Evaluieren der Parameter in Bezug auf bestimmte zeitliche und spektrale Charakteristiken und Basieren einer Modusentscheidung auf die Evaluierung.
  • Codiersysteme, die mit Raten in dem Bereich von 2.4 kbps arbeiten, sind im Allgemeinen parametrisch. Das heißt, derartige Codiersysteme arbeiten durch Übertragung von Parametern, welche die Pitch-Periode und die spektrale Hülle (oder Formanten) des Sprachsignals in regelmäßigen Intervallen beschreiben. Das LP-Vocoder-System veranschaulicht diese so genannten parametrischen Codierer.
  • LP-Vocoder modellieren ein stimmhaftes Sprachsignal mit einem einzelnen Puls pro Pitch-Periode. Diese grundlegende Technik kann erweitert werden, um unter anderem eine Übertragungsinformation über die spektrale Hülle zu umfassen. Obwohl LP-Vocoder im Allgemeinen eine vernünftige Leistung bieten, können sie eine wahrnehmbar signifikante Verzerrung einführen, typischerweise als Brummen bzw. Summen (buzz) charakterisiert.
  • In den letzten Jahren sind Codierer entstanden, die Hybriden aus sowohl Wellenformcodierern als auch parametrischen Codierern sind. Das Prototyp-Wellenform-Interpolations(PWI – prototype waveform interpolation)-Sprachcodiersystem veranschaulicht diese so genannten hybriden Codierer. Das PWI-Codiersystem kann auch als ein PPP(prototype pitch period)-Sprachcodierer bekannt sein. Ein PWI-Codiersystem liefert ein effizientes Verfahren zur Codierung von stimmhafter Sprache. Das grundlegende Konzept von PWI liegt darin, einen repräsentativen Pitch-Zyklus (die Prototyp-Wellenform) in festen Intervallen zu extrahieren, seine Beschreibung zu übertragen und das Sprachsignal durch eine Interpolation zwischen den Prototyp-Wellenformen zu rekonstruieren. Das PWI-Verfahren kann entweder auf dem LP-Rest-Signal oder auf dem Sprachsignal arbeiten. Ein beispielhafter PWI- oder PPP-Sprachcodierer wird in dem U.S.-Patent Nr. 6,456,964 mit dem Titel „Periodic Speech Coding" beschrieben, das am 21. Dezember 1998 angemeldet wurde. Andere PWI- oder PPP-Sprachcodierer werden in dem U.S.-Patent Nr. 5,884,253 , und in W. Bastiaan Kleijn & Wolfgang Granzow in „Methods for Waveform Interpolation in Speech Coding" in 1 Digital Signal Processing, 215–230 (1991) beschrieben.
  • In den meisten herkömmlichen Sprachcodierern werden die Parameter eines gegebenen Pitch-Prototyps oder eines gegebenen Rahmens von dem Codierer jeweils individuell quantisiert und übertragen. Zusätzlich wird ein Differenzwert für jeden Parameter übertragen. Der Differenzwert spezifiziert die Differenz zwischen dem Parameterwert für den aktuellen Rahmen oder Prototyp und dem Parameterwert für den vorhergehenden Rahmen oder Prototyp. EP 0,731,448 (AT & T Corp.) offenbart ein Sprachcodiersystem, in dem verschiedene Sprachparameterwerte sowie ein Sprachparameter-Delta übertragen werden, wobei das Sprachparameter-Delta eine Änderung der Pitch-Verzögerung von einem aktuellen Rahmen zu einem unmittelbar vorhergehenden Rahmen darstellt. Jedoch erfordert ein Quantisieren der Parameterwerte und der Differenzwerte eine Verwendung von Bits (und somit Bandbreite). In einem Sprachcodierer mit niedriger Bitrate ist es vorteilhaft, die geringste Anzahl von Bits zu übertragen, die möglicht ist, um eine zufrie denstellende Sprachqualität aufrecht zu erhalten. Aus diesem Grund werden in herkömmlichen Sprachcodierern mit niedriger Bitrate nur die absoluten Parameterwerte quantisiert und übertragen. Es wäre wünschenswert, die Anzahl der übertragenen Bits zu verringern, ohne den Informationswert zu verringern. Demgemäß wird ein Quantisierungsschema, das die Differenz zwischen einer gewichteten Summe der Parameterwerte für frühere Rahmen und dem Parameterwert für den aktuellen Rahmen quantisiert, in EP 1279167 B1 mit dem Titel „Method and Apparatus for Predictively Quantizing Voiced Speech" beschrieben, das der Anmelderin der vorliegenden Erfindung erteilt wurde.
  • Sprachcodierer erfahren eine Rahmenlöschung oder einen Paketverlust aufgrund schlechter Kanalbedingungen. Eine Lösung, die in herkömmlichen Sprachcodieren verwendet wurde, war, dass der Decodierer einfach den vorhergehenden Rahmen wiederholt, wenn eine Rahmenlöschung empfangen wurde. Eine Verbesserung wurde beobachtet bei der Verwendung eines adaptiven Codebuchs, das dynamisch den Rahmen anpasst, der unmittelbar auf eine Rahmenlöschung folgt. Eine weitere Verbesserung, der verbesserte Codierer mit variabler Rate (EVRC – enhanced variable rate coder), wird in dem Telecommunication Industry Association Interim Standard EIA/TIA IS-127 standardisiert. Der EVRC-Codierer ist auf einen korrekt empfangenen, niedrig-prädiktiv codierten Rahmen angewiesen, um in dem Codiererspeicher den Rahmen zu verändern, der nicht empfangen wurde, und dadurch die Qualität des korrekt empfangenen Rahmens zu verbessern.
  • Ein Problem mit dem EVRC-Codierer ist jedoch, dass Diskontinuitäten zwischen einer Rahmenlöschung und einem nachfolgenden angepassten guten Rahmen entstehen können. Zum Beispiel können Pitch-Pulse zu nahe oder zu weit auseinander platziert werden im Vergleich zu ihren relativen Positionen in dem Fall, dass keine Rahmenlöschung stattgefunden hat. Derartige Diskontinuitäten können einen hörbaren Klick verursachen.
  • Im Allgemeinen arbeiten Sprachcodierer, die eine niedrige Vorhersagbarkeit umfassen (wie die in dem obigen Abschnitt beschriebenen), besser unter Rahmenlöschungsbedingungen. Jedoch erfordern, wie diskutiert, derartige Sprachcodierer relativ höhere Bitraten. Im Gegensatz kann ein hoch-prädiktiver Sprachcodierer eine gute Qualität einer synthetisierten Sprachausgabe erzielen (insbesondere für eine stark periodische Sprache, wie stimmhafte Sprache), arbeitet aber schlechter unter Rahmenlöschungsbedingungen. Es wäre wünschenswert, die Qualitäten beider Typen von Sprachcodierern zu kombinieren. Es wäre weiter vorteilhaft, ein Verfahren zum Glätten von Diskontinuitäten zwischen Rahmenlöschungen und nachfolgenden veränderten guten Rahmen vorzusehen. Somit gibt es eine Notwendigkeit für ein Rahmenlöschungskompensationsverfahren, das eine prädiktive Codierer-Leistung in dem Fall von Rahmenlöschungen verbessert und Diskontinuitäten zwischen Rahmenlöschungen und nachfolgenden guten Rahmen glättet.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Die vorliegende Erfindung betrifft ein Rahmenlöschungskompensationsverfahren, das eine prädiktive Codierer-Leistung in dem Fall von Rahmenlöschungen verbessert und Diskontinuitäten zwischen Rahmenlöschungen und nachfolgenden guten Rahmen glättet. Demgemäß wird in einem Aspekt der Erfindung ein Verfahren zum Kompensieren für eine Rahmenlöschung in einem Sprachcodierer vorgesehen. Das Verfahren umfasst vorteilhafterweise ein Entquantisieren eines Pitch- bzw. Tonhöhenverzögerungswerts und eines ersten Delta-Werts für einen aktuellen Rahmen, der verarbeitet wird, nachdem ein gelöschter Rahmen deklariert bzw. festgestellt wurde, wobei der erste Delta-Wert gleich zu der Differenz zwischen dem Pitch-Verzögerungswert für den aktuellen Rahmen und einem Pitch-Verzögerungswert für einen Rahmen ist, der dem aktuellen Rahmen unmittelbar vorausgeht; Empfangen eines quantisierten zweiten Delta-Werts für zumindest einen Rahmen vor dem aktuellen Rahmen und nach der Rahmenlöschung, ohne einen quantisierten Pitch-Verzögerungswert für den zumin dest einen Rahmen zu empfangen; Entquantisieren des zweiten Delta-Werts für zumindest einen Rahmen vor dem aktuellen Rahmen und nach der Rahmenlöschung, wobei der zweite Delta-Wert gleich zu der Differenz zwischen einem Pitch-Verzögerungswert für den zumindest einen Rahmen und einem Pitch-Verzögerungswert für einen Rahmen ist, der unmittelbar dem zumindest einem Rahmen vorausgeht; Subtrahieren des ersten Delta-Werts von dem Pitch-Verzögerungswert für den aktuellen Rahmen, um einen Pitch-Verzögerungswert für den zumindest einen Rahmen vor dem aktuellen Rahmen zu erzeugen; und Subtrahieren des zweiten Delta-Werts von dem erzeugten Pitch-Verzögerungswert für den zumindest einen Rahmen vor dem aktuellen Rahmen, um einen Pitch-Verzögerungswert für den gelöschten Rahmen zu erzeugen.
  • In einem anderen Aspekt der Erfindung ist ein Sprachcodierer vorgesehen, der zum Kompensieren für eine Rahmenlöschung konfiguriert ist. Der Sprachcodierer umfasst vorteilhafterweise erste Mittel zum Entquantisieren eines Pitch-Verzögerungswerts und eines ersten Delta-Werts für einen aktuellen Rahmen, der verarbeitet wird, nachdem ein gelöschter Rahmen deklariert bzw. festgestellt wurde, wobei der erste Delta-Wert gleich zu der Differenz zwischen dem Pitch-Verzögerungswert für den aktuellen Rahmen und einem Pitch-Verzögerungswert für einen Rahmen ist, der dem aktuellen Rahmen unmittelbar vorausgeht; Mittel zum Empfangen eines quantisierten zweiten Delta-Werts für zumindest einen Rahmen vor dem aktuellen Rahmen und nach der Rahmenlöschung, ohne einen quantisierten Pitch-Verzögerungswert für den zumindest einen Rahmen zu empfangen; Mittel zum Entquantisieren des zweiten Delta-Werts für den zumindest einen Rahmen vor dem aktuellen Rahmen und nach der Rahmenlöschung, wobei der Delta-Wert gleich zu der Differenz zwischen einem Pitch-Verzögerungswert für den zumindest einen Rahmen und einem Pitch-Verzögerungswert für einen Rahmen ist, der unmittelbar dem zumindest einem Rahmen vorausgeht; Mittel zum Subtrahieren des ersten Delta-Werts von dem Pitch-Verzögerungswert für den aktuellen Rahmen, um einen Pitch-Verzögerungswert für den zumindest einen Rahmen vor dem aktuellen Rahmen zu erzeugen; und Mittel zum Subtrahieren des zweiten Delta-Werts von dem erzeugten Pitch-Verzögerungswert für den zumindest einen Rahmen vor dem aktuellen Rahmen, um einen Pitch-Verzögerungswert für den gelöschten Rahmen zu erzeugen.
  • In einem bevorzugten Ausführungsbeispiel der Erfindung ist eine Teilnehmereinheit vorgesehen, welche die Merkmale des oben beschriebenen Sprachcodierers enthält. In diesem Ausführungsbeispiel ist das erste Mittel zum Entquantisieren des Pitch-Verzögerungswerts und des ersten Delta-Werts für den aktuellen Rahmen, der verarbeitet wird, nachdem ein gelöschter Rahmen deklariert wurde, ein erster Sprachcodierer; das zweite Mittel zum Entquantisieren des zweiten Delta-Werts für den zumindest einen Rahmen vor dem aktuellen Rahmen und nach der Rahmenlöschung ist ein zweiter Sprachcodierer; und das Mittel zum Subtrahieren ist ein Steuerungsprozessor, der mit dem ersten und zweiten Sprachcodierer verbunden ist.
  • In einem anderen Aspekt der Erfindung ist ein Infrastrukturelement vorgesehen, das zum Kompensieren für eine Rahmenlöschung konfiguriert ist. Das Infrastrukturelement umfasst vorteilhafterweise einen Prozessor; und ein Speichermedium, das mit dem Prozessor verbunden ist und einen Satz von Anweisungen enthält, der durch den Prozessor ausführbar ist, um das oben dargelegte Verfahren durchzuführen.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • 1 ist ein Blockdiagramm eines drahtlosen Telefonsystems.
  • 2 ist ein Blockdiagramm eines Kommunikationskanals, der an jedem Ende von Sprachcodierern terminiert wird.
  • 3 ist ein Blockdiagramm eines Sprachcodierers.
  • 4 ist ein Blockdiagramm eines Sprachdecodierers.
  • 5 ist ein Blockdiagramm eines Sprachcodierers, einschließlich Codierer/Sender- und Decodierer/Empfänger-Teile.
  • 6 ist ein Graph einer Signalamplitude über der Zeit für ein Segment einer stimmhaften Sprache.
  • 7 zeigt ein erstes Rahmenlöschungsverarbeitungsschema, das in dem Decodierer/Empfänger-Teil des Sprachcodierers von 5 verwendet werden kann.
  • 8 zeigt ein zweites Rahmenlöschungsverarbeitungsschema, das für einen Sprachcodierer mit variabler Rate zugeschnitten ist, das in dem Decodierer/Empfänger-Teil des Sprachcodierers von 5 verwendet werden kann.
  • 9 zeichnet eine Signalamplitude über der Zeit für verschiedene Linearprädiktiv(LP – linear predictive)-Rest-Wellenformen, um ein Rahmenlöschungsverarbeitungsschema darzustellen, das verwendet werden kann, um einen Übergang zwischen einem beschädigten Rahmen und einem guten Rahmen zu glätten.
  • 10 zeichnet eine Signalamplitude über der Zeit für verschiedene LP-Rest-Wellenformen, um die Vorteile des in 9 dargestellten Rahmenlöschungsverarbeitungsschemas darzustellen.
  • 11 zeichnet eine Signalamplitude über der Zeit für verschiedene Wellenformen, um eine Pitch-Periode-Prototyp- oder Wellenform-Interpolations-Codier-Technik darzustellen.
  • 12 ist ein Blockdiagramm eines Prozessors, der mit einem Speichermittel verbunden ist.
  • Detaillierte Beschreibung der bevorzugten Ausführungsbeispiele
  • Die im Folgenden hier beschriebenen beispielhaften Ausführungsbeispiele befinden sich in einem drahtlosen Telefonkommunikationssystem, das konfiguriert ist, eine CDMA-über-die-Luft-Schnittstelle einzusetzen. Dennoch ist für Fachleute offensichtlich, dass ein Verfahren und eine Vorrichtung zum prädiktiven Codieren von stimmhafter Sprache, die Merkmale der vorliegenden Erfindung einsetzen, sich in jedem von verschiedenen Kommunikationssystemen befinden können, die einen weiten Bereich von Technologien einsetzen, die Fachleuten bekannt sind.
  • Wie in 1 dargestellt wird, umfasst ein drahtloses CDMA-Telefonsystem im Allgemeinen eine Vielzahl von mobilen Teilnehmereinheiten 10, eine Vielzahl von Basisstationen (BS – base stations) 12, Basisstation-Steuereinrichtungen (BSCs – base station controllers) 14 und eine mobile Vermittlungsstelle (MSC – mobile switching center) 16. Die MSC 16 ist konfiguriert, eine Schnittstelle mit einem herkömmlichen öffentlichen Telefonnetz (PSTN – public switch telephone network) 18 zu haben. Die MSC 16 ist auch konfiguriert, mit den BSCs 14 verbunden zu sein. Die BSCs 14 sind mit den Basisstationen 12 über Backhaul-Leitungen verbunden. Die Backhaul-Leitungen können konfiguriert sein, jede von mehreren bekannten Schnittstellen zu unterstützen, einschließlich zum Beispiel E1/T1, ATM, IP, PPP, Frame Relay, HDSL, ADSL oder xDSL. Es sollte angemerkt werden, dass es mehr als zwei BSCs 14 in dem System geben kann. Jede Basisstation 12 umfasst vorteilhafterweise zumindest einen Sektor (nicht gezeigt), wobei jeder Sektor eine omnidirektionale Antenne oder eine Antenne aufweist, die in eine bestimmte Richtung radial weg von der Basisstation 12 gerichtet ist. Alternativ kann jeder Sektor zwei Antennen für einen Diversity-Empfang aufweisen. Jede Basisstation 12 kann vorteilhafterweise gestaltet sein, eine Vielzahl von Frequenzzuteilungen zu unterstützen. Die Schnittstelle eines Sektors und einer Frequenzzuteilung kann als ein CDMA-Kanal bezeichnet werden. Die Basisstationen 12 können auch als Basisstation-Transceiver-Teilsysteme (BTSs – base station transceiver subsystems) 12 bekannt sein.
  • Alternativ kann „Basisstation" in der Industrie verwendet werden, um kollektiv eine BSC 14 und ein oder mehrere BTSs 12 zu bezeichnen. Die BTSs 12 können auch als „Zellenstandorte" 12 bezeichnet werden. Alternativ können individuelle Sektoren eines bestimmten BTS 12 als Zellenstandorte bezeichnet werden. Die mobilen Teilnehmereinheiten 10 sind typischerweise zellulare oder PCS-Telefone 10. Das System ist vorteilhafterweise konfiguriert zur Verwendung gemäß dem IS-95-Standard.
  • Während eines typischen Betriebs des zellularen Telefonsystems empfangen die Basisstationen 12 Sätze von Rückwärtsverbindungssignalen von Sätzen von mobilen Einheiten 10. Die mobilen Einheiten 10 führen Telefonanrufe oder eine andere Kommunikation durch. Jedes von einer gegebenen Basisstation 12 empfangene Rückwärtsverbindungssignal wird in dieser Basisstation 12 verarbeitet. Die resultierenden Daten werden an die BSCs 14 weitergeleitet. Die BSCs 14 sehen eine Anrufressourcenzuteilung und eine Mobilitätsverwaltungsfunktionalität vor, einschließlich der Instrumentation von weichen Übergaben bzw. Handovers (soff handoffs) zwischen den Basisstationen 12. Die BSCs 14 leiten auch die empfangenen Daten an die MSC 16, die zusätzliche Routing-Dienste zur Verbindung mit dem PSTN 18 vorsieht. Ähnlich ist das PSTN 18 mit der MSC 16 verbunden und die MSC 16 ist mit den BSCs 14 verbunden, die wiederum die Basisstationen 12 steuern, um Sätze von Vorwärtsverbindungssignalen an Sätze von mobilen Einheiten 10 zu übertragen. Es sollte für Fachleute offensichtlich sein, dass die Teilnehmereinheiten 10 in alternativen Ausführungsbeispielen feste Einheiten sein können.
  • In 2 empfängt ein erster Codierer 100 digitalisierte Sprachabtastwerte s(n) und codiert die Abtastwerte s(n) zur Übertragung auf einem Übertragungsmittel 102 oder einem Kommunikationskanal 102 an einen ersten Decodierer 104. Der Decodierer 104 decodiert die codierten Sprachabtastwerte und synthetisiert ein Ausgabesprachsignal sSYNTH(n). Zur Übertragung in die entgegengesetzte Richtung codiert ein zweiter Codierer 106 digitalisierte Sprachabtastwerte s(n), die auf einem Kommunikationskanal 108 übertragen werden. Ein zweiter Decodierer 110 empfängt und decodiert die codierten Sprachabtastwerte und erzeugt ein synthetisiertes Ausgabesprachsignal sSYNTH(n).
  • Die Sprachabtastwerte s(n) stellen Sprachsignale dar, die gemäß verschiedenen in dem Stand der Technik bekannten Verfahren digitalisiert und quantisiert wurden, z.B. Pulscode-Modulation (PCM – pulse code modulation), kompandiertes μ-Gesetz (μ-law) oder A-Gesetz (A-law). Wie in der Technik bekannt ist, werden die Sprachabtastwerte s(n) in Rahmen von Eingangsdaten organisiert, wobei jeder Rahmen eine vorgegebene Anzahl von digitalisierten Sprachabtastwerten s(n) aufweist. In einem beispielhaften Ausführungsbeispiel wird eine Abtastrate von 8 kHz eingesetzt, wobei jeder 20-ms-Rahmen 160 Abtastwerte aufweist. In den im Folgenden beschriebenen Ausführungsbeispielen kann die Rate einer Datenübertragung vorteilhafterweise auf einer Rahmen-zu-Rahmen-Basis von voller Rate zu (halber Rate zu viertel Rate zu achtel Rate) variiert werden. Ein Variieren der Datenübertragungsrate ist vorteilhaft, da niedrigere Bitraten selektiv für Rahmen eingesetzt werden können, die relativ wenig Sprachinformation enthalten. Wie für Fachleute offensichtlich ist, können andere Abtastraten und/oder Rahmengrößen verwendet werden. Auch kann in den im Folgenden beschriebenen Ausführungsbeispielen der Sprach-Codierungs(oder Codier)-Modus auf einer Rahmen-zu-Rahmen-Basis als Reaktion auf die Sprachinformation oder Energie des Rahmens variiert werden.
  • Der erste Codierer 100 und der zweite Decodierer 110 bilden zusammen einen ersten Sprachcodierer (Codierer/Decodierer) oder Sprachcodec. Der Sprachcodierer kann in jeder Kommunikationsvorrichtung zur Übertragung von Sprachsignalen verwendet werden, einschließlich zum Beispiel die Teilnehmereinheiten, BTSs oder BSCs, die oben unter Bezugnahme auf 1 beschrieben werden. Ähnlich bilden der zweite Codierer 106 und der erste Decodierer 104 zusammen einen zweiten Sprachcodierer. Es ist Fachleuten bekannt, dass Sprachcodierer implementiert werden können mit einem digitalen Signalprozessor (DSP – digital signal processor), einem anwendungs spezifischen Schaltkreis (ASIC – application-specific integrated circuit), einer diskreten Gatter-Logik, einer Firmware oder einem herkömmlichen programmierbaren Softwaremodul und einem Mikroprozessor. Das Softwaremodul kann sich in einem RAM-Speicher, einem Flash-Speicher, Registern oder jeder anderen in der Technik bekannten Form eines Speichermittels befinden. Alternativ kann jeder herkömmliche Prozessor, jede Steuereinrichtung oder Zustandsmaschine für den Mikroprozessor eingesetzt werden. Beispielhafte ASICs, die spezifisch für eine Sprachcodierung gestaltet sind, werden in dem U.S.-Patent Nr. 5,727,123 und dem U.S.-Patent Nr. 5,784,532 mit dem Titel „VOCODER ASIC", angemeldet am 16. Februar 1994, beschrieben.
  • In 3 umfasst ein Codierer 200, der in einem Sprachcodierer verwendet werden kann, ein Modus-Entscheidungs-Modul 202, ein Pitch-Schätz-Modul 204, ein LP-Analyse-Modul 206, einen LP-Analyse-Filter 208, ein LP-Quantisierungs-Modul 210 und ein Rest-Quantisierungs-Modul 212. Eingangssprachrahmen s(n) werden an das Modus-Entscheidungs-Modul 202, das Pitch-Schätz-Modul 204, das LP-Analyse-Modul 206 und den LP-Analyse-Filter 208 geliefert. Das Modus-Entscheidungs-Modul 202 erzeugt einen Modusindex IM und einen Modus M basierend auf der Periodizität, der Energie, des Rauschabstands (SNR – signal-to-noise ratio) oder einer Nulldurchgangsrate, unter anderen Merkmalen, jedes Eingangssprachrahmens s(n). Verschiedene Verfahren einer Klassifizierung von Sprachrahmen gemäß einer Periodizität werden in dem U.S.-Patent Nr. 5,911,128 beschrieben, das der Anmelderin der vorliegenden Erfindung erteilt wurde und durch Bezugnahme hier vollständig aufgenommen ist. Derartige Verfahren sind auch in den „Telecommunication Industry Association Industry Interim Standards" TIA/EIA IS-127 und TIA/EIA IS-733 enthalten. Ein beispielhaftes Modus-Entscheidungs-Schema wird auch in dem oben erwähnten U.S.-Patent Nr. 6,691,084 beschrieben.
  • Das Pitch-Schätz-Modul 204 erzeugt einen Pitch-Index Ip und einen Verzögerungs(lag)wert P0 basierend auf jedem Eingangssprachrahmen s(n). Das LP-Analyse-Modul 206 führt eine Lineare-Prädiktions-Analyse auf jedem Eingangssprachrahmen s(n) durch, um einen LP-Parameter α zu erzeugen. Der LP-Parameter α wird an das LP-Quantisierungs-Modul 210 geliefert. Das LP-Quantisierungs-Modul 210 empfängt auch den Modus M, wodurch es den Quantisierungsprozess auf eine Modus-abhängige Weise durchführt. Das LP-Quantisierungs-Modul 210 erzeugt einen LP-Index ILP und einen quantisierten LP-Parameter α ^. Der LP-Analyse-Filter 208 empfängt den quantisierten LP-Parameter α ^ zusätzlich zu dem Eingangssprachrahmen s(n). Der LP-Analyse-Filter 208 erzeugt ein LP-Rest-Signal R[n], das den Fehler zwischen den Eingangssprachrahmen s(n) und der rekonstruierten Sprache basierend auf den quantisierten LP-Parametern α ^ darstellt. Der LP-Rest R[n], der Modus M und der quantisierte LP-Parameter α ^ werden an das Rest-Quantisierungs-Modul 212 geliefert. Basierend auf diesen Werten erzeugt das Rest-Quantisierungs-Modul 212 einen Rest-Index IR und ein quantisiertes Rest-Signal R ^[n].
  • In 4 umfasst ein Decodierer 300, der in einem Sprachcodierer verwendet werden kann, ein LP-Parameter-Decodierungs-Modul 302, ein Rest-Decodierungs-Modul 304, ein Modus-Decodierungs-Modul 306 und einen LP-Synthese-Filter 308. Das Modus-Decodierungs-Modul 306 empfängt und decodiert einen Modus-Index IM, aus dem es einen Modus M erzeugt. Das LP-Parameter-Decodierungs-Modul 302 empfängt den Modus M und einen LP-Index ILP. Das LP-Parameter-Decodierungs-Modul 302 decodiert die empfangenen Werte, um einen quantisierten LP-Parameter α ^ zu erzeugen. Das Rest-Decodierungs-Modul 304 empfängt einen Rest-Index IR, einen Pitch-Index IP und den Modus-Index IM. Das Rest-Decodierungs-Modul 304 decodiert die empfangenen Werte, um ein quantisiertes Rest-Signal R ^[n] zu erzeugen. Das quantisierte Rest-Signal R ^[n] und der quantisierte LP-Parameter
    Figure 00170001
    werden an den LP-Synthese-Filter 308 geliefert, der daraus ein decodiertes Sprachsignal ŝ[n] synthetisiert.
  • Betrieb und Implementierung der verschiedenen Module des Codierers 200 von 3 und des Decodierers 300 von 4 sind in der Technik bekannt und werden in dem oben erwähnten U.S.-Patent Nr. 5,414,796 und von L. B. Rabiner & R. W. Schafer in „Digital Processing of Speech Signals", 396–453, (1978) beschrieben.
  • In einem Ausführungsbeispiel kommuniziert ein Multimode-Sprachcodierer 400 mit einem Multimode-Sprachdecodierer 402 über einen Kommunikationskanal oder ein Übertragungsmedium 404. Der Kommunikationskanal 404 ist vorteilhafterweise eine HF-Schnittstelle, die gemäß dem IS-95-Standard konfiguriert ist. Es dürfte für Fachleute offensichtlich sein, dass der Codierer 400 einen zugehörigen Decodierer hat (nicht gezeigt). Der Codierer 400 und sein zugehöriger Decodierer bilden zusammen einen ersten Sprachcodierer. Es dürfte für Fachleute ebenfalls offensichtlich sein, dass der Decodierer 402 einen zugehörigen Codierer hat (nicht gezeigt). Der Decodierer 402 und sein zugehöriger Codierer bilden zusammen einen zweiten Sprachcodierer. Der erste und der zweite Sprachcodierer können vorteilhafterweise als Teil von ersten und zweiten DSPs implementiert werden und können sich zum Beispiel in einer Teilnehmereinheit und einer Basisstation in einem PCS oder zellularen Telefonsystem oder in einer Teilnehmereinheit und einem Gateway in einem Satellitensystem befinden.
  • Der Codierer 400 umfasst einen Parameter-Kalkulator 406, ein Modus-Klassifikations-Modul 408, eine Vielzahl von Codierungs-Modi 410 und ein Paketformatierungs-Modul 412. Die Anzahl der Codierungs-Modi 410 wird als n gezeigt, was, wie Fachleute verstehen werden, jede sinnvolle Anzahl von Codierungs-Modi 410 bedeuten kann. Zur Einfachheit werden nur drei Codierungs-Modi 410 gezeigt, wobei eine gepunktete Linie die Existenz anderer Codierungs-Modi 410 anzeigt. Der Decodierer 402 umfasst ein Paket-Disassembler- und Paketverlusterfassungs-Modul 414, eine Vielzahl von Decodierungs-Modi 416, einen Löschungs-Decodierer 418 und einen Post-Filter oder Sprach-Synthesizer 420. Die Anzahl der Decodierungs-Modi 416 wird als n gezeigt, was, wie Fachleute verstehen werden, jede sinnvolle An zahl von Deodierungs-Modi 416 bedeuten kann. Zur Einfachheit werden nur drei Decodierungs-Modi 416 gezeigt, wobei eine gepunktete Linie die Existenz anderer Decodierungs-Modi 416 anzeigt.
  • Ein Sprachsignal s(n) wird an den Parameter-Kalkulator 406 geliefert. Das Sprachsignal wird in Blöcke von Abtastwerte, als Rahmen bezeichnet, geteilt. Der Wert n gibt die Rahmennummer an. In einem alternativen Ausführungsbeispiel wird ein Linear-Prädiktions(LP – linear prediction)-Rest-Fehler-Signal statt des Sprachsignals verwendet. Der LP-Rest wird von Sprachcodierern verwendet, wie zum Beispiel dem CELP-Codierer. Eine Berechnung des LP-Rests wird vorteilhafterweise durchgeführt durch Liefern des Sprachsignals an einen inversen LP-Filter (nicht gezeigt). Die Transfer-Funktion des inversen LP-Filters A(z) wird gemäß der folgenden Gleichung berechnet: A(z) = 1 – a1z–1 – a2z–2 – ... – apz–p wobei die Koeffizienten a1 Filter-Taps mit vordefinierten Werten sind, die gemäß bekannten Verfahren gewählt werden, wie in dem oben angeführten U.S.-Patent Nr. 5,414,796 und dem U.S.-Patent Nr. 6,456,964 beschrieben. Die Anzahl p gibt die Anzahl von vorhergehenden Abtastwerten an, die der inverse LP-Filter für Vorhersagezwecke verwendet. In einem bestimmten Ausführungsbeispiel ist p auf zehn gesetzt.
  • Der Parameter-Kalkulator 406 leitet verschiedene Parameter basierend auf dem aktuellen Rahmen ab. In einem Ausführungsbeispiel umfassen diese Parameter zumindest eines der Folgenden: LPC(linear predictive coding)-Filter-Koeffizienten, LSP(linear spectral pair)-Koeffizienten, normalisierte Autokorrelationsfunktionen (NACFs – normalized autocorrelation functions), offener Regelkreis-Verzögerung, Nulldurchgangsraten, Bandenergien und das Formant-Rest-Signal. Eine Berechnung von LPC-Koeffizienten, LSP-Koeffizienten, offener Regelkreis-Verzögerung, Bandenergien und des Formant-Rest-Signals wird detailliert in dem oben angeführten U.S.-Patent Nr. 5,414,796 beschrieben. Eine Berechnung der NACFs und Nulldurchgangsra ten wird detailliert in dem oben angeführten U.S.-Patent Nr. 5,911,128 beschrieben.
  • Der Parameter-Kalkulator 406 ist mit dem Modus-Klassifikations-Modul 408 verbunden. Der Parameter-Kalkulator 406 liefert die Parameter an das Modus-Klassifikations-Modul 408. Das Modus-Klassifikations-Modul 408 ist verbunden, um dynamisch zwischen den Codierungs-Modi 410 auf einer Rahmen-zu-Rahmen-Basis umzuschalten, um den geeignetsten Codierungs-Modus 410 für den aktuellen Rahmen zu wählen. Das Modus-Klassifikations-Modul 408 wählt einen bestimmten Codierungs-Modus 410 für den aktuellen Rahmen durch Vergleichen der Parameter mit vordefinierten Schwellen- und/oder Obergrenzen-Werten. Basierend auf dem Energieinhalt des Rahmens klassifiziert das Modus-Klassifikations-Modul 408 den Rahmen als keine Sprache oder inaktive Sprache (z.B. Stille, Hintergrundrauschen oder Pausen zwischen Wörtern) oder Sprache. Basierend auf der Periodizität des Rahmens klassifiziert das Modus-Klassifikations-Modul 408 dann Sprachrahmen als einen bestimmten Typ von Sprache, zum Beispiel stimmhaft, stimmlos oder transient.
  • Stimmhafte Sprache ist Sprache, die einen relativ hohen Grad an Periodizität zeigt. Ein Segment von stimmhafter Sprache wird in dem Graph von 6 gezeigt. Wie dargestellt ist die Pitch-Periode eine Komponente eines Sprachrahmens, die vorteilhafterweise verwendet werden kann, um die Inhalte des Rahmens zu analysieren und zu rekonstruieren. Stimmlose Sprache weist typischerweise Konsonanten-Töne auf. Transiente Sprachrahmen sind typischerweise Übergänge zwischen stimmhafter und stimmloser Sprache. Rahmen, die weder als stimmhafte noch stimmlose Sprache klassifiziert werden, werden als transiente Sprache klassifiziert. Es sollte für Fachleute offensichtlich sein, dass jedes geeignete Klassifikationsschema eingesetzt werden kann.
  • Eine Klassifizierung der Sprachrahmen ist vorteilhaft, da verschiedene Codierungs-Modi 410 verwendet werden können, um unterschiedliche Typen von Sprache zu codieren, was zu einer effizienteren Verwendung von Bandbreite in einem gemeinsam benutzten Kanal führt, wie dem Kommunikationskanal 404. Da zum Beispiel eine stimmhafte Sprache periodisch ist und somit gut vorhersagbar, kann ein hoch-prädiktiver Codierungs-Modus 410 mit geringer Bitrate eingesetzt werden, um stimmhafte Sprache zu codieren. Klassifikations-Module, wie das Klassifikations-Modul 408, werden detailliert in dem oben angeführten U.S.-Patent Nr. 6,691,084 und in dem U.S.-Patent Nr. 6,640,209 mit dem Titel „CLOSED-LOOP MULTIMODE MIXED-DOMAIN LINEAR PREDICTION (MDLP) SPEECH CODER", angemeldet am 26. Februar 1999, beschrieben.
  • Das Modus-Klassifikations-Modul 408 wählt einen Codierungs-Modus 410 für den aktuellen Rahmen basierend auf der Klassifikation des Rahmens. Die verschiedenen Codierungs-Modi 410 sind parallel verbunden. Einer oder mehrere der Codierungs-Modi 410 können zu jeder Zeit betriebsfähig sein. Dennoch arbeitet vorteilhafterweise nur ein Codierungs-Modus 410 zu jeder Zeit und wird gemäß der Klassifikation des aktuellen Rahmens gewählt.
  • Die unterschiedlichen Codierungs-Modi 410 arbeiten vorteilhafterweise gemäß unterschiedlicher Codierungs-Bitraten, unterschiedlicher Codierungsschemen oder unterschiedlicher Kombinationen von Codierungs-Bitrate und Codierungsschema. Die verschiedenen verwendeten Codierungsraten können volle Rate, halbe Rate, viertel Rate und/oder achtel Rate sein. Die verschiedenen verwendeten Codierungsschemen können eine CELP-Codierung, PPP(prototype pitch periode)-Codierung (oder Wellenform-Interpolations(WI – waveform interpolation)-Codierung) und/oder NELP(noise excited linear prediction)-Codierung sein. Somit kann zum Beispiel ein bestimmter Codierungs-Modus 410 ein CELP mit voller Rate sein, ein anderer Codierungs-Modus 410 kann ein CELP mit halber Rate sein, ein anderer Codierungs-Modus 410 kann ein PPP mit viertel Rate sein und ein anderer Codierungs-Modus 410 kann ein NELP sein.
  • Gemäß einem CELP-Codierungs-Modus 410 wird ein linear prädiktives Stimmtrakt-Modell mit einer quantisierten Version des LP-Rest-Signals angeregt. Die quantisierten Parameter für den gesamten vorherigen Rahmen werden verwendet, um den aktuellen Rahmen zu rekonstruieren. Der CELP-Codierungs-Modus 410 liefert somit eine relativ genaue Reproduktion von Sprache, aber auf Kosten einer relativ hohen Codierungs-Bitrate. Der CELP-Codierungs-Modus 410 kann vorteilhafterweise verwendet werden, um Rahmen zu codieren, die als transiente Sprache klassifiziert sind. Ein beispielhafter CELP-Sprachcodierer mit variabler Rate wird detailliert in dem oben angeführten U.S.-Patent Nr. 5,414,796 beschrieben.
  • Gemäß einem NELP-Codierungs-Modus 410 wird ein gefiltertes pseudozufälliges Rauschsignal verwendet, um den Sprachrahmen zu modellieren. Der NELP-Codierungs-Modus 410 ist eine relativ einfache Technik, die eine niedrige Bitrate erzielt. Der NELP-Codierungs-Modus 410 kann vorteilhafterweise verwendet werden, um Rahmen zu codieren, die als stimmlose Sprache klassifiziert sind. Ein beispielhafter NELP-Codierungsmodus wird detailliert in dem oben angeführten U.S.-Patent Nr. 6,456,964 beschrieben.
  • Gemäß einem PPP-Codierungs-Modus 410 wird nur ein Teilsatz der Pitchperioden in jedem Rahmen codiert. Die verbleibenden Perioden des Sprachsignals werden rekonstruiert durch eine Interpolation zwischen diesen Prototyp-Perioden. In einer Zeitbereichs-Implementierung von PPP-Codierung wird ein erster Satz von Parametern berechnet, der beschriebt, wie eine vorherige Prototyp-Periode zu modifizieren ist, um die aktuelle Prototyp-Periode zu approximieren. Ein oder mehrere Codevektoren werden ausgewählt, die, wenn summiert, die Differenz zwischen der aktuellen Prototyp-Periode und der modifizierten vorherigen Prototyp-Periode approximieren. Ein zweiter Satz von Parametern beschreibt diese gewählten Codevektoren. In einer Frequenzbereichs-Implementierung der PPP-Codierung wird ein Satz von Parametern berechnet, um Amplitude und Phasenspektra des Prototyps zu beschreiben. Dies kann durchgeführt werden entweder in einem absoluten Sinn oder prädiktiv. Ein Verfahren zum prädiktiven Quantisieren der Amplitu de und Phasenspektra eines Prototyps (oder eines gesamten Rahmens) wird in der oben angeführten verwandten Anmeldung beschrieben, die hiermit angemeldet wird, mit dem Titel „METHOD AND APPARATUS FOR PREDICTIVELY QUANTIZING VOICED SPEECH". Gemäß jeder Implementierung der PPP-Codierung synthetisiert der Decodierer ein Ausgabesprachsignal durch Rekonstruieren eines aktuellen Prototyps basierend auf dem ersten und zweiten Satz von Parametern. Das Sprachsignal wird dann über den Bereich zwischen der aktuellen rekonstruierten Prototyp-Periode und einer vorherigen rekonstruierten Prototyp-Periode interpoliert. Der Prototyp ist somit ein Teil des aktuellen Rahmens, der linear interpoliert wird mit Prototypen von vorherigen Rahmen, die in dem Rahmen ähnlich positioniert sind, um das Sprachsignal oder das LP-Restsignal an dem Decodierer zu rekonstruieren (d.h. eine vergangene Prototyp-Periode wird verwendet als Prädiktor der aktuellen Prototyp-Periode). Ein beispielhafter PPP-Sprachcodierer wird detailliert in dem oben angeführten U.S.-Patent Nr. 6,456,964 beschrieben.
  • Ein Codieren der Prototyp-Periode statt des gesamten Sprachrahmens reduziert die erforderliche Codierungsbitrate. Als stimmhafte Sprache klassifizierte Rahmen können vorteilhafterweise mit einem PPP-Codierungs-Modus 410 codiert werden. Wie in 6 dargestellt, enthält stimmhafte Sprache langsam zeitvariierende periodische Komponenten, die vorteilhafterweise durch den PPP-Codierungs-Modus 410 ausgenutzt werden. Durch Ausnutzen der Periodizität der stimmhaften Sprache kann der PPP-Codierungs-Modus 410 eine niedrigere Bitrate als der CELP-Codierungs-Modus 410 erzielen.
  • Der gewählte Codierungs-Modus 410 ist mit dem Paket-Formatierungs-Modul 412 verbunden. Der gewählte Codierungs-Modus 410 codiert oder quantisiert den aktuellen Rahmen und liefert die quantisierten Rahmenparameter an das Paket-Formatierungs-Modul 412. Das Paket-Formatierungs-Modul 412 assembliert vorteilhafterweise die quantisierte Information in Pakete zur Übertragung über den Kommunikationskanal 404. In einem Ausführungsbeispiel ist das Paket-Formatierungs-Modul 412 konfiguriert, eine Feh lerkorrekturcodierung vorzusehen und das Paket gemäß dem IS-95-Standard zu formatieren. Das Paket wird an einen Sender (nicht gezeigt) geliefert, in analoges Format konvertiert, moduliert und über den Kommunikationskanal 404 an einen Empfänger (ebenfalls nicht gezeigt) übertragen, der das Paket empfängt, demoduliert und digitalisiert und das Paket an den Decodierer 402 liefert.
  • In dem Decodierer 402 empfängt das Paket-Disassembler- und Paketverlusterfassungs-Modul 414 das Paket von dem Empfänger. Das Paket-Disassembler- und Paketverlusterfassungs-Modul 414 ist verbunden, um dynamisch zwischen den Decodierungs-Modi 416 auf einer Paket-zu-Paket-Basis umzuschalten. Die Anzahl von Decodierungs-Modi 416 ist dieselbe wie die Anzahl von Codierungs-Modi 410 und wie für Fachleute offensichtlich sein dürfte, gehört jeder nummerierte Codierungs-Modus 410 zu einem jeweiligen ähnlich nummerierten Decodierungs-Modus 416, der konfiguriert ist, dieselbe Codierungsbitrate und das Codierungsschema einzusetzen.
  • Wenn das Paket-Disassembler- und Paketverlusterfassungs-Modul 414 das Paket erfasst, wird das Paket disassembliert und an den entsprechenden Decodierungs-Modus 416 geliefert. Wenn das Paket-Disassembler- und Paketverlusterfassungs-Modul 414 kein Paket erfasst, wird ein Paketverlust erklärt und der Löschungs-Decodierer 418 führt vorteilhafterweise eine Rahmenlöschungsverarbeitung durch, wie im Folgenden detailliert beschrieben wird.
  • Das parallele Array der Decodierungs-Modi 416 und der Löschungs-Decodierer 418 sind mit dem Post-Filter 420 verbunden. Der entsprechende Decodierungs-Modus 416 decodiert oder entquantisiert das Paket und liefert die Information an den Post-Filter 420. Der Post-Filter 420 rekonstruiert oder synthetisiert den Sprachrahmen und gibt die synthetisierten Sprachrahmen ŝ(n) aus. Beispielhafte Decodierungs-Modi und Post-Filter werden detailliert in dem oben erwähnten U.S.-Patent Nr. 5,414,796 und dem U.S.-Patent Nr. 6,456,964 beschrieben.
  • In einem Ausführungsbeispiel werden die quantisierten Parameter selbst nicht übertragen. Stattdessen werden Codebuch-Indizes übertragen, die Adressen in verschiedenen Verweistabellen (LUTs – look-up tables) (nicht gezeigt) in dem Decodierer 402 spezifizieren. Der Decodierer 402 empfängt die Codebuch-Indizes und durchsucht die verschiedenen Codebuch-LUTs nach geeigneten Parameterwerten. Demgemäß können Codebuch-Indizes für Parameter, wie zum Beispiel Pitchverzögerung, adaptive Codebuchverstärkung und LSP, übertragen werden und drei zugehörige Codebuch-LUTs werden von dem Decodierer 402 durchsucht.
  • Gemäß dem CELP-Codierungs-Modus 410 werden Pitch-Verzögerung, Amplitude, Phase und LSP-Parameter übertragen. Die LSP-Codebuch-Indizes werden übertragen, da das LP-Restsignal an dem Decodierer 402 zu synthetisieren ist. Zusätzlich wird die Differenz zwischen dem Pitchverzögerungswert für den aktuellen Rahmen und dem Pitchverzögerungswert für den vorherigen Rahmen übertragen.
  • Gemäß einem herkömmlichen PPP-Codierungs-Modus, in dem das Sprachsignal an dem Decodierer zu synthetisieren ist, wird nur die Pitch-Verzögerung, Amplitude und die Phasenparameter übertragen. Die niedrigere Bitrate, die von herkömmlichen PPP-Sprachcodierungs-Techniken eingesetzt wird, erlaubt keine Übertragung von sowohl einer absoluten Pitch-Verzögerungs-Information als auch relativen Pitch-Verzögerungs-Differenzwerten.
  • Gemäß einem Ausführungsbeispiel werden stark periodische Rahmen, wie stimmhafte Sprachrahmen, mit einem PPP-Codierungs-Modus 410 mit niedriger Bitrate übertragen, der die Differenz zwischen dem Pitchverzögerungswert für den aktuellen Rahmen und dem Pitchverzögerungswert für den vorherigen Rahmen zur Übertragung quantisiert und nicht den Pitchverzögerungswert für den aktuellen Rahmen zur Übertragung quantisiert. Da stimmhafte Rahmen eine stark periodische Eigenschaft haben, ermöglicht eine Übertragung des Differenzwerts im Gegensatz zu dem absoluten Pitchverzögerungswert, dass eine niedrigere Codierungsbitrate erzielt wird. In einem Ausführungsbeispiel wird diese Quantisierung derart generalisiert, dass eine gewichtete Summe der Parameterwerte für vorherige Rahmen berechnet wird, wobei die Summe der Gewichtungen eins ist und die gewichtetet Summe von dem Parameterwert für den aktuellen Rahmen subtrahiert wird. Die Differenz wird dann quantisiert. Diese Technik wird detailliert in dem oben angeführten EP 1279167 B1 mit dem Titel „METHOD AND APPARATUS FOR PREDICTIVELY QUANTIZING VOICED SPEECH" beschrieben.
  • Gemäß einem Ausführungsbeispiel codiert ein Codiersystem mit variabler Rate unterschiedliche Typen von Sprache, wie durch einen Steuerungsprozessor bestimmt, mit unterschiedlichen Codierern oder Codierungs-Modi, gesteuert durch den Prozessor oder Modus-Klassifizierer. Die Codierer modifizieren das Rest-Signal des aktuellen Rahmens (oder alternativ des Sprachsignals) gemäß einer Pitch-Kontur, wie von dem Pitchverzögerungswert für den vorherigen Rahmen L–1 und dem Pitchverzögerungswert für den aktuellen Rahmen L spezifiziert. Ein Steuerungsprozessor für die Decodierer folgt derselben Pitch-Kontur, um einen adaptiven Codebuch-Beitrag {P(n)} aus einem Pitch-Speicher für den quantisierten Rest oder Sprache für den aktuellen Rahmen zu rekonstruieren.
  • Wenn der vorherige Pitchverzögerungswert L–1 verloren ist, können die Decodierer die korrekte Pitch-Kontur nicht rekonstruieren. Dies verursacht, dass der adaptive Codebuch-Beitrag {P(n)} verzerrt ist. Darauf erleidet die synthetisierte Sprache eine schwerwiegende Verschlechterung, obwohl kein Paket für den aktuellen Rahmen verloren ist. Als eine Lösung setzen einige herkömmliche Codierer ein Schema ein, um sowohl L als auch die Differenz zwischen L und L–1 zu codieren. Diese Differenz oder Delta-Pitch-Wert kann durch Δ bezeichnet werden, wobei Δ = L – L–1 dem Zweck der Wiederherstellung von L–1 dient, wenn L–1 in dem vorherigen Rahmen verloren ist.
  • Das momentan beschriebene Ausführungsbeispiel kann auf vorteilhafteste Weise in einem Codiersystem mit variabler Rate verwendet werden. Insbesondere codiert ein erster Codierer (oder Codierungs-Modus), durch C bezeichnet, den Pitchverzögerungswert L des aktuellen Rahmens und den Delta-Pitchverzögerungswert Δ, wie oben beschrieben. Ein zweiter Codierer (oder Codierungs-Modus), durch Q bezeichnet, codiert den Delta-Pitchverzögerungswert Δ, codiert aber nicht notwendigerweise den Pitchverzögerungswert L. Dies ermöglicht dem zweiten Codierer Q, die zusätzlichen Bits zu verwenden, um andere Parameter zu codieren, oder die Bits überhaupt zu sparen (d.h. als ein Codierer mit niedriger Bitrate zu funktionieren). Der erste Codierer C kann vorteilhafterweise ein Codierer sein, der verwendet wird, um relativ nicht-periodische Sprache zu codieren, wie zum Beispiel ein CELP-Codierer mit voller Rate. Der zweite Codierer Q kann vorteilhafterweise ein Codierer sein, der verwendet wird, um stark periodische Sprache (zum Beispiel stimmhafte Sprache) zu codieren, wie zum Beispiel ein PPP-Codierer mit viertel Rate.
  • Wie in dem Beispiel von 7 dargestellt, wird, wenn das Paket des vorherigen Rahmens, Rahmen n-1, verloren ist, der Pitch-Speicher-Beitrag {P–2(n)} nach der Decodierung des Rahmens, der vor dem vorherigen Rahmen empfangen wurde, Rahmen n-2, in dem Codiererspeicher (nicht gezeigt) gespeichert. Der Pitchverzögerungswert für Rahmen n-2, L–2, wird ebenfalls in dem Codiererspeicher gespeichert. Wenn der aktuelle Rahmen, Rahmen n, durch den Codierer C codiert wird, kann der Rahmen n als C-Rahmen bezeichnet werden. Der Codierer C kann den vorherigen Pitchverzögerungswert L–1 aus dem Delta-Pitch-Wert Δ unter Verwendung der Gleichung L–1 = L – Δ wiederherstellen. Somit kann eine korrekte Pitch-Kontur mit den Werten L–1 und L–2 rekonstruiert werden. Der adaptive Codebuch-Beitrag für den Rahmen n-1 kann repariert werden unter Voraussetzung der richtigen Pitch-Kontur und wird nachfolgend verwendet, um den adaptiven Codebuch-Beitrag für den Rahmen n zu erzeugen. Für Fachleute ist offensichtlich, dass ein derartiges Schema in einigen herkömmlichen Codierern, wie dem EVRC-Codierer, verwendet wird.
  • Gemäß einem Ausführungsbeispiel wird eine Rahmenlöschungsleistung in einem Sprachcodiersystem mit variabler Rate unter Verwendung der oben beschriebenen zwei Typen von Codierern (Codierer C und Codierer Q) verbessert, wie im Folgenden beschrieben wird. Wie in dem Beispiel von 8 dargestellt wird, kann ein Codiersystem mit variabler Rate ausgebildet sein, sowohl den Codierer C als auch den Codierer Q zu verwenden. Der aktuelle Rahmen, Rahmen n, ist ein C-Rahmen und sein Paket ist nicht verloren. Der vorherige Rahmen, Rahmen n-1, ist ein Q-Rahmen. Das Paket für den Rahmen, der dem Q-Rahmen vorausgeht, (d.h. das Paket für den Rahmen n-2) war verloren.
  • Bei der Rahmenlöschungs-Verarbeitung für den Rahmen n-2 wird der Pitch-Speicher-Beitrag {P–3(n)} nach der Decodierung des Rahmens n-3 in dem Codiererspeicher (nicht gezeigt) gespeichert. Der Pitchverzögerungswert für den Rahmen n-3, L–3, wird ebenfalls in dem Codiererspeicher gespeichert. Der Pitchverzögerungswert für den Rahmen n-1, L–1, kann durch Verwendung des Delta-Pitchverzögerungswerts Δ (der gleich zu L – L–1 ist) in dem C-Rahmen-Paket gemäß der Gleichung L–1 = L – Δ wiederhergestellt werden. Der Rahmen n-1 ist ein Q-Rahmen mit einem zugehörigen eigenen codierten Delta-Pitchverzögerungswert Δ–1, gleich L–1 – L–2. Somit kann der Pitchverzögerungswert für den Löschungsrahmen, Rahmen n-2, L–2, gemäß der Gleichung L–2 = L–1 – Δ–1 wiederhergestellt werden. Mit den korrekten Pitchverzögerungswerten für den Rahmen n-2 und den Rahmen n-1 können Pitch-Konturen für diese Rahmen vorteilhafterweise rekonstruiert werden und der adaptive Codebuch-Beitrag kann demgemäß repariert werden. Somit hat der C-Rahmen den verbesserten Pitch-Speicher, der erforderlich ist, um den adaptiven Codebuch-Beitrag für sein quantisiertes LP-Rest-Signal (oder Sprachsignal) zu berechnen. Dieses Verfahren kann einfach erweitert werden, um die Existenz mehrerer Q-Rahmen zwischen dem Löschungs- Rahmen und dem C-Rahmen zu ermöglichen, wie für Fachleute offensichtlich sein dürfte.
  • Wie graphisch in der 9 gezeigt, rekonstruiert, wenn ein Rahmen gelöscht wird, der Löschungs-Decodierer (zum Beispiel das Element 418 von 5) den quantisierten LP-Rest (oder das Sprachsignal) ohne die exakte Information des Rahmens. Wenn die Pitch-Kontur und der Pitch-Speicher des gelöschten Rahmens gemäß dem oben beschriebenen Verfahren zur Rekonstruktion des quantisierten LP-Rests (oder des Sprachsignals) des aktuellen Rahmens wiederhergestellt wurden, ist der resultierende quantisierte LP-Rest (oder das Sprachsignal) unterschiedlich zu dem, wenn der beschädigte Pitch-Speicher verwendet worden wäre. Eine derartige Änderung des Codierer-Pitch-Speichers resultiert in einer Diskontinuität der quantisierten Reste (oder Sprachsignale) über Rahmen. Somit ist oft ein Übergangston oder Klick in herkömmlichen Sprachcodierern zu hören, wie dem EVRC-Codierer.
  • Gemäß einem Ausführungsbeispiel werden Pitch-Perioden-Prototypen aus dem beschädigten Pitch-Speicher vor einer Reparatur extrahiert. Der LP-Rest (oder das Sprachsignal) für den aktuellen Rahmen wird ebenfalls extrahiert gemäß einem normalen Entquantisierungsprozess. Der quantisierte LP-Rest (oder Sprachsignal) für den aktuellen Rahmen wird dann rekonstruiert gemäß einem Wellenform-Interpolations(WI – waveform interpolation)-Verfahren. In einem bestimmten Ausführungsbeispiel arbeitet das WI-Verfahren gemäß dem oben beschriebenen PPP-Codiermodus. Dieses Verfahren dient vorteilhafterweise dazu, die oben beschriebene Diskontinuität zu glätten und weiter die Rahmenlöschungsleistung des Sprachcodierers zu verbessern. Ein derartiges WI-Schema kann verwendet werden, wenn der Pitch-Speicher repariert wird aufgrund einer Löschungsverarbeitung, unabhängig der verwendeten Techniken, um die Reparatur durchzuführen (einschließlich, aber nicht darauf begrenzt, zum Beispiel die Techniken, die hier oben beschrieben wurden).
  • Die Graphen von 10 zeigen die Erscheinungsdifferenz zwischen einem LP-Rest-Signal, das gemäß herkömmlichen Techniken angepasst wurde, das einen hörbaren Klick erzeugt, und einem LP-Rest-Signal, das nachfolgend geglättet wurde gemäß dem oben beschriebenen WI-Glättungsschema. Die Graphen von 11 zeigen die Prinzipien einer PPP- oder WI-Codiertechnik.
  • Somit wurde ein neues und verbessertes Rahmen-Löschungs-Kompensationsverfahren in einem Sprachcodierer mit variabler Rate beschrieben. Für Fachleute ist offensichtlich, dass die Daten, Anweisungen, Befehle, Information, Signale, Bits, Symbole und Chips, die in der obigen Beschreibung angeführt werden, vorteilhafterweise durch Spannungen, Ströme, elektromagnetische Wellen, magnetische Felder oder Partikel, optische Felder oder Partikel oder jeder Kombination daraus dargestellt werden. Für Fachleute ist weiter offensichtlich, dass die verschiedenen illustrativen logischen Blöcke, Module, Schaltungen und Algorithmusschritte, die in Verbindung mit den hier offenbarten Ausführungsbeispielen beschrieben werden, als elektronische Hardware, Computersoftware oder Kombinationen aus beiden implementiert werden können. Die verschiedenen illustrativen Komponenten, Blöcke, Module, Schaltungen und Schritte wurden im Allgemeinen hinsichtlich ihrer Funktionalität beschrieben. Ob die Funktionalität als Hardware oder Software implementiert wird, hängt von der bestimmten Anwendung und Gestaltungsbeschränkungen ab, die dem Gesamtsystem auferlegt sind. Fachleute erkennen die Austauschbarkeit von Hardware und Software unter diesen Umständen und wie die beschriebene Funktionalität für jede bestimmte Anwendung am besten zu implementieren ist. Als Beispiele können die verschiedenen illustrativen Blöcke, Module, Schaltungen und Algorithmusschritte, die in Verbindung mit den hier offenbarten Ausführungsbeispielen beschrieben werden, mit einem digitalen Signalprozessor (DSP – digital signal processor), einem anwendungsspezifischen Schaltkreis (ASIC – application-specific integrated circuit), einem FPLA (field programmable gate array) oder einer anderen programmierbaren logischen Vorrichtung, einer diskreten Gatter- oder Transistor-Logik, diskreten Hardware- Komponenten, wie z.B. Register und FIFO, einem Prozessor, der einen Satz von Firmware-Anweisungen ausgeführt, jedem herkömmlichen programmierbaren Softwaremodul und einem Prozessor oder jeder Kombination daraus, die ausgebildet ist, die hier beschriebenen Funktionen durchzuführen, implementiert oder durchgeführt werden. Der Prozessor kann vorteilhafterweise ein Mikroprozessor sein, aber als Alternative kann der Prozessor jeder herkömmliche Prozessor, jede Steuereinrichtung, Mikrosteuereinrichtung oder Zustandsmaschine sein. Das Softwaremodul kann sich in einem RAM-Speicher, einem Flash-Speicher, einem ROM-Speicher, einem EPROM-Speicher, einem EEPROM-Speicher, Registern, einer Festplatte, einer auswechselbare Platte, einer CD-ROM oder jeder anderen in der Technik bekannten Form eines Speichermediums befinden. Wie in der 12 dargestellt wird, wird ein beispielhafter Prozessor 500 vorteilhafterweise mit einem Speichermedium 502 verbunden, um Information aus dem Speichermedium 502 zu lesen und Information in das Speichermedium 502 zu schreiben. Alternativ kann das Speichermedium 502 integral zu dem Prozessor 500 sein. Der Prozessor 500 und das Speichermedium 502 können sich in einem ASIC (nicht gezeigt) befinden. Der ASIC kann sich in einem Telefon (nicht gezeigt) befinden. Alternativ können sich der Prozessor 500 und das Speichermedium 502 in einem Telefon befinden. Der Prozessor 500 kann als eine Kombination aus einem DSP und einem Mikroprozessor implementiert werden oder als zwei Mikroprozessoren in Verbindung mit einem DSP-Kern, usw.
  • Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung wurden somit gezeigt und beschrieben. Es ist für Fachleute jedoch offensichtlich, dass verschiedene Änderungen der hier offenbarten Ausführungsbeispiele gemacht werden können, ohne von dem Umfang der Erfindung abzuweichen. Somit soll die vorliegende Erfindung nicht eingeschränkt sein, außer gemäß den folgenden Ansprüchen.

Claims (16)

  1. Ein Verfahren zum Kompensieren hinsichtlich einer Rahmenlöschung in einem Sprach-Codierer, wobei das Verfahren Folgendes aufweist: Entquantisieren eines Pitch- bzw. Tonhöhenverzögerungswertes und eines ersten Delta-Wertes für einen momentanen Rahmen, der verarbeitet wird nach dem ein Löschungsrahmen deklariert wurde, wobei der erste Delta-Wert gleich zu der Differenz zwischen dem Pitch-Verzögerungswert für den momentanen Rahmen und einem Pitch-Verzögerungswert für einen Rahmen unmittelbar vorausgehend zu dem momentanen Rahmen ist; Empfangen eines quantisierten zweiten Delta-Wertes, für zumindest einen Rahmen vor dem momentanen Rahmen und nach der Rahmenlöschung ohne dabei einen quantisierten Pitch-Verzögerungswert für den mindestens einen Rahmen zu empfangen; Entquantisieren des zweiten Delta-Wertes für den mindestens einen Rahmen vor den momentanen Rahmen und nach der Rahmenlöschung, wobei der zweite Delta-Wert gleich ist zu der Differenz zwischen einem Pitch-Verzögerungs-Wert für den mindestens einen Rahmen und einem Pitch-Verzögerungswert für einen Rahmen unmittelbar vorausgehend zu dem mindestens einen Rahmen; Subtrahieren des ersten Delta-Wertes von dem Pitch-Verzögerungswert für den momentanen Rahmen, um einen Pitch-Verzögerungswert für den mindestens einen Rahmen vor den momentanen Rahmen zu generieren; und Subtrahieren des zweiten Delta-Wertes von dem generierten Pitch-Verzögerungswert für den mindestens einen Rahmen vor den momentanen Rahmen, um einen Pitch-Verzögerungswert für den gelöschten Rahmen zu generieren.
  2. Verfahren nach Anspruch 1, das weiterhin das Rekonstruieren des gelöschten Rahmens zum Generieren eines rekonstruierten Rahmens, aufweist.
  3. Verfahren nach Anspruch 2, das weiterhin das Ausführen einer Wellenform-Interpolation aufweist, um jegliche Diskontinuität zu glätten, die zwischen dem momentanen Rahmen und dem rekonstruierten Rahmen existiert.
  4. Verfahren nach Anspruch 1, wobei das Dequantisieren bzw. Entquantisieren ausgeführt wird, gemäß einem relativ nicht-prädiktiven Codierungs-Modus.
  5. Verfahren nach Anspruch 1, wobei das Entquantisieren ausgeführt wird, gemäß einem relativ prädiktiven Codierungs-Modus.
  6. Eine Vorrichtung angepasst zum Kompensieren hinsichtlich einer Rahmenlöschung, wobei die Vorrichtung Folgendes aufweist: erste Mittel (418) zum Entquantisieren eines Pitch-Verzögerungswertes und eines ersten Delta-Wertes für einen momentanen Rahmen, verarbeitet nach einer Deklarierung eines gelöschten Rahmens, wobei der erste Delta-Wert gleich ist zu der Differenz zwischen dem Pitch-Verzögerungswert für den momentanen Rahmen und einen Pitch-Verzögerungswert für einen Rahmen unmittelbar vorhergehend zu dem momentanen Rahmen; Mittel (402) zum Empfangen eines quantisierten zweiten Delta-Wertes für mindestens einen Rahmen vor den momentanen Rahmen und nach der Rahmenlöschung ohne einen quantisierten Pitch-Verzögerungswert für den mindestens einen Rahmen zu empfangen; zweite Mittel (418) zum Entquantisieren des zweiten Delta-Wertes für den mindestens einen Rahmen vor dem momentanen Rahmen und nach der Rahmenlöschung, wobei der Delta-Wert gleich ist zu der Differenz zwischen einem Pitch-Verzögerungswert für den mindestens einen Rahmen und einen Pitch-Verzögerungswert für einen Rahmen unmittelbar vorausgehend zu dem mindestens einen Rahmen; Mittel (418) zum Subtrahieren des ersten Delta-Wertes von dem Pitch-Verzögerungswert für den momentanen Rahmen, um einen Pitch-Verzögerungswert für den mindestens einen Rahmen vor den momentanen Rahmen zu generieren; und Mittel (418) zum Subtrahieren des zweiten Delta-Wertes von dem generierten Pitch-Verzögerungswert für den mindestens einen Rahmen vor dem momentanen Rahmen, um einen Pitch-Verzögerungswert für den gelöschten Rahmen zu erzeugen.
  7. Vorrichtung nach Anspruch 6, die weiterhin Mittel (420) aufweist zum Rekonstruieren des gelöschten Rahmens um einen rekonstruierten Rahmen zu generieren.
  8. Vorrichtung nach Anspruch 7, die weiterhin Mittel aufweist zum Ausführen einer Wellenform-Interpolation um jegliche Diskontinuitäten zu glätten, die zwischen dem momentanen Rahmen und dem rekonstruierten Rahmen existieren.
  9. Vorrichtung nach Anspruch 6, wobei die ersten Mittel (418) zum Entquantisieren Mittel aufweisen zum Entquantisieren gemäß einem relativ nicht-prädiktiven Codierungs-Modus.
  10. Sprach-Codierer nach Anspruch 6, wobei die zweiten Mittel (418) zum Entquantisieren Mittel aufweisen zum Entquantisieren gemäß einem relativ prädiktiven Codierungs-Modus.
  11. Eine Teilnehmer-Einheit gemäß der Vorrichtung nach Anspruch 6, wobei die ersten Mittel (418) zum Entquantisieren des Pitch-Verzögerungswertes und des ersten Delta-Wertes für den momenta nen Rahmen, verarbeitet nach der Deklarierung eines gelöschten Rahmens, ein erster Sprach-Codierer sind; die zweiten Mittel (418) zum Entquantisieren des zweiten Delta-Wertes für den mindestens einen Rahmen vor dem momentanen Rahmen und nach der Rahmenlöschung ein zweiter Sprach-Codierer sind; und die Mittel (418) zum Subtrahieren ein Steuerprozessor gekoppelt an den ersten und zweiten Sprach-Codierer sind.
  12. Teilnehmereinheit nach Anspruch 12, wobei der Steuerprozessor weiter konfiguriert ist, um den gelöschten Rahmen zu rekonstruieren, um einen rekonstruierten Rahmen zu generieren.
  13. Teilnehmereinheit nach Anspruch 12, wobei der Steuerprozessor weiter konfiguriert ist, um eine Wellenform-Interpolation auszuführen, um jegliche Diskontinuitäten, die zwischen dem momentanen Rahmen und dem rekonstruierten Rahmen existieren, zu glätten.
  14. Teilnehmereinheit nach Anspruch 11, wobei der erste Sprach-Codierer konfiguriert ist, um gemäß einem relativ nicht-prädiktiven Codierungs-Modus zu entquantisieren.
  15. Teilnehmereinheit nach Anspruch 11, wobei der zweite Sprach-Codierer konfiguriert ist, um gemäß einem relativ prädiktiven Codierungs-Modus zu entquantisieren.
  16. Ein Speichermedium, das einen Satz von Instruktionen enthält, der wenn ausgeführt durch einen Prozessor jeden der Verfahrensschritte nach einem der Ansprüche 1 bis 11 ausführt.
DE60129544T 2000-04-24 2001-04-18 Kompensationsverfahren bei rahmenauslöschung in einem sprachkodierer mit veränderlicher datenrate Expired - Lifetime DE60129544T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/557,283 US6584438B1 (en) 2000-04-24 2000-04-24 Frame erasure compensation method in a variable rate speech coder
US557283 2000-04-24
PCT/US2001/012665 WO2001082289A2 (en) 2000-04-24 2001-04-18 Frame erasure compensation method in a variable rate speech coder

Publications (2)

Publication Number Publication Date
DE60129544D1 DE60129544D1 (de) 2007-09-06
DE60129544T2 true DE60129544T2 (de) 2008-04-17

Family

ID=24224779

Family Applications (2)

Application Number Title Priority Date Filing Date
DE60129544T Expired - Lifetime DE60129544T2 (de) 2000-04-24 2001-04-18 Kompensationsverfahren bei rahmenauslöschung in einem sprachkodierer mit veränderlicher datenrate
DE60144259T Expired - Lifetime DE60144259D1 (de) 2000-04-24 2001-04-18 Glättung von Diskontinuitäten zwischen Sprachrahmen

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE60144259T Expired - Lifetime DE60144259D1 (de) 2000-04-24 2001-04-18 Glättung von Diskontinuitäten zwischen Sprachrahmen

Country Status (13)

Country Link
US (1) US6584438B1 (de)
EP (3) EP2099028B1 (de)
JP (1) JP4870313B2 (de)
KR (1) KR100805983B1 (de)
CN (1) CN1223989C (de)
AT (2) ATE368278T1 (de)
AU (1) AU2001257102A1 (de)
BR (1) BR0110252A (de)
DE (2) DE60129544T2 (de)
ES (2) ES2360176T3 (de)
HK (1) HK1055174A1 (de)
TW (1) TW519615B (de)
WO (1) WO2001082289A2 (de)

Families Citing this family (77)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW376611B (en) * 1998-05-26 1999-12-11 Koninkl Philips Electronics Nv Transmission system with improved speech encoder
WO2001082293A1 (en) * 2000-04-24 2001-11-01 Qualcomm Incorporated Method and apparatus for predictively quantizing voiced speech
US7080009B2 (en) * 2000-05-01 2006-07-18 Motorola, Inc. Method and apparatus for reducing rate determination errors and their artifacts
US6937979B2 (en) * 2000-09-15 2005-08-30 Mindspeed Technologies, Inc. Coding based on spectral content of a speech signal
US7013267B1 (en) * 2001-07-30 2006-03-14 Cisco Technology, Inc. Method and apparatus for reconstructing voice information
US7512535B2 (en) * 2001-10-03 2009-03-31 Broadcom Corporation Adaptive postfiltering methods and systems for decoding speech
US7096180B2 (en) * 2002-05-15 2006-08-22 Intel Corporation Method and apparatuses for improving quality of digitally encoded speech in the presence of interference
US6789058B2 (en) * 2002-10-15 2004-09-07 Mindspeed Technologies, Inc. Complexity resource manager for multi-channel speech processing
KR100451622B1 (ko) * 2002-11-11 2004-10-08 한국전자통신연구원 통신용 보코더 및 이를 이용한 통신 방법
DE60327371D1 (de) * 2003-01-30 2009-06-04 Fujitsu Ltd EINRICHTUNG UND VERFAHREN ZUM VERBERGEN DES VERSCHWINDENS VON AUDIOPAKETEN, EMPFANGSENDGERuT UND AUDIOKOMMUNIKAITONSSYSTEM
WO2004102531A1 (en) * 2003-05-14 2004-11-25 Oki Electric Industry Co., Ltd. Apparatus and method for concealing erased periodic signal data
US20050049853A1 (en) * 2003-09-01 2005-03-03 Mi-Suk Lee Frame loss concealment method and device for VoIP system
US7433815B2 (en) * 2003-09-10 2008-10-07 Dilithium Networks Pty Ltd. Method and apparatus for voice transcoding between variable rate coders
US7505764B2 (en) * 2003-10-28 2009-03-17 Motorola, Inc. Method for retransmitting a speech packet
US7729267B2 (en) * 2003-11-26 2010-06-01 Cisco Technology, Inc. Method and apparatus for analyzing a media path in a packet switched network
WO2005098821A2 (en) * 2004-04-05 2005-10-20 Koninklijke Philips Electronics N.V. Multi-channel encoder
JP4445328B2 (ja) * 2004-05-24 2010-04-07 パナソニック株式会社 音声・楽音復号化装置および音声・楽音復号化方法
WO2006009074A1 (ja) * 2004-07-20 2006-01-26 Matsushita Electric Industrial Co., Ltd. 音声復号化装置および補償フレーム生成方法
US7681105B1 (en) * 2004-08-09 2010-03-16 Bakbone Software, Inc. Method for lock-free clustered erasure coding and recovery of data across a plurality of data stores in a network
US7681104B1 (en) 2004-08-09 2010-03-16 Bakbone Software, Inc. Method for erasure coding data across a plurality of data stores in a network
EP2189978A1 (de) 2004-08-30 2010-05-26 QUALCOMM Incorporated Verfahren und Vorrichtung für einen adaptiven De-Jitter-Puffer
JP2008529073A (ja) 2005-01-31 2008-07-31 ソノリト・アンパルトセルスカブ 重み付けされたオーバーラップ加算方法
US7519535B2 (en) * 2005-01-31 2009-04-14 Qualcomm Incorporated Frame erasure concealment in voice communications
CN101171626B (zh) * 2005-03-11 2012-03-21 高通股份有限公司 通过修改残余对声码器内的帧进行时间扭曲
US8355907B2 (en) 2005-03-11 2013-01-15 Qualcomm Incorporated Method and apparatus for phase matching frames in vocoders
US8155965B2 (en) * 2005-03-11 2012-04-10 Qualcomm Incorporated Time warping frames inside the vocoder by modifying the residual
US9058812B2 (en) * 2005-07-27 2015-06-16 Google Technology Holdings LLC Method and system for coding an information signal using pitch delay contour adjustment
US8259840B2 (en) * 2005-10-24 2012-09-04 General Motors Llc Data communication via a voice channel of a wireless communication network using discontinuities
KR100647336B1 (ko) * 2005-11-08 2006-11-23 삼성전자주식회사 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
US8090573B2 (en) * 2006-01-20 2012-01-03 Qualcomm Incorporated Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision
US8032369B2 (en) * 2006-01-20 2011-10-04 Qualcomm Incorporated Arbitrary average data rates for variable rate coders
US8346544B2 (en) * 2006-01-20 2013-01-01 Qualcomm Incorporated Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision
US7457746B2 (en) * 2006-03-20 2008-11-25 Mindspeed Technologies, Inc. Pitch prediction for packet loss concealment
US8812306B2 (en) 2006-07-12 2014-08-19 Panasonic Intellectual Property Corporation Of America Speech decoding and encoding apparatus for lost frame concealment using predetermined number of waveform samples peripheral to the lost frame
US8135047B2 (en) 2006-07-31 2012-03-13 Qualcomm Incorporated Systems and methods for including an identifier with a packet associated with a speech signal
FR2907586A1 (fr) * 2006-10-20 2008-04-25 France Telecom Synthese de blocs perdus d'un signal audionumerique,avec correction de periode de pitch.
US7738383B2 (en) * 2006-12-21 2010-06-15 Cisco Technology, Inc. Traceroute using address request messages
US8279889B2 (en) 2007-01-04 2012-10-02 Qualcomm Incorporated Systems and methods for dimming a first packet associated with a first bit rate to a second packet associated with a second bit rate
CN101226744B (zh) * 2007-01-19 2011-04-13 华为技术有限公司 语音解码器中实现语音解码的方法及装置
US7706278B2 (en) * 2007-01-24 2010-04-27 Cisco Technology, Inc. Triggering flow analysis at intermediary devices
US7873064B1 (en) * 2007-02-12 2011-01-18 Marvell International Ltd. Adaptive jitter buffer-packet loss concealment
CN101321033B (zh) * 2007-06-10 2011-08-10 华为技术有限公司 帧补偿方法及***
CN101325631B (zh) * 2007-06-14 2010-10-20 华为技术有限公司 一种估计基音周期的方法和装置
ATE502377T1 (de) * 2007-06-15 2011-04-15 France Telecom Kodierung digitaler audiosignale
EP2058803B1 (de) * 2007-10-29 2010-01-20 Harman/Becker Automotive Systems GmbH Partielle Sprachrekonstruktion
CN101437009B (zh) * 2007-11-15 2011-02-02 华为技术有限公司 丢包隐藏的方法及其***
KR20090122143A (ko) * 2008-05-23 2009-11-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
US20090319263A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US20090319261A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US8768690B2 (en) * 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
RU2452044C1 (ru) 2009-04-02 2012-05-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство, способ и носитель с программным кодом для генерирования представления сигнала с расширенным диапазоном частот на основе представления входного сигнала с использованием сочетания гармонического расширения диапазона частот и негармонического расширения диапазона частот
EP2239732A1 (de) 2009-04-09 2010-10-13 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Vorrichtung und Verfahren zur Erzeugung eines synthetischen Audiosignals und zur Kodierung eines Audiosignals
JP5111430B2 (ja) * 2009-04-24 2013-01-09 パナソニック株式会社 音声符号化装置、音声復号化装置、及びこれらの方法
US8670990B2 (en) * 2009-08-03 2014-03-11 Broadcom Corporation Dynamic time scale modification for reduced bit rate audio coding
WO2011065741A2 (ko) * 2009-11-24 2011-06-03 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
GB0920729D0 (en) * 2009-11-26 2010-01-13 Icera Inc Signal fading
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
US8774010B2 (en) 2010-11-02 2014-07-08 Cisco Technology, Inc. System and method for providing proactive fault monitoring in a network environment
US8559341B2 (en) 2010-11-08 2013-10-15 Cisco Technology, Inc. System and method for providing a loop free topology in a network environment
US8982733B2 (en) 2011-03-04 2015-03-17 Cisco Technology, Inc. System and method for managing topology changes in a network environment
US8670326B1 (en) 2011-03-31 2014-03-11 Cisco Technology, Inc. System and method for probing multiple paths in a network environment
US8990074B2 (en) 2011-05-24 2015-03-24 Qualcomm Incorporated Noise-robust speech coding mode classification
US8724517B1 (en) 2011-06-02 2014-05-13 Cisco Technology, Inc. System and method for managing network traffic disruption
US8830875B1 (en) 2011-06-15 2014-09-09 Cisco Technology, Inc. System and method for providing a loop free topology in a network environment
JP5328883B2 (ja) * 2011-12-02 2013-10-30 パナソニック株式会社 Celp型音声復号化装置およびcelp型音声復号化方法
US9450846B1 (en) 2012-10-17 2016-09-20 Cisco Technology, Inc. System and method for tracking packets in a network environment
US9842598B2 (en) * 2013-02-21 2017-12-12 Qualcomm Incorporated Systems and methods for mitigating potential frame instability
BR112015031606B1 (pt) 2013-06-21 2021-12-14 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Aparelho e método para desvanecimento de sinal aperfeiçoado em diferentes domínios durante ocultação de erros
JP6482540B2 (ja) 2013-06-21 2019-03-13 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. 改善されたピッチラグ推定を採用するacelp型封じ込めにおける適応型コードブックの改善された封じ込めのための装置および方法
MX352092B (es) 2013-06-21 2017-11-08 Fraunhofer Ges Forschung Aparato y método para mejorar el ocultamiento del libro de códigos adaptativo en la ocultación similar a acelp empleando una resincronización de pulsos mejorada.
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
US9418671B2 (en) 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter
EP3719801B1 (de) * 2013-12-19 2023-02-01 Telefonaktiebolaget LM Ericsson (publ) Schätzung von hintergrundrauschen bei audiosignalen
EP2980796A1 (de) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zur Verarbeitung eines Audiosignals, Audiodecodierer und Audiocodierer
CN107112025A (zh) 2014-09-12 2017-08-29 美商楼氏电子有限公司 用于恢复语音分量的***和方法
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
US10447430B2 (en) 2016-08-01 2019-10-15 Sony Interactive Entertainment LLC Forward error correction for streaming data

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59153346A (ja) 1983-02-21 1984-09-01 Nec Corp 音声符号化・復号化装置
US4901307A (en) 1986-10-17 1990-02-13 Qualcomm, Inc. Spread spectrum multiple access communication system using satellite or terrestrial repeaters
JP2707564B2 (ja) * 1987-12-14 1998-01-28 株式会社日立製作所 音声符号化方式
US5103459B1 (en) 1990-06-25 1999-07-06 Qualcomm Inc System and method for generating signal waveforms in a cdma cellular telephone system
CA2483322C (en) 1991-06-11 2008-09-23 Qualcomm Incorporated Error masking in a variable rate vocoder
US5884253A (en) * 1992-04-09 1999-03-16 Lucent Technologies, Inc. Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter
US5784532A (en) 1994-02-16 1998-07-21 Qualcomm Incorporated Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system
TW271524B (de) 1994-08-05 1996-03-01 Qualcomm Inc
US5550543A (en) * 1994-10-14 1996-08-27 Lucent Technologies Inc. Frame erasure or packet loss compensation method
US5699478A (en) 1995-03-10 1997-12-16 Lucent Technologies Inc. Frame erasure compensation technique
JPH08254993A (ja) * 1995-03-16 1996-10-01 Toshiba Corp 音声合成装置
US5699485A (en) * 1995-06-07 1997-12-16 Lucent Technologies Inc. Pitch delay modification during frame erasures
JP3068002B2 (ja) * 1995-09-18 2000-07-24 沖電気工業株式会社 画像符号化装置、画像復号化装置及び画像伝送システム
US5724401A (en) 1996-01-24 1998-03-03 The Penn State Research Foundation Large angle solid state position sensitive x-ray detector system
JP3157116B2 (ja) * 1996-03-29 2001-04-16 三菱電機株式会社 音声符号化伝送システム
JP3134817B2 (ja) * 1997-07-11 2001-02-13 日本電気株式会社 音声符号化復号装置
FR2774827B1 (fr) * 1998-02-06 2000-04-14 France Telecom Procede de decodage d'un flux binaire representatif d'un signal audio
US6456964B2 (en) 1998-12-21 2002-09-24 Qualcomm, Incorporated Encoding of periodic speech using prototype waveforms
US6691084B2 (en) 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
US6640209B1 (en) 1999-02-26 2003-10-28 Qualcomm Incorporated Closed-loop multimode mixed-domain linear prediction (MDLP) speech coder
EP1088302B1 (de) * 1999-04-19 2008-07-23 AT & T Corp. Verfahren zur verschleierung von paketverlusten
JP2001249691A (ja) * 2000-03-06 2001-09-14 Oki Electric Ind Co Ltd 音声符号化装置及び音声復号装置
WO2001082293A1 (en) 2000-04-24 2001-11-01 Qualcomm Incorporated Method and apparatus for predictively quantizing voiced speech

Also Published As

Publication number Publication date
JP2004501391A (ja) 2004-01-15
AU2001257102A1 (en) 2001-11-07
TW519615B (en) 2003-02-01
KR20020093940A (ko) 2002-12-16
JP4870313B2 (ja) 2012-02-08
CN1432175A (zh) 2003-07-23
ATE368278T1 (de) 2007-08-15
HK1055174A1 (en) 2003-12-24
EP1850326A2 (de) 2007-10-31
ES2360176T3 (es) 2011-06-01
EP2099028A1 (de) 2009-09-09
CN1223989C (zh) 2005-10-19
DE60129544D1 (de) 2007-09-06
ATE502379T1 (de) 2011-04-15
EP1276832A2 (de) 2003-01-22
KR100805983B1 (ko) 2008-02-25
EP1850326A3 (de) 2007-12-05
DE60144259D1 (de) 2011-04-28
EP1276832B1 (de) 2007-07-25
BR0110252A (pt) 2004-06-29
WO2001082289A3 (en) 2002-01-10
WO2001082289A2 (en) 2001-11-01
EP2099028B1 (de) 2011-03-16
US6584438B1 (en) 2003-06-24
ES2288950T3 (es) 2008-02-01

Similar Documents

Publication Publication Date Title
DE60129544T2 (de) Kompensationsverfahren bei rahmenauslöschung in einem sprachkodierer mit veränderlicher datenrate
DE60128677T2 (de) Verfahren und vorrichtung zur prädiktiven quantisierung von stimmhaften sprachsignalen
DE60219351T2 (de) Signaländerungsverfahren zur effizienten kodierung von sprachsignalen
DE60027573T2 (de) Quantisierung der spektralen amplitude in einem sprachkodierer
DE60017763T2 (de) Verfahren und vorrichtung zur erhaltung einer ziel-bitrate in einem sprachkodierer
DE60031002T2 (de) Multimodaler mischbereich-sprachkodierer mit geschlossener regelschleife
DE60123651T2 (de) Verfahren und vorrichtung zur robusten sprachklassifikation
US6795805B1 (en) Periodicity enhancement in decoding wideband signals
Ekudden et al. The adaptive multi-rate speech coder
JP3653826B2 (ja) 音声復号化方法及び装置
DE60028579T2 (de) Verfahren und system zur sprachkodierung bei ausfall von datenrahmen
DE60012760T2 (de) Multimodaler sprachkodierer
DE60027012T2 (de) Verfahren und vorrichtung zur verschachtelung der quantisierungsverfahren der spektralen frequenzlinien in einem sprachkodierer
DE60032006T2 (de) Prädiktionssprachkodierer mit musterauswahl für kodierungsshema zum reduzieren der empfindlichkeit für rahmenfehlern
US6985857B2 (en) Method and apparatus for speech coding using training and quantizing
DE60024080T2 (de) Kodierung von sprachsegmenten mit signalübergängen durch interpolation von mehrimpulsanregungssignalen
DE60037286T2 (de) Verfahren und Vorrichtung zur Unterabtastung der im Phasenspektrum erhaltenen Information
DE60030997T2 (de) Verteilung des Frequenzspektrums einer Prototypwellenform
DE69808339T2 (de) Verfahren zur sprachkodierung bei hintergrundrauschen
WO2003001172A1 (en) Method and device for coding speech in analysis-by-synthesis speech coders
Lin On improving voice periodicity prediction in codebook‐excited LPC coders

Legal Events

Date Code Title Description
8364 No opposition during term of opposition