DE60220485T2

DE60220485T2 - Verfahren und Vorrichtung zur Verschleierung von Rahmenausfall von prädiktionskodierter Sprache unter Verwendung von Extrapolation der Wellenform

Info

Publication number: DE60220485T2
Application number: DE60220485T
Authority: DE
Inventors: Juin-Hwey Irvine Chen
Original assignee: Broadcom Corp
Current assignee: Broadcom Corp
Priority date: 2001-08-17
Filing date: 2002-08-16
Publication date: 2008-02-07
Anticipated expiration: 2022-08-17
Also published as: EP1288916A3; US7711563B2; EP1288916A2; US20030074197A1; ATE364220T1; DE60220485D1; EP1288916B1

Description

HINTERGRUND DER ERFINDUNG
Gebiet der Erfindung
Die vorliegende Erfindung betrifft digitale Datenübertragungen. Im Besonderen betrifft die vorliegende Erfindung die Verbesserung der Sprachqualität, wenn Frames eines komprimierten Bitstroms, der ein Sprachsignal repräsentiert, im Rahmen eines digitalen Kommunikationssystems verloren gehen.
Relevanter Stand der Technik
Bei der Sprachcodierung, die manchmal auch Sprachkompression genannt wird, codiert eine Codiereinrichtung (Codierer) ein Eingangs-Sprach- oder Audiosignal zur Übertragung in einen digitalen Bitstrom. Eine Decodiereinrichtung (Decoder) decodiert den Bitstrom in ein Ausgangssignal. Die Kombination aus Codier- und Decodiereinrichtung wird Codec genannt. Der gesendete Bitstrom wird für gewöhnlich in Frames unterteilt. Bei drahtlosen Netzwerken oder Paketnetzwerken gehen aus gesendeten Bits bestehende Frames manchmal verloren, werden gelöscht oder beschädigt. Dieser Zustand wird bei drahtlosen Datenübertragungen Frame-Löschung genannt. Derselbe Zustand gelöschter Frames kann in Paketnetzwerken infolge eines Paketverlustes auftreten. Wenn eine Frame-Löschung auftritt, kann der Decoder die normalen Decodieroperationen nicht durchführen, da in dem verlorenen Frame keine zu decodierenden Bits vorhanden sind. Während gelöschter Frames muss der Decoder Frame-Löschungsverschleierungs- (FEC/Frame Erasure Concealment) Operationen durchführen, um zu versuchen, die qualitätsverschlechternden Auswirkungen der Frame-Löschung zu verschleiern.
Eine der frühesten FEC-Techniken ist die auf einem Musterabgleich basierende Wellenformsubstitution (Waveform Substitution), wie von Goodman et al. in "Waveform Substitution Techniques for Recovering Missing Speech Segments in Packet Voice Communications", IEEE Transaction on Acoustics, Speech and Signal Processing, Dezember 1986, Seiten 1440–1448, vorgeschlagen. Dieses Schema wurde auf einen Pulscodemodulations-(PCM-)Sprach-Codec angewandt, der unmittelbar eine sofortige Muster-für-Muster-Quantisierung der Sprachwellenform durchführt. Dieses FEC-Schema verwendet ein Stück einer decodierten Sprachwellenform unmittelbar vor dem verlorenen Frame als Vorlage und schiebt diese Vorlage in der Zeit zurück, um ein geeignetes Stück einer decodierten Sprachwellenform zu finden, das eine Art von Wellenformgleichartigkeitsmaß maximiert (oder ein Wellenformdifferenzmaß minimiert).
Das FEC-Schema von Goodman verwendet dann den Wellenformabschnitt, der unmittelbar auf das am besten übereinstimmende Wellenformsegment folgt, als Ersatzwellenform für den verlorenen Frame. Zur Beseitigung von Diskontinuitäten an den Frame-Grenzen verwendet dieses Schema außerdem ein angehobenes Kosinusfenster, um eine Overlap-Add-Technik (Technik zur schnellen Faltung) zwischen der korrekt decodierten Wellenform und der Ersatzwellenform durchzuführen. Diese Overlap-Add-Technik erhöht die Codierverzögerung. Die Verzögerung tritt auf, da am Ende eines jeden Frames viele Sprachmuster vorhanden sind, die in einem Overlap-Add-Verfahren zusammengesetzt werden müssen, um die endgültigen Werte zu erhalten, und somit nicht abgespielt werden können, bis der nächste Sprach-Frame decodiert wird.
Basierend auf der vorstehend genannten Arbeit von Goodman, hat David Kapilow eine fortgeschrittenere Version eines FEC-Schemas für G.711-PCM-Codecs entwickelt. Dieses FEC-Schema ist im Anhang I der ITU-T Empfehlung G.711 beschrieben. Sowohl das Goodman- als auch das Kapilow-FEC-Schema sind jedoch auf PCM-Codecs mit sofortiger Quantisierung beschränkt.
Bei der Sprachcodierung basiert der gängigste Sprach-Codec-Typ auf einer prädiktiven Codierung. Das vielleicht erste veröffentlichte FEC-Schema für einen Prädiktions-Codec ist das "Bad-Frame-Masking" Schema (Schema zum Maskieren schlechter Frames) gemäß dem Original-TIA-IS-54-VSELP-Standard für den Mobilfunk in Nordamerika (aufgehoben im September 1996). Hierbei wiederholt das Schema bei Ermittlung eines schlechten Frames die linearen Prädiktionsparameter des letzten Frames. Dieses Schema leitet die Sprachenergieparameter für den aktuellen Frame entweder durch Wiederholen oder Abschwächen der Sprachenergieparameter des letzten Frames abhängig davon ab, wie viele aufeinander folgende schlechte Frames gezählt worden sind. Für das Erregungssignal (oder quantisierte Prädiktionsrestsignal) führt dieses Schema keine speziellen Operationen durch. Es decodiert lediglich die Erregungsbits, auch wenn diese eine große Anzahl an Bitfehlern enthalten könnten.
Das erste FEC-Schema für einen Prädiktions-Codec, der eine Wellenformsubstitution in der Erregungsdomäne durchführt, ist wahrscheinlich das FEC-System, das von Chen für den CELP-(Code Excited Linear Predictor/codeangeregten Linear-Prädiktions-)CODEC mit geringer Verzögerung gemäß der ITU-T-Empfehlung G.728 entwickelt wurde, wie in dem US-Patent Nr. 5,615,298 , erteilt an Chen, mit dem Titel "Excitation Signal Synthesis During Frame Erasure or Packet Loss" beschrieben. Bei diesem Ansatz wird, während gelöschter Frames, das Spracherregungssignal in Abhängigkeit davon extrapoliert, ob der letzte Frame ein stimmhafter oder ein nicht stimmhafter Frame ist. Wenn er stimmhaft ist, wird das Erregungssignal durch periodische Wiederholung extrapoliert. Wenn er nicht stimmhaft ist, wird das Erregungssignal durch zufälliges Wiederholen kleiner Segmente der Sprachwellenform im früheren Frame extrapoliert, wobei sichergestellt wird, dass die durchschnittliche Sprachenergie in etwa aufrechterhalten wird.
Es besteht daher Bedarf an einer FEC-Technik, die die herkömmlichen Decodern zugeschriebenen genannten Mängel vermeidet. Es wird beispielsweise eine FEC-Technik benötigt, die die erhöhte Verzögerung vermeidet, die bei der Overlap-Add-Operation des Goodman-Ansatzes erzeugt wird. Ebenfalls benötigt wird eine FEC-Technik, die eine gleichmäßige Reproduktion einer Sprach- oder Audiowellenform sicherstellen kann, wenn der nächste gute Frame empfangen wird.
Das Dokument US-A-5,907,822 offenbart ein Verfahren zum Extrapolieren früherer Signaldaten zur Einsetzung in fehlende Datensegmente, um digitale Sprach-Frame-Fehler zu verschleiern. Die nach der Sprachsynthese ausgegebenen Parameter befinden sich in der Erregungsdomäne.
Das Dokument von "WATKINS ET AL.: "Improving 16 kb/s G.728 LD-CELP Speech Coder for Frame Erasure Channels", ICASSP-95, Seiten 241–244, offenbart ein Verfahren zum Verbessern der ausgegebenen Sprachqualität für Frame-Löschungskanäle. Während gelöschter Frames wird ein Erregungssignal extrapoliert. Eine solche Extrapolation wird solange fortgesetzt, bis ein guter Frame empfangen wird.
Das Dokument von "GOODMAN ET AL.: "Waveform Substitution Techniques for Recovering Missing Speech Segments in Packet Voice Communications", IEEE tr. ASSP-34, Band 6, Seiten 1440–1448, Dezember 1996, offenbart eine Technik zum Ersetzen fehlender Sprachsegmente durch Wellenformsegmente aus korrekt empfangenen Paketen, um die maximal tolerierbare Rate fehlender Pakete zu erhöhen. Zur Beseitigung von Diskontinuitäten an Frame-Grenzen verwendet die Technik ein angehobenes Kosinusfenster, um eine Overlap-Add-Technik zwischen der korrekt decodierten Wellenform und der Ersatzwellenform durchzuführen.
Das Dokument von CHEN ET AL.: "A high-fidelity speech and audio codec with low delay and low complexity", ICASSP 2000, Seiten 1161–1164, offenbart einen Frame-Löschungsverschleierungsalgorithmus, der einen gegen Frame-Löschungen widerstandsfähigen Codec bereitstellt.
Ein Problem besteht beim Stand der Technik darin, dass, wenn während des Schritts des Extrapolierens eines Ersatz-Frames, eine Zeitverzögerung unmittelbar als die Zeitverzögerung für die periodische Wiederholung bei der Wellenformextrapolation des aktuellen Frames verwendet wird, Brummgeräusche auftreten können, wenn eine kleine Zeitverzögerung in einem Sprachsegment verwendet wird, das über keinen hohen Periodizitätsgrad vertilgt.
Ein Ziel der vorliegenden Erfindung ist es, ein Verfahren zum Synthetisieren einer beschädigten Sprach-Frame-Wellenform bereitzustellen, wobei das Verfahren einen verbesserten Extrapolationsschritt umfasst, der das Auftreten von Brummgeräuschen verhindern kann.
Dieses Ziel wird durch ein Verfahren gemäß dem unabhängigen Anspruch 1, eine Vorrichtung gemäß dem unabhängigen Anspruch 19 und ein Computerprogrammprodukt gemäß dem unabhängigen Anspruch 37 erreicht.
Vorteilhafte Ausführungsformen der Erfindung sind in den abhängigen Ansprüchen definiert.
Gemäß den Grundlagen der vorliegenden Erfindung, wie hierin dargestellt und allgemein beschrieben, umfasst eine beispielhafte FEC-Technik ein Verfahren zum Synthetisieren eines beschädigten Sprach-Frames, der von einem Decoder ausgegeben wird, welcher ein oder mehrere Prädiktions-Filter umfasst. Der beschädigte Frame ist repräsentativ für ein Segment eines decodierten Signals, das von dem Decoder ausgegeben wird. Das Verfahren umfasst das Extrapolieren eines Ersatz-Frames basierend auf einem anderen Segment des decodierten Signals, das Ersetzen des beschädigten Frames durch den Ersatz-Frame und das Aktualisieren der inneren Zustände der Filter basierend auf der Ersetzung.
Weitere Ausführungsformen, Merkmale und Vorteile der vorliegenden Erfindung sowie der Aufbau und Betrieb der verschiedenen Ausführungsformen der vorliegen den Erfindung sind nachfolgend unter Bezugnahme auf die begleitenden Zeichnungen genauer beschrieben.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Die begleitenden Zeichnungen, die in die Beschreibung eingebunden sind und einen Teil derselben darstellen, veranschaulichen eine Ausführungsform der Erfindung und erläutern, zusammen mit der Beschreibung, den Zweck, die Vorteile und Grundlagen der Erfindung. Es zeigt:
1 eine Blockdiagrammdarstellung eines herkömmlichen Prädiktions-Decoders,
2 eine Blockdiagrammdarstellung eines beispielhaften Decoders, der gemäß der vorliegenden Erfindung konstruiert und aufgebaut ist,
3(a) eine graphische Darstellung eines beispielhaften nicht normierten Wellenformabschwächungsfensters, das gemäß der vorliegenden Erfindung arbeitet,
3(b) eine graphische Darstellung eines beispielhaften normierten Wellenformabschwächungsfensters, das gemäß der vorliegenden Erfindung arbeitet,
4(a) ein Flussdiagramm, das ein beispielhaftes Verfahren zur Durchführung einer Frame-Löschungsverschleierung gemäß der vorliegenden Erfindung darstellt,
4(b) eine Fortsetzung des in 4(a) gezeigten Flussdiagramms, und
5 ein Blockdiagramm eines beispielhaften Computersystems, mit dem die vorliegende Erfindung in die Praxis umgesetzt werden kann.
GENAUE BESCHREIBUNG DER ERFINDUNG
Die folgende genaue Beschreibung der vorliegenden Erfindung bezieht sich auf die begleitenden Zeichnungen, die beispielhafte erfindungsgemäße Ausführungsform darstellen. Andere Ausführungsformen sind möglich und es können innerhalb des Schutzumfangs der vorliegenden Erfindung an den Ausführungsformen Modifikationen durchgeführt werden. Daher soll die folgende genaue Beschreibung keine Einschränkung der Erfindung darstellen. Der Schutzumfang der Erfindung wird vielmehr durch die anhängigen Ansprüche definiert.
Es ist für Fachleute auf dem Gebiet ersichtlich, dass die vorliegende Erfindung, wie nachfolgend beschrieben, in zahlreichen unterschiedlichen Ausführungsformen von Hardware, Software, Firmware und/oder den in den Zeichnungen dargestellten Einheiten realisiert werden kann. Ein effektiver Software-Code mit spezialisierter Steuerungs-Hardware zum Ausführen der vorliegenden Erfindung schränkt die vorliegende Erfindung nicht ein. Somit werden der Betrieb und das Verhalten der vorliegenden Erfindung in dem Einvernehmen beschrieben, dass Modifikationen und Variationen der Ausführungsformen angesichts des hierin dargelegten Detaillierungsgrads möglich sind. Bevor die Erfindung im Detail beschrieben wird, ist es hilfreich, eine beispielhafte Umgebung zu beschreiben, in der die Erfindung ausgeführt werden kann.
Die vorliegende Erfindung ist in der Umgebung des Decoders eines Prädiktions-Sprach-Codecs zum Verschleiern der qualitätsverschlechternden Auswirkungen einer Frame-Löschung oder eines Paketverlusts besonders nützlich. 1 zeigt eine solche Umgebung. Die allgemeinen Grundlagen der Erfindung können in jedem beliebigen linearen Prädiktions-Codec verwendet werden, obgleich die nachfolgend beschriebene bevorzugte Ausführungsform für einen spezifischen Prädiktions-Decoder-Typ besonders gut geeignet ist.
Die vorliegende Erfindung ist eine FEC-Technik, die zur prädiktiven Codierung von Sprache ausgelegt ist. Ein charakteristisches Merkmal, das sie von den vorstehend genannten Techniken unterscheidet, besteht darin, dass sie die Wellenformsubstitution in der Sprachdomäne anstatt in der Erregungsdomäne durchführt. Sie führt außerdem spezielle Operationen zum Aktualisieren der inneren Zustände, oder Speicher, von Prädiktoren und Filtern im Prädiktions-Decoder durch, um eine maximal gleichmäßige Sprachwellenformreproduktion sicherzustellen, wenn der nächste gute Frame empfangen wird.
Die vorliegende Erfindung vermeidet außerdem die zusätzliche Verzögerung, die mit der Overlap-Add-Operation beim Goodman-Ansatz und im Anhang 1 von ITU-T G.711 in Verbindung gebracht wird. Dies wird durch Durchführen einer Overlap-Add-Operation zwischen der extrapolierten Sprachwellenform und dem Ringing (Rufsignal) oder der Nulleingangsantwort des Synthesefilters erreicht. Andere Merkmale umfassen einen speziellen Algorithmus zum Minimieren von Brummgeräuschen während der Wellenformextrapolation und ein effizientes Verfahren zum Implementieren einer linear abnehmenden Wellenformhüllkurve während einer erweiterten Frame-Löschung. Schließlich werden die zugeordneten Speicher im Log-Verstärkungs-Prädiktor aktualisiert.
Wie vorstehend erwähnt, ist die vorliegende Erfindung nicht auf einen bestimmten Sprach-Codec beschränkt. Sie ist vielmehr allgemein auf Prädiktions-Sprach-Code anwendbar, welche Adaptive Predicitive Coding (APC/adaptiv-prädiktives Codieren), Multi-Pulse Linear Predictive Coding (MPLPC/lineares prädiktives Multi-Puls-Codieren), CELP und Noise Feedback Coding (NFC/Rauschrückkopplungscodieren), etc. umfassen, ohne jedoch darauf beschränkt zu sein.
Vor der Besprechung der Grundlagen der Erfindung ist eine Beschreibung eines herkömmlichen Decoders eines standardgemäßen Prädiktions-Codes erforderlich. 1 ist eine Blockdiagrammdarstellung eines herkömmlichen Prädiktionsdecoders 100. Der in 1 gezeigte Decoder 100 kann dazu verwendet werden, die Decoder von APC-, MPLPC-, CELP- und NFC-Sprach-Codecs zu beschreiben. Die höher entwickelten Versionen von Prädiktionsdecodern zugeordneten Codecs verwenden typischerweise einen Kurzzeit-Prädiktor zum Ausnutzen der Redundanz zwischen benachbarten Sprachmustern und einen Langzeit-Prädiktor zum Ausnutzen der Redundanz zwischen voneinander entfernten Mustern infolge der Pitch-Periodizität von beispielsweise stimmhafter Sprache.
Die durch diese Codecs gesendete Hauptinformation ist eine quantisierte Version des Prädiktionsrestsignals nach der Kurzzeit- und Langzeit-Prädiktion. Dieses quantisierte Restsignal wird häufig als Erregungssignal bezeichnet, da es im Decoder dazu verwendet wird, das Langzeitsynthesefilter und das Kurzzeitsynthesefilter zu erregen, um das decodierte Ausgangsprachsignal zu erzeugen. Zusätzlich zu dem Erregungssignal werden auch mehrere andere Sprachparameter als Nebeninformationen auf einer Frame-für-Frame- oder Sub-Frame-für-Sub-Frame-Basis gesendet.
Ein beispielhafter Längenbereich für jeden Frame (Frame-Größe genannt) kann zwischen 5 ms und 40 ms betragen, wobei 10 ms und 20 ms die zwei gängigsten Frame-Größen bei Sprach-Codecs sind. Jeder Frame enthält für gewöhnlich einige wenige gleichlange Sub-Frames. Die Nebeninformationen dieser Prädiktions-Code umfassen typischerweise Informationen bezüglich der spektralen Hüllkurve in Form der Kurzzeit-Prädiktionsparameter, der Pitch-Periode und der Pitch-Prädiktorabgriffe (beides Langzeit-Prädiktionsparameter) sowie der Erregungsverstärkung.
In 1 umfasst der herkömmliche Decoder 100 einen Bit-Demultiplexer 105. Der Demultiplexer 105 teilt die Bits in jedem empfangenen Bit-Frame in Codes für das Erregungssignal und Codes für den Kurzzeit-Prädiktor, den Langzeit-Prädiktor und die Erregungsverstärkung auf.
Die Kurzzeit-Prädiktorparameter, die häufig als lineare Prädiktionscodierparameter (LPC-Parameter/Linear Predictive Coding parameters) bezeichnet werden, werden für gewöhnlich einmal pro Frame gesendet. Es gibt viele alternative Parametersätze, die dazu verwendet werden können, dieselben Informationen bezüglich der spektralen Hüllkurve darzustellen. Die gängigsten von diesen sind die Linienspektrumpaarparameter (LSP-Parameter/Line-Spektrum Pair parameters), die manchmal auch als Linienspektrumfrequenzparameter (LSF-Parameter) bezeichnet werden. In 1 stellt LSP/den gesendeten Quantisierer-Codebuchindex dar, der die LSP-Parameter in jedem Frame repräsentiert. Ein Kurzzeit-Prädiktionsparameterdecoder 110 decodiert LSPI in einen LSP-Parametersatz und wandelt dann die LSP-Parameter in die Koeffizienten für den Kurzzeit-Prädiktor um. Diese Kurzzeit-Prädiktorkoeffizienten werden dann dazu verwendet, die Koeffizientenaktualisierung eines Kurzzeit-Prädiktors 120 zu steuern.
Die Pitch-Periode wird als die Zeitspanne definiert, in der sich eine stimmhafte Sprachwellenform zu einem gegebenen Zeitpunkt periodisch zu wiederholen scheint. Sie wird für gewöhnlich bezogen auf eine Anzahl von Mustern gemessen, einmal pro Sub-Frame gesendet und bei Langzeit-Prädiktoren als Hauptverzögerung verwendet. Pitch-Abgriffe sind die Koeffizienten des Langzeit-Prädiktors. Der Bit-Demultiplexer 105 sondert außerdem den Pitch-Periodenindex(PPI und den Pitch-Prädiktorabgriffindex (PPTI/Pitch Predictor Tap Index) aus dem empfangenen Bitstrom aus. Ein Langzeit-Prädiktionsparameterdecoder 130 decodiert PPI in die Pitch-Periode und PPTI in die Pitch-Prädiktorabgriffe. Die decodierte Pitch-Periode und die Pitch-Prädiktorabgriffe werden dann dazu verwendet, die Parameteraktualisierung eines verallgemeinerten Langzeit-Prädiktors 140 zu steuern.
In seiner einfachsten Form ist der Langzeit-Prädiktor 140 einfach ein Filter mit endlicher Impulsantwort (FIR-Filter/Finite Impulse Response filter), typischerweise erster oder dritter Ordnung, mit einer Hauptverzögerung, die der Pitch-Periode entspricht. Bei manchen Variationen von CELP- und MPLPC-Codecs jedoch, wurde der Langzeit-Prädiktor 140 zu einem adaptiven Codebuch verallgemeinert, wobei der einzige Unterschied darin besteht, dass, wenn die Pitch-Periode kleiner als der Sub-Frame ist, einige periodische Wiederholungsoperationen durchgeführt werden. Der verallgemeinerte Langzeit-Prädiktor 140 kann entweder ein einfaches FIR-Filter oder ein adaptives Codebuch darstellen und somit die meisten derzeit verwendeten Prädiktions-Sprach-Codecs abdecken.
Der Bit-Demultiplexer 105 sondert außerdem einen Verstärkungsindex GI (Gain Index) und einen Erregungsindex CI (Excitation Index) aus dem Eingangsbitstrom aus. Ein Erregungsdecoder 150 decodiert den CI in ein unskaliertes Erregungssignal und decodiert außerdem den GI in das Erregungssignal. Dann verwendet er die Erregungsverstärkung zum Skalieren des unskalierten Erregungssignals, um ein skaliertes Erregungsverstärkungssignal uq(n) abzuleiten, das als quantisierte Version des Langzeit-Prädiktionsrestsignals betrachtet werden kann. Ein Addierer 160 kombiniert den Ausgang des verallgemeinerten Langzeit-Prädiktors 140 mit dem skalierten Erregungsverstärkungssignal uq(n), um eine quantisierte Version eines Kurzzeit-Prädiktionsrestsignals dq(n) zu erhalten. Ein Addierer 170 kombiniert den Ausgang des Kurzzeit-Prädiktors 120 mit dq(n), um ein decodiertes Ausgangsprachsignal sq(n) zu erhalten.
Eine Rückkopplungsschleife wird durch den verallgemeinerten Langzeit-Prädiktor 140 und den Addierer 160 gebildet und kann als einzelnes Filter betrachtet werden, das als Langzeitsynthesefilter 180 bezeichnet wird. Ebenso wird durch den Kurzzeit-Prädiktor 120 und den Addierer 170 eine weitere Rückkopplungsschleife gebildet. Diese weitere Rückkopplungsschleife kann als einzelnes Filter betrachtet werden, das als Kurzzeitsynthesefilter 190 bezeichnet wird. Das Langzeitsynthesefilter 180 und das Kurzzeitsynthesefilter 190 bilden in Kombination das Synthesefiltermodul 195.
Kurz gesagt, der in 1 gezeigte herkömmliche Prädiktionsdecoder 100 decodiert die Parameter des Kurzzeit-Prädiktors 120 und des Langzeit-Prädiktors 140, die Erregungsverstärkung und das unskalierte Erregungssignal. Dann skaliert er das unskalierte Erregungssignal mit der Erregungsverstärkung und leitet das resultierende skalierte Erregungssignal uq(n) durch das Langzeitsynthesefilter 180 und das Kurzzeitsynthesefilter 190 hindurch, um das decodierte Ausgangssprachsignal sq(n) abzuleiten.
Wenn ein Eingangsbit-Frame infolge eines Schwunds (Fading) bei einer drahtlosen Übertragung oder infolge eines Paketverlustes in Paketnetzwerken gelöscht wird, verliert der Decoder 100 gemäß 1 leider die Indizes LSPI, PPI, PPTI, GI, und CI, die zum Decodieren der Sprachwellenform in dem aktuellen Frame benötigt werden.
Gemäß den Grundlagen der vorliegenden Erfindung wird die decodierte Sprachwellenform unmittelbar vor dem aktuellen Frame gespeichert und analysiert. Eine Wellenformübereinstimmungssuche, die dem Goodman-Ansatz ähnelt, wird durchgeführt und die Zeitverzögerung und der Skalierfaktor zum Wiederholen der zuvor decodierten Sprachwellenform im aktuellen Frame werden bestimmt.
Als Nächstes werden, zur Vermeidung gelegentlicher Brummgeräusche infolge der Wiederholung einer Wellenform mit einer kleinen Zeitverzögerung, wenn das Sprachsignal nicht hochperiodisch ist, die Zeitverzögerung und der Skalierfaktor manchmal wie folgt modifiziert. Wenn die Analyse ergibt, dass die gespeicherte frühere Wellenform wahrscheinlich kein Segment eines hochperiodischen stimmhaften Sprachsignals ist, und wenn die Zeitverzögerung für die Wellenformwiederholung kleiner als ein vordefinierter Schwellenwert ist, wird eine weitere Suche nach einer geeigneten Zeitverzögerung durchgeführt, die größer als der vordefinierte Schwellenwert ist. Der Skalierfaktor wird ebenfalls entsprechend aktualisiert.
Sobald die Zeitverzögerung und der Skalierfaktor bestimmt worden sind, kopiert die vorliegende Erfindung die Sprachwellenform eine Zeitverzögerung früher, um den aktuellen Frame zu füllen und somit eine extrapolierte Wellenform zu erzeugen. Die extrapolierte Wellenform wird dann mit dem Skalierfaktor extrapoliert. Die vorliegende Erfindung berechnet außerdem eine Anzahl an Ringing- oder Nulleingangsantwort-Mustern, die vom Anfang des aktuellen Frames an vom Synthesefiltermodul 195 ausgegeben werden. Aufgrund des Glättungseffekts des Kurzzeitsynthesefilters 190 scheint ein solches Ringing-Signal gleichmäßig aus der decodierten Sprachwellenform am Ende des letzten Frames zu fließen. Die vorliegende Erfindung führt dann an diesem Ringing-Signal und der extrapolierten Sprachwellenform mittels eines geeigneten Overlap-Add-Fensters eine Overlap-Add-Operation durch, um diese zwei Wellenformstücke gleichmäßig miteinander zu verbinden. Diese Technik glättet die Wellenformdiskontinuität am Anfang des aktuellen Frames. Gleichzeitig vermeidet sie die zusätzlichen Verzögerungen, die durch den G.711 Anhang I oder den Goodman-Ansatz erzeugt werden.
Wenn die Frame-Löschung über eine erweiterte Zeitspanne angedauert hat, wird das extrapolierte Sprachsignal gegen null abgeschwächt. Ansonsten erzeugt es ein Ton- oder Brummgeräusch. Bei der vorliegenden Erfindung wird die Wellenformhüllkurve linear gegen null abgeschwächt, wenn die Länge der Frame-Löschung einen gewissen Schwellenwert übersteigt. Die vorliegende Erfindung verwendet dann ein speichereffizientes Verfahren zum Ausführen dieser linearen Abschwächung gegen null.
Nachdem diese Wellenformextrapolation im gelöschten Frame durchgeführt worden ist, aktualisiert die vorliegende Erfindung ordnungsgemäß alle inneren Speicherzustände der Filter im Sprachdecoder. Wenn die Aktualisierung nicht durchgeführt wird, wären am Anfang des nächsten guten Frames eine große Diskontinuität und ein akustischer Störimpuls vorhanden. Beim Aktualisieren des Filterspeichers nach einer Frame-Löschung arbeitet die vorliegende Erfindung von der Ausgangssprachwellenform rückwärts. Die Erfindung stellt die Filterspeicherinhalte auf den Zustand ein, den sie am Ende des aktuellen Frames gehabt hätten, wenn die Filteroperationen des Sprachdecoders normal durchgeführt worden wären. Das heißt, die Filteroperationen werden mit einer speziellen Erregung durchgeführt, so dass die resultierende synthetisierte Ausgangssprachwellenform genau der vorstehend berechneten extrapolierten Wellenform entspricht.
Wenn beispielsweise der Kurzzeit-Prädiktor 120 eine Größenordnung M hat, dann besteht der Speicher des Kurzzeitsynthesefilters 190, nach der FEC-Operation für den aktuellen Frame, einfach aus den letzten M Mustern des extrapolierten Sprachsignals für den aktuellen Frame mit umgekehrter Reihenfolge. Dies ist der Fall, da das Kurzzeitsynthesefilter 190 im herkömmlichen Decoder 100 ein autoregressives Filter (All-Pole-Filter) ist. Der Filterspeicher besteht einfach aus den früheren Filterausgangssignalmustern in umgekehrter Reihenfolge.
Es wird ein Beispiel für die Aktualisierung des Speichers des FIR-Langzeit-Prädiktors 140 wird angegeben. Bei diesem Beispiel führt die vorliegende Erfindung eine Kurzzeit-Prädiktionsfehlerfilterung des extrapolierten Sprachsignals des aktuellen Frames durch, wobei der Anfangsspeicher des Kurzzeit-Prädiktors 120 auf die letzten M Muster (in umgehrter Reihenfolge) des Ausgangssprachsignals im letzten Frame eingestellt wird.
Ebenso werden, wenn Quantisierer für Nebeninformationen (wie etwa LSP und Erregungsverstärkung) eine Inter-Frame-Prädiktionscodierung verwenden, die Speicher dieser Prädiktoren ebenfalls basierend auf demselben Prinzip aktualisiert, um die Diskontinuität der decodierten Sprachparameter beim nächsten guten Frame zu minimieren.
Die vorstehend ausgeführten allgemeinen Grundlagen der vorliegenden Erfindung sind beinahe auf jeden Prädiktions-Sprachdecoder anwendbar. Nachfolgend wird eine spezifische Umsetzung dieser allgemeinen Grundlagen anhand einer bevorzugten Ausführungsform der vorliegenden Erfindung, angewandt auf den Decoder eines Zwei-Stufen-Rauschrückkopplungs-Codecs, genauer beschrieben.
2 ist eine Blockdiagrammdarstellung einer beispielhaften Ausführungsform der vorliegenden Erfindung. In 2 ist ein herkömmlicher Prädiktions-Sprachdecoder dargestellt. Der Decoder kann beispielsweise der in 1 gezeigte Decoder 100 sein, der einen Filterspeicher 201 und ein Eingangs-Frame-Löschungs-Flag 200 umfasst. Wenn das Eingangs-Frame-Löschungs-Flag 200 anzeigt, dass der empfangene aktuelle Frame ein guter Frame ist, führt der Decoder 100 normale Decodieroperationen durch, wie vorstehend beschrieben. Während der normalen Decodieroperationen befindet sich ein Schalter 202 in einer oberen Stellung 203, die einen empfangenen guten Frame anzeigt, und die decodierte Sprachwellenform sq(n) wird als Ausgang des Decoders 100 verwendet. Des Weiteren wird der aktuelle Frame des decodierten Sprachsignals sq(n) auch an ein Sprachspeichermodul 204 weitergeleitet, das die zuvor decodierten Sprachwellenformmuster in einem Puffer speichert. Der aktuelle Frame des decodierten Sprachsignals sq(n) wird zum Aktualisieren dieses Puffers verwendet. Die restlichen Module in 2 sind inaktiv, wenn ein guter Frame empfangen wird.
Wenn andererseits das Eingangs-Frame-Löschungs-Flag 200 anzeigt, dass ein schlechter Frame empfangen wurde oder dass der aktuelle Frame nicht empfangen wird (z.B. gelöscht wurde oder verloren gegangen ist), wird der Betrieb des Decoders 100 gestoppt und der Schalter 202 in eine untere Stellung 205 gebracht. Die restlichen Module von 2 führen dann FEC-Operationen durch, um eine Ausgangssprachwellenform sq'(n) für den aktuellen Frame zu erzeugen, und aktualisieren außerdem den Filterspeicher 201 des Decoders 100, um den Decoder 100 für die normalen Decodieroperationen des nächsten empfangenen guten Frames vorzubereiten. Wenn der Schalter 202 in die untere Stellung 205 gebracht wurde, arbeiten die restlichen in 2 gezeigten Module auf die folgende Art und Weise.
Eine Ringing-Recheneinrichtung 206 berechnet L Ringing- oder Nulleingangsantwortmuster des Synthesefiltermoduls 195 gemäß 1. Ein einfacherer Ansatz besteht darin, nur das Kurzzeitsynthesefilter 190 zu verwenden, der bevorzugte Ansatz, zumindest bei stimmhafter Sprache, besteht jedoch darin, das Ringing des stufenförmigen Langzeitsynthesefilters 180 und des Kurzzeitsynthesefilters 190 zu verwenden. Diese Berechnung wird auf die folgende Weise durchgeführt. Beginnend mit dem Speicher 201 des Synthesefiltermoduls 195, der nach der Verarbeitung des letzten Frames in der Verzögerungsleitung verbleibt, werden Filteroperationen für L Muster durchgeführt, wobei ein Nulleingangssignal an das Filter 195 verwendet wird. Die resultierenden L Muster des Filterausgangssignals bilden das gewünschte Ringing-Signal. Diese L Muster des Ringing-Signals {r(n), n = 1, 2, ..., L} werden zur späteren Verwendung gespeichert.
Ein Vorläufige-Zeitverzögerungsmodul 208 analysiert die zuvor decodierten Sprachwellenformmuster, die im Sprachspeichermodul 204 gespeichert sind, um eine vorläufige Zeitverzögerung zur Wellenformextrapolation im aktuellen Frame zu bestimmen. Dies kann auf vielerlei Arten durchgeführt werden, z.B. unter Verwendung der von Goodman ausgeführten Ansätze. Die vorliegende Erfindung sucht nach einer Pitch-Periode pp im allgemeinen Sinne, wie bei einem auf Pitch-Prädiktion basierenden Sprach-Codec. Wenn der herkömmliche Decoder 100 über eine decodierte Pitch-Periode des letzten Frames verfügt und wenn diese als zuverlässig erachtet wird, kann das Zeitverzögerungsmodul 208 in der Nachbarschaft dieser Pitch-Periode pp suchen, um eine geeignete Zeitverzögerung zu ermitteln. Wenn der Decoder 100 keine decodierte Pitch-Periode bereitstellt oder wenn diese Pitch-Periode als unzuverlässig erachtet wird, kann das Vorläufige-Zeitverzögerungsmodul 208 eine Pitch-Schätzung in vollem Umfang durchführen, um die gewünschte Zeitverzögerung zu erhalten. In 2 wird davon ausgegangen, dass eine decodierte pp tatsächlich zur Verfügung steht und zuverlässig ist. In diesem Fall arbeitet das Vorläufige-Zeitverzögerungsmodul 208 wie folgt.
Zunächst bestimmt das Vorläufige-Zeitverzögerungsmodul 208 die Pitch-Periode des letzten Frames (pplast). Es legt pplast = pp = die decodierte Pitch-Periode des letzten Frame fest, wenn der letzte Frame ein guter Frame ist. Es legt pplast = die vorläufige Pitch-Periode (ppfep) des letzten Frames (Ausgang des Zeitverzögerungsmoduls 208) fest, wenn der letzte Frame ein schlechter Frame ist. Wenn beispielsweise pplast kleiner als 10 ms (80 Muster und 160 Muster bei Abtastraten von 8kHz bzw. 16kHz) ist, verwendet sie das Zeitverzögerungsmodul 208 als Analysefenstergröße K. Wenn pplast größer als 10 ms ist, verwendet das Zeitverzögerungsmodul 208 10 ms als Analysefenstergröße K.
Das Vorläufige-Zeitverzögerungsmodul 208 bestimmt dann den Pitch-Suchbereich. Um dies durchzuführen, subtrahiert es 0,5 ms (4 Muster und 8 Muster bei einer 8kHz- bzw. 16kHz-Abtastung) von pplast, vergleicht das Ergebnis mit der minimal zulässigen Pitch-Periode im Codec und wählt den größeren der zwei Werte als Untergrenze lb des Suchbereichs aus. Es addiert dann 0,5 ms zu pplast, vergleicht das Ergebnis mit der maximal zulässigen Pitch-Periode im Codec und wählt den kleineren der zwei Werte als die Obergrenze ub des Suchbereichs aus.
Ein sq(n)-Puffer im Sprachspeichermodul 204 speichert N + N_f Sprachmuster, wobei die Muster sq(n), n = 1, 2, ..., N dem Decoder-Ausgangssprachsignal früherer Frames entsprechen, wobei sq(N) das letzte Muster decodierter Sprache im letzten Frame ist. N_f ist die Anzahl der Muster in einem Frame. Der Speicherplatz sq(n), n = N + 1, N + 2, ..., N + N_f ist am Anfang eines schlechten Frame nicht belegt, wird jedoch mit extrapolierten Sprachwellenformmustern gefüllt, sobald die Operationen der Module 208 bis 220 abgeschlossen sind.
Für die Zeitverzögerungen j = lb, lb + 1, lb + 2, ... ub – 1, ub, berechnet das Vorläufige-Zeitverzögerungsmodul 208 den Korrelationswert
bei j ϵ [lb, ub]. Unter den Zeitverzögerungen, die eine positive Korrelation c(j) ergeben, ermittelt das Zeitverzögerungsmodul 208 die Zeitverzögerung j, die
maximiert. Die obige Divisionsoperation kann durch ein Kreuzmultiplikationsverfahren vermieden werden. Die Zeitverzögerung j, die nc(j) maximiert, ist auch die Zeitverzögerung innerhalb des Suchbereichs, die die Pitch-Prädiktionsverstärkung bei einem Ein-Abgriff-Pitch-Prädiktor maximiert. Die optimale Zeitverzögerung ppfep bezeichnet die vorläufige Version der Pitch-Periode der Frame-Löschung. In dem äußerst seltenen Fall, in dem keine c(j) im Suchbereich positiv ist, wird ppfep in diesem entarteten Fall gleich lb festgelegt.
Wenn diese Zeitverzögerung unmittelbar als die Zeitverzögerung für die periodische Wiederholung bei der Wellenformextrapolation des aktuellen Frames verwendet wird, können Brummgeräusche auftreten, wenn bei einem Sprachsegment, das keinen hohen Periodizitätsgrad aufweist, eine kleine Zeitverzögerung verwendet wird. Zur Bekämpfung dieses Problems verwendet die vorliegende Erfindung ein Periodische-Extrapolations-Flag-Modul 210, um zwischen hochperiodischen stimmhaften Sprachsegmenten und anderen Arten von Sprachsegmenten zu unterscheiden. Wenn das Extrapolations-Flag-Modul 210 bestimmt, dass das decodierte Sprachsignal beispielsweise in einem hochperiodischen stimmhaften Sprachbereich liegt, stellt es das periodische Wellenformextrapolations-Flag(pwef) auf 1 ein, ansonsten wird pwef auf 0 eingestellt. Wenn pfewf 0 beträgt, bestimmt ein Endgültige-Zeitverzögerungs- und Skalierfaktormodul 212 eine weitere größere Zeitverzögerung, um das Brummgeräusch zu verringern oder zu beseitigen.
Unter Verwendung von ppfep als Eingang führt das Extrapolations-Flag-Modul 210 eine weitere Analyse des zuvor decodierten Sprachsignals sq(n) durch, um die richtige Einstellung des periodischen Wellenformextrapolations-Flags pwef zu bestimmen. Wiederum kann dies auf vielerlei Arten durchgeführt werden. Nachfolgend beschrieben ist nur ein Beispiel. Das Extrapolations-Flag-Modul 210 stellt zunächst pwef auf seinen voreingestellten Wert von 1 ein und berechnet dann die Sprachenergie E im Analysefenster:
Wenn Ε kleiner als ein bestimmter Schwellenwert E₀ ist, dann wird pwef auf 0 eingestellt. Ein geeigneter Wert von E₀ kann 2¹¹K sein, wenn die Eingangssignalmuster als signierte ganze 16Bit-Zahlen dargestellt werden. Wenn E > E₀, dann berechnet das Modul 210 ferner den ersten normierten Autokorrelationskoeffizienten
Wenn ρ₁ kleiner als ein Schwellenwert von beispielsweise T₁ = 0,4 ist, wird pwef auf 0 eingestellt, ansonsten überprüft das Modul 210, ob die folgende Ungleichung wahr ist:
Beispielhafte Werte der Parameter sind T₁ = 0,4, T₂ = 0,99, F₁ = 2,0 und F₂ = 1,1. Wenn diese Ungleichung wahr ist, dann wird pwef auf 0 eingestellt. Wenn pwef alle drei obigen Prüfungen übersteht, bleibt sein Wert auf dem voreingestellten Wert von 1.
Die obige Ungleichung kann wie folgt verstanden werden. Nehmen wir an, dass E – nc(ppfep) ⇒ 0, was im Allgemeinen zutrifft, es sei denn, die Signalenergie E selbst beträgt null. Ein Dividieren beider Seiten der Ungleichung durch E – nc(ppfep)
Das Verhältnis auf der linken Seite ist die "Ein-Abgriff-Pitch-Prädiktionsverstärkung" in der linearen Domäne (anstelle der Log-Domäne) für das decodierte Sprachsignal im Analysefenster n ϵ [(N – K + 1), N], wenn die Pitch-Periode ppfep ist. Der Ausdruck auf der rechten Seite ist eine lineare Funktion von ρ₁, oder y = f(x) = f(ρ₁), die eine gerade Linie darstellt, die in der X-Y-Ebene durch die zwei Punkte (T₁, F₁) und (T₂, F₂) verläuft. Bei den vorstehend angegebenen beispielhaften Parameterwerten, wenn ρ₁ = 0,4, beträgt der Schwellenwert für die Pitch-Prädiktionsverstärkung 2,0 in der linearen Domäne. Wenn die Pitch-Prädiktionsverstärkung niedriger als dieser Schwellenwert von 2,0 ist, wird das decodierte Sprachsignal im Analysefenster nicht als hochperiodisches stimmhaftes Sprachsignal betrachtet und pwef auf 0 eingestellt. Dieser Schwellenwert wird auf 1,1 reduziert, wenn ρ₁ = 0,99. Wenn ρ1 zwischen 0,4 und 0,99 liegt, wird der Schwellenwert durch die gerade Linie bestimmt, die (0,4, 2,0) und (0,99, 1,1) miteinander verbindet. Das Konzept besteht darin, dass, wenn der erste normierte Autokorrelationskoeffizient ρ₁ kleiner ist, der Pitch-Prädiktionsverstärkungschwellenwert größer sein muss und umgekehrt. Dieser Schwellenwert ist gemäß dem Wert von ρ₁ adaptiv.
Basierend auf der vorläufigen Zeitverzögerung ppfep und dem periodischen Wellenformextrapolations-Flag pwef, bestimmt das Endgültige-Zeitverzögerungs- und Skalierfaktormodul 212 die endgültige Zeitverzögerung und den Skalierfaktor für die Wellenformextrapolation im aktuellen Frame.
Wenn pwef = 1, oder wenn ppfep nicht kleiner als ein Schwellenwert T₀ ist, dann wird ppfep als die endgültige Zeitverzögerung verwendet, d.h. ppfe = ppfep, und der Skalierfaktor ptfe (für den Pitch-Abgriff der Frame-Löschung) wird wie folgt berechnet
Der Nenner in der obigen Gleichung beträgt typischerweise nicht null. In dem entarteten Fall, in dem er null beträgt, wird pfte ebenfalls auf null eingestellt. Wenn ptfe > 1,1, wird ptfe auf 1,1 eingestellt, um ein zu schnelles lineares Ansteigen der extrapolierten Wellenform zu vermeiden. Ein geeigneter Wert von T₀ ist die Anzahl an Mustern, die einem 10ms-Zeitintervall entspricht.
Der vorstehend berechnete Skalierfaktor ptfe ist normalerweise positiv. In dem seltenen Fall jedoch, in dem c(ppfe), der Korrelationswert während der Zeitverzögerung ppfe, negativ ist, wie vorstehend in Bezug auf das Vorläufige-Zeitverzögerungsmodul 208 besprochen, sollte der vorstehend berechnete Skalierfaktor ptfe negiert werden. Wenn der negierte Wert kleiner als –1 ist, wird er auf –1 begrenzt.
Wenn pwef = 0 und ppfep < T₀, besteht eine höhere Wahrscheinlichkeit, dass die periodische Wellenformextrapolation ein Brummgeräusch erzeugt. Zur Vermeidung des potentiellen Brummgeräusches, sucht die vorliegende Erfindung nach einer weiteren geeigneten Zeitverzögerung ppfe ≥ T₀. Durch die Bedingung, dass die Zeitverzögerung ppfe groß genug sein muss, wird die Wahrscheinlichkeit von Brummgeräuschen stark reduziert. Zur Minimierung der potentiellen Qualitätsverschlechterung, die durch eine falsche Klassifizierung eines periodischen stimmhaften Sprachsegments in etwas, das es nicht ist, verursacht wird, sucht die vorliegende Erfindung in der Nachbarschaft des ersten ganzzahligen Vielfachen von ppfep, das nicht kleiner als T₀ ist. Auf diese Weise besteht sogar dann, wenn pwef 1 betragen haben sollte und fälschlich als 0 klassifiziert wurde, eine gute Chance, dass ein ganzzahliges Vielfaches der wahren Pitch-Periode als endgültige Zeitverzögerung für die periodische Wellenformextrapolation gewählt wird.
Das Modul 212 bestimmt die endgültige Zeitverzögerung ppfe und den Skalierfaktor ptfe auf die folgende Weise, wenn pwef = 0 und ppfep < T₀. Zunächst ermittelt es die kleinste ganze Zahl m, die den folgenden Ausdruck erfüllt m × ppfep ≥ T₀.
Dann stellt es m₁, die Untergrenze des Zeitverzögerungssuchbereichs, auf m × ppfep – 3 oder T₀ ein, je nachdem was größer ist. Die Obergrenze des Suchbereichs wird auf m₂ = m₁ + N_s – 1 ein, wobei N_s die Anzahl möglicher Zeitverzögerungen im Suchbereich ist. Als Nächstes berechnet das Modul 212 für jede Zeitverzögerung j im Suchbereich von [m₁, m₂]
und wählt dann die Zeitverzögerung j ϵ [m₁, m₂] aus, die D(j) minimiert. Im Grunde wird nach einem Stück einer zuvor decodierten Sprachwellenform gesucht, das den ersten d Mustern des Ringing des Synthesefilters am ehesten entspricht. Normalerweise d < L, wobei ein möglicher Wert für d 2 beträgt. Die Zeitverzögerung j, die die obige D(j) minimiert, wird als die endgültige Zeitverzögerung ppfe gewählt. Der entsprechende Skalierfaktor wird wie folgt berechnet.
Wiederum wird, in dem entarteten Fall, in dem der Nenner der obigen Gleichung null beträgt, ptfe ebenfalls auf null eingestellt. Darüber hinaus wird er, wenn der auf diese Weise berechnete ptfe größer als 1,3 ist, auf 1,3 begrenzt.
Nachdem sowohl ppfe als auch ptfe bestimmt worden sind, extrapoliert ein L-Muster-Sprachextrapolationsmodul 214 die ersten L Sprachmuster im aktuellen Frame. Ein möglicher Wert von L beträgt 5 Muster. Die Extrapolation der ersten L Muster des aktuellen Frames kann dann wie folgt ausgedrückt werden sq(n) = ptfe × sq(n – ppfe), bei n = N + 1, N + 2, ..., N + L.
Bei den ersten L Mustern des aktuellen Frames verbindet ein Overlap-Addierer 216 das vorstehend extrapolierte sq(n)-Signal gleichmäßig mit r(n), dem in der Ringing-Recheneinrichtung 206 berechneten Ringing des Synthesefilters, unter Verwendung des nachfolgenden Overlap-Add-Verfahrens. sq(N + n) ← wu(n)sq(N + n) + wd(n)r(n), bei n = 1, 2, ..., L.
In der obigen Gleichung bedeutet das Zeichen "←", dass die Größe auf ihrer rechten Seite die variablen Werte auf ihrer linken Seite überschreibt. Die Fensterfunktion w_u(n) repräsentiert das linear ansteigende Overlap-Add-Fenster, während w_d(n) das linear abfallende Overlap-Add-Fenster repräsentiert. Diese Overlap-Add-Fenster erfüllen die Bedingung: wu(n) + wd(n) = 1.
Es können mehrere unterschiedliche Overlap-Add-Fenster verwendet werden. Das im Goodman-Dokument erwähnte angehobene Kosinusfenster kann hierbei verwendet werden. Alternativ kann auch ein einfacheres dreieckiges Fenster verwendet werden.
Nachdem die ersten L Muster des aktuellen Frames extrapoliert und in einer Overlap-Add-Operation zusammengesetzt worden sind, extrapoliert ein Restmustersprachextrapolierer 218 die restlichen Muster des aktuellen Frames. Wenn ppfe ≥ N_f, wird die Extrapolation wie folgt durchgeführt sq(n) = ptfe × sq(n – ppfe), bei n = N + L + 1, N + L + 2, ..., N + Nf.
Wenn ppfe < N_f, wird die Extrapolation wie folgt durchgeführt sq(n) = ptfe × sq(n – ppfe), bei n = N + L + 1, N + L + 2, ..., N + ppfe,und dann sq(n) = sq(n – ppfe), bei n = N + ppfe + 1, N + ppfe + 2, ..., N + Nf.
Die Eliminierung des Skalierfaktors ptfe vom zweiten Zyklus an dient dazu, ein zu großes Wellenformgrößenwachstum infolge der Extrapolation von hohen (high-pitched) Sprachsignalen (niedrige Pitch-Periode) während einer erweiterten Frame-Löschung zu vermeiden.
Wenn die Frame-Löschung über eine erweiterte Zeitspanne andauert, sollte das FEC-Schema die periodische Extrapolation nicht unbegrenzt fortsetzen, da das extrapolierte Sprachsignal ansonsten dem Klang eines stetigen Tonsignals zu ähneln beginnt. Bei der bevorzugten Ausführungsform der vorliegenden Erfindung beginnt ein Wellenformabschwächungsglied 220 mit der Wellenformabschwächung in dem Moment, in dem die Frame-Löschung 20 ms gedauert hat. Von da an wird die Hüllkurve der extrapolierten Wellenform linear gegen null abgeschwächt und die Wellenformgröße erreicht bei 60 ms der Löschung aufeinander folgender Frames null. Nach 60 ms ist der Ausgang vollständig gedämpft. Eine erfindungsgemäß durchgeführte beispielhafte Abschwächungstechnik ist in 3(a) gezeigt.
Die bevorzugte Ausführungsform der vorliegenden Erfindung kann bei einem Rauschrückkopplungs-Codec verwendet werden, der beispielsweise eine Frame-Größe von 5 ms hat. In diesem Fall stellt das Zeitintervall zwischen jedem benachbarten Paar vertikaler Linien in 3(a) einen Frame dar.
Wenn eine Frame-Löschung z.B. über 12 aufeinander folgende Frames (5 × 12 = 60 ms) oder mehr andauert, besteht der einfachste Weg, diese Wellenformabschwächung durchzuführen darin, die Sprachsignale der ersten 12 gelöschten Frames zu extrapolierten, die resultierenden 60 ms der Wellenform zu speichern und dann das Abschwächungsfenster aus 3(a) anzuwenden. Dieser einfache Ansatz macht jedoch eine zusätzliche Verzögerung erforderlich, um bis zu 60 ms extrapolierter Sprachsignale zwischenzuspeichern.
Zur Vermeidung jedweder zusätzlicher Verzögerungen wendet der Wellenformabschwächer 220 aus 2 das Wellenformabschwächungsfenster Frame für Frame an, ohne jegliche zusätzliche Zwischenspeicherung. Von dem sechsten aufeinander folgenden gelöschten Frame an, ab 25 ms in 3(a), kann der Abschwächer 220 den entsprechenden Abschnitt des Fensters für diesen Frame in 3(a) nicht direkt anwenden. Eine Wellenformdiskontinuität tritt an der Frame-Grenze auf, da der entsprechende Abschnitt des Abschwächungsfensters mit einem Wert beginnt, der kleiner als Eins ist (7/8, 6/8, 5/8, etc.). Dies bewirkt eine plötzliche Abnahme des Wellenformmusterwerts am Anfang des Frames und somit eine akustische Wellenformdiskontinuität.
Zur Beseitigung dieses Problems normiert die vorliegende Erfindung jeden 5 ms-Abschnitt des Abschwächungsfensters gemäß 3(a) durch seinen Anfangswert am linken Rand. Beim sechsten Frame (25 ms bis 30 ms) beispielsweise liegt das Fenster zwischen 7/8 und 6/8, wobei ein Normieren dieses Abschnitts durch 7/8 ein Fenster zwischen 1 und (6/8)/(7/8) = 6/7 ergibt. Ebenso liegt das Fenster beim siebten Frame (30 ms bis 35 ms) zwischen 6/8 und 5/8, wobei ein Normieren dieses Abschnitts durch 6/8 ein Fenster zwischen 1 und (5/8)/(6/8) = 5/6 ergibt. Ein solches normiertes Abschwächungsfenster für jeden Frame ist in 3(b) gezeigt.
Wie in 3(b) gezeigt, kann die vorliegende Erfindung, anstatt jedes Muster in dem normierten Abschwächungsfenster zu speichern, einfach das Dekrement zwischen benachbarten Mustern des Fensters für jeden der acht Fensterabschnitte vom fünften bis zum zwölften Frame speichern. Dieses Dekrement ist die Menge der Gesamtabnahme der Fensterfunktion bei jedem Frame (1/8 beim fünften gelöschten Frame, 1/7 beim sechsten gelöschten Frame und so weiter), geteilt durch N_f, der Anzahl an Sprachmustern in einem Frame.
Bei dem vorstehenden Beispiel muss der Wellenformabschwächer 220, wenn die Frame-Löschung nur 20 ms oder weniger gedauert hat, keine Wellenformabschwächungsoperation durchführen. Wenn die Frame-Löschung länger als 20 ms gedauert hat, wendet der Abschwächer 220 den geeigneten Abschnitt des normierten Wellenformabschwächungsfensters gemäß 3(b) abhängig davon an, wie viele aufeinander folgende Frame bislang gelöscht worden sind. Wenn beispielsweise der aktuelle Frame der sechste aufeinander folgende gelöschte Frame ist, dann wendet der Abschwächer 220 den Abschnitt des Fensters zwischen 25 ms und 30 ms (mit der Fensterfunktion zwischen 1 und 6/7) an. Da das normierte Wellenformabschwächungsfenster bei jedem Frame immer mit Eins beginnt, bewirkt die Fensteroperation keine Wellenformdiskontinuität am Anfang des Frames.
Die normierte Fensterfunktion wird nicht gespeichert. Stattdessen wird sie "on the fly" (ohne zeitliche Verzögerung) berechnet. Beginnend mit einem Wert von 1 multipliziert der Abschwächer 220 das erste Wellenformmuster des aktuellen Frames mit 1 und reduziert dann den Fensterfunktionswert um den vorab berechneten und gespeicherten Dekrementwert, wie vorstehend beschrieben. Es multipliziert dann das zweite Wellenformmuster mit dem resultierenden dekrementierten Fensterfunktionswert. Der Fensterfunktionswert wird wiederum um den Dekrementwert reduziert und das Ergebnis dazu verwendet, das dritte Wellenformmuster des Frames zu skalieren. Dieses Verfahren wird bei allen Mustern der extrapolierten Wellenform im aktuellen Frame wiederholt.
Der Wellenformabschwächer 220 erzeugt den Ausgang sq'(n) für den aktuellen gelöschten Frame, wie in 2 gezeigt. Der Ausgang sq'(n) wird durch den Schalter 202 geleitet und wird zu dem endgültigen Ausgangssprachsignal für den aktuellen gelöschten Frame. Der aktuelle Frame von sq'(n) wird an das Sprachspeichermodul 204 weitergeleitet, um den aktuellen Frame-Abschnitt des sq(n)-Sprachpuffers zu aktualisieren, der darin gespeichert ist. Angenommen, dass sq'(n), n = 1, 2, ..., N_f der Ausgang des Wellenformabschwächers 220 für den aktuellen gelöschten Frame ist, dann wird der sq(n)-Puffer des Sprachspeichermoduls 204 wie folgt aktualisiert: sq(N + n) = sq'(n), n = 1, 2, ..., Nf.
Dieses Signal sq'(n) wird auch an ein Filterspeicheraktualisierungsmodul 222 weitergeleitet, um den Speicher 201, oder die inneren Zustände, der Filter, im herkömmlichen Decoder 100 zu aktualisieren. Die Filterspeicheraktualisierung wird durchgeführt, um sicherzustellen, dass der Filterspeicher mit der extrapolierten Sprachwellenform im aktuellen gelöschten Frame übereinstimmt. Dies ist für einen glatten Übergang der Sprachwellenform am Anfang des nächsten Frames erforderlich, wenn sich der nächste Frame als guter Frame erweist. Wenn der Filterspeicher 201 ohne eine solche ordnungsgemäße Aktualisierung belassen werden würde, wäre im Allgemeinen ein akustischer Störimpuls oder eine akustische Störung am Anfang des nächsten guten Frames vorhanden.
Beim Aktualisieren des Filterspeichers 201 nach einer Frame-Löschung arbeitet das Filterspeicheraktualisierungsmodul 222 rückwärts von dem aktualisierten Sprachpuffer sq(n) im herkömmlichen Decoder 100. Wenn der Kurzzeit-Prädiktor eine Größenordnung M hat, dann besteht der aktualisierte Speicher einfach aus den letzten M Mustern des extrapolierten Sprachsignals für den aktuellen gelöschten Frame, jedoch mit umgekehrter Reihenfolge. Angenommen, dass stsm(k) der k-te Speicherwert des Kurzzeitsynthesefilters 190 gemäß 1 oder der in der Verzögerungsleitung gespeicherte Wert ist, der dem Koeffizienten a_k des k-ten Kurzzeit-Prädiktors 120 entspricht. Dann wird der Speicher 201 des Kurzzeitsynthesefilters wie folgt aktualisiert stsm(k) = sq(N + Nf + 1 – k), k = 1, 2, ..., M.
Zum Aktualisieren des Speichers 201 des FIR-Langzeit-Prädiktors 140 führt das Filterspeicheraktualisierungsmodul 222 eine Kurzzeit-Prädiktionsfehlerfilterung des extrapolierten Sprachsignals des aktuellen Frames durch, wobei der Anfangsspeicher des Kurzzeit-Prädiktors 120 auf die letzten M Muster des Ausgangssprachsignals im letzten Frame mit umgekehrter Reihenfolge eingestellt wird. Spezifischer wird, angenommen stpm(k) ist der k-te Speicherwert für das Kurzzeit-Prädiktionsfehlerfilter, wird ein solcher Speicher wie folgt initialisiert stpm(k) = sq(N + 1 – k), k = 1, 2, ..., M.
Der Kurzzeit-Prädiktor 120 hat folgende Transferfunktion
Mit stpm(k), k = 1, 2, ..., M als Anfangsfilterspeicher von A(z) leitet das Filterspeicheraktualisierungsmodul 222 das extrapolierte Sprachsignal für den aktuellen gelöschten Frame, sq'(n), n = 1, 2, ..., N_f, durch dieses Filter A(z). Die entsprechenden N_f Muster am Ausgang dieses Filters A(z) werden dazu verwendet, den aktuellen Frame-Abschnitt des Speichers des FIR-Langzeit-Prädiktors 140 zu aktualisieren.
Wenn keiner der Nebeninformationssprachparameter (LPC, Pitch-Periode, Pitch-Abgriffe und Erregungsverstärkung) unter Verwendung einer prädiktive Codierung quantisiert wird, sind die Operationen des Filterspeicheraktualisierungsmoduls 222 abgeschlossen. Wenn andererseits für Nebeninformationen eine prädiktive Codierung verwendet wird, muss das Filterspeicheraktualisierungsmodul 222 außerdem den Speicher der beteiligten Prädiktoren aktualisieren, um die Diskontinuität der decodierten Sprachparameter beim nächsten guten Frame zu minimieren.
Bei einem beispielhaften Rauschrückkopplungs-Codec, bei dem die bevorzugte Ausführungsform der vorliegenden Erfindung verwendet werden kann, wird eine gleitende Durchschnitts-(MA-/Moving-Average) Prädiktionscodierung zum Quantisieren sowohl der LSP-(Line-Spectrum Pair) Parameter als auch der Erregungsverstärkung verwendet. Die prädiktiven Codierschemata für diese Parameter funktionieren wie folgt. Bei jedem Parameter wird der Langzeit-Mittelwert dieses Parameters offline berechnet und von dem nicht quantisierten Parameterwert subtrahiert. Der prädizierte Wert des mittelwertbereinigten Parameters wird dann von dem mittelwertbereinigten Parameterwert subtrahiert. Ein Quantisierer (nicht gezeigt) quantisiert den resultierenden Prädiktionsfehler. Der Ausgang des Quantisierers wird als Eingang des zugeordneten MA-Prädiktors (nicht gezeigt) verwendet. Sowohl der prädizierte Parameterwert als auch der Langzeitmittelwert werden wieder zum Quantisiererausgangswert addiert, um einen endgültigen quantisierten Parameterwert zu rekonstruieren.
Bei einer Ausführungsform der vorliegenden Erfindung erzeugen die Module 208 bis 220 das extrapolierte Sprachsignal für den aktuellen gelöschten Frame. Theoretisch ist es bei dem aktuellen Frame nicht nötig, die Nebeninformationssprachparameter zu extrapolieren, da die Ausgangssprachwellenform bereits erzeugt worden ist. Um sicherzustellen, dass die LSP- und Verstärkungsdecodieroperationen beim nächsten guten Frame reibungslos ablaufen, ist es jedoch hilfreich, anzunehmen, dass diese Parameter anhand des letzten Frames extrapoliert worden sind. Dies kann durch einfaches Kopieren der Parameterwerte des letzten Frames und anschließendes "Rückwärtsarbeiten" von diesen extrapolierten Parameterwerten durchgeführt werden, um den Prädiktor-Speicher der prädiktiven Quantisierer bezogen auf diese Parameter zu aktualisieren.
Unter Verwendung des vorstehend dargelegten Prinzips kann ein Prädiktor-Speicher in einem prädiktiven LSP-Quantisierer wie folgt aktualisiert werden. Beim k-ten LSP-Parameter kann sein prädizierter Wert als das innere Produkt der Prädiktor-Koeffizientenanordnung und der Prädiktor-Speicheranordnung bezogen auf den k-ten LSP-Parameter berechnet werden. Dieser prädizierte Wert und der Langzeitmittelwert des k-ten LSP werden dann beim letzten Frame vom k-ten LSP-Parameterwert subtrahiert. Der resultierende Wert wird dazu verwendet, die neueste Speicherstelle des Prädiktors des k-ten LSP-Parameters (nachdem die Originaleinstellung des Prädiktor-Speichers um eine Speicherstelle verschoben wurde, wie im Stand der Technik wohlbekannt ist) zu aktualisieren. Dieser Vorgang wird bei allen LSP-Parametern (von denen es M gibt) wiederholt.
Wenn die Frame-Löschung nur 20 ms oder weniger dauert, wird kein Wellenformabschwächungsfenster angewandt und es wird davon ausgegangen, dass die Erregungsverstärkung des aktuellen gelöschten Frames der Erregungsverstärkung des letzten Frames entspricht. In diesem Fall entspricht die Speicheraktualisierung des Verstärkungs-Prädiktors im Wesentlichen der Speicheraktualisierung der vorstehend beschriebenen LSP-Prädiktoren. Im Grunde wird der prädizierte Wert der Log-Verstärkung durch Berechnen des inneren Produkts der Prädiktor-Koeffizientenanordnung und der Prädiktor-Speicheranordnung bezogen auf die Log-Verstärkung berechnet. Diese prädizierte Log-Verstärkung und der Langzeitmittelwert der Log-Verstärkung werden dann von dem Log-Verstärkungswert des letzten Frames subtrahiert. Der resultierende Wert wird zum Aktualisieren der neuesten Speicherstelle des Log-Verstärkungs-Prädiktors (nachdem die Originaleinstellung des Prädiktor-Speichers um eine Speicherstelle verschoben wurde, was im Stand der Technik wohlbekannt ist) verwendet.
Wenn die Frame-Löschung länger als 60 ms dauert, wird das Ausgangssprachsignal auf null eingestellt und es wird angenommen, dass sich die Basis-2-Log-Verstärkung auf einem künstlich festgelegten voreingestellten Ruheniveau von –2,5 befindet. Die prädizierte Log-Verstärkung und der Langzeitmittelwert der Log-Verstärkung werden wiederum von diesem voreingestellten Niveau von –2,5 subtrahiert und der resultierende Wert dazu verwendet, die neueste Speicherstelle des Log-Verstärkungs-Prädiktors zu aktualisieren.
Wenn die Frame-Löschung länger als 20 ms dauert, aber 60 ms nicht übersteigt, dann stellt die Aktualisierung des Prädiktor-Speichers des prädiktiven Verstärkungsquantisierers eine Herausforderung dar, da die extrapolierte Sprachwellenform unter Verwendung des Wellenformabschwächungsfensters gemäß den 3(a) und 3(b) abgeschwächt wird. Der Log-Verstärkungs-Prädiktorspeicher wird basierend auf dem Log-Verstärkungswert des Wellenformabschwächungsfensters in jedem Frame aktualisiert.
Zur Minimierung der Codegröße bei jedem der Frames vom fünften bis zum zwölften Frame der Frame-Löschung kann ein Korrekturfaktor anhand der Log-Verstärkung des letzten Frames basierend auf dem Abschwächungsfenster gemäß den 3(a) und (b) vorausberechnet werden. Der Korrekturfaktor wird dann gespeichert. Der folgende Algorithmus berechnt diese 8 Korrekturfaktoren oder Log-Verstärkungsabschwächungsfaktoren.

1. Initialisiere lastlg = 0. (lastlg = letzte Log-Verstärkung = Log-Verstärkung des letzten Frames)
2. Initialisiere j = 1.
3. Berechne die normierte Abschwächungsfensteranordnung
4. Berechne
5. Berechne lgα(j) = lastlg – lg.
6. Wenn j < 8, dann stelle
ein.
7. Wenn j = 8, Stopp, ansonsten inkrementiere j um 1 (d.h. j←j + 1), dann gehe zurück zu Schritt 3.

Der obige Algorithmus berechnet den Basis-2-Log-Verstärkungswert des Wellenformabschwächungsfensters für einen gegebenen Frame. Er bestimmt dann die Differenz zwischen diesem Wert und einer ähnlich berechneten Log-Verstärkung für das Fenster des früheren Frames, die bezogen auf die Normierung des Beginns des Fensters auf Eins für jeden Frame kompensiert ist. Der Ausgang dieses Algorithmus ist die Anordnung der Log-Verstärkungsabschwächungsfaktoren lga(j) bei j = 1, 2, ..., 8. Es wird darauf hingewiesen, dass lga(j) dem (4 + j)-ten Frame der Frame-Löschung entspricht.
Sobald die lga(j)-Anordnung vorausberechnet und gespeichert worden ist, wird die Log-Verstärkungs-Prädiktor-Speicheraktualisierung bei einer Frame-Löschung, die 20 ms bis 60 ms dauert, einfach. Wenn der aktuelle gelöschte Frame der j-te Frame der Frame-Löschung (4 < j ≤ 12) ist, wird lga(j – 4) vom Log-Verstärkungswert des letzten Frames subtrahiert. Von dem Ergebnis dieser Subtraktion werden die prädizierte Log-Verstärkung und der Langzeitmittelwert der Log-Verstärkung subtrahiert und der resultierende Wert dazu verwendet, die neueste Speicherstelle des Log-Verstärkungs-Prädiktors zu aktualisieren.
Nachdem das Filterspeicheraktualisierungsmodul 222 alle aktualisierten Filterspeicherwerte berechnet hat, verwendet der herkömmliche Decoder 100 diese Werte zum Aktualisieren des Speichers 201. Es aktualisiert insbesondere den Speicher seines Kurzzeitsynthesefilters 190, seines Langzeitsynthesefilters 180 und aller Prädiktoren, sofern vorhanden, die in Nebeninformationsquantisierern verwendet werden, als Vorbereitung der Decodierung des nächsten Frames, wobei es davon ausgeht, dass der nächste Frame in intaktem Zustand empfangen wird.
Die 4(a) und 4(b) stellen ein beispielhaftes Verfahren zum Umsetzen der bevorzugten Ausführungsform der vorliegenden Erfindung bereit. Die vorliegende Erfindung beginnt damit, Muster des decodierten Ausgangssignals in einem Speicher zu speichern, wie in Block 400 angegeben. Die vom Decoder 100 ausgegebene decodierte Sprachwellenform wird analysiert und der vorläufige Zeitverzögerungswert in Block 402 bestimmt. Als nächstes wird der Signalausgang der Operation von Block 402 analysiert und klassifiziert, um zu bestimmen, ob eine periodische Wiederholung durchgeführt werden kann. Wenn bestimmt wird, dass das Signal ausreichend periodisch ist, wird das periodische Wiederholungs-Flag gesetzt und die endgültige Zeitverzögerung und der Skalierfaktor werden bestimmt, wie in den Blöcken 404 bzw. 406 angegeben.
Nach der Bestimmung der endgültigen Zeitverzögerung und des Skalierfaktors extrapoliert die vorliegende Erfindung L Sprachmuster und berechnet L Ringing-Muster des Synthesefiltermoduls 195 basierend auf der bestimmten endgültigen Zeitverzögerung und dem bestimmten Skalierfaktor, wie in den Blöcken 408 bzw. 410 gezeigt. Die L extrapolierten Muster und die L Ringing-Muster des Synthesefilters werden dann in einer Overlap-Add-Operation zusammengesetzt, wie in Block 412 angegeben. Die restlichen Muster werden dann extrapoliert, wie in Block 414 angegeben. Die Blöcke 408, 410, 412 und 414 arbeiten zusammen, um potentielle Diskontinuitäten zwischen Frames zu beseitigen. Wenn die Frame-Löschung fortgesetzt wird, wird in Block 416 ein Wellenformabschwächungsverfahren initiiert. Schließlich wird der Speicher der Filter aktualisiert, um sicherzustellen, dass sein Inhalt mit der extrapolierten Sprachwellenform im aktuellen gelöschten Frame übereinstimmt, wie in Block 418 gezeigt, und das Verfahren endet.
Die folgende Beschreibung eines Universal-Computersystems wird aus Gründen der Vollständigkeit angegeben. Wie vorstehend erwähnt, kann die vorliegende Erfindung in Hardware oder als Kombination aus Software und Hardware ausgeführt werden. Folglich kann die Erfindung in der Umgebung eines Computersystems oder eines anderen Verarbeitungssystems implementiert werden. Ein Beispiel eines solchen Computersystems 500 ist in 5 gezeigt. Bei der vorliegenden Erfindung können sämtliche der beispielsweise in den 1 und 2 dargestellten Elemente in einem oder mehreren unterschiedlichen Computersystemen 500 arbeiten, um die verschiedenen erfindungsgemäßen Verfahren auszuführen.
Das Computersystem 500 umfasst einen oder mehrere Prozessoren, wie etwa den Prozessor 504. Der Prozessor 504 kann ein digitaler Spezial- oder Universal-Signalprozessor sein und er ist mit einer Kommunikationsinfrastruktur 506 (z.B. ein Bus oder Netzwerk) verbunden. Verschiedene Software-Implementierungen sind in Bezug auf dieses beispielhafte Computersystem beschrieben. Nach einem Studium dieser Beschreibung ist es für Fachleute auf dem relevanten Gebiet ersichtlich, wie die Erfindung unter Verwendung anderer Computersysteme und/oder Computerarchitekturen umzusetzen ist.
Das Computersystem 500 umfasst außerdem einen Hauptspeicher 508, bevorzugt einen Direktzugriffsspeicher (RAM), und kann auch einen sekundären Speicher 510 umfassen. Der sekundäre Speicher 510 kann beispielsweise ein Festplattenlaufwerk 512 und/oder ein Wechselspeicherlaufwerk 514 umfassen, das ein Diskettenlaufwerk, ein Magnetbandlaufwerk, ein optisches Plattenlaufwerk, etc. repräsentiert. Das Wechselspeicherlaufwerk 514 liest eine Wechselspeichereinheit 518 und/oder schreibt in diese auf wohlbekannte Art und Weise. Die Wechselspeichereinheit 518 repräsentiert eine Diskette, ein Magnetband, eine optische Platte, etc., die/das durch das Wechselspeicherlaufwerk 514 gelesen oder beschrieben wird. Es versteht sich, dass die Wechselspeichereinheit 518 ein computernutzbares Speichermedium umfasst, in dem Computersoftware und/oder Daten gespeichert sind.
Bei alternativen Ausführungen kann der sekundäre Speicher 510 andere ähnliche Einrichtungen umfassen, damit Computerprogramme oder andere Befehle in das Computersystem 500 geladen werden können. Solche Einrichtungen können beispielsweise eine Wechselspeichereinheit 522 und eine Schnittstelle 520 umfassen. Beispiele für solche Einrichtungen können eine Programmkassette und Kassettenschnittstelle (wie man sie etwa bei Videospielgeräten findet), einen Wechselspeicherchip (wie etwa ein EPROM oder PROM) und eine zugehörige Buchse sowie andere Wechselspeichereinheiten 522 und Schnittstellen 520 umfassen, die es ermöglichen, Software und Daten von der Wechselspeichereinheit 522 an ein Computersystem 500 zu übertragen.
Das Computersystem 500 kann außerdem eine Kommunikationsschnittstelle 524 umfassen. Die Kommunikationsschnittstelle 524 ermöglicht es, Software und Daten zwischen dem Computersystem 500 und externen Einrichtungen zu übertragen. Beispiele für eine Kommunikationsschnittstelle 524 können ein Modem, eine Netzwerkschnittstelle (wie etwa eine Ethernet-Karte), einen Kommunikationsport, eine(n) PCMCIA-Schlitz und -Karte, etc. umfassen. Über die Kommunikationsschnittstelle 524 übertragene Software und Daten haben die Form von Signalen 528, die elektronische, elektromagnetische, optische oder andere Signale sein können, die von der Kommunikationsschnittstelle 524 empfangen werden können. Diese Signale 528 werden der Kommunikationsschnittstelle 524 über einen Kommunikationspfad 526 zugeführt. Der Kommunikationspfad 526 überträgt die Signale 528 und kann unter Verwendung eines Drahtes oder Kabels, einer Glasfaser, einer Telefonleitung, einer Mobiltelefonverbindung, einer HF-Verbindung und anderer Kommunikationskanäle ausgeführt werden.
Bei der vorliegenden Anmeldung werden die Begriffe "computerlesbares Medium" und "computernutzbares Medium" so verwendet, dass sie sich allgemein auf Medien beziehen, wie etwa das Wechselspeicherlaufwerk 514, eine in das Festplattenlaufwerk 512 installierte Festplatte und die Signale 528. Diese Computerprogrammprodukte sind Einrichtungen zum Zuführen von Software an das Computersystem 500.
Computerprogramme (auch Computersteuerlogik genannt) werden im Hauptspeicher 508 und/oder sekundären Speicher 510 gespeichert. Die Computerprogramme können auch über die Kommunikationsschnittstelle 524 empfangen werden. Solche Computerprogramme ermöglichen es dem Computersystem 500, wenn sie ausgeführt werden, die vorliegende Erfindung, wie hierin besprochen, auszuführen.
Im Besonderen ermöglichen es die Computerprogramme, wenn sie ausgeführt werden, dem Prozessor 504, die erfindungsgemäßen Verfahren auszuführen. Demgemäß stellen solche Computerprogramme Steuereinrichtungen des Computersystems 500 dar. Bei den Ausführungsformen der Erfindung können beispielsweise die von den Codierer- und/oder Decoder-Signalverarbeitungsblöcken durchgeführten Prozesse/Verfahren durch eine Computersteuerlogik ausgeführt werden. Wenn die Erfindung unter Verwendung von Software ausgeführt wird, kann die Software in einem Computerprogrammprodukt gespeichert und unter Verwendung des Wechselspeicherlaufwerks 514, des Festplattenlaufwerks 512 oder der Kommunikationsschnittstelle 524 in das Computersystem 500 geladen werden.
Bei einer weiteren Ausführungsform werden die Merkmale der Erfindung hauptsächlich in Hardware ausgeführt, und zwar beispielsweise unter Verwendung von Hardwarekomponenten, wie etwa anwendungsspezifischen integrierten Schaltungen (ASICs) und Gate-Arrays. Ausführungen einer Hardware-Zustandsmaschine zur Durchführung der hierin beschriebenen Funktionen sind für Fachleute auf dem oder den relevanten Gebieten ebenfalls ersichtlich.
Die vorstehende Beschreibung der bevorzugten Ausführungsformen dient der Veranschaulichung und Beschreibung, soll jedoch nicht erschöpfend sein oder die Erfindung auf die offenbarte genaue Form einschränken. Modifikationen und Variationen sind in Übereinstimmung mit der vorstehenden Lehre möglich oder gehen aus der Umsetzung der Erfindung in Praxis hervor. Der Schutzumfang der Erfindung wird ausschließlich durch die anhängigen Ansprüche eingeschränkt.

Claims

Verfahren zum Synthetisieren einer beschädigten Sprach-Frame-Wellenform, die von einem Prädiktions-Decoder (100) ausgegeben wird, der ein oder mehrere Prädiktions-Filter umfasst, wobei die beschädigte Sprach-Frame-Wellenform repräsentativ für ein Segment eines decodierten Sprachsignals ist, das von dem Prädiktions-Decoder (100) ausgegeben wird, wobei das Verfahren umfasst: – Extrapolieren einer Ersatz-Sprach-Frame-Wellenform basierend auf einem anderen Sprachwellenformsegment des decodierten Sprachsignals, – Ersetzen der beschädigten Sprach-Frame-Wellenform durch die Ersatz-Sprach-Frame-Wellenform, und – Aktualisieren interner Zustände der Filter basierend auf der Ersetzung, wobei – der Schritt des Extrapolierens einer Ersatz-Sprach-Frame-Wellenform umfasst: – Bestimmen einer endgültigen Zeitverzögerung (ppfe) durch: – Bestimmen von Zeitverzögerungen (j) innerhalb eines Wertebereichs [m₁, m₂], – Berechnen von
– Auswählen der Zeitverzögerung j ϵ [m₁, m₂], die D(j) minimiert, und – Bestimmen der ausgewählten Zeitverzögerung j als endgültige Zeitverzögerung (ppfe), wobei sq(N) dem letzten decodierten Sprachmuster in dem letzten unbeschädigten Frame entspricht, d eine vordefinierte Anzahl ist und r(n) Muster der Nulleingangsantwort des einen oder der mehreren Prädiktions-Filter sind.
Verfahren nach Anspruch 1, wobei jede Sprach-Frame-Wellenform eine vordefinierte Anzahl an Sprachmustern enthält.
Verfahren nach Anspruch 2, das ferner das Speichern von Sprachmustern des anderen Sprachwellenformsegments des decodierten Sprachsignals in einem Speicher umfasst.
Verfahren nach Anspruch 3, das ferner das Bestimmen einer vorläufigen Zeitverzögerung (ppfep) basierend auf einer Untersuchung einer Anzahl (K) gespeicherter Sprachmuster in Übereinstimmung mit einem Analysefenster umfasst.
Verfahren nach Anspruch 4, das ferner das Bestimmen eines Skalierfaktors (ptfe) umfasst.
Verfahren nach Anspruch 5, wobei die endgültige Zeitverzögerung (ppfe) basierend auf einer Untersuchung einer Anzahl gespeicherter Sprachmuster bestimmt wird, und – wobei die Ersatz-Sprach-Frame-Wellenform auf der bestimmten endgültigen Zeitverzögerung (ppfe) basiert.
Verfahren nach Anspruch 6, wobei die vorläufige Zeitverzögerung (ppfep) aus Kandidaten vorläufiger Zeitverzögerungen (j) ausgewählt wird, und wobei jedem der Kandidaten vorläufiger Zeitverzögerungen (j) jeweils zugeordnete Korrelationswerte (c(j)) in Übereinstimmung mit der folgenden Gleichung bestimmt werden:
wobei (K) die Größe des Analysefensters und sq(n) das decodierte Sprachsignal darstellt.
Verfahren nach Anspruch 7, wobei die gewählte vorläufige Zeitverzögerung (ppfep) eine Pitch-Prädiktionsverstärkung im Analysefenster maximiert.
Verfahren nach Anspruch 7, wobei die gewählte vorläufige Zeitverzögerung (ppfep) die folgende Gleichung maximiert:
Verfahren nach Anspruch 9, wobei basierend auf dem unabhängigen Anwenden des Analysefensters auf die Anzahl (K) gespeicherter Sprachmuster eine periodische Wiederholungsmarke gesetzt wird.
Verfahren nach Anspruch 10, wobei das unabhängige Anwenden einen Energiebetrag (E) im Analysefenster bestimmt.
Verfahren nach Anspruch 11, wobei der Energiebetrag (E) in Übereinstimmung mit der folgenden Gleichung bestimmt wird:
Verfahren nach Anspruch 12, wobei die periodische Wiederholungsmarke basierend auf einem Vergleich zwischen dem bestimmten Energiebetrag (E) und einem vordefinierten Schwellenwert gesetzt wird.
Verfahren nach Anspruch 13, wobei, wenn der Energiebetrag (E) die vordefinierte Schwellenwertanforderung erfüllt, – ein erster normierter Autokorrelationskoeffizient (ρ₁) in Übereinstimmung mit der folgenden Gleichung bestimmt wird:
Verfahren nach Anspruch 14, wobei die periodische Wiederholungsmarke gesetzt wird, wenn der erste normierte Autokorrelationskoeffizient (ρ₁) eine vordefinierte Schwellenwertanforderung erfüllt.
Verfahren nach Anspruch 15, wobei, wenn die periodische Wiederholungsmarke nicht gesetzt wird, die endgültige Zeitverzögerung (ppfe) basierend auf einer Zeitverzögerungssuche der gespeicherten Sprachmuster des decodierten Sprachsignals bestimmt wird.
Verfahren nach Anspruch 16, wobei die Suche nach der endgültigen Zeitverzögerung (ppfe) der gespeicherten Sprachmuster in Übereinstimmung mit der folgenden Gleichung durchgeführt wird: m × ppfep ≥ T0 wobei (m) einen ganzzahligen Wert und (T₀) einen Mindestintervallschwellenwert darstellt.
Verfahren nach Anspruch 1, wobei der Skalierfaktor (pfte) in Übereinstimmung mit der folgenden Gleichung bestimmt wird:
wobei (d) eine erste Anzahl an Sprachmustern des Rufens eines der Prädiktions-Filter und (r(n)) ein von dem Prädiktions-Decoder ausgegebenes Rufsignal darstellt.
Vorrichtung zum Synthetisieren einer beschädigten Sprach-Frame-Wellenform, die von einem Prädiktions-Decoder (100) ausgegeben wird, der ein oder mehrere Prädiktions-Filter umfasst, wobei die beschädigte Sprach-Frame-Wellenform repräsentativ für ein Segment eines decodierten Sprachsignals ist, das von dem Prädiktions-Decoder (100) ausgegeben wird, wobei die Vorrichtung umfasst: – eine Einrichtung zum Extrapolieren einer Ersatz-Sprach-Frame-Wellenform basierend auf einem anderen Sprachwellenformsegment des decodierten Sprachsignals, – eine Einrichtung zum Ersetzen der beschädigten Sprach-Frame-Wellenform durch die Ersatz-Sprach-Frame-Wellenform, und – eine Einrichtung zum Aktualisieren interner Zustände der Filter basierend auf der Ersetzung, wobei – die Einrichtung zum Extrapolieren einer Ersatz-Sprach-Frame-Wellenform umfasst: – eine Einrichtung zum Bestimmen einer endgültigen Zeitverzögerung (ppfe), wobei die Einrichtung umfasst: – eine Einrichtung zum Bestimmen von Zeitverzögerungen (j) innerhalb eines Wertebereichs [m₁, m₂] – eine Einrichtung zum Berechnen von
– eine Einrichtung zum Auswählen der Zeitverzögerung j ϵ [m₁, m₂], die D(j) minimiert, und – eine Einrichtung zum Bestimmen der ausgewählten Zeitverzögerung j als endgültige Zeitverzögerung (ppfe), wobei sq(N) dem letzten decodierten Sprachmuster in dem letzten unbeschädigten Frame entspricht, d eine vordefinierte Anzahl ist und r(n) Muster der Nulleingangsantwort des einen oder der mehreren Prädiktions-Filter sind.
Vorrichtung nach Anspruch 19, wobei jede Sprach-Frame-Wellenform eine vordefinierte Anzahl an Sprachmustern enthält.
Vorrichtung nach Anspruch 20, die ferner eine Einrichtung zum Speichern von Sprachmustern des anderen Sprachwellenformsegments des decodierten Sprachsignals in einem Speicher umfasst.
Vorrichtung nach Anspruch 21, die ferner eine Einrichtung zum Bestimmen einer vorläufigen Zeitverzögerung (ppfep) basierend auf einer Untersuchung einer Anzahl (K) gespeicherter Sprachmuster in Übereinstimmung mit einem Analysefenster umfasst.
Vorrichtung nach Anspruch 22, die ferner eine Einrichtung zum Bestimmen eines Skalierfaktors (ptfe) umfasst.
Vorrichtung nach Anspruch 23, wobei die endgültige Zeitverzögerung (ppfe) basierend auf einer Untersuchung einer Anzahl gespeicherter Sprachmuster bestimmt wird, und – wobei die Ersatz-Sprach-Frame-Wellenform auf der bestimmten endgültigen Zeitverzögerung (ppfe) basiert.
Vorrichtung nach Anspruch 24, wobei die vorläufige Zeitverzögerung (ppfep) aus Kandidaten vorläufiger Zeitverzögerungen (j) ausgewählt wird, und wobei jedem der Kandidaten vorläufiger Zeitverzögerungen (j) jeweils zugeordnete Korrelationswerte (c(j)) in Übereinstimmung mit der folgenden Gleichung bestimmt werden:
wobei (K) die Größe des Analysefensters und sq(n) das decodierte Sprachsignal darstellt.
Vorrichtung nach Anspruch 25, wobei die gewählte vorläufige Zeitverzögerung (ppfep) eine Pitch-Prädiktionsverstärkung im Analysefenster maximiert.
Vorrichtung nach Anspruch 25, wobei die gewählte vorläufige Zeitverzögerung (ppfep) die folgende Gleichung maximiert:
Vorrichtung nach Anspruch 27, die ferner eine Einrichtung zum Anwenden des Analysefensters umfasst, wobei basierend auf dem unabhängigen Anwenden des Analysefensters auf die Anzahl (K) gespeicherter Sprachmuster eine periodische Wiederholungsmarke gesetzt wird.
Vorrichtung nach Anspruch 28, wobei die Einrichtung zum Anwenden einen Energiebetrag (E) im Analysefenster bestimmt.
Vorrichtung nach Anspruch 29, wobei der Energiebetrag (E) in Übereinstimmung mit der folgenden Gleichung bestimmt wird:
Vorrichtung nach Anspruch 30, wobei die periodische Wiederholungsmarke basierend auf einem Vergleich zwischen dem bestimmten Energiebetrag (E) und einem vordefinierten Schwellenwert gesetzt wird.
Vorrichtung nach Anspruch 31, wobei, wenn der Energiebetrag (E) die vordefinierte Schwellenwertanforderung erfüllt, – ein erster normierter Autokorrelationskoeffizient (ρ₁) in Übereinstimmung mit der folgenden Gleichung bestimmt wird:
Vorrichtung nach Anspruch 32, wobei die periodische Wiederholungsmarke gesetzt wird, wenn der erste normierte Autokorrelationskoeffizient (ρ₁) eine vordefinierte Schwellenwertanforderung erfüllt.
Vorrichtung nach Anspruch 33, wobei, wenn die periodische Wiederholungsmarke nicht gesetzt wird, die endgültige Zeitverzögerung (ppfe) basierend auf einer Zeitverzögerungssuche der gespeicherten Sprachmuster des decodierten Sprachsignals bestimmt wird.
Vorrichtung nach Anspruch 34, wobei die Suche nach der endgültigen Zeitverzögerung (ppfe) der gespeicherten Sprachmuster in Übereinstimmung mit der folgenden Gleichung durchgeführt wird: m × ppfep ≥ T0 wobei (m) einen ganzzahligen Wert und (T₀) einen Mindestintervallschwellenwert darstellt.
Vorrichtung nach Anspruch 19, wobei der Skalierfaktor (pfte) in Übereinstimmung mit der folgenden Gleichung bestimmt wird:
wobei (d) eine erste Anzahl an Sprachmustern des Rufens eines der Prädiktions-Filter und (r(n)) ein von dem Prädiktions-Decoder ausgegebenes Rufsignal darstellt.
Computerlesbares Medium, das eine oder mehrere Sequenzen einer oder mehrerer Anweisungen zur Ausführung durch einen oder mehrere Prozessoren enthält, um ein Verfahren zum Synthetisieren einer beschädigten Sprach-Frame-Wellenform durchzuführen, die von einem Prädiktions-Decoder (100) ausgegeben wird, der ein oder mehrere Prädiktions-Filter umfasst, wobei die beschädigte Sprach-Frame-Wellenform repräsentativ für ein Segment eines decodierten Sprachsignals ist, das von dem Prädiktions-Decoder (100) ausgegeben wird, wobei die Anweisungen, wenn sie von dem einen oder den mehreren Prozessoren ausgeführt werden, bewirken, dass der eine oder die mehreren Prozessoren die Schritte ausführen: – Extrapolieren einer Ersatz-Sprach-Frame-Wellenform basierend auf einem anderen Sprachwellenformsegment des decodierten Sprachsignals, – Ersetzen der beschädigten Sprach-Frame-Wellenform durch die Ersatz-Sprach-Frame-Wellenform, und – Aktualisieren interner Zustände der Filter basierend auf der Ersetzung, wobei – der Schritt des Extrapolierens einer Ersatz-Sprach-Frame-Wellenform umfasst: – Bestimmen einer endgültigen Zeitverzögerung (ppfe) durch: – Bestimmen von Zeitverzögerungen (j) innerhalb eines Wertebereichs [m₁, m₂], – Berechnen von
– Auswählen der Zeitverzögerung j ϵ [m₁, m₂], die D(j) minimiert, und – Bestimmen der ausgewählten Zeitverzögerung j als endgültige Zeitverzögerung (ppfe), wobei sq(N) dem letzten decodierten Sprachmuster in dem letzten unbeschädigten Frame entspricht, d eine vordefinierte Anzahl ist und r(n) Muster der Nulleingangsantwort des einen oder der mehreren Prädiktions-Filter sind.
Computerlesbares Medium nach Anspruch 37, wobei jede Sprach-Frame-Wellenform eine vordefinierte Anzahl an Sprachmustern enthält.
Computerlesbares Medium nach Anspruch 38, das die eine oder die mehreren Anweisungen enthält, die ferner bewirken, das der eine oder die mehreren Prozessoren Sprachmuster des anderen Sprachwellenformsegments des decodierten Sprachsignals in einem Speicher speichern.
Computerlesbares Medium nach Anspruch 39, das ferner bewirkt, dass der eine oder die mehreren Prozessoren eine vorläufige Zeitverzögerung (ppfep) basierend auf einer Untersuchung einer Anzahl (K) gespeicherter Sprachmuster in Übereinstimmung mit einem Analysefenster bestimmen.
Computerlesbares Medium nach Anspruch 40, das die eine oder die mehreren Anweisungen enthält, die ferner bewirken, dass der eine oder die mehreren Prozessoren einen Skalierfaktor (ptfe) bestimmen.
Computerlesbares Medium nach Anspruch 41, wobei die endgültige Zeitverzögerung (ppfe) basierend auf einer Untersuchung einer Anzahl gespeicherter Sprachmuster bestimmt wird, und – wobei die Ersatz-Sprach-Frame-Wellenform auf der bestimmten endgültigen Zeitverzögerung (ppfe) basiert.
Computerlesbares Medium nach Anspruch 42, wobei die vorläufige Zeitverzögerung (ppfep) aus Kandidaten vorläufiger Zeitverzögerungen (j) ausgewählt wird, und wobei jedem der Kandidaten vorläufiger Zeitverzögerungen (j) jeweils zugeordnete Korrelationswerte (c(j)) in Übereinstimmung mit der folgenden Gleichung bestimmt werden:
wobei (K) die Größe des Analysefensters und sq(n) das decodierte Sprachsignal darstellt.
Computerlesbares Medium nach Anspruch 43, wobei die gewählte vorläufige Zeitverzögerung (ppfep) eine Pitch-Prädiktionsverstärkung im Analysefenster maximiert.
Computerlesbares Medium nach Anspruch 43, wobei die gewählte vorläufige Zeitverzögerung (ppfep) die folgende Gleichung maximiert:
Computerlesbares Medium nach Anspruch 45, wobei basierend auf dem unabhängigen Anwenden des Analysefensters auf die Anzahl (K) gespeicherter Sprachmuster eine periodische Wiederholungsmarke gesetzt wird.
Computerlesbares Medium nach Anspruch 46, wobei das unabhängige Anwenden einen Energiebetrag (E) im Analysefenster bestimmt.
Computerlesbares Medium nach Anspruch 47, wobei der Energiebetrag (E) in Übereinstimmung mit der folgenden Gleichung bestimmt wird:
Computerlesbares Medium nach Anspruch 48, wobei die periodische Wiederholungsmarke basierend auf einem Vergleich zwischen dem bestimmten Energiebetrag (E) und einem vordefinierten Schwellenwert gesetzt wird.
Computerlesbares Medium nach Anspruch 49, wobei, wenn der Energiebetrag (E) die vordefinierte Schwellenwertanforderung erfüllt, – ein erster normierter Autokorrelationskoeffizient (ρ₁) in Übereinstimmung mit der folgenden Gleichung bestimmt wird:
Computerlesbares Medium nach Anspruch 50, wobei die periodische Wiederholungsmarke gesetzt wird, wenn der erste normierte Autokorrelationskoeffizient (ρ₁) eine vordefinierte Schwellenwertanforderung erfüllt.
Computerlesbares Medium nach Anspruch 51, wobei, wenn die periodische Wiederholungsmarke nicht gesetzt wird, die endgültige Zeitverzögerung (ppfe) basierend auf einer Zeitverzögerungssuche der gespeicherten Sprachmuster des decodierten Sprachsignals bestimmt wird.
Computerlesbares Medium nach Anspruch 52, wobei die Suche nach der endgültigen Zeitverzögerung (ppfe) der gespeicherten Sprachmuster in Übereinstimmung mit der folgenden Gleichung durchgeführt wird: m × ppfep ≥ T0 wobei (m) einen ganzzahligen Wert und (T₀) einen Mindestintervallschwellenwert darstellt.
Computerlesbares Medium nach Anspruch 37, wobei der Skalierfaktor (pfte) in Übereinstimmung mit der folgenden Gleichung bestimmt wird:
wobei (d) eine erste Anzahl an Sprachmustern des Rufens eines der Prädiktions-Filter und (r(n)) ein von dem Prädiktions-Decoder ausgegebenes Rufsignal darstellt.