WO2009103608A1

WO2009103608A1 - Verfahren und mittel zur enkodierung von hintergrundrauschinformationen

Info

Publication number: WO2009103608A1
Application number: PCT/EP2009/051118
Authority: WO
Inventors: Herve Taddei; Stefan Schandl; Panji Setiawan
Original assignee: Siemens Enterprise Communications Gmbh & Co. Kg
Priority date: 2008-02-19
Filing date: 2009-02-02
Publication date: 2009-08-27
Also published as: US20100318352A1; DE102008009719A1; KR101364983B1; RU2010138563A; US20160035360A1; JP2011512563A; JP5361909B2; RU2461080C2; CN101952886B; KR20100120217A; EP2245621B1; EP2245621A1; CN101952886A; KR20120089378A

Abstract

Die Erfindung betrifft Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen bei Sprachsignalkodierungsverf ahren. Ein Grundgedanke der Erfindung besteht darin, die für die Übertragung von Sprachinformationen bekannte Skalierbarkeit analog bei der Bildung eines SID-Rahmens vorzusehen. Erf indungsgemaß ist eine Enkodierung eines schmalbandigen ersten Anteils und eines breitbandigen zweiten Anteils einer Hintergrundrauschinformation und eine Bildung eines das Hintergrundrauschen beschreibenden SID-Rahmens mit getrennten Bereichen für den ersten und den zweiten Anteil vorgesehen.

Description

Beschreibung

Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen

Die Erfindung betrifft Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen bei Sprachsignalkodie- rungsverfahren .

Für Telefongespräche ist seit den Anfangen der Telekommunikation eine Bandbreitenbeschrankung für eine analoge Sprach- ubertragung vorgesehen. Die Sprachubertragung erfolgt auf einem eingeschränkten Frequenzbereich von 300 Hz bis 3400 Hz.

Ein solcher eingeschränkter Frequenzbereich ist auch bei vielen Sprachsignalkodierungsverfahren für die heutige digitale Telekommunikation vorgesehen. Vor einem Kodiervorgang wird hierzu eine Bandbreitenbegrenzung des analogen Signals durchgeführt. Zur Kodierung und zur Dekodierung kommt dabei ein Codec zum Einsatz, welcher aufgrund der beschriebenen Bandbreitenbeschrankung im Frequenzbereich zwischen 300 Hz und 3400 Hz im Folgenden auch als schmalbandiger Sprach-Codec (Narrow Band Speech Codec) bezeichnet wird. Unter dem Begriff Codec wird dabei sowohl die Kodiervorschrift zur digitalen Kodierung von Audiosignalen als auch die Dekodiervorschrift zur Dekodierung von Daten mit dem Ziel einer Rekonstruktion des Audiosignals verstanden.

Ein schmalbandiger Sprach-Codec ist beispielsweise aus der ITU-T-Empfehlung G.729 bekannt. Mittels der dort beschriebenen Kodiervorschrift ist eine Übertragung eines schmalbandi- gen Sprachsignals mit einer Datenrate von 8 kbit/s vorgesehen . Weiterhin sind sogenannte breitbandige Sprach-Codecs (Wide Band Speech Codec) bekannt, welche zur Verbesserung des Hor- eindrucks eine Kodierung eines in einem erweiterten Frequenzbereich vorsehen. Ein derart erweiterter Frequenzbereich liegt z.B. zwischen einer Frequenz von 50 Hz und 7000 Hz. Ein breitbandiger Sprach-Codec ist beispielsweise aus der ITU-T- Empfehlung G.729. EV bekannt.

Üblicherweise sind Kodierungsverfahren für breitbandige Sprach-Codecs skalierbar gestaltet. Mit einer Skalierbarkeit ist hier gemeint, dass die übertragenen kodierten Daten verschiedene abgegrenzte Blocke enthalten, welche den schmalban- digen Anteil, den breitbandigen Anteil und/oder die volle Bandbreite des kodierten Sprachsignals enthalten. Eine solche skalierbare Gestaltung gestattet einerseits eine empfanger- seitige Abwärtskompatibilität und andererseits bietet sie eine einfache Möglichkeit, im Falle von eingeschränkten Daten- ubertragungskapazitaten im Ubertragungskanal eine sender- und empfangerseitige Anpassung der Datenrate und der Große von übertragenen Datenrahmen vorzunehmen.

Für eine Reduzierung der Datenübertragungsrate durch einen Codec ist üblicherweise eine Komprimierung der zu übertragenden Daten vorgesehen. Eine Komprimierung wird beispielsweise durch Kodierungsverfahren erreicht, bei zur Kodierung der

Sprachdaten Parameter für ein Anregungssignal und Filterparameter bestimmt werden. Die Filterparameter sowie das Anregungssignal spezifizierende Parameter werden dann an den Empfanger übertragen. Dort wird mithilfe des Codecs ein synthe- tisches Sprachsignal synthetisiert, das dem ursprunglichen

Sprachsignal hinsichtlich eines subjektiven Horeindrucks möglichst ahnlich ist. Mit Hilfe diesem auch als »Analysis-by- Synthesis« bezeichneten Verfahren werden nicht die ermittelten und digitalisierten Abtastwerte (Samples) selbst ubertra- gen, sondern ermittelte Parameter, die eine empfangerseitige Synthese des Sprachsignals ermöglichen.

Eine weitere Maßnahme zur Reduzierung der Datenubertragungs- rate bietet ein Verfahren zur diskontinuierlichen Übertragung (Discontinuous Transmission) , welches in der Fachwelt auch unter dem Begriff DTX gelaufig ist. Das grundsatzliche Ziel von DTX ist eine Reduzierung der Datenübertragungsrate im Fall einer Sprechpause.

Hierzu kommt auf Seiten des Senders eine Sprechpausenerkennung (Voice Activity Detection, VAD) zum Einsatz, welche bei Unterschreiten eines bestimmten Signalpegels auf eine Sprechpause erkennt. Üblicherweise wird vom Empfanger wahrend einer Sprechpause keine vollige Stille erwartet. Im Gegenteil wurde eine vollige Stille empfangerseitig zu Irritationen oder sogar zur Vermutung eines Verbindungsabbaus fuhren. Aus diesem Grund werden Verfahren zur Erzeugung eines sogenannten Komfortrauschen (Comfort Noise) angewandt.

Bei einem Komfortrauschen handelt es sich um Rauschen, welches zur Füllung von Stillephasen auf Seiten des Empfangers synthetisiert wird. Das Komfortrauschen dient einem subjektiven Eindruck einer weiter bestehenden Verbindung, ohne die für die Übertragung von Sprachsignalen vorgesehene Datenübertragungsrate zu beanspruchen. Mit anderen Worten wird zur senderseitigen Kodierung des Rauschens ein geringerer Aufwand als zur Kodierung der Sprachdaten betrieben. Für eine empfangerseitig noch als realistisch empfundene Synthetisierung des Komfortrauschens werden Daten mit einer weitaus niedrigeren Datenrate übertragen. Die hierbei übertragenen Daten werden in der Fachwelt auch als SID (Silence Insertion Description) bezeichnet . Derzeit in der Entwicklung stehende Codecs konzentrieren sich auf eine skalierbare Enkodierung der Sprachinformation. Mit Hilfe einer skalierbaren Ansatzes wird erreicht, dass das Ergebnis des Enkodiervorgangs verschiedene Blocke enthalt, wel- che den schmalbandigen Anteil des ursprunglichen Sprachsignals enthalten, den breitbandigen Anteil oder auch die volle Bandbreite des Sprachsignals enthalten, also z.B. einen Frequenzbereich zwischen 50 und 7000 Hz.

In gegenwartigen skalierbaren Kodierungsverfahren erfolgt die Enkodierung der Hintergrundrauschinformation entweder über die gesamte Bandbreite des Eingangsrauschsignals oder über einen Ausschnitt aus der Bandbreite des Eingangsrauschsignals. Das enkodierte Rauschsignal wird in Form von SID-Rahmen über das DTX-Verfahren übertragen und empfangerseitig rekonstruiert. Das rekonstruierte, d.h. synthetisierte Komfortrauschen weist also eventuell eine andere Qualität als die emp- fangerseitig synthetisierte Sprachinformation auf. Dies wirkt sich nachteilig auf die Rezeption des Empfangers aus.

Aufgabe der Erfindung ist es, eine verbesserte Implementierung des DTX-Verfahrens in skalierbaren Sprachcodecs anzugeben .

Die Aufgabe wird durch den Gegenstand der unabhängigen Ansprüche gelost.

Ein Grundgedanke der Erfindung besteht darin, die für die Übertragung von Sprachinformationen bekannte Skalierbarkeit analog bei der Bildung eines SID-Rahmens vorzusehen.

Das erfindungsgemaße Verfahren zur Enkodierung eines SID- Rahmens für eine Übermittlung von Hintergrundrauschinformationen in Anwendung eines skalierbaren Sprachsignalkodierungs- verfahren sieht eine Enkodierung eines schmalbandigen ersten und eines breitbandigen zweiten Anteils der Hintergrundrauschinformation vor. Die Enkodierung wird üblicherweise zeitgleich und auf verschiedene Art und Weise erfolgen. Die Enkodierung eines Anteils kann jedoch selbstverständlich auch zeitlich versetzt vor oder nach einer Enkodierung eines anderen Anteils erfolgen. Ebenso kann die Enkodierung der beiden Anteile optional auch in gleicher Weise erfolgen. Nach der Enkodierung der beiden Anteile wird ein SID-Rahmen gebildet mit getrennten Bereichen für den ersten und den zweiten Anteil. Dies bedeutet mit anderen Worten, dass im SID-Rahmen ein erster Datenbereich die Daten für den enko- dierten ersten Anteil aufnimmt, wahrend ein davon getrennter zweiter Datenbereich die Daten für den enkodierten zweiten Anteil aufnimmt.

Ein wesentlicher Vorteil der Erfindung besteht darin, dass empfangerseitig bestimmt werden kann, ob ein Komfortrauschen auf Basis des breitbandigen Anteils der übertragenen SID- Rahmen oder auf Basis des schmalbandigen Anteils erfolgen soll. Dies ist von besonderem Vorteil für die empfangerseiti- ge akustische Rezeption in einer Situation, in der die Uber- tragungsrate für Sprachinformationsrahmen verringert wurde, dass nur noch schmalbandige Sprachinformationen übertragen werden. Wird nämlich, wie im derzeitigen Stand der Technik, schmalbandige Sprachinformationen in Verbindung mit breitbandigen Rauschen synthetisiert, ist dies für den Empfanger sehr irritierend. Die besagte Verringerung der Ubertragungsrate für Sprachinformationsrahmen kann zum Beispiel durch eine ho- he Auslastung (Congestion) des Netzwerks zwischen Sender und Empfanger verursacht sein. Die wesentlich kleineren SID- Rahmen sind von einem solchen Netzwerkengpass nicht betroffen. Für sie besteht also weder ein Zwang zur Reduzierung ihrer Datenübertragungsrate noch ihres Inhalts. Vorteilhafte Weiterbildungen der Erfindung sind in den Unter- anspruchen angegeben.

Gemäß einer ersten vorteilhaften Ausgestaltung der Erfindung ist vorgesehen ein dritter Anteil in der Definition des SID- Rahmens vorgesehen. Dieser enthalt enkodierte Hintergrundrauschparameter, welche mit einer erhöhten Datenrate enko- diert sind, wenngleich der dritte Anteil immer noch schmal- bandige Daten (erweiterte schmalbandige Daten bzw. »Enhanced Low Band«) enthalt. Der Vorteil einer Definition des SID-

Rahmens mit diesem dritten Anteil besteht in einer Möglichkeit, ein Rauschsignal in einer im Vergleich zur herkömmlichen schmalbandigen Kodierungsweise gesteigerten Qualität wiederzugeben und dabei noch in Konformität zum Standard G.729. B zu bleiben.

Ein Ausfuhrungsbeispiel mit weiteren Vorteilen und Ausgestaltungen der Erfindung wird im Folgenden anhand der Zeichnung naher erläutert.

Dabei zeigt die einzige FIG eine Struktur eines erfindungsge- maßen SID-Rahmens.

Im Folgenden wird der der Erfindung zugrundeliegende techni- sehe Hintergrund, zunächst ohne Bezugnahme auf die Zeichnung, naher beschrieben.

In gegenwartigen skalierbaren Kodierungsverfahren für breit- bandige Sprach-Codecs implementierte Verfahren zur diskonti- nuierlichen Übertragung (DTX) unterstutzen für die Übertragung der Hintergrundrauschinformation derzeit nicht den skalierbaren Charakter, welcher für die Übertragung der Sprachinformation vorgesehen ist. Als derzeitige Umgehungslosung erfolgt eine Enkodierung entweder über die gesamte Bandbreite des Eingangsrauschsignals oder über einen Ausschnitt aus der Bandbreite des Eingangsrauschsignals. Aus diesem Grund besteht ein Bedarf für ver- besserte Verfahren.

In der Vergangenheit wurden hauptsachlich zwei Typen von Sprachcodecs entwickelt, einerseits schmalbandige Sprachcodecs wie z.B. 3GPP AMR, ITU-T G.729 und andererseits breit- bandige Sprachcodecs, wie z.B. 3GPP AMR-WB, ITU-T G.722. Ein schmalbandiger Sprachcodec enkodiert Sprachsignale mit einer Abtastfrequenz von 8 kHz mit einer Bandbreite welche üblicherweise im Frequenzbereich zwischen 300 und 3400 Hz liegt. Ein breitbandiger Sprachcodec enkodiert ein Sprachsignal mit einer Abtastfrequenz von 16 kHz bei einer Bandbreite in einem Frequenzbereich zwischen 50 und 7000 Hz.

Einige dieser Codecs verwenden DTX-Verfahren, also diskontinuierliche Ubertragungsverfahren, um die Gesamtubertragungs- rate im Kommunikationskanal zu reduzieren. Gemäß dem DTX- verfahren werden SID-Rahmen gesendet, wobei die Bandbreite der SID-Rahmen mit der Bandbreite des Sprachsignals korespon- diert. In einem SID-Rahmen wird das Hintergrundrauschen wahrend einer Sprechpause beschrieben.

Derzeit in der Entwicklung stehende Codecs konzentrieren sich auf eine skalierbare Kodierung. Mit Hilfe einer skalierbaren Ansatzes wird erreicht, dass das Ergebnis des Enkodiervor- gangs verschiedene Blocke enthalt, welche den schmalbandigen Anteil des ursprunglichen Sprachsignals enthalten, den breit- bandigen Anteil oder auch die volle Bandbreite des Sprachsignals enthalten, also z.B. einen Frequenzbereich zwischen 50 und 7000 Hz. Der breitbandige Anteil beginnt üblicherweise ab einer Frequenz von 4 kHz. Die gegenwärtigen DTX-Verfahren unterstützen derzeit nicht den skalierbaren Charakter von Codecs. Stattdessen erfolgt eine Kodierung entweder über die gesamte Bandbreite des Ein- gangsprachsignals oder über einen Ausschnitt aus der Bandbreite des Eingangssignals. Aus diesem Grund besteht ein Bedarf für verbesserte Verfahren.

Zur Verdeutlichung wird im Folgenden das Enkodierverfahren gemäß ITU-T-Standards G.729.1 beschrieben. Bei diesem Codec

G.729.1 handelt es sich um einen skalierbaren Sprachcodec, in welchem das DTX-Verfahren derzeit nicht skalierbar über die gesamte Bandbreite angewandt wird.

Das Codierverfahren lässt sich während einer aktiven Sprachperiode - in Abgrenzung zu einer als »Silent Period« erkannten Sprechpause - wie folgt charakterisieren:

Das Sprachsignal wird in zwei Anteile, nämlich einen schmal- bandigen (Lowband) Teil und einen breitbandigen (Highband) Anteil zerlegt. Beide Signale sind mit einer Abtastfrequenz von 8 kHz abgetastet. Die Aufteilung in einen schmalbandigen und einen breitbandigen Anteil erfolgt in einem speziellen Bandpassfilter, welcher auch als QMF (Quadrature Mirror FiI- ter) bezeichnet wird.

Der schmalbandige Anteil des Sprachsignals wird mit einer Datenrate von 8 und 12 kbit/s enkodiert. Zur Enkodierung des Sprachsignals wird ein CELP-Verfahren (Code Excited Linear Prediction) angewandt. Für Datenraten oberhalb von 14 kbit/s wird der schmalbandige Anteil weiter unter Berücksichtigung des »Transform Codec«-Abschnitts von G.729.1 modifiziert. Der breitbandige Anteil des aktuellen Rahmens - wiederum unter der Voraussetzung, dass dieser Sprachsignale enthält - wird mit einer Datenrate von 14 kbit/s unter Anwendung des TDBWE- Verfahrens (Time Domain Bandwidth Extension) enkodiert. Für Datenrate von über 14 kbit/s wird der »Transform Codecs- Abschnitt von G.729.1 angewandt.

Da der Standard G.729.1 keine Verfahren zur diskontinuierli- chen Übertragung bereitstellt, wird in Sprechpausen bzw. »non active voice periods« eine Umgehungslosung angewandt, welche im Folgenden beschrieben wird.

Das Sprachsignal wird ebenfalls in einen schmalbandigen und einen breitbandigen Anteil zerlegt, wobei beide Anteile mit einer Frequenz von 8 kHz abgetastet werden. Die Zerlegung erfolgt ebenfalls über ein QMF-Filter.

Der schmalbandige Anteil wird unter Verwendung einer schmal- bandigen SID-Information enkodiert. Diese schmalbandige SID- Information zu einem spateren Zeitpunkt in einem SID-Rahmen, welcher kompatibel zum Standard G.729 ist, an den Empfanger gesandt. Weitere wie oben beschriebene Maßnahmen können zu einer Verbesserung des schmalbandigen SID-Anteils beitragen.

Der breitbandige Anteil wird unter Anwendung eines modifizierten TDBWE-Verfahrens enkodiert. Wahrend einer sog. Uber- hangperiode (Hangover Period) wird das Sprachsignal weiterhin mit einer Datenrate von 14 kbit/s enkodiert, wahrend gleich- zeitig das wahrend der Sprechpause erkannte Hintergrundrauschen ausgewertet und entsprechende Parameter eingestellt werden. Die Auswertung des Hintergrundrauschens erfolgt hinsichtlich der Energie des Rauschsignals und hinsichtlich seiner Frequenzverteilung. Im Gegensatz zu dem vom Standard G.729.1 vorgesehenen TDBWE-Verfahren wird jedoch die zeitliche Feinstruktur nicht ausgewertet, sondern lediglich ein Durchschnitt der Energie über den Rahmen gebildet.

Im Folgenden wird eine Ausfuhrungsform des erfindungsgemaßen Verfahrens anhand der FIG erläutert. Die FIG zeigt einen SID-Rahmen mit getrennten Bereichen für einen schmalbandigen ersten Anteil LB (»Low Band«) , einen breitbandigen zweiten Anteil HB (»High Band«) und einen iter- mediären dritten Anteil ELB (»Enhanced Low Band«) .

Der erste Anteil LB enthält dabei enkodierte Hintergrundrauschparameter, welche mit einer Datenrate von 8 kbit/s oder darunter enkodiert sind. Die Datenlänge des ersten Anteils LB beträgt beispielsweise 15 Bit.

Der zweite Anteil HB enthält enkodierte Hintergrundrauschparameter, welche mit einer Datenrate zwischen 14 kbit/s und 32 kbit/s enkodiert sind. Die Datenlänge des zweiten Anteils HB beträgt beispielsweise 19 Bit.

Der dritte Anteil ELB enthält enkodierte Hintergrundrauschparameter, welche mit einer Datenrate von größer als 8kbit/s also beispielsweise 12 kbit/s enkodiert sind. Die Datenlänge des dritten Anteils ELB beträgt beispielsweise 9 Bit. Der Vorteil einer Definition des SID-Rahmens mit einem dritten

Anteil ELB besteht in einer Möglichkeit, ein Rauschsignal in einer im Vergleich zur herkömmlichen schmalbandigen Kodierungsweise gesteigerten Qualität wiederzugeben und dabei noch in Konformität zum Standard G.729. B zu bleiben.

Wahrend einer Sprechpause werden auf Seiten des Enkoders Charakteristika des Hintergrundrauschens angelernt. Die Charakteristika umfassen insbesondere die zeitliche Verteilung als auch die spektrale Form des Hintergrundrauschens. Für den An- lernvorgang wird ein Filterverfahren angewandt, welches zeitliche und spektrale Parameter des Hintergrundrauschens aus vorangegangenen Rahmen berücksichtigt. Ergeben sich signifikante Änderungen im Charakter oder in der Starke des Hintergrundrauschens, wird eine Entscheidung auf Basis von Grenz- wertparametern (Threshold Values) getroffen, ob ein Bedarf besteht, die angelernten Parameter zu aktualisieren.

Auf Seiten des Dekoders bzw. Empfangers wird folgendes Verfahren durchgeführt: Wenn ein »regulärer«, d.h. ein sprach- signalenthaltender Rahmen empfangen wird, wird die übliche Dekodierung ausgeführt. Die Datenrate für solche regulären Rahmen betragt üblicherweise 8 kbit/s oder darüber. Wenn ein SID-Rahmen empfangen wird, wird Komfortrauschen synthetisiert, wobei im Falle eines breitbandigen SID ein breitbandi- ges Komfortrauschen synthetisiert und mit einem ausgelesenen Verstärkungsfaktor ausgegeben wird.

Im Folgenden wird das erfindungsgemaße Verfahren mit weiteren Ausgestaltungen der Erfindung beschrieben.

Die Ausgestaltungen betreffen weitere Details zur Einbezie- hung des DTX-Verfahrens in breitbandige Codecs wie z.B.

G.729.1 und weiterhin Verfahren zur Modifizierung des TDBWE- Verfahrens, welche eine Synthetisierung von Komfortrauschen wahrend nicht-aktiver Rahmen (Non Active Frames), d.h. Rahmen ohne Sprachinformation, unterstutzen.

Gemäß einer Ausgestaltung ist folgendes Vorgehen vorgesehen. Produzieren einer schmalbandigen SID-Information zur Erzeugung eines G.729- bzw. G.729. B- kompatiblen SID- Rahmens (erster Anteil LB des erfindungsgemaßen SID- Rahmens)

Produzieren einer breitbandigen SID-Information unter Verwendung eines modifizierten TDBWE-Verfahrens (zweiter Anteil HB des erfindungsgemaßen SID-Rahmens) Optional werden Verbesserungen bezuglich der schmalbandi- gen und/oder der breitbandigen SID-Informationen vorgenommen .

Das Hintergrundrauschen wird wahrend einer Phase, welche einem Senden der ersten SID-Rahmen vorausgeht, bezuglich der Energie- und/oder Frequenzverteilung analysiert bzw. »angelernt«.

SID-Rahmen werden gesendet, wenn eine signifikante Änderung des breitbandigen Anteils des Hintergrundrauschens detektiert wird oder wenn eine Aktualisierung der schmalbandigen SID-Informationen gesendet werden soll. Eine Implementierung dieses Ausfuhrungsbeispiels erfolgt in folgenden Phasen:

Mit Hilfe eines VAD-Verfahrens wird eine aktive Sprach- phase bzw. eine Sprechpause definiert.

Wird durch das VAD-Verfahren ein Wechsel in eine Sprechpause angezeigt, wird eine Uberhangperiode (Hang Over Pe- riod) gestartet. Wahrend der Uberhangperiode wird die Datenrate des Enkodierers auf 14kbit/s reduziert, wenn die vorhergehende Datenrate einen höheren Wert aufgewiesen hat. Für den Fall dass die vorhergehende Datenrate des Enkodierers bereits Werte um 12 kbit/s betragen hat, wird die Datenrate auf einen Wert von 8 kbit/s reduziert. Wahrend der Uberhangperiode wird das Hintergrundrauschen bezuglich des schmalbandigen Anteils in analoger Weise zum Vorgehen in Standard G.729 angelernt, jedoch unter Verwendung einer höheren Anzahl von Rahmen. Hierbei kann optional ein Filterverfahren angewandt werden, durch welches erreicht wird, dass aktuellen Rahmen eine höhere Wichtigkeit zugeordnet wird als vorausgegangenen Rahmen. Wahrend der Uberhangperiode wird das Hintergrundrauschen darüber hinaus im breitbandigen Anteil angelernt. Optional wird für eine Vereinfachung der Implementierung, insbesondere zur Reduzierung des Speicherplatzbedarfs, ein modifiziertes TDBWE-Verfahren eingesetzt, welche durch eine vereinfachte Enkodierung im Zeitbereich gekennzeichnet ist. Optional kann eine weitere Vereinfachung im modifizierten TDBWE-Verfahren dadurch erreicht werden, dass die Enkodierung im Zeitbereich nur mit der Energie des Signals im Zeitbereich korrespondiert. Eine weitere optionale vereinfachte Enkodierung besteht darin, spektrale Glattungsverfahren anzuwenden, da die Energie im Zeitbereich und im Frequenzbereich als Folge des Parsevaltheo- rems gleich Werte liefert. Auch im breitbandigen Anteil des Hintergrundrauschens können optional weitere Filterungsmaßnahmen angewandt werden, welche das Ziel haben, aktuellen Rahmen eine höhere Wichtigkeit als vorausgegangenen Rahmen zuzuordnen. Nach Beendigung der Überhangperiode wird ein erster SID- Rahmen gesendet, welche eine grobe Repräsentierung des Hintergrundrauschens enthält. Die grobe Beschreibung des Hintergrundrauschens wurde während der Überhangperiode angelernt.

Solange durch die VAD keine aktive Phase (sprechen) de- tektiert wurde, wird auf Seiten des Dekoders bzw. Empfängers ein Komfortrauschen auf Basis der empfangenen SID- Rahmen synthetisiert. Änderungen des Hintergrundrauschens werden im schmalban- digen Anteil des SID-Rahmens detektiert, wobei ein ähnliches Verfahren zu G.729 verfolgt wird, wenngleich verschiedene Parameter berücksichtigt werden. Im breitbandigen Anteil werden gefilterte Energieparame- ter zur Beschreibung des Hintergrundrauschens benutzt.

Diese umfassen z.B. Parameter von Einhüllkurven im Zeitbereich tenv_fidx und/oder Parameter von Einhüllkurven im Frequenzbereich fenv fidx[i], wobei ein jeweiliger Index idx einen jeweiligen Rahmen identifiziert und wobei die Einhüllkurve im Frequenzbereich von einer geeigneten Anzahl von Frequenzwerten i={l,..., NB-SUBBANDS} zur Beschreibung der spektralen Eigenschaften des Hintergrundrauschens gebildet wird. Die gefilterten Energieparameter werden von den in G.729.1 definierten TDBWE-Parameter ab- geleitet unter Verwendung geeigneter Tiefpassfilter:

tenv _f_ιck = a_tenv ^■ tenv_ιdx + (1 - a_tenv ) ^■ tenv _ f_ιdxΛ

Mv _ f_ιck [i] = a_tenv ^■ fenv_ιck [i] + (1 - a_tenv ) • fenv _ f_ιck__γ[ϊ\

Welche auf die Einhüllparameter im Frequenz- und im Zeitbereich entsprechend angewandt werden.

Änderungen im breitbandigen Anteil der Energieparameter werden überwacht und detektiert, indem die gefilterten Energieparameter des gegenwärtigen Rauschsignals verglichen werden mit zwei Sätzen aus Vergleichswerten dieser Parameter, wobei ein Satz von Vergleichswerten die Para- meter aus dem vorangegangenem Rahmen mit dem Index idx-1 ist .

temp _ d = 20 • log(2) tenv_f_ιck -tenv_f_ιdxA log(lθ)

]npC?λ 1 NB SUBBANDS spec d = 20. ^gK ' Y \fenv fji] - fenv L_x , [i]\

^{F ~} log(lθ) NB_SUBBANDS tf' ^{" "} '

Und wobei der andere Satz aus Parametern des zuletzt übertragenen Rahmens mit dem Index last tx besteht. Wenn einer der Parameterunterschiede (temp_d, spec_d, temp_ch, spec_ch) einen geeignet gewählten Grenzwert überschreitet:

temp _ ch = 20 • °^g • \tenv _f_ιdx - tenv _ f_{last tx} log(lθ)

muss ein neuer SID-Update-Rahmen gesendet werden.

Sobald durch die VAD eine Sprachperiode erkannt wird, wird das Sprachsignal mit der benötigten Übertragungsrate übertragen und die Synthetisierung von Komfortrauschen auf der Dekoderseite beendet. Somit stellt sich ein regulärer Dekodierungsbetrieb ein wie in G.729.1.

Claims

Patentansprüche

1. Verfahren zur Enkodierung eines SID-Rahmens (SID) für eine Übermittlung von Hintergrundrauschinformationen in Anwendung eines skalierbaren Sprachsignalkodierungsverfahren mit folgenden Schritten:

Enkodierung eines schmalbandigen ersten Anteils (LB) und eines breitbandigen zweiten Anteils (HB) der Hintergrundrauschinformation; Bildung des SID-Rahmens (SID) mit getrennten Bereichen für den ersten (LB) und den zweiten (HB) Anteil.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass ein erweiterter schmalbandiger dritter Anteil (ELB) enkodiert wird und dass die Bildung des SID-Rahmens mit einem zusatzlichen getrennten Bereich für den dritten Anteil (ELB) gebildet wird.

3. Verfahren nach einem der vorgenannten Ansprüche, dadurch gekennzeichnet, dass der erste Anteil (LB) der Hintergrundrauschinformation gemäß Kodierungsrichtlinien des an sich bekannten Standards G.729. B enkodiert werden.

4. Verfahren nach einem der vorgenannten Ansprüche, dadurch gekennzeichnet, dass der zweite Anteil (HB) der Hintergrundrauschinformation gemäß eines modifizierten TDBWE-Verfahrens enkodiert wird.

5. Verfahren nach einem der vorgenannten Ansprüche, dadurch gekennzeichnet, dass Wahrend einer Uberhangperiode Filterverfahren zur Zuordnung einer höheren Wichtigkeit eines aktuellen Rahmens als vorausgegangenen Rahmen angewandt werden.

6. Codec mit Mitteln zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 5.

7. Codec nach Anspruch 6, gekennzeichnet durch eine Implemen- tierung im an sich bekannten ITU-T Standard G.729.1.