WO2009103608A1 - Verfahren und mittel zur enkodierung von hintergrundrauschinformationen - Google Patents

Verfahren und mittel zur enkodierung von hintergrundrauschinformationen Download PDF

Info

Publication number
WO2009103608A1
WO2009103608A1 PCT/EP2009/051118 EP2009051118W WO2009103608A1 WO 2009103608 A1 WO2009103608 A1 WO 2009103608A1 EP 2009051118 W EP2009051118 W EP 2009051118W WO 2009103608 A1 WO2009103608 A1 WO 2009103608A1
Authority
WO
WIPO (PCT)
Prior art keywords
background noise
sid
speech
encoding
frame
Prior art date
Application number
PCT/EP2009/051118
Other languages
English (en)
French (fr)
Inventor
Herve Taddei
Stefan Schandl
Panji Setiawan
Original Assignee
Siemens Enterprise Communications Gmbh & Co. Kg
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Enterprise Communications Gmbh & Co. Kg filed Critical Siemens Enterprise Communications Gmbh & Co. Kg
Priority to KR1020127019596A priority Critical patent/KR101364983B1/ko
Priority to CN2009801057752A priority patent/CN101952886B/zh
Priority to JP2010547137A priority patent/JP5361909B2/ja
Priority to EP09711908.5A priority patent/EP2245621B1/de
Priority to US12/867,969 priority patent/US20100318352A1/en
Publication of WO2009103608A1 publication Critical patent/WO2009103608A1/de
Priority to US14/880,490 priority patent/US20160035360A1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Definitions

  • the invention relates to methods and means for encoding background noise information in speech signal coding methods.
  • Such a limited frequency range is also provided in many speech signal coding methods for today's digital telecommunications.
  • a bandwidth limitation of the analog signal Prior to a coding process, a bandwidth limitation of the analog signal is performed for this purpose.
  • a codec is used which, due to the described bandwidth limitation in the frequency range between 300 Hz and 3400 Hz, is also referred to below as narrow-band speech codec (Narrow Band Speech Codec).
  • the term codec is understood to mean both the coding rule for the digital coding of audio signals and the decoding rule for the decoding of data with the aim of reconstructing the audio signal.
  • a narrowband speech codec is known from ITU-T Recommendation G.729.
  • a transmission of a narrow-band voice signal with a data rate of 8 kbit / s is provided.
  • so-called broadband speech codecs Wide Band Speech Codec
  • Such an extended frequency range is, for example, between a frequency of 50 Hz and 7000 Hz.
  • a wideband voice codec for example, from the ITU-T Recommendation G.729. EV known.
  • coding methods for broadband speech codecs are made scalable.
  • Scalability means that the transmitted coded data contain various demarcated blocks which contain the narrowband component, the broadband component and / or the full bandwidth of the coded voice signal.
  • such a scalable design allows for backwards compatibility on the receiver side and, on the other hand, offers a simple possibility of adapting the data rate and the size of transmitted data frames in the transmission channel in the case of limited data transmission capacities.
  • a compression of the data to be transmitted is usually provided. Compression is achieved, for example, by coding methods, for coding the
  • Speech data parameters for an excitation signal and filter parameters are determined.
  • the filter parameters and the excitation signal specifying parameters are then transmitted to the receiver.
  • a synthetic speech signal is synthesized using the codec, which is the original one
  • Speech signal is as similar as possible in terms of a subjective Horeindrucks.
  • analysis-by-synthesis the determined and digitized samples are not themselves transmitted. but determined parameters that enable a receiver-side synthesis of the speech signal.
  • a further measure for reducing the data transmission rate is provided by a method for discontinuous transmission (Discontinuous Transmission), which is also known in the art as DTX.
  • DTX discontinuous Transmission
  • the basic goal of DTX is to reduce the data transfer rate in the event of a speech break.
  • a speech pause detection (Voice Activity Detection, VAD) is used, which detects falls below a certain signal level on a speech break.
  • VAD Voice Activity Detection
  • the receiver does not expect a complete silence during a speech break.
  • a complete silence on the receiver side would lead to irritation or even the presumption of a breakdown of the connection.
  • methods for generating a so-called comfort noise are applied.
  • Comfort noise is noise that is synthesized to fill silence phases on the receiver's side.
  • the comfort noise serves as a subjective impression of a continuing connection, without claiming the data transmission rate intended for the transmission of speech signals. In other words, less effort is required to code the speech data for the transmitter-side coding of the noise. For a receiver-side still perceived as realistic synthesizing the comfort noise data are transmitted at a much lower data rate.
  • the data transmitted here are also referred to in the art as SID (Silence Insertion Description). Codecs currently under development focus on scalable encoding of speech information.
  • the result of the encoding process contains various blocks which contain the narrow-band component of the original speech signal, the broadband component or also the full bandwidth of the speech signal, eg a frequency range between 50 and 7000 Hz.
  • the encoding of the background noise information occurs either over the entire bandwidth of the input noise signal or over a portion of the bandwidth of the input noise signal.
  • the encoded noise signal is transmitted in the form of SID frames via the DTX method and reconstructed on the receiver side.
  • synthesized comfort noise may have a different quality than the speech information synthesized on the receiver side. This has a detrimental effect on the reception of the receptionist.
  • the object of the invention is to provide an improved implementation of the DTX method in scalable speech codecs.
  • a basic idea of the invention is to provide the scalability known for the transmission of speech information analogously to the formation of a SID frame.
  • the inventive method for encoding a SID frame for transmission of background noise information using a scalable speech signal coding method provides an encoding of a narrowband first and a broadband second portion of the background noise information.
  • the encoding is usually done at the same time and in different ways. However, the encoding of a share can of course also take place with a time offset before or after an encoding of another share. Likewise, the encoding of the two components can optionally also be carried out in the same way.
  • a SID frame is formed with separate regions for the first and the second component. In other words, in the SID frame, this means that a first data area receives the data for the encoded first portion, while a separate second data area receives the data for the encoded second portion.
  • An essential advantage of the invention is that it can be determined on the receiver side whether a comfort noise should be based on the broadband component of the transmitted SID frames or on the basis of the narrowband component.
  • This is of particular advantage for the receiver-side acoustic reception in a situation in which the transmission rate for speech information frames has been reduced so that only narrowband speech information is transmitted. Namely, as synthesized in the current state of the art, narrowband speech information in conjunction with broadband noise, this is very irritating for the receiver.
  • the said reduction of the transmission rate for speech information frames can be caused for example by a high congestion of the network between transmitter and receiver.
  • the much smaller SID frames are not affected by such a network bottleneck. For them, there is no compulsion to reduce their data transfer rate or their content.
  • a third portion is provided in the definition of the SID frame.
  • This contains encoded background noise parameters, which are encoded with an increased data rate, although the third component still contains narrow-band data (extended narrowband data or "enhanced low band").
  • the frame with this third portion is a way of reproducing a noise signal in a quality enhanced in comparison with the conventional narrow-band coding method while still conforming to the G.729 standard. B to stay.
  • the single FIGURE shows a structure of a SID frame according to the invention.
  • Discontinuous transmission (DTX) methods implemented in presently scalable coding methods for broadband speech codecs currently do not support the scalable nature of the transmission of background noise information intended for the transmission of the speech information.
  • DTX discontinuous transmission
  • an encoding takes place either over the entire bandwidth of the input noise signal or over a section of the bandwidth of the input noise signal. For this reason, there is a need for improved methods.
  • narrow-band speech codecs such as e.g. 3GPP AMR, ITU-T G.729 and on the other hand broadband speech codecs, such as e.g. 3GPP AMR-WB, ITU-T G.722.
  • a narrowband speech codec encodes speech signals at a sampling frequency of 8 kHz with a bandwidth which is usually in the frequency range between 300 and 3400 Hz.
  • a wideband speech codec encodes a speech signal having a sampling frequency of 16 kHz at a bandwidth in a frequency range between 50 and 7000 Hz.
  • Some of these codecs use DTX methods, ie discontinuous transmission methods, to reduce the overall transmission rate in the communication channel.
  • DTX ie discontinuous transmission methods
  • SID frames are sent with the bandwidth of the SID frames being rescored with the bandwidth of the voice signal.
  • a SID frame the background noise during a speech break is described.
  • codecs focus on scalable coding.
  • the result of the encoding process contains various blocks which contain the narrow-band component of the original speech signal, the broadband component or even the full bandwidth of the speech signal, eg a frequency range between 50 and 7000 Hz.
  • the broadband component usually starts at a frequency of 4 kHz.
  • the current DTX methods do not currently support the scalable nature of codecs. Instead, coding takes place either over the entire bandwidth of the input speech signal or over a section of the bandwidth of the input signal. For this reason, there is a need for improved methods.
  • G.729.1 is a scalable speech codec in which the DTX method is currently not scalable across the entire bandwidth.
  • the coding method can be characterized as follows during an active speech period, in contrast to a speech pause recognized as »Silent Period «:
  • the speech signal is split into two parts, namely a narrowband (lowband) part and a broadband (highband) part. Both signals are sampled at a sampling frequency of 8 kHz.
  • the division into a narrowband and a broadband component takes place in a special bandpass filter, which is also referred to as QMF (Quadrature Mirror Filter).
  • QMF Quadrature Mirror Filter
  • the narrowband portion of the speech signal is encoded at a data rate of 8 and 12 kbit / s.
  • a CELP Code Excited Linear Prediction
  • the narrowband component is further modified taking into account the »Transform Codec « section of G.729.1.
  • the broadband portion of the current frame again assuming it contains voice signals, is encoded at a data rate of 14 kbit / s using the TDBWE (Time Domain Bandwidth Extension) method.
  • TDBWE Time Domain Bandwidth Extension
  • the speech signal is also split into a narrowband and a broadband component, with both components sampled at a frequency of 8 kHz.
  • the decomposition also takes place via a QMF filter.
  • the narrowband portion is encoded using narrow band SID information.
  • This narrowband SID information is sent to the receiver at a later time in a SID frame compatible with the G.729 standard. Further measures as described above can contribute to an improvement of the narrowband SID component.
  • the broadband component is encoded using a modified TDBWE method.
  • the voice signal is further encoded at a data rate of 14 kbit / s, while at the same time the background noise detected during the speech pause is evaluated and corresponding parameters are set.
  • the background noise is evaluated with regard to the energy of the noise signal and its frequency distribution.
  • the temporal fine structure is not evaluated, but merely an average of the energy is formed over the frame.
  • FIG. 1 shows a SID frame with separate areas for a narrowband first portion LB ("Low Band”), a broadband second portion HB ("High Band”) and an itermediary third portion ELB ("Enhanced Low Band”).
  • LB narrowband first portion
  • HB broadband second portion
  • ELB Enhanced Low Band
  • the first component LB contains encoded background noise parameters, which are encoded at a data rate of 8 kbit / s or below.
  • the data length of the first component LB is, for example, 15 bits.
  • the second component HB contains encoded background noise parameters, which are encoded with a data rate between 14 kbit / s and 32 kbit / s.
  • the data length of the second component HB is for example 19 bits.
  • the third component ELB contains encoded background noise parameters, which are encoded with a data rate of greater than 8 kbit / s, for example 12 kbit / s.
  • the data length of the third component ELB is 9 bits, for example.
  • Proportion ELB consists of a possibility to reproduce a noise signal in an increased quality compared to the conventional narrow-band coding method while still conforming to the standard G.729. B to stay.
  • characteristics of the background noise are learned on the part of the encoder.
  • the characteristics include in particular the temporal distribution as well as the spectral form of the background noise.
  • a filtering method is used, which takes into account temporal and spectral parameters of the background noise from previous frames. If there are significant changes in the character or strength of the background noise, a decision based on threshold values is made as to whether there is a need to update the learned parameters.
  • the embodiments relate to further details on the inclusion of the DTX method in wideband codecs such as e.g.
  • the following procedure is provided. Produce a narrowband SID information to produce a G.729 or G.729.
  • B-compatible SID frame first portion LB of the SID frame according to the invention
  • the background noise is analyzed or "learned" during a phase which precedes a transmission of the first SID frames, with regard to the energy and / or frequency distribution.
  • SID frames are sent when a significant change in the broadband portion of the background noise is detected or when an update of the narrowband SID information is to be sent.
  • An implementation of this exemplary embodiment takes place in the following phases:
  • a VAD procedure is used to define an active speech phase or pause.
  • a hangover period is started.
  • the data rate of the encoder is reduced to 14kbit / s if the previous data rate has a higher value.
  • the data rate is reduced to a value of 8 kbit / s.
  • the background noise for the narrowband portion is learned in an analogous manner to the procedure in standard G.729, but using a higher number of frames.
  • a filtering method can be optionally applied by which it is achieved that the current frame is assigned a higher importance than the previous frame.
  • the background noise is also learned in the broadband component.
  • a modified TDBWE method is used to simplify the implementation, in particular to reduce the storage space requirement, which is characterized by a simplified encoding in the time domain.
  • a further simplification in the modified TDBWE method can be achieved in that the encoding in the time domain only corresponds to the energy of the signal in the time domain.
  • Another optional simplified encoding is to use spectral smoothing techniques because the energy in the time domain and in the frequency domain yields equal values as a result of the parsevalt theorem.
  • optionally further filtering measures can be applied which have the goal of assigning a higher importance to current frames than previous frames.
  • comfort noise is synthesized on the side of the decoder or receiver on the basis of the received SID frames. Changes in background noise are detected in the narrowband portion of the SID frame, with a similar procedure to G.729 being followed, although different parameters are taken into account. In the broadband component, filtered energy parameters are used to describe the background noise.
  • filtered energy parameters are derived from the TDBWE parameters defined in G.729.1 using suitable low-pass filters:
  • Changes in the broadband component of the energy parameters are monitored and detected by comparing the filtered energy parameters of the current noise signal with two sets of comparison values of these parameters, a set of comparison values representing the parameters. meter from the previous frame with the index idx-1.
  • temp_d 20 • log (2) tenv_f ⁇ ck -tenv_f ⁇ dxA log (l ⁇ )
  • NPC ⁇ 1 NB subbands spec d 20. gK 'Y ⁇ FENV FJI] - FENV L x, [i] ⁇
  • temp _ ch 20 • g • ⁇ tenv _f ⁇ dx - tenv _ f last tx log (l ⁇ )
  • a regular decoding mode sets in as in G.729.1.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephonic Communication Services (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

Die Erfindung betrifft Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen bei Sprachsignalkodierungsverf ahren. Ein Grundgedanke der Erfindung besteht darin, die für die Übertragung von Sprachinformationen bekannte Skalierbarkeit analog bei der Bildung eines SID-Rahmens vorzusehen. Erf indungsgemaß ist eine Enkodierung eines schmalbandigen ersten Anteils und eines breitbandigen zweiten Anteils einer Hintergrundrauschinformation und eine Bildung eines das Hintergrundrauschen beschreibenden SID-Rahmens mit getrennten Bereichen für den ersten und den zweiten Anteil vorgesehen.

Description

Beschreibung
Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen
Die Erfindung betrifft Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen bei Sprachsignalkodie- rungsverfahren .
Für Telefongespräche ist seit den Anfangen der Telekommunikation eine Bandbreitenbeschrankung für eine analoge Sprach- ubertragung vorgesehen. Die Sprachubertragung erfolgt auf einem eingeschränkten Frequenzbereich von 300 Hz bis 3400 Hz.
Ein solcher eingeschränkter Frequenzbereich ist auch bei vielen Sprachsignalkodierungsverfahren für die heutige digitale Telekommunikation vorgesehen. Vor einem Kodiervorgang wird hierzu eine Bandbreitenbegrenzung des analogen Signals durchgeführt. Zur Kodierung und zur Dekodierung kommt dabei ein Codec zum Einsatz, welcher aufgrund der beschriebenen Bandbreitenbeschrankung im Frequenzbereich zwischen 300 Hz und 3400 Hz im Folgenden auch als schmalbandiger Sprach-Codec (Narrow Band Speech Codec) bezeichnet wird. Unter dem Begriff Codec wird dabei sowohl die Kodiervorschrift zur digitalen Kodierung von Audiosignalen als auch die Dekodiervorschrift zur Dekodierung von Daten mit dem Ziel einer Rekonstruktion des Audiosignals verstanden.
Ein schmalbandiger Sprach-Codec ist beispielsweise aus der ITU-T-Empfehlung G.729 bekannt. Mittels der dort beschriebenen Kodiervorschrift ist eine Übertragung eines schmalbandi- gen Sprachsignals mit einer Datenrate von 8 kbit/s vorgesehen . Weiterhin sind sogenannte breitbandige Sprach-Codecs (Wide Band Speech Codec) bekannt, welche zur Verbesserung des Hor- eindrucks eine Kodierung eines in einem erweiterten Frequenzbereich vorsehen. Ein derart erweiterter Frequenzbereich liegt z.B. zwischen einer Frequenz von 50 Hz und 7000 Hz. Ein breitbandiger Sprach-Codec ist beispielsweise aus der ITU-T- Empfehlung G.729. EV bekannt.
Üblicherweise sind Kodierungsverfahren für breitbandige Sprach-Codecs skalierbar gestaltet. Mit einer Skalierbarkeit ist hier gemeint, dass die übertragenen kodierten Daten verschiedene abgegrenzte Blocke enthalten, welche den schmalban- digen Anteil, den breitbandigen Anteil und/oder die volle Bandbreite des kodierten Sprachsignals enthalten. Eine solche skalierbare Gestaltung gestattet einerseits eine empfanger- seitige Abwärtskompatibilität und andererseits bietet sie eine einfache Möglichkeit, im Falle von eingeschränkten Daten- ubertragungskapazitaten im Ubertragungskanal eine sender- und empfangerseitige Anpassung der Datenrate und der Große von übertragenen Datenrahmen vorzunehmen.
Für eine Reduzierung der Datenübertragungsrate durch einen Codec ist üblicherweise eine Komprimierung der zu übertragenden Daten vorgesehen. Eine Komprimierung wird beispielsweise durch Kodierungsverfahren erreicht, bei zur Kodierung der
Sprachdaten Parameter für ein Anregungssignal und Filterparameter bestimmt werden. Die Filterparameter sowie das Anregungssignal spezifizierende Parameter werden dann an den Empfanger übertragen. Dort wird mithilfe des Codecs ein synthe- tisches Sprachsignal synthetisiert, das dem ursprunglichen
Sprachsignal hinsichtlich eines subjektiven Horeindrucks möglichst ahnlich ist. Mit Hilfe diesem auch als »Analysis-by- Synthesis« bezeichneten Verfahren werden nicht die ermittelten und digitalisierten Abtastwerte (Samples) selbst ubertra- gen, sondern ermittelte Parameter, die eine empfangerseitige Synthese des Sprachsignals ermöglichen.
Eine weitere Maßnahme zur Reduzierung der Datenubertragungs- rate bietet ein Verfahren zur diskontinuierlichen Übertragung (Discontinuous Transmission) , welches in der Fachwelt auch unter dem Begriff DTX gelaufig ist. Das grundsatzliche Ziel von DTX ist eine Reduzierung der Datenübertragungsrate im Fall einer Sprechpause.
Hierzu kommt auf Seiten des Senders eine Sprechpausenerkennung (Voice Activity Detection, VAD) zum Einsatz, welche bei Unterschreiten eines bestimmten Signalpegels auf eine Sprechpause erkennt. Üblicherweise wird vom Empfanger wahrend einer Sprechpause keine vollige Stille erwartet. Im Gegenteil wurde eine vollige Stille empfangerseitig zu Irritationen oder sogar zur Vermutung eines Verbindungsabbaus fuhren. Aus diesem Grund werden Verfahren zur Erzeugung eines sogenannten Komfortrauschen (Comfort Noise) angewandt.
Bei einem Komfortrauschen handelt es sich um Rauschen, welches zur Füllung von Stillephasen auf Seiten des Empfangers synthetisiert wird. Das Komfortrauschen dient einem subjektiven Eindruck einer weiter bestehenden Verbindung, ohne die für die Übertragung von Sprachsignalen vorgesehene Datenübertragungsrate zu beanspruchen. Mit anderen Worten wird zur senderseitigen Kodierung des Rauschens ein geringerer Aufwand als zur Kodierung der Sprachdaten betrieben. Für eine empfangerseitig noch als realistisch empfundene Synthetisierung des Komfortrauschens werden Daten mit einer weitaus niedrigeren Datenrate übertragen. Die hierbei übertragenen Daten werden in der Fachwelt auch als SID (Silence Insertion Description) bezeichnet . Derzeit in der Entwicklung stehende Codecs konzentrieren sich auf eine skalierbare Enkodierung der Sprachinformation. Mit Hilfe einer skalierbaren Ansatzes wird erreicht, dass das Ergebnis des Enkodiervorgangs verschiedene Blocke enthalt, wel- che den schmalbandigen Anteil des ursprunglichen Sprachsignals enthalten, den breitbandigen Anteil oder auch die volle Bandbreite des Sprachsignals enthalten, also z.B. einen Frequenzbereich zwischen 50 und 7000 Hz.
In gegenwartigen skalierbaren Kodierungsverfahren erfolgt die Enkodierung der Hintergrundrauschinformation entweder über die gesamte Bandbreite des Eingangsrauschsignals oder über einen Ausschnitt aus der Bandbreite des Eingangsrauschsignals. Das enkodierte Rauschsignal wird in Form von SID-Rahmen über das DTX-Verfahren übertragen und empfangerseitig rekonstruiert. Das rekonstruierte, d.h. synthetisierte Komfortrauschen weist also eventuell eine andere Qualität als die emp- fangerseitig synthetisierte Sprachinformation auf. Dies wirkt sich nachteilig auf die Rezeption des Empfangers aus.
Aufgabe der Erfindung ist es, eine verbesserte Implementierung des DTX-Verfahrens in skalierbaren Sprachcodecs anzugeben .
Die Aufgabe wird durch den Gegenstand der unabhängigen Ansprüche gelost.
Ein Grundgedanke der Erfindung besteht darin, die für die Übertragung von Sprachinformationen bekannte Skalierbarkeit analog bei der Bildung eines SID-Rahmens vorzusehen.
Das erfindungsgemaße Verfahren zur Enkodierung eines SID- Rahmens für eine Übermittlung von Hintergrundrauschinformationen in Anwendung eines skalierbaren Sprachsignalkodierungs- verfahren sieht eine Enkodierung eines schmalbandigen ersten und eines breitbandigen zweiten Anteils der Hintergrundrauschinformation vor. Die Enkodierung wird üblicherweise zeitgleich und auf verschiedene Art und Weise erfolgen. Die Enkodierung eines Anteils kann jedoch selbstverständlich auch zeitlich versetzt vor oder nach einer Enkodierung eines anderen Anteils erfolgen. Ebenso kann die Enkodierung der beiden Anteile optional auch in gleicher Weise erfolgen. Nach der Enkodierung der beiden Anteile wird ein SID-Rahmen gebildet mit getrennten Bereichen für den ersten und den zweiten Anteil. Dies bedeutet mit anderen Worten, dass im SID-Rahmen ein erster Datenbereich die Daten für den enko- dierten ersten Anteil aufnimmt, wahrend ein davon getrennter zweiter Datenbereich die Daten für den enkodierten zweiten Anteil aufnimmt.
Ein wesentlicher Vorteil der Erfindung besteht darin, dass empfangerseitig bestimmt werden kann, ob ein Komfortrauschen auf Basis des breitbandigen Anteils der übertragenen SID- Rahmen oder auf Basis des schmalbandigen Anteils erfolgen soll. Dies ist von besonderem Vorteil für die empfangerseiti- ge akustische Rezeption in einer Situation, in der die Uber- tragungsrate für Sprachinformationsrahmen verringert wurde, dass nur noch schmalbandige Sprachinformationen übertragen werden. Wird nämlich, wie im derzeitigen Stand der Technik, schmalbandige Sprachinformationen in Verbindung mit breitbandigen Rauschen synthetisiert, ist dies für den Empfanger sehr irritierend. Die besagte Verringerung der Ubertragungsrate für Sprachinformationsrahmen kann zum Beispiel durch eine ho- he Auslastung (Congestion) des Netzwerks zwischen Sender und Empfanger verursacht sein. Die wesentlich kleineren SID- Rahmen sind von einem solchen Netzwerkengpass nicht betroffen. Für sie besteht also weder ein Zwang zur Reduzierung ihrer Datenübertragungsrate noch ihres Inhalts. Vorteilhafte Weiterbildungen der Erfindung sind in den Unter- anspruchen angegeben.
Gemäß einer ersten vorteilhaften Ausgestaltung der Erfindung ist vorgesehen ein dritter Anteil in der Definition des SID- Rahmens vorgesehen. Dieser enthalt enkodierte Hintergrundrauschparameter, welche mit einer erhöhten Datenrate enko- diert sind, wenngleich der dritte Anteil immer noch schmal- bandige Daten (erweiterte schmalbandige Daten bzw. »Enhanced Low Band«) enthalt. Der Vorteil einer Definition des SID-
Rahmens mit diesem dritten Anteil besteht in einer Möglichkeit, ein Rauschsignal in einer im Vergleich zur herkömmlichen schmalbandigen Kodierungsweise gesteigerten Qualität wiederzugeben und dabei noch in Konformität zum Standard G.729. B zu bleiben.
Ein Ausfuhrungsbeispiel mit weiteren Vorteilen und Ausgestaltungen der Erfindung wird im Folgenden anhand der Zeichnung naher erläutert.
Dabei zeigt die einzige FIG eine Struktur eines erfindungsge- maßen SID-Rahmens.
Im Folgenden wird der der Erfindung zugrundeliegende techni- sehe Hintergrund, zunächst ohne Bezugnahme auf die Zeichnung, naher beschrieben.
In gegenwartigen skalierbaren Kodierungsverfahren für breit- bandige Sprach-Codecs implementierte Verfahren zur diskonti- nuierlichen Übertragung (DTX) unterstutzen für die Übertragung der Hintergrundrauschinformation derzeit nicht den skalierbaren Charakter, welcher für die Übertragung der Sprachinformation vorgesehen ist. Als derzeitige Umgehungslosung erfolgt eine Enkodierung entweder über die gesamte Bandbreite des Eingangsrauschsignals oder über einen Ausschnitt aus der Bandbreite des Eingangsrauschsignals. Aus diesem Grund besteht ein Bedarf für ver- besserte Verfahren.
In der Vergangenheit wurden hauptsachlich zwei Typen von Sprachcodecs entwickelt, einerseits schmalbandige Sprachcodecs wie z.B. 3GPP AMR, ITU-T G.729 und andererseits breit- bandige Sprachcodecs, wie z.B. 3GPP AMR-WB, ITU-T G.722. Ein schmalbandiger Sprachcodec enkodiert Sprachsignale mit einer Abtastfrequenz von 8 kHz mit einer Bandbreite welche üblicherweise im Frequenzbereich zwischen 300 und 3400 Hz liegt. Ein breitbandiger Sprachcodec enkodiert ein Sprachsignal mit einer Abtastfrequenz von 16 kHz bei einer Bandbreite in einem Frequenzbereich zwischen 50 und 7000 Hz.
Einige dieser Codecs verwenden DTX-Verfahren, also diskontinuierliche Ubertragungsverfahren, um die Gesamtubertragungs- rate im Kommunikationskanal zu reduzieren. Gemäß dem DTX- verfahren werden SID-Rahmen gesendet, wobei die Bandbreite der SID-Rahmen mit der Bandbreite des Sprachsignals korespon- diert. In einem SID-Rahmen wird das Hintergrundrauschen wahrend einer Sprechpause beschrieben.
Derzeit in der Entwicklung stehende Codecs konzentrieren sich auf eine skalierbare Kodierung. Mit Hilfe einer skalierbaren Ansatzes wird erreicht, dass das Ergebnis des Enkodiervor- gangs verschiedene Blocke enthalt, welche den schmalbandigen Anteil des ursprunglichen Sprachsignals enthalten, den breit- bandigen Anteil oder auch die volle Bandbreite des Sprachsignals enthalten, also z.B. einen Frequenzbereich zwischen 50 und 7000 Hz. Der breitbandige Anteil beginnt üblicherweise ab einer Frequenz von 4 kHz. Die gegenwärtigen DTX-Verfahren unterstützen derzeit nicht den skalierbaren Charakter von Codecs. Stattdessen erfolgt eine Kodierung entweder über die gesamte Bandbreite des Ein- gangsprachsignals oder über einen Ausschnitt aus der Bandbreite des Eingangssignals. Aus diesem Grund besteht ein Bedarf für verbesserte Verfahren.
Zur Verdeutlichung wird im Folgenden das Enkodierverfahren gemäß ITU-T-Standards G.729.1 beschrieben. Bei diesem Codec
G.729.1 handelt es sich um einen skalierbaren Sprachcodec, in welchem das DTX-Verfahren derzeit nicht skalierbar über die gesamte Bandbreite angewandt wird.
Das Codierverfahren lässt sich während einer aktiven Sprachperiode - in Abgrenzung zu einer als »Silent Period« erkannten Sprechpause - wie folgt charakterisieren:
Das Sprachsignal wird in zwei Anteile, nämlich einen schmal- bandigen (Lowband) Teil und einen breitbandigen (Highband) Anteil zerlegt. Beide Signale sind mit einer Abtastfrequenz von 8 kHz abgetastet. Die Aufteilung in einen schmalbandigen und einen breitbandigen Anteil erfolgt in einem speziellen Bandpassfilter, welcher auch als QMF (Quadrature Mirror FiI- ter) bezeichnet wird.
Der schmalbandige Anteil des Sprachsignals wird mit einer Datenrate von 8 und 12 kbit/s enkodiert. Zur Enkodierung des Sprachsignals wird ein CELP-Verfahren (Code Excited Linear Prediction) angewandt. Für Datenraten oberhalb von 14 kbit/s wird der schmalbandige Anteil weiter unter Berücksichtigung des »Transform Codec«-Abschnitts von G.729.1 modifiziert. Der breitbandige Anteil des aktuellen Rahmens - wiederum unter der Voraussetzung, dass dieser Sprachsignale enthält - wird mit einer Datenrate von 14 kbit/s unter Anwendung des TDBWE- Verfahrens (Time Domain Bandwidth Extension) enkodiert. Für Datenrate von über 14 kbit/s wird der »Transform Codecs- Abschnitt von G.729.1 angewandt.
Da der Standard G.729.1 keine Verfahren zur diskontinuierli- chen Übertragung bereitstellt, wird in Sprechpausen bzw. »non active voice periods« eine Umgehungslosung angewandt, welche im Folgenden beschrieben wird.
Das Sprachsignal wird ebenfalls in einen schmalbandigen und einen breitbandigen Anteil zerlegt, wobei beide Anteile mit einer Frequenz von 8 kHz abgetastet werden. Die Zerlegung erfolgt ebenfalls über ein QMF-Filter.
Der schmalbandige Anteil wird unter Verwendung einer schmal- bandigen SID-Information enkodiert. Diese schmalbandige SID- Information zu einem spateren Zeitpunkt in einem SID-Rahmen, welcher kompatibel zum Standard G.729 ist, an den Empfanger gesandt. Weitere wie oben beschriebene Maßnahmen können zu einer Verbesserung des schmalbandigen SID-Anteils beitragen.
Der breitbandige Anteil wird unter Anwendung eines modifizierten TDBWE-Verfahrens enkodiert. Wahrend einer sog. Uber- hangperiode (Hangover Period) wird das Sprachsignal weiterhin mit einer Datenrate von 14 kbit/s enkodiert, wahrend gleich- zeitig das wahrend der Sprechpause erkannte Hintergrundrauschen ausgewertet und entsprechende Parameter eingestellt werden. Die Auswertung des Hintergrundrauschens erfolgt hinsichtlich der Energie des Rauschsignals und hinsichtlich seiner Frequenzverteilung. Im Gegensatz zu dem vom Standard G.729.1 vorgesehenen TDBWE-Verfahren wird jedoch die zeitliche Feinstruktur nicht ausgewertet, sondern lediglich ein Durchschnitt der Energie über den Rahmen gebildet.
Im Folgenden wird eine Ausfuhrungsform des erfindungsgemaßen Verfahrens anhand der FIG erläutert. Die FIG zeigt einen SID-Rahmen mit getrennten Bereichen für einen schmalbandigen ersten Anteil LB (»Low Band«) , einen breitbandigen zweiten Anteil HB (»High Band«) und einen iter- mediären dritten Anteil ELB (»Enhanced Low Band«) .
Der erste Anteil LB enthält dabei enkodierte Hintergrundrauschparameter, welche mit einer Datenrate von 8 kbit/s oder darunter enkodiert sind. Die Datenlänge des ersten Anteils LB beträgt beispielsweise 15 Bit.
Der zweite Anteil HB enthält enkodierte Hintergrundrauschparameter, welche mit einer Datenrate zwischen 14 kbit/s und 32 kbit/s enkodiert sind. Die Datenlänge des zweiten Anteils HB beträgt beispielsweise 19 Bit.
Der dritte Anteil ELB enthält enkodierte Hintergrundrauschparameter, welche mit einer Datenrate von größer als 8kbit/s also beispielsweise 12 kbit/s enkodiert sind. Die Datenlänge des dritten Anteils ELB beträgt beispielsweise 9 Bit. Der Vorteil einer Definition des SID-Rahmens mit einem dritten
Anteil ELB besteht in einer Möglichkeit, ein Rauschsignal in einer im Vergleich zur herkömmlichen schmalbandigen Kodierungsweise gesteigerten Qualität wiederzugeben und dabei noch in Konformität zum Standard G.729. B zu bleiben.
Wahrend einer Sprechpause werden auf Seiten des Enkoders Charakteristika des Hintergrundrauschens angelernt. Die Charakteristika umfassen insbesondere die zeitliche Verteilung als auch die spektrale Form des Hintergrundrauschens. Für den An- lernvorgang wird ein Filterverfahren angewandt, welches zeitliche und spektrale Parameter des Hintergrundrauschens aus vorangegangenen Rahmen berücksichtigt. Ergeben sich signifikante Änderungen im Charakter oder in der Starke des Hintergrundrauschens, wird eine Entscheidung auf Basis von Grenz- wertparametern (Threshold Values) getroffen, ob ein Bedarf besteht, die angelernten Parameter zu aktualisieren.
Auf Seiten des Dekoders bzw. Empfangers wird folgendes Verfahren durchgeführt: Wenn ein »regulärer«, d.h. ein sprach- signalenthaltender Rahmen empfangen wird, wird die übliche Dekodierung ausgeführt. Die Datenrate für solche regulären Rahmen betragt üblicherweise 8 kbit/s oder darüber. Wenn ein SID-Rahmen empfangen wird, wird Komfortrauschen synthetisiert, wobei im Falle eines breitbandigen SID ein breitbandi- ges Komfortrauschen synthetisiert und mit einem ausgelesenen Verstärkungsfaktor ausgegeben wird.
Im Folgenden wird das erfindungsgemaße Verfahren mit weiteren Ausgestaltungen der Erfindung beschrieben.
Die Ausgestaltungen betreffen weitere Details zur Einbezie- hung des DTX-Verfahrens in breitbandige Codecs wie z.B.
G.729.1 und weiterhin Verfahren zur Modifizierung des TDBWE- Verfahrens, welche eine Synthetisierung von Komfortrauschen wahrend nicht-aktiver Rahmen (Non Active Frames), d.h. Rahmen ohne Sprachinformation, unterstutzen.
Gemäß einer Ausgestaltung ist folgendes Vorgehen vorgesehen. Produzieren einer schmalbandigen SID-Information zur Erzeugung eines G.729- bzw. G.729. B- kompatiblen SID- Rahmens (erster Anteil LB des erfindungsgemaßen SID- Rahmens)
Produzieren einer breitbandigen SID-Information unter Verwendung eines modifizierten TDBWE-Verfahrens (zweiter Anteil HB des erfindungsgemaßen SID-Rahmens) Optional werden Verbesserungen bezuglich der schmalbandi- gen und/oder der breitbandigen SID-Informationen vorgenommen .
Das Hintergrundrauschen wird wahrend einer Phase, welche einem Senden der ersten SID-Rahmen vorausgeht, bezuglich der Energie- und/oder Frequenzverteilung analysiert bzw. »angelernt«.
SID-Rahmen werden gesendet, wenn eine signifikante Änderung des breitbandigen Anteils des Hintergrundrauschens detektiert wird oder wenn eine Aktualisierung der schmalbandigen SID-Informationen gesendet werden soll. Eine Implementierung dieses Ausfuhrungsbeispiels erfolgt in folgenden Phasen:
Mit Hilfe eines VAD-Verfahrens wird eine aktive Sprach- phase bzw. eine Sprechpause definiert.
Wird durch das VAD-Verfahren ein Wechsel in eine Sprechpause angezeigt, wird eine Uberhangperiode (Hang Over Pe- riod) gestartet. Wahrend der Uberhangperiode wird die Datenrate des Enkodierers auf 14kbit/s reduziert, wenn die vorhergehende Datenrate einen höheren Wert aufgewiesen hat. Für den Fall dass die vorhergehende Datenrate des Enkodierers bereits Werte um 12 kbit/s betragen hat, wird die Datenrate auf einen Wert von 8 kbit/s reduziert. Wahrend der Uberhangperiode wird das Hintergrundrauschen bezuglich des schmalbandigen Anteils in analoger Weise zum Vorgehen in Standard G.729 angelernt, jedoch unter Verwendung einer höheren Anzahl von Rahmen. Hierbei kann optional ein Filterverfahren angewandt werden, durch welches erreicht wird, dass aktuellen Rahmen eine höhere Wichtigkeit zugeordnet wird als vorausgegangenen Rahmen. Wahrend der Uberhangperiode wird das Hintergrundrauschen darüber hinaus im breitbandigen Anteil angelernt. Optional wird für eine Vereinfachung der Implementierung, insbesondere zur Reduzierung des Speicherplatzbedarfs, ein modifiziertes TDBWE-Verfahren eingesetzt, welche durch eine vereinfachte Enkodierung im Zeitbereich gekennzeichnet ist. Optional kann eine weitere Vereinfachung im modifizierten TDBWE-Verfahren dadurch erreicht werden, dass die Enkodierung im Zeitbereich nur mit der Energie des Signals im Zeitbereich korrespondiert. Eine weitere optionale vereinfachte Enkodierung besteht darin, spektrale Glattungsverfahren anzuwenden, da die Energie im Zeitbereich und im Frequenzbereich als Folge des Parsevaltheo- rems gleich Werte liefert. Auch im breitbandigen Anteil des Hintergrundrauschens können optional weitere Filterungsmaßnahmen angewandt werden, welche das Ziel haben, aktuellen Rahmen eine höhere Wichtigkeit als vorausgegangenen Rahmen zuzuordnen. Nach Beendigung der Überhangperiode wird ein erster SID- Rahmen gesendet, welche eine grobe Repräsentierung des Hintergrundrauschens enthält. Die grobe Beschreibung des Hintergrundrauschens wurde während der Überhangperiode angelernt.
Solange durch die VAD keine aktive Phase (sprechen) de- tektiert wurde, wird auf Seiten des Dekoders bzw. Empfängers ein Komfortrauschen auf Basis der empfangenen SID- Rahmen synthetisiert. Änderungen des Hintergrundrauschens werden im schmalban- digen Anteil des SID-Rahmens detektiert, wobei ein ähnliches Verfahren zu G.729 verfolgt wird, wenngleich verschiedene Parameter berücksichtigt werden. Im breitbandigen Anteil werden gefilterte Energieparame- ter zur Beschreibung des Hintergrundrauschens benutzt.
Diese umfassen z.B. Parameter von Einhüllkurven im Zeitbereich tenv_fidx und/oder Parameter von Einhüllkurven im Frequenzbereich fenv fidx[i], wobei ein jeweiliger Index idx einen jeweiligen Rahmen identifiziert und wobei die Einhüllkurve im Frequenzbereich von einer geeigneten Anzahl von Frequenzwerten i={l,..., NB-SUBBANDS} zur Beschreibung der spektralen Eigenschaften des Hintergrundrauschens gebildet wird. Die gefilterten Energieparameter werden von den in G.729.1 definierten TDBWE-Parameter ab- geleitet unter Verwendung geeigneter Tiefpassfilter:
tenv _fιck = atenv tenvιdx + (1 - atenv ) tenv _ fιdxΛ
Mv _ fιck [i] = atenv fenvιck [i] + (1 - atenv ) • fenv _ fιck_γ[ϊ\
Welche auf die Einhüllparameter im Frequenz- und im Zeitbereich entsprechend angewandt werden.
Änderungen im breitbandigen Anteil der Energieparameter werden überwacht und detektiert, indem die gefilterten Energieparameter des gegenwärtigen Rauschsignals verglichen werden mit zwei Sätzen aus Vergleichswerten dieser Parameter, wobei ein Satz von Vergleichswerten die Para- meter aus dem vorangegangenem Rahmen mit dem Index idx-1 ist .
temp _ d = 20 • log(2) tenv_fιck -tenv_fιdxA log(lθ)
]npC?λ 1 NB SUBBANDS spec d = 20. gK ' Y \fenv fji] - fenv Lx , [i]\
F ~ log(lθ) NB_SUBBANDS tf' " " '
Und wobei der andere Satz aus Parametern des zuletzt übertragenen Rahmens mit dem Index last tx besteht. Wenn einer der Parameterunterschiede (temp_d, spec_d, temp_ch, spec_ch) einen geeignet gewählten Grenzwert überschreitet:
temp _ ch = 20 • °g • \tenv _fιdx - tenv _ flast tx log(lθ)
Figure imgf000017_0001
muss ein neuer SID-Update-Rahmen gesendet werden.
Sobald durch die VAD eine Sprachperiode erkannt wird, wird das Sprachsignal mit der benötigten Übertragungsrate übertragen und die Synthetisierung von Komfortrauschen auf der Dekoderseite beendet. Somit stellt sich ein regulärer Dekodierungsbetrieb ein wie in G.729.1.

Claims

Patentansprüche
1. Verfahren zur Enkodierung eines SID-Rahmens (SID) für eine Übermittlung von Hintergrundrauschinformationen in Anwendung eines skalierbaren Sprachsignalkodierungsverfahren mit folgenden Schritten:
Enkodierung eines schmalbandigen ersten Anteils (LB) und eines breitbandigen zweiten Anteils (HB) der Hintergrundrauschinformation; Bildung des SID-Rahmens (SID) mit getrennten Bereichen für den ersten (LB) und den zweiten (HB) Anteil.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass ein erweiterter schmalbandiger dritter Anteil (ELB) enkodiert wird und dass die Bildung des SID-Rahmens mit einem zusatzlichen getrennten Bereich für den dritten Anteil (ELB) gebildet wird.
3. Verfahren nach einem der vorgenannten Ansprüche, dadurch gekennzeichnet, dass der erste Anteil (LB) der Hintergrundrauschinformation gemäß Kodierungsrichtlinien des an sich bekannten Standards G.729. B enkodiert werden.
4. Verfahren nach einem der vorgenannten Ansprüche, dadurch gekennzeichnet, dass der zweite Anteil (HB) der Hintergrundrauschinformation gemäß eines modifizierten TDBWE-Verfahrens enkodiert wird.
5. Verfahren nach einem der vorgenannten Ansprüche, dadurch gekennzeichnet, dass Wahrend einer Uberhangperiode Filterverfahren zur Zuordnung einer höheren Wichtigkeit eines aktuellen Rahmens als vorausgegangenen Rahmen angewandt werden.
6. Codec mit Mitteln zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 5.
7. Codec nach Anspruch 6, gekennzeichnet durch eine Implemen- tierung im an sich bekannten ITU-T Standard G.729.1.
PCT/EP2009/051118 2008-02-19 2009-02-02 Verfahren und mittel zur enkodierung von hintergrundrauschinformationen WO2009103608A1 (de)

Priority Applications (6)

Application Number Priority Date Filing Date Title
KR1020127019596A KR101364983B1 (ko) 2008-02-19 2009-02-02 Sid 프레임을 인코딩하기 위한 방법
CN2009801057752A CN101952886B (zh) 2008-02-19 2009-02-02 用于对背景噪声信息进行编码的方法和装置
JP2010547137A JP5361909B2 (ja) 2008-02-19 2009-02-02 背景ノイズ情報を符号化する方法および手段
EP09711908.5A EP2245621B1 (de) 2008-02-19 2009-02-02 Verfahren und mittel zur enkodierung von hintergrundrauschinformationen
US12/867,969 US20100318352A1 (en) 2008-02-19 2009-02-02 Method and means for encoding background noise information
US14/880,490 US20160035360A1 (en) 2008-02-19 2015-10-12 Method and Means of Encoding Background Noise Information

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102008009719.5 2008-02-19
DE102008009719A DE102008009719A1 (de) 2008-02-19 2008-02-19 Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US12/867,969 A-371-Of-International US20100318352A1 (en) 2008-02-19 2009-02-02 Method and means for encoding background noise information
US14/880,490 Continuation US20160035360A1 (en) 2008-02-19 2015-10-12 Method and Means of Encoding Background Noise Information

Publications (1)

Publication Number Publication Date
WO2009103608A1 true WO2009103608A1 (de) 2009-08-27

Family

ID=40652248

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2009/051118 WO2009103608A1 (de) 2008-02-19 2009-02-02 Verfahren und mittel zur enkodierung von hintergrundrauschinformationen

Country Status (8)

Country Link
US (2) US20100318352A1 (de)
EP (1) EP2245621B1 (de)
JP (1) JP5361909B2 (de)
KR (2) KR101364983B1 (de)
CN (1) CN101952886B (de)
DE (1) DE102008009719A1 (de)
RU (1) RU2461080C2 (de)
WO (1) WO2009103608A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10089993B2 (en) 2014-07-28 2018-10-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for comfort noise generation mode selection

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101483495B (zh) * 2008-03-20 2012-02-15 华为技术有限公司 一种背景噪声生成方法以及噪声处理装置
CN103187065B (zh) 2011-12-30 2015-12-16 华为技术有限公司 音频数据的处理方法、装置和***
EP2936486B1 (de) 2012-12-21 2018-07-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Hinzufügung angenehmen rauschens zur modellierung eines hintergrundrauschens bei niedrigen bitraten
AU2013366642B2 (en) * 2012-12-21 2016-09-22 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Generation of a comfort noise with high spectro-temporal resolution in discontinuous transmission of audio signals
MX345622B (es) * 2013-01-29 2017-02-08 Fraunhofer Ges Forschung Decodificador para generar una señal de audio mejorada en frecuencia, método de decodificación, codificador para generar una señal codificada y metodo de codificación utilizando informacion secundaria de selección compacta.
CN104217723B (zh) * 2013-05-30 2016-11-09 华为技术有限公司 信号编码方法及设备
MY181026A (en) * 2013-06-21 2020-12-16 Fraunhofer Ges Forschung Apparatus and method realizing improved concepts for tcx ltp
JP6035270B2 (ja) * 2014-03-24 2016-11-30 株式会社Nttドコモ 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム
KR101701623B1 (ko) * 2015-07-09 2017-02-13 라인 가부시키가이샤 VoIP 통화음성 대역폭 감소를 은닉하는 시스템 및 방법
US10978096B2 (en) * 2017-04-25 2021-04-13 Qualcomm Incorporated Optimized uplink operation for voice over long-term evolution (VoLte) and voice over new radio (VoNR) listen or silent periods

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1808852A1 (de) * 2002-10-11 2007-07-18 Nokia Corporation Verfahren zur Interoperation zwischen adaptiven Breitband-Codecs mit unterschiedlichen Raten und Breitband-Codecs mit mehreren Betriebsarten und variabler Bitrate
US20080027716A1 (en) * 2006-07-31 2008-01-31 Vivek Rajendran Systems, methods, and apparatus for signal change detection

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI105001B (fi) * 1995-06-30 2000-05-15 Nokia Mobile Phones Ltd Menetelmä odotusajan selvittämiseksi puhedekooderissa epäjatkuvassa lähetyksessä ja puhedekooderi sekä lähetin-vastaanotin
US5960389A (en) 1996-11-15 1999-09-28 Nokia Mobile Phones Limited Methods for generating comfort noise during discontinuous transmission
RU2237296C2 (ru) * 1998-11-23 2004-09-27 Телефонактиеболагет Лм Эрикссон (Пабл) Кодирование речи с функцией изменения комфортного шума для повышения точности воспроизведения
US7124079B1 (en) * 1998-11-23 2006-10-17 Telefonaktiebolaget Lm Ericsson (Publ) Speech coding with comfort noise variability feature for increased fidelity
US6424938B1 (en) * 1998-11-23 2002-07-23 Telefonaktiebolaget L M Ericsson Complex signal activity detection for improved speech/noise classification of an audio signal
US6397177B1 (en) * 1999-03-10 2002-05-28 Samsung Electronics, Co., Ltd. Speech-encoding rate decision apparatus and method in a variable rate
CA2290037A1 (en) * 1999-11-18 2001-05-18 Voiceage Corporation Gain-smoothing amplifier device and method in codecs for wideband speech and audio signals
JP3761795B2 (ja) * 2000-04-10 2006-03-29 三菱電機株式会社 ディジタル回線多重化装置
US6889187B2 (en) * 2000-12-28 2005-05-03 Nortel Networks Limited Method and apparatus for improved voice activity detection in a packet voice network
US20030120484A1 (en) * 2001-06-12 2003-06-26 David Wong Method and system for generating colored comfort noise in the absence of silence insertion description packets
US20030112758A1 (en) * 2001-12-03 2003-06-19 Pang Jon Laurent Methods and systems for managing variable delays in packet transmission
RU2331933C2 (ru) * 2002-10-11 2008-08-20 Нокиа Корпорейшн Способы и устройства управляемого источником широкополосного кодирования речи с переменной скоростью в битах
US7391768B1 (en) * 2003-05-13 2008-06-24 Cisco Technology, Inc. IPv4-IPv6 FTP application level gateway
US20050004793A1 (en) * 2003-07-03 2005-01-06 Pasi Ojala Signal adaptation for higher band coding in a codec utilizing band split coding
ES2634511T3 (es) * 2004-07-23 2017-09-28 Iii Holdings 12, Llc Aparato de codificación de audio y procedimiento de codificación de audio
US20060149536A1 (en) * 2004-12-30 2006-07-06 Dunling Li SID frame update using SID prediction error
CA2593247A1 (en) * 2005-01-10 2006-11-16 Quartics, Inc. Integrated architecture for the unified processing of visual media
CN100592389C (zh) * 2008-01-18 2010-02-24 华为技术有限公司 合成滤波器状态更新方法及装置
EP1897085B1 (de) * 2005-06-18 2017-05-31 Nokia Technologies Oy System und verfahren zur adaptiven übertragung von komfortrauschparametern während einer nicht durchgehenden sprachübertragung
US7546237B2 (en) * 2005-12-23 2009-06-09 Qnx Software Systems (Wavemakers), Inc. Bandwidth extension of narrowband speech
US8260609B2 (en) * 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
US7796626B2 (en) * 2006-09-26 2010-09-14 Nokia Corporation Supporting a decoding of frames
CN101246688B (zh) * 2007-02-14 2011-01-12 华为技术有限公司 一种对背景噪声信号进行编解码的方法、***和装置
US8032359B2 (en) * 2007-02-14 2011-10-04 Mindspeed Technologies, Inc. Embedded silence and background noise compression
KR101290622B1 (ko) * 2007-11-02 2013-07-29 후아웨이 테크놀러지 컴퍼니 리미티드 오디오 복호화 방법 및 장치
US8554550B2 (en) * 2008-01-28 2013-10-08 Qualcomm Incorporated Systems, methods, and apparatus for context processing using multi resolution analysis
CN101335000B (zh) * 2008-03-26 2010-04-21 华为技术有限公司 编码的方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1808852A1 (de) * 2002-10-11 2007-07-18 Nokia Corporation Verfahren zur Interoperation zwischen adaptiven Breitband-Codecs mit unterschiedlichen Raten und Breitband-Codecs mit mehreren Betriebsarten und variabler Bitrate
US20080027716A1 (en) * 2006-07-31 2008-01-31 Vivek Rajendran Systems, methods, and apparatus for signal change detection

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
BERND GEISER ET AL: "Bandwidth Extension for Hierarchical Speech and Audio Coding in ITU-T Rec. G.729.1", IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 15, no. 8, 1 November 2007 (2007-11-01), IEEE SERVICE CENTER, NEW YORK, NY, US, pages 2496 - 2509, XP011192970, ISSN: 1558-7916 *
BRUHN S ET AL: "Continuous and discontinuous power reduced transmission of speech inactivity for the GSM system", IEEE GLOBECOM 1998, vol. 4, 8 November 1998 (1998-11-08) - 12 November 1998 (1998-11-12), SYDNEY, NSW, AUSTRALIA, pages 2091 - 2096, XP002529976, ISBN: 0-7803-4984-9 *
SERIZAWA M ET AL: "A silence compression algorithm for multi-rate/dual-bandwidth MPEG-4 CELP standard", IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, ICASSP '00, vol. 2, 5 June 2000 (2000-06-05) - 9 June 2000 (2000-06-09), PISCATAWAY, NJ, USA, pages 1173 - 1176, XP010504937 *
SETIAWAN P ET AL: "On the ITU-T G.729.1 Silence Compression Scheme", EUSIPCO-2008, 25 August 2008 (2008-08-25), LAUSANNE, SWITZERLAND, pages 1 - 5, XP002526622, Retrieved from the Internet <URL:http://www.eurasip.org/Proceedings/Eusipco/Eusipco2008/papers/1569104920.pdf> [retrieved on 20090529] *
SOLLAUD A: "G.729.1 RTP Payload Format update: DTX support", INTERNET CITATION, 8 February 2008 (2008-02-08) - 8 February 2008 (2008-02-08), XP002526621, Retrieved from the Internet <URL:http://www.ietf.org.nyud.net:8080/proceedings/08mar/IDs/draft-ietf-avt-rfc4749-dtx-update-00.txt> [retrieved on 20080208] *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10089993B2 (en) 2014-07-28 2018-10-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for comfort noise generation mode selection
RU2696466C2 (ru) * 2014-07-28 2019-08-01 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для выбора режима генерирования комфортного шума
US11250864B2 (en) 2014-07-28 2022-02-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for comfort noise generation mode selection
US12009000B2 (en) 2014-07-28 2024-06-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for comfort noise generation mode selection

Also Published As

Publication number Publication date
US20100318352A1 (en) 2010-12-16
DE102008009719A1 (de) 2009-08-20
KR101364983B1 (ko) 2014-02-20
RU2010138563A (ru) 2012-04-10
US20160035360A1 (en) 2016-02-04
JP2011512563A (ja) 2011-04-21
JP5361909B2 (ja) 2013-12-04
RU2461080C2 (ru) 2012-09-10
CN101952886B (zh) 2013-03-06
KR20100120217A (ko) 2010-11-12
EP2245621B1 (de) 2019-05-01
EP2245621A1 (de) 2010-11-03
CN101952886A (zh) 2011-01-19
KR20120089378A (ko) 2012-08-09

Similar Documents

Publication Publication Date Title
EP2245621B1 (de) Verfahren und mittel zur enkodierung von hintergrundrauschinformationen
DE60120734T2 (de) Vorrichtung zur erweiterung der bandbreite eines audiosignals
DE69917677T2 (de) SPRACHKODIERUNG MIT VERäNDERBAREM KOMFORT-RAUSCHEN FüR VERBESSERTER WIEDERGABEQUALITäT
DE69535723T2 (de) Verfahren und vorrichtung zur sprachkodierung mit reduzierter, variabler bitrate
DE60117471T2 (de) Breitband-signalübertragungssystem
DE60218252T2 (de) Verfahren und Vorrichtung zur Sprachtranskodierung
DE60122203T2 (de) Verfahren und system zur erzeugung von behaglichkeitsrauschen bei der sprachkommunikation
DE69721349T2 (de) Sprachkodierung
EP1953739B1 (de) Verfahren und Vorrichtung zur Geräuschsunterdrückung bei einem decodierten Signal
EP3217583B1 (de) Decodierer und verfahren zum decodieren einer folge von datenpaketen
DE69730721T2 (de) Verfahren und vorrichtungen zur geräuschkonditionierung von signalen welche audioinformationen darstellen in komprimierter und digitalisierter form
DE60027956T2 (de) Sprachkodierung mit variabler BIT-Rate
EP1338004A1 (de) Verfahren und vorrichtung zum erzeugen bzw. decodieren eines skalierbaren datenstroms unter berücksichtigung einer bitsparkasse, codierer und skalierbarer codierer
EP2245620B1 (de) Verfahren und mittel zur enkodierung von hintergrundrauschinformationen
EP1327243A1 (de) Verfahren und vorrichtung zum erzeugen eines skalierbaren datenstroms und verfahren und vorrichtung zum decodieren eines skalierbaren datenstroms
EP1677286A1 (de) Verfahren zur Anpassung von Comfort Noise Generation Parametern
EP2245622B1 (de) Verfahren und mittel zur dekodierung von hintergrundrauschinformationen
DE2303497C2 (de) Verfahren zur Übertragung von Sprachsignalen
EP1390946B1 (de) Verfahren zur schätzung eines codecparameters
EP1834322B1 (de) Verfahren zum codieren eines analogen signals
DE102005000830A1 (de) Verfahren zur Bandbreitenerweiterung
DE19906223B4 (de) Verfahren und Funk-Kommunikationssystem zur Sprachübertragung, insbesondere für digitale Mobilkummunikationssysteme
WO1994010682A1 (de) Verfahren zur sprachcodierung
EP1390947A2 (de) Verfahren zum signalempfang in einem digitalen kommunikationssystem
EP2380169A1 (de) Verfahren und mittel zur skalierbaren verbesserung der qualität eines signalcodierverfahrens

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200980105775.2

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09711908

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 5197/DELNP/2010

Country of ref document: IN

WWE Wipo information: entry into national phase

Ref document number: 2009711908

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 12867969

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2010547137

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 20107020943

Country of ref document: KR

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 2010138563

Country of ref document: RU