EP2245622A1 - Method and means for decoding background noise information - Google Patents

Method and means for decoding background noise information

Info

Publication number
EP2245622A1
EP2245622A1 EP09712583A EP09712583A EP2245622A1 EP 2245622 A1 EP2245622 A1 EP 2245622A1 EP 09712583 A EP09712583 A EP 09712583A EP 09712583 A EP09712583 A EP 09712583A EP 2245622 A1 EP2245622 A1 EP 2245622A1
Authority
EP
European Patent Office
Prior art keywords
time
entering
phase
broadband
decoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP09712583A
Other languages
German (de)
French (fr)
Other versions
EP2245622B1 (en
Inventor
Panji Setiawan
Stefan Schandl
Herve Taddei
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unify GmbH and Co KG
Original Assignee
Siemens Enterprise Communications GmbH and Co KG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Enterprise Communications GmbH and Co KG filed Critical Siemens Enterprise Communications GmbH and Co KG
Publication of EP2245622A1 publication Critical patent/EP2245622A1/en
Application granted granted Critical
Publication of EP2245622B1 publication Critical patent/EP2245622B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Definitions

  • the invention relates to methods and means for decoding background noise information in speech signal coding methods.
  • Such a limited frequency range is also provided in many speech signal coding methods for today's digital telecommunications.
  • a bandwidth limitation of the analog signal Prior to a coding process, a bandwidth limitation of the analog signal is performed for this purpose.
  • a codec is used which, due to the described bandwidth limitation in the frequency range between 300 Hz and 3400 Hz, is also referred to below as narrow-band speech codec (Narrow Band Speech Codec).
  • the term codec is understood to mean both the coding rule for the digital coding of audio signals and the decoding rule for the decoding of data with the aim of reconstructing the audio signal.
  • a narrowband speech codec is known from ITU-T Recommendation G.729.
  • a transmission of a narrow-band voice signal with a data rate of 8 kbit / s is provided.
  • Band Speech Codec are known, which provide a coding of one in an extended frequency range to improve the Hor- impressive. Such an extended frequency range lies for example between a frequency of 50 Hz and 7000 Hz.
  • a broadband voice codec is for example from the ITU-T Recommendation G.729. EV known.
  • Speech codecs made scalable.
  • Scalability means that the transmitted coded data contain various demarcated blocks which contain the narrowband component, the broadband component and / or the full bandwidth of the coded voice signal.
  • such a scalable design allows for backwards compatibility on the receiver side and, on the other hand, offers a simple possibility of adapting the data rate and the size of transmitted data frames in the transmission channel in the case of limited data transmission capacities.
  • a compression of the data to be transmitted is provided. Compression is achieved, for example, by coding methods, in which parameters for an excitation signal and filter parameters are determined for coding the speech data. The filter parameters and parameters specifying the excitation signal are then transmitted to the receiver. There, a synthetic speech signal is synthesized using the codec, which is as similar as possible to the original speech signal with regard to a subjective impression of hearing. With the aid of this method, also known as "analysis-by-synthesis", the determined and digitized samples (samples) are not transmitted themselves but determined parameters which enable a receiver-side synthesis of the speech signal.
  • a further measure for reducing the data transmission rate is provided by a method for discontinuous transmission (Discontinuous Transmission), which is also known in the art as DTX.
  • the fundamental goal DTX is a reduction in the data transfer rate in the event of a speech break.
  • a voice pause detection (VAD) is used on the transmitter side, which detects a pause in speech when the signal falls below a certain signal level.
  • VAD voice pause detection
  • Comfort noise is noise that is synthesized to fill silence phases on the receiver's side.
  • the comfort noise serves as a subjective impression of a continuing connection, without claiming the data transmission rate intended for the transmission of speech signals. In other words, less effort is required to code the speech data for the transmitter-side coding of the noise. For a receiver-side still perceived as realistic synthesis - i.
  • Decoding - Comfort noise transmits data at a much lower data rate.
  • the data transmitted here are also referred to in the professional world as the SID (Meaning Insertion Description).
  • the aforementioned scalable wideband speech codecs usually support different data transmission rates in a bandwidth range of 50 to 7000 Hz.
  • Possible data rates for encoding the voice information include 8, 12, 14, 16, ..., 32 kbit / s, which are used, for example, in the G.729.1 standard.
  • the data rates of 8 and 12 kbit / s are applied to narrowband signals (50Hz to 4kHz). Data rates greater than 12 kbit / s are applied to the upper frequency band of 4 to 7 kHz.
  • a sudden change from a narrowband to a broadband data rate is known to cause a disturbing effect on a human recipient.
  • Such a transition occurs, for example, as a result of a truncation of the data stream (bitstream transformation), which is caused, for example, by the transmission network between transmitter and receiver, for example as a result of the establishment of further additional connections or due to a congestion in the transmission network.
  • the said clipping leads to a change in the data rate and finally to a transition from a broadband to a narrowband transmission of the speech signal.
  • a saving of the data transmission rate for the transmission of the respective data frames is possible.
  • the DTX method is used exactly when a corresponding frame is characterized as a speech break.
  • a reduced data transmission rate on transmitted frames is achieved due to two factors. First, the encoder does not need to send all inactive frames to the decoder. Second, a transmitted SID frame occupies much fewer bits than a voice data frame.
  • VAD Paging detection
  • the encoder then sends a specially marked frame, a Silence Insertion Descriptor (SID) frame, to the decoder.
  • SID Silence Insertion Descriptor
  • the decoder synthesizes comfort noise based on the information contained in a SID frame, and the decoder can determine, based on the SID frame, whether the contained noise information is narrowband or broadband information.
  • bit rate switching Changing the bit rate (bit rate switching) between narrowband and wideband information is a common scenario for any scalable wideband speech codec.
  • a treatment of a data rate change during a normal speech phase i. in the absence of pauses in speech, although adequately described in the literature, a treatment on entry into a DTX phase is currently still unknown.
  • the active speech frames are narrow-band decoded and the background noise is played back in pauses in broadband.
  • the object of the invention is to specify a method for changing a data rate of SID frames during a speech pause, which results in an improved quality of the signal synthesized on the decoder.
  • a basic idea of the invention is a determination of information about the course of the bandwidth switchover
  • information about the percentage of broadband active speech frames in comparison to narrowband active speech frames is collected on the decoder side during the speech phase.
  • information on the nature of the background noise is not collected until the time of a change to a speech break, as has hitherto been suggested by the prior art.
  • a high percentage of broadband active speech frames indicates that the codec prefers broadband use and therefore there is a need to broadly synthesize noise information during a DTX phase, i. to decode.
  • narrow-band noise is generated on the decoder's side when entering a DTX phase, even if the received SID frames require a synthesizer - i. Decoding - would allow a broadband noise.
  • the object of the invention to provide a method for changing a data rate of SID frames during a speech break more than solved.
  • the change to be made between noise information with different data rate according to the object is refined according to the inventive solution presented here into a determination of a proportion of noise information with different data rates.
  • the proportion is adjustable in contrast to a change in any ratio between noise information with different data rate.
  • the method according to the invention thus achieves the object of the invention to achieve an improved quality of the signal synthesized on the decoder.
  • a decision is made that a noise signal having a certain quality (ie, wideband or narrowband) is synthesized during a speech pause a case may arise in which a truncation occurs in the last few frames during an active speech phase on the part of the network the active data frame took place.
  • a predominantly narrow-band decoding of the background noise information first takes place, which after a settable period of time transitions into a predominantly wideband decoding.
  • Such a transition is thus preferably quasi-continuous, with a Transition to discrete times - hence "quasi" -continuous - is set to a certain share factor.
  • the following values for the proportion factor have proven to be particularly advantageous for subjective human hearing: at the time of entering the DTX phase, a proportion factor of 0, and consequently only narrowband noise; at a time of 20 ms after entering the DTX phase, a share factor of 0.09525986892242; at a time of 40 ms after entering the DTX phase, a proportion factor of 0.19753086419753; at a time of 60 ms after entering the DTX phase, a share factor of 0.36595031245237; at a time of 80 ms after entering the DTX phase, a proportion factor of 0.62429507696997; and; at a time of 100 ms after entering the DTX phase, a share factor of 1, hence exclusively broadband
  • the codec used preferred a narrow-band reproduction mode and / or a broadband transmission method in the past was not ensured by the transmission network. This may lead to the case that few active speech frames arrive at the receiving decoder as wideband speech frames before receiving first SID frames there.
  • a predominantly wideband decoding of the background noise information first takes place, which after a settable period of time transitions into a predominantly narrowband decoding.
  • Such a transition is preferably quasi-continuous analogous to the development described above, wherein a transition to discrete times is set to a certain proportion factor.
  • the proportion factor is set with values as above, but in reverse order.
  • Showing: 1 shows a time representation of a data rate between a transmitter and a receiver with a plurality of bandwidth switches and an entry into a speech pause, wherein SID frames are transmitted;
  • Fig. 2A is a schematic illustration of a first scenario of bandwidth switching
  • FIG. 2B shows a schematic illustration of a second scenario of bandwidth switching
  • FIG. 3 A switching process executed on the decoder side with a quasi-continuous transition from a narrow-band to a broad-band noise signal quality.
  • FIG. 1 shows a time transmission of voice data frames with a respective data rate DR and, as of a third time t3, a transmission of SID frames.
  • a transmission of broadband active speech frames takes place with a data rate of 32 kbit / s. From the time t1, a switchover to a data rate of 22 kbit / s and from a second time t2 to a data rate of 12 kbit / s. A data rate of 12 kbit / s already corresponds to a narrowband speech frame.
  • FIG. 2A and FIG. 2B show two possible scenarios for a progression of the data rate DR over time t.
  • a transmission is largely narrow-band due to restrictions of the network or due to other circumstances, in the example of FIG. 2A at 8 kbit / s, while at a few points in time, between a first time t 1 and a second time t 2, exceptionally a broadband. dige transmission with 32 kbit / s takes place.
  • FIG. 2B again shows a situation in reverse, namely a predominantly wideband transmission mode with 32 kbit / s and an exceptionally short, narrowband transmission method between a fourth time t4 and a fifth time t5.
  • information about the proportion of broadband active speech frames in comparison to narrowband active speech frames is collected on the part of the decoder during the speech phase.
  • the percentage of broadband active speech frames is to be described as very low, while in the example of FIG. tual proportion of broadband active speech frames.
  • FIG. 3 illustrates a design of the noise signal following a scenario according to FIG. 2B, in which a requirement has been determined on the basis of the decoder-side determined percentage share of broadband active speech frames, and broadband noise information during the DTX phase to synthesize.
  • Transition from a narrowband speech signal to a broadband noise signal quasi-continuous which has proven to be the most favorable embodiment for a subjective Horempfinden a human recipient, is started at this time TIME with an exclusively narrow-band signal, ie with a proportion HB- SHARE of the wideband noise of 0.
  • the wideband noise is 1 or 100%.
  • a further embodiment of the invention analogously provides for a transition from a wideband speech signal to a narrowband noise signal.
  • a slightly modified scenario is assumed in which, unlike the scenario illustrated in FIG. 2A, shortly before time t3, a change-not shown-to a broadband transmission at 32 kbit / s takes place , Despite this "peak", the percentage of broadband active speech frames remains very low, so that now in transition to the DTX phase, a noise signal is to be synthesized that broadband begins, however - due to the predominantly narrow-band transmission history and thus expected for the future Continuation of the narrow-band transfer character - to be converted into a narrow-band noise signal. To make this transition from a broadband
  • an exclusively broadband signal is entered to enter the DTX phase, ie with a HB-SHARE component of the broadband noise of 1.
  • the narrow-band noise component is 0
  • the values proposed above are advantageously set in an inverse row. This would correspond to a curve mirrored on the ordinate HB-SHARE according to FIG. 3.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephonic Communication Services (AREA)

Abstract

A basic idea of the invention is to ascertain information on the course of the bit rate switching during an active speech phase. According to the invention, during the speech phase, information on the percentage proportion of broadband active speech frames in comparison to narrowband active speech frames is compiled on the part of the decoder. A high percentage proportion of broadband active speech frames indicates that a broadband use is preferred on the part of the codec and therefore a need exists for synthesizing noise information in broadband form during a DTX phase.

Description

Beschreibungdescription
Verfahren und Mittel zur Dekodierung von HintergrundrauschinformationenMethod and means for decoding background noise information
Die Erfindung betrifft Verfahren und Mittel zur Dekodierung von Hintergrundrauschinformationen bei Sprachsignalkodie- rungsverfahren .The invention relates to methods and means for decoding background noise information in speech signal coding methods.
Für Telefongespräche ist seit den Anfangen der Telekommunikation eine Bandbreitenbeschrankung für eine analoge Sprach- ubertragung vorgesehen. Die Sprachubertragung erfolgt auf einem eingeschränkten Frequenzbereich von 300 Hz bis 3400 Hz.For telephone calls, since the beginning of telecommunications, a bandwidth restriction has been provided for analogue voice transmission. The voice transmission takes place over a restricted frequency range from 300 Hz to 3400 Hz.
Ein solcher eingeschränkter Frequenzbereich ist auch bei vielen Sprachsignalkodierungsverfahren für die heutige digitale Telekommunikation vorgesehen. Vor einem Kodiervorgang wird hierzu eine Bandbreitenbegrenzung des analogen Signals durchgeführt. Zur Kodierung und zur Dekodierung kommt dabei ein Codec zum Einsatz, welcher aufgrund der beschriebenen Bandbreitenbeschrankung im Frequenzbereich zwischen 300 Hz und 3400 Hz im Folgenden auch als schmalbandiger Sprach-Codec (Narrow Band Speech Codec) bezeichnet wird. Unter dem Begriff Codec wird dabei sowohl die Kodiervorschrift zur digitalen Kodierung von Audiosignalen als auch die Dekodiervorschrift zur Dekodierung von Daten mit dem Ziel einer Rekonstruktion des Audiosignals verstanden.Such a limited frequency range is also provided in many speech signal coding methods for today's digital telecommunications. Prior to a coding process, a bandwidth limitation of the analog signal is performed for this purpose. For coding and decoding, a codec is used which, due to the described bandwidth limitation in the frequency range between 300 Hz and 3400 Hz, is also referred to below as narrow-band speech codec (Narrow Band Speech Codec). The term codec is understood to mean both the coding rule for the digital coding of audio signals and the decoding rule for the decoding of data with the aim of reconstructing the audio signal.
Ein schmalbandiger Sprach-Codec ist beispielsweise aus der ITU-T-Empfehlung G.729 bekannt. Mittels der dort beschriebenen Kodiervorschrift ist eine Übertragung eines schmalbandi- gen Sprachsignals mit einer Datenrate von 8 kbit/s vorgesehen .For example, a narrowband speech codec is known from ITU-T Recommendation G.729. By means of the coding rule described therein, a transmission of a narrow-band voice signal with a data rate of 8 kbit / s is provided.
Weiterhin sind sogenannte breitbandige Sprach-Codecs (WideFurthermore, so-called broadband voice codecs (Wide
Band Speech Codec) bekannt, welche zur Verbesserung des Hor- eindrucks eine Kodierung eines in einem erweiterten Frequenzbereich vorsehen. Ein derart erweiterter Frequenzbereich liegt z.B. zwischen einer Frequenz von 50 Hz und 7000 Hz. Ein breitbandiger Sprach-Codec ist beispielsweise aus der ITU-T- Empfehlung G.729. EV bekannt.Band Speech Codec) are known, which provide a coding of one in an extended frequency range to improve the Hor- impressive. Such an extended frequency range lies for example between a frequency of 50 Hz and 7000 Hz. A broadband voice codec is for example from the ITU-T Recommendation G.729. EV known.
Üblicherweise sind Kodierungsverfahren für breitbandigeUsually coding methods are for broadband
Sprach-Codecs skalierbar gestaltet. Mit einer Skalierbarkeit ist hier gemeint, dass die übertragenen kodierten Daten verschiedene abgegrenzte Blocke enthalten, welche den schmalban- digen Anteil, den breitbandigen Anteil und/oder die volle Bandbreite des kodierten Sprachsignals enthalten. Eine solche skalierbare Gestaltung gestattet einerseits eine empfanger- seitige Abwärtskompatibilität und andererseits bietet sie eine einfache Möglichkeit, im Falle von eingeschränkten Daten- ubertragungskapazitaten im Ubertragungskanal eine sender- und empfangerseitige Anpassung der Datenrate und der Große von übertragenen Datenrahmen vorzunehmen.Speech codecs made scalable. Scalability here means that the transmitted coded data contain various demarcated blocks which contain the narrowband component, the broadband component and / or the full bandwidth of the coded voice signal. On the one hand, such a scalable design allows for backwards compatibility on the receiver side and, on the other hand, offers a simple possibility of adapting the data rate and the size of transmitted data frames in the transmission channel in the case of limited data transmission capacities.
Für eine Reduzierung der Datenübertragungsrate durch einen Codec ist üblicherweise eine Komprimierung der zu ubertragen- den Daten vorgesehen. Eine Komprimierung wird beispielsweise durch Kodierungsverfahren erreicht, bei zur Kodierung der Sprachdaten Parameter für ein Anregungssignal und Filterparameter bestimmt werden. Die Filterparameter sowie das Anregungssignal spezifizierende Parameter werden dann an den Emp- fanger übertragen. Dort wird mithilfe des Codecs ein synthetisches Sprachsignal synthetisiert, das dem ursprunglichen Sprachsignal hinsichtlich eines subjektiven Horeindrucks möglichst ahnlich ist. Mit Hilfe diesem auch als »Analysis-by- Synthesis« bezeichneten Verfahren werden nicht die ermittel- ten und digitalisierten Abtastwerte (Samples) selbst übertragen, sondern ermittelte Parameter, die eine empfangerseitige Synthese des Sprachsignals ermöglichen.For a reduction of the data transmission rate by a codec, usually a compression of the data to be transmitted is provided. Compression is achieved, for example, by coding methods, in which parameters for an excitation signal and filter parameters are determined for coding the speech data. The filter parameters and parameters specifying the excitation signal are then transmitted to the receiver. There, a synthetic speech signal is synthesized using the codec, which is as similar as possible to the original speech signal with regard to a subjective impression of hearing. With the aid of this method, also known as "analysis-by-synthesis", the determined and digitized samples (samples) are not transmitted themselves but determined parameters which enable a receiver-side synthesis of the speech signal.
Eine weitere Maßnahme zur Reduzierung der Datenubertragungs- rate bietet ein Verfahren zur diskontinuierlichen Übertragung (Discontinuous Transmission) , welches in der Fachwelt auch unter dem Begriff DTX gelaufig ist. Das grundsatzliche Ziel von DTX ist eine Reduzierung der Datenübertragungsrate im Fall einer Sprechpause.A further measure for reducing the data transmission rate is provided by a method for discontinuous transmission (Discontinuous Transmission), which is also known in the art as DTX. The fundamental goal DTX is a reduction in the data transfer rate in the event of a speech break.
Hierzu kommt auf Seiten des Senders eine Sprechpausenerken- nung (Voice Activity Detection, VAD) zum Einsatz, welche bei Unterschreiten eines bestimmten Signalpegels auf eine Sprechpause erkennt.For this purpose, a voice pause detection (VAD) is used on the transmitter side, which detects a pause in speech when the signal falls below a certain signal level.
Üblicherweise wird vom Empfanger wahrend einer Sprechpause keine vollige Stille erwartet. Im Gegenteil wurde eine vollige Stille empfangerseitig zu Irritationen oder sogar zur Vermutung eines Verbindungsabbaus fuhren. Aus diesem Grund werden Verfahren zur Erzeugung eines sogenannten Komfortrauschen (Comfort Noise) angewandt.Usually, the receiver does not expect a complete silence during a speech break. On the contrary, a complete silence on the receiver side would lead to irritation or even the presumption of a breakdown of the connection. For this reason, methods for generating a so-called comfort noise (Comfort Noise) are applied.
Bei einem Komfortrauschen handelt es sich um Rauschen, welches zur Füllung von Stillephasen auf Seiten des Empfangers synthetisiert wird. Das Komfortrauschen dient einem subjektiven Eindruck einer weiter bestehenden Verbindung, ohne die für die Übertragung von Sprachsignalen vorgesehene Datenübertragungsrate zu beanspruchen. Mit anderen Worten wird zur senderseitigen Kodierung des Rauschens ein geringerer Aufwand als zur Kodierung der Sprachdaten betrieben. Für eine empfangerseitig noch als realistisch empfundene Synthetisierung - d.h. Dekodierung - des Komfortrauschens werden Daten mit einer weitaus niedrigeren Datenrate übertragen. Die hierbei übertragenen Daten werden in der Fachwelt auch als SID (Si- lence Insertion Description) bezeichnet.Comfort noise is noise that is synthesized to fill silence phases on the receiver's side. The comfort noise serves as a subjective impression of a continuing connection, without claiming the data transmission rate intended for the transmission of speech signals. In other words, less effort is required to code the speech data for the transmitter-side coding of the noise. For a receiver-side still perceived as realistic synthesis - i. Decoding - Comfort noise transmits data at a much lower data rate. The data transmitted here are also referred to in the professional world as the SID (Meaning Insertion Description).
Im Stand der Technik entstehen Probleme mit dem Verfahren zur diskontinuierlichen Übertragung bei einer Verwendung von breitbandigen Sprachcodecs, wie z.B. ITU-T G.729.1, G.722.2 oder 3GPP AMR-WB. Die genannten skalierbaren breitbandigen Sprachcodecs unterstutzen üblicherweise unterschiedliche Da- tenubertragungsraten in einem Bandbreitenbereich von 50 bis 7000 Hz. Mögliche Datenraten zur Enkodierung der Sprachinformationen sind z.B. 8, 12, 14, 16, ..., 32 kbit/s, welche z.B. im Standard G.729.1 zum Einsatz kommen. Die Datenraten von 8 und 12 kbit/s werden auf schmalbandige Signale (50Hz bis 4kHz) ange- wandt. Datenraten von mehr als 12 kbit/s werden auf das obere Frequenzband von 4 bis 7 kHz angewandt.In the prior art, problems arise with the method of discontinuous transmission when using broadband speech codecs, such as ITU-T G.729.1, G.722.2 or 3GPP AMR-WB. The aforementioned scalable wideband speech codecs usually support different data transmission rates in a bandwidth range of 50 to 7000 Hz. Possible data rates for encoding the voice information include 8, 12, 14, 16, ..., 32 kbit / s, which are used, for example, in the G.729.1 standard. The data rates of 8 and 12 kbit / s are applied to narrowband signals (50Hz to 4kHz). Data rates greater than 12 kbit / s are applied to the upper frequency band of 4 to 7 kHz.
Wahrend einer Übertragung ist ein Wechsel zwischen den besagten Datenraten möglich. Ein plötzlicher Wechsel von einer schmalbandigen auf eine breitbandige Datenrate verursacht dabei bekanntermaßen einen störenden Effekt auf einen menschlichen Rezipienten. Ein solcher Übergang erfolgt beispielsweise in Folge einer Beschneidung des Datenstroms (Bitstream Tran- cation) , welcher beispielsweise durch das Ubertragungsnetz- werk zwischen Sender und Empfanger verursacht wird, beispielsweise in Folge einer Einrichtung weiterer zusatzlicher Verbindungen oder aufgrund eines Datenstaus (Congestion) im Ubertragungsnetzwerk . Die genannte Beschneidung fuhrt zu einer Änderung der Datenrate und schließlich zu einem Übergang von einer breitbandigen zu einer schmalbandigen Übertragung des Sprachsignals.During a transfer, a change between the said data rates is possible. A sudden change from a narrowband to a broadband data rate is known to cause a disturbing effect on a human recipient. Such a transition occurs, for example, as a result of a truncation of the data stream (bitstream transformation), which is caused, for example, by the transmission network between transmitter and receiver, for example as a result of the establishment of further additional connections or due to a congestion in the transmission network. The said clipping leads to a change in the data rate and finally to a transition from a broadband to a narrowband transmission of the speech signal.
Werden im Enkoder Verfahren zur diskontinuierlichen Übertragung - bzw. DTX-Verfahren - angewandt, ist eine Einsparung der Datenübertragungsrate für die Übertragung der jeweiligen Datenrahmen möglich. Das DTX-Verfahren kommt genau dann zum Einsatz, wenn ein entsprechender Rahmen als Sprechpause charakterisiert ist. In Anwendung des DTX-Verfahrens wird eine reduzierte Datenübertragungsrate an übertragenen Rahmen auf- grund zweier Faktoren erreicht. Erstens müssen seitens des Enkoders nicht alle inaktiven Rahmen an den Dekoder gesandt werden. Zweitens belegt ein gesendeter SID-Rahmen bzw. inaktiver Rahmen viel weniger Bits als ein Sprachdatenrahmen.If in the encoder method for discontinuous transmission - or DTX method - applied, a saving of the data transmission rate for the transmission of the respective data frames is possible. The DTX method is used exactly when a corresponding frame is characterized as a speech break. Using the DTX method, a reduced data transmission rate on transmitted frames is achieved due to two factors. First, the encoder does not need to send all inactive frames to the decoder. Second, a transmitted SID frame occupies much fewer bits than a voice data frame.
Ein solches Verfahren erfordert eine Beteiligung einerSuch a procedure requires participation of one
Sprechpausenerkennung (VAD) auf Enkoderseite . Mit Hilfe eines Sprechpausendetektors wird dem Enkoder auf der Senderseite mitgeteilt, ob ein aktueller Abtastwerte enthaltender und zu enkodierender Rahmen ein Sprachsignal enthalt oder eine Sprechpause mit Hintergrundrauschen. Mit Hilfe dieser Charakterisierung werden im Enkoder Maßnahmen getroffen, welche die Wahrnehmungscharakteristika (Perceptional Characteristics) eines inaktiven Rahmens (Inactive Speech Frame) ermitteln. Zu solchen Wahrnehmungscharakteristika zahlen beispielsweise die gemittelte Energie sowie spektrale und zeitliche Charakteristika .Paging detection (VAD) on the encoder side. With the help of a speech pause detector, the encoder on the transmitter side is informed whether a current sample containing and to encoded frame containing a speech signal or a speech break with background noise. With the help of this characterization measures are taken in the encoder which determine the perceptional characteristics of an inactive frame (Inactive Speech Frame). For example, the average energy as well as spectral and temporal characteristics pay for such perception characteristics.
Der Enkoder sendet daraufhin einen speziell gekennzeichneten Rahmen, einen SID-Rahmen (Silence Insertion Descriptor) an den Dekoder. Der Dekoder synthetisiert auf Basis der in einem SID-Rahmen enthaltenen Informationen ein Komfortrauschen, wobei der Dekoder aufgrund des SID-Rahmens bestimmen kann, ob es sich bei der enthaltenen Rauschinformation um schmalbandi- ge oder breitbandige Informationen handelt.The encoder then sends a specially marked frame, a Silence Insertion Descriptor (SID) frame, to the decoder. The decoder synthesizes comfort noise based on the information contained in a SID frame, and the decoder can determine, based on the SID frame, whether the contained noise information is narrowband or broadband information.
Ein Wechsel der Datenrate (»Bitrate Switching«) zwischen schmalbandiger und breitbandiger Information ist ein übliches Szenario für jeden skalierbaren breitbandigen Sprachcodec.Changing the bit rate ("bit rate switching") between narrowband and wideband information is a common scenario for any scalable wideband speech codec.
Eine Behandlung eines Datenratenwechsels wahrend einer normalen Sprachphase, d.h. in Abwesenheit von Sprechpausen, ist zwar hinreichend in der Literatur beschrieben, eine Behandlung bei Eintritt in eine DTX-Phase ist derzeit indes noch unbekannt.A treatment of a data rate change during a normal speech phase, i. in the absence of pauses in speech, although adequately described in the literature, a treatment on entry into a DTX phase is currently still unknown.
Es ergibt sich daher ein dringendes Bedürfnis, ein Verfahren zum Datenratenwechsel wahrend einer DTX-Phase und/oder bei Eintritt in eine DTX-Phase anzugeben, um auf einen Wechsel zwischen einer schmalbandigen und breitbandigen Datenrate vor oder wahrend des Übergangs in die DTX-Phase optimal zu reagieren .Therefore, there is an urgent need to provide a method of data rate switching during a DTX phase and / or entering a DTX phase to optimally respond to a change between a narrowband and wideband data rate prior to or during the transition to the DTX phase to react .
Wahrend einer Sprechpause ist eine Datenratenbeschneidung un- wahrscheinlich, da die Datenbelegung (Bitstream Elocati- on) eines SID-Rahmens ohnehin weniger Bits benotigt als ein aktiver Sprachdatenrahmen in einer »normalen« Codec- Operation, also eine Codec-Operation wahrend einer auschließ- lichen Sprechphase.During a speech pause, data rate truncation is unlikely, since the data allocation (bitstream allocation) of a SID frame requires fewer bits anyway than an active speech data frame in a "normal" codec. Operation, ie a codec operation during an exclusive speech phase.
Dies fuhrt zu einem möglichen Szenario, in dem die Datenrate wahrend einer aktiven Sprechphase geändert wird, jedoch inThis leads to a possible scenario in which the data rate is changed during an active speech phase, but in
Sprechpausen, also wahrend der DTX-Phase in einem breitbandi- gen Modus verbleibt. Als sehr störend seitens eines menschlichen Empfangers auf Dekoderseite wird dabei der Fall empfunden, bei dem die aktiven Sprachrahmen schmalbandig dekodiert sind und das Hintergrundrauschen in Sprechpausen breitbandig wiedergegeben wird.Speech pauses, so during the DTX phase in a broadband mode remains. As very disturbing part of a human receiver on the decoder side of the case is felt, in which the active speech frames are narrow-band decoded and the background noise is played back in pauses in broadband.
Dieser Fall tritt mit hoher Wahrscheinlichkeit z.B. in Situationen auf, bei denen die enkoderseitig gesendeten Sprachda- tenrahmen durch das Ubertragungsnetzwerk beschnitten werden, jedoch seitens des Ubertragungsnetzwerks noch genügend Kapazität zur Übertragung der breitbandigen SID-Rahmen übrig bleibt.This case occurs with high probability e.g. in situations where the voice data frames sent on the encoder side are truncated by the transmission network but the transmission network still leaves enough capacity to transmit the wideband SID frames.
Bislang sind keine Verfahren zum Wechsel der Datenrate vonSo far, there are no methods for changing the data rate of
SID-Rahmen wahrend einer Sprechpause bekannt. Die bestehenden Verfahren zum Wechsel der Datenrate beziehen sich lediglich auf den normalen Codec-Betrieb wahrend einer aktiven Sprachphase .SID frame known during a speech break. The existing methods for changing the data rate relate only to the normal codec operation during an active speech phase.
Aufgabe der Erfindung ist es, ein Verfahren zum Wechsel einer Datenrate von SID-Rahmen wahrend einer Sprechpause anzugeben, das eine verbesserte Qualität des am Dekoder synthetisierten Signals zur Folge hat.The object of the invention is to specify a method for changing a data rate of SID frames during a speech pause, which results in an improved quality of the signal synthesized on the decoder.
Die Aufgabe wird durch den Gegenstand der unabhängigen Ansprüche gelost.The object is solved by the subject matter of the independent claims.
Ein Grundgedanke der Erfindung besteht darin, eine Ermittlung von Informationen zum Verlauf der BandbreitenumschaltungA basic idea of the invention is a determination of information about the course of the bandwidth switchover
(Bitrate Switching) wahrend einer aktiven Sprachphase vorzunehmen. Die skalierbare Natur des erfindungsgemaß zum Einsatz kommenden Sprachsignalkodierungsverfahren bzw. Codecs druckt dabei die Möglichkeit des Codecs zur Bandbreitenumschaltung bereits aus.(Bitrate Switching) during an active language phase. The scalable nature of the speech signal encoding method or codec used in accordance with the invention prints while the possibility of the codec for bandwidth switching already off.
Erfindungsgemäß werden während der Sprachphase auf Seiten des Dekoders Informationen zum prozentualen Anteil von breitban- digen aktiven Sprachrahmen im Vergleich zu schmalbandigen aktiven Sprachrahmen erhoben. Mit anderen Worten werden nicht erst zum Zeitpunkt eines Wechsels in eine Sprechpause Informationen zum Charakter des Hintergrundrauschens erhoben, wie aus dem Stand der Technik bislang nahegelegt wurde. Ein hoher prozentualer Anteil an breitbandigen aktiven Sprachrahmen zeigt dabei an, dass seitens des Codecs eine breitbandige Verwendung bevorzugt wird und daher ein Bedarf besteht, während einer DTX-Phase Rauschinformationen breitbandig zu syn- thetisieren, d.h. zu dekodieren. Wird dagegen ein niedriger prozentualer Anteil ermittelt, wird auf Seiten des Dekoders bei Eintritt in eine DTX-Phase ein schmalbandiges Rauschen erzeugt, sogar dann, wenn die empfangenen SID-Rahmen eine Synthetisierung - d.h. Dekodierung - eines breitbandigen Rauschens erlauben würden.According to the invention, information about the percentage of broadband active speech frames in comparison to narrowband active speech frames is collected on the decoder side during the speech phase. In other words, information on the nature of the background noise is not collected until the time of a change to a speech break, as has hitherto been suggested by the prior art. A high percentage of broadband active speech frames indicates that the codec prefers broadband use and therefore there is a need to broadly synthesize noise information during a DTX phase, i. to decode. On the other hand, if a low percentage is detected, narrow-band noise is generated on the decoder's side when entering a DTX phase, even if the received SID frames require a synthesizer - i. Decoding - would allow a broadband noise.
Mit dem hier vorgestellten erfindungsgemäßen Verfahren wird die Aufgabe der Erfindung, ein Verfahren zum Wechsel einer Datenrate von SID-Rahmen während einer Sprechpause anzugeben mehr als gelöst. Der zu lösende Wechsel zwischen Rauschinformationen mit verschiedener Datenrate gemäß der Aufgabe wird gemäß der hier vorgestellten erfinderischen Lösung in eine Bestimmung eines Anteils an Rauschinformationen mit verschiedenen Datenraten verfeinert. Der Anteil ist im Gegensatz zu einem Wechsel in beliebigem Verhältnis zwischen Rauschinformationen mit verschiedener Datenrate einstellbar.With the inventive method presented here, the object of the invention to provide a method for changing a data rate of SID frames during a speech break more than solved. The change to be made between noise information with different data rate according to the object is refined according to the inventive solution presented here into a determination of a proportion of noise information with different data rates. The proportion is adjustable in contrast to a change in any ratio between noise information with different data rate.
Durch die Einstellbarkeit bzw. Anpassbarkeit der Rauschsignalqualität auf die zuvor erhobene Sprachsignalqualität (schmalbandig/breitbandig) ergibt für das gesamte Signal, also Rausch- und Sprachsignal, auf Seiten des Empfängers insgesamt eine erheblich gesteigerte Signalqualität. Das erfindungsgemäße Verfahren löst somit die Aufgabe der Erfindung, eine verbesserte Qualität des am Dekoder synthetisierten Signals zu erzielen.Due to the adjustability or adaptability of the noise signal quality to the previously raised speech signal quality (narrowband / broadband) results for the entire signal, ie noise and speech signal, on the receiver side a significantly increased signal quality. The method according to the invention thus achieves the object of the invention to achieve an improved quality of the signal synthesized on the decoder.
Ein solcher Ansatz gemäß dem erfindungsgemaßen Verfahren er- weist sich als grundlegend für vorteilhafte Weiterbildungen der Erfindung, welche Gegenstand der Unteranspruche sind.Such an approach according to the inventive method turns out to be fundamental for advantageous developments of the invention, which are the subject of the dependent claims.
Wird gemäß des erfindungsgemaßen Verfahrens eine Entscheidung dahingehend getroffen, dass wahrend einer Sprechpause ein Rauschsignal mit einer bestimmten Qualität (d.h. breitbandig oder schmalbandig) synthetisiert wird, kann ein Fall auftreten, bei dem in den letzten wenigen Rahmen wahrend einer aktiven Sprachphase seitens des Netzwerks eine Beschneidung der aktiven Datenrahmen stattfand.If, according to the method of the invention, a decision is made that a noise signal having a certain quality (ie, wideband or narrowband) is synthesized during a speech pause, a case may arise in which a truncation occurs in the last few frames during an active speech phase on the part of the network the active data frame took place.
Zur Erklärung wird zunächst angenommen, dass der verwendete Codec eine breitbandige Wiedergabeweise bevorzugt und eine breitbandige Ubertragungsweise in der Vergangenheit durch das Ubertragungsnetzwerk auch überwiegend gewahrleistet war. Dies kann zu dem Fall fuhren, dass wenige aktive Sprachrahmen beim empfangenden Dekoder als schmalbandige Sprachrahmen eintreffen, bevor dort erste SID-Rahmen empfangen werden.For explanation, it is first assumed that the codec used preferred a broadband reproduction mode and a broadband transmission method in the past was also largely ensured by the transmission network. This may lead to the case that few active speech frames arrive at the receiving decoder as narrowband speech frames before receiving first SID frames there.
In diesem Fall wurde ohne zusatzliche Maßnahmen ein abrupter Übergang von einem schmalbandigen Sprachsignal auf ein breit- bandiges Rauschsignal wahrend der ersten wenigen SID-Rahmen erfolgen. So wichtig ein solcher Übergang zur Wiedereinstellung auf eine breitbandige Empfangsbedingung im Allgemeinen ist, wird dieser Übergang jedoch für den Empfanger als sto- rend empfunden.In this case, without any additional measures, an abrupt transition from a narrow-band speech signal to a broadband noise signal would occur during the first few SID frames. As important as such a transition to reinstatement to a broadband reception condition is in general, however, this transition is perceived as disturbing to the recipient.
Gemäß einer Weiterbildung der Erfindung ist daher vorgesehen, dass bei Eintritt in die DTX-Phase zunächst eine vorwiegend schmalbandige Dekodierung der Hintergrundrauschinformationen erfolgt, welche nach einem einstellbaren Zeitraum in eine vorwiegend breitbandige Dekodierung übergeht. Ein solcher Übergang erfolgt also vorzugsweise quasi-stetig, wobei ein Übergang zu diskreten Zeitpunkten - daher »quasi«-stetig - auf einen bestimmten Anteilsfaktor eingestellt wird.According to one embodiment of the invention, it is therefore provided that, when entering the DTX phase, a predominantly narrow-band decoding of the background noise information first takes place, which after a settable period of time transitions into a predominantly wideband decoding. Such a transition is thus preferably quasi-continuous, with a Transition to discrete times - hence "quasi" -continuous - is set to a certain share factor.
Gemäß einer Weiterbildung der Erfindung wird ein Verfahren zum schnellem Umschalten (Fast Switching) vorgeschlagen, bei welchem innerhalb eines bestimmten Zeitrahmens von 100 ms ein quasi-stetiger Übergang von einer schmalbandigen (Anteilsfaktor = 0) auf eine breitbandige (Anteilsfaktor = 1) Rauschsig- nalqualitat durchgeführt wird. Dieser Übergang wird seitens des Dekoders durchgeführt.According to one development of the invention, a fast switching method is proposed in which, within a specific time frame of 100 ms, a quasi-continuous transition from a narrowband (share factor = 0) to a wideband (share factor = 1) noise signal quality is carried out. This transition is performed by the decoder.
Als besonders vorteilhaft für das subjektive menschliche Hor- empfinden haben sich gemäß einer Weiterbildung der Erfindung folgende Werte für den Anteilsfaktor erwiesen: zum Zeitpunkt des Eintritts in die DTX-Phase ein Anteilsfaktor von 0, mithin ausschließlich schmalbandiges Rauschen; zu einem Zeitpunkt von 20 ms nach Eintritt in die DTX-Phase ein Anteilsfaktor von 0,09525986892242; zu einem Zeitpunkt von 40 ms nach Eintritt in die DTX-Phase ein Anteilsfaktor von 0,19753086419753; zu einem Zeitpunkt von 60 ms nach Eintritt in die DTX-Phase ein Anteilsfaktor von 0,36595031245237; zu einem Zeitpunkt von 80 ms nach Eintritt in die DTX-Phase ein Anteilsfaktor von 0,62429507696997; und; zu einem Zeitpunkt von 100 ms nach Eintritt in die DTX-Phase ein Anteilsfaktor von 1, mithin ausschließlich breitbandigesAccording to a development of the invention, the following values for the proportion factor have proven to be particularly advantageous for subjective human hearing: at the time of entering the DTX phase, a proportion factor of 0, and consequently only narrowband noise; at a time of 20 ms after entering the DTX phase, a share factor of 0.09525986892242; at a time of 40 ms after entering the DTX phase, a proportion factor of 0.19753086419753; at a time of 60 ms after entering the DTX phase, a share factor of 0.36595031245237; at a time of 80 ms after entering the DTX phase, a proportion factor of 0.62429507696997; and; at a time of 100 ms after entering the DTX phase, a share factor of 1, hence exclusively broadband
Rauschen . Noise.
Gemäß einer Weiterbildung der Erfindung wird angenommen, dass der verwendete Codec eine schmalbandige Wiedergabeweise bevorzugt und/oder eine breitbandige Ubertragungsweise in der Vergangenheit durch das Ubertragungsnetzwerk nicht gewahrleistet war. Dies kann zu dem Fall fuhren, dass wenige aktive Sprachrahmen beim empfangenden Dekoder als breitbandige Sprachrahmen eintreffen, bevor dort erste SID-Rahmen empfangen werden.According to one embodiment of the invention, it is assumed that the codec used preferred a narrow-band reproduction mode and / or a broadband transmission method in the past was not ensured by the transmission network. This may lead to the case that few active speech frames arrive at the receiving decoder as wideband speech frames before receiving first SID frames there.
Gemäß einer Weiterbildung der Erfindung ist vorgesehen, dass bei Eintritt in die DTX-Phase zunächst eine vorwiegend breitbandige Dekodierung der Hintergrundrauschinformationen erfolgt, welche nach einem einstellbaren Zeitraum in eine vor- wiegend schmalbandige Dekodierung übergeht. Ein solcher Übergang erfolgt analog zum oben beschriebenen Weiterbildung vorzugsweise quasi-stetig, wobei ein Übergang zu diskreten Zeitpunkten auf einen bestimmten Anteilsfaktor eingestellt wird.According to one embodiment of the invention, it is provided that, when entering the DTX phase, a predominantly wideband decoding of the background noise information first takes place, which after a settable period of time transitions into a predominantly narrowband decoding. Such a transition is preferably quasi-continuous analogous to the development described above, wherein a transition to discrete times is set to a certain proportion factor.
Gemäß einer Weiterbildung der Erfindung wird ein Verfahren zum schnellem Umschalten (Fast Switching) vorgeschlagen, bei welchem innerhalb eines bestimmten Zeitrahmens von 100 ms ein quasi-stetiger Übergang von einer breitbandigen (Anteilsfaktor = 1) auf eine schmalbandige (Anteilsfaktor = 0) Rausch- signalqualitat durchgeführt wird. Dieser Übergang wird seitens des Dekoders durchgeführt.According to one development of the invention, a fast switching method is proposed in which, within a specific time frame of 100 ms, a quasi-steady transition from a broadband (share factor = 1) to a narrowband (share factor = 0) noise signal quality is carried out. This transition is performed by the decoder.
Zum quasi-stetigen Übergang von der breitbandigen auf die schmalbandige Rauschsignalqualitat wird der Anteilsfaktor mit Werten wie oben, allerdings in umgekehrter Reihenfolge eingestellt.For the quasi-steady transition from broadband to narrowband noise signal quality, the proportion factor is set with values as above, but in reverse order.
Ein Ausfuhrungsbeispiel mit weiteren Vorteilen und Ausgestaltungen der Erfindung wird im Folgenden anhand der Zeichnung naher erläutert.An exemplary embodiment with further advantages and embodiments of the invention will be explained in more detail below with reference to the drawing.
Dabei zeigen: Fig. 1 eine zeitliche Darstellung einer Datenrate zwischen einem Sender und einem Empfanger mit mehreren Band- breitenumschaltungen und einem Eintritt in eine Sprechpause, wobei SID-Rahmen gesendet werden;Showing: 1 shows a time representation of a data rate between a transmitter and a receiver with a plurality of bandwidth switches and an entry into a speech pause, wherein SID frames are transmitted;
Fig. 2A eine schematische Darstellung eines erstes Szenarios einer Bandbreitenumschaltung;Fig. 2A is a schematic illustration of a first scenario of bandwidth switching;
Fig. 2B eine schematische Darstellung eines zweiten Szena- rios einer Bandbreitenumschaltung; und;FIG. 2B shows a schematic illustration of a second scenario of bandwidth switching; FIG. and;
Fig. 3 Ein dekoderseitig ausgeführter Umschaltvorgang mit einem quasi-stetigen Übergang von einer schmalban- digen auf eine breitbandige Rauschsignalqualitat .FIG. 3 A switching process executed on the decoder side with a quasi-continuous transition from a narrow-band to a broad-band noise signal quality.
In Fig. 1 ist eine zeitliche Übertragung von Sprachdatenrahmen mit einer jeweiligen Datenrate DR sowie, ab einem dritten Zeitpunkt t3, eine Übertragung von SID-Rahmen dargestellt.FIG. 1 shows a time transmission of voice data frames with a respective data rate DR and, as of a third time t3, a transmission of SID frames.
Vor einem ersten Zeitpunkt tl erfolgt eine Übertragung von breitbandigen aktiven Sprachrahmen mit einer Datenrate von 32 kbit/s. Ab dem Zeitpunkt tl erfolgt eine Umschaltung auf eine Datenrate von 22 kbit/s und ab einem zweiten Zeitpunkt t2 auf eine Datenrate von 12 kbit/s. Eine Datenrate von 12 kbit/s entspricht bereits einem schmalbandigen Sprachrahmen.Before a first time t1, a transmission of broadband active speech frames takes place with a data rate of 32 kbit / s. From the time t1, a switchover to a data rate of 22 kbit / s and from a second time t2 to a data rate of 12 kbit / s. A data rate of 12 kbit / s already corresponds to a narrowband speech frame.
Zu einem dritten Zeitpunkt t3 wird angenommen, dass aufgrund einer Sprechpause seitens des Senders ein Übertritt in eine DTX-Phase erfolgt. Ab dem dritten Zeitpunkt t3 werden somit SID-Rahmen SID in einer bestimmten zeitlichen Periode gesendet.At a third time t3, it is assumed that a transition to a DTX phase occurs due to a pause in speech on the part of the transmitter. From the third time t3, SID frames SID are thus sent in a certain time period.
Ab dem dritten Zeitpunkt t3 tritt nun die zuvor erläuterte Situation ein, dass in der Vergangenheit - wahrend der Zeit- phase zwischen dem zweiten Zeitpunkt t2 und dem dritten Zeitpunkt t3 - ein schmalbandiges Sprachsignal übermittelt wurde, wobei ab dem dritten Zeitpunkt t3 nunmehr ein breitbandi- ges Rauschsignal durch entsprechende SID-Rahmen zur Verfugung gestellt wird. Die Datenrate der SID-Rahmen entspricht 43 bit/20ms = 2,15 kbit/s bei einer Lange von 43 Bit pro SID- Rahmen und einer Periode von 20 ms pro gesendetem SID-Rahmen.From the third point in time t3, the previously explained situation occurs that in the past - during the time phase between the second time t2 and the third time t3 - a narrow-band voice signal was transmitted, whereby from the third time t3 now a broadband voice signal is transmitted. s noise signal through appropriate SID frame available is provided. The data rate of the SID frames is 43 bit / 20ms = 2.15 kbit / s with a length of 43 bits per SID frame and a period of 20 ms per sent SID frame.
In dieser Situation tritt der Fall ein, dass seitens des Dekoders ein unmittelbarer, d.h. unstetiger, Übergang von einem schmalbandigen Sprachsignal auf ein breitbandiges Rauschsignal erfolgen wurde. Ein solcher abrupter Übergang wird für einen menschlichen Rezipienten als äußerst störend empfunden.In this situation, the case occurs that the decoder imposes an immediate, i. discontinuous, transition from a narrowband speech signal to a broadband noise signal was made. Such an abrupt transition is perceived as extremely disturbing for a human recipient.
Figur 2A und Figur 2B zeigen zwei mögliche Szenarien für einen Verlauf der Datenrate DR über die Zeit t.FIG. 2A and FIG. 2B show two possible scenarios for a progression of the data rate DR over time t.
In Figur 2A ist aufgrund von Einschränkungen des Netzwerks oder aufgrund anderer Umstände eine Übertragung weitgehend schmalbandig, im Beispiel der Fig. 2A mit 8 kbit/s, wahrend zu wenigen Zeitpunkten, zwischen einem ersten Zeitpunkt tl und einem zweiten Zeitpunkt t2, ausnahmsweise eine breitban- dige Übertragung mit 32 kbit/s erfolgt.In FIG. 2A, a transmission is largely narrow-band due to restrictions of the network or due to other circumstances, in the example of FIG. 2A at 8 kbit / s, while at a few points in time, between a first time t 1 and a second time t 2, exceptionally a broadband. dige transmission with 32 kbit / s takes place.
In Figur 2B wiederum ist eine umgekehrte Situation zu verzeichnen, nämlich eine überwiegend breitbandige Ubertragungs- weise mit 32 kbit/s und eine ausnahmsweise kurze, zwischen einem vierten Zeitpunkt t4 und einem fünften Zeitpunkt t5 er- folgende, schmalbandige Ubertragungsweise .FIG. 2B again shows a situation in reverse, namely a predominantly wideband transmission mode with 32 kbit / s and an exceptionally short, narrowband transmission method between a fourth time t4 and a fifth time t5.
Im Folgenden wird zu einem Zeitpunkt t3 für das Beispiel der Fig. 2A sowie zu einem Zeitpunkt t6 für das Beispiel der Fig. 2B angenommen, dass ein Eintritt in eine DTX-Phase erfolgt.In the following, it is assumed at a time t3 for the example of FIG. 2A and at a time t6 for the example of FIG. 2B that an entry into a DTX phase takes place.
Gemäß dem erfindungsgemaßen Vorgehen werden wahrend der Sprachphase auf Seiten des Dekoders Informationen zum Anteil von breitbandigen aktiven Sprachrahmen im Vergleich zu schmalbandigen aktiven Sprachrahmen erhoben.According to the inventive method, information about the proportion of broadband active speech frames in comparison to narrowband active speech frames is collected on the part of the decoder during the speech phase.
Für das Beispiel der Fig. 2A ist dabei der prozentuale Anteil von breitbandigen aktiven Sprachrahmen als sehr niedrig zu bezeichnen, wahrend im Beispiel der Fig. 2B ein hoher prozen- tualer Anteil von breitbandigen aktiven Sprachrahmen vorliegt .For the example of FIG. 2A, the percentage of broadband active speech frames is to be described as very low, while in the example of FIG. tual proportion of broadband active speech frames.
Bei Eintritt in eine DTX-Phase zum Zeitpunkt t3 im Beispiel der Fig. 2A wird nun, unter Anwendung des erfindungsgemaßen Verfahrens ein schmalbandiges Rauschen erzeugt, obwohl die ab dem Zeitpunkt t3 empfangenen - nicht dargestellten - SID- Rahmen eine Synthetisierung eines breitbandigen Rauschens erlauben wurden.When entering a DTX phase at time t3 in the example of FIG. 2A, a narrow-band noise is now generated using the method according to the invention, although the SID frames received from time t3 - not illustrated - would permit a broadband noise to be synthesized ,
Im Beispiel der Fig. 2B dagegen werden zu einem Zeitpunkt t6 mit der dort beginnenden DTX-Phase eine breitbandige Synthetisierung der Rauschinformationen bevorzugt.By contrast, in the example of FIG. 2B, at a time t6 with the DTX phase beginning there, a broadband synthesizing of the noise information is preferred.
In Fig. 3 ist eine Rauschsignalqualitat HB-SHARE über eine Zeit TIME, welche in ms angegeben ist, aufgetragen. Die Fig. 3 stellt dabei eine Gestaltung des Rauschsignals in An- schluss an ein Szenario gemäß der vorangegangenen Figur 2B dar, bei der aufgrund des dekoderseitig ermittelten prozentu- alen Anteils von breitbandigen aktiven Sprachrahmen ein Bedarf ermittelt wurde, wahrend der DTX-Phase Rauschinformationen breitbandig zu synthetisieren.In Fig. 3, a noise signal quality HB-SHARE over a time TIME, which is indicated in ms, plotted. FIG. 3 illustrates a design of the noise signal following a scenario according to FIG. 2B, in which a requirement has been determined on the basis of the decoder-side determined percentage share of broadband active speech frames, and broadband noise information during the DTX phase to synthesize.
Der Übergang in die DTX-Phase erfolgt in der Darstellung der Fig. 3 zum dargestellten Zeitpunkt TIME von 0 ms. Um diesenThe transition into the DTX phase takes place in the representation of FIG. 3 at the illustrated time TIME of 0 ms. To this
Übergang von einem schmalbandigen Sprachsignal auf ein breit- bandiges Rauschsignal quais-stetig zu gestalten, was sich als gunstigste Ausgestaltung für ein subjektives Horempfinden eines menschlichen Rezipienten erwiesen hat, wird zu diesem Zeitpunkt TIME mit einem ausschließlich schmalbandigen Signal begonnen, d.h. mit einem Anteil HB-SHARE des breitbandigen Rauschens von 0. Zu einem Zeitpunkt von 100 ms ist der breitbandige Rauschanteil 1 bzw. 100 %. Zum quasi-stetigen Übergang von einem ausschließlich schmalbandigen Rauschsignal zum Zeitpunkt TIME = 0 ms auf einem ausschließlich breitbandigen Rauschsignal zum Zeitpunkt TIME = 100 ms haben sich in der Praxis folgende weitere Werte des Anteils HB-SHARE zu diskreten Zeitpunkten TIME bewahrt: Zum Zeitpunkt TIME = 20 ms ein Anteil HB-SHARE von 0, 09525986892242;Transition from a narrowband speech signal to a broadband noise signal quasi-continuous, which has proven to be the most favorable embodiment for a subjective Horempfinden a human recipient, is started at this time TIME with an exclusively narrow-band signal, ie with a proportion HB- SHARE of the wideband noise of 0. At a time of 100 ms, the wideband noise is 1 or 100%. For the quasi-continuous transition from an exclusively narrow-band noise signal at the time TIME = 0 ms on an exclusively broadband noise signal at the time TIME = 100 ms in practice, the following further values of the HB-SHARE fraction have been preserved at discrete times TIME: At the time TIME = 20 ms a share HB-SHARE of 0, 09525986892242;
Zum Zeitpunkt TIME = 40 ms ein Anteil HB-SHARE von 0,19753086419753;At the time TIME = 40 ms a fraction HB-SHARE of 0.19753086419753;
Zum Zeitpunkt TIME = 60 ms ein Anteil HB-SHARE von 0,36595031245237; und;At the time TIME = 60 ms, a HB-SHARE fraction of 0.36595031245237; and;
Zum Zeitpunkt TIME = 80 ms ein Anteil HB-SHARE von 0, 62429507696997.At the time TIME = 80 ms a share HB-SHARE of 0, 62429507696997.
Eine weitere Ausfuhrungsform der Erfindung sieht in analoger Weise einen Übergang von einem breitbandigen Sprachsignal auf ein schmalbandiges Rauschsignal vor.A further embodiment of the invention analogously provides for a transition from a wideband speech signal to a narrowband noise signal.
Hierzu wird zunächst in Bezugnahme auf Fig 2A ein leicht abgeändertes Szenario angenommen, bei dem in Abweichung zu dem in Fig. 2A dargestellten Szenario kurz vor dem Zeitpunkt t3 noch eine - nicht dargestellte - Änderung auf eine breit- bandige Übertragung mit 32 kbit/s erfolgt. Trotz dieses »Peaks« bleibt der prozentuale Anteil von breitbandigen aktiven Sprachrahmen sehr niedrig, sodass nunmehr bei Übergang in die DTX-Phase ein Rauschsignal zu synthetisieren ist, dass breitbandig beginnt, jedoch - aufgrund der überwiegend schmalbandigen Ubertragungshistorie und der damit für die Zukunft zu erwartenden Fortsetzung des schmalbandigen Ubertra- gungscharakters - in ein schmalbandiges Rauschsignal uberzu- fuhren ist. Um diesen Übergang von einem breitbandigenFor this purpose, initially with reference to FIG. 2A, a slightly modified scenario is assumed in which, unlike the scenario illustrated in FIG. 2A, shortly before time t3, a change-not shown-to a broadband transmission at 32 kbit / s takes place , Despite this "peak", the percentage of broadband active speech frames remains very low, so that now in transition to the DTX phase, a noise signal is to be synthesized that broadband begins, however - due to the predominantly narrow-band transmission history and thus expected for the future Continuation of the narrow-band transfer character - to be converted into a narrow-band noise signal. To make this transition from a broadband
Sprachsignal auf ein schmalbandiges Rauschsignal quais-stetig zu gestalten, wird zum Eintritt in die DTX-Phase mit einem ausschließlich breitbandigen Signal begonnen, d.h. mit einem Anteil HB-SHARE des breitbandigen Rauschens von 1. Zu einem Zeitpunkt von 100 ms ist der schmalbandige Rauschanteil 0. Zum quasi-stetigen Übergang von einem ausschließlich breitbandigen Rauschsignal zum Zeitpunkt des Eintritts in die DTX- Phase auf einem ausschließlich schmalbandigen Rauschsignal zu einem Zeitpunkt nach 100 ms werden in vorteilhafter Weise die oben vorgeschlagenen Werte in einer umgekehrten Reihe eingestellt. Die entspräche einer an der Ordinate HB-SHARE gespiegelten Kurve gemäß Fig. 3. To make the speech signal quasi-continuous on a narrow-band noise signal, an exclusively broadband signal is entered to enter the DTX phase, ie with a HB-SHARE component of the broadband noise of 1. At a time of 100 ms, the narrow-band noise component is 0 For the quasi-steady transition from an exclusively broadband noise signal at the time of entry into the DTX phase to an exclusively narrowband noise signal At a time after 100 ms, the values proposed above are advantageously set in an inverse row. This would correspond to a curve mirrored on the ordinate HB-SHARE according to FIG. 3.

Claims

Patentansprüche claims
1. Verfahren zur Dekodierung eines SID-Rahmens (SID) für eine Übermittlung von Hintergrundrauschinformationen in Anwendung eines skalierbaren Sprachsignalkodierungsverfahren mit folgenden Schritten:A method of decoding a SID (SID) frame for transmitting background noise information using a scalable speech signal coding method comprising the steps of:
Bestimmung eines Anteils an empfangenen breitbandigen Sprachrahmen im Verhältnis zu empfangenen schmalbandigen Sprachrahmen wahrend einer Sprachphase, Dekodierung der in einem SID-Rahmen enthaltenen Hintergrundrauschinformationen bei Eintritt in eine DTX-Phase, wobei die Dekodierung nach Maßgabe des ermittelten Anteils erfolgt.Determining a proportion of received wideband speech frames in relation to received narrowband speech frames during a speech phase, decoding the background noise information contained in a SID frame upon entering a DTX phase, wherein the decoding is in accordance with the determined fraction.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass im Falle einer Bestimmung eines hohen Anteils an empfangenen breitbandigen Sprachrahmen bei Eintritt in die DTX-Phase eine vorwiegend breitbandige Dekodierung der Hintergrundrauschinformationen erfolgt.2. The method according to claim 1, characterized in that in the case of a determination of a high proportion of received broadband speech frame on entry into the DTX phase, a predominantly broadband decoding of the background noise information.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass bei Eintritt in die DTX-Phase zunächst eine vorwiegend schmalbandige Dekodierung der Hintergrundrauschinformationen erfolgt, welche nach einem einstellbaren Zeitraum in eine vorwiegend breitbandige Dekodierung übergeht.3. The method according to claim 2, characterized in that on entry into the DTX phase initially a predominantly narrow-band decoding of the background noise information takes place, which passes after a settable period in a predominantly broadband decoding.
4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass der Übergang in die vorwiegend breitbandige Dekodierung mit einem Anteilsfaktor (HB-SHARE) einstellbar ist, welcher ein Verhältnis zwischen einer breitbandigen und einer schmalban- digen Rauschsignalqualitat ausdruckt.4. The method according to claim 3, characterized in that the transition to the predominantly wideband decoding with a share factor (HB-SHARE) is adjustable, which expresses a ratio between a broadband and a narrow-band noise signal quality.
5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass der Anteilsfaktor zum Zeitpunkt des Eintritts in die DTX- Phase zu Null dimensioniert wird.5. The method according to claim 4, characterized in that the proportion factor at the time of entering the DTX phase is dimensioned to zero.
6. Verfahren nach einem der Ansprüche 4 bis 5, dadurch gekennzeichnet, dass der Anteilsfaktor zu einem Zeitpunkt von 100 ms nach Eintritt in die DTX-Phase zu Eins dimensioniert wird.6. The method according to any one of claims 4 to 5, characterized in that the proportion factor at a time of 100 ms after entering the DTX phase is dimensioned to one.
7. Verfahren nach einem der Ansprüche 4 bis 6, dadurch ge- kennzeichnet, dass der Anteilsfaktor zu einem Zeitpunkt von 20 ms nach Eintritt in die DTX- Phase zu 0,09525986892242 dimensioniert wird; zu einem Zeitpunkt von 40 ms nach Eintritt in die DTX- Phase zu 0,19753086419753 dimensioniert wird; - zu einem Zeitpunkt von 60 ms nach Eintritt in die DTX- Phase zu 0,36595031245237 dimensioniert wird; und; zu einem Zeitpunkt von 80 ms nach Eintritt in die DTX- Phase zu 0,62429507696997 dimensioniert wird.7. The method according to any one of claims 4 to 6, character- ized in that the proportion factor at a time of 20 ms after entering the DTX phase to 0.09525986892242 dimensioned; at a time of 40 ms after entering the DTX phase is sized to 0.19753086419753; - is dimensioned at 0,36595031245237 at a time of 60 ms after entering the DTX phase; and; at a time of 80 ms after entering the DTX phase to 0.62429507696997 dimensions.
8. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass im Falle einer Bestimmung eines niedrigen Anteils an empfangenen breitbandigen Sprachrahmen bei Eintritt in die DTX-Phase eine vorwiegend schmalbandige Dekodierung der Hintergrundrauschinformationen erfolgt.8. The method according to claim 1, characterized in that in the case of a determination of a low proportion of received broadband speech frames when entering the DTX phase, a predominantly narrow-band decoding of the background noise information.
9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass bei Eintritt in die DTX-Phase zunächst eine vorwiegend breit- bandige Dekodierung der Hintergrundrauschinformationen erfolgt, welche nach einem einstellbaren Zeitraum in eine vor- wiegend schmalbandige Dekodierung übergeht.9. The method according to claim 8, characterized in that, when entering the DTX phase, a predominantly wideband decoding of the background noise information first takes place, which after a settable period of time transitions into a predominantly narrowband decoding.
10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass der Übergang in die vorwiegend schmalbandige Dekodierung mit einem Anteilsfaktor (HB-SHARE) einstellbar ist, welcher ein Verhältnis zwischen einer breitbandigen und einer schmalban- digen Rauschsignalqualitat ausdruckt.10. The method according to claim 9, characterized in that the transition to the predominantly narrow-band decoding with a share factor (HB-SHARE) is adjustable, which expresses a ratio between a broadband and a narrow-band noise signal quality.
11. Verfahren nach Anspruch 10 dadurch gekennzeichnet, dass der Anteilsfaktor zum Zeitpunkt des Eintritts in die DTX- Phase zu Eins dimensioniert wird.11. The method according to claim 10, characterized in that the proportion factor at the time of entry into the DTX phase is dimensioned to one.
12. Verfahren nach einem der Ansprüche 10 bis 11, dadurch gekennzeichnet, dass der Anteilsfaktor zu einem Zeitpunkt von 100 ms nach Eintritt in die DTX-Phase zu Null dimensioniert wird.12. The method according to any one of claims 10 to 11, characterized in that the proportion factor at a time of 100 ms after entry into the DTX phase is dimensioned to zero.
13. Verfahren nach einem der Ansprüche 10 bis 12, dadurch ge- kennzeichnet, dass der Anteilsfaktor zu einem Zeitpunkt von 20 ms nach Eintritt in die DTX- Phase zu 0,62429507696997 dimensioniert wird; zu einem Zeitpunkt von 40 ms nach Eintritt in die DTX- Phase zu 0,36595031245237 dimensioniert wird; - zu einem Zeitpunkt von 60 ms nach Eintritt in die DTX- Phase zu 0,19753086419753 dimensioniert wird; und; zu einem Zeitpunkt von 80 ms nach Eintritt in die DTX- Phase zu 0,09525986892242 dimensioniert wird.13. The method according to any one of claims 10 to 12, character- ized in that the proportion factor at a time of 20 ms after entering the DTX phase to 0.62429507696997 dimensioned; at a time of 40 ms after entering the DTX phase is sized to be 0.36695031245237; - is dimensioned at a time of 60 ms after entering the DTX phase at 0.19753086419753; and; at a time of 80 ms after entering the DTX phase is sized to 0.09525986892242.
14. Codec mit Mitteln zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 13.14. Codec with means for carrying out the method according to one of claims 1 to 13.
15. Codec nach Anspruch 14, gekennzeichnet durch eine Implementierung im an sich bekannten ITU-T Standard G.729.1. 15. Codec according to claim 14, characterized by an implementation in the known ITU-T standard G.729.1.
EP09712583.5A 2008-02-19 2009-02-02 Method and means for decoding background noise information Active EP2245622B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102008009720A DE102008009720A1 (en) 2008-02-19 2008-02-19 Method and means for decoding background noise information
PCT/EP2009/051120 WO2009103609A1 (en) 2008-02-19 2009-02-02 Method and means for decoding background noise information

Publications (2)

Publication Number Publication Date
EP2245622A1 true EP2245622A1 (en) 2010-11-03
EP2245622B1 EP2245622B1 (en) 2016-07-13

Family

ID=40790517

Family Applications (1)

Application Number Title Priority Date Filing Date
EP09712583.5A Active EP2245622B1 (en) 2008-02-19 2009-02-02 Method and means for decoding background noise information

Country Status (8)

Country Link
US (1) US8260606B2 (en)
EP (1) EP2245622B1 (en)
JP (1) JP5006975B2 (en)
KR (1) KR101166650B1 (en)
CN (1) CN101946281B (en)
DE (1) DE102008009720A1 (en)
RU (1) RU2454737C2 (en)
WO (1) WO2009103609A1 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2980790A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for comfort noise generation mode selection
JP2016038513A (en) * 2014-08-08 2016-03-22 富士通株式会社 Voice switching device, voice switching method, and computer program for voice switching
US10049684B2 (en) * 2015-04-05 2018-08-14 Qualcomm Incorporated Audio bandwidth selection

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI105001B (en) * 1995-06-30 2000-05-15 Nokia Mobile Phones Ltd Method for Determining Wait Time in Speech Decoder in Continuous Transmission and Speech Decoder and Transceiver
RU2237296C2 (en) * 1998-11-23 2004-09-27 Телефонактиеболагет Лм Эрикссон (Пабл) Method for encoding speech with function for altering comfort noise for increasing reproduction precision
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
US6631139B2 (en) * 2001-01-31 2003-10-07 Qualcomm Incorporated Method and apparatus for interoperability between voice transmission systems during speech inactivity
EP1808852A1 (en) * 2002-10-11 2007-07-18 Nokia Corporation Method of interoperation between adaptive multi-rate wideband (AMR-WB) and multi-mode variable bit-rate wideband (VMR-WB) codecs
JP4438280B2 (en) * 2002-10-31 2010-03-24 日本電気株式会社 Transcoder and code conversion method
PL1897085T3 (en) 2005-06-18 2017-10-31 Nokia Technologies Oy System and method for adaptive transmission of comfort noise parameters during discontinuous speech transmission
ATE490454T1 (en) * 2005-07-22 2010-12-15 France Telecom METHOD FOR SWITCHING RATE AND BANDWIDTH SCALABLE AUDIO DECODING RATE
EP1955321A2 (en) 2005-11-30 2008-08-13 TELEFONAKTIEBOLAGET LM ERICSSON (publ) Efficient speech stream conversion
US8260609B2 (en) * 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
US8032359B2 (en) * 2007-02-14 2011-10-04 Mindspeed Technologies, Inc. Embedded silence and background noise compression
KR101290622B1 (en) * 2007-11-02 2013-07-29 후아웨이 테크놀러지 컴퍼니 리미티드 An audio decoding method and device
CN101335000B (en) * 2008-03-26 2010-04-21 华为技术有限公司 Method and apparatus for encoding

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO2009103609A1 *

Also Published As

Publication number Publication date
DE102008009720A1 (en) 2009-08-20
WO2009103609A1 (en) 2009-08-27
RU2454737C2 (en) 2012-06-27
JP5006975B2 (en) 2012-08-22
EP2245622B1 (en) 2016-07-13
US8260606B2 (en) 2012-09-04
KR101166650B1 (en) 2012-07-23
JP2011512564A (en) 2011-04-21
RU2010138566A (en) 2012-03-27
US20110040560A1 (en) 2011-02-17
CN101946281A (en) 2011-01-12
CN101946281B (en) 2012-08-15
KR20100125340A (en) 2010-11-30

Similar Documents

Publication Publication Date Title
EP2245621B1 (en) Method and means for encoding background noise information
EP0667063B1 (en) Process for transmitting and/or storing digital signals from several channels
DE60214599T2 (en) SCALABLE AUDIO CODING
DE60120504T2 (en) METHOD FOR TRANSCODING AUDIO SIGNALS, NETWORK ELEMENT, WIRELESS COMMUNICATION NETWORK AND COMMUNICATION SYSTEM
EP2122888B1 (en) Device and method for sending a sequence of data packets and decoder and device for decoding a sequence of data packets
EP1953739B1 (en) Method and device for reducing noise in a decoded signal
DE60121592T2 (en) CODING AND DECODING A DIGITAL SIGNAL
EP1647010B1 (en) Audio file format conversion
DE60319590T2 (en) METHOD FOR CODING AND DECODING AUDIO AT A VARIABLE RATE
EP1338004A1 (en) Method and device for the generation or decoding of a scalable data stream with provision for a bit-store, encoder and scalable encoder
EP0978172B1 (en) Method for masking defects in a stream of audio data
EP2245620B1 (en) Method and means for encoding background noise information
WO2007087823A1 (en) Method and arrangements for encoding audio signals
EP2245622B1 (en) Method and means for decoding background noise information
WO2002058054A1 (en) Method and device for the generation of a scalable data stream and method and device for decoding a scalable data stream
EP1677286A1 (en) Process for adaptation of comfort noise generation parameters
DE4430864A1 (en) Transmission and storage method for embedding additional information in data stream
DE69921643T2 (en) AV SIGNAL TRANSMISSION WITH VARIABLE BITRATE IN A PACKET NETWORK
DE60304237T2 (en) Speech coding device and method with TFO (Tandem Free Operation) function
EP1390947B1 (en) Method for signal reception
DE19727938B4 (en) Method and device for coding signals
EP1433166A1 (en) Speech extender and method for estimating a broadband speech signal from a narrowband speech signal
DE10339498A1 (en) Audio file format conversion method, especially for combining individual audio data channels into a multi-channel audio data stream, wherein determining block audio data from two or more blocks are combined in a single block
DE19906223B4 (en) Method and radio communication system for voice transmission, in particular for digital mobile communication systems
WO2006072526A1 (en) Method for bandwidth extension

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20100812

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO SE SI SK TR

AX Request for extension of the european patent

Extension state: AL BA RS

RIN1 Information on inventor provided before grant (corrected)

Inventor name: TADDEI, HERVE

Inventor name: SCHANDL, STEFAN

Inventor name: SETIAWAN, PANJI

DAX Request for extension of the european patent (deleted)
RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: UNIFY GMBH & CO. KG

REG Reference to a national code

Ref country code: DE

Ref legal event code: R079

Ref document number: 502009012809

Country of ref document: DE

Free format text: PREVIOUS MAIN CLASS: G10L0019000000

Ipc: G10L0019012000

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

RIC1 Information provided on ipc code assigned before grant

Ipc: G10L 19/24 20130101ALI20150609BHEP

Ipc: G10L 19/012 20130101AFI20150609BHEP

INTG Intention to grant announced

Effective date: 20150706

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

INTG Intention to grant announced

Effective date: 20151012

INTG Intention to grant announced

Effective date: 20160224

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO SE SI SK TR

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: AT

Ref legal event code: REF

Ref document number: 812878

Country of ref document: AT

Kind code of ref document: T

Effective date: 20160715

Ref country code: CH

Ref legal event code: EP

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

Free format text: LANGUAGE OF EP DOCUMENT: GERMAN

REG Reference to a national code

Ref country code: DE

Ref legal event code: R096

Ref document number: 502009012809

Country of ref document: DE

REG Reference to a national code

Ref country code: DE

Ref legal event code: R082

Ref document number: 502009012809

Country of ref document: DE

Representative=s name: SCHAAFHAUSEN PATENTANWAELTE PARTNERSCHAFTSGESE, DE

Ref country code: DE

Ref legal event code: R082

Ref document number: 502009012809

Country of ref document: DE

Representative=s name: FRITZSCHE PATENTANWAELTE, DE

Ref country code: DE

Ref legal event code: R081

Ref document number: 502009012809

Country of ref document: DE

Owner name: UNIFY GMBH & CO. KG, DE

Free format text: FORMER OWNER: UNIFY GMBH & CO. KG, 81379 MUENCHEN, DE

RAP2 Party data changed (patent owner data changed or rights of a patent transferred)

Owner name: UNIFY GMBH & CO. KG

REG Reference to a national code

Ref country code: LT

Ref legal event code: MG4D

REG Reference to a national code

Ref country code: NL

Ref legal event code: MP

Effective date: 20160713

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161113

Ref country code: HR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

Ref country code: IT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

Ref country code: NL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

Ref country code: LT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

Ref country code: FI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

Ref country code: NO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161013

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 9

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: PT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161114

Ref country code: ES

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

Ref country code: LV

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161014

Ref country code: PL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

Ref country code: SE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

REG Reference to a national code

Ref country code: DE

Ref legal event code: R097

Ref document number: 502009012809

Country of ref document: DE

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: RO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

Ref country code: EE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

Ref country code: SK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

Ref country code: BE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20170228

Ref country code: CZ

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

Ref country code: BG

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161013

26N No opposition filed

Effective date: 20170418

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MC

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: CH

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20170228

Ref country code: LI

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20170228

REG Reference to a national code

Ref country code: IE

Ref legal event code: MM4A

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LU

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20170202

REG Reference to a national code

Ref country code: BE

Ref legal event code: MM

Effective date: 20170228

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 10

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20170202

REG Reference to a national code

Ref country code: AT

Ref legal event code: MM01

Ref document number: 812878

Country of ref document: AT

Kind code of ref document: T

Effective date: 20170202

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: AT

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20170202

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: HU

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT; INVALID AB INITIO

Effective date: 20090202

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: CY

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20160713

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: TR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

REG Reference to a national code

Ref country code: DE

Ref legal event code: R082

Ref document number: 502009012809

Country of ref document: DE

Representative=s name: SCHAAFHAUSEN PATENTANWAELTE PARTNERSCHAFTSGESE, DE

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20240216

Year of fee payment: 16

Ref country code: GB

Payment date: 20240222

Year of fee payment: 16

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20240221

Year of fee payment: 16