EP2245622B1 - Verfahren und mittel zur dekodierung von hintergrundrauschinformationen - Google Patents

Verfahren und mittel zur dekodierung von hintergrundrauschinformationen Download PDF

Info

Publication number
EP2245622B1
EP2245622B1 EP09712583.5A EP09712583A EP2245622B1 EP 2245622 B1 EP2245622 B1 EP 2245622B1 EP 09712583 A EP09712583 A EP 09712583A EP 2245622 B1 EP2245622 B1 EP 2245622B1
Authority
EP
European Patent Office
Prior art keywords
time
entrance
broadband
phase
dtx
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
EP09712583.5A
Other languages
English (en)
French (fr)
Other versions
EP2245622A1 (de
Inventor
Panji Setiawan
Stefan Schandl
Herve Taddei
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unify GmbH and Co KG
Original Assignee
Unify GmbH and Co KG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unify GmbH and Co KG filed Critical Unify GmbH and Co KG
Publication of EP2245622A1 publication Critical patent/EP2245622A1/de
Application granted granted Critical
Publication of EP2245622B1 publication Critical patent/EP2245622B1/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Definitions

  • the invention relates to methods and means for decoding background noise information in speech signal coding methods.
  • Such a limited frequency range is also provided in many speech signal coding methods for today's digital telecommunications.
  • a Bandeumbleabegrezung the analog signal Prior to a coding process, a Bandeumbleabegrezung the analog signal is performed for this purpose.
  • a codec is used which, due to the described bandwidth limitation in the frequency range between 300 Hz and 3400 Hz, is also referred to below as narrow-band speech codec (Narrow Band Speech Codec).
  • the term codec is understood to mean both the coding rule for the digital coding of audio signals and the decoding rule for the decoding of data with the aim of reconstructing the audio signal.
  • a narrowband speech codec is known from ITU-T Recommendation G.729.
  • a transmission of a narrowband speech signal with a data rate of 8 kbit / s is provided.
  • broadband speech codecs Wide Band Speech Codec
  • Such an extended frequency range lies for example between a frequency of 50 Hz and 7000 Hz.
  • a broadband speech codec is known, for example, from the ITU-T Recommendation G.729.EV.
  • coding methods for broadband speech codecs are made scalable.
  • a scalability it is meant that the transmitted encoded data exhibits various demarcated blocks containing the narrowband portion, wideband portion and / or full bandwidth of the encoded voice signal.
  • such a scalable design allows for backward compatibility on the receiver side and, on the other hand, offers a simple possibility of adapting the data rate and the size of transmitted data frames in the transmission channel in the case of limited data transmission capacities in the transmission channel.
  • a compression of the data to be transmitted For a reduction of the data transmission rate by a codec is usually provided a compression of the data to be transmitted. Compression is achieved, for example, by coding methods, in which parameters for an excitation signal and filter parameters are determined for coding the speech data. The filter parameters and parameters specifying the excitation signal are then transmitted to the receiver. There, a synthetic speech signal is synthesized using the codec, which is as similar as possible to the original speech signal in terms of a subjective hearing impression. With the help of this method, also referred to as "analysis-by-synthesis", the determined and digitized samples (samples) are not transmitted themselves, but determined parameters which enable a receiver-side synthesis of the speech signal.
  • a further measure for reducing the data transmission rate is provided by a method for discontinuous transmission (Discontinuous Transmission), which is also familiar in the art under the term DTX.
  • the fundamental goal DTX is a reduction in the data transfer rate in the event of a speech break.
  • a voice pause detection (VAD) is used on the part of the transmitter, which detects when a certain signal level falls below a speech break.
  • Comfort noise is noise that is synthesized to fill silence phases on the receiver's side.
  • the comfort noise serves as a subjective impression of a continuing connection, without claiming the data transmission rate intended for the transmission of speech signals. In other words, less effort is required to code the speech data for the transmitter-side coding of the noise. For a receiver-side still perceived as realistic synthesis - i.
  • Decoding - comfort noise transmits data at a much lower data rate.
  • the data transmitted here are also referred to in the art as SID (Silence Insertion Description).
  • Said scalable wideband speech codecs usually support different data transmission rates in a bandwidth range of 50 to 7000 Hz.
  • Possible data rates for encoding the speech information are e.g. 8, 12, 14, 16, ..., 32 kbit / s, which is e.g. are used in standard G.729.1.
  • the data rates of 8 and 12 kbit / s are applied to narrowband signals (50Hz to 4kHz).
  • Data rates greater than 12 kbit / s are applied to the upper frequency band of 4 to 7 kHz.
  • a sudden change from a narrowband to a broadband data rate is known to cause a disturbing effect on a human recipient.
  • Such a transition occurs, for example, as a result of a truncation of the data stream (bitstream transduction), which is caused, for example, by the transmission network between transmitter and receiver, for example as a result of the establishment of further additional connections or due to a congestion in the transmission network.
  • bitstream transduction causes, for example, by the transmission network between transmitter and receiver, for example as a result of the establishment of further additional connections or due to a congestion in the transmission network.
  • the said truncation leads to a change in the data rate and finally to a transition from a broadband to a narrowband transmission of the speech signal.
  • a saving of the data transmission rate for the transmission of the respective data frames is possible.
  • the DTX method is used exactly when a corresponding frame is characterized as a speech break.
  • a reduced data transfer rate on transmitted frames is achieved due to two factors. First, the encoder does not need to send all inactive frames to the decoder. Second, a transmitted SID frame occupies much fewer bits than a voice data frame.
  • Such a method requires involvement of a speech pause recognition (VAD) on the encoder side.
  • VAD speech pause recognition
  • the encoder on the transmitter side is informed whether a current sample containing and to encoded frame contains a speech signal or a speech break with background noise.
  • this characterization measures are taken in the encoder which determine the perceptional characteristics of an inactive frame (Inactive Speech Frame).
  • perception characteristics include, for example, the average energy and spectral and temporal characteristics.
  • the encoder then sends a specially marked frame, a Silence Insertion Descriptor (SID) frame, to the decoder.
  • SID Silence Insertion Descriptor
  • the decoder synthesizes comfort noise based on the information contained in a SID frame, and the decoder can determine, based on the SID frame, whether the contained noise information is narrowband or broadband information.
  • bit rate switching Changing the bit rate (bit rate switching") between narrowband and wideband information is a common scenario for any scalable wideband speech codec.
  • the object of the invention is to specify a method for changing a data rate of SID frames during a speech pause, which results in an improved quality of the signal synthesized on the decoder.
  • a basic idea of the invention is to carry out a determination of information about the course of the bit rate switching during an active speech phase.
  • the scalable nature of the speech signal coding method or codec used according to the invention expresses while the possibility of the codec for bandwidth switching already off.
  • the decoder during the speech phase on the part of the decoder, information is collected on the percentage of broadband active speech frames in comparison to narrow-band active speech frames.
  • information on the nature of the background noise is not collected until the time of a change to a speech pause, as has hitherto been suggested by the prior art.
  • a higher percentage of broadband active speech frames indicates that a broadband use is preferred by the codec and therefore there is a need to broadly synthesize noise information during a DTX phase, i. to decode.
  • narrow-band noise is generated on the decoder's side when entering a DTX phase, even if the received SID frames would allow for synthesizing - i.e. decoding - a wideband noise.
  • the object of the invention to provide a method for changing a data rate of SID frames during a speech break more than solved.
  • the change to be made between noise information with different data rate according to the object is refined according to the inventive solution presented here into a determination of a proportion of noise information with different data rates.
  • the proportion is adjustable in contrast to a change in any ratio between noise information with different data rate.
  • the adjustability or adaptability of the noise signal quality to the previously raised speech signal quality results for the entire signal, ie noise and speech signal, on the receiver side overall a significantly increased signal quality.
  • the method according to the invention thus achieves the object of the invention to achieve an improved quality of the signal synthesized on the decoder.
  • a decision is made that a noise signal having a certain quality (ie, wideband or narrowband) is synthesized during a speech pause a case may occur in which a truncation occurs in the last few frames during an active speech phase on the part of the network the active data frame took place.
  • a predominantly narrow-band decoding of the background noise information first takes place, which after a settable period of time transitions into a predominantly wideband decoding.
  • Such a transition is thus preferably quasi-continuous, with a Transition to discrete times - hence "quasi" -continuous - is set to a certain share factor.
  • the codec used was a narrow-band playback mode Favor and / or a broadband transmission in the past by the transmission network was not guaranteed. This may lead to the case that few active speech frames arrive at the receiving decoder as wideband speech frames before receiving first SID frames there.
  • a predominantly wideband decoding of the background noise information initially takes place, which after a settable period of time transitions into a predominantly narrowband decoding.
  • Such a transition is preferably quasi-continuous analogous to the development described above, wherein a transition to discrete times is set to a certain proportion factor.
  • the proportional factor is set with values as above, but in reverse order.
  • Fig. 1 is a temporal transmission of Pub Schemerah-5 men with a respective data rate DR and, as of a third time t3, a transmission of SID frames shown.
  • a transmission of broadband active speech frames with a data rate of 32 kbit / s.
  • a switchover to a data rate of 22 kbit / s and from a second time t2 to a data rate of 12 kbit / s.
  • a data rate of 12 kbit / s already corresponds to a narrowband speech frame.
  • FIG. 2A and FIG. 2B show two possible scenarios for a progression of the data rate DR over time t.
  • FIG. 2A is due to limitations of the network or due to other circumstances a transmission largely narrowband, in the example of Fig. 2A with 8. kbit / s, while at a few points in time, between a first time t1 and a second time t2, exceptionally, a broadband transmission with 32 kbit / s takes place.
  • FIG. 2B again, there is a reverse situation, namely a predominantly broadband transmission mode with 32 kbit / s and exceptionally short, between a fourth time t4 and a fifth time t5 takes place, narrow-band transmission.
  • Fig. 2A the percentage of broadband active speech frames is to be described as very low, while in the example of Fig. 2B a high percentage Proportion of broadband active speech frames.
  • Fig. 3 is a noise signal quality HB-SHARE over a time TIME, which is indicated in ms, plotted.
  • the Fig. 3 In this case, a design of the noise signal in connection with a scenario according to the preceding FIG. 2B in which, based on the decoder-side determined percentage of broadband active speech frames, a need has been identified for broadband synthesizing noise information during the DTX phase.
  • a further embodiment of the invention analogously provides for a transition from a wideband speech signal to a narrowband noise signal.
  • Fig. 2A adopted a slightly modified scenario in which, unlike in Fig. 2A represented scenario shortly before the time t3 still not shown - change to a broadband transmission at 32 kbit / s takes place. Despite this "peak", the percentage of broadband active speech frames remains very low, so that now on transition to the DTX phase, a noise signal is to be synthesized that broadband begins, however - due to the predominantly narrow-band transmission history and thus expected for the future Continuation of the narrow-band transmission character - is to be converted into a narrow-band noise signal.
  • the entry into the DTX phase is started with an exclusively broadband signal, ie with a HB-SHARE component of the broadband noise of 1.
  • the narrow-band noise component 0.
  • the values proposed above are advantageously set in an inverse row. This would correspond to a curve mirrored at the ordinate HB-SHARE Fig. 3 ,

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephonic Communication Services (AREA)

Description

  • Die Erfindung betrifft Verfahren und Mittel zur Dekodierung von Hintergrundrauschinformationen bei Sprachsignalkodierungsverfahren.
  • Für Telefongespräche ist seit den Anfängen der telekommunikation eine Bandbreitenbeschränkung für eine analoge Sprachübertragung vorgesehen. Die Sprachübertragung erfolgt auf: einem eingeschränkten Frequenzbereich von 300 Hz bis 3400 Hz.
  • Ein solcher eingeschränkter Frequenzbereich ist auch bei vielen Sprachsignalkodierungsverfahren für die heutige digitale Telekommunikation vorgesehen. Vor einem Kodiervorgang wird hierzu eine Bandbreiteabegrehzung des analogen Signals durchgeführt. Zur Kodierung und zur Decodierung kommt dabei ein Codec zum Einsatz, welcher aufgrund der beschriebenen Bandbreitenbeschränkung im Frequenzbereich zwischen 300 Hz und 3400 Hz in Folgenden auch als schmalbandiger Sprach-Codec (Narrow Band Speech Codec) bezeichnet wird. Unter dem Begriff Codec wird dabei sowohl die Kodiervorschrift zur digitale Kodierung von Audiosignale als auch die Dekodietvorschrift zur Dekodierung von Daten mit dem Ziel einer Rekonstruktion des Audiosignals verstanden.
  • Ein schmalbandiger Sprach-Codec ist beispielsweise aus der ITU-T-Empfehlung G.729 bekannt. Mittels der dort beschiriebenen Kodiervorschrift ist eine Übertragung eines schmalbandigen Sprachsignal mit einer Datenrate von 8 kbit/s vorgesehen.
  • Weiterhin sind sogenannte breitbandige Sprach-Codecs (Wide Band Speech Codec) bekannt, welche zur Verbesserung des Höeindrucks eine Kodierung eines in einem erweiterten Frequenzbereich vorsehen. Ein derart erweiterter Frequenzbereich liegt z.B. zwischen einer Frequenz von 50 Hz und 7000 Hz. Ein breitbandiger Sprach-Codec ist beispielsweise aus der ITU-T-Empfehlung G.729.EV bekannt.
  • Üblicherweise sind Kodierungsverfahren für breitbandige Sprach-Codecs skalierbar gestaltet. Mit einer Skalierbarkeit. ist hier gemeint, dass die übertragenen kodierten Daten verschiedene abgegrenzte Blöcke entfalten, welche den schmalbandigen Anteil, den breitbandigen Anteil und/oder die volle Bandbreite des kodierten Sprachsignals enthalten. Eine solche skalierbare Gestaltung gestattet einerseits eine empfängerseitige Abwärtskompatibilität und andererseits bietet sie eine einfache Möglichkeit, im Falle von eingeschränkten Datenübertragungskapazitäten im Übertragungskanal eine sender- und empfängerseitige Anpassung der Datenrate und der Größe von übertragenen Datenrahmen vorzunehmen.
  • Für eine Reduzierung der Datenübertragungsrate durch einen Codec ist üblicherweise eine Komprimierung der zu übertragenden Daten vorgesehen. Eine Komprimierung wird beispielsweise durch Kodierungsverfahren erreicht, bei zur Kodierung der Sprachdaten Parameter für ein Anregungssignal und Filterparameter bestimmt werden. Die Filterparameter sowie das Anregungssignal spezifizierende Parameter werden dann an den Empfänger übertragen. Dort wird mithilfe des Codecs ein synthetisches Sprachsignal synthetisiert, das dem ursprünglichen Sprachsignal hinsichtlich eines subjektiven Höreindrucks möglichst ähnlich ist. Mit Hilfe diesem auch als »Analysis-by-Synthesis« bezeichneten Verfahren werden nicht die ermittelten und digitalisierten Abtastwerte (Samples) selbst übertragen, sondern ermittelte Parameter, die eine empfängerseitige Synthese des Sprachsignals ermöglichen.
  • Eine weitere Maßnahme zur Reduzierung der Datenübertragungsrate bietet ein Verfahren zur diskontinuierlichen Übertragung (Discontinuous-Transmission), welches in der Fachwelt auch unter dem Begriff DTX geläufig ist. Das grundsätzliche Ziel von DTX ist eine Reduzierung der Datenübertragungsrate im Fall einer Sprechpause.
  • Hierzu kommt auf Seiten des Senders eine Sprechpausenerkennung (Voice Activity Detection, VAD) zum Einsatz, welche bei Unterschreiten eines bestimmten Signalpegel auf eine Sprechpause erkennt.
  • Üblicherweise wird vom Empfänger während einer Sprechpause keine völlige Stille erwartet. Im Gegenteil würde eine völlige Stille empfängerseitig zu Irritationen oder sogar zur Vermutung eines Verbindungsabbaus führen. Aus diesem Grund werden Verfahren zur Erzeugung eines sogenannten Komfortrauschen (Comfort Noise) abgewandt.
  • Bei einem Komfortrauschen handelt es sich um Rauschen, welches zur Füllung von Stillephasen auf Seiten des Empfängers synthetisiert wird. Das Komfortrauschen dient einem subjektiven Eindruck einer weiter bestehenden Verbindung, ohne die für die Übertragung von Sprachsignalen vorgesehene Datenübertragungsrate zu beanspruchen. Mit anderen Worten wird zur senderseitigen Kodierung des Rauschens ein geringerer Aufwand als zur Kodierung der Sprachdaten betrieben. Für eine empfängerseitig noch als realistisch empfundene Synthetisierung - d.h. Dekodierung - des Komfortrauschens werden Daten mit einer weitaus niedrigeren Datenraten übertrager. Die hierbei übertragenen Daten werden in der Fachwelt auch als SID (Silence Insertion Description) bezeichnet.
  • Im Stand der Technik entstehen Probleme mit dem Verfahren zur diskontinuierlichen Übertragung bei einer Verwendung von breitbandigen Sprachcodecs, wie z.B. ITU-T G.729.1, G.72.2.2 oder 3GPP AMR-WB. Die genannten skalierbaren breitbandigen Sprachcodecs unterstützen üblicherweise unterschiedliche Datenübertragungsraten in einem Bandbreitenbereich von 50 bis 7000 Hz.
  • Mögliche Datenraten zur Enkodierung der Sprachinformationen sind z.B. 8, 12, 14, 16,..., 32 kbit/s, welche z.B. im Standard G.729.1 zum Einsatz kommen. Die Datenraten von 8 und 12 kbit/s werden auf schmalbandige Signale (50Hz bis 4kHz) angewandt. Datenraten von mehr als 12 kbit/s werden auf das obere Frequenzband von 4 bis 7 kHz angewandt.
  • Während einer Übertragung ist ein Wechsel zwischen den besagten Datenraten möglich. Ein plötzlicher Wechsel von einer schmalbandigen auf eine breitbandige Datenrate verursacht dabei bekanntermaßen einen störenden Effekt auf einen menschlichen Rezipienten. Ein solcher Übergang erfolgt beispielsweise in Folge einer Beschneidung des Datenstroms (Bitstream Trancation), welcher beispielsweise durch das Übertragungsnetzwerk zwischen Sender und Empfänger verursacht wird, beispielsweise in Folge einer Einrichtung weiterer zusätzlicher Verbindungen oder aufgrund eines Datenstaus (Congestion) im Übertragungsnetzwerk. Die genannte Beschneidung führt zu einer Änderung der Datenrate und schließlich zu einem Übergang von einer breitbandigen zu einer schmalbandigen Übertragung des Sprachsignals.
  • Werden im Enkoder Verfahren zur diskontinuierlichen Übertragung - bzw. DTX-Verfahren - angewandt, ist eine Einsparung der Datenübertragungsrate für die Übertragung der jeweiligen Datenrahmen möglich. Das DTX-Verfahren kommt genau dann zum Einsatz, wenn ein entsprechender Rahmen als Sprechpause charakterisiert ist. In Anwendung des DTX-Verfahrens wird eine reduzierte Datenübertragungsrate an übertragenen Rahmen aufgrund zweier Faktoren erreicht. Erstens müssen seitens des Enkoders nicht alle inaktiven Rahmen an den Dekoder gesandt werden. Zweitens belegt ein gesendeter SID-Rahmen bzw. inaktiver Rahmen viel weniger Bits als ein Sprachdatenrahmen.
  • Ein solches Verfahren erfordert eine Beteiligung einer Sprechpausenerkennung (VAD) auf Enkoderseite. Mit Hilfe eines Sprechpausendetektors wird dem Enkoder auf der Senderseite mitgeteilt, ob ein aktueller Abtastwerte enthaltender und zu enkodierender Rahmen ein Sprachsignal enthält oder eine Sprechpause mit Hintergrundrauschen. Mit Hilfe dieser Charakterisierung werden im Enkoder Maßnahmen getroffen, welche die Wahrnehmungscharakteristika (Perceptional Characteristics) eines inaktiven Rahmens (Inactive Speech Frame) ermitteln. Zu solchen Wahrnehmungscharakteristika zählen beispielsweise die gemittelte Energie sowie spektrale und zeitliche Charakteristika.
  • Der Enkoder sendet daraufhin einen speziell gekennzeichneten Rahmen, einen SID-Rahmen (Silence Insertion Descriptor) an den Dekoder. Der Dekoder synthetisiert auf Basis der in einem SID-Rahmen enthaltenen Informationen ein Komfortrauschen, wobei der Dekoder aufgrund des SID-Rahmens bestimmen kann, ob es sich bei der enthaltenen Rauschinformation um schmalbandige oder breitbandige Informationen handelt.
  • Ein Wechsel der Datenrate (»Bitrate Switching«) zwischen schmalbandiger und breitbandiger Information ist ein übliches Szenario für jeden skalierbaren breitbandigen Sprachcodec. Eine Behandlung eines Datenratenwechsels während einer normalen Sprachphase, d.h. in Abwesenheit von Sprechpausen, ist zwar hinreichend in der Literatur beschrieben, eine Behandlung bei Eintritt in eine DTX-Phase ist derzeit indes noch unbekannt.
  • Es ergibt sich daher ein dringendes Bedürfnis, ein Verfahren zum Datenratenwechsel während einer DTX-Phase und/oder bei Eintritt in eine DTX-Phase anzugeben, um auf einen Wechsel zwischen einer schmalbandigen und breitbandigen Datenrate vor oder während des Übergangs in die DTX-Phase optimal zu reagieren.
  • Während einer Sprechpause ist eine Datenratenbeschneidung unwahrscheinlich, da die Datenbelegung (Bitstream Elocation)eines SID-Rahmens ohnehin weniger Bits benötigt als ein aktiver Sprachdatenrahmen in einer »normalen« Codec-Operation, also eine Codec-Operation während einer auschließlichen Sprechphase.
  • Dies führt zu einem möglichen Szenario, in dem die Datenrate während einer aktiven Sprechphase geändert wird, jedoch in Sprechpausen, also während der DTX-Phase in einem breitbandigen Modus verbleibt. Als sehr störend seitens eines menschlichen Empfängers auf Dekoderseite wird dabei der Fall empfunden, bei dem die aktiven Sprachrahmen schmalbandig dekodiert sind und das Hintergrundrauschen in Sprechpausen breitbandig wiedergegeben wird.
  • Dieser Fall tritt mit hoher Wahrscheinlichkeit z.B. in Situatonen auf, bei denen die enkoderseitig gesendeten Sprachdatenrahmen durch das Übertragungsnetzwerk beschnitten werden, jedoch seitens des Übertragungsnetzwerks noch genügend Kapazität zur Übertragung der breitbandigen SID-Rahmen übrig bleibt.
  • Bislang sind keine Verfahren zum Wechsel der Datenrate von SID-Rahmen während einer Sprechpause bekannt. Die bestehenden Verfahren zum Wechsel der Datenrate beziehen sich lediglich auf den normalen Codec-Betrieb während einer aktiven Sprachphase.
  • Aufgabe der Erfindung ist es, ein Verfahren zum Wechsel einer Datenrate von SID-Rahmen während einer Sprechpause anzugeben, das eine verbesserte Qualität des am Dekoder synthetisierten Signals zur Folge hat.
  • Die Aufgabe wird durch den Gegenstand der unabhängigen Ansprüche gelöst.
  • Ein Grundgedanke der Erfindung besteht darin, eine Ermittlung von Informationen zum Verlauf der Bandbreitehumschaltung (Bitrate Switching) während einer aktiven Sprachphase vorzunehmen. Die skalierbare Natur des erfindungsgemäß zum Einsatz kommenden Sprachsignalkodierungsverfahren bzw. Codecs drückt dabei die Möglichkeit des Codecs zur Bandbreitenumschaltung bereits aus.
  • Erfindungsgemäß werden während der Sprachphase auf Seiten des Dekoders Informationen zum prozentualen Anteil von breitbandigen aktiven Sprachrähmen im Vergleich zu schmalbandigen aktiven Sprachrahmen erhoben. Mit anderen Worten werden nicht erst zum Zeitpunkt eines Wechselt in eine Sprechpause Informationen zum Charakter des Hintergrundrauschens erhoben, wie aus dem Stand der Technik bislang nahegelegt wurde. Ein höher prozentualer Anteil an breitbandigen aktiven Sprachrahmen zeigt dabei an, dass seitens des Codecs eine breitbandigen Verwendung bevorzugt wird und daher ein Bedarf besteht, während einer DTX-Phase Rauschinformationen breitbandig zu synthetisieren, d.h. zu dekodieren. Wird dagegen ein niedriger prozentualer Anteil ermittelt, wird auf Seiten des Dekoders bei Eintritt in eine DTX-Phase ein schmalbandiges Rauschens erzeugt, sogar dann, wenn die empfangenen SID-Rahmen eine Synthetisierung - d.h.. Dekodierung - eines breitbandigen Rauschens erlauben würden.
  • Mit dem hier vorgestellten erfindungsgemäßen Verfahren wird die Aufgabe der Erfindung, ein Verfahren zum Wechsel einer Datenrate von SID-Rahmen während einer Sprechpause anzugeben mehr als gelöst. Der zu lösende Wechsel zwischen Rauschinformationen mit verschiedener Datenrate gemäß der Aufgabe wird gemäß der hier vorgestellten erfinderischen Lösung in eine Bestimmung eines Anteils an Rauschinformationen mit verschiedenen Datenraten verfeinert. Der Anteil ist im Gegensatz zu einem Wechsel in beliebigem Verhältnis zwischen Rauschinformationen mit verschiedener Datenrate einstellbar.
  • Durch die Einstellbarkeit bzw. Anpassbarkeit der Rauschsignalqualität auf die zuvor erhobene Sprachsignalqualität (schmalbandig/breitbandig) ergibt für das gesamte Signal, also Rausch- und Sprachsignal, auf Seiten des Empfänger insgesamt eine erheblich gesteigerte Signalqualität. Das erfindungsgemäße Verfahren löst somit die Aufgabe der Erfindung, eine verbesserte Qualität des am Dekoder synthetisierten Signals zu erzielen.
  • Ein solcher Ansatz gemäß dem erfindungsgemäßen Verfahren erweist sich als grundlegend für vorteilhafte Weiterbildungen der Erfindung, welche Gegenstand der Unteransprüche sind.
  • Wird gemäß des erfindungsgemäßen Verfahrens eine Entscheidung dahingehend getroffen, dass während einer Sprechpause ein Rauschsignal mit einer bestimmten Qualität (d.h. breitbandig oder schmalbandig) synthetisiert wird, kann ein Fall auftreten, bei dem in den letzten wenigen Rahmen während einer aktiven Sprachphase seitens des Netzwerks eine Beschneidung der aktiven Datenrahmen stattfand.
  • Zur Erklärung wird zunächst angenommen, dass der verwendete Codec eine breitbandigen Wiedergabeweise bevorzugt und eine breitbandige Übertragungsweise in der Vergangenheit durch das Übertragungsnetzwerk auch überwiegend gewährleistet war. Dies kann zu dem Fall führen, dass wenige aktive Sprachrahmen beim empfangenden Dekoder als schmalbandige Sprachrahmen eintreffen, bevor dort erste SID-Rahmen empfanden werden.
  • In diesem Fall würde ohne zusätzliche Maßnahmen ein abrupter Übergang von einem schmalbandigen Sprachsignal auf ein breitbandige Rauschsignal während der ersten wenigen SID-Rahmen erfolgen. So wichtig ein solcher Übergang zur Wiedereinstellung auf eine breitbandige Empfangsbedingung im Allgemeines ist, wird dieser Übergang jedoch für den Empfänger als störend empfanden.
  • Gemäß einer Weiterbildung der Erfindung ist daher vorgesehen, dass bei Eintritt in die DTX-Phase zunächst eine vorwiegend schmalbandige Dekodierung der Hintergrundrauschinformationen erfolgt, welche nach einem einstellbaren Zeitraum in eine vorwiegend breitbandige Dekodierung übergeht. Ein solchen Übergang erfolgt also vorzugsweise quasi-stetig, wobei ein Übergang zu diskreten Zeitpunkten - daher »quasi«-stetig - auf einen bestimmten Anteilsfaktor eingestellt wird.
  • Gemäß einer Weiterbildung der Erfindung wird ein Verfahren zum schnellem Umschalten (Fast Switching) vorgeschlagen, bei welchem innerhalb eines bestimmten Zeitrahmens von 100 ms ein quasi-stetiger Übergang von einer schmalbandigen (Anteilsfaktor = 0) auf eine breitbandige (Anteilsfaktor = 1) Rauschsignalqualität durchgeführt wird. Dieser Übergang wird seitens des Dekoders durchgeführt.
  • Als besonders vorteilhaft für das subjektive menschliche Hörempfinden haben sich gemäß einer Weiterbildung der Erfindung folgende Werte für den Anteilsfaktor erwiesen:
    • zum Zeitpunkt des Eintritts in die. DTX-Phase ein Anteilsfäktor von 0, mithin ausschließlich schmalbandiges Rauschen;
    • zu einem Zeitpunkt von 20 ms nach Eintritt in die DTX-Phase ein Anteilsfaktor von 0,09525986892242;
    • zu einem Zeitpunkt von 40 ms nach Eintritt in die DTX-Phase ein Anteilsfaktor von 0,19753086419753;
    • zu einem Zeitpunkt von 60 ms nach Eintritt in die DTX-Phase ein Anteilsfaktor von 0,36595031245237:
    • zu einem Zeitpunkt von 80 ms nach Eintritt in die DTX-Phase ein Anteilsfaktor von 0,62429507696997; und;
    • zu einem Zeitpunkt von 100 ms nach Eintritt in die DTX-Phase ein Anteilsfaktor von 1, mithin ausschließlich breitbandiges Rauschen.
  • Gemäß einer Weiterbildung der Erfindung wird angenommen, dass der verwendete Codec eine schmalbandige Wiedergabeweise bevorzug und/oder eine breitbandige Übertragungsweise in der Vergangenheit durch das Übertragungsnetzwerk nicht gewährleistet war. Dies kann zu dem Fall führen, dass wenige aktive Sprachrahmen beim empfangenden Dekoder als breitbandige Sprachrahmen eintreffen, bevor dort erste SID-Rahmen empfangen werden.
  • Gemäß einer Weiterbildung der Erfindung ist vorgesehen, dass bei Eintritt in die DTX-Phase zunächst eine vorwiegend breitbandige Dekodierung der Hintergründrauschinformationen erfolgt, welche nach einem einstellbaren Zeitraum in eine vorwiegend schmalbandige Dekodierung übergeht. Ein solcher Übergang erfolgt analog zum oben beschriebenen Weiterbildung vorzugsweise quasi-stetig, wobei ein Übergang zu diskreten Zeitpunkten auf einen bestimmten Anteilsfaktor eingestellt wird.
  • Gemäß einer Weiterbildung der Erfindung wird ein Verfahren zum schnellem Umschalten (Fast Switching) vorgeschlagen, bei welchem innerhalb eines bestimmten Zeitrahmens von 100 ms ein quasi-stetiger Übergang von einer breitbandigen (Anteilsfaktor = 1) auf eine schmalbandige (Anteilsfaktor = 0) Rauschsignalqualität durchgeführt wird. Dieser Übergang wird seitens des Dekoders durchgeführt.
  • Zum quasi-stetigen Übergang von der breitbandigen auf die schmalbandige Rauschsignalqualität wird der Anteilsfaktor mit Werten wie oben, allerdings in umgekehrter Reihenfolge eingestellt.
  • Ein Ausführungsbeispiel mit weiteren Vorteilen und Ausgestaltungen der Erfindung wird im Folgenden anhand der Zeichnung näher erläutert.
  • Dabei zeigen:
  • Fig. 1
    eine zeitliche Darstellung einer batenrate zwischen einem Sender und einem Empfänger mit mehreren Bandbreitenumschaltungen und einem Eintritt in eine Sprechpause, wobei SID-Rahmen gesendet werden;
    Fig. 2A
    eine schematische Darstellung eines erstes Szenarios einer Bandbreiteriumschaltung;
    Fig. 2B
    eine schematische Darstellung eines zweiten Szenarios einer Bandbreitenumschaltung; und;
    Fig. 3
    Ein dekoderseitig ausgeführter Umschaltvorgang mit einem quasi-stetigen Übergang von einer schmalbandigen auf eine breitbandige Rauschsignalqualität.
  • In Fig. 1 ist eine zeitliche Übertragung von Sprachdatenrah-5 men mit einer jeweiligen Datenrate DR sowie, ab einer dritten Zeitpunkt t3, eine Übertragung von SID-Rahmen dargestellt.
  • Vor einem ersten Zeitpunkt t1 erfolgt eine Übertragung von breitbandigen aktiven Sprachrahmen mit einer Datenrate von 32 kbit/s. Ab dem Zeitpunkt t1 erfolgt eine Umschaltung auf eine Datenrate von 22 kbit/s und ab einem zweiten Zeitpunkt t2 auf eine Datenrate von 12 kbit/s. Eine Datenrate von 12 kbit/s entspricht bereits einem schmalbandigen Sprachrahmen.
  • Zu einem dritten Zeitpunkt t3 wird angenommen, dass aufgrund einer Sprechpause seitens des Senders ein Übertritt in eine DTX-Phase erfolgt. Ab dem dritten Zeitpunkt t3 werden somit SID-Rahmen SID in einer bestimmten zeitlichen Periode gesendet.
  • Ab dem dritten Zeitpunkt t3 tritt nun die zuvor erläuterte Situation ein, dass in der Vergangenheit - während der Zeitphase zwischen dem zweiten Zeitpunkt t2, und dem dritten Zeitpunkt t3 - ein schmalbandiges Sprachsignal übermittelt wurde, wobei ab dem dritten Zeitpunkt t3 nunmehr ein breitbandiges Rauschsignal durch entsprechende SID-Rähmen zur Verfügung gestellt wird. Die Datenrate der SID-Rahmen entspricht 43 bit/20ms = 2,15 kbit/s bei einer Länge von 43 Bit pro SID-Rahmen und einer Periode von 20 ms pro gesendetem SID-Rahmen.
  • In dieser Situation tritt der Fall ein, dass seitens des Dekoders ein unmittelbarer, d.h. unstetiger, Übergang von einem schmalbandigen Sprachsignal auf ein breitbandiges Räuschsignal erfolgen würde. Ein solcher abrupter Übergang wird für einen menschlichen Rezipienten als äußerst störend empfanden.
  • Figur 2A und Figur 2B zeigen zwei mögliche Szenarien für einen Verlauf der Datenrate DR über die Zeit t.
  • In Figur 2A ist aufgrund von Einschränkungen des Netzwerks oder aufgrund anderer Umstände eine Übertragung weitgehend schmalbandig, im Beispiel der Fig. 2A mit 8. kbit/s, während zu wenigen Zeitpunkten, zwischen einem ersten Zeitpunkt t1 und einem zweiten Zeitpunkt t2, ausnahmsweise eine breitbandige Übertragung mit 32 kbit/s erfolgt.
  • In Figur 2B wiederum ist eine umgekehrte Situation zu verzeichnen, nämlich eine überwiegend breitbandige Übertragungsweise mit 32 kbit/s und eine ausnahmsweise kurze, zwischen einem vierten Zeitpunkt t4 und einem fünften Zeitpunkt t5 erfolgende, schmalbandige Übertragungsweise.
  • Im Folgenden wird zu einem Zeitpunkt t3 für das Beispiel der Fig. 2A sowie zu einem Zeitpunkt t6 für das Beispiel der Fig. 2B angenommen, dass ein Eintritt in eine DTX-Phase erfolgt.
  • Gemäß dem erfindungsgemäßen Vorgehen werden während der Sprachphase auf Seiten des Dekoders Informationen zum Anteil von breitbandigen aktiven Sprachrahmen im Vergleich zu schmalbandigen aktiven Sprachrahmen erhöben.
  • Für das Beispiel der Fig. 2A ist dabei der prozentuale Anteil von breitbandigen aktiven Sprachrahmen als sehr niedrig zu bezeichnen, während im Beispiel der Fig. 2B ein hoher prozentualer Anteil von breitbandigen aktiven Sprachrahmen vorliegt.
  • Bei Eintritt in eine DTX-Phase zum Zeitpunkt t3 im Beispiel der Fig. 2A wird nun, unter Anwendung des erfindungsgemäßen Verfahrens ein schmalbandiges Rauschen erzeugt, obwohl die ab dem Zeitpunkt t3 empfangenen - nicht dargestellten - SID-Rahmen eine Synthetisierung eines breitbandigen Rauschens erlauben würden.
  • Im Beispiel der Fig. 2B dagegen werden zu einem Zeitpunkt t6 mit der dort beginnenden DTX-Phase eine breitbandige Synthetisierung der Rauschinformationen bevorzugt.
  • In Fig. 3 ist eine Rauschsignalqualität HB-SHARE über eine Zeit TIME, welche in ms angegeben ist, aufgetragen. Die Fig. 3 stellt dabei eine Gestaltung des Rauschsignals in Anschluss an ein Szenario gemäß der vorangegangenen Figur 2B dar, bei der aufgrund des dekoderseitig ermittelten prozentualen Anteils von breitbandigen aktiven Sprachrahmen ein Bedarf ermittelt wurde, während der DTX-Phase Rauschinformationen breitbandig zu synthetisieren.
  • Der Übergang in die DTX-Phase erfolgt in der Darstellung der Fig. 3 zum dargestellten Zeitpunkt TIME von 0 ms. Um diesen Übergang von einem schmalbandigen Sprachsignal auf ein breitbandiges Rauschsignal quais-stetig zu gestalten, was sich als günstigste Ausgestaltung für ein subjektive Hörempfinden eines menschlichen Rezipienten erwiesen hat, wird zu diesem Zeitpunkt TIME mit einem ausschließlich schmalbandigen Signal begonnen, d.h. mit einem Anteil HB-SHARE des breitbandige Rauschens von 0. Zu einem Zeitpunkt von 100 ms ist der bereitbandige Rauschanteil 1 bzw. 140 %. Zum quasi-stetigen Übergang von einem ausschließlich schmalbandigen Rauschsignal zum Zeitpunkt TIME = 0 ms auf einem ausschließlich breitbandigen Rauschsignal zum Zeitpunkt TIME = 100 ms haben sich in der Praxis folgende weitere Werte des Anteils HB-SHARE zu diskreten Zeitpunkten TIME bewahrt:
    • Zum Zeitpunkt TIME = 20 ms ein Anteil HB-SHARE von 0,09525986892242;
    • Zum Zeitpunkt TIME = 40 ms ein Anteil HB-SHARE von 0,19753086419753;
    • Zum Zeitpunkt TIME = 60 ms ein Anteil HB-SHARE von 0,36595031245237; und;
    • Zum Zeitpunkt TIME = 80 ms ein Anteil HB-SHARE von 0,62429507696997.
  • Eine weitere Ausführungsform der Erfindung sieht in analoger Weise einen Übergang von einem breitbandigen Sprachsignal auf ein schmalbandiges Rauschsignal vor.
  • Hierzu wird zunächst in Bezugnahme auf Fig 2A ein leicht abgeändertes Szenario angenommen, bei dem in Abweichung zu dem in Fig. 2A dargestellten Szenario kurz vor dem Zeitpunkt t3 noch eine nicht dargestellte - Änderung auf eine breitbandige Übertragung mit 32 kbit/s erfolgt. Trotz dieses »Peaks« bleibt der prozentuale Anteil von breitbandigen aktiven Sprachrahmen sehr niedrig, sodass nunmehr bei Übergang in die DTX-Phase ein Rauschsignal zu synthetisieren ist, dass breitbandig beginnt, jedoch - aufgrund der überwiegend schmalbandigen Übertragungshistorie und der damit für die Zukunft zu erwartenden Fortsetzung des schmalbandigen Übertragungscharakters - in ein schmalbandiges Rauschsignal überzuführen ist. Um diesen Übergang von einem breitbandigen Sprachsignal auf ein schmalbandiges Rauschsignal quais-stetig zu gestalten, wird zum Eintritt in die DTX-Phase mit einem ausschließlich breitbandigen Signal begonnen, d.h. mit einem Anteil HB-SHARE des breitbandigen Rauschens von 1. Zu einem Zeitpunkt von 100 ms ist der schmalbandige Rauschanteil 0. Zum quasi-stetigen Übergang von einem ausschließlich breitbandigen Rauschsignal zum Zeitpunkt des Eintritts in die DTX-Phase auf einem ausschließlich schmalbandigen Rauschsignal zu einem Zeitpunkt nach 100 ms werden in vorteilhafter Weise die oben vorgeschlagenen Werte in einer umgekehrten Reihe eingestellt. Die entspräche einer an der Ordinate HB-SHARE gespiegelten Kurve gemäß Fig. 3.

Claims (15)

  1. Verfähren zur Dekodierung eines SID-Rahmens (SID) für eine Übermittlung von Hintergrundrauschinformationen in Anwendung eines skalierbaren Sprachsignalkodierungsverfahren mit folgenden Schritten:
    Bestimmung eines Anteils an empfangenen breitbandigen Sprachrahmen im Verhältnis zu empfangenen schmalbandigen Sprachrahmen während einer Sprachphase,
    Dekodierung der in einem SID-Rahmen enthaltenen Hintergrundrauschinformationen bei Eintritt in eine DTX-Phase, wobei die Dekodierung nach Maßgabe des ermittelten Anteils vorwiegend breitbandig oder schmalbandig erfolgt.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass im Falle einer Bestimmung eines hohen Anteils an empfangenen breitbandigen Sprachrahmen bei Eintritt in die DTX-Phase eine vorwiegend breitbandige Dekodierung der Hintergrundrauschinformationen erfolgt.
  3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass bei Eintritt in die DTX-Phase zunächst eine vorwiegend schmalbandige Dekodierung der Hintergrundrauschinformationen erfolgt, welche nach einem einstellbaren Zeitraum in eine vorwiegend breitbandige Dekodierung übergeht.
  4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass der Übergang in die vorwiegend breitbandige Dekodierung mit einem Anteilsfaktor (HB-SHARE) einstellbar ist, welcher ein Verhältnis zwischen einer breitbandigen und einer schmalbandigen Rauschsignalqualität ausdrückt.
  5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass der Anteilsfaktor zum Zeitpunkt des Eintritts in die DTX-Phase zu Null dimensioniert wird.
  6. Verfähren nach einem der Ansprüche 4 bis 5, dadurch gekennzeichnet, , dass der Anteilsfaktor zu einem Zeitpunkt von 100 ms nach Eintritt in die DTX-Phase zu Eins dimensioniert wird.
  7. Verfahren nach einem der Ansprüche 4 bis 6, dadurch gekennzeichnet, dass der Anteilsfaktor
    - zu einem Zeitpunkt von 20 ms nach Eintritt in die DTX-Phase zu 0,09525986892242 dimensioniert wird;
    - zu einem Zeitpunkt von 40 ms nach Eintritt in die BTX-Phase zu 0,19753086419753 dimensioniert wird;
    - zu einem Zeitpunkt von 60 ms nach Eintritt in die DTX-Phase zu 0,36595031245237 dimensioniert wird; und;
    - zu einem Zeitpunkt von 80 ms nach Eintritt in die DTX-Phase zu 0,62429507696997 dimensioniert wird.
  8. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass im Falle einer Bestimmung eines niedrigen Anteils an empfangenen breitbandigen Sprachrahmen bei Eintritt in die DTX-Phase eine vorwiegend schmalbandige Dekodierung der Hintergrundrauschinformationen erfolgt.
  9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass bei Eintritt in die DTX-Phase zunächst eine vorwiegend breitbandige Dekodierung der Hintergrundrauschinformationen erfolgt, welche nach einem einstellbaren Zeitraum in eine vorwiegend schmalbandige Dekodierung übergeht.
  10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass der Übergang in die vorwiegend schmalbandige Dekodierung mit einem Anteilsfaktor (HB-SHARE) einstellbar ist, welcher ein Verhältnis zwischen einer breitbandigen und einer schmalbandigen Rauschsignalqualität ausdrückt.
  11. Verfahren nach Anspruch 10 dadurch gekennzeichnet, dass der Anteilsfaktor zum Zeitpunkt des Eintritts in die DTX-Phase zu Eins dimensioniert wird.
  12. Verfahren nach einem der Ansprüche 10 bis 11, dadurch gekennzeichnet, dass der Anteilsfaktor zu einem Zeitpunkt von 100 ms nach Eintritt in die DTX-Phase zu Null dimensioniert wird.
  13. Verfahren nach einem der Ansprüche 10 bis 12, dadurch gekennzeichnet, dass der Anteilsfaktor
    - zu einem Zeitpunkt von 20 ms nach Eintritt in die DTX-Phase zu 0,62429507696997 dimensioniert wird;
    - zu einem Zeitpunkt von 40 ms nach Eintritt in die DTX-Phase zu 0,36595031245237 dimensioniert wird;
    - zu einem Zeitpunkt von 60 ms nach Eintritt in die DTX-Phase zu 0,19753086419753 dimensioniert wird; und;
    - zu einem Zeitpunkt von 80 ms nach Eintritt in die DTX-Phase zu 0,09525986892242 dimensioniert wird.
  14. Codec mit Mitteln zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 13.
  15. Codec nach Anspruch 14, gekennzeichnet durch eine simplementierung im an sich bekannten ITU-T Standard G.729.1.
EP09712583.5A 2008-02-19 2009-02-02 Verfahren und mittel zur dekodierung von hintergrundrauschinformationen Active EP2245622B1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102008009720A DE102008009720A1 (de) 2008-02-19 2008-02-19 Verfahren und Mittel zur Dekodierung von Hintergrundrauschinformationen
PCT/EP2009/051120 WO2009103609A1 (de) 2008-02-19 2009-02-02 Verfahren und mittel zur dekodierung von hintergrundrauschinformationen

Publications (2)

Publication Number Publication Date
EP2245622A1 EP2245622A1 (de) 2010-11-03
EP2245622B1 true EP2245622B1 (de) 2016-07-13

Family

ID=40790517

Family Applications (1)

Application Number Title Priority Date Filing Date
EP09712583.5A Active EP2245622B1 (de) 2008-02-19 2009-02-02 Verfahren und mittel zur dekodierung von hintergrundrauschinformationen

Country Status (8)

Country Link
US (1) US8260606B2 (de)
EP (1) EP2245622B1 (de)
JP (1) JP5006975B2 (de)
KR (1) KR101166650B1 (de)
CN (1) CN101946281B (de)
DE (1) DE102008009720A1 (de)
RU (1) RU2454737C2 (de)
WO (1) WO2009103609A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2805130C1 (ru) * 2023-02-03 2023-10-11 Федеральное государственное бюджетное образовательное учреждение высшего образования "Рязанский государственный радиотехнический университет имени В.Ф. Уткина" (ФГБОУ "РГРТУ", РГРТУ) Способ построения адаптивного к акустическим шумам кодека речевых сигналов

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2980790A1 (de) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Komfortgeräuscherzeugungs-Modusauswahl
JP2016038513A (ja) * 2014-08-08 2016-03-22 富士通株式会社 音声切替装置、音声切替方法及び音声切替用コンピュータプログラム
US10049684B2 (en) * 2015-04-05 2018-08-14 Qualcomm Incorporated Audio bandwidth selection

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI105001B (fi) * 1995-06-30 2000-05-15 Nokia Mobile Phones Ltd Menetelmä odotusajan selvittämiseksi puhedekooderissa epäjatkuvassa lähetyksessä ja puhedekooderi sekä lähetin-vastaanotin
RU2237296C2 (ru) * 1998-11-23 2004-09-27 Телефонактиеболагет Лм Эрикссон (Пабл) Кодирование речи с функцией изменения комфортного шума для повышения точности воспроизведения
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
US6631139B2 (en) * 2001-01-31 2003-10-07 Qualcomm Incorporated Method and apparatus for interoperability between voice transmission systems during speech inactivity
EP1808852A1 (de) * 2002-10-11 2007-07-18 Nokia Corporation Verfahren zur Interoperation zwischen adaptiven Breitband-Codecs mit unterschiedlichen Raten und Breitband-Codecs mit mehreren Betriebsarten und variabler Bitrate
JP4438280B2 (ja) * 2002-10-31 2010-03-24 日本電気株式会社 トランスコーダ及び符号変換方法
PL1897085T3 (pl) 2005-06-18 2017-10-31 Nokia Technologies Oy System i sposób adaptacyjnej transmisji parametrów szumu łagodzącego w czasie nieciągłej transmisji mowy
ATE490454T1 (de) * 2005-07-22 2010-12-15 France Telecom Verfahren zum umschalten der raten- und bandbreitenskalierbaren audiodecodierungsrate
EP1955321A2 (de) 2005-11-30 2008-08-13 TELEFONAKTIEBOLAGET LM ERICSSON (publ) Effiziente sprach-strom-umsetzung
US8260609B2 (en) * 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
US8032359B2 (en) * 2007-02-14 2011-10-04 Mindspeed Technologies, Inc. Embedded silence and background noise compression
KR101290622B1 (ko) * 2007-11-02 2013-07-29 후아웨이 테크놀러지 컴퍼니 리미티드 오디오 복호화 방법 및 장치
CN101335000B (zh) * 2008-03-26 2010-04-21 华为技术有限公司 编码的方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2805130C1 (ru) * 2023-02-03 2023-10-11 Федеральное государственное бюджетное образовательное учреждение высшего образования "Рязанский государственный радиотехнический университет имени В.Ф. Уткина" (ФГБОУ "РГРТУ", РГРТУ) Способ построения адаптивного к акустическим шумам кодека речевых сигналов

Also Published As

Publication number Publication date
DE102008009720A1 (de) 2009-08-20
WO2009103609A1 (de) 2009-08-27
RU2454737C2 (ru) 2012-06-27
JP5006975B2 (ja) 2012-08-22
US8260606B2 (en) 2012-09-04
EP2245622A1 (de) 2010-11-03
KR101166650B1 (ko) 2012-07-23
JP2011512564A (ja) 2011-04-21
RU2010138566A (ru) 2012-03-27
US20110040560A1 (en) 2011-02-17
CN101946281A (zh) 2011-01-12
CN101946281B (zh) 2012-08-15
KR20100125340A (ko) 2010-11-30

Similar Documents

Publication Publication Date Title
EP2245621B1 (de) Verfahren und mittel zur enkodierung von hintergrundrauschinformationen
EP0667063B1 (de) Verfahren zur übertragung und/oder speicherung digitaler signale mehrerer kanäle
DE60214599T2 (de) Skalierbare audiokodierung
DE60209637T2 (de) Steuerung eines Konferenzgespräches
DE60319590T2 (de) Verfahren zur codierung und decodierung von audio mit variabler rate
DE60120504T2 (de) Verfahren zur transcodierung von audiosignalen, netzwerkelement, drahtloses kommunikationsnetzwerk und kommunikationssystem
EP2122888B1 (de) Vorrichtung und verfahren zum senden einer folge von datenpaketen und decodierer und vorrichtung zum decodieren einer folge von datenpaketen
EP2119078B1 (de) Vorrichtung und verfahren zum erzeugen eines zu sendenden signals oder eines decodierten signals
EP1338004A1 (de) Verfahren und vorrichtung zum erzeugen bzw. decodieren eines skalierbaren datenstroms unter berücksichtigung einer bitsparkasse, codierer und skalierbarer codierer
EP2245620B1 (de) Verfahren und mittel zur enkodierung von hintergrundrauschinformationen
EP2245622B1 (de) Verfahren und mittel zur dekodierung von hintergrundrauschinformationen
WO2002058054A1 (de) Verfahren und vorrichtung zum erzeugen eines skalierbaren datenstroms und verfahren und vorrichtung zum decodieren eines skalierbaren datenstroms
EP1677286A1 (de) Verfahren zur Anpassung von Comfort Noise Generation Parametern
DE4430864A1 (de) Verfahren zum unbemerktem Übertragen und/oder Speichern von Zusatzinformationen innerhalb eines quellencodierten, datenreduzierten Audiosignals
DE69921643T2 (de) Av-signalübertragung mit variabler bitrate in einem paketnetz
DE60304237T2 (de) Sprachkodiervorrichtung und Verfahren mit TFO (Tandem Free Operation) Funktion
EP1433166A1 (de) Sprachextender und verfahren zum schätzen eines breitbandigen sprachsignals anhand eines schmalbandigen sprachsignals
EP1390947B1 (de) Verfahren zum signalempfang in einem digitalen kommunikationssystem
DE19735675C2 (de) Verfahren zum Verschleiern von Fehlern in einem Audiodatenstrom
DE19906223B4 (de) Verfahren und Funk-Kommunikationssystem zur Sprachübertragung, insbesondere für digitale Mobilkummunikationssysteme
EP1354314A2 (de) Verfahren und vorrichtung zum erzeugen eines skalierbaren datenstroms und verfahren und vorrichtung zum decodieren eines skalierbaren datenstroms unter berücksichtigung einer bitsparkassenfunktion
WO2005034091A1 (de) Verfahren und anordnung zur audioübertragung
AT509439A1 (de) Verfahren und mittel zur skalierbaren verbesserung der qualität eines signalcodierverfahrens
DE102005032079A1 (de) Verfahren und Vorrichtung zur Geräuschunterdrückung
DE102005053254A1 (de) Verfahren zum Codieren eines akustischen Signals

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20100812

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO SE SI SK TR

AX Request for extension of the european patent

Extension state: AL BA RS

RIN1 Information on inventor provided before grant (corrected)

Inventor name: TADDEI, HERVE

Inventor name: SCHANDL, STEFAN

Inventor name: SETIAWAN, PANJI

DAX Request for extension of the european patent (deleted)
RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: UNIFY GMBH & CO. KG

REG Reference to a national code

Ref country code: DE

Ref legal event code: R079

Ref document number: 502009012809

Country of ref document: DE

Free format text: PREVIOUS MAIN CLASS: G10L0019000000

Ipc: G10L0019012000

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

RIC1 Information provided on ipc code assigned before grant

Ipc: G10L 19/24 20130101ALI20150609BHEP

Ipc: G10L 19/012 20130101AFI20150609BHEP

INTG Intention to grant announced

Effective date: 20150706

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

INTG Intention to grant announced

Effective date: 20151012

INTG Intention to grant announced

Effective date: 20160224

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO SE SI SK TR

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: AT

Ref legal event code: REF

Ref document number: 812878

Country of ref document: AT

Kind code of ref document: T

Effective date: 20160715

Ref country code: CH

Ref legal event code: EP

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

Free format text: LANGUAGE OF EP DOCUMENT: GERMAN

REG Reference to a national code

Ref country code: DE

Ref legal event code: R096

Ref document number: 502009012809

Country of ref document: DE

REG Reference to a national code

Ref country code: DE

Ref legal event code: R082

Ref document number: 502009012809

Country of ref document: DE

Representative=s name: SCHAAFHAUSEN PATENTANWAELTE PARTNERSCHAFTSGESE, DE

Ref country code: DE

Ref legal event code: R082

Ref document number: 502009012809

Country of ref document: DE

Representative=s name: FRITZSCHE PATENTANWAELTE, DE

Ref country code: DE

Ref legal event code: R081

Ref document number: 502009012809

Country of ref document: DE

Owner name: UNIFY GMBH & CO. KG, DE

Free format text: FORMER OWNER: UNIFY GMBH & CO. KG, 81379 MUENCHEN, DE

RAP2 Party data changed (patent owner data changed or rights of a patent transferred)

Owner name: UNIFY GMBH & CO. KG

REG Reference to a national code

Ref country code: LT

Ref legal event code: MG4D

REG Reference to a national code

Ref country code: NL

Ref legal event code: MP

Effective date: 20160713

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161113

Ref country code: HR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

Ref country code: IT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

Ref country code: NL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

Ref country code: LT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

Ref country code: FI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

Ref country code: NO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161013

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 9

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: PT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161114

Ref country code: ES

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

Ref country code: LV

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161014

Ref country code: PL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

Ref country code: SE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

REG Reference to a national code

Ref country code: DE

Ref legal event code: R097

Ref document number: 502009012809

Country of ref document: DE

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: RO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

Ref country code: EE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

Ref country code: SK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

Ref country code: BE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20170228

Ref country code: CZ

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

Ref country code: BG

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20161013

26N No opposition filed

Effective date: 20170418

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MC

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: CH

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20170228

Ref country code: LI

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20170228

REG Reference to a national code

Ref country code: IE

Ref legal event code: MM4A

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LU

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20170202

REG Reference to a national code

Ref country code: BE

Ref legal event code: MM

Effective date: 20170228

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 10

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20170202

REG Reference to a national code

Ref country code: AT

Ref legal event code: MM01

Ref document number: 812878

Country of ref document: AT

Kind code of ref document: T

Effective date: 20170202

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: AT

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20170202

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: HU

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT; INVALID AB INITIO

Effective date: 20090202

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: CY

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20160713

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: TR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20160713

REG Reference to a national code

Ref country code: DE

Ref legal event code: R082

Ref document number: 502009012809

Country of ref document: DE

Representative=s name: SCHAAFHAUSEN PATENTANWAELTE PARTNERSCHAFTSGESE, DE

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20240216

Year of fee payment: 16

Ref country code: GB

Payment date: 20240222

Year of fee payment: 16

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20240221

Year of fee payment: 16