EP2345028A1 - Verfahren zur fehlerverdeckung bei fehlerhafter übertragung von sprachdaten - Google Patents

Verfahren zur fehlerverdeckung bei fehlerhafter übertragung von sprachdaten

Info

Publication number
EP2345028A1
EP2345028A1 EP09783486A EP09783486A EP2345028A1 EP 2345028 A1 EP2345028 A1 EP 2345028A1 EP 09783486 A EP09783486 A EP 09783486A EP 09783486 A EP09783486 A EP 09783486A EP 2345028 A1 EP2345028 A1 EP 2345028A1
Authority
EP
European Patent Office
Prior art keywords
speech signal
frame
signal frame
received
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP09783486A
Other languages
English (en)
French (fr)
Inventor
Peter Vary
Frank Mertz
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of EP2345028A1 publication Critical patent/EP2345028A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Definitions

  • the invention is based on a method and a device according to the category of the independent claims.
  • Networks it is known to transmit a speech signal based on speech signal frames, wherein a receiver after receiving the speech signal frames used to generate a speech signal to be output.
  • the speech signal frames are preferably transmitted as data in the form of so-called pacts via networks, for example a GSM
  • Network a network according to the Internet Protocol or a network according to the W-LAN protocol, which can lead to a loss of a voice signal frame due to faulty data transmission. It is also possible that in a packet-switched transmission of data too long a time delay of the transmission of a speech signal frame may occur, so that this speech signal frame in the course of a continuous output of a speech signal can not be considered, for example, to the output of the speech signal of the delayed transmitted or lost voice signal frames is not available.
  • Speech signal frame is shown in FIG. FIG. 1 shows a speech signal 10 which, for example, is divided into three segments in the form of speech signal frames 1, 2, 3.
  • the number of three segments is chosen only as an example. It is obvious to a person skilled in the art that the number of speech signal frames 1, 2, 3 can deviate from the number three.
  • an output of the speech signal 10 takes place continuously at different times.
  • a time axis 20 is shown, along which times 31, 32, 33 are marked, to which in each case a reception of a speech signal frame 1, 2, 3 has been completed.
  • Embodiment is completed at a first time 31, the reception of the first speech signal frame 1, so that the speech signal 10 can be output to a certain part at the first time 31.
  • a second time 32 the reception of the second speech signal frame 2 is completed according to the exemplary embodiment, so that this second
  • Event 32 a further part of the speech signal 10 can be output. Further, for a third time 33 at which the third speech signal frame 3 has been completely received.
  • the further speech signal 11 which is to be output, shown.
  • the further speech signal 11 is composed in such a way that the received speech signal frames 1, 2, 3 do not adjoin one another in terms of time, but intersect each other.
  • the further speech signal 11 consists of a first segment 111, a second segment 112 and a third segment 113. It can be seen from FIG. 2 that the first segment 111 by means of the first speech frame 1 and at least one part of the first segment 111 second speech frame 2 is to determine.
  • the second segment 112 is to be determined by means of the second speech frame as well as at least a part of the third speech frame 3.
  • the third segment 113 is to be determined on the basis of the third speech frame 3 as well as possibly following further speech frames.
  • a first time 41 is identified, which coincides with the time end of the first segment 111 of the further speech signal 11.
  • the first speech signal frame 1 and also the second speech signal frame 2 must be present.
  • the speech signal frames 1, 2, 3 shown in FIGS. 1 and 2 preferably have respective indices 11, 12, 13 in order to be able to assign the received speech signal frames to a chronological order.
  • FIG. 3 shows the case that the second voice signal frame 2 has not been received. If, according to FIG. 3, the first speech signal frame 1 has been received up to the first time 41, but not the second speech signal frame 2, an output of the further speech signal 11 is the
  • FIG. 4 shows steps of a method by means of which a substitute speech signal frame 100 is generated on the basis of a received speech signal frame 50.
  • the received speech signal frame 50 is first supplied to a linear prediction analysis 62, which linear
  • Prediction coefficients 51 for a linear prediction analysis filter 61 The principle of a linear prediction and its determination of the linear prediction coefficients for an analysis filter for the linear prediction of a pulse code modeled speech signal of a received speech signal frame 50 is known to the person skilled in the art from [1, 4].
  • Prediction analysis filter 61 filters the speech signal of the received speech signal frame 50, thereby obtaining the residual signal 52.
  • This residual signal 52 is supplied to a decider 63, which determines by means of the residual signal 52 whether the speech signal of the received speech signal frame 50 is a voiced or an unvoiced speech signal.
  • the decision maker 63 passes his decision 53 on the voicing or voicelessness of the speech signal to a pitch determining unit 64.
  • This fundamental frequency determination unit 64 determines, by means of the residual signal 52 and the decision 53, a fundamental frequency 54 of the speech signal.
  • the fundamental frequency is determined by the argument of a normalized autocorrelation function, for which the value of the normalized autocorrelation function assumes its maximum [1, 2].
  • the fundamental frequency 54 is set to a minimum value in order to reduce artifacts in the high-frequency range which occur due to unnatural periodicities in a signal to be determined.
  • an estimated residual signal 55 is determined based on the residual signal 52 and the fundamental frequency 54 [I].
  • the estimated residual signal 55 is supplied to a linear prediction synthesis filter 66, which, based on the previously determined linear prediction coefficients 51, subjects the estimated residual signal 55 to a synthesis filtering so that the speech signal of the substitute speech signal frame 100 is obtained. This extrapolates the spectral envelope of the speech signal while maintaining the periodic structure of the signal.
  • the replacement speech-signal-based frame 100 is generated on the basis of a received speech signal frame 50.
  • the received speech signal frame 50 can be, for example, the first speech signal frame 1 from FIG.
  • a fundamental frequency 54 is obtained, which is obtained by an analysis of that speech signal frame obtained in chronological order before the last received first speech signal frame. This results in a variation of the fundamental frequency of the speech signals of the different generated
  • Speech signal frames thereby avoiding unwanted harmonic artifacts, which result in the case that over a long period of time, the same speech signal is output.
  • the fundamental frequency 54 is varied to produce the further, third substitute speech signal frame by extracting the fundamental frequency 54 from that speech signal frame which has two positions in the chronological order from the last received, first voice signal frame 1 was received.
  • the fundamental frequency 54 is varied to produce the further, third substitute speech signal frame by extracting the fundamental frequency 54 from that speech signal frame which has two positions in the chronological order from the last received, first voice signal frame 1 was received.
  • no further modification of the fundamental frequency takes place. Instead, all other substitute speech signal frames are generated by means of that fundamental frequency 54 which is used to generate the third substitute speech signal frame has been used. This fundamental frequency 54 for generating the third substitute speech signal frame is used until the end of the reception disturbance.
  • Replacement voice signal frames thus generated are used in place of the non-received substitute voice signal frames.
  • Speech signal is achieved in those cases in which the speech signal of the substitute speech signal frame is generated based on a received speech signal frame having an unvoiced speech signal. This is achieved in that for a voiceless speech signal of a received speech signal frame, the speech signal of the at least one
  • Noise signals here are signals which have no unique fundamental frequency.
  • a random signal with an equal distribution within a certain value range is used as the noise signal.
  • the speech signal of the at least one substitute speech signal frame is generated by means of a fundamental frequency signal.
  • the noise signal used is a uniformly distributed noise signal multiplied by a scaling factor.
  • the scaling factor is determined as a function of a signal energy of such a filtered speech signal, which results from a filtering of the speech signal of the previously received speech signal frame by means of a linear prediction filter.
  • Scaling factor is generated whose signal energy is as similar as possible with the signal energy of the speech signal, which was previously obtained by a linear prediction, since the estimated measurement signal is filtered again later by a linear synthesis filter with linear prediction coefficients of the previous analysis filter to the signal of the substitute speech signal frame win.
  • the filtered speech signal after filtering with a linear prediction analysis filter, is subdivided into respective subframes and respective speech signal frames, a respective signal energy of the sub-speech signal being determined for each subframe.
  • the scaling factor is determined as a function of the signal energy which has the smallest value of respective signal energies. This results in scaling factors and thus estimated residual signals, which lead to speech signals of a replacement speech signal frame, which for Generation of the output speech signal causes a high perceptive quality in acoustic terms for a listener.
  • a decision as to whether a previously received speech signal frame comprises a voiced or unvoiced speech signal is made in response to a normalized autocorrelation function of the speech signal of the received speech signal frame and a zero crossing rate of the speech signal of the received speech signal frame.
  • a control device for outputting a speech signal has a first interface via which the control unit receives voice signal frames. Furthermore, the control unit has an arithmetic unit which uses the received speech signal frames in a predetermined order for generating the speech signal to be output. The control unit according to the invention outputs the speech signal to be output via a second interface. In the event that at least one speech signal frame to be received is not used, the arithmetic unit uses a substitute speech signal frame instead of the at least one unvoiced speech signal frame, wherein the arithmetic unit generates the substitute speech signal frame in response to at least one previously received speech signal frame.
  • the control unit is characterized in that in the case that the previously received speech signal frame comprises an unvoiced speech signal, the arithmetic unit generates the speech signal of the one substitute speech signal frame by means of a noise signal.
  • a control unit is claimed in which, in the event that the previously received speech signal frame comprises a voiced speech signal, the arithmetic unit generates the speech signal of the substitute speech signal frame by means of a fundamental frequency signal.
  • a control device which further comprises a memory unit which provides the noise signal and / or the fundamental frequency signal.
  • FIG. 5 shows an exemplary embodiment of a method according to the invention.
  • FIG. 6 also shows a speech signal frame which is subdivided into subframes.
  • FIG. 7 shows an embodiment of a control device according to the invention.
  • FIG. 5 shows a preferred embodiment of the method according to the invention.
  • the speech signal of a previously received speech signal frame 50 is supplied to a unit for determining linear prediction coefficients by means of a linear prediction analysis 62, whereby linear prediction coefficients 51 are obtained.
  • the linear prediction analysis filter 61 generates the residual signal 52.
  • a modified decision unit 83 for deciding voicing of the speech signal does not make this decision from the residual signal 52 as taught in the prior art but based on the speech signal of the received speech signal frame 50.
  • a modified fundamental frequency 74 is obtained in dependence on the speech signal of the received speech signal frame 50 by means of a modified fundamental frequency determination unit 84, which is known from the document [3].
  • a first switching of the residual signal 52 either to a generating unit 65 which generates a modified estimated residual signal 75 based on the residual signal 52 and the modified fundamental frequency 74, or a switching of Residual signal 52 to an energy calculation unit 85. If the modified decision 73 has been made such that the speech signal of the received speech signal frame 50 has been identified as unvoiced, then the switching takes place in such a way that the residual signal is switched to the energy calculation unit 85. When deciding on a voiced signal, the switching takes place in such a way that the residual signal 52 is switched to the generation unit 65.
  • the generating unit 65 now generates the modified estimated residual signal 75 based on the modified fundamental frequency 74 and the residual signal 52, the type of generation being known on the basis of a fundamental frequency and a residual signal from [1, 2]. In the case of an unvoiced signal, the calculates
  • Speech signal frame 50 generates.
  • a second switching unit 89 is also switched in response to the modified decision 73 so as to pick up the modified estimated residual signal 75 depending on the voicing or voicelessness of the speech signal of the received speech signal frame 50, either the residual signal generated by a modified fundamental frequency or by a noise signal is tapped.
  • This modified estimated residual signal 75 is fed to a synthesis filter of linear prediction, which is the input to linear linear synthesis
  • Prediction coefficient 51 used.
  • the speech signal of the substitute speech signal frame 100 is obtained.
  • the modified decision unit 83 the
  • the normalized autocorrelation function ⁇ (x (n)) is preferably determined by means of calculation rule
  • the zero-crossing rate zcr (x (n)) for the speech signal x ⁇ n) is preferably determined by means of the calculation rule
  • a voiced signal x ⁇ n) is then decided when, firstly, the normalized autocorrelation function ⁇ (x (n)) exceeds a first threshold value ⁇ Ar 1 ⁇ (x (n))> thr x and further if second, the zero crossing rate ((x n)) falls below a zcr z zwweeiitteenn SScchhwweell Ilwwert thr zcr 2 (x (n)) ⁇ thr. 2
  • the first threshold value thr ⁇ is selected to be 0.5.
  • the noise signal 76 used is a uniformly distributed noise signal, the modified estimated residual signal being obtained by multiplying the noise signal by a scaling factor or a gain factor 77.
  • the scaling factor 77 is in this case preferably determined as a function of a signal energy of the filtered speech signal 52.
  • the filtered speech signal 52 of the received and filtered speech signal frame is subdivided into respective subframes 201 to 204 with respective sub-speech signals.
  • the subdivision according to FIG. 6 into four different subframes 201 to 204 is only an example. It is also a subdivision into another
  • N exemplary embodiment N SF - corresponds. For each of the subframes or the
  • Partial speech signals e t (n) is a determination of the signal energy according to the calculation rule
  • the noise signal 76 r (n) is such scales to 77 * J ⁇ E as the scaling factor or gain.
  • the estimated residual signal 75 is determined in the case of an unvoiced speech signal of the received speech signal frame 50 ,
  • an inventive control device 1000 is shown.
  • This control device 1000 has a first interface 1001 for receiving speech signal frames.
  • a computing unit 1003 of the control unit 1000 uses the received speech signal frames in a predetermined order to generate the speech signal to be output, which is output via a second interface 1002 of the control unit 1000.
  • the computing unit 1003, the first interface 1001, and the second interface 1002 are interconnected via a bus system 1004 or similar device for exchanging data and / or signals.
  • the arithmetic unit uses in the case that one to be received
  • Speech signal frame is not received, instead of the non-received speech signal frame a replacement speech signal frame.
  • the arithmetic unit generates the substitute speech signal frame as a function of a previously received speech signal frame.
  • the control device according to the invention is characterized in that in the case that the previously received
  • Voice signal frame comprises an unvoiced speech signal
  • the arithmetic unit 1003 generates the speech signal of the substitute speech signal frame by means of a noise signal.
  • the arithmetic unit 1003 generates the speech signal of the substitute speech signal frame by means of a fundamental frequency signal.
  • this control device 1000 has a memory unit 1005, which provides a fundamental frequency signal and / or a noise signal.
  • a memory unit 1005 which provides a fundamental frequency signal and / or a noise signal.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Noise Elimination (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zur Ausgabe eines Sprachsignals. Es werden Sprachsignalrahmen empfangen und in einer vorgegebenen Reihenfolge zu einer Erzeugung eines auszugebenden Sprachsignals verwendet. Wird ein zu empfangener Sprachsignalrahmen nicht empfangen, so wird an dessen Stelle ein Ersatzsprachsignalrahmen verwendet, welcher in Abhängigkeit von einem zuvor empfangenen Sprachsignalrahmen erzeugt wird. Gemäß der Erfindung wird in dem Fall, dass der zuvor empfangene Sprachsignalrahmen ein stimmloses Sprachsignal aufweist, der Ersatzsprachsignalrahmen mittels eines Rauschsignals erzeugt.

Description

Beschreibung
Titel
Verfahren zur Fehlerverdeckung bei fehlerhafter Übertragung von Sprachdaten
Stand der Technik
Die Erfindung geht aus von einem Verfahren und einer Vorrichtung nach Gattung der unabhängigen Ansprüche.
Zur Übertragung von Sprachsignalen über drahtgebundene oder drahtlose
Netzwerke ist es bekannt, ein Sprachsignal anhand von Sprachsignalrahmen zu übertragen, wobei ein Empfänger nach Empfang der Sprachsignalrahmen diese zur Erzeugung eines auszugebenden Sprachsignals verwendet. Die Sprachsignalrahmen werden hierbei vorzugsweise als Daten in Form von sogenannten Pakten über Netzwerke übertragen, beispielsweise ein GSM-
Netzwerk, ein Netzwerk gemäß des Internetprotokolls oder ein Netzwerk gemäß des W-LAN-Protokolls, wobei es aufgrund von fehlerhafter Datenübertragung zu einem Verlust eines Sprachsignalrahmens kommen kann. Ebenfalls ist es möglich, dass bei einer paketvermittelten Übertragung von Daten eine zu große zeitliche Verzögerung der Übertragung eines Sprachsignalsrahmens auftreten kann, sodass dieser Sprachsignalrahmen im Zuge einer kontinuierlichen Ausgabe eines Sprachsignals nicht berücksichtigt werden kann, da beispielsweise zu der Ausgabe des Sprachsignals der verzögert übertragene oder auch verloren gegangene Sprachsignalrahmen nicht vorhanden ist. Werden anstelle des nicht empfangenen Sprachsignalrahmens keinerlei Signale an einer entsprechenden Stelle des auszugebenden Sprachsignals eingefügt, so erfolgt hierdurch ein Ausfall des auszugebenden Sprachsignals an entsprechender Stelle, was in einer Degradation der akustischen Qualität des Sprachsignals resultiert. Aus diesem Grund ist es notwendig, anstelle eines nicht empfangenen Sprachsignalrahmens einen Ersatzsprachsignalrahmen zu verwenden, um eine sogenannte Fehlerverdeckung herbeizuführen.
Das Grundprinzip einer Übertragung eines Sprachsignals anhand von Sprachsignalrahmen sowie einer Erzeugung des Sprachsignals anhand dieser
Sprachsignalrahmen ist in der Figur 1 gezeigt. Die Figur 1 zeigt ein Sprachsignal 10, welche sich beispielsweise aus drei Segmenten in Form von Sprachsignalrahmen 1, 2, 3 aufteilt. Hierbei ist die Anzahl von drei Segmenten nur beispielhaft gewählt. Es versteht sich für einen Fachmann, dass die Anzahl der Sprachsignalrahmen 1, 2, 3 von der Anzahl drei abweichen kann. Werden nach einer Übertragung die Sprachsignalrahmen 1, 2, 3 empfangen, so erfolgt fortlaufend eine Ausgabe des Sprachsignals 10 zu unterschiedlichen Zeitpunkten. Gemäß der Figur 1 ist eine Zeitachse 20 dargestellt, entlang derer Zeitpunkte 31, 32, 33 gekennzeichnet sind, zu welchen jeweils ein Empfang eines Sprachsignalrahmens 1, 2, 3 abgeschlossen ist. Gemäß des
Ausführungsbeispieles ist zu einem ersten Zeitpunkt 31 der Empfangs des ersten Sprachsignalrahmens 1 abgeschlossen, sodass das Sprachsignal 10 bis zu einem bestimmten Teil zu dem ersten Zeitpunkt 31 ausgegeben werden kann. Zu einem zweiten Zeitpunkt 32 ist gemäß des Ausführungsbeispieles der Empfang des zweiten Sprachsignalrahmens 2 abgeschlossen, sodass zu diesem zweiten
Zeitpunkt 32 ein weiterer Teil des Sprachsignals 10 ausgegeben werden kann. Weiteres gilt für einen dritten Zeitpunkt 33, zu welchem der dritte Sprachsignalrahmen 3 vollständig empfangen worden ist.
Gemäß des Ausführungsbeispieles in Figur 2 ist eine Erzeugung eines weiteren
Sprachsignals 11, welches auszugeben ist, dargestellt. In dem Ausführungsbeispiel setzt sich das weitere Sprachsignal 11 derart zusammen, dass die empfangenen Sprachsignalrahmen 1, 2, 3 nicht zeitlich aneinander angrenzen, sondern sich überschneiden. Gemäß des Ausführungsbeispieles in Figur 2 besteht das weitere Sprachsignal 11 aus einem ersten Segment 111, einem zweiten Segment 112 sowie einem dritten Segment 113. Es ist der Figur 2 zu entnehmen, dass das erste Segment 111 mittels des ersten Sprachrahmens 1 sowie mindestens eines Teils des zweiten Sprachrahmens 2 zu bestimmen ist. Das zweite Segment 112 ist mittels des zweiten Sprachrahmens sowie mindestens anhand eines Teils des dritten Sprachrahmens 3 zu bestimmen. Das dritte Segment 113 ist anhand des dritten Sprachrahmens 3 sowie anhand möglicherweise folgender weiterer Sprachrahmen zu bestimmen. Auf einer in Figur 2 dargestellten zweiten Zeitachse 21 ist ein erster Zeitpunkt 41 gekennzeichnet, welcher mit dem zeitlichen Ende des ersten Segmentes 111 des weiteren Sprachsignals 11 übereinstimmt. Um also zu dem ersten Zeitpunkt 41 das weitere Sprachsignal 11 wenigstens bis zu dem zeitlichen Ende seines ersten Segmentes 111 ausgeben zu können, müssen also wenigstens der erste Sprachsignalrahmen 1 als auch der zweite Sprachsignalrahmen 2 vorliegen. Ferner findet sich auf der zweiten Zeitachse 21 ein zweiter Zeitpunkt 42, welcher mit dem zeitlichen Ende des zweiten Segmentes 112 des weiteren Sprachsignals
11 übereinstimmt. Um also das weitere Sprachsignal 11 mit wenigstens bis zu dem zeitlichen Ende seines zweiten Segmentes 112 ausgeben zu können, müssen zu dem zweiten Zeitpunkt 42 der zweite Sprachsignalrahmen 2 und der dritte Sprachsignalrahmen 3 vorliegen. Weiteres gilt zu einem dritten Zeitpunkt 43 für das dritte Segment 113 des weiteren Sprachsignals 11 in Bezug auf den dritten Sprachsignalrahmen 3 sowie möglicherweise folgende Sprachsignalrahmen. Die in den Figuren 1 und 2 gezeigten Sprachsignalrahmen 1, 2, 3 verfügen vorzugsweise über jeweilige Indizes 11, 12, 13, um die empfangenen Sprachsignalrahmen einer zeitlichen Reihenfolge zuordnen zu können.
Die Figur 3 zeigt den Fall, dass der zweite Sprachsignalrahmen 2 nicht empfangen wurde. Wurde gemäß der Figur 3 bis zu dem ersten Zeitpunkt 41 zwar der erste Sprachsignalrahmen 1 empfangen, jedoch nicht der zweite Sprachsignalrahmen 2, so ist eine Ausgabe des weiteren Sprachsignals 11 der
Figur 2 zu dem ersten Zeitpunkt 41 nicht in korrekter Weise möglich. Auch zur Ausgabe des weiteren Sprachsignals zu dem zweiten Zeitpunkt 42 kann das weitere Sprachsignal zwar anhand des empfangenen dritten Sprachsignalrahmens 3 erzeugt werden, jedoch fehlt auch zu diesem zweiten Zeitpunkt 42 der zweite Sprachsignalrahmen 2. Daher ist es notwendig, anstelle des nicht empfangenen Sprachsignalrahmens 2 einen Ersatzsprachsignalrahmen 100 zu erzeugen, um diesen zur Erzeugung des weiteren auszugebenden Sprachsignals zu verwenden. Hierzu sind entsprechende Verfahren bereits aus [1, 2] bekannt. Die Funktionsweise dieser Verfahren wird in der Figur 4 im Detail erläutert. Die Figur 4 zeigt Schritte eines Verfahrens, mit Hilfe dessen anhand eines empfangenen Sprachsignalrahmens 50 ein Ersatzsprachsignalrahmen 100 erzeugt wird. Der empfangene Sprachsignalrahmen 50 wird hierzu zunächst einer linearen Prädiktionsanalyse 62 zugeführt, welche lineare
Prädiktionskoeffizienten 51 für ein Analysefilter einer linearen Prädiktion 61 bestimmt. Das Prinzip einer linearen Prädiktion sowie deren Bestimmung der linearen Prädiktionskoeffizienten für ein Analysefilter zur linearen Prädiktion eines Pulscode modellierten Sprachsignals eines empfangenen Sprachsignalrahmens 50 ist dem Fachmann aus [1, 4] bekannt. Das lineare
Prädiktionsanalysefilter 61 filtert das Sprachsignal des empfangenen Sprachsignalrahmens 50, wodurch das Restsignal 52 erhalten wird. Dieses Restsignal 52 wird einem Entscheider 63 zugeführt, welcher mittels des Restsignals 52 bestimmt, ob es sich bei dem Sprachsignal des empfangenen Sprachsignalrahmens 50 um ein stimmhaftes oder ein stimmloses Sprachsignal handelt. Der Entscheider 63 gibt seine Entscheidung 53 bezüglich der Stimmhaftigkeit oder Stimmlosigkeit des Sprachsignals an eine Grundfrequenzbestimmungseinheit 64 weiter. Diese Grundfrequenzbestimmungseinheit 64 bestimmt mittels des Restsignals 52 und der Entscheidung 53 eine Grundfrequenz 54 des Sprachsignals. Die
Grundfrequenz bestimmt sich hierbei mittels jenes Argumentes einer normierten Autokorrelationsfunktion, für welches der Wert der normierten Autokorrelationsfunktion ihr Maximum annimmt [1, 2].
Ein Fachmann wendet hierbei lediglich solche Werte für eine Grundfrequenz an, welche sich für Sprachsignale von Menschen als sinnvoll erweisen. Für den Fall, dass ein stimmloses Sprachsignal vorliegt, welches rauschartigen Charakter hat und daher keine eindeutige Grundfrequenz aufweist, wird die Grundfrequenz 54 auf einen Minimalwert gesetzt, um Artefakte im Hochfrequenzbereich welche durch unnatürliche Periodizitäten in einem zu bestimmenden Signal erfolgen, zu reduzieren.
Mittels einer Schätzeinheit 65 wird anhand des Restsignals 52 und der Grundfrequenz 54 ein geschätztes Restsignal 55 bestimmt [I]. Das geschätzte Restsignal 55 wird einem linearen Prädiktionssynthesefilter 66 zugeführt, welches anhand der zuvor bestimmten linearen Prädiktionskoeffizienten 51 das geschätzte Restsignal 55 einer Synthesefilterung unterzieht, sodass das Sprachsignal des Ersatzsprachsignalrahmens 100 gewonnen wird. Hierdurch wird die spektrale Einhüllende des Sprachsignals extrapoliert, während gleichzeitig die periodische Struktur des Signals beibehalten wird.
Gemäß der Figur 4 erfolgt eine Erzeugung des ersatzsprachsignalen Rahmens 100 anhand eines empfangenen Sprachsignalrahmens 50. Hierbei kann es sich bei dem empfangenen Sprachsignalrahmen 50 beispielsweise um den ersten Sprachsignalrahmen 1 aus der Figur 3 handeln. Für den Fall von kurzzeitigen
Störungen bei den Empfang bzw. der Übertragung von Sprachsignalrahmen ist es gemäß dem Stand der Technik lediglich notwendig einen einzelnen Sprachsignalrahmen zu erzeugen. Wird jedoch auch der dritte Sprachsignalrahmen 3 aus der Figur 3 nicht empfangen, so ist eine Erzeugung eines weiteren Ersatzsprachsignalrahmens notwendig. In einem solchen Fall wird zur Erzeugung des weiteren Ersatzsprachsignalrahmens eine Grundfrequenz 54 verwendet, welche durch eine Analyse jenes Sprachsignalrahmens gewonnen wird, welcher in einer zeitlichen Reihenfolge vor dem zuletzt empfangenen ersten Sprachsignalrahmen gewonnen wurde. Hierdurch ergibt sich eine Variation der Grundfrequenz der Sprachsignale der unterschiedlichen, erzeugten
Sprachsignalrahmen, wodurch unerwünschte harmonische Artefakte vermieden werden, welche sich in dem Fall ergeben, dass über einen zu langen Zeitraum das gleiche Sprachsignal ausgegeben wird.
Für den Fall, dass ein weiterer, dritter Ersatzsprachsignalrahmen zu erzeugen ist, wird wiederum die Grundfrequenz 54 zur Erzeugung des weiteren, dritten Ersatzsprachsignalrahmens variiert, indem die Grundfrequenz 54 anhand jenes Sprachsignalrahmens gewonnen wird, welcher in der zeitlichen Reihenfolge zwei Positionen von den zuletzt empfangenen, ersten Sprachsignalrahmen 1 empfangen wurde. Für den Fall, dass weitere Ersatzsprachsignalrahmen zu erzeugen sind, nachdem bereits drei Ersatzsprachsignalrahmen bestimmt wurden, erfolgt keine weitere Modifikation der Grundfrequenz. Stattdessen werden alle weiteren Ersatzsprachsignalrahmen mittels jener Grundfrequenz 54 erzeugt, welche zur Erzeugung des dritten Ersatzsprachsignalrahmens verwendet wurde. Diese Grundfrequenz 54 zur Erzeugung des dritten Ersatzsprachsignalrahmens wird bis zum Ende der Empfangsstörung verwendet.
Derart erzeugte Ersatzsprachsignalrahmen werden anstelle der nicht empfangenen Ersatzsprachsignalrahmen verwendet. Vorzugsweise erfolgt ein gleitender Übergang der Sprachsignalrahmen bei der Erzeugung des auszugebenden Sprachsignals 11.
Offenbarung der Erfindung
Vorteile der Erfindung
Das erfindungsgemäße Verfahren mit den Merkmalen des unabhängigen Anspruchs hat demgegenüber den Vorteil, dass zur Schätzung eines Sprachsignals eines Ersatzsprachsignalrahmens eine bessere Signalqualität des
Sprachsignals in jenen Fällen erreicht wird, in welchen das Sprachsignal des Ersatzsprachsignalrahmens anhand eines empfangenen Sprachsignalrahmens erzeugt wird, welcher ein stimmloses Sprachsignal aufweist. Dieses wird dadurch erreicht, dass für ein stimmloses Sprachsignal eines empfangenen Sprachsignalrahmens das Sprachsignal des mindestens einen
Ersatzsprachsignalrahmens mittels eines Rauschsignals erzeugt wird. Rauschsignale sind hierbei Signale, welche keine eindeutige Grundfrequenz aufweisen. Vorzugsweise wird als Rauschsignal hierbei ein Zufallssignal mit einer Gleichverteilung innerhalb eines bestimmten Wertebereiches verwendet.
Durch die in den abhängigen Ansprüchen aufgeführten Maßnahmen sind vorteilhafte Weiterbildungen und Verbesserungen des in dem unabhängigen Anspruch angegebenen Verfahrens möglich.
Gemäß einer weiteren Ausführungsform der Erfindung wird in dem Fall, dass der mindestens eine zuvor empfangene Sprachsignalrahmen ein stimmhaftes Sprachsignal aufweist, das Sprachsignal des mindestens einen Ersatzsprachsignalrahmens mittels eines Grundfrequenzsignals erzeugt. Dieses hat den Vorteil, dass durch die Unterscheidung eines Sprachsignals in stimmhaft und stimmlos und einer entsprechenden Verwendung eines Rauschsignals oder eines Grundfrequenzsignals zur Erzeugung des Sprachsignal des Ersatzsprachsignalrahmens eine größere Flexibilität bezüglich dieser Erzeugung besteht.
Gemäß einer weiteren Ausführungsform der Erfindung wird als Rauschsignal ein mit einem Skalierungsfaktor multipliziertes, gleichverteiltes Rauschsignal verwendet. Dieses hat den Vorteil, dass durch die Skalierung des Rauschsignals eine Anpassung der Amplitude bzw. der Signalenergie des Rauschsignals und somit eine Anpassung einer Amplitude bzw. der Energie des daraus geschätzten Sprachsignals des Ersatzsprachsignalrahmens erfolgen kann. Hierdurch ergibt sich der Vorteil, dass durch diese Anpassung ein Sprachsignal eines Ersatzsprachsignalrahmens erzeugt wird, welches dem Sprachsignal des zuvor empfangenen Sprachsignalrahmens möglichst ähnlich ist.
Gemäß einer weiteren Ausführungsform der Erfindung wird der Skalierungsfaktor in Abhängigkeit einer Signalenergie eines solchen gefilterten Sprachsignals bestimmt, welches sich aus einer Filterung des Sprachsignals des zuvor empfangenen Sprachsignalrahmens mittels eines linearen Prädiktionsfilters ergibt. Dieses hat den Vorteil, dass mittels eines derart bestimmten Skalierungsfaktors ein geschätztes Rauschsignal durch Multiplikation mit dem
Skalierungsfaktor erzeugt wird, dessen Signalenergie möglichst ähnlich mit der Signalenergie des Sprachsignals ist, welches zuvor durch eine lineare Prädikton gewonnen wurde, da nämlich das geschätzte Messsignal später wieder durch ein lineares Synthesefilter mit linearen Prädiktionskoeffizienten des zuvorigen Analysefilters gefiltert wird, um das Signal des Ersatzsprachsignalrahmens zu gewinnen.
Gemäß einer weiteren Ausführungsform der Erfindung wird das gefilterte Sprachsignal nach Filterung mit einem Analysefilter einer linearen Prädiktion in jeweilige Teilrahmen und jeweiligen Sprachsignalrahmen unterteilt, wobei für jeden Teilrahmen eine jeweilige Signalenergie des Teilsprachsignals bestimmt wird. Der Skalierungsfaktor wird in Abhängigkeit jener Signalenergie bestimmt, welche von jeweiligen Signalenergien den kleinsten Wert aufweist. Hierdurch ergeben sich Skalierungsfaktoren und somit geschätzte Restsignale, welche zu Sprachsignalen eines Ersatzsprachsignalrahmens führen, welcher zur Erzeugung des auszugebenden Sprachsignals eine hohe perzeptive Qualität in akustischer Hinsicht für einen Hörer herbeiführt.
Gemäß einer weiteren Ausführungsform der Erfindung wird eine Entscheidung darüber, ob ein zuvor empfangener Sprachsignalrahmen ein stimmhaftes oder stimmloses Sprachsignal aufweist, in Abhängigkeit einer normierten Autokorrelationsfunktion des Sprachsignals des empfangenen Sprachsignalrahmens und in Abhängigkeit einer Nulldurchgangsrate des Sprachsignals des empfangenen Sprachsignalrahmens gefällt. Dieses hat den Vorteil, dass durch eine derartige Verknüpfung einer normierten
Autokorrelationsfunktion und einer Nulldurchgangsrate eine gegenüber dem Stand der Technik zuverlässigere Entscheidung bezüglich der Stimmhaftigkeit oder der Stimmlosigkeit des Sprachsignals gefällt werden kann.
Gemäß eines nebengeordneten Anspruchs wird ein Steuergerät zur Ausgabe eines Sprachsignals beansprucht. Das Steuergerät weist eine erste Schnittstelle auf, über welche das Steuergerät Sprachsignalrahmen empfängt. Ferner weist das Steuergerät eine Recheneinheit auf, welche die empfangenen Sprachsignalrahmen in einer vorgegebenen Reihenfolge zu einer Erzeugung des auszugebenden Sprachsignals verwendet. Das erfindungsgemäße Steuergerät gibt über eine zweite Schnittstelle das auszugebende Sprachsignal aus. Die Recheneinheit verwendet in dem Fall, dass mindestens ein zu empfangender Sprachsignalrahmen nicht empfangen wird, anstelle des mindestens einen nicht empfangenen Sprachsignalrahmens einen Ersatzsprachsignalrahmen, wobei die Recheneinheit den Ersatzsprachsignalrahmen in Abhängigkeit von mindestens einem zuvor empfangenen Sprachsignalrahmen erzeugt. Das erfindungsgemäße Steuergerät ist dadurch gekennzeichnet, dass in dem Fall, dass der zuvor empfangene Sprachsignalrahmen ein stimmloses Sprachsignal aufweist, die Recheneinheit das Sprachsignal des einen Ersatzsprachsignalrahmens mittels eines Rauschsignals erzeugt. Dieses hat den Vorteil, dass durch Verwendung eines Rauschsignals zur Erzeugung des Sprachsignals des Ersatzsprachsignalrahmens eine bessere perzeptive Qualität in akustischer Hinsicht für einen Hörer erreicht wird, als bei Verfahren des Standes der Technik, bei welchen immer ein Grundfrequenzsignal zur Erzeugung des Ersatzsprachsignalrahmens verwendet wird. Gemäß eines nebengeordneten Anspruchs wird ein Steuergerät beansprucht, bei welchem in dem Fall, dass der zuvor empfangene Sprachsignalrahmen ein stimmhaftes Sprachsignal aufweist, die Recheneinheit das Sprachsignal des Ersatzsprachsignalrahmens mittels eines Grundfrequenzsignals erzeugt. Dieses hat den Vorteil, dass durch eine Verwendung des Grundfrequenzsignals oder eines Rauschsignals zur Erzeugung des Sprachsignals des Ersatzsprachsignalrahmens entsprechend ein solches Sprachsignal erzeugt werden kann, wobei der Stimmhaftigkeit oder Stimmlosigkeit des Sprachsignals des zuvor empfangenen Sprachsignalrahmens entsprochen werden kann.
Gemäß eines weiteren, nebengeordneten Anspruchs wird ein Steuergerät beansprucht, welches ferner eine Speichereinheit aufweist, welche das Rauschsignal und/oder das Grundfrequenzsignal bereitstellt. Dieses hat den Vorteil, dass das Rauschsignal und/oder das Grundfrequenzsignal nicht selber von der Recheneinheit erzeugt werden müssen, beispielsweise durch Schieberegister, sondern dass diese Signale auf einfache Weise aus der Speichereinheit abrufbar sind.
Kurze Beschreibung der Zeichnungen
Ausführungsbeispiele der Erfindung sind in den Zeichnung dargestellt und in der nachfolgenden Beschreibung näher erläutert.
Es zeigt Figur 5 ein Ausführungsbeispiel eines erfindungsgemäßen Verfahrens. Es zeigt ferner Figur 6 einen Sprachsignalrahmen, welcher in Teilrahmen unterteilt ist. Es zeigt Figur 7 eine Ausführungsform eines erfindungsgemäßen Steuergerätes.
Ausführungsformen der Erfindung
Gemäß der Figur 5 ist eine bevorzugte Ausführungsform des erfindungsgemäßen Verfahrens dargestellt. Das Sprachsignal eines zuvor empfangenen Sprachsignalrahmens 50 wird einer Einheit zur Bestimmung von linearen Prädiktionskoeffizienten mittels einer linearen Prädiktionsanalyse 62 zugeführt, wodurch lineare Prädiktionskoeffizienten 51 gewonnen werden. Mittels der linearen Prädiktionskoeffizienten 51 und dem Sprachsignal des empfangenen Sprachsignalrahmens 50 erzeugt das Analysefilter der linearen Prädiktion 61 das Restsignal 52. Eine modifizierte Entscheidungseinheit 83 zur Entscheidung einer Stimmhaftigkeit oder Stimmlosigkeit des Sprachsignals fällt diese Entscheidung nicht anhand des Restsignals 52, wie gemäß des Standes der Technik gelehrt wird, sondern anhand der Sprachsignals des empfangenen Sprachsignalrahmens 50. Ferner wird in Abhängigkeit des Sprachsignals des empfangenen Sprachsignalrahmens 50 mittels einer modifizierten Grundfrequenzbestimmungseinheit 84, welche aus dem Dokument [3] bekannt ist, eine modifizierte Grundfrequenz 74 gewonnen. In Abhängigkeit der modifizierten Entscheidung 73 über eine Stimmhaftigkeit oder Stimmlosigkeit durch die modifizierte Entscheidungseinheit 83 erfolgt eine erste Umschaltung des Restsignals 52 entweder auf eine Erzeugungseinheit 65, welche anhand des Restsignals 52 und der modifizierten Grundfrequenz 74 ein modifiziertes geschätztes Restsignal 75 erzeugt, oder eine Umschaltung des Restsignals 52 auf eine Energieberechnungseinheit 85. Wurde die modifizierte Entscheidung 73 derart gefällt, dass das Sprachsignal des empfangenen Sprachsignalrahmens 50 als stimmlos erkannt wurde, so erfolgt die Umschaltung derart, dass das Restsignal auf die Energieberechnungseinheit 85 geschaltet wird. Bei Entscheidung auf ein stimmhaftes Signal erfolgt die Umschaltung derart, dass das Restsignal 52 auf die Erzeugungseinheit 65 geschaltet wird. Die Erzeugungseinheit 65 erzeugt nun anhand der modifizierten Grundfrequenz 74 und des Restsignals 52 das modifizierte geschätzte Restsignal 75, wobei die Art einer Erzeugung anhand einer Grundfrequenz und eines Restsignals aus [1, 2] bekannt ist. Im Falle eines stimmlosen Signals berechnet die
Energieberechnungseinheit 85 aus dem Restsignal 52 einen Verstärkungsfaktor 77, welcher in einer Multiplikationseinheit 87 mit einem Rauschsignal 76 multipliziert wird, welches von einem Rauschgenerator 86 erzeugt wird. Durch diese Multiplikation wird das modifizierte geschätzte Rauschsignal 75 im Falle einer Entscheidung auf ein stimmloses Signal des empfangenen
Sprachsignalrahmens 50 erzeugt.
Eine zweite Umschaltungseinheit 89 wird ebenfalls in Abhängigkeit der modifizierten Entscheidung 73 derart zum Abgreifen des modifizierten geschätzten Restsignals 75 geschaltet, dass in Abhängigkeit der Stimmhaftigkeit oder Stimmlosigkeit des Sprachsignals des empfangenen Sprachsignalrahmens 50 entweder das durch eine modifizierte Grundfrequenz oder das durch ein Rauschsignal erzeugte Restsignal abgegriffen wird. Dieses modifizierte geschätzte Restsignal 75 wird einem Synthesefilter einer linearen Prädiktion zugeführt, welches zur Synthese die Zufuhr gewonnenen linearen
Prädiktionskoeffizienten 51 verwendet. Somit erhält man am Ausgang des Synthesefilters der linearen Prädiktion 66 das Sprachsignal des Ersatzsprachsignalrahmens 100.
Vorzugsweise erfolgt in der modifizierten Entscheidungseinheit 83 die
Entscheidung über eine Stimmhaftigkeit oder Stimmlosigkeit des Sprachsignals des empfangenen Sprachsignalrahmens 50 in Abhängigkeit einer normierten
Autokorrelationsfunktion des Sprachsignals sowie einer Nulldurchgangsrate des Sprachsignals. Für ein vorzugsweises digitales Sprachsignal x{n) der Länge N mit dem Index n = 0,...,7V - I und einer zuvor bestimmten Periodenlänge P0 einer Grundfrequenz bestimmt sich vorzugsweise die normierte Autokorrelationsfunktion ζ (x(n)) mittels der Rechenvorschrift
JV-I
∑x(n)x(n -P0) ζ (x(n)) = —^ κ=0
JV-I JV-I
∑x2(n)∑x2(n -P0)
Ferner bestimmt sich die Nulldurchgangsrate zcr(x(n)) für das Sprachsignals x{n) vorzugsweise mittels der Rechenvorschrift
zcr(x(n)) = - sign{x(n - 1)}| ,
wobei der Ausdruck SIGN für die Signumfunktion, also die Vorzeichenfunktion steht. Gemäß der Ausführungsform der Erfindung wird dann auf ein stimmhaftes Signals x{n) entschieden, wenn erstens die normierte Autokorrelationsfunktion ζ (x(n)) einen ersten Schwellwert ^Ar1 überschreitet ζ (x(n)) > thrx und wenn ferner zweitens die Nulldurchgangsrate zcr(x(n)) einen z zwweeiitteenn SScchhwweell Ilwwert thr2 unterschreitet zcr(x(n)) < thr2.
Vorzugsweise wird der erste Schwellwert thrγ zu dem Wert 0,5 gewählt. Eine
Wahl des zweiten Schwellwertes thr2 ergibt sich für einen Fachmann aus einer Betrachtung von empirischen Daten von Nulldurchgangsraten zcr(x(n)) von stimmhaften sowie stimmlosen Sprachsignalen.
Gemäß einer weiteren Ausführungsform der Erfindung wird als Rauschsignal 76 ein gleichverteiltes Rauschsignal verwendet, wobei das modifizierte geschätzte Restsignal durch eine Multiplikation des Rauschsignals mit einem Skalierungsfaktor bzw. einem Verstärkungsfaktor 77 erfolgt. Der Skalierungsfaktor 77 wird hierbei vorzugsweise in Abhängigkeit einer Signalenergie des gefilterten Sprachsignals 52 bestimmt. Gemäß einer besonderen Ausführungsform wird hierbei gemäß Figur 6 das gefilterte Sprachsignal 52 des empfangenen und gefilterten Sprachsignalrahmens in jeweilige Teilrahmen 201 bis 204 mit jeweiligen Teilsprachsignalen unterteilt. Die Unterteilung gemäß Figur 6 in vier unterschiedliche Teilrahmen 201 bis 204 ist hierbei nur beispielhaft. Es ist ebenfalls eine Unterteilung in eine andere
Anzahl als vier Teilrahmen möglich. Gemäß des Ausführungsbeispieles erfolgt eine Indizierung der vier Teilrahmen mit dem Index i = 1,...,4 . Liegt mit dem gefilterten Sprachsignal 52 das gefilterte Signal e(n) der Länge N vor, so ergibt sich gemäß des Ausführungsbeispieles für jeden Teilrahmen 201 bis 204 ein jeweiliges Teilsprachsignal et (n) der Länge NSF , welche gemäß des
N Ausführungsbeispieles NSF = — entspricht. Für jeden der Teilrahmen bzw. der
Teilsprachsignale et (n) erfolgt eine Bestimmung der Signalenergie gemäß der Rechenvorschrift
E, = -L £>((/ - \)N SF +n)
N SF κ=0
Wir nun gemäß des Ausführungsbeispieles das Minimum
E = TOOm[E1 , E2, E3 , E4] der vorliegenden Signalenergien der Teilrahmen 201 bis 204 bestimmt, so wird vorzugsweise das Rauschsignal 76 r(n) derart skaliert, dass als Skalierungsfaktor bzw. Verstärkungsfaktor 77 *J~E gewählt wird. Somit bestimmt sich vorzugsweise das geschätzte Restsignal 75 im Falle eines stimmlosen Sprachsignals des empfangenen Sprachsignalrahmens 50 zu .
Gemäß Figur 7 ist ein erfindungsgemäßes Steuergerät 1000 dargestellt. Dieses Steuergerät 1000 weist eine erste Schnittstelle 1001 zum Empfangen von Sprachsignalrahmen auf. Eine Recheneinheit 1003 des Steuergerätes 1000 verwendet die empfangenen Sprachsignalsrahmen in einer vorgegebenen Reihenfolge zu einer Erzeugung des auszugebenden Sprachsignals, welches über eine zweite Schnittstelle 1002 des Steuergerätes 1000 ausgegeben wird. Vorzugsweise sind die Recheneinheit 1003, die erste Schnittstelle 1001 und die zweite Schnittstelle 1002 über ein Bussystem 1004 oder eine ähnliche Vorrichtung zum Austausch von Daten und/oder Signalen miteinander verbunden. Die Recheneinheit verwendet in dem Fall, dass ein zu empfangener
Sprachsignalrahmen nicht empfangen wird, anstelle des nicht empfangenen Sprachsignalrahmens einen Ersatzsprachsignalrahmen. Hierzu erzeugt die Recheneinheit den Ersatzsprachsignalrahmen in Abhängigkeit von einem zuvor empfangenen Sprachsignalrahmen. Das erfindungsgemäße Steuergerät ist dadurch gekennzeichnet, dass in dem Fall, dass der zuvor empfangene
Sprachsignalrahmen ein stimmloses Sprachsignal aufweist, die Recheneinheit 1003 das Sprachsignal des Ersatzsprachsignalrahmens mittels eines Rauschsignals erzeugt.
Vorzugsweise erzeugt die Recheneinheit 1003 in dem Fall, dass der zuvor empfangene Sprachsignalrahmen ein stimmhaftes Sprachsignal aufweist, das Sprachsignal des Ersatzsprachsignalrahmens mittels eines Grundfrequenzsignals.
Vorzugsweise weist dieses Steuergerät 1000 eine Speichereinheit 1005 auf, welche ein Grundfrequenzsignal und/oder ein Rauschsignal bereitstellt. [1] E. Gunduzhan and K. Momtahan, "Linear prediction based packet loss concealment algorithm for PCM coded speech," IEEE Transactions on Speech and Audio Processing, vol. 9, no. 8, pp. 778-785, 2001.
[2] ANSI Recommendation T1.521a-2000 (Annex B), "Packet Loss Concealment for use with ITU-T Recommendation G.711," JuIy 2000.
[3] J. Paulus, Codierung breitbandiger Sprachsignale bei niedriger Datenrate. Dissertation, IND, RWTH Aachen, Templergraben 55, 52056
Aachen, 1997.
[4] P. Vary, U. Heute, W. Hess, Digitale Sprachsignalverarbeitung, B. G. Teubner Verlag, Stuttgart, 1998, ISBN 3-519-06165-1

Claims

Ansprüche
1) Verfahren zur Ausgabe eines Sprachsignals (11), wobei Sprachsignalrahmen (1, 3) empfangen und in einer vorgegebenen Reihenfolge zu einer Erzeugung des auszugebenden Sprachsignals (11) verwendet werden, wobei in dem Fall, dass mindestens ein zu empfangender Sprachsignalrahmen (2) nicht empfangen wird, mindestens ein Ersatzsprachsignalrahmen (100) an Stelle des mindestens einen nicht empfangenen Sprachsignalrahmens (2) verwendet wird, wobei der mindestens eine Ersatzsprachsignalrahmen (100) in Abhängigkeit von mindestens einem zuvor empfangenen Sprachsignalrahmen (1) erzeugt wird, dadurch gekennzeichnet, dass in dem Fall, dass der mindestens eine zuvor empfangene Sprachsignalrahmen (1) ein stimmloses Sprachsignal aufweist, das Sprachsignal des mindestens einen Ersatzsprachsignalrahmens (100) mittels eines Rauschsignals erzeugt wird.
2) Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass in dem Fall, dass der mindestens eine zuvor empfangene Sprachsignalrahmen (1) ein stimmhaftes Sprachsignal aufweist, das Sprachsignal des mindestens einen Ersatzsprachsignalrahmens (100) mittels eines Grundfrequenzsignals erzeugt wird.
3) Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass eine Entscheidung darüber, ob der zuvor empfangene mindestens eine Sprachsignalrahmen (1) ein stimmhaftes oder stimmloses Sprachsignal aufweist, in Abhängigkeit einer normierten Autokorrelationsfunktion und einer Nulldurchgangsrate des Sprachsignals des zuvor empfangenen mindestens einen Sprachsignalrahmens (1) erfolgt.
4) Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass das Sprachsignal des mindestens einen zuvor empfangenen Sprachsignalrahmens (1) dann als stimmhaft entschieden wird, wenn die normierte Autokorrelationsfunktion einen ersten vorgegebenen Schwellwert überschreitet und wenn die Nulldurchgangsrate einen zweiten vorgegebenen Schwellwert nicht überschreitet.
5) Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass als das Rauschsignal (75) ein mit einem Skalierungsfaktor (77) multipliziertes, gleichverteiltes Rauschsignal (76)verwendet wird.
6) Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass das Sprachsignal des mindestens einen empfangenen Sprachsignalrahmens (1) mittels eines linearen Prädiktionsfilters gefiltert wird, und dass der Skalierungsfaktor (77) in Abhängigkeit einer Signalenergie des gefilterten Sprachsignals (52) bestimmt wird.
7) Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass das gefilterte Sprachsignal (52) in jeweilige Teilrahmen mit jeweiligen Teilsprachsignalen unterteilt wird, dass für jedes Teilsprachsignal eine jeweilige Signalenergie bestimmt wird, und dass der Skalierungsfaktor (77) in Abhängigkeit jener Signalenergie bestimmt wird, welche von den jeweiligen Signalenergien den kleinsten Wert aufweist.
8) Steuergerät (1000) zur Ausgabe eines Sprachsignals, aufweisend eine erste Schnittstelle (1001), über welche das Steuergerät (1000) Sprachsignalrahmen empfängt, aufweisend eine Recheneinheit (1003), welche die empfangenen Sprachsignalrahmen in einer vorgegebenen Reihenfolge zu einer Erzeugung des auszugebenden Sprachsignals verwendet, aufweisend eine zweite Schnittstelle (1002), über welche das Steuergerät (1000) das Sprachsignal ausgibt, wobei die Recheneinheit (1003) in dem Fall, dass mindestens ein zu empfangender Sprachsignalrahmen nicht empfangen wird, mindestens einen Ersatzsprachsignalrahmen an Stelle des mindestens einen nicht empfangenen Sprachsignalrahmens verwendet, wobei die Recheneinheit (1003) den mindestens einen Ersatzsprachsignalrahmen in Abhängigkeit von mindestens einem zuvor empfangenen Sprachsignalrahmen erzeugt, dadurch gekennzeichnet, dass in dem Fall, dass der mindestens eine zuvor empfangene Sprachsignalrahmen ein stimmloses Sprachsignal aufweist, die Recheneinheit (1003) das Sprachsignal des mindestens einen
Ersatzsprachsignalrahmens mittels eines Rauschsignals erzeugt.
9) Steuergerät nach Anspruch 8, dadurch gekennzeichnet, dass in dem Fall, dass der mindestens eine zuvor empfangene Sprachsignalrahmen ein stimmhaftes Sprachsignal aufweist, die
Recheneinheit (1003) das Sprachsignal des mindestens einen Ersatzsprachsignalrahmens mittels eines Grundfrequenzsignals erzeugt.
10) Steuergerät nach Anspruch 8 oder 9, dadurch gekennzeichnet, dass das Steuergerät (1000) eine Speichereinheit
(1005) aufweist, welche das Rauschsignal und/oder das Grundfrequenzsignal bereitstellt.
EP09783486A 2008-10-02 2009-09-28 Verfahren zur fehlerverdeckung bei fehlerhafter übertragung von sprachdaten Withdrawn EP2345028A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102008042579.6A DE102008042579B4 (de) 2008-10-02 2008-10-02 Verfahren zur Fehlerverdeckung bei fehlerhafter Übertragung von Sprachdaten
PCT/EP2009/062527 WO2010037713A1 (de) 2008-10-02 2009-09-28 Verfahren zur fehlerverdeckung bei fehlerhafter übertragung von sprachdaten

Publications (1)

Publication Number Publication Date
EP2345028A1 true EP2345028A1 (de) 2011-07-20

Family

ID=41491479

Family Applications (1)

Application Number Title Priority Date Filing Date
EP09783486A Withdrawn EP2345028A1 (de) 2008-10-02 2009-09-28 Verfahren zur fehlerverdeckung bei fehlerhafter übertragung von sprachdaten

Country Status (6)

Country Link
US (1) US8612218B2 (de)
EP (1) EP2345028A1 (de)
JP (1) JP5284477B2 (de)
CN (1) CN102171753B (de)
DE (1) DE102008042579B4 (de)
WO (1) WO2010037713A1 (de)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR112012029132B1 (pt) 2011-02-14 2021-10-05 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V Representação de sinal de informações utilizando transformada sobreposta
AU2012217216B2 (en) 2011-02-14 2015-09-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result
PT2676267T (pt) 2011-02-14 2017-09-26 Fraunhofer Ges Forschung Codificação e descodificação de posições de pulso de faixas de um sinal de áudio
EP2676266B1 (de) 2011-02-14 2015-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Auf linearer Prädiktionscodierung basierendes Codierschema unter Verwendung von Spektralbereichsrauschformung
CN103620672B (zh) * 2011-02-14 2016-04-27 弗劳恩霍夫应用研究促进协会 用于低延迟联合语音及音频编码(usac)中的错误隐藏的装置和方法
MY164797A (en) 2011-02-14 2018-01-30 Fraunhofer Ges Zur Foederung Der Angewandten Forschung E V Apparatus and method for processing a decoded audio signal in a spectral domain
EP2770503B1 (de) * 2011-10-21 2019-05-29 Samsung Electronics Co., Ltd. Verfahren und vorrichtung zum verbergen von frame-fehlern und verfahren und vorrichtung zur audiodekodierung
CN103489448A (zh) * 2013-09-03 2014-01-01 广州日滨科技发展有限公司 语音数据处理方法及***
CA2984562C (en) 2013-10-31 2020-01-14 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Audio decoder and method for providing a decoded audio information using an error concealment based on a time domain excitation signal
ES2755166T3 (es) 2013-10-31 2020-04-21 Fraunhofer Ges Forschung Decodificador de audio y método para proporcionar una información de audio decodificada usando una ocultación de error que modifica una señal de excitación de dominio de tiempo
EP2922055A1 (de) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung, Verfahren und zugehöriges Computerprogramm zur Erzeugung eines Fehlerverschleierungssignals mit einzelnen Ersatz-LPC-Repräsentationen für individuelle Codebuchinformationen
EP2922054A1 (de) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung, Verfahren und zugehöriges Computerprogramm zur Erzeugung eines Fehlerverschleierungssignals unter Verwendung einer adaptiven Rauschschätzung
EP2922056A1 (de) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung, Verfahren und zugehöriges Computerprogramm zur Erzeugung eines Fehlerverschleierungssignals unter Verwendung von Leistungskompensation
US10475466B2 (en) 2014-07-17 2019-11-12 Ford Global Technologies, Llc Adaptive vehicle state-based hands-free phone noise reduction with learning capability
US20160019890A1 (en) * 2014-07-17 2016-01-21 Ford Global Technologies, Llc Vehicle State-Based Hands-Free Phone Noise Reduction With Learning Capability
WO2022173900A2 (en) * 2021-02-12 2022-08-18 Visa International Service Association Method, system, and computer program product for enabling speaker de-identification in public audio data by leveraging adversarial perturbation

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0076233B1 (de) * 1981-09-24 1985-09-11 GRETAG Aktiengesellschaft Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
JP3328642B2 (ja) * 1993-08-17 2002-09-30 三菱電機株式会社 音声判別装置及び音声判別方法
JP3687181B2 (ja) * 1996-04-15 2005-08-24 ソニー株式会社 有声音/無声音判定方法及び装置、並びに音声符号化方法
JPH1091194A (ja) * 1996-09-18 1998-04-10 Sony Corp 音声復号化方法及び装置
TW326070B (en) * 1996-12-19 1998-02-01 Holtek Microelectronics Inc The estimation method of the impulse gain for coding vocoder
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
US7411985B2 (en) * 2003-03-21 2008-08-12 Lucent Technologies Inc. Low-complexity packet loss concealment method for voice-over-IP speech transmission
US7930176B2 (en) 2005-05-20 2011-04-19 Broadcom Corporation Packet loss concealment for block-independent speech codecs
US7831421B2 (en) * 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
US8255207B2 (en) 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
CN101155140A (zh) * 2006-10-01 2008-04-02 华为技术有限公司 音频流错误隐藏的方法、装置和***
CN101232347B (zh) * 2007-01-23 2011-01-12 联芯科技有限公司 语音传输的方法及amr***
US8121835B2 (en) * 2007-03-21 2012-02-21 Texas Instruments Incorporated Automatic level control of speech signals

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO2010037713A1 *

Also Published As

Publication number Publication date
US20110218801A1 (en) 2011-09-08
DE102008042579B4 (de) 2020-07-23
JP5284477B2 (ja) 2013-09-11
CN102171753A (zh) 2011-08-31
CN102171753B (zh) 2013-07-17
JP2012504779A (ja) 2012-02-23
DE102008042579A1 (de) 2010-04-08
US8612218B2 (en) 2013-12-17
WO2010037713A1 (de) 2010-04-08

Similar Documents

Publication Publication Date Title
DE102008042579B4 (de) Verfahren zur Fehlerverdeckung bei fehlerhafter Übertragung von Sprachdaten
DE69412913T2 (de) Verfahren und Vorrichtung für digitale Sprachkodierung mit Sprachsignalhöhenabschätzung und Klassifikation in digitalen Sprachkodierern
DE69029120T2 (de) Stimmenkodierer
DE2945414C2 (de) Sprachsignal-Voraussageprozessor und Verfahren zur Verarbeitung eines Sprachleistungssignals
DE69526007T2 (de) Postfilter und Verfahren zur Postfilterung
DE60118631T2 (de) Verfahren zum ersetzen verfälschter audiodaten
DE60217522T2 (de) Verbessertes verfahren zur verschleierung von bitfehlern bei der sprachcodierung
DE69330022T2 (de) Sprachdekoder
EP0978172B1 (de) Verfahren zum verschleiern von fehlern in einem audiodatenstrom
EP0076234B1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
DE69731588T2 (de) Coderienrichtung mit verringerter komplexität für ein signalübertragungssystem
EP1953739B1 (de) Verfahren und Vorrichtung zur Geräuschsunterdrückung bei einem decodierten Signal
EP1386307B1 (de) Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals
EP1979901A1 (de) Verfahren und anordnungen zur audiosignalkodierung
EP1023777B1 (de) Verfahren und vorrichtung zur erzeugung eines bitratenskalierbaren audio-datenstroms
EP1280138A1 (de) Verfahren zur Analyse von Audiosignalen
DE19722705A1 (de) Verfahren zur Abschätzung der Verstärkung zur Sprachkodierung
DE69837296T2 (de) Verfahren und Vorrichtung zur Audiokodierung mittels einer mehrstufigen Mehrimpulsanregung
EP0658874B1 (de) Verfahren und Schaltungsanordnung zur Vergrösserung der Bandbreite von schmalbandigen Sprachsignalen
DE69420200T2 (de) CELP Koder-Dekoder
DE2303497C2 (de) Verfahren zur Übertragung von Sprachsignalen
DE69127339T2 (de) Methode und Einrichtung zur Kodierung und Dekodierung eines abgetasteten Analogsignals mit Wiederholungseigenschaften
DE69834993T2 (de) Sprachübertragungssystem
CH680030A5 (de)
DE2608244C2 (de) Verfahren zur Analyse und Synthese des Differenzsignals bei Prädiktionsvocodern

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20110502

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO SE SI SK SM TR

AX Request for extension of the european patent

Extension state: AL BA RS

DAX Request for extension of the european patent (deleted)
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION HAS BEEN WITHDRAWN

18W Application withdrawn

Effective date: 20150626