DE69228034T2 - Sprachverarbeitungsverfahren bei Geräuschanwesenheit unter Verwendung eines nicht linearen spektralen Subtraktionsverfahrens und Hidden-Markov-Modellen - Google Patents

Sprachverarbeitungsverfahren bei Geräuschanwesenheit unter Verwendung eines nicht linearen spektralen Subtraktionsverfahrens und Hidden-Markov-Modellen

Info

Publication number
DE69228034T2
DE69228034T2 DE1992628034 DE69228034T DE69228034T2 DE 69228034 T2 DE69228034 T2 DE 69228034T2 DE 1992628034 DE1992628034 DE 1992628034 DE 69228034 T DE69228034 T DE 69228034T DE 69228034 T2 DE69228034 T2 DE 69228034T2
Authority
DE
Germany
Prior art keywords
noise
speech
opt
estimate
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE1992628034
Other languages
English (en)
Other versions
DE69228034D1 (de
Inventor
Jerome Boudy
Philip Lockwood
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nortel Networks France SAS
Original Assignee
Matra Nortel Communications SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matra Nortel Communications SAS filed Critical Matra Nortel Communications SAS
Publication of DE69228034D1 publication Critical patent/DE69228034D1/de
Application granted granted Critical
Publication of DE69228034T2 publication Critical patent/DE69228034T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Complex Calculations (AREA)

Description

  • Die vorliegende Erfindung betrifft Verfahren zur Sprachsignalverarbeitung in rauschbehafteten Umgebungen.
  • Sie ist dann anwendbar, wenn das von einem Übertrager, im allgemeinen einem Mikrofon, herrührende Signal, zu verarbeiten ist, um den Beitrag des Rauschens zu dämpfen. Als Beispiel kann insbesondere die Sprachübertragung oder die Spracherkennung angegeben werden.
  • Sie findet eine besonders wichtige Anwendung bei der Tonsteuerung bzw. Sprachsteuerung nach einer Lernphase, in deren Verlauf ein Sprecher, dessen Sprache später erkannt werden soll, in mehreren Wiederholungen die Tonstrukturen ausspricht, welche durch die Zuordnung zu einem der in einem während der Lernphase erstellten Lexikon gespeicherten Modelle zu identifizieren sind.
  • Eines der Hauptprobleme, vor denen die Tonsteuerung steht, ist in vielen Fällen das des geringen Signal-Rausch-Verhältnisses bei der Erkennung. Ein besonders wichtiges Beispiel ist die Tonsteuerung von Vorgängen durch den Fahrer eines Fahrzeugs, wie beispielsweise der Anruf eines Telefongesprächspartners durch das einfache Aussprechen seines Namens, der zu erkennen ist und den automatischen Wählvorgang auslöst.
  • In diesem speziellen Fall ist das Problem aus mehreren Gründen sehr schwierig:
  • - das Lernen wird, aus Sicherheitsgründen, dann durchgeführt, wenn das Fahrzeug steht, d. h. bei Abwesenheit von Lärm,
  • - im Verlauf der Erkennungsphase sind die Tonstrukturen nicht nur durch die aerodynamischen Fahrgeräusche und Geräusche des Motors (welche weder stationär noch von flachem Spektrum sind) gestört, sondern auch durch Faktoren, die auf die Aussprache wirken, wie etwa die Ermüdung des Sprechers oder der Pegel des Grund- bzw. Umgebungsrauschens (Lombard- Effekt).
  • Es ist bereits ein Verfahren zur Sprachbearbeitung bekannt (DE-A-40 12 349), welches auf dem Prinzip der spektralen Subtraktion beruht und eine doppelte spektrale Subtraktion unter Verwendung von zwei Mikrofonen einsetzt, von denen eines die durch Rauschen gestörten Sprachsignale liefert und das andere einen ausschließlich Rauschen enthaltenden Referenzpfad. Ein Multiplikatorterm k(f) wird auf die spektrale Amplitude des Rauschens angewendet. Er ist direkt proportional zum lokalen Signal-Rausch-Verhältnis (RSB) bei der Analysefrequenz und und hat zur Folge, daß die spektrale Subtraktion des Rauschens bei kleinen RSBs vermindert wird und für höhere RSBs erhöht wird.
  • Nun (vgl. Enhancement of speech corrupted by acoustic noise, von M. Berouti u. a., ICASSP 79, S. 208-211) funktioniert dieses Prinzip entgegen den Resultaten, welche sich für die Regelung eines äquivalenten Faktors ergaben, der auf gleiche Weise auf die spektrale Rausch-Amplitude angewandt wurde. Der Term k(f) spielt nicht die Rolle eines Über-Abschätzfaktors, sondern, im Gegenteil, die der "Entwichtung" in dem Maße, wie der Rauschbeitrag zunimmt.
  • Die vorliegende Erfindung zielt allgemein darauf ab, ein Sprachverarbeitungsverfahren bereitzustellen, das es erlaubt, den Rauschbeitrag zu dämpfen und welches selbst beim Fehlen einer zuverlässigen Rauschreferenz wirksam ist.
  • Hierzu verwendet das Verfahren neben den bekannten Techniken zur Verstärkung der Sprache bei Gegenwart von Rauschen die spektrale Subtraktion. Gemäß der Erfindung verwendet das Verfahren jedoch eine Subtraktion eines Teils des Rauschens (abgeschätzt während Dauern bzw. Perioden der Sprachruhe), welcher bei Frequenzen höher ist, bei welchen die Sprache ein niedriges Rauschsignalverhältnis aufweist, als bei anderen Frequenzen.
  • Insbesondere schlägt die Erfindung ein Verfahren gemäß Anspruch 1 vor.
  • In der Praxis kann der Über-Abschätzungsfaktor α(ω) aus etwa 20 Rahmen (jeder Rahmen dauert etwa 32 ms) berechnet werden, und er kann durch den Maximalwert der Abschätzung B der aus den 20 Rahmen genommenen Werte gebildet sein. Gleichwohl kann die Abschätzdauer hin zu größeren Grenzen von 200 ms bis 1 s, je nach der Geschwindigkeit der Rauschänderung, variieren.
  • Die Berechnung von Y wird für jede der Frequenzen aus der Fourier- Transformierten durchgeführt, die bei der Spracherkennung auftritt (im allgemeinen 256 komplexe Zahlen für einen Bereich von 16 kHz). Dank der Verwendung eines Über-Abschätzfaktors, der eine Funktion der Frequenz ist, erhält man ein verbessertes Rauschmodell, welches am Ausgang ein Sprachsignal mit im Hinblick auf die spätere Erkennung verbesserter Qualität bereitstellt.
  • Die Funktion opt[α(ω)] ist unterschiedlich, je nachdem ob die Verarbeitung der Übertragung des Sprachsignals oder der Erkennung vorangeht. Opt[α(ω)] ist in dem ersten und zweiten Fall im allgemeinen von der in den Ansprüchen 4 bzw. 5 angegebenen Form.
  • Es ist ferner bevorzugt, die Grenzen von opt[α(ω)] festzulegen, um es zu vermeiden, bei zu großen Über-Abschätzwerten anzugelangen. In der Praxis kann opt[α(ω)] im Bereich auf oberhalb 3 begrenzt werden, wobei jeder außerhalb dieser Grenzen berechnete Wert durch die entsprechende Grenze ersetzt wird.
  • Die Funktion der Wichtung F kann verschiedener Natur sein, wobei es eine wesentliche Eigenschaft ist, daß sie als Funktion des Signal-Rausch-Verhältnisses [ X / B nimmt in dem betrachteten Rahmen einen Minimalwert (SNRmin) und Maximalwert (SNRmax) an] eine abnehmende Funktion ist. Die Funktion F kann vom Typ der in der Fig. 4 dargestellten Kurven I, II, III oder IV sein.
  • Auch hier ist es notwendig, die Änderung von opt[α(ω)] zu begrenzen.
  • Die Erfindung zielt zudem darauf ab, ein Spracherkennungsverfahren bereitzustellen, welches bei der Gegenwart von veränderlichem Rauschen robust ist und dabei das Signal-Rausch-Verhältnis auf einen niedrigen Wert reduziert, und zwar unter Verwendung einer Signalverarbeitung der eben beschriebenen Art.
  • Die Erkennung wird durch Klassifizierung bewirkt. Sie kann herkömmliche Verfahren zur Suche des minimalen Euklidschen Abstands verwenden, und es ist deshalb nicht nötig, dies hier erneut zu beschreiben; es verwendet vorteilhafterweise eine Schwelle unter Verwendung projezierter Abstände und einen Viterbi- Algorithmus, und ein zweiter Aspekt der Erfindung stützt sich auf die Erkennung durch eine eigentlich weiche Entscheidung vom Viterbi-Algorithmus-Typ, was die Erkennung verbessert, und zwar insbesondere durch eine Erkennungsstrategie, die das verdeckte Markow-Modell verwendet.
  • Die auf dem verdeckten Markow-Modell, oder HMM, basierenden Techniken wurden insbesondere in dem Artikel "Continuous Speech Recognition using hidden Markow models" von J. Picone, IEEE ASSP Magazine, Juli 1990, S. 26-41, bereits vorgeschlagen. Die Markow-Modelle selbst sind in verschiedenen Dokumenten und insbesondere in "An introduction to hidden Markow models", von L. R. Rabiner u. a., IEEE ASSP Magazin, Januar 1986, S. 4-16, beschrieben, welche man heranziehen kann. Man weiß, daß diese Techniken gute Resultate geben, da das Lernen in einer Klangumgebung stattfindet, die der der Erkennung ähnlich ist. Hingegen ist die Leistungsfähigkeit eines herkömmlichen Erkennungsgeräts, das auf dem verdeckten Markow-Modell basiert, stark herabgesetzt, wenn das Lernen unter Abwesenheit des bei der Erkennung vorhandenen Rauschens durchgeführt und vor allem wenn das Rauschen nicht stationär ist. Die Anwendung des weiter oben beschriebenen Bearbeitungsschritts erlaubt es, die Leistungsfähigkeit eines Erkennungsverfahrens, das auf dem Markow-Modell beruht, wesentlich zu erhöhen, und zwar unter den oben beschriebenen Bedingungen, welche es besonders vorteilhaft machen.
  • Das Markow-Modell oder HMM erlaubt es nämlich, ein sehr variables Sprachsignal effizienter zu modellieren, und dies dank Optimierungsalgorithmen, welche an sich bekannt sind und welche, durch Iteration, ständig statistische Parameter derart erneut abschätzen, daß ein Wahrscheinlichkeitskriterium optimiert wird. Während die effiziente Verwendung eines Markow-Modells normalerweise eine vollständige und sehr zuverlässige Lernphase mit sich bringt, was zu mehreren zehn Wiederholungen von zu erkennenden Klangstrukturen führt, erlaubt es die Anwendung der Erfindung, die Zahl der notwendigen Wiederholungen zu reduzieren.
  • Es ist zudem vorteilhaft, eine Erkennungsstrategie zu verwenden, welche den Viterbi-Algorithmus und eine neue Verwendung von Projektionsdistanzen einsetzt, welche weiter unten beschrieben wird.
  • Für ein Markow-Modell von N Zuständen, sind die fortgesetzten Beobachtungsdichten durch einen Ausdruck der Art
  • bj(0) = Σ c.jm.Nqk {0,ujm, Σjm} (2)
  • für den Zustand j gegeben, wobei j zwischen 1 und N liegt.
  • In obiger Formel gibt c jm die Mischkoeffizienten für die m-te Komponente der modifizierten Gauß'schen Mischdichte an.
  • Die Erfindung wird durch die Lektüre der nachfolgenden Beschreibung von speziellen Ausführungsformen der Erfindung verständlicher, welche beispielhaft und nicht einschränkend angegeben sind:
  • Fig. 1 ist eine schematische Prinzipdarstellung, die bei der Übertragung eines Sprachsignals durchgeführten Operationen zeigt,
  • Fig. 2 ist eine schematische Darstellung, welche die aufeinanderfolgenden Bearbeitungsschritte durch nichtlineare Subtraktion der Fig. 1 zeigt,
  • Fig. 3 zeigt, ähnlich der Fig. 1, die Schritte eines Verfahrens zur Erkennung der Klangstruktur,
  • Fig. 4 zeigt verschiedene mögliche Formen des weiter oben definierten Wichtungsverhältnisses F.
  • Die Fig. 1 zeigt den prinzipiellen Aufbau einer Vorrichtung, welche die Verarbeitung eines Sprachsignals erlaubt, das von einem Signalwandler, wie etwa einem Mikrofon 10 stammt, und zwar vor Übertragung im Basisband oder auf einem beliebigen Träger. Es handelt sich im folgenden um Bearbeitung eines Sprachsignals, welches von einem einzigen Mikrofon stammt, das in einem Fahrzeuginnenraum angeordnet ist. Es ist bekannt, daß das Problem der Rauschabschätzung in einer solchen Umgebung besonders schwierig ist. Es ist nämlich die Kohärenz des Rauschens im Inneren des Fahrgastraums sehr gering, und es ist nicht möglich, eine zufriedenstellende Abschätzung des Rauschens mit Hilfe eines Referenzmikrofons zu erhalten. Es scheint schwierig zu sein, mit einer Tonaufzeichnung von einem Aufnehmer das Rauschen während der Sprache erneut abzuschätzen, welches im Verlauf von Sprachpausen ausgewertet wurde. Das Verfahren der nichtlinearen Subtraktion, wie es für die Sprachübertragung angewendet wird, läßt die Musiktöne verschwinden, welche bei einer herkömmlichen Analyse inhärent sind.
  • Das von dem Mikrofon 10 stammende Signal wird in einer Schaltung 12 zur Filterung, Abtastung, Digitalisierung und Unterteilung in Rahmen von einigen Millisekunden (häufig 16 ms) vorverarbeitet. Eine Schaltung 14 erlaubt es, die Phase des verrauschten Signals zu extrahieren, und zwar so, daß, bei 16, eine inverse Transformation ausgeführt wird, d. h. vom Spektralraum in den Zeitraum.
  • Die erfindungsgemäße Schaltung 18 zur nichtlinearen spektralen Subtraktion kann den in Fig. 2 gezeigten allgemeinen Aufbau haben. Sie umfaßt eine Schaltung 20, die eine Transformation in dem Spektralraum (im allgemeinen eine schnelle Fourier-Transformation) für jeden Rahmen bewirkt. Die jedem Rahmen entsprechenden Abtastungen von im Falle eines komplexen Signals, beispielsweise einer Zahl von 512, werden zwei Berechnungszweigen zugeführt. Der erste Zweig ist für eine Abschätzung des Rauschmodells bestimmt, welche bei gegebener Größe des Rauschbeitrags robust sein soll. Der zweite Zweig ist dazu bestimmt, die eigentliche nichtlineare Subtraktion durchzuführen. Dieser zweite Zweig ist dazu bestimmt, die Subtraktion nach der [Y(w)] bestimmenden Formel in Anspruch 1 durchzuführen, und zwar ausgehend von den von dem ersten Zweig bestimmten Angaben. Der Durchlauf durch einen oder den anderen der beiden Zweige wird bestimmt durch die Entscheidung der Art Rauschen/Sprache. Diese Entscheidung wird von einem hier nicht beschriebenen System getroffen.
  • Dieser erste Zweig bewirkt die Berechnung eines robusten Sprachmodells, mit einer erhöhten Zeitkonstante, im allgemeinen der Größe 0,9 für λ.
  • Anstatt durch separate Schaltungen durchgeführt zu werden, können die oben beschriebenen Operationen selbstverständlich auch insgesamt oder teilweise auf dem Software-Weg durchgeführt werden.
  • Die Verarbeitungsschritte des in Fig. 3 schematisch dargestellten Verfahrens zur Tonstrukturerkennung sind ähnlich zu den in den Fig. 1 und 2 gezeigten und werden nicht erneut beschrieben:
  • Die eigentliche Erkennung erfolgt auf herkömmliche Weise durch eine Vergleichsoperation 22 zwischen den gespeicherten Vergleichsmodellen 24, welche im Verlauf einer vorangehenden Lernsequenz erhalten wurden, und den Parametern zur Repräsentierung der Tonstruktur, welche bei 25 extrahiert werden. Diese Parameter können auf verschiedenen Analysetypen basieren. Es kann sich insbesondere um Linearprädiktions-Cepstral-Koeffizienten oder um Parameter handeln, die von einer Dekomposition in Frequenz-Nebenbändern stammen, (MFCC), wie sie in dem Artikel von Davis u. a., "Comparison of parameter representations for monosyllabic word recognition in continuously spoken sentences", IEEE ASSP Band 28, 1980, beschrieben sind.
  • In einer besonders vorteilhaften Ausführungsform der Erfindung können, wenn die Definition der Referenzmodelle ausgehend von einer kleinen Zahl von Wiederholungen des Sprechers durchgeführt wird, Abschätzungen von robuster Varianz angepaßt werden. Man kann insbesondere eine Abschätzung mit fester Varianz oder eine Abschätzung mit geglätteter Varianz anpassen.
  • Die Verwendung einer robusten Abschätzung bietet den Vorteil, die reduzierte Leistungsfähigkeit des verdeckten Markow-Modells im Fall ungenügender Lernphase zu kompensieren.
  • Im allgemeinen ist es vorteilhaft, einen Erkennungsprozeß mit dem modifizierten Viterbi-Algorithmus zu verwenden, um eine Projektion vom Cepstral-Typ einzusetzen, welche das Rauschen leicht entfernt.
  • Man kann für die Koeffizienten b insbesondere die durch obige Formel (2) gegebenen Werte verwenden, wo bj(0) die beobachteten Werte von b bezeichnet und cjm die Mischkoeffizienten für die m-te Komponente der Gauß'schen Mischdichte bezeichnet. Die Terme Σ haben die übliche Bedeutung, wenn sie nicht durch geglättete Varianzen ersetzt werden können.
  • Die Varianz-Kovarianz-Matritzen sind diagonal gewählt unter Ausnützung der Hypothese der Unabhängigkeit zwischen den Komponenten eines charakteristischen Vektors.
  • Man kann somit die neue modifizierte Gauß'sche Dichte schreiben als:
  • Nqk {0,ujm,Σjm} = [2PI]P · Σjm ]-1/2 · exp(0,5d (q,k))
  • wobei: d(q,k) = [0-q · ujm)TΣjm&supmin;¹(0-q · ujm)]k
  • In dieser Formel entspricht q einem Faktor der Unter-Wichtung.
  • Man kann aus den obigen Projektionsarten insbesondere jene verwenden, die dem folgenden speziellen Fall entsprechen:
  • Der Fall, daß q = 1, k = 1, Σjm = Ujm
  • Dies ist der Fall einer fortgesetzten Gauß'schen Dichte der herkömmlichen Beobachtung, wo Upm die Varianz des Mischzustands der Ordnung m in dem Zustand der Ordnung j angibt (eine Topologie von 16 Zuständen, was häufig zufriedenstellende Ergebnisse liefert).
  • Der Fall, daß q = 1, k = 1, Σjm = T: feste Varianz
  • Die Kovarianzmatrix ist somit unabhängig von dem Zustand j und der Mischung m. Die Matrix T definiert die Varianz für einen selben Sprecher von Cepstrum- Vektoren, welche im Verlauf der Lernphase mit einem HMM-Modell berechnet wurde.
  • Der Fall, daß q = 1, k = 1, Σjm = I
  • In diesem Fall ist die Zustandskovarianzmatrix Ujm ersetzt durch die Einheitsmatrix I. Alle beobachteten Komponenten haben das gleiche Gewicht. Diese Wahl bietet einen Vorteil, wenn das HMM-Lernen mit einer sehr geringen Zahl von Wiederholungen durchgeführt wurde.
  • Der Fall q = q*, k = 0.5, Σjm = I: optimierter Projektionsabstand.
  • Der optimierte Projektionsabstand kann als die Quadratwurzel des minimalen Euklidschen Abstands interpretiert werden. Die Normaldichten sind somit in modifizierte Dichten der Form A.exp(-0.5 X ) transformiert. Mit diesen modifizierten Dichten wird der Viterbi-Algorithmus durch die neue Mischungsform stärker diskriminierend für Klangstrukturen.
  • Mit anderen Worten erlaubt diese Wahl der Werte eine nichtlineare Subtraktion, die in bestimmten Fällen bevorzugt ist.
  • Der Fall q = q*, k = 0.5, Σjm = W&supmin;¹ (wobei W die Varianz-Kovarianz-Matrix ist).
  • Diese Auswahl der Werte erlaubt es, den optimierten Projektionsabstand bei der Berechnung der beobachteten Dichten beizubehalten. Man führt somit die Funktionen zur Glättung der festen Varianz T ein, von denen zwei Beispiele zufriedenstellende Resultate gegeben haben.
  • Die "Bandpaßlifter" genannte Funktion W(n) = 1+N/2 sin (IIN/2N).
  • Die "Exponentiallifter" genannten Funktion W(n) = nα wobei 0 ≤ α ≤ 1 ist.
  • Diese Arten von Glättungsfunktion von T können auch in dem Fall q = 1, k = 1 verwendet werden (Gauß'sche Dichte).
  • Die oben angegebenen Beispiele sind selbstverständlich keineswegs einschränkend, und noch weitere Lösungen sind möglich.
  • Zusammenfassend verbessert die Rauschkompensation durch nichtlineare spektrale Subtraktion die Leisungsfähigkeit eines Erkennungsprozesses, der das verdeckte Markow-Modell einsetzt, nennenswert. Wenn die Zahl von Wiederholungen für ein vollständiges Lernen ungenügend ist, ist es vorteilhaft, eine Abschätzung mit geglätteten Varianzen oder eine Abschätzung mit fester Varianz zu verwenden. Die Erkennung mit dem Viterbi-Algorithmus setzt den projizierten Abstand ein und ist insbesondere vorteilhaft nach Anpassung der Dichtefunktionen des verdeckten Markow-Modells.

Claims (8)

1. Verfahren zur Sprachsignalverarbeitung, dadurch gekennzeichnet, daß man im Hinblick auf die Ubertragung oder die Erkennung der Sprache eine Bearbeitung der Form
Y[ω] = X[ω] - opt(α(ω)) [ω]
anwendet auf die Zeitraum- oder Frequenzraum-Transformierte eines jeden Rahmens eines Signals, welches von einem Aufnehmer herrührt, abgetastet, digitalisiert und in Rahmen vorbestimmter Länge formatiert wird, wobei:
- X[ω] eine Abschätzung der Amplitude der Sprache mit Rauschen ist;
- [ω] = λ [ω] + (1 - λ) · B[ω] eine Abschätzung der Amplitude des Rauschens ist, welche aus Beobachtungen des Rauschens während Perioden der Sprachruhe erhalten wurde und mit Hilfe eines Abschätzungsgebers, der eine ausreichende Zeitkonstante λ aufweist, und aus der Abschätzung B[ω] der Amplitude des Rauschens abgeschätzt wurde, welche aus der momentanen Beobachtung des Rauschens erhalten wird;
- α(ω) ein Rausch-Über-Abschätzungsfaktor ist, welcher aus einer vorbestimmten Anzahl von Rahmen des Rauschens vor dem bearbeiteten Rahmen und während Perioden der Sprachruhe berechnet wurde und welcher ein Maß der zeitlichen Rauschschwankang unter Berücksichtigung einerseits von Fehlern aufgrund des Unterschieds der Abschätzdauer zwischen den Größen X[ω] und [ω] und andererseits der Nicht-Stationarität des Rauschens bildet;
- opt [α(ω)] eine Wichtung des Subtraktionsterms bildet, welcher eine Funktion der bearbeiteten Frequenz im Bezug auf das lokale Rauschsignal ist, wobei diese Wichtung beschränkt ist.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß man den Term opt[α(ω)] auf Werte kleiner als 3 begrenzt.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß man den über-Abschätzungsfaktor α(ω) auf 5 bis 30 Rahmen berechnet und man ihn durch den Maximalwert der ausgeführten Abschätzung B[ω] aus den Werten bildet, welche aus den Rahmen vor dem bearbeiteten Rahmen genommen wurden.
4. Verfahren zur Sprachsignalverarbeitung, dadurch gekennzeichnet, daß im Hinblick auf die Ubertragung oder die Erkennung der Sprache eine Bearbeitung der Form
Y[ω] = X[ω] - opt(α(ω)) [ω]
anwendet auf die Zeitraum- oder Frequenzraum-Transformierte eines jeden Rahmens eines Signals ausübt, welches von einem Aufnehmer herrührt, abgetastet, digitalisiert und in Rahmen vorbestimmter Länge formatiert ist, wobei:
- X[ω] eine Abschätzung der Amplitude der Sprache mit Rauschen ist;
- [ω] = λ [ω] + (1 - λ) · B[ω] eine Abschätzung der Amplitude des Rauschens ist, welche aus Beobachtungen des Rauschens während Perioden der Sprachruhe erhalten wurde und mit Hilfe eines Abschätzungsgebers, der eine ausreichende Zeitkonstante λ aufweist, und aus der Abschätzung B[ω] der Amplitude des Rauschens abgeschätzt wurde, welche aus der momentanen Beobachtung des Rauschens erhalten wird;
- α(ω) ein Rausch-Über-Abschätzungsfaktor ist, welcher aus einer vorbestimmten Anzahl von Rahmen des Rauschens vor dem bearbeiteten Rahmen und während Perioden der Sprachruhe berechnet wurde und welcher ein Maß der zeitlichen Rauschschwankung unter Berücksichtigung einerseits von Fehlern aufgrund des Unterschieds der Abschätzdauer zwischen den Größen X[ω] und [ω] und andererseits der Nicht-Stationarität des Rauschens bildet;
- opt [α(ω)] eine Wichtung des Subtraktionsterms bildet, welcher eine Funktion der bearbeiteten Frequenz ist, wobei diese Wichtung beschränkt ist und den Wert opt[α(ω)] = [α(ω)]/ B(ω) ]z aufweist, wobei z ein Wichtungsfaktor zwischen ¹/&sub2; und 3 ist.
5. Verfahren nach Anspruch 1, 2 oder 3, dadurch gekennzeichnet, daß man opt[α(ω)] in dem beschränkten Bereich einen Wert der Form
opt[α(ω)] = (α(ω)/ [ω] ) · F[ X[ω]/ B[ω] ]
gibt, wobei F eine abnehmende Funktion des frequentiellen Rausch-Signal- Verhältnisses χ[ω] / B[ω] ist.
6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß man F(ω) einen Wert der allgemeinen Gestalt gemäß Fig. 4 gibt.
7. Verfahren zur Erkennung von durch Rauschen gestörter Sprache, welches neben einem Verfahren zur Bearbeitung nach einem der Ansprüche 1, 2, 3, 5 und 6 einen Klassifizierungsschritt umfaßt, welcher einen Viterbi- Algorithmus verwendet, der entweder aufeinanderfolgende Gauss'sche Dichten der Beobachtung mit Abschätzungen geglätteter Varianzen, was es er möglicht, die Zahl der notwendigen Wiederholungen bei der Lernphase des Erkennungssystems zu verringern, oder die optimierte Projektion einsetzt, was den Viterbi-Algorithmus diskriminierender macht, und zwar mit Abschätzungen fester oder geglätteter Varianzen.
8. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß die Zeitkonstante λ etwa 0,9 ist.
DE1992628034 1991-09-25 1992-09-22 Sprachverarbeitungsverfahren bei Geräuschanwesenheit unter Verwendung eines nicht linearen spektralen Subtraktionsverfahrens und Hidden-Markov-Modellen Expired - Fee Related DE69228034T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR9111833A FR2681715B1 (fr) 1991-09-25 1991-09-25 Procede de traitement de la parole en presence de bruits acoustiques: procede de soustraction spectrale non lineaire .

Publications (2)

Publication Number Publication Date
DE69228034D1 DE69228034D1 (de) 1999-02-11
DE69228034T2 true DE69228034T2 (de) 1999-08-26

Family

ID=9417305

Family Applications (1)

Application Number Title Priority Date Filing Date
DE1992628034 Expired - Fee Related DE69228034T2 (de) 1991-09-25 1992-09-22 Sprachverarbeitungsverfahren bei Geräuschanwesenheit unter Verwendung eines nicht linearen spektralen Subtraktionsverfahrens und Hidden-Markov-Modellen

Country Status (4)

Country Link
EP (1) EP0534837B1 (de)
DE (1) DE69228034T2 (de)
FI (1) FI111572B (de)
FR (1) FR2681715B1 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004017486A1 (de) * 2004-04-08 2005-10-27 Siemens Ag Verfahren zur Geräuschreduktion bei einem Sprach-Eingangssignal
DE102004017548B4 (de) * 2004-04-07 2007-12-27 Medav Gmbh Verfahren zur Erkennung und Analyse von Funksignalen

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2704348B1 (fr) * 1993-04-23 1995-07-07 Matra Communication Procede de reconnaissance de parole a apprentissage.
US5485522A (en) * 1993-09-29 1996-01-16 Ericsson Ge Mobile Communications, Inc. System for adaptively reducing noise in speech signals
US5727124A (en) * 1994-06-21 1998-03-10 Lucent Technologies, Inc. Method of and apparatus for signal recognition that compensates for mismatching
FR2729804B1 (fr) * 1995-01-24 1997-04-04 Matra Communication Annuleur d'echo acoustique a filtre adaptatif et passage dans le domaine frequentiel
FR2748342B1 (fr) * 1996-05-06 1998-07-17 France Telecom Procede et dispositif de filtrage par egalisation d'un signal de parole, mettant en oeuvre un modele statistique de ce signal
FR2771542B1 (fr) * 1997-11-21 2000-02-11 Sextant Avionique Procede de filtrage frequentiel applique au debruitage de signaux sonores mettant en oeuvre un filtre de wiener
US6804640B1 (en) * 2000-02-29 2004-10-12 Nuance Communications Signal noise reduction using magnitude-domain spectral subtraction
US8924337B2 (en) 2011-05-09 2014-12-30 Nokia Corporation Recursive Bayesian controllers for non-linear acoustic echo cancellation and suppression systems

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4012349A1 (de) * 1989-04-19 1990-10-25 Ricoh Kk Einrichtung zum beseitigen von geraeuschen
AU649029B2 (en) * 1990-02-28 1994-05-12 Sri International Method for spectral estimation to improve noise robustness for speech recognition

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004017548B4 (de) * 2004-04-07 2007-12-27 Medav Gmbh Verfahren zur Erkennung und Analyse von Funksignalen
DE102004017486A1 (de) * 2004-04-08 2005-10-27 Siemens Ag Verfahren zur Geräuschreduktion bei einem Sprach-Eingangssignal

Also Published As

Publication number Publication date
FI111572B (fi) 2003-08-15
DE69228034D1 (de) 1999-02-11
FR2681715A1 (fr) 1993-03-26
EP0534837B1 (de) 1998-12-30
FI924287A (fi) 1993-03-26
FR2681715B1 (fr) 1994-02-11
EP0534837A1 (de) 1993-03-31
FI924287A0 (fi) 1992-09-24

Similar Documents

Publication Publication Date Title
DE69518705T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69806557T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69524994T2 (de) Verfahren und Vorrichtung zur Signalerkennung unter Kompensation von Fehlzusammensetzungen
DE69916255T2 (de) System und verfahren zur geräuschkompensierten spracherkennung
DE112017004548B4 (de) Verfahren und Vorrichtung zur robusten Geräuschschätzung für eine Sprachverbesserung in variablen Geräuschbedingungen
DE69831288T2 (de) An Umgebungsgeräusche angepasste Sprachverarbeitung
DE69705891T2 (de) Verfahren und Vorrichtung zur entzerrenden Filterung eines Sprachsignals unter Verwendung eines statistischen Signalmodells
DE60027438T2 (de) Verbesserung eines verrauschten akustischen signals
DE60316704T2 (de) Mehrkanalige spracherkennung in ungünstigen umgebungen
DE69823954T2 (de) Quellen-normalisierendes Training zur Sprachmodellierung
DE69534942T2 (de) System zur sprecher-identifizierung und-überprüfung
DE69423588T2 (de) Spracherkennungsgerät
DE69616568T2 (de) Mustererkennung
DE69430082T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE69519453T2 (de) Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien
DE112009000805B4 (de) Rauschreduktion
DE69121145T2 (de) Spektralbewertungsverfahren zur verbesserung der widerstandsfähigkeit gegen rauschen bei der spracherkennung
DE69131883T2 (de) Vorrichtung zur Rauschreduzierung
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE68910859T2 (de) Detektion für die Anwesenheit eines Sprachsignals.
DE69321656T2 (de) Verfahren zur Spracherkennung
DE69830017T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69635141T2 (de) Verfahren zur Erzeugung von Sprachmerkmalsignalen und Vorrichtung zu seiner Durchführung
DE602004000716T2 (de) Rauschadaptierungssystem für ein Sprachmodell, Verfahren zur Rauschadaptierung und Programm zur Rauschadaptierung für Spracherkennung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8328 Change in the person/name/address of the agent

Representative=s name: GROSSE, BOCKHORNI, SCHUMACHER, 81476 MUENCHEN

8339 Ceased/non-payment of the annual fee