DE69916255T2 - System und verfahren zur geräuschkompensierten spracherkennung - Google Patents

System und verfahren zur geräuschkompensierten spracherkennung Download PDF

Info

Publication number
DE69916255T2
DE69916255T2 DE69916255T DE69916255T DE69916255T2 DE 69916255 T2 DE69916255 T2 DE 69916255T2 DE 69916255 T DE69916255 T DE 69916255T DE 69916255 T DE69916255 T DE 69916255T DE 69916255 T2 DE69916255 T2 DE 69916255T2
Authority
DE
Germany
Prior art keywords
noise
speech
input signal
speech recognition
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69916255T
Other languages
English (en)
Other versions
DE69916255D1 (de
Inventor
C. Gilbert SIH
Ning C/O Qualcomm Incorporated Bi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of DE69916255D1 publication Critical patent/DE69916255D1/de
Application granted granted Critical
Publication of DE69916255T2 publication Critical patent/DE69916255T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Description

  • Hintergrund der Erfindung
  • 1. Gebiet der Erfindung
  • Die vorliegende Erfindung bezieht sich auf Sprachverarbeitung. Spezieller bezieht sich die vorliegende Erfindung auf ein System und Verfahren für die automatische Erkennung gesprochener Wörter oder Sätze.
  • 2. Beschreibung der verwandten Technik
  • Digitale Verarbeitung von Sprachsignalen hat eine weit verbreitete Anwendung gefunden, besonders bei Mobiltelefon- und PCS Anwendungen. Eine digitale Sprachverarbeitungstechnik ist die der Spracherkennung. Die Verwendung von Spracherkennung gewinnt Bedeutung aufgrund von Sicherheitsgründen. Beispielsweise kann Spracherkennung verwendet werden, um die manuelle Aufgabe des Drückens von Knöpfen auf der Tastatur eines Mobiltelefons zu ersetzen. Das ist besonders wichtig, wenn ein Nutzer einen Telefonanruf beginnen will, während er ein Auto fährt. Bei der Verwendung eines Telefons ohne Spracherkennung muss der Fahrer eine Hand vom Lenkrad nehmen und während dem Drücken der Knöpfe auf die Tastatur des Telefons schauen, um den Anruf zu wählen. Diese Handlungen erhöhen die Wahrscheinlichkeit eines Autounfalls. Spracherkennung erlaubt es dem Fahrer Telefonanrufe durchzuführen, während dem kontinuierlichen Beobachten der Straße und dem Halten beider Hände auf dem Lenkrad. Freisprecheinrichtungen für das Auto die Spracherkennung umfassen, werden wahrscheinlich eine gesetzliche Anforderung in zukünftigen Systemen aufgrund von Sicherheitsgründen sein.
  • Sprecherabhängige Spracherkennung, die heute am heutigsten verwendete Art, arbeitet in zwei Phasen: einer Trainingsphase und einer Erkennungsphase. In der Trainingsphase fordert das Spracherkennungssystem den Nutzer auf, jedes der Wörter in dem Vokabular einmal oder zweimal zu sprechen, so dass es die Charakteristiken der Sprache des Nutzers für diese speziellen Wörter oder Sätze bzw. Phrasen lernen kann. Die Erkennungsvokabulargrößen sind typischerweise klein (weniger als 50 Wörter) und das Spracherkennungssystem wird nur eine hohe Erkennungsgenauigkeit bei dem Nutzer erreichen, der es trainiert hat. Ein Beispiel eines Vokabulars für ein Freisprechsystem für das Auto würde folgendes umfassen: Die Zahlen auf der Tastatur, die Schlüsselwörter „Anruf", „Sende", „Wähle", „Abbrechen", „Freigeben" (clear), „Addiere", „Lösche", „Verlauf", „Programmiere", „Ja" und „Nein", sowie auch 20 Namen von häufig angerufenen Arbeitskollegen, Freunden oder Familienmitgliedern. Sobald das Training vollendet ist, kann der Nutzer Anrufe in der Erkennungsphase durch Sprechen der trainierten Schlüsselwörter veranlassen. Beispielsweise falls der Name „John" einer der trainierten Namen war, kann der Nutzer einen Anruf mit John beginnen durch sagen des Satzes „Anruf John". Das Spracherkennungssystem erkennt die Wörter „Anruf" und „John", und wählt die Nummer die der Nutzer vorher als Johns Telefonnummer eingegeben hat.
  • Ein Blockdiagramm einer Trainingseinheit 6 eines sprecherabhängigen Spracherkennungssystems ist in 1 gezeigt. Trainingseinheit 6 empfängt als Eingabe s(n), einen Satz von digitalisierten Sprachsamples oder -Abtastungen für das zu trainierende Wort oder den Satz bzw. das Satzglied. Das Sprachsignal s(n) wird durch Parameterbestimmungsblock 7 weitergeleitet, der ein Template bzw. eine Vorlage mit N Parametern {p(n) n = 1 ... N} erzeugt, das die Charakteristika bzw. Eigenschaften der Aussprache des Nutzers für das spezielle Wort oder Satzglied einfängt. Parameterbestimmungseinheit 7 kann irgendeine einer Zahl von Sprachparameterbestimmungstechniken implementieren, von denen viele in der Technik wohlbekannt sind. Ein beispielhaftes Ausführungsbeispiel einer Parameterbestimmungstechnik ist der Vocoder-Kodierer, der im U.S. Patent Nr. 5,414,796 beschrieben ist. Ein alternatives Ausführungsbeispiel einer Parameterbestimmungstechnik ist eine Fast Fourier Transformation (FFT), wobei die N Parameter, die N FFT Koeffizienten sind. Andere Ausführungsbeispiele leiten Parameter basierend auf den FFT Koeffizienten ab. Jedes gesprochene Wort oder Satzglied produziert eine Vorlage mit N Parametern, die in einer Vorlagendatenbank (template da tabase) 8 gespeichert wird. Nach dem das Training mit M Vokabularwörtern vollendet ist, enthält die Vorlagendatenbank 8M Vorlagen, von denen jede N Parameter enthält. Vorlagendatenbank 8 wird in einer Art nichtflüchtigen Speicher gespeichert, so dass die Vorlagen resident bzw. gespeichert bleiben, wenn die Leistung bzw. Stromversorgung abgeschaltet wird.
  • 2 zeigt ein Blockdiagramm einer Spracherkennungseinheit 10, die während der Erkennungsphase eines sprecherabhängigen Spracherkennungssystems arbeitet. Spracherkennungseinheit 10 umfasst eine Vorlagendatenbank 14, die im Allgemeinen die Vorlagendatenbank 8 der Trainingseinheit 6 sein wird. Die Eingabe zur Spracherkennungseinheit 10 ist die digitalisierte Eingabesprache x(n), die die zu erkennende Sprache ist. Die Eingangssprache x(n) wird in den Parameterbestimmungsblock 12 weitergegeben, der die gleiche Parameterbestimmungstechnik wie der Parameterbestimmungsblock 7 der Trainingseinheit 6 durchführt. Der Parameterbestimmungsblock 12 erzeugt eine Erkennungsvorlage mit N Parametern {t(n) n = 1 ... N}, die die Charakteristika der Eingangssprache x(n) modeliert. Erkennungsvorlage t(n) wird dann zum Mustervergleichsblock 16 weitergeleitet, der einen Mustervergleich zwischen Vorlage t(n) und allen den in der Vorlagendatenbank 14 gespeicherten Vorlagen durchführt. Die Distanzen bzw. Abstände zwischen Vorlage t(n) und jeder der Vorlagen der Vorlagendatenbank 14 werden zum Entscheidungsblock 18 weitergegeben, der aus der Vorlagendatenbank 14 die Vorlage auswählt, die am nächsten bzw. am besten mit Erkennungsvorlage t(n) übereinstimmt. Die Ausgabe des Entscheidungsblocks 18 ist die Entscheidung darüber welches Wort aus dem Vokabular gesprochen wurde.
  • Erkennungsgenauigkeit ist ein Maß dafür wie gut ein Erkennungssystem gesprochene Wörter oder Sätze aus dem Vokabular korrekt erkennt. Beispielsweise gibt eine Erkennungsgenauigkeit von 95% an, dass die Erkennungseinheit Wörter aus dem Vokabular in 95 von 100 Fällen korrekt erkennt. In einem traditionellen Spracherkennungssystem wird die Erkennungsgenauigkeit in der Gegenwart von Rauschen bzw. Geräusch stark herabgesetzt. Der Hauptgrund für diesen Verlust an Genauigkeit ist, dass die Trainingsphase typischerweise in einer ruhigen Umgebung stattfindet, aber die Erkennung typischerweise in einer rausch- bzw. geräuschbehafteten Umgebung stattfindet. Beispielsweise wird ein Freisprechspracherkennungssystem fürs Auto gewöhnlich trainiert, während das Auto in einer Garage steht oder in der Einfahrt geparkt ist, so dass der Motor und die Klimaanlage nicht laufen und die Fenster für gewöhnlich hochgekurbelt bzw. geschlossen sind. Jedoch wird die Erkennung normalerweise verwendet während sich das Auto bewegt, so dass der Motor läuft, Straßen- und Windgeräusche bzw. Rauschen vorhanden sind, die Fenster können unten sein, etc. Als ein Ergebnis der Ungleichheit des Rauschpegels zwischen den Trainings- und Erkennungsphasen bildet die Enkennungsvorlage keine gute Übereinstimmung mit irgendeiner der während dem Training erhaltenen Vorlagen. Das erhöht die Wahrscheinlichkeit eines Erkennungsfehlers oder Versagens.
  • 3 erläutert eine Spracherkennungseinheit 20, die Spracherkennung in der Gegenwart von Rauschen durchführen muß. Wie in 3 gezeigt, addiert ein Summierer 22 zum Sprachsignal x(n) ein Rauschsignal w(n) zum Produzieren eines rauschkorrumpierten bzw. rauschgeschädigten- bzw. geräuschgeschädigten Sprachsignals r(n). Es sollte verstanden werden, dass Summierer 22 nicht ein physikalisches Element des Systems ist, sondern ein Produkt einer lauten bzw. geräuschvollen Umgebung ist. Das rauschgeschädigte Sprachsignal r(n) wird dem Parameterbestimmungsblock 24 eingegeben, der eine rauschgeschädigte Vorlage t1(n) produziert. Mustervergleichsblock 28 vergleicht Vorlage t1(n) mit allen den Vorlagen der Vorlagedatenbank 26, die in einer ruhigen Umgebung konstruiert wurde. Da die rauschgeschädigte Vorlage t1(n) nicht genau mit irgendeiner der Trainingsvorlagen übereinstimmt, gibt es eine hohe Wahrscheinlichkeit, dass die durch den Entscheidungsblock 30 produzierte Entscheidung ein Erkennungsfehler oder Versagen sein kann.
  • Gales M J F et al: "Robust speech recognition in additive and convolutional noise using parallel model combination", Computer Speech and Lanugage, Bd. 9, Nr. 4, 1. Oktober 1995, Seiten 289–307, XP000640904 offenbart ein Verfahren der parallelen Modellkombination (PMC) als eine Technik zum Kompensieren der Effekte von additivem Rauschen bei einem Spracherkenner. In diesem Schriftstück wird das PMC-Schema erweitert, um die Effekte von Faltungsrauschen einzubeziehen. Das wird gemacht durch Einführen einer modifizierten „Fehlanpassungs"-Funktion, die es erlaubt eine Schätzung der Differenz bzw. des Unterschieds der Kanalbedingungen oder Schieflage zwischen Training und Testumgebungen zu machen. Hat man diese Schieflage geschätzt, können Maximum Likelihood (ML) Schätzungen des geschädigten Sprachmodells in der üblichen Weise erhalten werden. Das Schema wird bewertet unter Verwendung der NOISEX-92 Datenbank, wobei die Leistungsfähigkeit bei der Anwesenheit sowohl von störendem additiven Rauschen und Faltungsrauschen nur leichte Degradation zeigt, verglichen mit dem was man erhält, wenn kein Faltungsrauschen vorhanden ist. Hat man die Form der Modelle entschieden, ist es nötig eine Methode zum Schätzen der neuen Modellparameter zu wählen. Die „optimale" Technik für additives Rauschen würde sein Samples des Hintergrundrauschens zu den reinen Trainingsdaten auf dem Wellenformniveau zu addieren. Eine neue, an die Testumgebung angepasste Trainingsdatenbank, könnte dann generiert und ein neuer Satz von Modellen, trainiert werden: Jedoch sollte bemerkt werden, dass um dieses Training durchzuführen das folgende nötig ist.
    • (1) Die gesamte Trainingsdatenbank ist online verfügbar.
    • (2) Ausreichende Rauschsamples sind verfügbar zum Addieren zu den reinen Daten.
    • (3) Rechenleistung ist verfügbar zum Durchführen der Rauschaddition, und Umschulen bzw. erneuten Training der Modellparameter, immer wenn sich das Hintergrundrauschen ändert.
  • Angesichts dieser Bedingungen wird es normalerweise unpraktisch sein, diese Art der Kompensation durchzuführen. Jedoch wenn man den reinen Sprachmodellen unterstellt, dass sie ausreichende Information über die Statistiken der drei Trainingsdaten enthalten, können sie in dem Kompensationsschema anstelle der Daten selbst verwendet werden. Außerdem kann ein Modell des Hintergrundrauschens generiert werden und zwar unter Verwendung was auch immer an Rauschsamples verfügbar ist, um die Hintergrundrausch bedingungen zu repräsentieren. Das Problem ist dann ein Verfahren zum Kombinieren der zwei Modelle zu finden, um die geschädigten Sprachmodelle genau zu schätzen.
  • Ferner beschreibt Gong Y: „Speech recognition in noisy environments: A survey", Speech Communication, Bd. 16, Nr. 3, 1. April 1995, Seite 261–291, XP004013163, dass die Leistungsniveaus der meisten aktuellen Spracherkenner signifikant abnehmen, wenn Umgebungsrauschen während der Verwendung auftritt. Solche Leistungsdegradation wird hauptsächlich verursacht durch Fehlanpassungen zwischen Training und Betriebsumgebungen. Während der letzten Jahre wurde viel Aufwand auf das Reduzieren dieser Fehlanpassung gelenkt. Dieses Dokument untersucht Forschungsergebnisse auf dem Gebiet digitaler Techniken für rauschbehaftete Einzelmikrofon-Spracherkennung eingeordnet in drei Kategorien: Rauschwiderstehende Eigenschaften und Ähnlichkeitsmessung, Sprachverbesserung, und Sprachmodellkompensation für Rauschen. Der Überblick zeigt an, das die essentiellen Punkte bei rauschbehafteter Spracherkennung aus dem Verbinden von Zeit- und Frequenzkorrelationen bestehen, Vorsehen höherer Gewichtung für die hohen SNR Anteile der Sprache bei der Entscheidungsfindung, Ausnutzen aufgabenspezifischer a priori Kenntnis, sowohl der Sprache, als auch dem Rauschen, Verwenden klassenabhängiger Verarbeitung und Einbeziehen von Gehörmodellen bei der Sprachverarbeitung. Als ein Sonderfall der Modellkompensation ist eine andere Strategie, das Rauschen zu den Trainingszeichen zu addieren. Mit dieser Technik wird die Fehlanpassung zwischen Training und Betriebsumgebungen komplett verschwinden. Verglichen mit Rauschsubtraktion vom Beobachtungssignal ist das Addieren von Rauschen zu Trainingsdaten einfacher, weil es frei von dem negativen Leistungsspektrumsproblem ist. Verwenden von rauschverunreinigten Daten zum Trainieren eines Systems kann die Erkennungsgenauigkeit bei jener spezifischen Trainingsbedingung dramatisch verbessern. Für festes SNR sind die berichteten Ergebnisse besser als jene von anderen anspruchsvolleren bzw. technisch ausgefeilteren Verarbeitungstechniken wie beispielsweise spektraler Subtraktion, Kalman Filterung und spektraler Transformation. Offenbar jedoch können Techniken basierend auf Rauschaddition zur Sprache den Lombard Effekt nicht verkraften. Spracherkennung im Rauschen bedingt eine große Vielfalt an Fachwissen über jede Verarbeitungsstufe. Aufgrund der komplexen Natur der rauschbehafteten Spracherkennung sind Daten für genaue vergleichende Leistungsauswertung der Techniken nicht verfügbar.
  • Zusammenfassung der Erfindung
  • Die vorliegende Erfindung ist ein System und Verfahren für die automatische Erkennung von gesprochenen Wörter oder Sätzen in Gegenwart von Rauschen bzw. Geräusch, gemäß den unabhängigen Ansprüchen. Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung können den abhängigen Ansprüchen entnommen werden.
  • Sprecherabhängige Spracherkennungssysteme arbeiten in zwei Phasen: einer Trainingsphase und einer Erkennungsphase. In der Trainingsphase eines herkömmlichen Spracherkennungssystems wird ein Nutzer aufgefordert, alle der Wörter oder Sätze bzw. Satzteile in einem angegebenen Vokabular zu sprechen. Die digitalisierten Sprachsamples bzw. Abtastungen für jedes Wort oder Satzglied werden zum Erzeugen einer Vorlage von Parametern verarbeitet, die die gesprochenen Wörter charakterisieren. Die Ausgabe der Trainingsphase ist eine Sammlung solcher Vorlagen. In der Erkennungsphase spricht der Nutzer ein spezielles Wort oder Satzglied zum Beginnen einer gewünschten Aktion. Das gesprochene Wort oder Satzglied wird digitalisiert und verarbeitet zum Erzeugen einer Vorlage, die mit allen den, während des Trainings erzeugten Vorlagen verglichen wird. Die nächste Übereinstimmung bestimmt die Aktion, die durchgeführt wird. Die Hauptbeeinträchtigung bzw. Schwäche, die die Genauigkeit von Spracherkennungssystemen begrenzt, ist die Gegenwart von Rauschen. Die Addition von Rauschen während der Erkennung reduziert die Erkennungsgenauigkeit stark, weil dieses Rauschen während dem Training, als die Vorlagedatenbank erzeugt wurde, nicht vorhanden war. Die Erfindung erkennt die Notwendigkeit spezielle Rauschbedin gungen zu berücksichtigen, die während der Zeit der Erkennung vorhanden sind, um die Erkennungsgenauigkeit zu verbessern.
  • Statt Vorlagen von Parametern zu speichern, speichert das verbesserte Sprachverarbeitungssystem und Verfahren die digitalisierten Sprachsamples für jedes gesprochene Wort oder Satzglied in der Trainingsphase. Die Ausgabe der Trainingsphase ist deshalb eine digitalisierte Sprachdatenbank. In der Erkennungsphase werden die Rauschcharakteristika bzw. Rauscheigenschaften in der Audioumgebung kontinuierlich überwacht. Wenn der Nutzer ein Wort oder Satzglied spricht zum Beginnen der Erkennung wird eine rauschkompensierte Vorlagedatenbank konstruiert und zwar durch Addieren eines Rauschsignals zu jedem der Signale in der Sprachdatenbank und Durchführen von Parameterbestimmung mit jedem der Sprach- plus Rauschsignale. Ein Ausführungsbeispiel dieses addierten Rauschsignals ist ein künstlich synthetisiertes Rauschsignal mit Eigenschaften ähnlich denen des aktuellen Rauschens. Ein alternatives Ausführungsbeispiel ist eine Aufzeichnung des Rauschzeitfensters, das gerade aufgetreten ist, bevor der Nutzer das Wort oder Satzglied zum Beginnen bzw. Initiieren der Erkennung gesprochen hat. Da die Vorlagendatenbank, unter Verwendung der gleichen Rauschart, die in dem gesprochenen zu erkennenden Wort oder Satzglied vorhanden ist, konstruiert wird, kann die Spracherkennungseinheit eine gute Übereinstimmung zwischen Vorlagen finden, die Erkennungsgenauigkeit verbessert.
  • Kurze Beschreibung der Zeichnungen
  • Die Merkmale, Ziele und Vorteile der vorliegenden Erfindung werden mit der unten angegebenen detaillierten Beschreibung offensichtlicher werden, wenn man diese zusammen mit den Zeichnungen betrachtet, in denen gleich Bezugszeichen durchweg das Gleiche bezeichnen und wobei:
  • 1 ist ein Blockdiagramm einer Trainingseinheit eines Spracherkennungssystems;
  • 2 ist ein Blockdiagramm einer Spracherkennungseinheit;
  • 3 ist ein Blockdiagramm einer Spracherkennungseinheit, die Spracherkennung mit einer durch Rauschen geschädigten Spracheingabe durchführt;
  • 4 ist ein Blockdiagramm einer verbesserten Trainingseinheit eines Spracherkennungssystems; und
  • 5 ist ein Blockdiagramm einer beispielhaften verbesserten Spracherkennungseinheit.
  • Detaillierte Beschreibung der bevorzugten Ausführungsbeispiele
  • Diese Erfindung liefert ein System und Verfahren zum Verbessern von Spracherkennungsgenauigkeit, wenn Rauschen vorhanden ist. Es macht sich die neuesten Fortschritte in Rechenleistung und Speicherintegration zu Nutze und modifiziert die Trainings- und Erkennungsphasen, um die Anwesenheit von Rauschen während der Erkennung zu berücksichtigen. Die Funktion einer Spracherkennungseinheit ist es die nächste Übereinstimmung mit einer Erkennungsvorlage zu finden, die mit rauschgeschädigter bzw. rauschkorrumpierter Sprache berechnet wird. Da die Charakteristika bzw. Eigenschaften des Rauschens mit Zeit und Ort variieren können, erkennt die Erfindung, dass die beste Zeit die Vorlagendatenbank zu konstruieren während der Erkennungsphase ist.
  • 4 zeigt ein Blockdiagramm einer verbesserten Trainingseinheit 40 eines Spracherkennungssystems. Im Gegensatz zu den herkömmlichen, in 1 gezeigten, Trainingsverfahren ist die Trainingseinheit 40 modifiziert, um den Parameterbestimmungsschritt zu eliminieren. Anstelle des Speicherns von Vorlagen von Parametern werden digitalisierte Sprachsamples der aktuellen Wörter und Sätze gespeichert. Somit empfängt die Trainingseinheit 40 als Eingabe Sprachsamples s(n) und speichert digitalisierte Sprachsamples s(n) in einer Sprachdatenbank 42. Nach dem Training enthält die Sprachdatenbank 42M Sprachsignale, wobei M die Anzahl der Wörter in dem Vokabular ist. Während das bisherige System und Verfahren des Durchführens der Parameterbestimmung Information über die Sprachcharakteristika durch einzig Speichern von Sprachparametern verliert, kann dieses System und Verfahren alle Sprachinformation zur Verwendung in der Erkennungsphase aufbewahren bzw. konservieren.
  • 5 zeigt ein Blockdiagramm einer verbesserten Spracherkennungseinheit 50 zur Verwendung zusammen mit Trainingseinheit 40. Die Eingabe zur Spracherkennungseinheit 50 ist ein rauschkorrumpiertes bzw. rauschgeschädigtes Sprachsignal r(n). Das rauschgeschädigte Sprachsignal r(n) wird vom Summierer 52 generiert durch Addieren des Sprachsignals x(n) mit dem Rauschsignal w(n). Wie zuvor, ist der Summierer 52 nicht ein physikalisches Element des Systems, sondern ein Produkt einer geräuschvollen Umgebung.
  • Spracherkennungseinheit 50 umfasst Sprachdatenbank 60, die die digitalisierten Samples der Sprache bzw. Sprach-Samples enthält, die während der Trainingsphase aufgezeichnet wurden. Spracherkennungseinheit 50 umfasst auch Parameterbestimmungsblock 54, durch den das rauschgeschädigte Sprachsignal r(n) gereicht bzw. gegeben wird zum Produzieren der rauschgeschädigten Vorlage t1(n). Wie in einem herkömmlichen Spracherkennungssystem kann der Parameterbestimmungsblock 54 irgendwelche einer Anzahl von Sprachparameterbestimmungstechniken implementieren.
  • Eine beispielhafte Parameterbestimmungstechnik verwendet linear prädiktive Codierung (linear predictive coding, LPC) Analysetechniken. LPC Analysetechniken modellieren den Vokaltrakt als ein Digitalfilter. Verwendet man LPC Analyse können LPC Cepstral-Koeffizienten c(m) berechnet werden als die Parameter zum Repräsentieren des Sprachsignals. Die Koeffizienten c(m) werden unter Verwendung der folgenden Schritte berechnet. Zuerst wird das rauschgeschädigte Sprachsignal r(n) über einen Rahmen von Sprach-Samples gefenstert (windowed) durch Anwenden einer Fensterfunktion v(n): y(n) = r(n)v(n) 0 <= n <= N – 1 (1)
  • In dem beispielhaften Ausführungsbeispiel ist die Fensterfunktion v(n) ein Hamming-Fenster und die Rahmengröße N ist gleich 160. Als Nächstes wei den die Autokorrelationskoeffizienten über die gefensterten Samples berechnet unter Verwendung der Gleichung:
  • Figure 00110001
  • In dem beispielhaften Ausführungsbeispiel ist P, die Anzahl der zu berechnenden Autokorrelationskoeffizienten, gleich der Ordnung des LPC Prädiktors, die 10 ist. Die LPC Koeffizienten werden dann direkt von den Autokorrelationswerten unter Verwendung von Durbins Rekusionsalgorithmus berechnet. Der Algorithmus kann wie folgt angegeben werden:
    • 1. E(0) = R(0), i = 1 (3)
    • 2.
      Figure 00110002
    • 3. α(i)i = ki (5)
    • 4. α(i)j = α(i–1)j – kiα(i–1)i–j 1 <= j <= i – 1 (6)
    • 5. E(i) = (1 - k2i )E(i–1) (7)
    • 6. Falls i < P, dann gehe zu (2) mit i = i + 1. (8)
    • 7. Die endgültige Lösung für die LPC Koeffizienten ist gegeben durch aj = α(P)j 1 <= j <= P (9)
  • Die LPC Koeffizienten werden dann zu den LPC Cepstral-Koeffizienten konvertiert unter Verwendung der folgenden Gleichungen: c(0) = ln(R(0)) (10)
  • Figure 00120001
  • Es sollte verstanden werden, dass andere Techniken zur Parameterbestimmung anstelle der LPC Cepstral-Koeffizienten verwendet werden können.
  • Zusätzlich wird das Signal r(n) zum Sprachdetektionsblock 56 weitergegeben, der die Anwesenheit oder Abwesenheit von Sprache bestimmt. Sprachdetektionsblock 56 kann die Anwesenheit oder Abwesenheit von Sprache bestimmen unter Verwendung irgendeiner einer Anzahl von Techniken. Ein solches Verfahren ist offenbart in dem oben erwähnten U.S. Patent Nr. 5,414,796 mit dem Titel "VARIABLE RATE VOCODER". Diese Technik analysiert den Pegel der Sprachaktivität um die Bestimmung bezüglich der Anwesenheit oder Abwesenheit von Sprache zu machen. Der Pegel der Sprachaktivität basiert auf der Energie des Signals im Vergleich mit der Energieschätzung des Hintergrundrauschens. Zuerst wird die Energie E(n) für jeden Rahmen berechnet, der in einem bevorzugten Ausführungsbeispiel aus 160 Samples zusammengesetzt ist. Die Energieschätzung des Hintergrundrauschens B(n) kann dann berechnet werden unter Verwendung der Gleichungen: B(n) = min[E(n), 5059644, max(1,00547*B(n – 1), B(n – 1) + 1)] (13)
  • Falls B(n) < 160000 werden drei Schwellen unter Verwendung von B(n) wie folgt berechnet: T1(B(n)) = –(5,544613 × 10–6)*B2(n) + 4,047152*B(n) + 362 (14) T2(B(n)) = –(1,529733 × 10–5)*B2(n) + 8,750045*B(n) + 1136 (15) T3(B(n)) = –(3,957050 × 10–5)*B2(n) + 18,89962*B(n) + 3347 (16) Falls B(n) > 160000 werden die drei Schwellen berechnet als: T1(B(n)) = –(9,043945 × 10–8)*B2(n) + 3,535748*B(n) – 62071 (17) T2(B(n)) = –(1,986007 × 10–7)*B2(n) + 4,941658*B(n) + 223951 (18) T3(B(n)) = –(4,838477 × 10–7)*B2(n) + 8,630020*B(n) + 645864 (19)
  • Dieses Sprachdetektionsverfahren zeigt die Anwesenheit von Sprache an, wenn die Energie E(n) größer als die Schwelle T2(B(n)) ist und zeigt die Abwesenheit von Sprache an, wenn die Energie E(n) kleiner als die Schwelle T2(B(n)) ist. In einem alternativen Ausführungsbeispiel kann dieses Verfahren erweitert werden zum Berechnen von Energieschätzungen des Hintergrundrauschens und Schwellen in zwei oder mehr Frequenzbändern. Zusätzlich sollte es verstanden werden, dass die in Gleichungen (13)–(19) gelieferten Werte experimentell bestimmt wurden, und in Abhängigkeit von den Umständen modifiziert werden können.
  • Wenn Sprachdetektionsblock 56 bestimmt, dass Sprache abwesend ist, sendet er ein Steuersignal, das Rauschanalyse, Modellierung und Syntheseblock 58 aktiviert. Es sollte bemerkt werden, dass in der Abwesenheit von Sprache das empfangene Signal r(n) das gleiche wie das Rauschsignal w(n) ist.
  • Wenn Rauschanalyse, Modellierung und Syntheseblock 58 aktiviert ist, analysiert er die Eigenschaften des Rauschsignals r(n), modelliert es und synthetisiert ein Rauschsignal w1(n) das gleiche Eigenschaften wie das aktuelle Rauschen w(n) hat. Ein beispielhaftes Ausführungsbeispiel zum Durchführen von Rauschanalyse, Modellierung und Synthese ist im U.S. Patent Nr. 5,646,991 offenbart. Dieses Verfahren führt Rauschanalyse durch und zwar durch Weitergeben des Rauschsignals r(n) durch ein Prädiktionsfehlerfilter, das gegeben ist durch:
    Figure 00130001
    wobei P, die Ordnung des Prädiktors, in dem beispielhaften Ausführungsbeispiel 5 ist. Die LPC Koeffizienten ai, werden wie früher erklärt, unter Verwendung der Gleichungen (1) bis (9) berechnet. Sobald die LPC Koeffizienten erhalten wurden, können synthetisierte Rausch-Samples mit den gleichen spektralen Eigenschaften generiert werden und zwar durch weiterleiten von weißem Rauschen durch das Rauschsynthesefilter, dass gegeben ist durch:
    Figure 00140001
    welches gerade die Umkehrfunktion des zur Rauschanalyse verwendeten Filters ist. Nach dem Anwenden eines Skalierungsfaktors auf jedes der synthetisierten Rausch-Samples, um die bis synthetisierte Rauschenergie gleich der aktuellen Rauschenergie zu machen, ist die Ausgabe das synthetisierte Rauschen w1(n).
  • Das synthetisierte Rauschen w1(n) wird zu jedem Satz der digitalisierten Sprach-Samples in der Sprachdatenbank 60 durch den Summierer 62 addiert, zum Erzeugen von Sätzen mit synthetisiertem Rauschen geschädigten Sprach-Samples. Dann wird jeder Satz mit synthetisiertem Rauschen geschädigten Sprach-Samples durch Parameterbestimmungsblock 64 durchgeleitet, der einen Satz von Parametern generiert für jeden Satz mit synthetisiertem Rauschen geschädigten Sprach-Samples unter Verwendung der gleichen Parameterbestimmungstechnik, die im Parameterbestimmungsblock 54 verwendet wird. Parameterbestimmungsblock 54 produziert eine Vorlage von Parametern für jeden Satz der Sprach-Samples und die Vorlagen werden in der rauschkompensierten Vorlagedatenbank 66 gespeichert. Rauschkompensierte Vorlagedatenbank 66 ist ein Satz von Vorlagen, der konstruiert wird als ob herkömmliches Training stattgefunden hätte und zwar bei der gleichen Art von Rauschen das während der Erkennung vorhanden ist. Man beachte, dass es viele mögliche Verfahren zum Erzeugen von geschätztem Rauschen w1(n) zusätzlich zu dem im US-Patent Nr. 5,646,991 offenbarten Verfahren gibt. Ein alternatives Ausführungsbeispiel ist einfach ein Zeitfenster des aktuell vorhandenen Rauschens aufzunehmen und zwar wenn der Nutzer still ist und verwenden dieses Rauschsignals als das geschätzte Rauschen w1(n). Das Zeitfenster des Rauschens, das aufgezeichnet wurde, genau bevor das zu erkennende Wort oder Satzglied gesprochen wurde, ist ein beispielhaftes Ausführungsbeispiel dieses Verfahrens. Noch ein anderes Verfahren ist es, über Verschiedene über eine spezifizierte Dauer erhaltene Rauschfenster zu mitteln.
  • Noch Bezug nehmend auf 5 vergleicht Mustervergleichsblock 68 die rauschgeschädigte Vorlage t1(n) mit allen den Vorlagen der rauschkompensierten Vorlagedatenbank 66. Da die Rauscheffekte mit den Vorlagen der rauschkompensierten Vorlagedatenbank 66 eingeschlossen sind, ist Entscheidungsblock 70 fähig eine gute Übereinstimmung für t1(n) zu finden. Durch Berücksichtigen der Rauscheffekte in dieser Art und Weise wird die Genauigkeit des Spracherkennungssystems verbessert.
  • Die vorhergehende Beschreibung der bevorzugten Ausführungsbeispiele ist vorgesehen es einem Fachmann zu ermöglichen die vorliegende Erfindung nachzuvollziehen oder zu verwenden. Die verschiedenen Modifikationen an diesen Ausführungsbeispielen werden dem Fachmann leicht ersichtlich werden und die hierin definierten generischen Prinzipien können ohne die Verwendung erfinderischer Fähigkeit auf andere Ausführungsbeispiele 17932 angewendet werden.

Claims (11)

  1. Ein Spracherkennungssystem, das Folgendes aufweist: eine Trainingseinheit (40) zum Empfangen von Signalen von zu trainierenden Wörtern oder Sätzen, zum Generieren von digitalisierten Samples für jedes der Worte oder Sätze, und zum Speichern der digitalisierten Samples in einer Sprachdatenbank (42) und eine Spracherkennungseinheit (50) zum Empfangen eines Eingabesignals, das es zu erkennen gilt, wobei das Eingabesignal durch Rauschen korrumpiert bzw. geschädigt ist, Generieren einer rauschkompensierten Vorlagedatenbank (template data base) (66) durch Anwenden der Wirkungen bzw. Effekte des Rauschens auf die digitalisierten Samples der Sprachdatenbank, und Vorsehen eines Spracherkennungsergebnisses für das rauschbeschädigte Eingabesignal, basierend auf der rauschkompensierten Vorlagedatenbank, wobei die Spracherkennungseinheit (50) weiterhin Folgendes aufweist: eine Sprachdetektiereinheit (56) zum Empfangen des rauschgeschädigten Eingabesignals und zum Bestimmen ob Sprache in dem Eingabesignal vorliegt, wobei das Eingabesignal als ein Rauschsignal benannt wird, wenn bestimmt wird, dass keine Sprache in dem Eingabesignal vorliegt; und eine Rauscheinheit (58), die nach Bestimmung, dass Sprache in dem Eingabesignal nicht vorliegt, aktiviert wird, wobei die Rauscheinheit zum Analysieren des Rauschsignals und Synthetisieren eines synthetisierten Rauschsignals mit Charakteristika des Rauschsignals dient, wobei das synthetisierte Rauschsignal zum Anwenden der Rauscheffekte auf die digitalisierten Samples der Sprachdatenbank dient.
  2. Das Spracherkennungssystem nach Anspruch 1, wobei die Sprachdetektiereinheit (50) das Vorliegen von Sprache durch Analysieren des Pegels der Sprachaktivität in dem Eingabesignal bestimmt.
  3. Das Spracherkennungssystem nach Anspruch 1, wobei die Rauscheinheit (58) das synthetisierte Rauschsignal analysiert und synthetisiert mittels einer linearprädiktiven Kodierungstechnik (linear predictive coding (LPC) technique).
  4. Das Spracherkennungssystem nach Anspruch 1, wobei das synthetisierte Rauschsignal einem Fenster des Rauschsignals entspricht, das gerade vor dem zu erkennenden Eingabesignal aufgenommen wurde.
  5. Das Spracherkennungssystem nach Anspruch 1, wobei das synthetisierte Rauschsignal einem Durchschnitt verschiedener Fenster des Rauschsignals, aufgenommen über eine vorbestimmte Zeitperiode, entspricht.
  6. Das Spracherkennungssystem nach einem der vorhergehenden Ansprüche, wobei die Spracherkennungseinheit (50) Folgendes aufweist: eine erste Parameterbestimmungseinheit (54) zum Empfangen des rauschgeschädigten Eingabesignals und zum Generieren einer Vorlage bzw. Template von Parametern, die das Eingabesignal gemäß einer vorbestimmten Parameterbestimmungstechnik repräsentiert; eine zweite Parameterbestimmungseinheit (64) zum Empfangen der Sprachdatenbank mit den Rauscheffekten, angewendet auf die digitalisierten Samples, und Generieren der rauschkompensierten Vorlagedatenbank (66), gemäß der vorbestimmten Parameterbestimmungstechnik; und eine Mustervergleichseinheit (68) zum Vergleichen der Vorlage von Parametern, die das Eingabesignal repräsentieren, mit den Vorlagen der rauschkompensierten Vorlagedatenbank (66), um die beste Übereinstimmung zu bestimmen und hierdurch das Spracherkennungsergebnis zu identifizieren.
  7. Das Spracherkennungssystem nach Anspruch 6, wobei die Parameterbestimmungstechnik eine linear prädiktive Kodierungsanalysetechnik (linear predictive coding (LPC) analysis technique) ist.
  8. Eine Spracherkennungseinheit eines sprecherabhängigen Spracherkennungssystems zum Erkennen eines Eingabesignals, wobei die Spracherkennungseinheit (50) die Wirkungen bzw. Effekte einer verrauschten Umgebung berücksichtigt, wobei die Einheit Folgendes aufweist: Mittel (40) zum Speichern digitalisierter Samples von Wörtern und Sätzen eines Vokabulars in einer Sprachdatenbank (42); Mittel (52) zum Anwenden der Rauscheffekte auf die digitalisierten Samples des Vokabulars um rauschgeschädigte digitalisierte Samples des Vokabulars zu generieren; Mittel (50) zum Generieren einer rauschkompensierten Vorlagedatenbank (66), basierend auf den rauschgeschädigten digitalisierten Samples; und Mittel (68, 70) zum Bestimmen eines Spracherkennungsergebnisses für das Eingabesignal, basierend auf der rauschkompensierten Vorlagedatenbank (66), wobei die Mittel zum Anwenden der Rauscheffekte Folgendes aufweisen: Mittel (56) zum Bestimmen, ob Sprache im Eingabesignal vorliegt, wobei das Eingabesignal als ein Rauschsignal benannt wird, wenn bestimmt wird, dass Sprache nicht in dem Eingabesignal vorliegt; und Mittel (58) zum Analysieren des Rauschsignals und zum Synthetisieren eines synthetisierten Rauschsignals, wobei das synthetisierte Rauschsignal zu den digitalisierten Samples des Vokabulars addiert wird.
  9. Die Spracherkennungseinheit nach Anspruch 8, die weiterhin Folgendes aufweist: erste Parameterbestimmungsmittel (54) zum Empfangen des Eingabesignals und zum Generieren einer Vorlage von Parametern, die das Eingabesignal repräsentieren, und zwar mittels einer vorbestimmten Parameterbestimmungstechnik; und zweite Parameterbestimmungsmittel (64) zum Empfangen der rauschgeschädigten, digitalisierten Samples des Vokabulars und zum Generieren der Vorlagen der rauschkompensierten Vorlagedatenbank (66), und zwar gemäß der vorbestimmten Parameterbestimmungstechnik; wobei die Mittel (68, 70) zum Bestimmen des Spracherkennungsergebnisses die Vorlagen bzw. Templates der rauschkompensierten Vorlagedatenbank vergleicht um die beste Übereinstimmung zu bestimmen und hierdurch das Spracherkennungsergebnis zu identifizieren.
  10. Ein Verfahren zur Spracherkennung, das die Effekte bzw. Wirkungen einer verrauschten Umgebung berücksichtigt, wobei das Verfahren die folgenden Schritte aufweist: Generieren digitalisierter Samples eines jeden trainierten Wortes oder Satzes, wobei jedes der Worte oder Sätze zu einem Vokabular gehört; Speichern der digitalisierten Samples in einer Sprachdatenbank (42); Empfangen eines zu erkennenden Eingabesignals; Anwenden der Rauscheffekte auf die digitalisierten Samples des Vokabulars um rauschgeschädigte, digitalisierte Samples des Vokabulars zu generieren; Generieren einer rauschkompensierten Vorlagedatenbank (66), basierend auf den rauschgeschädigten, digitalisierten Samples; und Vorsehen eines Spracherkennungsergebnisses für das rauschgeschädigte Eingabesignal, basierend auf der rauschkompensierten Vorlagedatenbank, wobei der Schritt des Anwendens der Rauscheffekte die folgenden Schritte aufweist: Bestimmen, ob Sprache in dem Eingabesignal vorliegt, wobei das Eingabesignal als ein Rauschsignal benannt wird, wenn bestimmt wird, dass keine Sprache in dem Eingabesignal vorliegt; und Analysieren des Rauschsignals und Synthetisieren eines synthetisierten Rauschsignals, wobei das synthetisierte Rauschsignal zu den digitalisierten Samples des Vokabulars addiert wird, um die rauschgeschädigten, digitalisieren Samples zu generieren.
  11. Das Verfahren zur Spracherkennung nach Anspruch 10, das weiterhin die folgenden Schritte aufweist: Generieren einer Vorlage von Parametern, die das Eingabesignal repräsentieren und zwar gemäß einer vorbestimmten Parameterbestimmungstechnik; und Generieren von Vorlagen für die rauschkompensierte Vorlagedatenbank gemäß der vorbestimmten Parameterbestimmungstechnik; wobei der Schritt des Vorsehens eines Spracherkennungsergebnisses die Vorlage der Parameter, was das Eingabesignal repräsentiert, mit den Vorlagen der rauschkompensierten Vorlagedatenbank vergleicht, um die beste Übereinstimmung zu bestimmen, und hierdurch das Spracherkennungsergebnis zu identifizieren.
DE69916255T 1998-02-04 1999-02-03 System und verfahren zur geräuschkompensierten spracherkennung Expired - Lifetime DE69916255T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US18257 1998-02-04
US09/018,257 US6381569B1 (en) 1998-02-04 1998-02-04 Noise-compensated speech recognition templates
PCT/US1999/002280 WO1999040571A1 (en) 1998-02-04 1999-02-03 System and method for noise-compensated speech recognition

Publications (2)

Publication Number Publication Date
DE69916255D1 DE69916255D1 (de) 2004-05-13
DE69916255T2 true DE69916255T2 (de) 2005-04-14

Family

ID=21787025

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69916255T Expired - Lifetime DE69916255T2 (de) 1998-02-04 1999-02-03 System und verfahren zur geräuschkompensierten spracherkennung

Country Status (9)

Country Link
US (2) US6381569B1 (de)
EP (1) EP1058925B1 (de)
JP (1) JP4750271B2 (de)
KR (1) KR100574594B1 (de)
CN (1) CN1228761C (de)
AU (1) AU2577499A (de)
DE (1) DE69916255T2 (de)
HK (1) HK1035600A1 (de)
WO (1) WO1999040571A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102009059138A1 (de) 2009-12-19 2010-07-29 Daimler Ag Verfahren und Testsystem zum Testen eines Spracherkennungssystems

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6744887B1 (en) * 1999-10-05 2004-06-01 Zhone Technologies, Inc. Acoustic echo processing system
JP4590692B2 (ja) * 2000-06-28 2010-12-01 パナソニック株式会社 音響モデル作成装置及びその方法
US6631348B1 (en) * 2000-08-08 2003-10-07 Intel Corporation Dynamic speech recognition pattern switching for enhanced speech recognition accuracy
JP4244514B2 (ja) * 2000-10-23 2009-03-25 セイコーエプソン株式会社 音声認識方法および音声認識装置
US6999926B2 (en) * 2000-11-16 2006-02-14 International Business Machines Corporation Unsupervised incremental adaptation using maximum likelihood spectral transformation
US7236929B2 (en) * 2001-05-09 2007-06-26 Plantronics, Inc. Echo suppression and speech detection techniques for telephony applications
JP4240878B2 (ja) * 2001-12-13 2009-03-18 四一 安藤 音声認識方法及び音声認識装置
JP3885002B2 (ja) * 2002-06-28 2007-02-21 キヤノン株式会社 情報処理装置およびその方法
US7340397B2 (en) * 2003-03-03 2008-03-04 International Business Machines Corporation Speech recognition optimization tool
US20050228673A1 (en) * 2004-03-30 2005-10-13 Nefian Ara V Techniques for separating and evaluating audio and video source data
DE102004049347A1 (de) * 2004-10-08 2006-04-20 Micronas Gmbh Schaltungsanordnung bzw. Verfahren für Sprache enthaltende Audiosignale
EP1854095A1 (de) * 2005-02-15 2007-11-14 BBN Technologies Corp. Sprachanalysesystem mit adaptivem geräusch-codebook
US8219391B2 (en) * 2005-02-15 2012-07-10 Raytheon Bbn Technologies Corp. Speech analyzing system with speech codebook
CN1936829B (zh) * 2005-09-23 2010-05-26 鸿富锦精密工业(深圳)有限公司 声音输出***及方法
US7729911B2 (en) * 2005-09-27 2010-06-01 General Motors Llc Speech recognition method and system
KR100751923B1 (ko) * 2005-11-11 2007-08-24 고려대학교 산학협력단 잡음환경에 강인한 음성인식을 위한 에너지 특징 보상 방법및 장치
US20070118372A1 (en) * 2005-11-23 2007-05-24 General Electric Company System and method for generating closed captions
CN100389421C (zh) * 2006-04-20 2008-05-21 北京理工大学 一种快速构造用于关键词检出任务的语音数据库的方法
US8478587B2 (en) * 2007-03-16 2013-07-02 Panasonic Corporation Voice analysis device, voice analysis method, voice analysis program, and system integration circuit
US8868417B2 (en) * 2007-06-15 2014-10-21 Alon Konchitsky Handset intelligibility enhancement system using adaptive filters and signal buffers
US9343079B2 (en) 2007-06-15 2016-05-17 Alon Konchitsky Receiver intelligibility enhancement system
US8190440B2 (en) * 2008-02-29 2012-05-29 Broadcom Corporation Sub-band codec with native voice activity detection
US8615397B2 (en) * 2008-04-04 2013-12-24 Intuit Inc. Identifying audio content using distorted target patterns
US8433564B2 (en) * 2009-07-02 2013-04-30 Alon Konchitsky Method for wind noise reduction
US20120143604A1 (en) * 2010-12-07 2012-06-07 Rita Singh Method for Restoring Spectral Components in Denoised Speech Signals
US9143571B2 (en) * 2011-03-04 2015-09-22 Qualcomm Incorporated Method and apparatus for identifying mobile devices in similar sound environment
US10078690B2 (en) * 2011-12-31 2018-09-18 Thomson Licensing Dtv Method and device for presenting content
CN103514878A (zh) * 2012-06-27 2014-01-15 北京百度网讯科技有限公司 声学建模方法及装置和语音识别方法及装置
US9293148B2 (en) 2012-10-11 2016-03-22 International Business Machines Corporation Reducing noise in a shared media session
CN103903616B (zh) * 2012-12-25 2017-12-29 联想(北京)有限公司 一种信息处理的方法及电子设备
CN103544953B (zh) * 2013-10-24 2016-01-20 哈尔滨师范大学 一种基于背景噪声最小统计量特征的声音环境识别方法
US9466310B2 (en) * 2013-12-20 2016-10-11 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Compensating for identifiable background content in a speech recognition device
US9858922B2 (en) 2014-06-23 2018-01-02 Google Inc. Caching speech recognition scores
US9299347B1 (en) 2014-10-22 2016-03-29 Google Inc. Speech recognition using associative mapping
EP3317878B1 (de) 2015-06-30 2020-03-25 Fraunhofer Gesellschaft zur Förderung der Angewand Verfahren und vorrichtung zum erzeugen einer datenbank
US9786270B2 (en) 2015-07-09 2017-10-10 Google Inc. Generating acoustic models
CN105405447B (zh) * 2015-10-27 2019-05-24 航宇救生装备有限公司 一种送话呼吸噪声屏蔽方法
US10229672B1 (en) 2015-12-31 2019-03-12 Google Llc Training acoustic models using connectionist temporal classification
US20180018973A1 (en) 2016-07-15 2018-01-18 Google Inc. Speaker verification
CN106816154A (zh) * 2016-12-15 2017-06-09 北京青笋科技有限公司 一种具有智能降噪功能的灯具语音识别控制方法
KR102410820B1 (ko) * 2017-08-14 2022-06-20 삼성전자주식회사 뉴럴 네트워크를 이용한 인식 방법 및 장치 및 상기 뉴럴 네트워크를 트레이닝하는 방법 및 장치
US10706840B2 (en) 2017-08-18 2020-07-07 Google Llc Encoder-decoder models for sequence to sequence mapping
US10762905B2 (en) * 2018-07-31 2020-09-01 Cirrus Logic, Inc. Speaker verification
CN109256144B (zh) * 2018-11-20 2022-09-06 中国科学技术大学 基于集成学习与噪声感知训练的语音增强方法
CN109841227B (zh) * 2019-03-11 2020-10-02 南京邮电大学 一种基于学习补偿的背景噪声去除方法
CN110808030B (zh) * 2019-11-22 2021-01-22 珠海格力电器股份有限公司 语音唤醒方法、***、存储介质及电子设备
EP3862782A1 (de) * 2020-02-04 2021-08-11 Infineon Technologies AG Vorrichtung und verfahren zur korrektur eines eingangssignals

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4933973A (en) 1988-02-29 1990-06-12 Itt Corporation Apparatus and methods for the selective addition of noise to templates employed in automatic speech recognition systems
US5095503A (en) 1989-12-20 1992-03-10 Motorola, Inc. Cellular telephone controller with synthesized voice feedback for directory number confirmation and call status
ATE294441T1 (de) 1991-06-11 2005-05-15 Qualcomm Inc Vocoder mit veränderlicher bitrate
US5307405A (en) 1992-09-25 1994-04-26 Qualcomm Incorporated Network echo canceller
DE4340679A1 (de) 1993-11-30 1995-06-01 Detecon Gmbh Sprachmodul für die akustische Wiedergabe von SAPI 3 Messages (Short Message Service) in einer Mobilstation (MS)
US5845246A (en) * 1995-02-28 1998-12-01 Voice Control Systems, Inc. Method for reducing database requirements for speech recognition systems
IL116103A0 (en) 1995-11-23 1996-01-31 Wireless Links International L Mobile data terminals with text to speech capability
US5778342A (en) * 1996-02-01 1998-07-07 Dspc Israel Ltd. Pattern recognition system and method
US5950123A (en) 1996-08-26 1999-09-07 Telefonaktiebolaget L M Cellular telephone network support of audible information delivery to visually impaired subscribers

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102009059138A1 (de) 2009-12-19 2010-07-29 Daimler Ag Verfahren und Testsystem zum Testen eines Spracherkennungssystems

Also Published As

Publication number Publication date
AU2577499A (en) 1999-08-23
KR20010040669A (ko) 2001-05-15
EP1058925B1 (de) 2004-04-07
EP1058925A1 (de) 2000-12-13
DE69916255D1 (de) 2004-05-13
HK1035600A1 (en) 2001-11-30
JP4750271B2 (ja) 2011-08-17
CN1296607A (zh) 2001-05-23
WO1999040571A1 (en) 1999-08-12
KR100574594B1 (ko) 2006-04-28
US20010001141A1 (en) 2001-05-10
CN1228761C (zh) 2005-11-23
JP2002502993A (ja) 2002-01-29
US6381569B1 (en) 2002-04-30

Similar Documents

Publication Publication Date Title
DE69916255T2 (de) System und verfahren zur geräuschkompensierten spracherkennung
DE60125542T2 (de) System und verfahren zur spracherkennung mit einer vielzahl von spracherkennungsvorrichtungen
DE60024236T2 (de) Sprach endpunktbestimmung in einem rauschsignal
EP2151821B1 (de) Rauschunterdrückende Verarbeitung von Sprachsignalen
US7630894B1 (en) Frame erasure concealment technique for a bitstream-based feature extractor
DE602004000382T2 (de) Rauschadaptierung zur Spracherkennung
DE69831288T2 (de) An Umgebungsgeräusche angepasste Sprachverarbeitung
DE69433593T2 (de) Aufgeteiltes spracherkennungssystem
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
DE602004000716T2 (de) Rauschadaptierungssystem für ein Sprachmodell, Verfahren zur Rauschadaptierung und Programm zur Rauschadaptierung für Spracherkennung
DE60034772T2 (de) Zurückweisungsverfahren in der spracherkennung
Schmidt et al. Blind bandwidth extension based on convolutional and recurrent deep neural networks
DE60014583T2 (de) Verfahren und vorrichtung zur integritätsprüfung von benutzeroberflächen sprachgesteuerter geräte
CN116612754A (zh) 一种应用于车辆的语音指令识别方法及装置
Upadhyay et al. Robust recognition of English speech in noisy environments using frequency warped signal processing
Elshamy et al. Two-stage speech enhancement with manipulation of the cepstral excitation
WO2005069278A1 (de) Verfahren und vorrichtung zur bearbeitung eines sprachsignals für die robuste spracherkennung
JP3250604B2 (ja) 音声認識方法および装置
Sadeghi et al. The effect of different acoustic noise on speech signal formant frequency location
Tzudir et al. Low-resource dialect identification in Ao using noise robust mean Hilbert envelope coefficients
Koc Acoustic feature analysis for robust speech recognition
Wang et al. End-to-End Speech Enhancement Using Fully Convolutional Networks with Skip Connections
Salimovna et al. A Study on the Methods and Algorithms Used for the Separation of Speech Signals
JPH0573088A (ja) 認識辞書の作成方法、認識辞書作成装置及び音声認識装置
Chung et al. Excitation modeling in a homomorphic vocoder

Legal Events

Date Code Title Description
8364 No opposition during term of opposition