DE102004008225A1 - Verfahren und Einrichtung zum Ermitteln von Merkmalsvektoren aus einem Signal zur Mustererkennung, Verfahren und Einrichtung zur Mustererkennung sowie computerlesbare Speichermedien - Google Patents

Verfahren und Einrichtung zum Ermitteln von Merkmalsvektoren aus einem Signal zur Mustererkennung, Verfahren und Einrichtung zur Mustererkennung sowie computerlesbare Speichermedien Download PDF

Info

Publication number
DE102004008225A1
DE102004008225A1 DE102004008225A DE102004008225A DE102004008225A1 DE 102004008225 A1 DE102004008225 A1 DE 102004008225A1 DE 102004008225 A DE102004008225 A DE 102004008225A DE 102004008225 A DE102004008225 A DE 102004008225A DE 102004008225 A1 DE102004008225 A1 DE 102004008225A1
Authority
DE
Germany
Prior art keywords
feature vectors
signal
intermediate feature
pattern recognition
vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE102004008225A
Other languages
English (en)
Other versions
DE102004008225B4 (de
Inventor
Werner Dr. Hemmert
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Infineon Technologies AG
Original Assignee
Infineon Technologies AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Infineon Technologies AG filed Critical Infineon Technologies AG
Priority to DE102004008225A priority Critical patent/DE102004008225B4/de
Priority to US11/061,108 priority patent/US7646912B2/en
Publication of DE102004008225A1 publication Critical patent/DE102004008225A1/de
Application granted granted Critical
Publication of DE102004008225B4 publication Critical patent/DE102004008225B4/de
Priority to US12/566,413 priority patent/US8064699B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Aus einem Signal werden Zwischen-Merkmalsvektoren gebildet, die einer Hochpass-Filterung unterzogen werden. Den hochpassgefilterten Zwischen-Merkmalsvektoren wird jeweils ein vorgegebener Additions-Merkmalsvektor hinzuaddiert.

Description

  • Die Erfindung betrifft ein Verfahren und eine Einrichtung zum Ermitteln von Merkmalsvektoren aus einem Signal zur Mustererkennung, ein Verfahren und eine Einrichtung zur Mustererkennung sowie computerlesbare Speichermedien.
  • In einem üblichen Spracherkennungssystem wird auf ein Analog-/Digital-gewandeltes Eingangssignal eine Fast Fourier Transformation (FFT) zur Spektralanalyse des Eingangssignals eingesetzt. Ein erhebliches Problem im Rahmen der Spracherkennung, allgemein im Rahmen der Mustererkennung, besteht in der Unterdrückung von Störgeräuschen, anders ausgedrückt in der Unterdrückung von Rauschsignalen. Aufgrund der Störgeräusche nimmt die Erkennungsrate schon bei relativ geringen Pegeln der existierenden Störsignale drastisch ab.
  • In [1] ist es zur Störgeräuschunterdrückung bekannt, einen Wiener Filter als einen adaptiven Filter einzusetzen, um das Signal-Rausch-Verhältnis im Rahmen der Signalanalyse zu erhöhen.
  • Nachteilig an dem Einsatz eines Wiener Filters, allgemein eines adaptiven Filters, im Rahmen der Störgeräuschunterdrückung ist insbesondere in dem sehr großen Rechenaufwand zur Durchführung des Filteralgorithmus und der periodisch wiederholt durchzuführenden Berechnung der Filterkoeffizienten zu sehen.
  • In [2] ist ferner ein Verfahren zur Spracherkennung beschrieben, bei dem aus einem Analog-/Digital-gewandelten Signal Zwischen-Merkmalsvektoren gebildet werden, welche einer Bandpassfilterung unterzogen werden.
  • Das in [2] beschriebene Verfahren weist insbesondere den Nachteil einer noch relativ schlechten Erkennungsleistung im Rahmen der Spracherkennung bei mit einem Störsignal belegten Sprachsignal auf.
  • Ferner ist in [3] das sogenannte „AURORA" Experimental-Framework zum Ermitteln der Leistungsfähigkeit eines Spracherkennungssystems in einer Umgebung mit Störsignalen beschrieben.
  • Der Erfindung liegt das Problem zugrunde, eine Mustererkennung mit einer gegenüber dem in [2] beschriebenen Verfahren verbesserten Erkennungsrate zu schaffen, welches weniger Rechenaufwand erfordert als das in [1] beschriebene Verfahren.
  • Das Problem wird gelöst durch ein Verfahren und eine Einrichtung zum Ermitteln von Merkmalsvektoren aus einem digitalisierten Signal zur Mustererkennung, durch ein Verfahren und eine Einrichtung zur Mustererkennung sowie durch computerlesbare Speichermedien mit den Merkmalen gemäß den unabhängigen Patentansprüchen.
  • Bei einem Verfahren zum rechnergestützten Ermitteln von Merkmalsvektoren aus einem digitalisierten Signal zur Mustererkennung werden aus dem digitalisierten Signal Zwischen-Merkmalsvektoren gebildet, deren Komponenten zumindest teilweise ein Leistungsspektrum, vorzugsweise ein Kurzzeit-Leistungsspektrum, eines Teils des digitalisierten Signals aufweisen. Die Zwischen-Merkmalsvektoren werden einer Hochpass-Filterung unterzogen. Ferner wird zumindest einem Teil der hochpassgefilterten Zwischen-Merkmalsvektoren jeweils ein vorgegebener Additions-Merkmalsvektor hinzuaddiert, so dass die Merkmalsvektoren gebildet werden.
  • Ein Verfahren zur rechnergestützten Mustererkennung weist die oben beschriebenen Verfahrensschritte zum Ermitteln der Merkmalsvektoren auf, wobei unter Verwendung der Summe der hochpassgefilterten Zwischen-Merkmalsvektoren und der Additions-Merkmalsvektoren als Merkmalsvektoren eine Mustererkennung durchgeführt wird.
  • Eine Einrichtung zum Ermitteln von Merkmalsvektoren aus einem digitalisierten Signal zur Mustererkennung weist eine Einheit zum Bilden von Zwischen-Merkmalsvektoren aus dem digitalisierten Signal auf, wobei die Komponenten der Zwischen-Merkmalsvektoren zumindest teilweise ein Leistungsspektrum, vorzugsweise ein Kurzzeit-Leistungsspektrum, eines Teils des digitalisierten Signals aufweisen. Ferner ist ein mit der Einheit zum Bilden von Zwischen-Merkmalsvektoren gekoppelter Hochpassfilter zum Hochpassfiltern der Zwischen-Merkmalsvektoren vorgesehen. Weiterhin ist eine Signal-Additionseinheit vorgesehen, die eingerichtet ist zum Addieren jeweils eines vorgegebenen Additions-Merkmalsvektors zumindest zu einem Teil der hochpassgefilterten Zwischen-Merkmalsvektoren.
  • Anschaulich dient die Erfindung zur Unterdrückung von Störsignalen im Rahmen der Merkmalsextraktion, d.h. im Rahmen der Bildung von Merkmalsvektoren aus einem digitalisierten Signal, für ein Mustererkennungssystem, insbesondere für ein automatisches Spracherkennungssystem. Im Rahmen der Unterdrückung von Störsignalen werden zeitlich gleichbleibende, d.h. im Wesentlichen unveränderte Störsignalanteile teilweise subtrahiert, zeitlich veränderliche Anteile des Sprachsignals werden betont, d.h. verstärkt.
  • Anschaulich werden erfindungsgemäß durch das Vorsehen eines neuartigen Filters im Rahmen der Mustererkennung zum Filtern der Zwischen-Merkmalsvektoren, nämlich einer Hochpassfilterung der Zwischen-Merkmalsvektoren sowie einem Addieren eines zusätzlichen Additionssignals, nämlich der Additions-Merkmalsvektoren zu zumindest einem Teil der hochpassgefilterten Zwischen-Merkmalsvektoren sehr effizient und auf einfache Weise grundlegende Eigenschaften des menschlichen Gehörs, insbesondere die Adaption, in einer technischen Merkmalsextraktion für ein automatischen Mustererkennungssystem, insbesondere für ein Spracherkennungssystem, nachgebildet.
  • Erfindungsgemäß wird eine gegenüber dem RASTA-Verfahren, wie es in [2] beschrieben ist, erheblich verbesserte Erkennungsrate im Rahmen der Mustererkennung von einem Signal, welches mit einem Störsignal beaufschlagt ist, erreicht.
  • Ferner zeichnet sich die Erfindung durch einen erheblich reduzierten erforderlichen Rechenaufwand zur Störgeräuschunterdrückung aus verglichen mit dem in [1] beschriebenen Wiener Filter.
  • Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.
  • Die im Folgenden beschriebenen Ausgestaltungen der Erfindung gelten für das Verfahren zum Ermitteln von Merkmalsvektoren, für das Verfahren zur Mustererkennung, für die Einrichtung zum Ermitteln von Merkmalsvektoren, für die Einrichtung zur Mustererkennung sowie für die computerlesbaren Speichermedien.
  • Gemäß einer Ausgestaltung der Erfindung wird zur Hochpassfilterung ein nicht-adaptiver Hochpassfilter verwendet. Grundsätzlich kann ein beliebiger geeigneter Hochpassfilter beliebiger Ordnung eingesetzt werden, bevorzugt wird jedoch ein Hochpassfilter erster Ordnung verwendet, besonders bevorzugt ein nicht-adaptiver Hochpassfilter erster Ordnung. Die Grenzfrequenz des verwendeten Hochpassfilters liegt vorzugsweise zwischen 0,1 Hz und 100 Hz, besonders bevorzugt zwischen 0,5 Hz und 100 Hz, insbesondere bei 0,5 Hz.
  • Da der Hochpassfilter eine gewisse Einschwingzeit benötigt entstehen sogenannte Einschaltartefakte, die eliminiert werden. Dazu werden die Merkmalsvektoren ohne Hochpassfilterung für den Anfangszeitraum, z.B. die ersten 100 ms des Signals berechnet. Mit diesem Wert wird der Hochpassfilter vorgeladen, mit dem Effekt dass die Einschwingartefakte eliminiert werden.
  • Gemäß einer anderen Ausgestaltung der Erfindung werden als Additions-Merkmalsvektoren die Zwischen-Merkmalsvektoren selbst, vorzugsweise multipliziert mit einem vorgegebenen Gewichtungsfaktor, verwendet. Der Gewichtungsfaktor weist vorzugsweise ein Wert zwischen 0,1 bis 3, insbesondere einen Wert zwischen 0,5 und 1,5, insbesondere den Wert 0,9, auf.
  • Durch diese Ausgestaltung der Erfindung wird ein sehr einfacher Algorithmus zur Bildung der zur Mustererkennung tatsächlich verwendeten Merkmalsvektoren beschrieben, ohne eine aufwendige Adaption eines digitalen Filters vornehmen zu müssen, in deren Rahmen die jeweiligen Filterkoeffizienten kontinuierlich neu ermittelt werden müssen.
  • Insbesondere der Wert einer Grenzfrequenz des Hochpassfilters, auch bezeichnet als Eckfrequenz des Hochpassfilters, von 0,5 Hz zeigte im Rahmen des in [3) beschriebenen AURORA-Test-Szenariums die höchste Robustheit und insbesondere bei Wahl des Gewichtungsfaktors von 0,9 die besten Erkennungsleistungen.
  • Die Erfindung eignet sich insbesondere zum Einsatz in der automatischen Spracherkennung oder automatischen Sprechererkennung, alternativ kann sie jedoch auch im Rahmen der digitalen Bildverarbeitung, insbesondere im Rahmen der Bilderkennung eingesetzt werden. Ferner kann die Erfindung vorteilhaft eingesetzt werden im Bereich von (digitalen) Hörhilfen bzw. (digitalen) Hörgeräten für Patienten mit innenohrbedingter Schwerhörigkeit, beispielsweise in einem Cochlea Implantat.
  • Allgemein kann die Erfindung in jedem Bereich der Mustererkennung eingesetzt werden, in dem es gilt, die zeitliche Veränderung in einem Signal im Zeitraum zu betonen und die zeitlich im Wesentlichen gleichbleibenden Signale im Zeitraum nicht vollständig zu unterdrücken.
  • Gemäß einer anderen Ausgestaltung der Erfindung ist es vorgesehen, dass die Hochpassfilterung eine mehrstufige Hochpassfilterung aufweist, d.h. es sind eine Mehrzahl von in Serie geschalteten Hochpassfiltern, vorzugsweise mit unterschiedlichen Grenzfrequenzen, vorgesehen. Ferner können zusätzlich noch ein oder mehrere Tiefpassfilter vorgesehen sein. Die Struktur der mehreren Hochpassfilter und/oder Tiefpassfilter führen zu einer noch weiter verbesserten Nachbildung der Eigenschaften des menschlichen Gehörs, insbesondere der Nachbildung der Adaption der auditorischen Nerven im logarithmierten Energieraum. Die Anordnung und Zahl der verwendeten Hochpassfilter und Tiefpassfilter hängt insbesondere von der gewünschten Exaktheit der Nachbildung der Eigenschaften des menschlichen Gehörs ab bzw. ist durch die endliche Datenmenge zum Training und Test des Spracherkennungssystems begrenzt.
  • Zusammenfassend können Aspekte der Erfindung gesehen werden in folgenden Prinzipien:
    • a) Nachbildung der Adaption der auditorischen Nerven im logarithmierten Energieraum;
    • b) Hochpassfilterung der im Zeitbereich gemittelten Zwischen-Merkmalsvektoren, d.h. der im Zeitbereich gemittelten Merkmale;
    • c) Aufaddieren des ursprünglichen unveränderten Signals, d.h. der Zwischen-Merkmalsvektoren, zu dem hochpassgefilterten Signal, nämlich den hochpassgefilterten Zwischen-Merkmalsvektoren;
    • d) Optimierung der Modellparameter zur maximalen Verbesserung der Robustheit automatischer Spracherkennungssysteme.
  • Ein Ausführungsbeispiel der Erfindung ist in den Figuren dargestellt und wird im Folgenden näher erläutert.
  • Es zeigen
  • 1 ein Spracherkennungssystem gemäß einem Ausführungsbeispiel der Erfindung;
  • 2 ein Signalverlauf eines 1 kHz-Tonbursts mit additivem weißen Rauschen;
  • 3 ein Signal des 1 kHz Frequenzkanals aus 2 nach einer erfolgten Fast Fourier Transformation-basierten MEL-Spektralanalyse;
  • 4 das Signal gemäß 3 nach erfolgter RASTA-Filterung gemäß [2]; und
  • 5 das Signal gemäß 2 nach erfolgter Filterung gemäß dem Ausführungsbeispiel der Erfindung.
  • 1 zeigt ein Spracherkennungssystem 100, das in analog- oder Digitaltechnik ausgeführt werden kann. Ein Mikrophon 101 ist an einen Analog-/Digital-Wandler (Analogtechnik: Eingangsfilter) 102, der ausgangsseitig mit einer Fast Fourier Transformations-Einheit (vorzugsweise einer Filterbank) 103 gekoppelt ist. Mittels der Fast Fourier Transformations-Einheit/Filterbank 103 wird eine Frequenzanalyse des Signals durchgeführt, wie im Folgenden noch näher erläutert wird.
  • An den Ausgang der Fast Fourier Transformations-Einheit 103 ist eine Einheit 104 zur Bildung von Mel-skalierten Amplituden-Koeffizienten gekoppelt, alternativ können die Kanäle der analogen Filterbank bereits Mel-skaliert sein. Bei einer Ausführung in Analogtechnik werden die Filterausgänge gleichgerichtet und tiefpassgefiltert (die Eckfrequenz eines verwendeten Tiefpassfilters liegt vorzugsweise in einem Bereich von 1 Hz–3 kHz, bevorzugt 1 kHz). Ferner ist eine Logarithmiereinheit 105 vorgesehen. Diese kann zusätzlich eine Einheit zur Bildung von Mel-skalierten Cepstrum-Koeffizienten enthalten. Eine an den Ausgang der Einheit 105 gekoppelte Filtereinheit 106 weist einen Hochpassfilter 107, gemäß diesem Ausführungsbeispiel eingerichtet als Analogfilter oder als digitaler nicht-adaptiver Hochpassfilter erster Ordnung mit einer Eckfrequenz von 0,5 Hz, auf. Ferner ist eine Gewichtungseinheit 108 vorgesehen zur Multiplikation des an der Gewichtungseinheit 108 anliegenden Eingangssignals mit einem vorgegebenen Gewichtungsfaktor 109, so dass als Ausgangssignal der Gewichtungseinheit 108 das mit dem Gewichtungsfaktor 109 multiplizierte Eingangssignal bereitgestellt wird.
  • Eingangsseitig sind sowohl die Gewichtungseinheit 108 als auch der Hochpassfilter 107 mit dem Ausgang der Logarithmiereinheit 105 gekoppelt. Ausgangsseitig sind die Gewichtungseinheit 108 und der Hochpassfilter 107 mit einem ersten Eingang bzw. mit einem zweiten Eingang eines Addierers 110 gekoppelt. Der Addierer 110 bildet die Summe der Ausgangssignale des Hochpassfilters 107 und der Gewichtungseinheit 108.
  • Der Ausgang des Addierers 110 ist mit einer Spracherkennungseinheit 111, welche eingerichtet ist zur sprecherunabhängigen Spracherkennung und welche eine Vielzahl von Hidden Markov Modellen aufweist, gekoppelt.
  • Mittels der Spracherkennungseinheit 111, die grundsätzlich gemäß einem beliebigen Spracherkennungsalgorithmus, beispielsweise unter Verwendung des Verfahrens der dynamischen Programmierung oder ähnlicher Verfahren eingerichtet ist, erfolgt eine automatische Spracherkennung des in die Spracherkennungseinheit 111 eingegebenen Signals hinsichtlich zuvor gespeicherter Trainingsdaten.
  • Ergebnis der Spracherkennung ist ein Spracherkennungs-Ergebnissignal 112, welches beispielsweise als Codebucheintrag im Rahmen einer Vektorquantisierung gespeichert oder zu einem Empfänger, beispielsweise mittels einer Funk-Kommunikationsverbindung oder einer Festnetz-Kommunikationsverbindung, übertragen wird oder ein Ergebnissignal darstellt, welches hinsichtlich einer auszuführenden Aktion einen vorgegebenen Befehl darstellt abhängig von dem Ergebnis der Spracherkennung.
  • Im Folgenden wird die Funktionsweise der einzelnen oben beschriebenen Komponenten des Spracherkennungssystems 100 näher beschrieben.
  • Ein Sprecher 113 spricht ein Sprachsignal 114, welches einen Nutz-Sprachsignalanteil und einen Rauschsignalanteil enthält, in das Mikrophon 101 ein, von wo es als elektronisches analoges Signal 115 dem Analog-/Digital-Wandler 102 bereitgestellt wird.
  • Das analoge Signal 115 wird mittels des Analog-/Digital-Wandlers 102 (der als ein Anti-Aliasing Filter zur Einhaltung des sogenannten Abtasttheorems eingerichtet ist) abgetastet. Zur Überführung des analogen Sprachsignals 115 von dem Zeitraum in den Frequenzraum wird das Sprachsignal 115 mit einem Analysefenster gewichtet. Das Analysefenster, gemäß diesem Ausführungsbeispiel ausgestaltet als sogenanntes Hamming-Fenster, welches eine Fensterlänge von 25 ms aufweist, wird mit fest vorgegebener Schrittweite, gemäß diesem Ausführungsbeispiel von 10 ms, über das analoge Sprachsignal 115 bewegt.
  • Alternativ zu dem Hamming-Fenster kann ein beliebiges geeignetes Fenster mit einer beliebigen geeigneten Fensterfunktion eingesetzt werden, beispielsweise eine Rechteck-Fensterfunktion.
  • Die mittels der Hamming-Fensterfunktion jeweils einem Hamming-Fenster zugeordneten analog-/digital-gewandelten Sprachsignaldaten 116 werden der Fast Fourier Transformations-Einheit 103 zugeführt und dort werden die Anteile vorgegebener Frequenzbereiche, auch bezeichnet als Frequenzbänder, ermittelt, gemäß diesem Ausführungsbeispiel jeweils Koeffizienten für ein Frequenzband von 40 Hz in einem Bereich von 0 Hz bis 4 kHz, so dass von der Fast Fourier Transformations-Einheit 103 Fast Fourier Transformationskoeffizienten 117 bereitgestellt werden und der Einheit 104 zur Bildung des Mel-skalierten Amplitudenspektrums bzw. von Mel-skalierten Cepstrum-Koeffizienten zugeführt werden.
  • Gemäß diesem Ausführungsbeispiel der Erfindung werden zwölf Mel-skalierte Cepstrum-Koeffizienten 118 von der Einheit 104 zur Bildung von Mel-skalierten Cepstrum-Koeffizienten gebildet und werden der Logarithmiereinheit 105 zugeführt, in welcher die Mel-skalierten Koeffizienten 118 logarithmiert werden.
  • Am Ausgang der Logarithmiereinheit 105 werden somit jeweilige Zwischen-Merkmalsvektoren 119, d.h. die logarithmierten Koeffizienten 119, (ein Zwischen-Merkmalsvektor pro Analysefenster) bereitgestellt, welche den logarithmierten Energiegehalt und damit anschaulich ein Kurzzeit-Leistungsspektrum bzw. deren Cepstral-Koeffizienten angeben.
  • Alternativ oder zusätzlich können auch Differenzwerte (d.h. die erste zeitliche Ableitung), welche Differenzen der jeweiligen Koeffizienten zeitlich benachbarter Zwischen-Merkmalsvektoren 119 beschreiben, in dem Zwischen-Merkmalsvektor 119 enthalten sein, alternativ oder zusätzlich auch die Differenzen der Differenzwerte (d.h. die zweite zeitliche Ableitung) der Koeffizienten zweier aufeinanderfolgender Zwischen-Merkmalsvektoren 119.
  • Anstelle der Logarithmierung kann auch die Bildung der dritten Wurzel der Werte der jeweiligen Vektor-Komponenten vorgesehen sein oder die Wurzel der quadrierten Amplitudenwerte der jeweiligen Vektor-Komponenten. Alternativ kann anstelle der Fast Fourier Transformations-Einheit 103, der Einheit 104 zur Bildung von Mel-skalierten Cepstrum-Koeffizienten sowie der Logarithmiereinheit 105 ein anderes Modell, welches das Verhalten bzw. die Eigenschaften des Innenohrs, d.h. ein beliebiges geeignetes anderes Innenohrmodell, vorgesehen sein.
  • Die logarithmierten Cepstrum-Koeffizienten 119 werden dem Hochpassfilter 107 zugeführt und dort einer Hochpassfilterung unterzogen, so dass zeitlich im Wesentlichen konstante, d.h. gleichbleibende Signalanteile mittels des Hochpassfilters 107 entfernt werden.
  • Um sogenannte Onset-Artefakte zu unterdrücken, wird der Hochpassfilter mit dem Mittelwert des Anfangszeitraums, z.B. der ersten 100 ms des Signals, vorgeladen.
  • An dem Ausgang des Hochpassfilters 107 werden somit die gemäß Vorschrift (2) gebildeten hochpassgefilterten logarithmierten Koeffizienten 120 bereitgestellt und dem ersten Eingang des Addierers 110 zugeführt.
  • Ferner werden die logarithmierten Koeffizienten, d.h. der Zwischen-Merkmalsvektor 119, der Gewichtungseinheit 108 zugeführt und dort mit dem Gewichtungsfaktor 109, gemäß diesem Ausführungsbeispiel mit dem Gewichtungsfaktor 109 mit dem Wert 0,9, multipliziert und der multiplizierte Zwischen-Merkmalsvektor 121, d.h. die gewichteten logarithmierten Koeffizienten 119, werden dem zweiten Eingang des Addierers 110 zugeführt.
  • Die hochpassgefilterten logarithmierten Koeffizienten 120 und die gewichteten logarithmierten Koeffizienten 121 werden addiert, so dass an dem Ausgang des Addierers 110 zu einem jeweiligen Zeitfenster die Summe der oben beschriebenen Koeffizienten bereitgestellt wird als im Rahmen der Spracherkennung zu verwendender Merkmalsvektor 122.
  • Der Merkmalsvektor 122 wird der Spracherkennungseinheit 111 zugeführt und dort im Rahmen der Spracherkennung in an sich bekannter Weise verwendet.
  • Somit wird der im Rahmen der Spracherkennung verwendete Merkmalsvektor zu einem jeweiligen Zeitfenster gebildet durch Summenbildung des hochpassgefilterten Spektrums mit dem mit einem Gewichtungsfaktor W 109 gewichteten Spektrum.
  • Im Folgenden werden die Ergebnisse der oben beschriebenen Merkmalsextraktion, anders ausgedrückt des oben beschriebenen Verfahrens zum Ermitteln der Merkmalsvektoren, mit den Ergebnissen des Verfahrens zur Merkmalsextraktion gemäß dem RASTA-Verfahren, wie in [2] beschrieben, verglichen.
  • 2 zeigt ein 1 kHz-Tonburst mit additivem weißen Rauschen 201 in einem Amplitudenverlaufs-Diagramm 200, in dem abhängig von der Frequenz die jeweilige Frequenzamplitude dargestellt ist.
  • 3 zeigt in einem Diagramm 300 das zu dem Signalverlauf aus 2 gehörige Mel-Spektrum 300, d.h. der Tonburst 201 mit dem überlagerten weißen Rauschsignal wird in dem logarithmierten Spektralbereich weiter verarbeitet.
  • Die RASTA-Filterung gemäß [2] besteht aus einer Hochpassfilterung und einer Tiefpassfilterung. Im Rahmen der Hochpassfilterung werden alle gleichbleibenden Signalanteile nach der Hochpassfilter-spezifischen Zeitkonstante entfernt und nur die entsprechenden höherfrequenten Signaländerungen bleiben sichtbar. Die gemäß [2] vorgesehene Tiefpassfilterung bewirkt eine Glättung des Signals. Das Ergebnis der RASTA-Filterung ist in einem Diagramm 400 in dem RASTA-Spektrum-Signal 401 in 4 dargestellt.
  • Bei dem erfindungsgemäßen Adaptionsfilter werden Original-Spektrum und hochpassgefiltertes Spektrum aufaddiert. Stationäre Rauschanteile, aber auch Signalanteile werden nur teilweise kompensiert. Das Rauschsignal liefert einen nahezu konstanten Signalbeitrag, der Onset des Nutzsignals (des Tonbursts) wird betont.
  • Dies ist in 5 in einem weiteren Diagramm 500 und dort in dem Signalverlauf 501, der eine erfindungsgemäß physiologisch inspirierte Störsignalunterdrückung darstellt, gezeigt.
  • Gleichzeitig bleibt während der Tondauer ein konstanter Signalanteil erhalten, der im Gegensatz zu dem in [2] beschriebenen RASTA-Verfahren nicht vollständig verloren geht.
  • Anders ausgedrückt bedeutet dies, dass das Signal bei einem längeren Ton nicht auf den Wert Null zurückfällt, sondern auf den vorgegebenen Gleichanteil, beispielsweise auf den gewichteten durch den Merkmalsvektor jeweils selbst beschriebenen Signalanteil zurückgeführt wird.
  • Es hat sich gezeigt, dass die erfindungsgemäße physiologisch orientierte Realisation die Feuerwahrscheinlichkeit der Hörnerven im menschlichen Gehör qualitativ nachbildet, wodurch die Qualität des nachfolgenden Spracherkennungsvorgangs erheblich erhöht wird, insbesondere für den Fall, dass die Spracherkennungseinheit auf gepulsten künstlichen Neuronen basiert.
  • Anschaulich werden erfindungsgemäß die Eigenschaften des Gehörs und die Kodierung der Signale in Nervenaktionspotentiale umgesetzt und qualitativ nachgebildet.
  • Anschaulich kann die Erfindung analog zu einem Proportional-Differential-Regler (PD-Regler) gesehen werden, da erfindungsgemäß nicht nur das hochpassgefilterte Signal der Merkmalsvektoren, sondern die hochpassgefilterten Koeffizienten der Merkmalsvektoren sowie die Koeffizienten der Merkmalsvektoren selbst und damit die erste zeitliche Ableitung des eingehenden Signals sowie additiv der Gleichanteil des zeitlichen Signals verwendet werden.
  • Anschaulich werden mittels der Filterung die Zwischen-Merkmalsvektor-Komponenten fortlaufend geschätzt mit einer Zeitkonstante von etwa 300 ms und von den aktuellen Komponenten des Zwischen-Merkmalsvektors subtrahiert. Diese Operation entspricht, wie oben beschrieben, einer Hochpassfilterung der Merkmalsvektor-Komponenten des Zwischen-Merkmalsvektors. Gleichzeitig wird ein Merkmalsanteil, d.h. ein Anteil des jeweiligen Zwischen-Merkmalsvektors unverändert zum hochpassgefilterten Merkmalsanteil aufaddiert. Das Ergebnis dieser Verarbeitung bildet die zunächst sehr hohe und dann abfallende Feuerrate der Hörnerven bzw. Hörerneuronen im Hörsystem auf ein Tonsignal mit konstanter Intensität nach.
  • In diesem Dokument sind folgende Veröffentlichen zitiert:
    • [1] A. Adami et al, Qualcomm-ICSI-OGI Features for ASR, ICSLP-2002, Denver, Colorado, USA, September 2002;
    • [2] H. Hermansky et al, RASTA-PLP Speech Analysis, International Computer Science Institute Technical Report (ICSI TR) 91-069, Berkeley, California, Dezember 1991;
    • [3] H.-G. Hirsch und D. Pearce, The AURORA experimental framework for the performance evaluation of speech recognition systems under noisy conditions, ISCA IPRW ASR 2000, Automatic speech recognition: Challenges for the next millennium, Paris, Frankreich, 18.–20. September 2000
  • 100
    Spracherkennungssystem
    101
    Mikrophon
    102
    Analog-/Digital-Wandler bzw. analoges Filter
    103
    Fast Fourier Transformations-Einheit bzw. analoge
    Filterbank
    104
    Einheit zur Bildung von Mel-skalierten Leistungs-
    Koeffizienten oder von Cepstral-Koeffizienten
    105
    Logarithmiereinheit
    106
    Filtereinheit
    107
    Hochpassfilter
    108
    Gewichtungseinheit
    109
    Gewichtungsfaktor
    110
    Addierer
    111
    Spracherkennungseinheit
    112
    Spracherkennungs-Ergebnissignal
    113
    Sprecher
    114
    Analoges Sprachsignal
    115
    Elektrisches analoges Sprachsignal
    116
    Digitalisiertes bzw. vor-gefiltertes Sprachsignal
    117
    Fast Fourier-Transformationskoeffizienten bzw. analoge
    Filterausgänge
    118
    Mel-skalierte Transformationskoeffizienten
    119
    Logarithmierte Leistungs-Koeffizienten oder Cepstral-
    Koeffizienten
    120
    Hochpassgefilterte logarithmierte Koeffizienten
    121
    Gewichtete logarithmierte Koeffizienten
    122
    Merkmalsvektor
    200
    Diagramm
    201
    Tonburst-Signal mit additivem weißen Rauschen
    300
    Diagramm
    301
    Mel-Spektrumsignal
    400
    Diagramm
    401
    RASTA-Spektrumsignal
    500
    Diagramm
    501
    Signalverlauf nach Filterung gemäß bevorzugtem Ausführungsbeispiel

Claims (15)

  1. Verfahren zum rechnergestützten Ermitteln von Merkmalsvektoren aus einem Signal zur Mustererkennung, • bei dem aus dem Signal Zwischen-Merkmalsvektoren gebildet werden, deren Komponenten zumindest teilweise ein Leistungsspektrum eines Teils des digitalisierten Signals aufweisen, • bei dem die Zwischen-Merkmalsvektoren einer Hochpass-Filterung unterzogen werden, und • bei dem zumindest einem Teil der hochpassgefilterten Zwischen-Merkmalsvektoren jeweils ein vorgegebener Additions-Merkmalsvektor hinzuaddiert wird.
  2. Verfahren zur rechnergestützten Mustererkennung, • bei dem aus einem digitalisierten Signal Zwischen-Merkmalsvektoren gebildet werden, • bei dem die Zwischen-Merkmalsvektoren einer Hochpass-Filterung unterzogen werden, und • bei dem zumindest einem Teil der hochpassgefilterten Zwischen-Merkmalsvektoren jeweils ein vorgegebener Additions-Merkmalsvektor hinzuaddiert wird, • bei dem unter Verwendung der gebildeten Summe als Merkmalsvektoren eine Mustererkennung durchgeführt wird.
  3. Verfahren gemäß Anspruch 1 oder 2, bei dem zur Hochpass-Filterung ein nicht-adaptiver Hochpass-Filter verwendet wird.
  4. Verfahren gemäß einem der Ansprüche 1 bis 3, bei dem zur Hochpass-Filterung ein Hochpass-Filter erster Ordnung verwendet wird.
  5. Verfahren gemäß einem der Ansprüche 1 bis 4, bei dem zur Hochpass-Filterung ein Hochpass-Filter verwendet wird mit einer Grenzfrequenz zwischen 0,2 Hz und 100 Hz, insbesondere mit einer Grenzfrequenz zwischen 0,5 Hz und 100 Hz.
  6. Verfahren gemäß einem der Ansprüche 1 bis 5, bei dem von den Zwischen-Merkmalsvektoren und/oder den hochpassgefilterten Zwischen-Merkmalsvektoren ein vorgegebenes Spektrum-Signal subtrahiert wird.
  7. Verfahren gemäß Anspruch 6, bei dem als vorgegebenes Spektrum-Signal der erste Zwischen-Merkmalsvektor und/oder der erste hochpassgefilterte Zwischen-Merkmalsvektor verwendet werden/wird.
  8. Verfahren gemäß einem der Ansprüche 1 bis 7, bei dem als Additions-Merkmalsvektoren die Zwischen-Merkmalsvektoren verwendet werden.
  9. Verfahren gemäß Anspruch 8, bei dem als Additions-Merkmalsvektoren mit einem Gewichtungsfaktor multiplizierte Zwischen-Merkmalsvektoren verwendet werden.
  10. Verfahren gemäß Anspruch 9, bei dem als Gewichtungsfaktor ein Wert zwischen 0,1 bis 3, insbesondere ein Wert zwischen 0,5 und 1,5, insbesondere der Wert 0,9 verwendet wird.
  11. Verfahren gemäß einem der Ansprüche 1 bis 10, bei dem die Mustererkennung als eine Spracherkennung oder als eine Bildverarbeitung durchgeführt wird.
  12. Einrichtung zum rechnergestützten Ermitteln von Merkmalsvektoren aus einem Signal zur Mustererkennung, • mit einer Einheit zum Bilden von Zwischen-Merkmalsvektoren aus dem Signal, wobei die Komponenten der Zwischen-Merkmalsvektoren zumindest teilweise ein Leistungsspektrum eines Teils des digitalisierten Signals aufweisen, • mit einem mit der Einheit zum Bilden von Zwischen-Merkmalsvektoren gekoppelten Hochpass-Filter zum Hochpassfiltern der Zwischen-Merkmalsvektoren, und • mit einer Signal-Additionseinheit, die eingerichtet ist zum Addieren jeweils eines vorgegebenen Additions-Merkmalsvektors zumindest zu einem Teil der hochpassgefilterten Zwischen-Merkmalsvektoren.
  13. Einrichtung zur rechnergestützten Mustererkennung, • mit einer Einheit zum Bilden von Zwischen-Merkmalsvektoren aus einem Signal, wobei die Komponenten der Zwischen-Merkmalsvektoren zumindest teilweise ein Leistungsspektrum eines Teils des Signals aufweisen, • mit einem mit der Einheit zum Bilden von Zwischen-Merkmalsvektoren gekoppelten Hochpass-Filter zum Hochpassfiltern der Zwischen-Merkmalsvektoren, • mit einer Signal-Additionseinheit, die eingerichtet ist zum Addieren jeweils eines vorgegebenen Additions-Merkmalsvektors zumindest zu einem Teil der hochpassgefilterten Zwischen-Merkmalsvektoren, und • mit einer Mustererkennungseinheit zur Mustererkennung unter Verwendung der gebildeten Summe als Merkmalsvektoren.
  14. Computerlesbares Speichermedium mit einem Computerprogramm zum Ermitteln von Merkmalsvektoren aus einem Signal zur Mustererkennung, das, wenn es von einem Prozessor ausgeführt wird, die folgenden Verfahrensschritte aufweist: • aus dem Signal werden Zwischen-Merkmalsvektoren gebildet, • die Zwischen-Merkmalsvektoren werden einer Hochpass-Filterung unterzogen, und • zumindest einem Teil der hochpassgefilterten Zwischen-Merkmalsvektoren wird jeweils ein vorgegebener Additions-Merkmalsvektor hinzuaddiert.
  15. Computerlesbares Speichermedium mit einem Computerprogramm zur rechnergestützten Mustererkennung, das, wenn es von einem Prozessor ausgeführt wird, die folgenden Verfahrensschritte aufweist: • aus einem Signal werden Zwischen-Merkmalsvektoren gebildet, • die Zwischen-Merkmalsvektoren werden einer Hochpass-Filterung unterzogen, und • zumindest einem Teil der hochpassgefilterten Zwischen-Merkmalsvektoren wird jeweils ein vorgegebener Additions-Merkmalsvektor hinzuaddiert, • bei dem unter Verwendung der gebildeten Summe als Merkmalsvektoren eine Mustererkennung durchgeführt wird.
DE102004008225A 2004-02-19 2004-02-19 Verfahren und Einrichtung zum Ermitteln von Merkmalsvektoren aus einem Signal zur Mustererkennung, Verfahren und Einrichtung zur Mustererkennung sowie computerlesbare Speichermedien Expired - Fee Related DE102004008225B4 (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
DE102004008225A DE102004008225B4 (de) 2004-02-19 2004-02-19 Verfahren und Einrichtung zum Ermitteln von Merkmalsvektoren aus einem Signal zur Mustererkennung, Verfahren und Einrichtung zur Mustererkennung sowie computerlesbare Speichermedien
US11/061,108 US7646912B2 (en) 2004-02-19 2005-02-18 Method and device for ascertaining feature vectors from a signal
US12/566,413 US8064699B2 (en) 2004-02-19 2009-09-24 Method and device for ascertaining feature vectors from a signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102004008225A DE102004008225B4 (de) 2004-02-19 2004-02-19 Verfahren und Einrichtung zum Ermitteln von Merkmalsvektoren aus einem Signal zur Mustererkennung, Verfahren und Einrichtung zur Mustererkennung sowie computerlesbare Speichermedien

Publications (2)

Publication Number Publication Date
DE102004008225A1 true DE102004008225A1 (de) 2005-09-15
DE102004008225B4 DE102004008225B4 (de) 2006-02-16

Family

ID=34853544

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102004008225A Expired - Fee Related DE102004008225B4 (de) 2004-02-19 2004-02-19 Verfahren und Einrichtung zum Ermitteln von Merkmalsvektoren aus einem Signal zur Mustererkennung, Verfahren und Einrichtung zur Mustererkennung sowie computerlesbare Speichermedien

Country Status (2)

Country Link
US (2) US7646912B2 (de)
DE (1) DE102004008225B4 (de)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4245617B2 (ja) * 2006-04-06 2009-03-25 株式会社東芝 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
JP4316583B2 (ja) * 2006-04-07 2009-08-19 株式会社東芝 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
US8175394B2 (en) * 2006-09-08 2012-05-08 Google Inc. Shape clustering in post optical character recognition processing
US8824831B2 (en) 2007-05-25 2014-09-02 Qualcomm Technologies, Inc. Advanced noise reduction in digital cameras
US9677523B2 (en) * 2014-05-30 2017-06-13 Cummins Inc. Fuel injector including an injection control valve having an improved stator core

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3510660C2 (de) * 1984-03-23 1990-05-17 Ricoh Co., Ltd., Tokio/Tokyo, Jp
DE4111995A1 (de) * 1991-04-12 1992-10-15 Philips Patentverwaltung Schaltungsanordnung zur spracherkennung

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1315868C (en) * 1988-05-30 1993-04-06 Rene Schmidt Blast recorder and method of displaying blast energy
US5046504A (en) * 1989-02-01 1991-09-10 Corazonix Corporation Method and apparatus for analyzing and interpreting electrocardiograms using spectro-temporal mapping
US5778156A (en) * 1996-05-08 1998-07-07 Xerox Corporation Method and system for implementing fuzzy image processing of image data
US6196972B1 (en) * 1998-11-11 2001-03-06 Spentech, Inc. Doppler ultrasound method and apparatus for monitoring blood flow
CA2260336A1 (en) * 1999-02-15 2000-08-15 Robert Inkol Modulation recognition system
US6522266B1 (en) * 2000-05-17 2003-02-18 Honeywell, Inc. Navigation system, method and software for foot travel
JP3877270B2 (ja) * 2000-07-12 2007-02-07 アルパイン株式会社 音声特徴量抽出装置
JP4169921B2 (ja) * 2000-09-29 2008-10-22 パイオニア株式会社 音声認識システム
SE522553C2 (sv) * 2001-04-23 2004-02-17 Ericsson Telefon Ab L M Bandbreddsutsträckning av akustiska signaler
US6493668B1 (en) * 2001-06-15 2002-12-10 Yigal Brandman Speech feature extraction system
US6956815B2 (en) * 2001-08-16 2005-10-18 Proxim Corporation Method and apparatus using pseudo-inverses of linear transformations in multi-carrier modulation receivers and transceivers
US6983068B2 (en) * 2001-09-28 2006-01-03 Xerox Corporation Picture/graphics classification system and method
SE520466C2 (sv) * 2001-11-12 2003-07-15 Ericsson Telefon Ab L M Metod och anordning vid en digital linjäriseringskoppling
SE520728C2 (sv) * 2001-11-12 2003-08-19 Ericsson Telefon Ab L M Förfarande för icke-linjär modellering
US7035797B2 (en) * 2001-12-14 2006-04-25 Nokia Corporation Data-driven filtering of cepstral time trajectories for robust speech recognition
JP4299676B2 (ja) * 2002-02-20 2009-07-22 パナソニック株式会社 固定音源ベクトルの生成方法及び固定音源符号帳
US7107210B2 (en) * 2002-05-20 2006-09-12 Microsoft Corporation Method of noise reduction based on dynamic aspects of speech
US7245315B2 (en) * 2002-05-20 2007-07-17 Simmonds Precision Products, Inc. Distinguishing between fire and non-fire conditions using cameras
US7174292B2 (en) * 2002-05-20 2007-02-06 Microsoft Corporation Method of determining uncertainty associated with acoustic distortion-based noise reduction
CN1459761B (zh) * 2002-05-24 2010-04-21 清华大学 基于Gabor滤波器组的字符识别技术
AU2003278431A1 (en) * 2002-11-22 2004-06-18 Koninklijke Philips Electronics N.V. Speech recognition device and method
US7389230B1 (en) * 2003-04-22 2008-06-17 International Business Machines Corporation System and method for classification of voice signals
US7128713B2 (en) * 2003-07-10 2006-10-31 Spentech, Inc. Doppler ultrasound method and apparatus for monitoring blood flow and hemodynamics
DE10334400A1 (de) * 2003-07-28 2005-02-24 Siemens Ag Verfahren zur Spracherkennung und Kommunikationsgerät
WO2006087854A1 (ja) * 2004-11-25 2006-08-24 Sharp Kabushiki Kaisha 情報分類装置、情報分類方法、情報分類プログラム、情報分類システム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3510660C2 (de) * 1984-03-23 1990-05-17 Ricoh Co., Ltd., Tokio/Tokyo, Jp
DE4111995A1 (de) * 1991-04-12 1992-10-15 Philips Patentverwaltung Schaltungsanordnung zur spracherkennung

Also Published As

Publication number Publication date
US20050232496A1 (en) 2005-10-20
US7646912B2 (en) 2010-01-12
US8064699B2 (en) 2011-11-22
DE102004008225B4 (de) 2006-02-16
US20100017207A1 (en) 2010-01-21

Similar Documents

Publication Publication Date Title
DE60104091T2 (de) Verfahren und Vorrichtung zur Sprachverbesserung in verrauschte Umgebung
EP0912974B1 (de) Verfahren zur verringerung von störungen eines sprachsignals
DE69509555T2 (de) Verfahren zur veränderung eines sprachsignales mittels grundfrequenzmanipulation
DE102006051071B4 (de) Pegelabhängige Geräuschreduktion
DE60116255T2 (de) Rauschunterdückungsvorrichtung und -verfahren
DE602004004242T2 (de) System und Verfahren zur Verbesserung eines Audiosignals
DE19948308C2 (de) Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung
EP1386307B1 (de) Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals
DE10017646A1 (de) Geräuschunterdrückung im Zeitbereich
DE112011106045B4 (de) Audiosignal-Wiederherstellungsvorrichtung und Audiosignal-Wiederherstellungsverfahren
DE102007030209A1 (de) Glättungsverfahren
DE102008031150B3 (de) Verfahren zur Störgeräuschunterdrückung und zugehöriges Hörgerät
DE69616724T2 (de) Verfahren und System für die Spracherkennung
DE10020756B4 (de) Vorrichtung und Verfahren zum geräuschabhängigen Anpassen eines akustischen Nutzsignals
EP3065417B1 (de) Verfahren zur unterdrückung eines störgeräusches in einem akustischen system
AT504164B1 (de) Vorrichtung zur gerauschunterdruckung bei einem audiosignal
US8064699B2 (en) Method and device for ascertaining feature vectors from a signal
DE60033039T2 (de) Vorrichtung und verfahren zur unterdrückung von zischlauten unter verwendung von adaptiven filteralgorithmen
WO2001047335A2 (de) Verfahren zur elimination von störsignalanteilen in einem eingangssignal eines auditorischen systems, anwendung des verfahrens und ein hörgerät
EP1453355A1 (de) Signalverarbeitung in einem Hörgerät
EP2394271B1 (de) Methode zur trennung von signalpfaden und anwendung auf die verbesserung von sprache mit elektro-larynx
EP1351550A1 (de) Verfahren zur Anpassung einer Signalverstärkung in einem Hörgerät sowie ein Hörgerät
DE10150519B4 (de) Verfahren und Anordnung zur Sprachverarbeitung
DE4445983A1 (de) Rauschunterdrückung
WO2001018794A1 (en) Spectral enhancement of acoustic signals to provide improved recognition of speech

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8364 No opposition during term of opposition
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G10L0015020000

Ipc: G06K0009000000