DE102004008225A1

DE102004008225A1 - Verfahren und Einrichtung zum Ermitteln von Merkmalsvektoren aus einem Signal zur Mustererkennung, Verfahren und Einrichtung zur Mustererkennung sowie computerlesbare Speichermedien

Info

Publication number: DE102004008225A1
Application number: DE102004008225A
Authority: DE
Inventors: Werner Dr. Hemmert
Original assignee: Infineon Technologies AG
Current assignee: Infineon Technologies AG
Priority date: 2004-02-19
Filing date: 2004-02-19
Publication date: 2005-09-15
Anticipated expiration: 2024-02-20
Also published as: US20050232496A1; US7646912B2; US8064699B2; DE102004008225B4; US20100017207A1

Abstract

Aus einem Signal werden Zwischen-Merkmalsvektoren gebildet, die einer Hochpass-Filterung unterzogen werden. Den hochpassgefilterten Zwischen-Merkmalsvektoren wird jeweils ein vorgegebener Additions-Merkmalsvektor hinzuaddiert.

Description

Die Erfindung betrifft ein Verfahren und eine Einrichtung zum Ermitteln von Merkmalsvektoren aus einem Signal zur Mustererkennung, ein Verfahren und eine Einrichtung zur Mustererkennung sowie computerlesbare Speichermedien.

In einem üblichen Spracherkennungssystem wird auf ein Analog-/Digital-gewandeltes Eingangssignal eine Fast Fourier Transformation (FFT) zur Spektralanalyse des Eingangssignals eingesetzt. Ein erhebliches Problem im Rahmen der Spracherkennung, allgemein im Rahmen der Mustererkennung, besteht in der Unterdrückung von Störgeräuschen, anders ausgedrückt in der Unterdrückung von Rauschsignalen. Aufgrund der Störgeräusche nimmt die Erkennungsrate schon bei relativ geringen Pegeln der existierenden Störsignale drastisch ab.

In [1] ist es zur Störgeräuschunterdrückung bekannt, einen Wiener Filter als einen adaptiven Filter einzusetzen, um das Signal-Rausch-Verhältnis im Rahmen der Signalanalyse zu erhöhen.

Nachteilig an dem Einsatz eines Wiener Filters, allgemein eines adaptiven Filters, im Rahmen der Störgeräuschunterdrückung ist insbesondere in dem sehr großen Rechenaufwand zur Durchführung des Filteralgorithmus und der periodisch wiederholt durchzuführenden Berechnung der Filterkoeffizienten zu sehen.

In [2] ist ferner ein Verfahren zur Spracherkennung beschrieben, bei dem aus einem Analog-/Digital-gewandelten Signal Zwischen-Merkmalsvektoren gebildet werden, welche einer Bandpassfilterung unterzogen werden.

Das in [2] beschriebene Verfahren weist insbesondere den Nachteil einer noch relativ schlechten Erkennungsleistung im Rahmen der Spracherkennung bei mit einem Störsignal belegten Sprachsignal auf.

Ferner ist in [3] das sogenannte „AURORA" Experimental-Framework zum Ermitteln der Leistungsfähigkeit eines Spracherkennungssystems in einer Umgebung mit Störsignalen beschrieben.

Der Erfindung liegt das Problem zugrunde, eine Mustererkennung mit einer gegenüber dem in [2] beschriebenen Verfahren verbesserten Erkennungsrate zu schaffen, welches weniger Rechenaufwand erfordert als das in [1] beschriebene Verfahren.

Das Problem wird gelöst durch ein Verfahren und eine Einrichtung zum Ermitteln von Merkmalsvektoren aus einem digitalisierten Signal zur Mustererkennung, durch ein Verfahren und eine Einrichtung zur Mustererkennung sowie durch computerlesbare Speichermedien mit den Merkmalen gemäß den unabhängigen Patentansprüchen.

Bei einem Verfahren zum rechnergestützten Ermitteln von Merkmalsvektoren aus einem digitalisierten Signal zur Mustererkennung werden aus dem digitalisierten Signal Zwischen-Merkmalsvektoren gebildet, deren Komponenten zumindest teilweise ein Leistungsspektrum, vorzugsweise ein Kurzzeit-Leistungsspektrum, eines Teils des digitalisierten Signals aufweisen. Die Zwischen-Merkmalsvektoren werden einer Hochpass-Filterung unterzogen. Ferner wird zumindest einem Teil der hochpassgefilterten Zwischen-Merkmalsvektoren jeweils ein vorgegebener Additions-Merkmalsvektor hinzuaddiert, so dass die Merkmalsvektoren gebildet werden.

Ein Verfahren zur rechnergestützten Mustererkennung weist die oben beschriebenen Verfahrensschritte zum Ermitteln der Merkmalsvektoren auf, wobei unter Verwendung der Summe der hochpassgefilterten Zwischen-Merkmalsvektoren und der Additions-Merkmalsvektoren als Merkmalsvektoren eine Mustererkennung durchgeführt wird.

Eine Einrichtung zum Ermitteln von Merkmalsvektoren aus einem digitalisierten Signal zur Mustererkennung weist eine Einheit zum Bilden von Zwischen-Merkmalsvektoren aus dem digitalisierten Signal auf, wobei die Komponenten der Zwischen-Merkmalsvektoren zumindest teilweise ein Leistungsspektrum, vorzugsweise ein Kurzzeit-Leistungsspektrum, eines Teils des digitalisierten Signals aufweisen. Ferner ist ein mit der Einheit zum Bilden von Zwischen-Merkmalsvektoren gekoppelter Hochpassfilter zum Hochpassfiltern der Zwischen-Merkmalsvektoren vorgesehen. Weiterhin ist eine Signal-Additionseinheit vorgesehen, die eingerichtet ist zum Addieren jeweils eines vorgegebenen Additions-Merkmalsvektors zumindest zu einem Teil der hochpassgefilterten Zwischen-Merkmalsvektoren.

Anschaulich dient die Erfindung zur Unterdrückung von Störsignalen im Rahmen der Merkmalsextraktion, d.h. im Rahmen der Bildung von Merkmalsvektoren aus einem digitalisierten Signal, für ein Mustererkennungssystem, insbesondere für ein automatisches Spracherkennungssystem. Im Rahmen der Unterdrückung von Störsignalen werden zeitlich gleichbleibende, d.h. im Wesentlichen unveränderte Störsignalanteile teilweise subtrahiert, zeitlich veränderliche Anteile des Sprachsignals werden betont, d.h. verstärkt.

Anschaulich werden erfindungsgemäß durch das Vorsehen eines neuartigen Filters im Rahmen der Mustererkennung zum Filtern der Zwischen-Merkmalsvektoren, nämlich einer Hochpassfilterung der Zwischen-Merkmalsvektoren sowie einem Addieren eines zusätzlichen Additionssignals, nämlich der Additions-Merkmalsvektoren zu zumindest einem Teil der hochpassgefilterten Zwischen-Merkmalsvektoren sehr effizient und auf einfache Weise grundlegende Eigenschaften des menschlichen Gehörs, insbesondere die Adaption, in einer technischen Merkmalsextraktion für ein automatischen Mustererkennungssystem, insbesondere für ein Spracherkennungssystem, nachgebildet.

Erfindungsgemäß wird eine gegenüber dem RASTA-Verfahren, wie es in [2] beschrieben ist, erheblich verbesserte Erkennungsrate im Rahmen der Mustererkennung von einem Signal, welches mit einem Störsignal beaufschlagt ist, erreicht.

Ferner zeichnet sich die Erfindung durch einen erheblich reduzierten erforderlichen Rechenaufwand zur Störgeräuschunterdrückung aus verglichen mit dem in [1] beschriebenen Wiener Filter.

Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.

Die im Folgenden beschriebenen Ausgestaltungen der Erfindung gelten für das Verfahren zum Ermitteln von Merkmalsvektoren, für das Verfahren zur Mustererkennung, für die Einrichtung zum Ermitteln von Merkmalsvektoren, für die Einrichtung zur Mustererkennung sowie für die computerlesbaren Speichermedien.

Gemäß einer Ausgestaltung der Erfindung wird zur Hochpassfilterung ein nicht-adaptiver Hochpassfilter verwendet. Grundsätzlich kann ein beliebiger geeigneter Hochpassfilter beliebiger Ordnung eingesetzt werden, bevorzugt wird jedoch ein Hochpassfilter erster Ordnung verwendet, besonders bevorzugt ein nicht-adaptiver Hochpassfilter erster Ordnung. Die Grenzfrequenz des verwendeten Hochpassfilters liegt vorzugsweise zwischen 0,1 Hz und 100 Hz, besonders bevorzugt zwischen 0,5 Hz und 100 Hz, insbesondere bei 0,5 Hz.

Da der Hochpassfilter eine gewisse Einschwingzeit benötigt entstehen sogenannte Einschaltartefakte, die eliminiert werden. Dazu werden die Merkmalsvektoren ohne Hochpassfilterung für den Anfangszeitraum, z.B. die ersten 100 ms des Signals berechnet. Mit diesem Wert wird der Hochpassfilter vorgeladen, mit dem Effekt dass die Einschwingartefakte eliminiert werden.

Gemäß einer anderen Ausgestaltung der Erfindung werden als Additions-Merkmalsvektoren die Zwischen-Merkmalsvektoren selbst, vorzugsweise multipliziert mit einem vorgegebenen Gewichtungsfaktor, verwendet. Der Gewichtungsfaktor weist vorzugsweise ein Wert zwischen 0,1 bis 3, insbesondere einen Wert zwischen 0,5 und 1,5, insbesondere den Wert 0,9, auf.

Durch diese Ausgestaltung der Erfindung wird ein sehr einfacher Algorithmus zur Bildung der zur Mustererkennung tatsächlich verwendeten Merkmalsvektoren beschrieben, ohne eine aufwendige Adaption eines digitalen Filters vornehmen zu müssen, in deren Rahmen die jeweiligen Filterkoeffizienten kontinuierlich neu ermittelt werden müssen.

Insbesondere der Wert einer Grenzfrequenz des Hochpassfilters, auch bezeichnet als Eckfrequenz des Hochpassfilters, von 0,5 Hz zeigte im Rahmen des in [3) beschriebenen AURORA-Test-Szenariums die höchste Robustheit und insbesondere bei Wahl des Gewichtungsfaktors von 0,9 die besten Erkennungsleistungen.

Die Erfindung eignet sich insbesondere zum Einsatz in der automatischen Spracherkennung oder automatischen Sprechererkennung, alternativ kann sie jedoch auch im Rahmen der digitalen Bildverarbeitung, insbesondere im Rahmen der Bilderkennung eingesetzt werden. Ferner kann die Erfindung vorteilhaft eingesetzt werden im Bereich von (digitalen) Hörhilfen bzw. (digitalen) Hörgeräten für Patienten mit innenohrbedingter Schwerhörigkeit, beispielsweise in einem Cochlea Implantat.

Allgemein kann die Erfindung in jedem Bereich der Mustererkennung eingesetzt werden, in dem es gilt, die zeitliche Veränderung in einem Signal im Zeitraum zu betonen und die zeitlich im Wesentlichen gleichbleibenden Signale im Zeitraum nicht vollständig zu unterdrücken.

Gemäß einer anderen Ausgestaltung der Erfindung ist es vorgesehen, dass die Hochpassfilterung eine mehrstufige Hochpassfilterung aufweist, d.h. es sind eine Mehrzahl von in Serie geschalteten Hochpassfiltern, vorzugsweise mit unterschiedlichen Grenzfrequenzen, vorgesehen. Ferner können zusätzlich noch ein oder mehrere Tiefpassfilter vorgesehen sein. Die Struktur der mehreren Hochpassfilter und/oder Tiefpassfilter führen zu einer noch weiter verbesserten Nachbildung der Eigenschaften des menschlichen Gehörs, insbesondere der Nachbildung der Adaption der auditorischen Nerven im logarithmierten Energieraum. Die Anordnung und Zahl der verwendeten Hochpassfilter und Tiefpassfilter hängt insbesondere von der gewünschten Exaktheit der Nachbildung der Eigenschaften des menschlichen Gehörs ab bzw. ist durch die endliche Datenmenge zum Training und Test des Spracherkennungssystems begrenzt.

Zusammenfassend können Aspekte der Erfindung gesehen werden in folgenden Prinzipien:

a) Nachbildung der Adaption der auditorischen Nerven im logarithmierten Energieraum;
b) Hochpassfilterung der im Zeitbereich gemittelten Zwischen-Merkmalsvektoren, d.h. der im Zeitbereich gemittelten Merkmale;
c) Aufaddieren des ursprünglichen unveränderten Signals, d.h. der Zwischen-Merkmalsvektoren, zu dem hochpassgefilterten Signal, nämlich den hochpassgefilterten Zwischen-Merkmalsvektoren;
d) Optimierung der Modellparameter zur maximalen Verbesserung der Robustheit automatischer Spracherkennungssysteme.

Ein Ausführungsbeispiel der Erfindung ist in den Figuren dargestellt und wird im Folgenden näher erläutert.
Es zeigen
1 ein Spracherkennungssystem gemäß einem Ausführungsbeispiel der Erfindung;
2 ein Signalverlauf eines 1 kHz-Tonbursts mit additivem weißen Rauschen;
3 ein Signal des 1 kHz Frequenzkanals aus 2 nach einer erfolgten Fast Fourier Transformation-basierten MEL-Spektralanalyse;
4 das Signal gemäß 3 nach erfolgter RASTA-Filterung gemäß [2]; und
5 das Signal gemäß 2 nach erfolgter Filterung gemäß dem Ausführungsbeispiel der Erfindung.
1 zeigt ein Spracherkennungssystem 100, das in analog- oder Digitaltechnik ausgeführt werden kann. Ein Mikrophon 101 ist an einen Analog-/Digital-Wandler (Analogtechnik: Eingangsfilter) 102, der ausgangsseitig mit einer Fast Fourier Transformations-Einheit (vorzugsweise einer Filterbank) 103 gekoppelt ist. Mittels der Fast Fourier Transformations-Einheit/Filterbank 103 wird eine Frequenzanalyse des Signals durchgeführt, wie im Folgenden noch näher erläutert wird.
An den Ausgang der Fast Fourier Transformations-Einheit 103 ist eine Einheit 104 zur Bildung von Mel-skalierten Amplituden-Koeffizienten gekoppelt, alternativ können die Kanäle der analogen Filterbank bereits Mel-skaliert sein. Bei einer Ausführung in Analogtechnik werden die Filterausgänge gleichgerichtet und tiefpassgefiltert (die Eckfrequenz eines verwendeten Tiefpassfilters liegt vorzugsweise in einem Bereich von 1 Hz–3 kHz, bevorzugt 1 kHz). Ferner ist eine Logarithmiereinheit 105 vorgesehen. Diese kann zusätzlich eine Einheit zur Bildung von Mel-skalierten Cepstrum-Koeffizienten enthalten. Eine an den Ausgang der Einheit 105 gekoppelte Filtereinheit 106 weist einen Hochpassfilter 107, gemäß diesem Ausführungsbeispiel eingerichtet als Analogfilter oder als digitaler nicht-adaptiver Hochpassfilter erster Ordnung mit einer Eckfrequenz von 0,5 Hz, auf. Ferner ist eine Gewichtungseinheit 108 vorgesehen zur Multiplikation des an der Gewichtungseinheit 108 anliegenden Eingangssignals mit einem vorgegebenen Gewichtungsfaktor 109, so dass als Ausgangssignal der Gewichtungseinheit 108 das mit dem Gewichtungsfaktor 109 multiplizierte Eingangssignal bereitgestellt wird.
Eingangsseitig sind sowohl die Gewichtungseinheit 108 als auch der Hochpassfilter 107 mit dem Ausgang der Logarithmiereinheit 105 gekoppelt. Ausgangsseitig sind die Gewichtungseinheit 108 und der Hochpassfilter 107 mit einem ersten Eingang bzw. mit einem zweiten Eingang eines Addierers 110 gekoppelt. Der Addierer 110 bildet die Summe der Ausgangssignale des Hochpassfilters 107 und der Gewichtungseinheit 108.
Der Ausgang des Addierers 110 ist mit einer Spracherkennungseinheit 111, welche eingerichtet ist zur sprecherunabhängigen Spracherkennung und welche eine Vielzahl von Hidden Markov Modellen aufweist, gekoppelt.
Mittels der Spracherkennungseinheit 111, die grundsätzlich gemäß einem beliebigen Spracherkennungsalgorithmus, beispielsweise unter Verwendung des Verfahrens der dynamischen Programmierung oder ähnlicher Verfahren eingerichtet ist, erfolgt eine automatische Spracherkennung des in die Spracherkennungseinheit 111 eingegebenen Signals hinsichtlich zuvor gespeicherter Trainingsdaten.
Ergebnis der Spracherkennung ist ein Spracherkennungs-Ergebnissignal 112, welches beispielsweise als Codebucheintrag im Rahmen einer Vektorquantisierung gespeichert oder zu einem Empfänger, beispielsweise mittels einer Funk-Kommunikationsverbindung oder einer Festnetz-Kommunikationsverbindung, übertragen wird oder ein Ergebnissignal darstellt, welches hinsichtlich einer auszuführenden Aktion einen vorgegebenen Befehl darstellt abhängig von dem Ergebnis der Spracherkennung.
Im Folgenden wird die Funktionsweise der einzelnen oben beschriebenen Komponenten des Spracherkennungssystems 100 näher beschrieben.
Ein Sprecher 113 spricht ein Sprachsignal 114, welches einen Nutz-Sprachsignalanteil und einen Rauschsignalanteil enthält, in das Mikrophon 101 ein, von wo es als elektronisches analoges Signal 115 dem Analog-/Digital-Wandler 102 bereitgestellt wird.
Das analoge Signal 115 wird mittels des Analog-/Digital-Wandlers 102 (der als ein Anti-Aliasing Filter zur Einhaltung des sogenannten Abtasttheorems eingerichtet ist) abgetastet. Zur Überführung des analogen Sprachsignals 115 von dem Zeitraum in den Frequenzraum wird das Sprachsignal 115 mit einem Analysefenster gewichtet. Das Analysefenster, gemäß diesem Ausführungsbeispiel ausgestaltet als sogenanntes Hamming-Fenster, welches eine Fensterlänge von 25 ms aufweist, wird mit fest vorgegebener Schrittweite, gemäß diesem Ausführungsbeispiel von 10 ms, über das analoge Sprachsignal 115 bewegt.
Alternativ zu dem Hamming-Fenster kann ein beliebiges geeignetes Fenster mit einer beliebigen geeigneten Fensterfunktion eingesetzt werden, beispielsweise eine Rechteck-Fensterfunktion.
Die mittels der Hamming-Fensterfunktion jeweils einem Hamming-Fenster zugeordneten analog-/digital-gewandelten Sprachsignaldaten 116 werden der Fast Fourier Transformations-Einheit 103 zugeführt und dort werden die Anteile vorgegebener Frequenzbereiche, auch bezeichnet als Frequenzbänder, ermittelt, gemäß diesem Ausführungsbeispiel jeweils Koeffizienten für ein Frequenzband von 40 Hz in einem Bereich von 0 Hz bis 4 kHz, so dass von der Fast Fourier Transformations-Einheit 103 Fast Fourier Transformationskoeffizienten 117 bereitgestellt werden und der Einheit 104 zur Bildung des Mel-skalierten Amplitudenspektrums bzw. von Mel-skalierten Cepstrum-Koeffizienten zugeführt werden.
Gemäß diesem Ausführungsbeispiel der Erfindung werden zwölf Mel-skalierte Cepstrum-Koeffizienten 118 von der Einheit 104 zur Bildung von Mel-skalierten Cepstrum-Koeffizienten gebildet und werden der Logarithmiereinheit 105 zugeführt, in welcher die Mel-skalierten Koeffizienten 118 logarithmiert werden.
Am Ausgang der Logarithmiereinheit 105 werden somit jeweilige Zwischen-Merkmalsvektoren 119, d.h. die logarithmierten Koeffizienten 119, (ein Zwischen-Merkmalsvektor pro Analysefenster) bereitgestellt, welche den logarithmierten Energiegehalt und damit anschaulich ein Kurzzeit-Leistungsspektrum bzw. deren Cepstral-Koeffizienten angeben.
Alternativ oder zusätzlich können auch Differenzwerte (d.h. die erste zeitliche Ableitung), welche Differenzen der jeweiligen Koeffizienten zeitlich benachbarter Zwischen-Merkmalsvektoren 119 beschreiben, in dem Zwischen-Merkmalsvektor 119 enthalten sein, alternativ oder zusätzlich auch die Differenzen der Differenzwerte (d.h. die zweite zeitliche Ableitung) der Koeffizienten zweier aufeinanderfolgender Zwischen-Merkmalsvektoren 119.
Anstelle der Logarithmierung kann auch die Bildung der dritten Wurzel der Werte der jeweiligen Vektor-Komponenten vorgesehen sein oder die Wurzel der quadrierten Amplitudenwerte der jeweiligen Vektor-Komponenten. Alternativ kann anstelle der Fast Fourier Transformations-Einheit 103, der Einheit 104 zur Bildung von Mel-skalierten Cepstrum-Koeffizienten sowie der Logarithmiereinheit 105 ein anderes Modell, welches das Verhalten bzw. die Eigenschaften des Innenohrs, d.h. ein beliebiges geeignetes anderes Innenohrmodell, vorgesehen sein.
Die logarithmierten Cepstrum-Koeffizienten 119 werden dem Hochpassfilter 107 zugeführt und dort einer Hochpassfilterung unterzogen, so dass zeitlich im Wesentlichen konstante, d.h. gleichbleibende Signalanteile mittels des Hochpassfilters 107 entfernt werden.
Um sogenannte Onset-Artefakte zu unterdrücken, wird der Hochpassfilter mit dem Mittelwert des Anfangszeitraums, z.B. der ersten 100 ms des Signals, vorgeladen.
An dem Ausgang des Hochpassfilters 107 werden somit die gemäß Vorschrift (2) gebildeten hochpassgefilterten logarithmierten Koeffizienten 120 bereitgestellt und dem ersten Eingang des Addierers 110 zugeführt.
Ferner werden die logarithmierten Koeffizienten, d.h. der Zwischen-Merkmalsvektor 119, der Gewichtungseinheit 108 zugeführt und dort mit dem Gewichtungsfaktor 109, gemäß diesem Ausführungsbeispiel mit dem Gewichtungsfaktor 109 mit dem Wert 0,9, multipliziert und der multiplizierte Zwischen-Merkmalsvektor 121, d.h. die gewichteten logarithmierten Koeffizienten 119, werden dem zweiten Eingang des Addierers 110 zugeführt.
Die hochpassgefilterten logarithmierten Koeffizienten 120 und die gewichteten logarithmierten Koeffizienten 121 werden addiert, so dass an dem Ausgang des Addierers 110 zu einem jeweiligen Zeitfenster die Summe der oben beschriebenen Koeffizienten bereitgestellt wird als im Rahmen der Spracherkennung zu verwendender Merkmalsvektor 122.
Der Merkmalsvektor 122 wird der Spracherkennungseinheit 111 zugeführt und dort im Rahmen der Spracherkennung in an sich bekannter Weise verwendet.
Somit wird der im Rahmen der Spracherkennung verwendete Merkmalsvektor zu einem jeweiligen Zeitfenster gebildet durch Summenbildung des hochpassgefilterten Spektrums mit dem mit einem Gewichtungsfaktor W 109 gewichteten Spektrum.
Im Folgenden werden die Ergebnisse der oben beschriebenen Merkmalsextraktion, anders ausgedrückt des oben beschriebenen Verfahrens zum Ermitteln der Merkmalsvektoren, mit den Ergebnissen des Verfahrens zur Merkmalsextraktion gemäß dem RASTA-Verfahren, wie in [2] beschrieben, verglichen.
2 zeigt ein 1 kHz-Tonburst mit additivem weißen Rauschen 201 in einem Amplitudenverlaufs-Diagramm 200, in dem abhängig von der Frequenz die jeweilige Frequenzamplitude dargestellt ist.
3 zeigt in einem Diagramm 300 das zu dem Signalverlauf aus 2 gehörige Mel-Spektrum 300, d.h. der Tonburst 201 mit dem überlagerten weißen Rauschsignal wird in dem logarithmierten Spektralbereich weiter verarbeitet.
Die RASTA-Filterung gemäß [2] besteht aus einer Hochpassfilterung und einer Tiefpassfilterung. Im Rahmen der Hochpassfilterung werden alle gleichbleibenden Signalanteile nach der Hochpassfilter-spezifischen Zeitkonstante entfernt und nur die entsprechenden höherfrequenten Signaländerungen bleiben sichtbar. Die gemäß [2] vorgesehene Tiefpassfilterung bewirkt eine Glättung des Signals. Das Ergebnis der RASTA-Filterung ist in einem Diagramm 400 in dem RASTA-Spektrum-Signal 401 in 4 dargestellt.
Bei dem erfindungsgemäßen Adaptionsfilter werden Original-Spektrum und hochpassgefiltertes Spektrum aufaddiert. Stationäre Rauschanteile, aber auch Signalanteile werden nur teilweise kompensiert. Das Rauschsignal liefert einen nahezu konstanten Signalbeitrag, der Onset des Nutzsignals (des Tonbursts) wird betont.
Dies ist in 5 in einem weiteren Diagramm 500 und dort in dem Signalverlauf 501, der eine erfindungsgemäß physiologisch inspirierte Störsignalunterdrückung darstellt, gezeigt.
Gleichzeitig bleibt während der Tondauer ein konstanter Signalanteil erhalten, der im Gegensatz zu dem in [2] beschriebenen RASTA-Verfahren nicht vollständig verloren geht.
Anders ausgedrückt bedeutet dies, dass das Signal bei einem längeren Ton nicht auf den Wert Null zurückfällt, sondern auf den vorgegebenen Gleichanteil, beispielsweise auf den gewichteten durch den Merkmalsvektor jeweils selbst beschriebenen Signalanteil zurückgeführt wird.
Es hat sich gezeigt, dass die erfindungsgemäße physiologisch orientierte Realisation die Feuerwahrscheinlichkeit der Hörnerven im menschlichen Gehör qualitativ nachbildet, wodurch die Qualität des nachfolgenden Spracherkennungsvorgangs erheblich erhöht wird, insbesondere für den Fall, dass die Spracherkennungseinheit auf gepulsten künstlichen Neuronen basiert.
Anschaulich werden erfindungsgemäß die Eigenschaften des Gehörs und die Kodierung der Signale in Nervenaktionspotentiale umgesetzt und qualitativ nachgebildet.
Anschaulich kann die Erfindung analog zu einem Proportional-Differential-Regler (PD-Regler) gesehen werden, da erfindungsgemäß nicht nur das hochpassgefilterte Signal der Merkmalsvektoren, sondern die hochpassgefilterten Koeffizienten der Merkmalsvektoren sowie die Koeffizienten der Merkmalsvektoren selbst und damit die erste zeitliche Ableitung des eingehenden Signals sowie additiv der Gleichanteil des zeitlichen Signals verwendet werden.
Anschaulich werden mittels der Filterung die Zwischen-Merkmalsvektor-Komponenten fortlaufend geschätzt mit einer Zeitkonstante von etwa 300 ms und von den aktuellen Komponenten des Zwischen-Merkmalsvektors subtrahiert. Diese Operation entspricht, wie oben beschrieben, einer Hochpassfilterung der Merkmalsvektor-Komponenten des Zwischen-Merkmalsvektors. Gleichzeitig wird ein Merkmalsanteil, d.h. ein Anteil des jeweiligen Zwischen-Merkmalsvektors unverändert zum hochpassgefilterten Merkmalsanteil aufaddiert. Das Ergebnis dieser Verarbeitung bildet die zunächst sehr hohe und dann abfallende Feuerrate der Hörnerven bzw. Hörerneuronen im Hörsystem auf ein Tonsignal mit konstanter Intensität nach.
In diesem Dokument sind folgende Veröffentlichen zitiert:

[1] A. Adami et al, Qualcomm-ICSI-OGI Features for ASR, ICSLP-2002, Denver, Colorado, USA, September 2002;
[2] H. Hermansky et al, RASTA-PLP Speech Analysis, International Computer Science Institute Technical Report (ICSI TR) 91-069, Berkeley, California, Dezember 1991;
[3] H.-G. Hirsch und D. Pearce, The AURORA experimental framework for the performance evaluation of speech recognition systems under noisy conditions, ISCA IPRW ASR 2000, Automatic speech recognition: Challenges for the next millennium, Paris, Frankreich, 18.–20. September 2000

100: Spracherkennungssystem
101: Mikrophon
102: Analog-/Digital-Wandler bzw. analoges Filter
103: Fast Fourier Transformations-Einheit bzw. analoge
: Filterbank
104: Einheit zur Bildung von Mel-skalierten Leistungs-
: Koeffizienten oder von Cepstral-Koeffizienten
105: Logarithmiereinheit
106: Filtereinheit
107: Hochpassfilter
108: Gewichtungseinheit
109: Gewichtungsfaktor
110: Addierer
111: Spracherkennungseinheit
112: Spracherkennungs-Ergebnissignal
113: Sprecher
114: Analoges Sprachsignal
115: Elektrisches analoges Sprachsignal
116: Digitalisiertes bzw. vor-gefiltertes Sprachsignal
117: Fast Fourier-Transformationskoeffizienten bzw. analoge
: Filterausgänge
118: Mel-skalierte Transformationskoeffizienten
119: Logarithmierte Leistungs-Koeffizienten oder Cepstral-
: Koeffizienten
120: Hochpassgefilterte logarithmierte Koeffizienten
121: Gewichtete logarithmierte Koeffizienten
122: Merkmalsvektor
200: Diagramm
201: Tonburst-Signal mit additivem weißen Rauschen
300: Diagramm
301: Mel-Spektrumsignal
400: Diagramm
401: RASTA-Spektrumsignal
500: Diagramm
501: Signalverlauf nach Filterung gemäß bevorzugtem Ausführungsbeispiel

Claims

Verfahren zum rechnergestützten Ermitteln von Merkmalsvektoren aus einem Signal zur Mustererkennung, • bei dem aus dem Signal Zwischen-Merkmalsvektoren gebildet werden, deren Komponenten zumindest teilweise ein Leistungsspektrum eines Teils des digitalisierten Signals aufweisen, • bei dem die Zwischen-Merkmalsvektoren einer Hochpass-Filterung unterzogen werden, und • bei dem zumindest einem Teil der hochpassgefilterten Zwischen-Merkmalsvektoren jeweils ein vorgegebener Additions-Merkmalsvektor hinzuaddiert wird.
Verfahren zur rechnergestützten Mustererkennung, • bei dem aus einem digitalisierten Signal Zwischen-Merkmalsvektoren gebildet werden, • bei dem die Zwischen-Merkmalsvektoren einer Hochpass-Filterung unterzogen werden, und • bei dem zumindest einem Teil der hochpassgefilterten Zwischen-Merkmalsvektoren jeweils ein vorgegebener Additions-Merkmalsvektor hinzuaddiert wird, • bei dem unter Verwendung der gebildeten Summe als Merkmalsvektoren eine Mustererkennung durchgeführt wird.
Verfahren gemäß Anspruch 1 oder 2, bei dem zur Hochpass-Filterung ein nicht-adaptiver Hochpass-Filter verwendet wird.
Verfahren gemäß einem der Ansprüche 1 bis 3, bei dem zur Hochpass-Filterung ein Hochpass-Filter erster Ordnung verwendet wird.
Verfahren gemäß einem der Ansprüche 1 bis 4, bei dem zur Hochpass-Filterung ein Hochpass-Filter verwendet wird mit einer Grenzfrequenz zwischen 0,2 Hz und 100 Hz, insbesondere mit einer Grenzfrequenz zwischen 0,5 Hz und 100 Hz.
Verfahren gemäß einem der Ansprüche 1 bis 5, bei dem von den Zwischen-Merkmalsvektoren und/oder den hochpassgefilterten Zwischen-Merkmalsvektoren ein vorgegebenes Spektrum-Signal subtrahiert wird.
Verfahren gemäß Anspruch 6, bei dem als vorgegebenes Spektrum-Signal der erste Zwischen-Merkmalsvektor und/oder der erste hochpassgefilterte Zwischen-Merkmalsvektor verwendet werden/wird.
Verfahren gemäß einem der Ansprüche 1 bis 7, bei dem als Additions-Merkmalsvektoren die Zwischen-Merkmalsvektoren verwendet werden.
Verfahren gemäß Anspruch 8, bei dem als Additions-Merkmalsvektoren mit einem Gewichtungsfaktor multiplizierte Zwischen-Merkmalsvektoren verwendet werden.
Verfahren gemäß Anspruch 9, bei dem als Gewichtungsfaktor ein Wert zwischen 0,1 bis 3, insbesondere ein Wert zwischen 0,5 und 1,5, insbesondere der Wert 0,9 verwendet wird.
Verfahren gemäß einem der Ansprüche 1 bis 10, bei dem die Mustererkennung als eine Spracherkennung oder als eine Bildverarbeitung durchgeführt wird.
Einrichtung zum rechnergestützten Ermitteln von Merkmalsvektoren aus einem Signal zur Mustererkennung, • mit einer Einheit zum Bilden von Zwischen-Merkmalsvektoren aus dem Signal, wobei die Komponenten der Zwischen-Merkmalsvektoren zumindest teilweise ein Leistungsspektrum eines Teils des digitalisierten Signals aufweisen, • mit einem mit der Einheit zum Bilden von Zwischen-Merkmalsvektoren gekoppelten Hochpass-Filter zum Hochpassfiltern der Zwischen-Merkmalsvektoren, und • mit einer Signal-Additionseinheit, die eingerichtet ist zum Addieren jeweils eines vorgegebenen Additions-Merkmalsvektors zumindest zu einem Teil der hochpassgefilterten Zwischen-Merkmalsvektoren.
Einrichtung zur rechnergestützten Mustererkennung, • mit einer Einheit zum Bilden von Zwischen-Merkmalsvektoren aus einem Signal, wobei die Komponenten der Zwischen-Merkmalsvektoren zumindest teilweise ein Leistungsspektrum eines Teils des Signals aufweisen, • mit einem mit der Einheit zum Bilden von Zwischen-Merkmalsvektoren gekoppelten Hochpass-Filter zum Hochpassfiltern der Zwischen-Merkmalsvektoren, • mit einer Signal-Additionseinheit, die eingerichtet ist zum Addieren jeweils eines vorgegebenen Additions-Merkmalsvektors zumindest zu einem Teil der hochpassgefilterten Zwischen-Merkmalsvektoren, und • mit einer Mustererkennungseinheit zur Mustererkennung unter Verwendung der gebildeten Summe als Merkmalsvektoren.
Computerlesbares Speichermedium mit einem Computerprogramm zum Ermitteln von Merkmalsvektoren aus einem Signal zur Mustererkennung, das, wenn es von einem Prozessor ausgeführt wird, die folgenden Verfahrensschritte aufweist: • aus dem Signal werden Zwischen-Merkmalsvektoren gebildet, • die Zwischen-Merkmalsvektoren werden einer Hochpass-Filterung unterzogen, und • zumindest einem Teil der hochpassgefilterten Zwischen-Merkmalsvektoren wird jeweils ein vorgegebener Additions-Merkmalsvektor hinzuaddiert.
Computerlesbares Speichermedium mit einem Computerprogramm zur rechnergestützten Mustererkennung, das, wenn es von einem Prozessor ausgeführt wird, die folgenden Verfahrensschritte aufweist: • aus einem Signal werden Zwischen-Merkmalsvektoren gebildet, • die Zwischen-Merkmalsvektoren werden einer Hochpass-Filterung unterzogen, und • zumindest einem Teil der hochpassgefilterten Zwischen-Merkmalsvektoren wird jeweils ein vorgegebener Additions-Merkmalsvektor hinzuaddiert, • bei dem unter Verwendung der gebildeten Summe als Merkmalsvektoren eine Mustererkennung durchgeführt wird.