-
Die
Erfindung betrifft ein Verfahren und eine Einrichtung zum Ermitteln
von Merkmalsvektoren aus einem Signal zur Mustererkennung, ein Verfahren
und eine Einrichtung zur Mustererkennung sowie computerlesbare Speichermedien.
-
In
einem üblichen
Spracherkennungssystem wird auf ein Analog-/Digital-gewandeltes Eingangssignal
eine Fast Fourier Transformation (FFT) zur Spektralanalyse des Eingangssignals
eingesetzt. Ein erhebliches Problem im Rahmen der Spracherkennung,
allgemein im Rahmen der Mustererkennung, besteht in der Unterdrückung von
Störgeräuschen, anders
ausgedrückt
in der Unterdrückung
von Rauschsignalen. Aufgrund der Störgeräusche nimmt die Erkennungsrate
schon bei relativ geringen Pegeln der existierenden Störsignale
drastisch ab.
-
In
[1] ist es zur Störgeräuschunterdrückung bekannt,
einen Wiener Filter als einen adaptiven Filter einzusetzen, um das
Signal-Rausch-Verhältnis
im Rahmen der Signalanalyse zu erhöhen.
-
Nachteilig
an dem Einsatz eines Wiener Filters, allgemein eines adaptiven Filters,
im Rahmen der Störgeräuschunterdrückung ist
insbesondere in dem sehr großen
Rechenaufwand zur Durchführung des
Filteralgorithmus und der periodisch wiederholt durchzuführenden
Berechnung der Filterkoeffizienten zu sehen.
-
In
[2] ist ferner ein Verfahren zur Spracherkennung beschrieben, bei
dem aus einem Analog-/Digital-gewandelten Signal Zwischen-Merkmalsvektoren
gebildet werden, welche einer Bandpassfilterung unterzogen werden.
-
Das
in [2] beschriebene Verfahren weist insbesondere den Nachteil einer
noch relativ schlechten Erkennungsleistung im Rahmen der Spracherkennung
bei mit einem Störsignal
belegten Sprachsignal auf.
-
Ferner
ist in [3] das sogenannte „AURORA" Experimental-Framework zum Ermitteln
der Leistungsfähigkeit
eines Spracherkennungssystems in einer Umgebung mit Störsignalen
beschrieben.
-
Der
Erfindung liegt das Problem zugrunde, eine Mustererkennung mit einer
gegenüber
dem in [2] beschriebenen Verfahren verbesserten Erkennungsrate zu
schaffen, welches weniger Rechenaufwand erfordert als das in [1]
beschriebene Verfahren.
-
Das
Problem wird gelöst
durch ein Verfahren und eine Einrichtung zum Ermitteln von Merkmalsvektoren
aus einem digitalisierten Signal zur Mustererkennung, durch ein
Verfahren und eine Einrichtung zur Mustererkennung sowie durch computerlesbare Speichermedien
mit den Merkmalen gemäß den unabhängigen Patentansprüchen.
-
Bei
einem Verfahren zum rechnergestützten Ermitteln
von Merkmalsvektoren aus einem digitalisierten Signal zur Mustererkennung
werden aus dem digitalisierten Signal Zwischen-Merkmalsvektoren gebildet,
deren Komponenten zumindest teilweise ein Leistungsspektrum, vorzugsweise
ein Kurzzeit-Leistungsspektrum, eines Teils des digitalisierten Signals
aufweisen. Die Zwischen-Merkmalsvektoren werden einer Hochpass-Filterung
unterzogen. Ferner wird zumindest einem Teil der hochpassgefilterten Zwischen-Merkmalsvektoren
jeweils ein vorgegebener Additions-Merkmalsvektor hinzuaddiert,
so dass die Merkmalsvektoren gebildet werden.
-
Ein
Verfahren zur rechnergestützten
Mustererkennung weist die oben beschriebenen Verfahrensschritte
zum Ermitteln der Merkmalsvektoren auf, wobei unter Verwendung der
Summe der hochpassgefilterten Zwischen-Merkmalsvektoren und der Additions-Merkmalsvektoren
als Merkmalsvektoren eine Mustererkennung durchgeführt wird.
-
Eine
Einrichtung zum Ermitteln von Merkmalsvektoren aus einem digitalisierten
Signal zur Mustererkennung weist eine Einheit zum Bilden von Zwischen-Merkmalsvektoren
aus dem digitalisierten Signal auf, wobei die Komponenten der Zwischen-Merkmalsvektoren
zumindest teilweise ein Leistungsspektrum, vorzugsweise ein Kurzzeit-Leistungsspektrum,
eines Teils des digitalisierten Signals aufweisen. Ferner ist ein
mit der Einheit zum Bilden von Zwischen-Merkmalsvektoren gekoppelter
Hochpassfilter zum Hochpassfiltern der Zwischen-Merkmalsvektoren
vorgesehen. Weiterhin ist eine Signal-Additionseinheit vorgesehen,
die eingerichtet ist zum Addieren jeweils eines vorgegebenen Additions-Merkmalsvektors
zumindest zu einem Teil der hochpassgefilterten Zwischen-Merkmalsvektoren.
-
Anschaulich
dient die Erfindung zur Unterdrückung
von Störsignalen
im Rahmen der Merkmalsextraktion, d.h. im Rahmen der Bildung von Merkmalsvektoren
aus einem digitalisierten Signal, für ein Mustererkennungssystem,
insbesondere für ein
automatisches Spracherkennungssystem. Im Rahmen der Unterdrückung von
Störsignalen
werden zeitlich gleichbleibende, d.h. im Wesentlichen unveränderte Störsignalanteile
teilweise subtrahiert, zeitlich veränderliche Anteile des Sprachsignals
werden betont, d.h. verstärkt.
-
Anschaulich
werden erfindungsgemäß durch das
Vorsehen eines neuartigen Filters im Rahmen der Mustererkennung
zum Filtern der Zwischen-Merkmalsvektoren, nämlich einer Hochpassfilterung
der Zwischen-Merkmalsvektoren sowie einem Addieren eines zusätzlichen
Additionssignals, nämlich
der Additions-Merkmalsvektoren zu zumindest einem Teil der hochpassgefilterten
Zwischen-Merkmalsvektoren sehr effizient und auf einfache Weise grundlegende
Eigenschaften des menschlichen Gehörs, insbesondere die Adaption,
in einer technischen Merkmalsextraktion für ein automatischen Mustererkennungssystem,
insbesondere für
ein Spracherkennungssystem, nachgebildet.
-
Erfindungsgemäß wird eine
gegenüber
dem RASTA-Verfahren, wie es in [2] beschrieben ist, erheblich verbesserte
Erkennungsrate im Rahmen der Mustererkennung von einem Signal, welches
mit einem Störsignal
beaufschlagt ist, erreicht.
-
Ferner
zeichnet sich die Erfindung durch einen erheblich reduzierten erforderlichen
Rechenaufwand zur Störgeräuschunterdrückung aus
verglichen mit dem in [1] beschriebenen Wiener Filter.
-
Bevorzugte
Weiterbildungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.
-
Die
im Folgenden beschriebenen Ausgestaltungen der Erfindung gelten
für das
Verfahren zum Ermitteln von Merkmalsvektoren, für das Verfahren zur Mustererkennung,
für die
Einrichtung zum Ermitteln von Merkmalsvektoren, für die Einrichtung
zur Mustererkennung sowie für
die computerlesbaren Speichermedien.
-
Gemäß einer
Ausgestaltung der Erfindung wird zur Hochpassfilterung ein nicht-adaptiver
Hochpassfilter verwendet. Grundsätzlich
kann ein beliebiger geeigneter Hochpassfilter beliebiger Ordnung eingesetzt
werden, bevorzugt wird jedoch ein Hochpassfilter erster Ordnung
verwendet, besonders bevorzugt ein nicht-adaptiver Hochpassfilter
erster Ordnung. Die Grenzfrequenz des verwendeten Hochpassfilters
liegt vorzugsweise zwischen 0,1 Hz und 100 Hz, besonders bevorzugt
zwischen 0,5 Hz und 100 Hz, insbesondere bei 0,5 Hz.
-
Da
der Hochpassfilter eine gewisse Einschwingzeit benötigt entstehen
sogenannte Einschaltartefakte, die eliminiert werden. Dazu werden die
Merkmalsvektoren ohne Hochpassfilterung für den Anfangszeitraum, z.B.
die ersten 100 ms des Signals berechnet. Mit diesem Wert wird der
Hochpassfilter vorgeladen, mit dem Effekt dass die Einschwingartefakte
eliminiert werden.
-
Gemäß einer
anderen Ausgestaltung der Erfindung werden als Additions-Merkmalsvektoren
die Zwischen-Merkmalsvektoren selbst, vorzugsweise multipliziert
mit einem vorgegebenen Gewichtungsfaktor, verwendet. Der Gewichtungsfaktor
weist vorzugsweise ein Wert zwischen 0,1 bis 3, insbesondere einen
Wert zwischen 0,5 und 1,5, insbesondere den Wert 0,9, auf.
-
Durch
diese Ausgestaltung der Erfindung wird ein sehr einfacher Algorithmus
zur Bildung der zur Mustererkennung tatsächlich verwendeten Merkmalsvektoren
beschrieben, ohne eine aufwendige Adaption eines digitalen Filters
vornehmen zu müssen,
in deren Rahmen die jeweiligen Filterkoeffizienten kontinuierlich
neu ermittelt werden müssen.
-
Insbesondere
der Wert einer Grenzfrequenz des Hochpassfilters, auch bezeichnet
als Eckfrequenz des Hochpassfilters, von 0,5 Hz zeigte im Rahmen
des in [3) beschriebenen AURORA-Test-Szenariums die höchste Robustheit
und insbesondere bei Wahl des Gewichtungsfaktors von 0,9 die besten
Erkennungsleistungen.
-
Die
Erfindung eignet sich insbesondere zum Einsatz in der automatischen
Spracherkennung oder automatischen Sprechererkennung, alternativ
kann sie jedoch auch im Rahmen der digitalen Bildverarbeitung, insbesondere
im Rahmen der Bilderkennung eingesetzt werden. Ferner kann die Erfindung vorteilhaft
eingesetzt werden im Bereich von (digitalen) Hörhilfen bzw. (digitalen) Hörgeräten für Patienten
mit innenohrbedingter Schwerhörigkeit,
beispielsweise in einem Cochlea Implantat.
-
Allgemein
kann die Erfindung in jedem Bereich der Mustererkennung eingesetzt
werden, in dem es gilt, die zeitliche Veränderung in einem Signal im
Zeitraum zu betonen und die zeitlich im Wesentlichen gleichbleibenden
Signale im Zeitraum nicht vollständig
zu unterdrücken.
-
Gemäß einer
anderen Ausgestaltung der Erfindung ist es vorgesehen, dass die
Hochpassfilterung eine mehrstufige Hochpassfilterung aufweist, d.h.
es sind eine Mehrzahl von in Serie geschalteten Hochpassfiltern,
vorzugsweise mit unterschiedlichen Grenzfrequenzen, vorgesehen.
Ferner können
zusätzlich
noch ein oder mehrere Tiefpassfilter vorgesehen sein. Die Struktur
der mehreren Hochpassfilter und/oder Tiefpassfilter führen zu
einer noch weiter verbesserten Nachbildung der Eigenschaften des menschlichen
Gehörs,
insbesondere der Nachbildung der Adaption der auditorischen Nerven
im logarithmierten Energieraum. Die Anordnung und Zahl der verwendeten
Hochpassfilter und Tiefpassfilter hängt insbesondere von der gewünschten
Exaktheit der Nachbildung der Eigenschaften des menschlichen Gehörs ab bzw.
ist durch die endliche Datenmenge zum Training und Test des Spracherkennungssystems
begrenzt.
-
Zusammenfassend
können
Aspekte der Erfindung gesehen werden in folgenden Prinzipien:
- a) Nachbildung der Adaption der auditorischen Nerven
im logarithmierten Energieraum;
- b) Hochpassfilterung der im Zeitbereich gemittelten Zwischen-Merkmalsvektoren,
d.h. der im Zeitbereich gemittelten Merkmale;
- c) Aufaddieren des ursprünglichen
unveränderten Signals,
d.h. der Zwischen-Merkmalsvektoren, zu dem hochpassgefilterten Signal,
nämlich
den hochpassgefilterten Zwischen-Merkmalsvektoren;
- d) Optimierung der Modellparameter zur maximalen Verbesserung
der Robustheit automatischer Spracherkennungssysteme.
-
Ein
Ausführungsbeispiel
der Erfindung ist in den Figuren dargestellt und wird im Folgenden
näher erläutert.
-
Es
zeigen
-
1 ein
Spracherkennungssystem gemäß einem
Ausführungsbeispiel
der Erfindung;
-
2 ein
Signalverlauf eines 1 kHz-Tonbursts mit additivem weißen Rauschen;
-
3 ein
Signal des 1 kHz Frequenzkanals aus 2 nach einer
erfolgten Fast Fourier Transformation-basierten MEL-Spektralanalyse;
-
4 das
Signal gemäß 3 nach
erfolgter RASTA-Filterung
gemäß [2]; und
-
5 das
Signal gemäß 2 nach
erfolgter Filterung gemäß dem Ausführungsbeispiel
der Erfindung.
-
1 zeigt
ein Spracherkennungssystem 100, das in analog- oder Digitaltechnik
ausgeführt werden
kann. Ein Mikrophon 101 ist an einen Analog-/Digital-Wandler
(Analogtechnik: Eingangsfilter) 102, der ausgangsseitig
mit einer Fast Fourier Transformations-Einheit (vorzugsweise einer
Filterbank) 103 gekoppelt ist. Mittels der Fast Fourier
Transformations-Einheit/Filterbank 103 wird eine Frequenzanalyse
des Signals durchgeführt,
wie im Folgenden noch näher
erläutert
wird.
-
An
den Ausgang der Fast Fourier Transformations-Einheit 103 ist
eine Einheit 104 zur Bildung von Mel-skalierten Amplituden-Koeffizienten
gekoppelt, alternativ können
die Kanäle
der analogen Filterbank bereits Mel-skaliert sein. Bei einer Ausführung in
Analogtechnik werden die Filterausgänge gleichgerichtet und tiefpassgefiltert
(die Eckfrequenz eines verwendeten Tiefpassfilters liegt vorzugsweise
in einem Bereich von 1 Hz–3
kHz, bevorzugt 1 kHz). Ferner ist eine Logarithmiereinheit 105 vorgesehen.
Diese kann zusätzlich
eine Einheit zur Bildung von Mel-skalierten Cepstrum-Koeffizienten enthalten. Eine
an den Ausgang der Einheit 105 gekoppelte Filtereinheit 106 weist
einen Hochpassfilter 107, gemäß diesem Ausführungsbeispiel
eingerichtet als Analogfilter oder als digitaler nicht-adaptiver
Hochpassfilter erster Ordnung mit einer Eckfrequenz von 0,5 Hz, auf.
Ferner ist eine Gewichtungseinheit 108 vorgesehen zur Multiplikation
des an der Gewichtungseinheit 108 anliegenden Eingangssignals
mit einem vorgegebenen Gewichtungsfaktor 109, so dass als
Ausgangssignal der Gewichtungseinheit 108 das mit dem Gewichtungsfaktor 109 multiplizierte
Eingangssignal bereitgestellt wird.
-
Eingangsseitig
sind sowohl die Gewichtungseinheit 108 als auch der Hochpassfilter 107 mit dem
Ausgang der Logarithmiereinheit 105 gekoppelt. Ausgangsseitig
sind die Gewichtungseinheit 108 und der Hochpassfilter 107 mit
einem ersten Eingang bzw. mit einem zweiten Eingang eines Addierers 110 gekoppelt.
Der Addierer 110 bildet die Summe der Ausgangssignale des
Hochpassfilters 107 und der Gewichtungseinheit 108.
-
Der
Ausgang des Addierers 110 ist mit einer Spracherkennungseinheit 111,
welche eingerichtet ist zur sprecherunabhängigen Spracherkennung und welche
eine Vielzahl von Hidden Markov Modellen aufweist, gekoppelt.
-
Mittels
der Spracherkennungseinheit 111, die grundsätzlich gemäß einem
beliebigen Spracherkennungsalgorithmus, beispielsweise unter Verwendung
des Verfahrens der dynamischen Programmierung oder ähnlicher
Verfahren eingerichtet ist, erfolgt eine automatische Spracherkennung
des in die Spracherkennungseinheit 111 eingegebenen Signals
hinsichtlich zuvor gespeicherter Trainingsdaten.
-
Ergebnis
der Spracherkennung ist ein Spracherkennungs-Ergebnissignal 112, welches
beispielsweise als Codebucheintrag im Rahmen einer Vektorquantisierung
gespeichert oder zu einem Empfänger,
beispielsweise mittels einer Funk-Kommunikationsverbindung oder
einer Festnetz-Kommunikationsverbindung, übertragen
wird oder ein Ergebnissignal darstellt, welches hinsichtlich einer
auszuführenden
Aktion einen vorgegebenen Befehl darstellt abhängig von dem Ergebnis der Spracherkennung.
-
Im
Folgenden wird die Funktionsweise der einzelnen oben beschriebenen
Komponenten des Spracherkennungssystems 100 näher beschrieben.
-
Ein
Sprecher 113 spricht ein Sprachsignal 114, welches
einen Nutz-Sprachsignalanteil und einen Rauschsignalanteil enthält, in das
Mikrophon 101 ein, von wo es als elektronisches analoges
Signal 115 dem Analog-/Digital-Wandler 102 bereitgestellt
wird.
-
Das
analoge Signal 115 wird mittels des Analog-/Digital-Wandlers 102 (der
als ein Anti-Aliasing Filter zur Einhaltung des sogenannten Abtasttheorems
eingerichtet ist) abgetastet. Zur Überführung des analogen Sprachsignals 115 von
dem Zeitraum in den Frequenzraum wird das Sprachsignal 115 mit einem
Analysefenster gewichtet. Das Analysefenster, gemäß diesem
Ausführungsbeispiel
ausgestaltet als sogenanntes Hamming-Fenster, welches eine Fensterlänge von
25 ms aufweist, wird mit fest vorgegebener Schrittweite, gemäß diesem
Ausführungsbeispiel
von 10 ms, über
das analoge Sprachsignal 115 bewegt.
-
Alternativ
zu dem Hamming-Fenster kann ein beliebiges geeignetes Fenster mit
einer beliebigen geeigneten Fensterfunktion eingesetzt werden, beispielsweise
eine Rechteck-Fensterfunktion.
-
Die
mittels der Hamming-Fensterfunktion jeweils einem Hamming-Fenster
zugeordneten analog-/digital-gewandelten Sprachsignaldaten 116 werden
der Fast Fourier Transformations-Einheit 103 zugeführt und
dort werden die Anteile vorgegebener Frequenzbereiche, auch bezeichnet
als Frequenzbänder,
ermittelt, gemäß diesem
Ausführungsbeispiel
jeweils Koeffizienten für
ein Frequenzband von 40 Hz in einem Bereich von 0 Hz bis 4 kHz,
so dass von der Fast Fourier Transformations-Einheit 103 Fast
Fourier Transformationskoeffizienten 117 bereitgestellt
werden und der Einheit 104 zur Bildung des Mel-skalierten
Amplitudenspektrums bzw. von Mel-skalierten Cepstrum-Koeffizienten zugeführt werden.
-
Gemäß diesem
Ausführungsbeispiel
der Erfindung werden zwölf
Mel-skalierte Cepstrum-Koeffizienten 118 von der Einheit 104 zur
Bildung von Mel-skalierten Cepstrum-Koeffizienten gebildet und werden
der Logarithmiereinheit 105 zugeführt, in welcher die Mel-skalierten
Koeffizienten 118 logarithmiert werden.
-
Am
Ausgang der Logarithmiereinheit 105 werden somit jeweilige
Zwischen-Merkmalsvektoren 119, d.h. die logarithmierten
Koeffizienten 119, (ein Zwischen-Merkmalsvektor pro Analysefenster)
bereitgestellt, welche den logarithmierten Energiegehalt und damit
anschaulich ein Kurzzeit-Leistungsspektrum
bzw. deren Cepstral-Koeffizienten angeben.
-
Alternativ
oder zusätzlich
können
auch Differenzwerte (d.h. die erste zeitliche Ableitung), welche Differenzen
der jeweiligen Koeffizienten zeitlich benachbarter Zwischen-Merkmalsvektoren 119 beschreiben,
in dem Zwischen-Merkmalsvektor 119 enthalten
sein, alternativ oder zusätzlich
auch die Differenzen der Differenzwerte (d.h. die zweite zeitliche Ableitung)
der Koeffizienten zweier aufeinanderfolgender Zwischen-Merkmalsvektoren 119.
-
Anstelle
der Logarithmierung kann auch die Bildung der dritten Wurzel der
Werte der jeweiligen Vektor-Komponenten vorgesehen sein oder die
Wurzel der quadrierten Amplitudenwerte der jeweiligen Vektor-Komponenten.
Alternativ kann anstelle der Fast Fourier Transformations-Einheit 103,
der Einheit 104 zur Bildung von Mel-skalierten Cepstrum-Koeffizienten sowie
der Logarithmiereinheit 105 ein anderes Modell, welches
das Verhalten bzw. die Eigenschaften des Innenohrs, d.h. ein beliebiges
geeignetes anderes Innenohrmodell, vorgesehen sein.
-
Die
logarithmierten Cepstrum-Koeffizienten 119 werden dem Hochpassfilter 107 zugeführt und dort
einer Hochpassfilterung unterzogen, so dass zeitlich im Wesentlichen
konstante, d.h. gleichbleibende Signalanteile mittels des Hochpassfilters 107 entfernt
werden.
-
Um
sogenannte Onset-Artefakte zu unterdrücken, wird der Hochpassfilter
mit dem Mittelwert des Anfangszeitraums, z.B. der ersten 100 ms
des Signals, vorgeladen.
-
An
dem Ausgang des Hochpassfilters 107 werden somit die gemäß Vorschrift
(2) gebildeten hochpassgefilterten logarithmierten Koeffizienten 120 bereitgestellt
und dem ersten Eingang des Addierers 110 zugeführt.
-
Ferner
werden die logarithmierten Koeffizienten, d.h. der Zwischen-Merkmalsvektor 119,
der Gewichtungseinheit 108 zugeführt und dort mit dem Gewichtungsfaktor 109,
gemäß diesem
Ausführungsbeispiel
mit dem Gewichtungsfaktor 109 mit dem Wert 0,9, multipliziert
und der multiplizierte Zwischen-Merkmalsvektor 121,
d.h. die gewichteten logarithmierten Koeffizienten 119,
werden dem zweiten Eingang des Addierers 110 zugeführt.
-
Die
hochpassgefilterten logarithmierten Koeffizienten 120 und
die gewichteten logarithmierten Koeffizienten 121 werden
addiert, so dass an dem Ausgang des Addierers 110 zu einem
jeweiligen Zeitfenster die Summe der oben beschriebenen Koeffizienten
bereitgestellt wird als im Rahmen der Spracherkennung zu verwendender
Merkmalsvektor 122.
-
Der
Merkmalsvektor 122 wird der Spracherkennungseinheit 111 zugeführt und
dort im Rahmen der Spracherkennung in an sich bekannter Weise verwendet.
-
Somit
wird der im Rahmen der Spracherkennung verwendete Merkmalsvektor
zu einem jeweiligen Zeitfenster gebildet durch Summenbildung des hochpassgefilterten
Spektrums mit dem mit einem Gewichtungsfaktor W 109 gewichteten
Spektrum.
-
Im
Folgenden werden die Ergebnisse der oben beschriebenen Merkmalsextraktion,
anders ausgedrückt
des oben beschriebenen Verfahrens zum Ermitteln der Merkmalsvektoren,
mit den Ergebnissen des Verfahrens zur Merkmalsextraktion gemäß dem RASTA-Verfahren,
wie in [2] beschrieben, verglichen.
-
2 zeigt
ein 1 kHz-Tonburst mit additivem weißen Rauschen 201 in
einem Amplitudenverlaufs-Diagramm 200, in dem abhängig von
der Frequenz die jeweilige Frequenzamplitude dargestellt ist.
-
3 zeigt
in einem Diagramm 300 das zu dem Signalverlauf aus 2 gehörige Mel-Spektrum 300,
d.h. der Tonburst 201 mit dem überlagerten weißen Rauschsignal
wird in dem logarithmierten Spektralbereich weiter verarbeitet.
-
Die
RASTA-Filterung gemäß [2] besteht
aus einer Hochpassfilterung und einer Tiefpassfilterung. Im Rahmen
der Hochpassfilterung werden alle gleichbleibenden Signalanteile
nach der Hochpassfilter-spezifischen Zeitkonstante entfernt und
nur die entsprechenden höherfrequenten
Signaländerungen bleiben
sichtbar. Die gemäß [2] vorgesehene
Tiefpassfilterung bewirkt eine Glättung des Signals. Das Ergebnis
der RASTA-Filterung
ist in einem Diagramm 400 in dem RASTA-Spektrum-Signal 401 in 4 dargestellt.
-
Bei
dem erfindungsgemäßen Adaptionsfilter werden
Original-Spektrum
und hochpassgefiltertes Spektrum aufaddiert. Stationäre Rauschanteile,
aber auch Signalanteile werden nur teilweise kompensiert. Das Rauschsignal
liefert einen nahezu konstanten Signalbeitrag, der Onset des Nutzsignals
(des Tonbursts) wird betont.
-
Dies
ist in 5 in einem weiteren Diagramm 500 und
dort in dem Signalverlauf 501, der eine erfindungsgemäß physiologisch
inspirierte Störsignalunterdrückung darstellt,
gezeigt.
-
Gleichzeitig
bleibt während
der Tondauer ein konstanter Signalanteil erhalten, der im Gegensatz zu
dem in [2] beschriebenen RASTA-Verfahren nicht vollständig verloren
geht.
-
Anders
ausgedrückt
bedeutet dies, dass das Signal bei einem längeren Ton nicht auf den Wert
Null zurückfällt, sondern
auf den vorgegebenen Gleichanteil, beispielsweise auf den gewichteten
durch den Merkmalsvektor jeweils selbst beschriebenen Signalanteil
zurückgeführt wird.
-
Es
hat sich gezeigt, dass die erfindungsgemäße physiologisch orientierte
Realisation die Feuerwahrscheinlichkeit der Hörnerven im menschlichen Gehör qualitativ
nachbildet, wodurch die Qualität
des nachfolgenden Spracherkennungsvorgangs erheblich erhöht wird,
insbesondere für
den Fall, dass die Spracherkennungseinheit auf gepulsten künstlichen Neuronen
basiert.
-
Anschaulich
werden erfindungsgemäß die Eigenschaften
des Gehörs
und die Kodierung der Signale in Nervenaktionspotentiale umgesetzt
und qualitativ nachgebildet.
-
Anschaulich
kann die Erfindung analog zu einem Proportional-Differential-Regler (PD-Regler) gesehen
werden, da erfindungsgemäß nicht
nur das hochpassgefilterte Signal der Merkmalsvektoren, sondern
die hochpassgefilterten Koeffizienten der Merkmalsvektoren sowie
die Koeffizienten der Merkmalsvektoren selbst und damit die erste
zeitliche Ableitung des eingehenden Signals sowie additiv der Gleichanteil
des zeitlichen Signals verwendet werden.
-
Anschaulich
werden mittels der Filterung die Zwischen-Merkmalsvektor-Komponenten fortlaufend
geschätzt
mit einer Zeitkonstante von etwa 300 ms und von den aktuellen Komponenten
des Zwischen-Merkmalsvektors subtrahiert. Diese Operation entspricht,
wie oben beschrieben, einer Hochpassfilterung der Merkmalsvektor-Komponenten
des Zwischen-Merkmalsvektors. Gleichzeitig wird ein Merkmalsanteil,
d.h. ein Anteil des jeweiligen Zwischen-Merkmalsvektors unverändert zum
hochpassgefilterten Merkmalsanteil aufaddiert. Das Ergebnis dieser
Verarbeitung bildet die zunächst
sehr hohe und dann abfallende Feuerrate der Hörnerven bzw. Hörerneuronen
im Hörsystem
auf ein Tonsignal mit konstanter Intensität nach.
-
In
diesem Dokument sind folgende Veröffentlichen zitiert:
- [1] A. Adami et al, Qualcomm-ICSI-OGI Features
for ASR, ICSLP-2002, Denver, Colorado, USA, September 2002;
- [2] H. Hermansky et al, RASTA-PLP Speech Analysis, International
Computer Science Institute Technical Report (ICSI TR) 91-069, Berkeley,
California, Dezember 1991;
- [3] H.-G. Hirsch und D. Pearce, The AURORA experimental framework
for the performance evaluation of speech recognition systems under
noisy conditions, ISCA IPRW ASR 2000, Automatic speech recognition:
Challenges for the next millennium, Paris, Frankreich, 18.–20. September
2000
-
- 100
- Spracherkennungssystem
- 101
- Mikrophon
- 102
- Analog-/Digital-Wandler
bzw. analoges Filter
- 103
- Fast
Fourier Transformations-Einheit bzw. analoge
-
- Filterbank
- 104
- Einheit
zur Bildung von Mel-skalierten Leistungs-
-
- Koeffizienten
oder von Cepstral-Koeffizienten
- 105
- Logarithmiereinheit
- 106
- Filtereinheit
- 107
- Hochpassfilter
- 108
- Gewichtungseinheit
- 109
- Gewichtungsfaktor
- 110
- Addierer
- 111
- Spracherkennungseinheit
- 112
- Spracherkennungs-Ergebnissignal
- 113
- Sprecher
- 114
- Analoges
Sprachsignal
- 115
- Elektrisches
analoges Sprachsignal
- 116
- Digitalisiertes
bzw. vor-gefiltertes Sprachsignal
- 117
- Fast
Fourier-Transformationskoeffizienten bzw. analoge
-
- Filterausgänge
- 118
- Mel-skalierte
Transformationskoeffizienten
- 119
- Logarithmierte
Leistungs-Koeffizienten oder Cepstral-
-
- Koeffizienten
- 120
- Hochpassgefilterte
logarithmierte Koeffizienten
- 121
- Gewichtete
logarithmierte Koeffizienten
- 122
- Merkmalsvektor
- 200
- Diagramm
- 201
- Tonburst-Signal
mit additivem weißen
Rauschen
- 300
- Diagramm
- 301
- Mel-Spektrumsignal
- 400
- Diagramm
- 401
- RASTA-Spektrumsignal
- 500
- Diagramm
- 501
- Signalverlauf
nach Filterung gemäß bevorzugtem
Ausführungsbeispiel