DE19859174C1

DE19859174C1 - Verfahren und Vorrichtung zur Verarbeitung rauschbehafteter Schallsignale

Info

Publication number: DE19859174C1
Application number: DE19859174A
Authority: DE
Inventors: Rainer Hegger; Holger Kantz; Lorenzo Matassini
Original assignee: Max Planck Gesellschaft zur Foerderung der Wissenschaften eV
Current assignee: Max Planck Gesellschaft zur Foerderung der Wissenschaften eV
Priority date: 1998-12-21
Filing date: 1998-12-21
Publication date: 2000-05-04
Anticipated expiration: 2018-12-22
Also published as: US6502067B1; EP1014340A3; JP2000194400A; EP1014340A2

Abstract

Zur Signalverarbeitung eines Schallsignals y, bei dem innerhalb vorbestimmter Signalabschnitte des Schallsignals periodische Signalprofile erfaßt und Korrelationen zwischen den Signalprofilen ermittelt werden, erfolgt eine Zuordnung korrelierter Signalanteile zu einem Leistungsanteil und unkorrelierter Signalanteile zu einem Rauschanteil des Schallsignals. Die Korrelationen zwischen den Signalprofilen werden mit Verfahren der nicht-linearen Rauschreduzierung in deterministischen Systemen ermittelt.

Description

Die Erfindung betrifft Verfahren zur Verarbeitung rauschbehaf teter Schallsignale, insbesondere zur nichtlinearen Rauschredu zierung in Sprachsignalen, zur nichtlinearen Trennung von Lei stungs- und Rauschsignalen und zur Anwendung nichtlinearer Zeitreihenanalysen, die auf dem Konzept des niedrigdimensiona len deterministischen Chaos beruhen. Die Erfindung betrifft auch eine Vorrichtung zur Implementierung der Verfahren und de ren Verwendung.

Die Rauschreduzierung bei der Aufnahme, Speicherung, Übertra gung oder Wiedergabe menschlicher Sprache besitzt eine hohe technische Relevanz. Rauschen kann als reine Meßungenauigkeit z. B. in Form des Digitalfehlers bei Ausgabe von Schallamplitu den, als Rauschen im Übertragungskanal oder als dynamisches Rauschen durch die Kopplung des betrachteten Systems mit der Außenwelt auftreten. Beispiele für Rauschreduzierungen der menschlichen Sprache sind allgemein aus der Telekommunikation, der automatischen Spracherkennung oder dem Einsatz elektroni scher Hörhilfen bekannt. Das Problem der Rauschreduzierung tritt nicht nur bei menschlicher Sprache, sondern auch bei an deren Arten von Schallsignalen, und nicht nur bei stochasti schem Rauschen, sondern auch bei allen Formen der Überlagerung eines relevanten Schallsignals durch Fremdgeräusche auf. Es be steht ein Interesse an einem Signalverarbeitungsverfahren, mit dem stark aperiodische und nicht-stationäre Schallsignale in Bezug auf Leistungs- und Rauschanteile analysiert, manipuliert oder getrennt werden können.

Ein typischer Ansatz zur Rauschreduzierung, d. h. zur Zerlegung eines Signals in bestimmte Leistungs- und Rauschanteile, beru hen auf einer Signalfilterung im Frequenzbereich. Im einfach sten Fall erfolgt die Filterung mit Bandpaßfiltern, woraus je doch das folgende Problem entsteht. In der Regel ist stochasti sches Rauschen breitbandig (häufig sogenanntes "weißes Rau schen"). Wenn das Leistungssignal jedoch selbst stark aperiodisch und somit breitbandig ist, wird mit dem Frequenz filter auch ein Leistungssignalanteil zerstört, woraus sich un zulängliche Ergebnisse ergeben. Soll z. B. bei einer Sprachüber tragung die menschliche Sprache durch einen Tiefpaßfilter von hochfrequentem Rauschen befreit werden, so wird das Sprachsi gnal verzerrt.

Ein weiterer allgemein bekannter Ansatz zur Rauschreduzierung besteht in der Rauschkompensation bei Schallaufnahmen. Dabei wird beispielsweise mit einem ersten Mikrofon die von einem Lärmpegel in einem Raum überlagerte menschliche Sprache und mit einem zweiten Mikrofon ein Schallsignal aufgenommen, das im we sentlichen den Lärmpegel repräsentiert. Vom Meßsignal des zwei ten Mikrofons wird ein Kompensationssignal abgeleitet, das bei Überlagerung mit dem Meßsignal des ersten Mikrofons das Rau schen aus dem umgebenden Raum kompensiert. Diese Technik ist aufgrund des relativ hohen Geräteaufwandes (Einsatz spezieller Mikrofone mit Richtcharakteristik) und wegen des eingeschränk ten Einsatzbereiches z. B. bei der Sprachaufnahme nachteilig.

Es sind ferner Verfahren zur nichtlinearen Zeitreihenanalyse auf der Grundlage des Konzepts des niedrigdimensionalen deter ministischen Chaos bekannt. Da in fast allen Bereichen unserer täglichen Umwelt, aber auch in vielen Bereichen der Wissen schaft und Technik komplexes dynamisches Verhalten eine wichti ge Rolle spielt, z. B. wenn Vorgänge in der Medizin, Ökonomie, Signaltechnik oder Meteorologie aperiodische, schwer vorhersag bare und oft auch schwer klassifizierbare Signale liefern, stellt die Zeitreihenanalyse einen grundsätzlichen Ansatz dar, aus beobachteten Daten möglichst viel über die Eigenschaften oder den Zustand eines Systems zu lernen. Bekannte Analysever fahren zum Verständnis aperiodischer Signale werden z. B. von H. Kantz et al. in "Nonlinear Time Series Analysis", Cambridge University Press, Cambridge, 1997, oder von H. D. I. Abarbanel in "Analysis of Observed Chaotic Data", Springer, New York, 1996 beschrieben. Diese Verfahren basieren auf dem Konzept des deterministischen Chaos. Deterministisches Chaos bedeutet, daß zwar ein Systemzustand zu einem bestimmten Zeitpunkt in eindeu tiger Weise den Systemzustand zu jedem beliebigen späteren Zeitpunkt festlegt, das System aber dennoch über längere Zeit unvorhersagbar ist. Dies ergibt sich daraus, daß der aktuelle Systemzustand mit einem unvermeidlichen Fehler erfaßt wird, dessen Wirkung je nach Bewegungsgleichung des Systems exponen tiell wächst, so daß nach relativ kurzer Zeit ein simulierter Modellzustand mit dem Realzustand des Systems keine Ähnlichkeit mehr besitzt.

Für Zeitreihen deterministischer chaotischer Systems wurden Verfahren zur Rauschunterdrückung entwickelt, die keine Tren nung im Frequenzbereich vornehmen, sondern explizit auf die de terministische Struktur des Signals zurückgreifen. Diese Ver fahren werden beispielsweise von P. Grassberger et al. in "CHAOS", Bd. 3, 1993, S. 127, von H. Kantz et al. (s. o.) und von E. J. Kostelich et al. in "Phys. Rev. E", Bd. 48, 1993, S. 1752, beschrieben. Das Prinzip der Rauschunterdrückung für de terministische Systeme wird im folgenden unter Bezug auf Fig. 10a beschrieben.

Fig. 10 zeigt schematisch die Abhängigkeit aufeinanderfolgender Zeitreihenwerte für rauschfreie bzw. verrauschte Systeme (am Beispiel eines eindimensionalen Zusammenhangs). Die rausch freien Daten eines deterministischen Systems liefern das in Fig. 10a gezeigte Bild. Es besteht eine exakte (hier: eindimen sionale) deterministische Beziehung zwischen einem Wert und dem Folgewert. Die Zeitversatzvektoren, zu denen Einzelheiten wei ter unten erläutert werden, liegen in einer niedrigdimensiona len Mannigfaltigkeit im Einbettungsraum. Bei Einführung von Rauschen wird die deterministische Beziehung durch eine appro ximative Beziehung ersetzt. Die Daten liegen nicht mehr auf der Untermannigfaltigkeit, sondern in ihrer Nähe (Fig. 10b). Die Unterscheidung von Leistung und Rauschen erfolgt über die Di mensionalität. Alles, was aus der Untermannigfaltigkeit heraus führt, ist auf den Einfluß des Rauschens zurückzuführen.

Dementsprechend erfolgt die Rauschunterdrückung für determini stisch chaotische Signale in drei Schritten. Zuerst wird die Dimension m des Einbettungsraumes und die Dimension der Mannig faltigkeit, in der die unverrauschten Daten lägen, abgeschätzt. Zur eigentlichen Korrektur wird dann für jeden einzelnen Punkt die Mannigfaltigkeit in seiner Nähe identifiziert und schließ lich zur Rauschreduzierung der betrachtete Punkt auf die Man nigfaltigkeit projiziert (Fig. 10c).

Der Nachteil der illustrierten Rauschunterdrückung besteht in deren Beschränkung auf deterministische Systeme. In einem nicht-deterministischen System, in dem also kein eindeutiger Zusammenhang zwischen einem Zustand und einem Folgezustand be steht, ist das Konzept der Identifizierung einer Bewegungsglei chung und der Betrachtung einer glatten Mannigfaltigkeit, wie es in Fig. 10 illustriert ist, nicht anwendbar. So bilden bei spielsweise die Signalamplituden von Sprachsignalen Zeitreihen, die unvorhersagbar sind und den Zeitreihen nicht-determini stischer Systeme entsprechen.

Die Anwendbarkeit der herkömmlichen nichtlinearen Rauschredu zierung ist für Sprachsignale insbesondere aus den folgenden Gründen bisher ausgeschlossen. Die menschliche Sprache (aber auch andere Schallsignale natürlichen oder synthetischen Ur sprungs) ist in der Regel hochgradig nichtstationär. Die Spra che ist aus einer Verkettung von Phonemen zusammengesetzt. Die Phoneme wechseln sich ständig ab, so daß sich die Sprachdynamik laufend ändert. Beispielsweise enthalten Zisch-Laute vorrangig hohe Frequenzen und Vokale (z. B. "o") vorrangig niedrige Fre quenzen. Damit wären zur Beschreibung der Sprache Bewegungs gleichungen erforderlich, die sich ständig im Zeitverlauf än dern. Die Existenz einer einheitlichen Bewegungsgleichung ist jedoch Voraussetzung für das unter Bezug auf Fig. 10 beschrie bene Konzept der Rauschunterdrückung.

Es ist die Aufgabe der Erfindung, ein verbessertes Signalverar beitungsverfahren für Schallsignale, insbesondere für ver rauschte Sprachsignale, anzugeben, mit dem eine effektive und schnelle Trennung von Leistungs- und Rauschanteilen des be trachteten Schallsignals möglichst verzerrungsfrei möglich ist. Die Aufgabe der Erfindung ist es auch, Vorrichtungen zur Imple mentierung eines derartigen Verfahrens anzugeben.

Diese Aufgaben werden durch ein Verfahren bzw. durch eine Vor richtung mit den Merkmalen gemäß den Patentansprüchen 1 bzw. 9 gelöst. Vorteilhafte Ausführungsformen und Verwendungen der Er findung ergeben sich aus den abhängigen Ansprüchen.

Ein erster wichtiger Gesichtspunkt der Erfindung besteht insbe sondere darin, nichtstationäre Schallsignale, bestehend aus Leistungs- und Rauschanteilen, mit einer derart hohen Ab tastrate zu erfassen, daß vorbestimmte Signalprofile innerhalb des betrachteten Schallsignals als periodische oder annähernd periodische Wiederholungen dargestellt werden können. Auf die Begriffe der periodischen bzw. annähernd periodischen Wiederho lungen wird gesondert weiter unten eingegangen. Im folgenden wird einheitlich der Begriff der annähernd periodischen Signal profile verwendet. Die damit erfaßten Zeitreihen von Schallsi gnalen liefern Wellenformen, die sich zumindest über bestimmte Signalabschnitte des Schallsignals wiederholen und eine zeit lich begrenzte Anwendung des oben genannten, an sich bekannten Konzepts der nichtlinearen Rauschreduzierung erlauben.

Gemäß einem weiteren wichtigen Gesichtspunkt der Erfindung wer den innerhalb eines betrachteten Schallsignals annähernd peri odische Signalprofile erfaßt und Korrelationen zwischen den Si gnalprofilen ermittelt, um korrelierte Signalanteile einem Lei stungsanteil und unkorrelierte Signalanteile einem Rauschanteil des Schallsignals zuzuordnen.

Ein weiterer wichtiger Gesichtspunkt der Erfindung besteht in der Erfassung von Signalwerten innerhalb eines Signalabschnitts des betrachteten Schallsignals entsprechend einer Vielzahl vor bestimmter Einbettungszeitfenster, jeweils mit einer vorbe stimmten Einbettungsdimension, wobei ferner zur nichtlinearen Rauschreduzierung vorbestimmte zeitliche Umgebungen der Einbet tungszeitfenster und eine Anzahl typischer, korrelierter Zu stände ermittelt werden.

Gegenstand der Erfindung ist auch die Bereitstellung einer Vor richtung zur Signalverarbeitung für Schallsignale, die insbe sondere eine Abtastschaltung zur Signalwerterfassung, eine Re chenschaltung zur Signalwertverarbeitung und eine Ausgabeein heit zur Ausgabe entrauschter Zeitreihen umfaßt.

Schließlich ist hervorzuheben, daß erstmalig die Anwendung nichtlinearer Rauschreduzierungsverfahren für deterministische Systeme zur Verarbeitung nichtstationärer und nicht-determini stischer Schallsignale beschrieben wird. Dies ist überraschend, da die Voraussetzung der an sich bekannten Rauschreduzierungs verfahren insbesondere die Stationarität und den Determinismus der zu bearbeitenden Signale umfassen. Gerade diese Vorausset zungen sind bei nichtstationären Schallsignalen bei Betrachtung des globalen Signalverlaufs verletzt. Dennoch liefert die auf bestimmte Signalprofile beschränkte Anwendung der nichtlineare Rauschreduzierung hervorragende Ergebnisse.

Die Erfindung besitzt die folgenden Vorteile. Es wird erstmalig ein Rauschreduzierungsverfahren für Schallsignale geschaffen, das im wesentlichen verzerrungsfrei arbeitet und mit einem ge ringen gerätetechnischen Aufwand implementierbar ist. Die Er findung läßt sich in Echtzeit oder nahezu in Echtzeit implemen tieren. Bestimmte Teile der erfindungsgemäßen Signalverarbei tung sind mit herkömmlichen Rauschreduzierungsverfahren kompa tibel, so daß an sich bekannte zusätzliche Korrekturverfahren oder schnelle Datenverarbeitungsalgorithmen problemlos auf die Erfindung übertragbar sind. Die Erfindung erlaubt die effektive Trennung von Leistungs- und Rauschanteilen unabhängig vom Fre quenzspektrum des Rauschens. So ist insbesondere auch sogenann tes farbiges Rauschen oder isospektrales Rauschen trennbar. Die Erfindung ist nicht nur bei stationärem Rauschen, sondern auch beim nichtstationärem Rauschen anwendbar, wenn die Zeitskala, auf der der Rauschprozeß seine Eigenschaften verändert, länger als typischerweise 100 ms ist (dies ist ein Beispielwert, der sich insbesondere auf die Bearbeitung von Sprachsignalen be zieht und bei anderen Anwendungen auch kürzer ausfallen kann).

Die Erfindung ist nicht auf die menschliche Sprache beschränkt, sondern auch bei anderen Schallquellen natürlichen oder synthe tischen Ursprungs anwendbar. Bei der Bearbeitung von Sprachsi gnalen ist es möglich, ein menschliches Sprachsignale von Hin tergrundgeräuschen zu trennen. Es ist allerdings nicht möglich, einzelne Sprachsignale voneinander zu trennen. Dies würde vor aussetzen, daß z. B. eine Stimme als Leistungsanteil und eine andere Stimme als Rauschanteil betrachtet wird. Die den Rauschanteil repräsentierende Stimme würde jedoch ein nicht be handelbares nichtstationäres Rauschen gleicher Zeitskala dar stellen.

Weitere Einzelheiten und Vorteile der Erfindung werden im fol genden unter Bezug auf die beigefügten Abbildungen beschrieben. Es zeigen:

Fig. 1 Kurvendarstellungen zur Illustration eines Sprachsi gnals;

Fig. 2 eine Kurvendarstellung eines Zeitausschnitts des in Fig. 1 illustrierten Schallsignals;

Fig. 3 ein Flußdiagramm zur Illustration des erfindungsgemä ßen Verfahrens;

Fig. 4 Kurvendarstellungen zur Illustration einer erfin dungsgemäßen Rauschreduzierung an einem Pfeifsignal;

Fig. 5 Kurvendarstellungen zur Illustration des erfindungs gemäßen Verfahrens an Sprachschallsignalen;

Fig. 6 eine Darstellung der Rauschreduzierung in Abhängig keit vom Rauschpegel;

Fig. 7 eine Kurvendarstellung zur Illustration von Korrela tionen zwischen Signalprofilen in einem Sprachsignal;

Fig. 8 eine Kurvendarstellung zur Illustration eines rauschbereinigten Sprachsignals;

Fig. 9 eine schematische Blockdarstellung einer erfindungs gemäßen Vorrichtung; und

Fig. 10 Kurvendarstellungen zur Illustration der nichtlinea ren Rauschreduzierung in deterministischen Systemen (Stand der Technik).

Die Erfindung wird im folgenden am Beispiel der Rauschreduzie rung an Sprachsignalen durch Ausnutzung der intra-phonem- Redundanz erläutert. Der Leistungsanteil des Schallsignals wird durch einen Sprachanteil x gebildet, der durch einen Rauschan teil r überlagert ist. Das Schallsignal ist in Signalabschnitte unterteilt, die beim Sprachbeispiel durch gesprochene Silben oder Phoneme gebildet werden. Die Erfindung ist jedoch nicht auf die Sprachverarbeitung beschränkt. Bei anderen Schallsigna len wird die Zuordnung der Signalabschnitte anwendungsabhängig anders gewählt. Der erfindungsgemäßen Signalverarbeitung ist jedes Schallsignal zugänglich, das an sich zwar nichtstationär ist, aber innerhalb vorbestimmter Signalabschnitte annähernd periodisch sich wiederholende Signalprofile aufweist.

Nichtlineare Rauschreduzierung in deterministischen Systemen

Im folgenden werden zunächst Einzelheiten der nichtlinearen Rauschreduzierung erläutert, wie sie an sich aus den oben zi tierten Publikationen von E. J. Kostelich et al. und P. Grass berger et al. bekannt sind. Diese Erläuterungen dienen dem Ver ständnis der herkömmlichen Technik. In Bezug auf Einzelheiten der nichtlinearen Rauschreduzierung werden hier die genannten Publikationen von E. J. Kostelich et al. und P. Grassberger et al. vollständig in die vorliegende Beschreibung einbezogen. Die Erläuterung bezieht sich auf deterministische Systeme. Die er findungsgemäße Übertragung der herkömmlichen Technik auf nicht deterministische Systeme wird unten beschrieben.

Die Zustände x eines dynamischen Systems werden durch eine Be wegungsgleichung gemäß x_n+1 = F(x_n) in einem Zustandsraum be schrieben. Die Bewegungsgleichung ist in der Regel eine kompli zierte Differentialgleichung. Falls die Funktion F nicht be kannt ist, kann sie jedoch aus langen Zeitreihen {x_k}, k = 1, . . ., N, durch Betrachtung sämtlicher Punkte in einer Umge bung (oder: Nachbarschaft) U_n eines Punktes x_n und Minimierung der Funktion (1) linear angenähert werden.

Die Größe s_n ² stellt einen Vorhersagefehler in Bezug auf die Faktoren A_n und b_n dar. Der implizite Ausdruck A_nx_k + b_n-x_k+1 = 0 illustriert, daß die Werte, die der oben genannten Bewegungs gleichung entsprechen, auf eine Hyperebene innerhalb des be trachteten Zustandsraumes beschränkt sind.

Wenn der Zustand x_k durch ein statistisches Rauschen r_k zu ei nem realen Zustand y_k = x_k + r_k überlagert ist, so wird die Um gebung U_n nicht mehr in der durch A_n und b_n gebildeten Hyperebe ne, sondern in einem Gebiet um die Hyperebene verstreut liegen.

Die nichtlineare Rauschreduzierung bedeutet nun, die verrausch ten Zustände y_n auf die Hyperebene zu projizieren. Die Projek tion der Zustände auf die Hyperebene erfolgt nach an sich be kannten Verfahren der linearen Algebra. Anschließend erfolgt die Konstruktion von Vektoren aus skalaren Zeitreihen nach dem Konzept der Zeitversatzvektoren, wie es im einzelnen von F. Takens unter dem Titel "Detecting Strange Attractors in Turbulence" in "Lecture Notes in Math", Bd. 898, Springer, New York, 1981, oder von T. Sauer et al. in "J. Stat. Phys.", Bd. 65, 1991, S. 579, und illustrativ im folgenden beschrieben wird. Auch diese Publikationen werden hiermit vollständig in die vorliegende Beschreibung einbezogen.

Ausgehend von einer skalaren Zeitreihe s_k werden Zeitversatz vektoren in einem m-dimensionalen Raum gemäß _n = (s_n, s_n-τ, . . .s_n-c(m-1)τ) gebildet. Der Parameter m ist die Ein bettungsdimension der Zeitversatzvektoren. Die Einbettungsdi mension wird anwendungsabhängig gewählt und ist größer als der doppelte Wert der fraktalen Dimension des Attraktors des be trachteten dynamischen Systems. Der Parameter τ ist ein Abta stabstand (oder: "time lag"), der den zeitlichen Abstand der aufeinanderfolgenden Elemente der Zeitreihe darstellt. Der Zeitversatzverktor ist somit ein m-dimensionaler Vektor, dessen Komponenten einen bestimmten Zeitreihenwert und die (m-1) vor hergehenden Zeitreihenwerte umfassen. Er beschreibt die zeitli che Entwicklung des Systems während eines Zeitbereichs oder Einbettungsfensters der Dauer m.τ. Mit jedem neuen Abtastwert verschiebt sich das Einbettungsfenster innerhalb der gesamten zeitlichen Entwicklung jeweils um einen Abtastabstand. Der Ab tastabstand τ ist wiederum eine anwendungsabhängig gewählte Größe. Falls sich das System wenig ändert, kann der Abtastab stand größer gewählt werden, um die Verarbeitung redundanter Daten zu vermeiden. Falls sich das System schnell ändert, muß der Abtastabstand geringer gewählt werden, da andernfalls die Korrelationen, die zwischen benachbarten Werten auftreten, Feh ler in die weitere Verarbeitung einführen würden. Die Wahl des Abtastabstandes τ ist somit ein Kompromiß zwischen der Redun danz und der Korrelation zwischen aufeinanderfolgenden Zustän den.

Die oben genannte Projektion der Zustände auf die Hyperebene erfolgt unter Verwendung der Zeitversatzvektoren entsprechend einer Berechnung, die im einzelnen von H. Kantz et al. in "Phys. Rev. E", Bd. 48, 1993, S. 1529, beschrieben ist. Auch diese Publikation wird vollständig in die vorliegende Beschrei bung einbezogen. Für jeden Zeitversatzvektor _n werden alle Nachbarn im Zeitverzögerungsraum betrachtet, d. h. die Umgebung U_n wird gebildet. Anschließend wird die Kovarianzmatrix gemäß Gleichung (2) berechnet, wobei das Zeichen ^ bedeutet, daß der Mittelwert auf der Umgebung U_n subtrahiert worden ist.

Zur Kovarianzmatrix C_ij werden die Singulär- oder Eigenwerte ermittelt. Die Vektoren, die den größten Singulärwerten ent sprechen, stellen die Richtungen dar, die die Hyperebene, die durch die oben genannten A_n und b_n definiert ist, aufspannen.

Um nun das Rauschen aus den Werten _n, zu reduzieren, werden die zugehörigen Zeitversatzvektoren auf die dominanten Richtungen, die die Hyperebene aufspannen, projiziert. Für jedes Element der skalaren Zeitreihe ergibt dies m verschiedene Korrekturen, die in geeigneter Weise kombiniert werden. Mit den rauschredu zierten Werten kann der beschriebene Vorgang zur erneuten Pro jektion wiederholt werden.

Die Berechnung der Kovarianzmatrix und Ermittlung von dominan ten Vektoren, die einer vorbestimmten Anzahl von größten Singu lärwerten entsprechen, repräsentiert die Suche nach Korrelatio nen zwischen aufeinanderfolgenden Systemzuständen. Diese Suche wird bei den deterministischen Systemen auf die bekannte oder angenommene Bewegungsgleichung des Systems bezogen. Wie die er findungsgemäße Suche nach Korrelationen zwischen Systemzustän den bei nicht-deterministischen Systemen erfolgt, wird unten beschrieben.

Nicht-lineare Rauschreduzierung in nicht-deterministischen Systemen

Um die Korrelation zwischen den Zuständen zu ermitteln, wird beim deterministischen System die angenommene zeitliche Unver ändlichkeit der Bewegungsgleichung als Zusatzinformation heran gezogen. Im Unterschied dazu erfolgt die Ermittlung der Korre lation zwischen benachbarten Zuständen bei der erfindungsgemä ßen Signalverarbeitung im nicht-deterministischen System auf der Grundlage der folgenden Zusatzinformation. Innerhalb vorbe stimmter Signalabschnitte des zu bearbeitenden Signals treten annähernd periodisch sich wiederholende Signalprofile auf. Un ter der Annahme, daß diese Signalprofile auf der nahezu unver änderten Wiederholung der unverrauschten Leistungsanteile ba sieren, können die Korrelationen zwischen engbenachbarten Zu ständen ermittelt werden. Diese Korrelationsermittlung erfolgt jedoch auf einer beschränkten Zeitskala innerhalb des Signalab schnittes. Dies wird im folgenden illustriert.

Die menschliche Sprache ist eine Aneinanderreihung von Phonemen oder Silben, die in Bezug auf die auftretenden Amplituden und Frequenzen charakteristische Muster besitzen. Diese Muster kön nen beispielsweise durch Beobachtung elektrischer Signale eines Schallwandlers (z. B. Mikrofon) erfaßt werden. Auf mittleren Zeitskalen (z. B. im Rahmen eines Wortes) ist die Sprache nicht stationär und auf langen Zeitskalen (z. B. im Rahmen eines Sat zes) hochkomplex, wobei viele aktive Freiheitsgrade und ggf. langreichweitige Korrelationen auftreten. Auf kurzen Zeitskalen (Zeitbereiche, die im wesentlichen der Länge eines Phonems oder einer Silbe entsprechen), treten im Signalverlauf repetetive Muster oder sich wiederholende Signalprofile auf, die im fol genden erläutert werden. Einzelheiten der konkreten Berechnun gen werden analog zur herkömmlichen Rauschreduzierung implemen tiert und können den o. a. Publikationen entnommen werden.

Fig. 1 zeigt als Beispiel den italienischen Gruß "Buon giorno" als Wellenzug. Dabei handelt es sich um die mit einer Ab tastfrequenz von 10 kHz aufgezeichnete Signalamplitude mit den (willkürlich normierten) Zeitreihenwerten y_n in Abhängigkeit von der dimensionslosen Zeitzählskala. Diese Signalamplitude wurde von einer extrem rauscharmen, digitalen Sprachaufzeich nung abgeleitet. Der Gesamtzeitverlauf von n = 0 bis n = 20000 ent spricht einem Zeitbereich von rd. 2 Sekunden.

Bei Darstellung eines Zeitausschnitts des in Fig. 1 gezeigten Amplitudenverlaufs mit extrem gestreckter Zeitskala ergibt sich das Bild in Fig. 2. Es zeigt sich, daß der Amplitudenverlauf innerhalb bestimmter Signalabschnitte (z. B. Phoneme) die illu strierten periodischen Wiederholungen aufweist. Ein Signalpro fil wiederholt sich bei dem dargestellten Beispiel in Zeitin tervallen einer Breite von rund 7 ms. Ein besonderer Vorteil der Erfindung besteht darin, daß die Wirksamkeit der erfin dungsgemäßen Rauschreduzierung nicht von der absoluten Exakt heit der dargestellten Periodizität abhängt. Es ist möglich, daß keine exakten Wiederholungen auftreten, sondern eine syste matische Modifikation der typischen Wellenform eines Signalpro fils innerhalb eines Phonems erfolgt. Diese Variation wird je doch bei dem unten im einzelnen erläuterten Verfahren berück sichtigt, da sie die Freiheit in den nach der Projektion Q ver bleibenden Richtungen repräsentiert. Zur Berücksichtigung der Variation (Abweichung von exakten Wiederholungen) wird hier der Begriff der annähernd periodischen Signalprofile verwendet, die sich von exakt periodischen Signalprofilen lediglich durch eine systematische Variabilität unterscheiden.

Bei einer Zeitversatzeinbettung (mit geeignet gewählten Parame tern m und τ, s. o.) bilden die gezeigten Wiederholungen benach barte Punkte im Zustandsraum (bzw. Vektoren, die auf diese Punkte gerichtet sind). Ist nun die Variabilität in diesen Punkten durch eine Überlagerung durch Rauschen größer als die natürliche Variabilität aufgrund der Nichtstationarität, so wird eine approximative Identifikation der Mannigfaltigkeit und die Projektion darauf das Rauschen stärker reduzieren als es das eigentliche Signal beeinflußt. Dies ist der Grundansatz des erfindungsgemäßen Verfahrens, das im folgenden unter Bezug auf das Flußdiagramm gemäß Fig. 3 erläutert wird.

Fig. 3 ist eine Übersichtsdarstellung, die schematisch grund sätzliche Schritte des erfindungsgemäßen Verfahrens zeigt. Die Erfindung ist jedoch nicht auf diesen Ablauf beschränkt. Anwen dungsabhängig kann eine Modifizierung in Bezug auf die Daten aufnahme, die Paramterermittlung, die eigentliche Berechnung zur Rauschreduzierung, die Trennung von Leistungs- und Rauschanteilen und die Ausgabe des Ergebnisses vorgesehen sein.

Gemäß Fig. 3 erfolgt nach dem Start 100 die Datenaufnahme 101 und die Parameterermittlung 102. Die Datenaufnahme 101 umfaßt die Aufnahme eines Schallsignals durch Umwandlung des Schalls in eine elektrische Größe. Die Datenaufnahme kann zur analogen oder digitalen Schallaufzeichnung eingerichtet sein. Anwen dungsabhängig wird das Schallsignal in einem Datenspeicher oder bei Echtzeitverarbeitung in einem Pufferspeicher (s. Fig. 9) gespeichert. Die Parameterermittlung 102 umfaßt die Auswahl von Parametern, die für die spätere Suche nach Korrelationen zwi schen benachbarten Zuständen im Schallsignal geeignet sind. Diese Parameter umfassen insbesondere die Einbettungsdimension m, den Abtastabstand τ, die zeitliche Breite der Umgebung U und die Zahl Q der Zeitversatzvektoren, auf die die Zustandsprojek tion erfolgen soll.

Bei der Sprachsignalverarbeitung kann die Einbettungsdimension m beispielsweise im Bereich von 10-50, vorzugsweise 20-30, und der Abtastabstand τ im Bereich von 1 bis 10 ms, vorzugsweise 3 bis 5 ms liegen. Dementsprechend beträgt die Dauer des Einbet tungsfensters im Bereich von rund 10 ms bis 500 ms, vorzugswei se 60 ms bis 150 ms (z. B. 80 ms). Diese Daten beziehen sich auf eine Phonemdauer von rund 40 ms bis 500 ms, vorzugsweise 50 ms bis 150 ms, bei typischen Signalprofilen im Bereich von 3 ms bis 20 ms, z. B. 5 ms bis 10 ms. Die Darstellung gemäß Fig. 2 zeigt beispielsweise Wiederholungen des Signalprofils nach je weils 7 ms. Die Parameterermittlung 102 (Fig. 3) kann im Zusam menspiel mit der Datenaufnahme 101 erfolgen oder im Rahmen ei ner Vorabanalyse durchgeführt worden sein. Bei einer Vorab analyse wird die Einbettungsdimension m und die Dimension der Mannigfaltigkeit (entsprechend dem Parameter Q), in der die un verrauschten Daten lägen, abgeschätzt. Es kann auch vorgesehen sein, daß die Parameterermittlung 102 während des Verfahrens wiederholt wird. Dies kann beispielsweise als Korrektur in Reaktion auf das Ergebnis der Leistungs-/Rausch-Trennung 109 (s. u.) erfolgen.

Auf der Grundlage der aufgenommenen Meßwerte und der festgeleg ten Parameter folgt die Signalabtastung 103. Die Signalabta stung 103 ist dazu vorgesehen, die Werte der Zeitreihen y_n ent sprechend den vorher festgelegten Abtastparametern aus den Da ten zu ermitteln. Die folgenden Schritte 104 bis 109 stellen die eigentliche Berechnung der Projektionen der realen Schall signale auf unverrauschte Schallsignale oder -zustände dar.

Der Schritt 104 umfaßt die Bildung des ersten Zeitversatzvek tors für ein erstes einer Vielzahl von sich wiederholenden Si gnalprofilen (z. B. gemäß Fig. 2). Dieser erste Zeitversatzvek tor muß sich nicht notwendigerweise auf das zeitlich zuerst er scheinende erste Signalprofil beziehen. Dies wird jedoch insbe sondere bei Echtzeit- oder Quasiechtzeitverarbeitungen bevor zugt. Der Zeitversatzvektor umfaßt als m Komponenten aufeinan derfolgende, abgetastete Signalwerte y_n. Anschließend werden bei Schritt 105 benachbarte Zeitversatzvektoren (Nachbarvekto ren) gebildet bzw. erfaßt. Die Nachbarvektoren beziehen sich auf Signalprofile in der zeitlichen Umgebung des zuerst be trachteten Signalprofils bzw. Zeitversatzvektors. Die Zahl der Nachbarvektoren entspricht im wesentlichen der Zahl sich wie derholender Signalprofile innerhalb des betrachteten Signalab schnittes. Bei der Sprachverarbeitung wiederholen sich etwa 20 Signalprofile innerhalb eines Phonems. Die Zahl der ermittelten Nachbarvektoren ist kleiner oder gleich der Zahl sich wiederho lender Signalprofile und beträgt beispielsweise rund 5 bis 20.

Anschließend folgt die Berechnung der Kovarianzmatrix 106 ent sprechend der oben angegeben Gleichung (2). Die zugrundeliegen de Umgebung U wird durch den Signalabschnitt mit den sich wie derholenden Signalprofilen bzw. durch die zeitliche Lage der in Betracht gezogenen Zeitversatzvektoren definiert. Der Schritt 106 umfaßt auch die Ermittlung der Q größten Singulärwerte der Kovarianzmatrix und der dazugehörigen Zeitversatzvektoren.

Im Rahmen der folgenden Projektion 107 werden alle Anteile des ersten Zeitversatzvektors, die nicht in dem von den Q ermittel ten dominanten Vektoren aufgespannten Unterraum liegen, elimi niert. Der Wert Q liegt im Bereich von rund 2 bis 10, vorzugs weise 4 bis 6.

Die verhältnismäßig geringe Zahl Q, die die Dimension des U_n terraumes repräsentiert, auf die die Zustände bzw. Signale pro jiziert werden, stellt einen besonderen Vorteil der Erfindung dar. Es wurde festgestellt, daß die Wellendynamik innerhalb ei nes gegebenen Phonems nur relativ wenige Freiheitsgrade be sitzt, wenn sie einmal innerhalb eines hochdimensionalen Raumes identifiziert worden ist. Daher sind auch verhältnismäßig weni ge Nachbarzustände für die Projektionsberechnung erforderlich. Für die Erfassung der Korrelation zwischen den Signalprofilen sind nur die größten Singulärwerte und entsprechenden Singulär vektoren der Kovarianzmatrix relevant. Dieses Ergebnis ist überraschend, da die nicht-lineare Rauschreduzierung an sich für deterministische Systeme mit umfangreichen Zeitreihen entwic kelt wurde. Außerdem ergibt sich als besonderer Vorteil ein verhältnismäßig geringer Zeitaufwand für die Berechnung.

Anschließend wird der nächste Zeitversatzvektor bei Schritt 108 ausgewählt und die Schrittfolge 105-107 wiederholt. Diese Wie derholung erfolgt, bis sämtliche Zeitversatzvektoren innerhalb der betrachteten Umgebung U abgearbeitet sind.

Die Bildung bzw. Erfassung der Nachbarvektoren (Schritt 105) erfolgt übrigens bei einer höheren Dimension als die Projektion 107. Die hohe Dimension bei der Nachbarsuche garantiert die Auswahl der richtigen Nachbarn, die aber an sich, wie oben aus geführt, lokal wesentlich weniger Freiheitsgrade repräsentie ren, so daß innerhalb des durch die Singulärvektoren aufge spannten Unterraumes niedrigdimensional und schnell gearbeitet werden kann. Für Echtzeitanwendungen erfolgt die Schallsignal verarbeitung im wesentlichen für die Phoneme aufeinanderfol gend, so daß Phonem für Phonem komplett abgearbeitet und so ein entrauschtes Ausgangssignal erzeugt wird. Dieses Ausgangssignal ist gegenüber dem erfaßten Schallsignal (Eingangssignal) um rund 100-200 ms verzögert (Echtzeit- oder auch Quasi-Echtzeit anwendung).

Die Schritte 109 und 110 betreffen die Bildung des eigentlichen Ausgangssignals. Der Schritt 109 ist auf die Trennung von Lei stungs- und Rauschsignalen gerichtet. Ein entrauschtes Zeitrei henelement s_k wird durch Mittlung über die korrespondierenden Elemente aus allen Zeitversatzvektoren, die dieses Element ent halten, gebildet. Statt einer einfachen Mittlung kann eine ge wichtete Mittlung eingeführt werden. Nach Schritt 109 kann ein Rücksprung vor Schritt 104 vorgesehen sein. Die entrauschten Zeitreihenelemente bilden dann die Eingangsgrößen für die er neute Bildung von Zeitversatzvektoren und deren Projektion auf den Unterraum entsprechend den Singulärvektoren. Diese Verfah renswiederholung ist nicht notwendig, kann aber zur Verbesse rung der Rauschreduzierung z. B. 2- oder 3-fach vorgesehen sein. Nach Schritt 109 kann aber auch ein Rücksprung zur Parameterer mittlung 102 vorgesehen sein, falls der nach Schritt 109 vor liegende Leistungsanteil sich weniger als erwartet (z. B. durch weniger als einen vorbestimmten Schwellwert) vom unverarbeite ten Schallsignale unterscheidet. Hierzu können im Verfahrensab lauf nicht dargestellte Entscheidungsmechanismen eingebaut sein. Bei Schritt 110 folgt die Datenausgabe. Bei der Rauschre duzierung wird als Leistungsanteil das rauschreduzierte Sprach signal ausgegeben. Alternativ kann aber auch anwendungsabhängig gerade die Ausgabe oder Speicherung des Rauschanteils vorgese hen sein.

Beispiele

Im folgenden wird die erfindungsgemäße Signalverarbeitung an zwei Beispielen illustriert. Beim ersten Beispiel ist das ver arbeitete Schallsignale ein menschlicher Pfiff (s. Fig. 4). Das zweite Beispiel betrifft die oben genannten Worte "Buon giorno" (s. Fig. 5 bis 8).

Fig. 4 zeigt das Leistungsspektrum für einen menschlichen Pfiff der Dauer 3 s. Ein Pfiff ist ein im wesentlichen periodisches Signal mit charakteristischen Harmonischen und nur geringen Nicht-Stationaritäten. Fig. 4a zeigt den Amplitudenverlauf der Originalaufzeichnung. Nach numerischer Addition eines 10-%igen Rauschens ergibt sich das in Fig. 4b dargestellte Spektrum. Dieses liefert die Eingangsdaten für Schritt 101 des Verfah rensablaufes (Fig. 3). Nach der erfindungsgemäßen Rauschredu zierung ergibt sich das in Fig. 4c gezeigte Bild. Dieses zeigt die vollständige Wiederherstellung des ursprünglichen, unver rauschten Signals. Die Fig. 4a bis 4c zeigen einen besonde ren Vorteil der Erfindung gegenüber einem herkömmlichen Filter im Frequenzraum. Ein Filter im Frequenzraum würde alle Lei stungsanteile mit Amplituden unterhalb 10^-6 abschneiden, so daß das entrauschte Spektrum nur noch den Peak bei 0 und den Peak um die Grundfrequenz enthielte. Dementsprechend wäre die aus der Rücktransformation gewonnene Zeitreihe völlig ohne Ober schwingungen, was sich sehr synthetisch anhören würde. Diese Nachteile werden bei der erfindungsgemäßen Rauschreduzierung vermieden.

Fig. 5 zeigt entsprechende Ergebnisse am Beispiel von Kurven darstellungen für die Verarbeitung von Sprachsignalen. In Fig. 5a ist ein Ausschnitt aus dem unverrauschten Wellenzug der Wor te "Buon giorno" bezogen auf den Signalverlauf gemäß Fig. 1 analog zu Fig. 2 gezeigt. Es ist die zeitlich begrenzte Wieder holung von Signalprofilen erkennbar, die die zur Reduktion des Rauschens notwendige Redundanz enthält. Fig. 5b zeigt den Wel lenzug nach Addition eines synthetischen Rauschens. Nach der erfindungsgemäßen Rauschreduzierung ergibt sich das Bild gemäß Fig. 5c. Es zeigt sich, daß das Originalsignal zum größten Teil rekonstruiert werden konnte.

Die Funktionsfähigkeit der erfindungsgemäßen Rauschreduzierung wurde in verschiedenen Rauscharten und -amplituden geprüft. Als Maß für die Leistungsfähigkeit der Rauschreduzierung kann die Dämpfung D (in dB) gemäß Gleichung (3) betrachtet werden.

D = 10 log ((Σ(_k-x_x)²)/(Σ(y_k-x_k)²)) (12)

In Gleichung (3) steht x_k für das unverrauschte Signal (Lei stungsanteil), y_k für das verrauschte Signal (Eingangs- Schallsignal) und _k für das Signal nach der erfindungsgemäßen Rauschreduzierung.

Fig. 6 illustriert die Abhängigkeit der Dämpfung D der nichtli near Rauschreduzierung in Abhängigkeit von der relativen Rau schamplitude (Varianz des Rauschanteils. Varianz des Leistungsanteils). Es zeigt sich, daß die Dämpfung ein Maximum für relative Rauschamplituden im Bereich von rund 10% besitzt. Negative Dämpfungen bei niedrigen Rauschamplituden zeigen an, daß schwach gestörte Signale durch die erfindungsgemäße Rauschreduzierung selbst gestört werden.

Die Fig. 7 und 8 zeigen weitere Einzelheiten der Sprach rauschreduzierung. Fig. 7 illustriert das Auftreten sich wie derholender Signalprofile innerhalb des im oberen Teil der Fi gur gezeigten Phonemzuges. In Abhängigkeit von einem (willkür lichen) Zeitindex i ist im unteren Teil der Figur ein Kurven bild gedruckt, das aus unter den folgenden Bedingungen gebilde ten Punkten besteht. Für jeden Zeitpunkt i wird der zugehörige Zeitversatzvektor _i und die Menge aller Zeitversatzvektoren _j,i betrachtet. Falls der Betrag des Differenzvektors zwischen dem _i und jedem _j kleiner als eine vorbestimmte Grenze ist, wird ein Punkt gedrückt. Die Punkte bilden mehr oder wenige ausgedehnte Linien. Die Linienstrukturen zeigen, daß innerhalb der Phoneme die oben erläuterten Periodizitäten der Signalpro file auftreten. Für Linienstrukturen, die in Ordinatenrichtung besonders ausgedehnt sind, gilt, daß die Anzahl von intra- Phonem-Nachbarn besonders groß ist. Es zeigt sich jedoch auch, daß in der Regel für |i-j| < 2000 keine Wiederholungen auftre ten.

Fig. 8 zeigt wiederum am Beispiel der Worte "Buon giorno" im oberen Teil der Figur das unverrauschte Signal, im mittleren Teil das synthetisch hinzugefügte Rauschen und im unteren Teil das nach der Rauschreduzierung verbliebene Rauschen. Die Ordi natenskalierung ist in allen drei Fällen identisch. Das ver bleibende Rauschen (unterster Teil der Figur) zeigt eine syste matische Variation, die darauf hinweist, daß der Erfolg der er findungsgemäßen Rauschreduzierung selbst vom Schallsignal, d. h. vom konkreten Phonem, abhängt.

Gegenstand der Erfindung ist auch eine Vorrichtung zur Imple mentierung des erfindungsgemäßen Verfahrens. Gemäß Fig. 9 um faßt eine Rauschreduzierungsanordnung einen Meßwertaufnehmer 91, einen Datenspeicher 92 und/oder einen Pufferspeicher 93, eine Abtastschaltung 94, eine Rechenschaltung 95 und eine Aus gabeeinheit 96.

Die hier vorgestellten Komponenten der erfindungsgemäßen Vor richtung werden vorzugsweise als festverschaltete Schalt kreisanordnung oder als interierter Chip hergestellt.

Im folgenden werden bevorzugte Anwendungen der Erfindung ge nannt. Neben der bereits genannten Rauschreduzierung an Sprach signalen ist die Erfindung auch bei der Rauschreduzierung an Hörgeräten und zur Verbesserung der computergestützten automa tischen Spracherkennung anwendbar. In Bezug auf die Spracher kennung kann insbesondere vorgesehen sein, die entrauschten Zeitreihenwerte bzw. Sektoren mit Tabellenwerten zu verglei chen. Die Tabellenwerte repräsentieren entsprechende Werte bzw. Vektoren vorbestimmter Phoneme. Eine automatische Spracherken nung kann somit mit dem Rauschreduzierungsverfahren integriert werden.

Weitere Anwendungen liegen im Bereich der Telekommunikation und bei der Signalverarbeitung anderer Schallquellen als der menschlichen Sprache. Hierzu zählen beispielsweise Tierstimmen oder auch Musik.

Claims

1. Verfahren zur Signalverarbeitung eines Schallsignals y, bei dem innerhalb vorbestimmter Signalabschnitte des Schallsignals annähernd periodische Signalprofile erfaßt und Korrelationen zwischen den Signalprofilen ermittelt werden, wobei korrelierte Signalanteile einem Leistungs anteil und unkorrelierte Signalanteile einem Rauschanteil des Schallsignals zugeordnet werden.

2. Verfahren gemäß Anspruch 1, bei dem die Korrelationen zwischen den Signalprofilen mit Verfahren der nicht- linearen Rauschreduzierung in deterministischen Systemen ermittelt werden.

3. Verfahren gemäß Anspruch 1, bei dem das Schallsignal y, das sich aus einem Sprachanteil x und einem Rauschanteil r zusammensetzt in jedem Signalabschnitt gemäß den fol genden Schritten verarbeitet wird:

a) Erfassung einer Vielzahl von Schallsignalwerten y_k = x_k + r_k mit einem Abtastabstand τ,
b) Bildung einer vorbestimmten Anzahl von N Zeitver satzvektoren, von denen jeder aus Komponenten be steht, deren Anzahl m eine Einbettungsdimension der Zeitversatzvektoren und deren Werte y_k ein Einbet tungsfenster der Breite m.τ darstellen, in einer vorbestimmten Umgebung U, in der die annähernd pe riodischen Signalprofile auftreten,
c) Ermittlung von Korrelationen zwischen den Zeitver satzvektoren und Projektion der Zeitversatzvektoren auf vorbestimmte Singulärwertvektoren, und
d) Ermittlung von Nutzsignalwerten, die ein Sprachsi gnal, das im wesentlichen dem Sprachanteil x_k ent spricht und/oder ein Rauschsignal bilden, das im wesentlichen dem Rauschanteil r_k entspricht.

4. Verfahren gemäß Anspruch 3, bei der die Zahl N der gebil deten Zeitversatzvektoren der Zahl der sich im Signalab schnitt annähernd periodisch wiederholenden Signalprofile entspricht.

5. Verfahren gemäß Anspruch 3, bei dem die Korrelationen zwischen den Zeitversatzvektoren durch Berechnung einer Kovarianzmatrix im betrachteten Signalabschnitt erfolgt.

6. Verfahren gemäß Anspruch 3, bei dem die Schritte b) bis c) mit den Nutzsignalwerten mindestens einmal wiederholt werden.

7. Verfahren gemäß Anspruch 3, bei dem das Schallsignal ein Sprachsignal ist.

8. Verfahren gemäß einem der Ansprüche 3 bis 7, bei dem der Abtastabstand im Bereich von 1 bis 10 ms und die Dauer des Einbettungsfensters im Bereich von rund 10 bis 500 ms liegen.

9. Vorrichtung zur Durchführung eines Verfahrens gemäß einem der vorhergehenden Ansprüche, die einen Meßwertaufnehmer (91), einen Datenspeicher (92) und/oder einen Pufferspei cher (93), eine Abtastschaltung (94), eine Rechenschal tung (95) und eine Ausgabeeinheit (96) aufweist.

10. Verwendung eines Verfahrens gemäß einem der Ansprüche 1 bis 8 zur Rauschreduzierung an Sprachsignalen in der Te lekommunikation, in Hörgeräten oder bei der automatischen Spracherkennung.

11. Verwendung nicht-linearer Rauschreduzierungsverfahren für deterministische Systeme zur Rauschreduzierung von Sprachsignalen.