DE19859174C1 - Verfahren und Vorrichtung zur Verarbeitung rauschbehafteter Schallsignale - Google Patents

Verfahren und Vorrichtung zur Verarbeitung rauschbehafteter Schallsignale

Info

Publication number
DE19859174C1
DE19859174C1 DE19859174A DE19859174A DE19859174C1 DE 19859174 C1 DE19859174 C1 DE 19859174C1 DE 19859174 A DE19859174 A DE 19859174A DE 19859174 A DE19859174 A DE 19859174A DE 19859174 C1 DE19859174 C1 DE 19859174C1
Authority
DE
Germany
Prior art keywords
signal
noise
noise reduction
profiles
time offset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE19859174A
Other languages
English (en)
Inventor
Rainer Hegger
Holger Kantz
Lorenzo Matassini
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Max Planck Gesellschaft zur Foerderung der Wissenschaften eV
Original Assignee
Max Planck Gesellschaft zur Foerderung der Wissenschaften eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Max Planck Gesellschaft zur Foerderung der Wissenschaften eV filed Critical Max Planck Gesellschaft zur Foerderung der Wissenschaften eV
Priority to DE19859174A priority Critical patent/DE19859174C1/de
Priority to US09/465,643 priority patent/US6502067B1/en
Priority to EP99125575A priority patent/EP1014340A3/de
Priority to JP11363321A priority patent/JP2000194400A/ja
Application granted granted Critical
Publication of DE19859174C1 publication Critical patent/DE19859174C1/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02163Only one microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2225/00Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
    • H04R2225/43Signal processing in hearing aids to enhance the speech intelligibility

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Zur Signalverarbeitung eines Schallsignals y, bei dem innerhalb vorbestimmter Signalabschnitte des Schallsignals periodische Signalprofile erfaßt und Korrelationen zwischen den Signalprofilen ermittelt werden, erfolgt eine Zuordnung korrelierter Signalanteile zu einem Leistungsanteil und unkorrelierter Signalanteile zu einem Rauschanteil des Schallsignals. Die Korrelationen zwischen den Signalprofilen werden mit Verfahren der nicht-linearen Rauschreduzierung in deterministischen Systemen ermittelt.

Description

Die Erfindung betrifft Verfahren zur Verarbeitung rauschbehaf­ teter Schallsignale, insbesondere zur nichtlinearen Rauschredu­ zierung in Sprachsignalen, zur nichtlinearen Trennung von Lei­ stungs- und Rauschsignalen und zur Anwendung nichtlinearer Zeitreihenanalysen, die auf dem Konzept des niedrigdimensiona­ len deterministischen Chaos beruhen. Die Erfindung betrifft auch eine Vorrichtung zur Implementierung der Verfahren und de­ ren Verwendung.
Die Rauschreduzierung bei der Aufnahme, Speicherung, Übertra­ gung oder Wiedergabe menschlicher Sprache besitzt eine hohe technische Relevanz. Rauschen kann als reine Meßungenauigkeit z. B. in Form des Digitalfehlers bei Ausgabe von Schallamplitu­ den, als Rauschen im Übertragungskanal oder als dynamisches Rauschen durch die Kopplung des betrachteten Systems mit der Außenwelt auftreten. Beispiele für Rauschreduzierungen der menschlichen Sprache sind allgemein aus der Telekommunikation, der automatischen Spracherkennung oder dem Einsatz elektroni­ scher Hörhilfen bekannt. Das Problem der Rauschreduzierung tritt nicht nur bei menschlicher Sprache, sondern auch bei an­ deren Arten von Schallsignalen, und nicht nur bei stochasti­ schem Rauschen, sondern auch bei allen Formen der Überlagerung eines relevanten Schallsignals durch Fremdgeräusche auf. Es be­ steht ein Interesse an einem Signalverarbeitungsverfahren, mit dem stark aperiodische und nicht-stationäre Schallsignale in Bezug auf Leistungs- und Rauschanteile analysiert, manipuliert oder getrennt werden können.
Ein typischer Ansatz zur Rauschreduzierung, d. h. zur Zerlegung eines Signals in bestimmte Leistungs- und Rauschanteile, beru­ hen auf einer Signalfilterung im Frequenzbereich. Im einfach­ sten Fall erfolgt die Filterung mit Bandpaßfiltern, woraus je­ doch das folgende Problem entsteht. In der Regel ist stochasti­ sches Rauschen breitbandig (häufig sogenanntes "weißes Rau­ schen"). Wenn das Leistungssignal jedoch selbst stark aperiodisch und somit breitbandig ist, wird mit dem Frequenz­ filter auch ein Leistungssignalanteil zerstört, woraus sich un­ zulängliche Ergebnisse ergeben. Soll z. B. bei einer Sprachüber­ tragung die menschliche Sprache durch einen Tiefpaßfilter von hochfrequentem Rauschen befreit werden, so wird das Sprachsi­ gnal verzerrt.
Ein weiterer allgemein bekannter Ansatz zur Rauschreduzierung besteht in der Rauschkompensation bei Schallaufnahmen. Dabei wird beispielsweise mit einem ersten Mikrofon die von einem Lärmpegel in einem Raum überlagerte menschliche Sprache und mit einem zweiten Mikrofon ein Schallsignal aufgenommen, das im we­ sentlichen den Lärmpegel repräsentiert. Vom Meßsignal des zwei­ ten Mikrofons wird ein Kompensationssignal abgeleitet, das bei Überlagerung mit dem Meßsignal des ersten Mikrofons das Rau­ schen aus dem umgebenden Raum kompensiert. Diese Technik ist aufgrund des relativ hohen Geräteaufwandes (Einsatz spezieller Mikrofone mit Richtcharakteristik) und wegen des eingeschränk­ ten Einsatzbereiches z. B. bei der Sprachaufnahme nachteilig.
Es sind ferner Verfahren zur nichtlinearen Zeitreihenanalyse auf der Grundlage des Konzepts des niedrigdimensionalen deter­ ministischen Chaos bekannt. Da in fast allen Bereichen unserer täglichen Umwelt, aber auch in vielen Bereichen der Wissen­ schaft und Technik komplexes dynamisches Verhalten eine wichti­ ge Rolle spielt, z. B. wenn Vorgänge in der Medizin, Ökonomie, Signaltechnik oder Meteorologie aperiodische, schwer vorhersag­ bare und oft auch schwer klassifizierbare Signale liefern, stellt die Zeitreihenanalyse einen grundsätzlichen Ansatz dar, aus beobachteten Daten möglichst viel über die Eigenschaften oder den Zustand eines Systems zu lernen. Bekannte Analysever­ fahren zum Verständnis aperiodischer Signale werden z. B. von H. Kantz et al. in "Nonlinear Time Series Analysis", Cambridge University Press, Cambridge, 1997, oder von H. D. I. Abarbanel in "Analysis of Observed Chaotic Data", Springer, New York, 1996 beschrieben. Diese Verfahren basieren auf dem Konzept des deterministischen Chaos. Deterministisches Chaos bedeutet, daß zwar ein Systemzustand zu einem bestimmten Zeitpunkt in eindeu­ tiger Weise den Systemzustand zu jedem beliebigen späteren Zeitpunkt festlegt, das System aber dennoch über längere Zeit unvorhersagbar ist. Dies ergibt sich daraus, daß der aktuelle Systemzustand mit einem unvermeidlichen Fehler erfaßt wird, dessen Wirkung je nach Bewegungsgleichung des Systems exponen­ tiell wächst, so daß nach relativ kurzer Zeit ein simulierter Modellzustand mit dem Realzustand des Systems keine Ähnlichkeit mehr besitzt.
Für Zeitreihen deterministischer chaotischer Systems wurden Verfahren zur Rauschunterdrückung entwickelt, die keine Tren­ nung im Frequenzbereich vornehmen, sondern explizit auf die de­ terministische Struktur des Signals zurückgreifen. Diese Ver­ fahren werden beispielsweise von P. Grassberger et al. in "CHAOS", Bd. 3, 1993, S. 127, von H. Kantz et al. (s. o.) und von E. J. Kostelich et al. in "Phys. Rev. E", Bd. 48, 1993, S. 1752, beschrieben. Das Prinzip der Rauschunterdrückung für de­ terministische Systeme wird im folgenden unter Bezug auf Fig. 10a beschrieben.
Fig. 10 zeigt schematisch die Abhängigkeit aufeinanderfolgender Zeitreihenwerte für rauschfreie bzw. verrauschte Systeme (am Beispiel eines eindimensionalen Zusammenhangs). Die rausch­ freien Daten eines deterministischen Systems liefern das in Fig. 10a gezeigte Bild. Es besteht eine exakte (hier: eindimen­ sionale) deterministische Beziehung zwischen einem Wert und dem Folgewert. Die Zeitversatzvektoren, zu denen Einzelheiten wei­ ter unten erläutert werden, liegen in einer niedrigdimensiona­ len Mannigfaltigkeit im Einbettungsraum. Bei Einführung von Rauschen wird die deterministische Beziehung durch eine appro­ ximative Beziehung ersetzt. Die Daten liegen nicht mehr auf der Untermannigfaltigkeit, sondern in ihrer Nähe (Fig. 10b). Die Unterscheidung von Leistung und Rauschen erfolgt über die Di­ mensionalität. Alles, was aus der Untermannigfaltigkeit heraus­ führt, ist auf den Einfluß des Rauschens zurückzuführen.
Dementsprechend erfolgt die Rauschunterdrückung für determini­ stisch chaotische Signale in drei Schritten. Zuerst wird die Dimension m des Einbettungsraumes und die Dimension der Mannig­ faltigkeit, in der die unverrauschten Daten lägen, abgeschätzt. Zur eigentlichen Korrektur wird dann für jeden einzelnen Punkt die Mannigfaltigkeit in seiner Nähe identifiziert und schließ­ lich zur Rauschreduzierung der betrachtete Punkt auf die Man­ nigfaltigkeit projiziert (Fig. 10c).
Der Nachteil der illustrierten Rauschunterdrückung besteht in deren Beschränkung auf deterministische Systeme. In einem nicht-deterministischen System, in dem also kein eindeutiger Zusammenhang zwischen einem Zustand und einem Folgezustand be­ steht, ist das Konzept der Identifizierung einer Bewegungsglei­ chung und der Betrachtung einer glatten Mannigfaltigkeit, wie es in Fig. 10 illustriert ist, nicht anwendbar. So bilden bei­ spielsweise die Signalamplituden von Sprachsignalen Zeitreihen, die unvorhersagbar sind und den Zeitreihen nicht-determini­ stischer Systeme entsprechen.
Die Anwendbarkeit der herkömmlichen nichtlinearen Rauschredu­ zierung ist für Sprachsignale insbesondere aus den folgenden Gründen bisher ausgeschlossen. Die menschliche Sprache (aber auch andere Schallsignale natürlichen oder synthetischen Ur­ sprungs) ist in der Regel hochgradig nichtstationär. Die Spra­ che ist aus einer Verkettung von Phonemen zusammengesetzt. Die Phoneme wechseln sich ständig ab, so daß sich die Sprachdynamik laufend ändert. Beispielsweise enthalten Zisch-Laute vorrangig hohe Frequenzen und Vokale (z. B. "o") vorrangig niedrige Fre­ quenzen. Damit wären zur Beschreibung der Sprache Bewegungs­ gleichungen erforderlich, die sich ständig im Zeitverlauf än­ dern. Die Existenz einer einheitlichen Bewegungsgleichung ist jedoch Voraussetzung für das unter Bezug auf Fig. 10 beschrie­ bene Konzept der Rauschunterdrückung.
Es ist die Aufgabe der Erfindung, ein verbessertes Signalverar­ beitungsverfahren für Schallsignale, insbesondere für ver­ rauschte Sprachsignale, anzugeben, mit dem eine effektive und schnelle Trennung von Leistungs- und Rauschanteilen des be­ trachteten Schallsignals möglichst verzerrungsfrei möglich ist. Die Aufgabe der Erfindung ist es auch, Vorrichtungen zur Imple­ mentierung eines derartigen Verfahrens anzugeben.
Diese Aufgaben werden durch ein Verfahren bzw. durch eine Vor­ richtung mit den Merkmalen gemäß den Patentansprüchen 1 bzw. 9 gelöst. Vorteilhafte Ausführungsformen und Verwendungen der Er­ findung ergeben sich aus den abhängigen Ansprüchen.
Ein erster wichtiger Gesichtspunkt der Erfindung besteht insbe­ sondere darin, nichtstationäre Schallsignale, bestehend aus Leistungs- und Rauschanteilen, mit einer derart hohen Ab­ tastrate zu erfassen, daß vorbestimmte Signalprofile innerhalb des betrachteten Schallsignals als periodische oder annähernd periodische Wiederholungen dargestellt werden können. Auf die Begriffe der periodischen bzw. annähernd periodischen Wiederho­ lungen wird gesondert weiter unten eingegangen. Im folgenden wird einheitlich der Begriff der annähernd periodischen Signal­ profile verwendet. Die damit erfaßten Zeitreihen von Schallsi­ gnalen liefern Wellenformen, die sich zumindest über bestimmte Signalabschnitte des Schallsignals wiederholen und eine zeit­ lich begrenzte Anwendung des oben genannten, an sich bekannten Konzepts der nichtlinearen Rauschreduzierung erlauben.
Gemäß einem weiteren wichtigen Gesichtspunkt der Erfindung wer­ den innerhalb eines betrachteten Schallsignals annähernd peri­ odische Signalprofile erfaßt und Korrelationen zwischen den Si­ gnalprofilen ermittelt, um korrelierte Signalanteile einem Lei­ stungsanteil und unkorrelierte Signalanteile einem Rauschanteil des Schallsignals zuzuordnen.
Ein weiterer wichtiger Gesichtspunkt der Erfindung besteht in der Erfassung von Signalwerten innerhalb eines Signalabschnitts des betrachteten Schallsignals entsprechend einer Vielzahl vor­ bestimmter Einbettungszeitfenster, jeweils mit einer vorbe­ stimmten Einbettungsdimension, wobei ferner zur nichtlinearen Rauschreduzierung vorbestimmte zeitliche Umgebungen der Einbet­ tungszeitfenster und eine Anzahl typischer, korrelierter Zu­ stände ermittelt werden.
Gegenstand der Erfindung ist auch die Bereitstellung einer Vor­ richtung zur Signalverarbeitung für Schallsignale, die insbe­ sondere eine Abtastschaltung zur Signalwerterfassung, eine Re­ chenschaltung zur Signalwertverarbeitung und eine Ausgabeein­ heit zur Ausgabe entrauschter Zeitreihen umfaßt.
Schließlich ist hervorzuheben, daß erstmalig die Anwendung nichtlinearer Rauschreduzierungsverfahren für deterministische Systeme zur Verarbeitung nichtstationärer und nicht-determini­ stischer Schallsignale beschrieben wird. Dies ist überraschend, da die Voraussetzung der an sich bekannten Rauschreduzierungs­ verfahren insbesondere die Stationarität und den Determinismus der zu bearbeitenden Signale umfassen. Gerade diese Vorausset­ zungen sind bei nichtstationären Schallsignalen bei Betrachtung des globalen Signalverlaufs verletzt. Dennoch liefert die auf bestimmte Signalprofile beschränkte Anwendung der nichtlineare Rauschreduzierung hervorragende Ergebnisse.
Die Erfindung besitzt die folgenden Vorteile. Es wird erstmalig ein Rauschreduzierungsverfahren für Schallsignale geschaffen, das im wesentlichen verzerrungsfrei arbeitet und mit einem ge­ ringen gerätetechnischen Aufwand implementierbar ist. Die Er­ findung läßt sich in Echtzeit oder nahezu in Echtzeit implemen­ tieren. Bestimmte Teile der erfindungsgemäßen Signalverarbei­ tung sind mit herkömmlichen Rauschreduzierungsverfahren kompa­ tibel, so daß an sich bekannte zusätzliche Korrekturverfahren oder schnelle Datenverarbeitungsalgorithmen problemlos auf die Erfindung übertragbar sind. Die Erfindung erlaubt die effektive Trennung von Leistungs- und Rauschanteilen unabhängig vom Fre­ quenzspektrum des Rauschens. So ist insbesondere auch sogenann­ tes farbiges Rauschen oder isospektrales Rauschen trennbar. Die Erfindung ist nicht nur bei stationärem Rauschen, sondern auch beim nichtstationärem Rauschen anwendbar, wenn die Zeitskala, auf der der Rauschprozeß seine Eigenschaften verändert, länger als typischerweise 100 ms ist (dies ist ein Beispielwert, der sich insbesondere auf die Bearbeitung von Sprachsignalen be­ zieht und bei anderen Anwendungen auch kürzer ausfallen kann).
Die Erfindung ist nicht auf die menschliche Sprache beschränkt, sondern auch bei anderen Schallquellen natürlichen oder synthe­ tischen Ursprungs anwendbar. Bei der Bearbeitung von Sprachsi­ gnalen ist es möglich, ein menschliches Sprachsignale von Hin­ tergrundgeräuschen zu trennen. Es ist allerdings nicht möglich, einzelne Sprachsignale voneinander zu trennen. Dies würde vor­ aussetzen, daß z. B. eine Stimme als Leistungsanteil und eine andere Stimme als Rauschanteil betrachtet wird. Die den Rauschanteil repräsentierende Stimme würde jedoch ein nicht be­ handelbares nichtstationäres Rauschen gleicher Zeitskala dar­ stellen.
Weitere Einzelheiten und Vorteile der Erfindung werden im fol­ genden unter Bezug auf die beigefügten Abbildungen beschrieben. Es zeigen:
Fig. 1 Kurvendarstellungen zur Illustration eines Sprachsi­ gnals;
Fig. 2 eine Kurvendarstellung eines Zeitausschnitts des in Fig. 1 illustrierten Schallsignals;
Fig. 3 ein Flußdiagramm zur Illustration des erfindungsgemä­ ßen Verfahrens;
Fig. 4 Kurvendarstellungen zur Illustration einer erfin­ dungsgemäßen Rauschreduzierung an einem Pfeifsignal;
Fig. 5 Kurvendarstellungen zur Illustration des erfindungs­ gemäßen Verfahrens an Sprachschallsignalen;
Fig. 6 eine Darstellung der Rauschreduzierung in Abhängig­ keit vom Rauschpegel;
Fig. 7 eine Kurvendarstellung zur Illustration von Korrela­ tionen zwischen Signalprofilen in einem Sprachsignal;
Fig. 8 eine Kurvendarstellung zur Illustration eines rauschbereinigten Sprachsignals;
Fig. 9 eine schematische Blockdarstellung einer erfindungs­ gemäßen Vorrichtung; und
Fig. 10 Kurvendarstellungen zur Illustration der nichtlinea­ ren Rauschreduzierung in deterministischen Systemen (Stand der Technik).
Die Erfindung wird im folgenden am Beispiel der Rauschreduzie­ rung an Sprachsignalen durch Ausnutzung der intra-phonem- Redundanz erläutert. Der Leistungsanteil des Schallsignals wird durch einen Sprachanteil x gebildet, der durch einen Rauschan­ teil r überlagert ist. Das Schallsignal ist in Signalabschnitte unterteilt, die beim Sprachbeispiel durch gesprochene Silben oder Phoneme gebildet werden. Die Erfindung ist jedoch nicht auf die Sprachverarbeitung beschränkt. Bei anderen Schallsigna­ len wird die Zuordnung der Signalabschnitte anwendungsabhängig anders gewählt. Der erfindungsgemäßen Signalverarbeitung ist jedes Schallsignal zugänglich, das an sich zwar nichtstationär ist, aber innerhalb vorbestimmter Signalabschnitte annähernd periodisch sich wiederholende Signalprofile aufweist.
Nichtlineare Rauschreduzierung in deterministischen Systemen
Im folgenden werden zunächst Einzelheiten der nichtlinearen Rauschreduzierung erläutert, wie sie an sich aus den oben zi­ tierten Publikationen von E. J. Kostelich et al. und P. Grass­ berger et al. bekannt sind. Diese Erläuterungen dienen dem Ver­ ständnis der herkömmlichen Technik. In Bezug auf Einzelheiten der nichtlinearen Rauschreduzierung werden hier die genannten Publikationen von E. J. Kostelich et al. und P. Grassberger et al. vollständig in die vorliegende Beschreibung einbezogen. Die Erläuterung bezieht sich auf deterministische Systeme. Die er­ findungsgemäße Übertragung der herkömmlichen Technik auf nicht deterministische Systeme wird unten beschrieben.
Die Zustände x eines dynamischen Systems werden durch eine Be­ wegungsgleichung gemäß xn+1 = F(xn) in einem Zustandsraum be­ schrieben. Die Bewegungsgleichung ist in der Regel eine kompli­ zierte Differentialgleichung. Falls die Funktion F nicht be­ kannt ist, kann sie jedoch aus langen Zeitreihen {xk}, k = 1, . . ., N, durch Betrachtung sämtlicher Punkte in einer Umge­ bung (oder: Nachbarschaft) Un eines Punktes xn und Minimierung der Funktion (1) linear angenähert werden.
Die Größe sn 2 stellt einen Vorhersagefehler in Bezug auf die Faktoren An und bn dar. Der implizite Ausdruck Anxk + bn-xk+1 = 0 illustriert, daß die Werte, die der oben genannten Bewegungs­ gleichung entsprechen, auf eine Hyperebene innerhalb des be­ trachteten Zustandsraumes beschränkt sind.
Wenn der Zustand xk durch ein statistisches Rauschen rk zu ei­ nem realen Zustand yk = xk + rk überlagert ist, so wird die Um­ gebung Un nicht mehr in der durch An und bn gebildeten Hyperebe­ ne, sondern in einem Gebiet um die Hyperebene verstreut liegen.
Die nichtlineare Rauschreduzierung bedeutet nun, die verrausch­ ten Zustände yn auf die Hyperebene zu projizieren. Die Projek­ tion der Zustände auf die Hyperebene erfolgt nach an sich be­ kannten Verfahren der linearen Algebra. Anschließend erfolgt die Konstruktion von Vektoren aus skalaren Zeitreihen nach dem Konzept der Zeitversatzvektoren, wie es im einzelnen von F. Takens unter dem Titel "Detecting Strange Attractors in Turbulence" in "Lecture Notes in Math", Bd. 898, Springer, New York, 1981, oder von T. Sauer et al. in "J. Stat. Phys.", Bd. 65, 1991, S. 579, und illustrativ im folgenden beschrieben wird. Auch diese Publikationen werden hiermit vollständig in die vorliegende Beschreibung einbezogen.
Ausgehend von einer skalaren Zeitreihe sk werden Zeitversatz­ vektoren in einem m-dimensionalen Raum gemäß n = (sn, sn-τ, . . .sn-c(m-1)τ) gebildet. Der Parameter m ist die Ein­ bettungsdimension der Zeitversatzvektoren. Die Einbettungsdi­ mension wird anwendungsabhängig gewählt und ist größer als der doppelte Wert der fraktalen Dimension des Attraktors des be­ trachteten dynamischen Systems. Der Parameter τ ist ein Abta­ stabstand (oder: "time lag"), der den zeitlichen Abstand der aufeinanderfolgenden Elemente der Zeitreihe darstellt. Der Zeitversatzverktor ist somit ein m-dimensionaler Vektor, dessen Komponenten einen bestimmten Zeitreihenwert und die (m-1) vor­ hergehenden Zeitreihenwerte umfassen. Er beschreibt die zeitli­ che Entwicklung des Systems während eines Zeitbereichs oder Einbettungsfensters der Dauer m.τ. Mit jedem neuen Abtastwert verschiebt sich das Einbettungsfenster innerhalb der gesamten zeitlichen Entwicklung jeweils um einen Abtastabstand. Der Ab­ tastabstand τ ist wiederum eine anwendungsabhängig gewählte Größe. Falls sich das System wenig ändert, kann der Abtastab­ stand größer gewählt werden, um die Verarbeitung redundanter Daten zu vermeiden. Falls sich das System schnell ändert, muß der Abtastabstand geringer gewählt werden, da andernfalls die Korrelationen, die zwischen benachbarten Werten auftreten, Feh­ ler in die weitere Verarbeitung einführen würden. Die Wahl des Abtastabstandes τ ist somit ein Kompromiß zwischen der Redun­ danz und der Korrelation zwischen aufeinanderfolgenden Zustän­ den.
Die oben genannte Projektion der Zustände auf die Hyperebene erfolgt unter Verwendung der Zeitversatzvektoren entsprechend einer Berechnung, die im einzelnen von H. Kantz et al. in "Phys. Rev. E", Bd. 48, 1993, S. 1529, beschrieben ist. Auch diese Publikation wird vollständig in die vorliegende Beschrei­ bung einbezogen. Für jeden Zeitversatzvektor n werden alle Nachbarn im Zeitverzögerungsraum betrachtet, d. h. die Umgebung Un wird gebildet. Anschließend wird die Kovarianzmatrix gemäß Gleichung (2) berechnet, wobei das Zeichen ^ bedeutet, daß der Mittelwert auf der Umgebung Un subtrahiert worden ist.
Zur Kovarianzmatrix Cij werden die Singulär- oder Eigenwerte ermittelt. Die Vektoren, die den größten Singulärwerten ent­ sprechen, stellen die Richtungen dar, die die Hyperebene, die durch die oben genannten An und bn definiert ist, aufspannen.
Um nun das Rauschen aus den Werten n, zu reduzieren, werden die zugehörigen Zeitversatzvektoren auf die dominanten Richtungen, die die Hyperebene aufspannen, projiziert. Für jedes Element der skalaren Zeitreihe ergibt dies m verschiedene Korrekturen, die in geeigneter Weise kombiniert werden. Mit den rauschredu­ zierten Werten kann der beschriebene Vorgang zur erneuten Pro­ jektion wiederholt werden.
Die Berechnung der Kovarianzmatrix und Ermittlung von dominan­ ten Vektoren, die einer vorbestimmten Anzahl von größten Singu­ lärwerten entsprechen, repräsentiert die Suche nach Korrelatio­ nen zwischen aufeinanderfolgenden Systemzuständen. Diese Suche wird bei den deterministischen Systemen auf die bekannte oder angenommene Bewegungsgleichung des Systems bezogen. Wie die er­ findungsgemäße Suche nach Korrelationen zwischen Systemzustän­ den bei nicht-deterministischen Systemen erfolgt, wird unten beschrieben.
Nicht-lineare Rauschreduzierung in nicht-deterministischen Systemen
Um die Korrelation zwischen den Zuständen zu ermitteln, wird beim deterministischen System die angenommene zeitliche Unver­ ändlichkeit der Bewegungsgleichung als Zusatzinformation heran­ gezogen. Im Unterschied dazu erfolgt die Ermittlung der Korre­ lation zwischen benachbarten Zuständen bei der erfindungsgemä­ ßen Signalverarbeitung im nicht-deterministischen System auf der Grundlage der folgenden Zusatzinformation. Innerhalb vorbe­ stimmter Signalabschnitte des zu bearbeitenden Signals treten annähernd periodisch sich wiederholende Signalprofile auf. Un­ ter der Annahme, daß diese Signalprofile auf der nahezu unver­ änderten Wiederholung der unverrauschten Leistungsanteile ba­ sieren, können die Korrelationen zwischen engbenachbarten Zu­ ständen ermittelt werden. Diese Korrelationsermittlung erfolgt jedoch auf einer beschränkten Zeitskala innerhalb des Signalab­ schnittes. Dies wird im folgenden illustriert.
Die menschliche Sprache ist eine Aneinanderreihung von Phonemen oder Silben, die in Bezug auf die auftretenden Amplituden und Frequenzen charakteristische Muster besitzen. Diese Muster kön­ nen beispielsweise durch Beobachtung elektrischer Signale eines Schallwandlers (z. B. Mikrofon) erfaßt werden. Auf mittleren Zeitskalen (z. B. im Rahmen eines Wortes) ist die Sprache nicht stationär und auf langen Zeitskalen (z. B. im Rahmen eines Sat­ zes) hochkomplex, wobei viele aktive Freiheitsgrade und ggf. langreichweitige Korrelationen auftreten. Auf kurzen Zeitskalen (Zeitbereiche, die im wesentlichen der Länge eines Phonems oder einer Silbe entsprechen), treten im Signalverlauf repetetive Muster oder sich wiederholende Signalprofile auf, die im fol­ genden erläutert werden. Einzelheiten der konkreten Berechnun­ gen werden analog zur herkömmlichen Rauschreduzierung implemen­ tiert und können den o. a. Publikationen entnommen werden.
Fig. 1 zeigt als Beispiel den italienischen Gruß "Buon giorno" als Wellenzug. Dabei handelt es sich um die mit einer Ab­ tastfrequenz von 10 kHz aufgezeichnete Signalamplitude mit den (willkürlich normierten) Zeitreihenwerten yn in Abhängigkeit von der dimensionslosen Zeitzählskala. Diese Signalamplitude wurde von einer extrem rauscharmen, digitalen Sprachaufzeich­ nung abgeleitet. Der Gesamtzeitverlauf von n = 0 bis n = 20000 ent­ spricht einem Zeitbereich von rd. 2 Sekunden.
Bei Darstellung eines Zeitausschnitts des in Fig. 1 gezeigten Amplitudenverlaufs mit extrem gestreckter Zeitskala ergibt sich das Bild in Fig. 2. Es zeigt sich, daß der Amplitudenverlauf innerhalb bestimmter Signalabschnitte (z. B. Phoneme) die illu­ strierten periodischen Wiederholungen aufweist. Ein Signalpro­ fil wiederholt sich bei dem dargestellten Beispiel in Zeitin­ tervallen einer Breite von rund 7 ms. Ein besonderer Vorteil der Erfindung besteht darin, daß die Wirksamkeit der erfin­ dungsgemäßen Rauschreduzierung nicht von der absoluten Exakt­ heit der dargestellten Periodizität abhängt. Es ist möglich, daß keine exakten Wiederholungen auftreten, sondern eine syste­ matische Modifikation der typischen Wellenform eines Signalpro­ fils innerhalb eines Phonems erfolgt. Diese Variation wird je­ doch bei dem unten im einzelnen erläuterten Verfahren berück­ sichtigt, da sie die Freiheit in den nach der Projektion Q ver­ bleibenden Richtungen repräsentiert. Zur Berücksichtigung der Variation (Abweichung von exakten Wiederholungen) wird hier der Begriff der annähernd periodischen Signalprofile verwendet, die sich von exakt periodischen Signalprofilen lediglich durch eine systematische Variabilität unterscheiden.
Bei einer Zeitversatzeinbettung (mit geeignet gewählten Parame­ tern m und τ, s. o.) bilden die gezeigten Wiederholungen benach­ barte Punkte im Zustandsraum (bzw. Vektoren, die auf diese Punkte gerichtet sind). Ist nun die Variabilität in diesen Punkten durch eine Überlagerung durch Rauschen größer als die natürliche Variabilität aufgrund der Nichtstationarität, so wird eine approximative Identifikation der Mannigfaltigkeit und die Projektion darauf das Rauschen stärker reduzieren als es das eigentliche Signal beeinflußt. Dies ist der Grundansatz des erfindungsgemäßen Verfahrens, das im folgenden unter Bezug auf das Flußdiagramm gemäß Fig. 3 erläutert wird.
Fig. 3 ist eine Übersichtsdarstellung, die schematisch grund­ sätzliche Schritte des erfindungsgemäßen Verfahrens zeigt. Die Erfindung ist jedoch nicht auf diesen Ablauf beschränkt. Anwen­ dungsabhängig kann eine Modifizierung in Bezug auf die Daten­ aufnahme, die Paramterermittlung, die eigentliche Berechnung zur Rauschreduzierung, die Trennung von Leistungs- und Rauschanteilen und die Ausgabe des Ergebnisses vorgesehen sein.
Gemäß Fig. 3 erfolgt nach dem Start 100 die Datenaufnahme 101 und die Parameterermittlung 102. Die Datenaufnahme 101 umfaßt die Aufnahme eines Schallsignals durch Umwandlung des Schalls in eine elektrische Größe. Die Datenaufnahme kann zur analogen oder digitalen Schallaufzeichnung eingerichtet sein. Anwen­ dungsabhängig wird das Schallsignal in einem Datenspeicher oder bei Echtzeitverarbeitung in einem Pufferspeicher (s. Fig. 9) gespeichert. Die Parameterermittlung 102 umfaßt die Auswahl von Parametern, die für die spätere Suche nach Korrelationen zwi­ schen benachbarten Zuständen im Schallsignal geeignet sind. Diese Parameter umfassen insbesondere die Einbettungsdimension m, den Abtastabstand τ, die zeitliche Breite der Umgebung U und die Zahl Q der Zeitversatzvektoren, auf die die Zustandsprojek­ tion erfolgen soll.
Bei der Sprachsignalverarbeitung kann die Einbettungsdimension m beispielsweise im Bereich von 10-50, vorzugsweise 20-30, und der Abtastabstand τ im Bereich von 1 bis 10 ms, vorzugsweise 3 bis 5 ms liegen. Dementsprechend beträgt die Dauer des Einbet­ tungsfensters im Bereich von rund 10 ms bis 500 ms, vorzugswei­ se 60 ms bis 150 ms (z. B. 80 ms). Diese Daten beziehen sich auf eine Phonemdauer von rund 40 ms bis 500 ms, vorzugsweise 50 ms bis 150 ms, bei typischen Signalprofilen im Bereich von 3 ms bis 20 ms, z. B. 5 ms bis 10 ms. Die Darstellung gemäß Fig. 2 zeigt beispielsweise Wiederholungen des Signalprofils nach je­ weils 7 ms. Die Parameterermittlung 102 (Fig. 3) kann im Zusam­ menspiel mit der Datenaufnahme 101 erfolgen oder im Rahmen ei­ ner Vorabanalyse durchgeführt worden sein. Bei einer Vorab­ analyse wird die Einbettungsdimension m und die Dimension der Mannigfaltigkeit (entsprechend dem Parameter Q), in der die un­ verrauschten Daten lägen, abgeschätzt. Es kann auch vorgesehen sein, daß die Parameterermittlung 102 während des Verfahrens wiederholt wird. Dies kann beispielsweise als Korrektur in Reaktion auf das Ergebnis der Leistungs-/Rausch-Trennung 109 (s. u.) erfolgen.
Auf der Grundlage der aufgenommenen Meßwerte und der festgeleg­ ten Parameter folgt die Signalabtastung 103. Die Signalabta­ stung 103 ist dazu vorgesehen, die Werte der Zeitreihen yn ent­ sprechend den vorher festgelegten Abtastparametern aus den Da­ ten zu ermitteln. Die folgenden Schritte 104 bis 109 stellen die eigentliche Berechnung der Projektionen der realen Schall­ signale auf unverrauschte Schallsignale oder -zustände dar.
Der Schritt 104 umfaßt die Bildung des ersten Zeitversatzvek­ tors für ein erstes einer Vielzahl von sich wiederholenden Si­ gnalprofilen (z. B. gemäß Fig. 2). Dieser erste Zeitversatzvek­ tor muß sich nicht notwendigerweise auf das zeitlich zuerst er­ scheinende erste Signalprofil beziehen. Dies wird jedoch insbe­ sondere bei Echtzeit- oder Quasiechtzeitverarbeitungen bevor­ zugt. Der Zeitversatzvektor umfaßt als m Komponenten aufeinan­ derfolgende, abgetastete Signalwerte yn. Anschließend werden bei Schritt 105 benachbarte Zeitversatzvektoren (Nachbarvekto­ ren) gebildet bzw. erfaßt. Die Nachbarvektoren beziehen sich auf Signalprofile in der zeitlichen Umgebung des zuerst be­ trachteten Signalprofils bzw. Zeitversatzvektors. Die Zahl der Nachbarvektoren entspricht im wesentlichen der Zahl sich wie­ derholender Signalprofile innerhalb des betrachteten Signalab­ schnittes. Bei der Sprachverarbeitung wiederholen sich etwa 20 Signalprofile innerhalb eines Phonems. Die Zahl der ermittelten Nachbarvektoren ist kleiner oder gleich der Zahl sich wiederho­ lender Signalprofile und beträgt beispielsweise rund 5 bis 20.
Anschließend folgt die Berechnung der Kovarianzmatrix 106 ent­ sprechend der oben angegeben Gleichung (2). Die zugrundeliegen­ de Umgebung U wird durch den Signalabschnitt mit den sich wie­ derholenden Signalprofilen bzw. durch die zeitliche Lage der in Betracht gezogenen Zeitversatzvektoren definiert. Der Schritt 106 umfaßt auch die Ermittlung der Q größten Singulärwerte der Kovarianzmatrix und der dazugehörigen Zeitversatzvektoren.
Im Rahmen der folgenden Projektion 107 werden alle Anteile des ersten Zeitversatzvektors, die nicht in dem von den Q ermittel­ ten dominanten Vektoren aufgespannten Unterraum liegen, elimi­ niert. Der Wert Q liegt im Bereich von rund 2 bis 10, vorzugs­ weise 4 bis 6.
Die verhältnismäßig geringe Zahl Q, die die Dimension des Un­ terraumes repräsentiert, auf die die Zustände bzw. Signale pro­ jiziert werden, stellt einen besonderen Vorteil der Erfindung dar. Es wurde festgestellt, daß die Wellendynamik innerhalb ei­ nes gegebenen Phonems nur relativ wenige Freiheitsgrade be­ sitzt, wenn sie einmal innerhalb eines hochdimensionalen Raumes identifiziert worden ist. Daher sind auch verhältnismäßig weni­ ge Nachbarzustände für die Projektionsberechnung erforderlich. Für die Erfassung der Korrelation zwischen den Signalprofilen sind nur die größten Singulärwerte und entsprechenden Singulär­ vektoren der Kovarianzmatrix relevant. Dieses Ergebnis ist überraschend, da die nicht-lineare Rauschreduzierung an sich für deterministische Systeme mit umfangreichen Zeitreihen entwic­ kelt wurde. Außerdem ergibt sich als besonderer Vorteil ein verhältnismäßig geringer Zeitaufwand für die Berechnung.
Anschließend wird der nächste Zeitversatzvektor bei Schritt 108 ausgewählt und die Schrittfolge 105-107 wiederholt. Diese Wie­ derholung erfolgt, bis sämtliche Zeitversatzvektoren innerhalb der betrachteten Umgebung U abgearbeitet sind.
Die Bildung bzw. Erfassung der Nachbarvektoren (Schritt 105) erfolgt übrigens bei einer höheren Dimension als die Projektion 107. Die hohe Dimension bei der Nachbarsuche garantiert die Auswahl der richtigen Nachbarn, die aber an sich, wie oben aus­ geführt, lokal wesentlich weniger Freiheitsgrade repräsentie­ ren, so daß innerhalb des durch die Singulärvektoren aufge­ spannten Unterraumes niedrigdimensional und schnell gearbeitet werden kann. Für Echtzeitanwendungen erfolgt die Schallsignal­ verarbeitung im wesentlichen für die Phoneme aufeinanderfol­ gend, so daß Phonem für Phonem komplett abgearbeitet und so ein entrauschtes Ausgangssignal erzeugt wird. Dieses Ausgangssignal ist gegenüber dem erfaßten Schallsignal (Eingangssignal) um rund 100-200 ms verzögert (Echtzeit- oder auch Quasi-Echtzeit­ anwendung).
Die Schritte 109 und 110 betreffen die Bildung des eigentlichen Ausgangssignals. Der Schritt 109 ist auf die Trennung von Lei­ stungs- und Rauschsignalen gerichtet. Ein entrauschtes Zeitrei­ henelement sk wird durch Mittlung über die korrespondierenden Elemente aus allen Zeitversatzvektoren, die dieses Element ent­ halten, gebildet. Statt einer einfachen Mittlung kann eine ge­ wichtete Mittlung eingeführt werden. Nach Schritt 109 kann ein Rücksprung vor Schritt 104 vorgesehen sein. Die entrauschten Zeitreihenelemente bilden dann die Eingangsgrößen für die er­ neute Bildung von Zeitversatzvektoren und deren Projektion auf den Unterraum entsprechend den Singulärvektoren. Diese Verfah­ renswiederholung ist nicht notwendig, kann aber zur Verbesse­ rung der Rauschreduzierung z. B. 2- oder 3-fach vorgesehen sein. Nach Schritt 109 kann aber auch ein Rücksprung zur Parameterer­ mittlung 102 vorgesehen sein, falls der nach Schritt 109 vor­ liegende Leistungsanteil sich weniger als erwartet (z. B. durch weniger als einen vorbestimmten Schwellwert) vom unverarbeite­ ten Schallsignale unterscheidet. Hierzu können im Verfahrensab­ lauf nicht dargestellte Entscheidungsmechanismen eingebaut sein. Bei Schritt 110 folgt die Datenausgabe. Bei der Rauschre­ duzierung wird als Leistungsanteil das rauschreduzierte Sprach­ signal ausgegeben. Alternativ kann aber auch anwendungsabhängig gerade die Ausgabe oder Speicherung des Rauschanteils vorgese­ hen sein.
Beispiele
Im folgenden wird die erfindungsgemäße Signalverarbeitung an zwei Beispielen illustriert. Beim ersten Beispiel ist das ver­ arbeitete Schallsignale ein menschlicher Pfiff (s. Fig. 4). Das zweite Beispiel betrifft die oben genannten Worte "Buon giorno" (s. Fig. 5 bis 8).
Fig. 4 zeigt das Leistungsspektrum für einen menschlichen Pfiff der Dauer 3 s. Ein Pfiff ist ein im wesentlichen periodisches Signal mit charakteristischen Harmonischen und nur geringen Nicht-Stationaritäten. Fig. 4a zeigt den Amplitudenverlauf der Originalaufzeichnung. Nach numerischer Addition eines 10-%igen Rauschens ergibt sich das in Fig. 4b dargestellte Spektrum. Dieses liefert die Eingangsdaten für Schritt 101 des Verfah­ rensablaufes (Fig. 3). Nach der erfindungsgemäßen Rauschredu­ zierung ergibt sich das in Fig. 4c gezeigte Bild. Dieses zeigt die vollständige Wiederherstellung des ursprünglichen, unver­ rauschten Signals. Die Fig. 4a bis 4c zeigen einen besonde­ ren Vorteil der Erfindung gegenüber einem herkömmlichen Filter im Frequenzraum. Ein Filter im Frequenzraum würde alle Lei­ stungsanteile mit Amplituden unterhalb 10-6 abschneiden, so daß das entrauschte Spektrum nur noch den Peak bei 0 und den Peak um die Grundfrequenz enthielte. Dementsprechend wäre die aus der Rücktransformation gewonnene Zeitreihe völlig ohne Ober­ schwingungen, was sich sehr synthetisch anhören würde. Diese Nachteile werden bei der erfindungsgemäßen Rauschreduzierung vermieden.
Fig. 5 zeigt entsprechende Ergebnisse am Beispiel von Kurven­ darstellungen für die Verarbeitung von Sprachsignalen. In Fig. 5a ist ein Ausschnitt aus dem unverrauschten Wellenzug der Wor­ te "Buon giorno" bezogen auf den Signalverlauf gemäß Fig. 1 analog zu Fig. 2 gezeigt. Es ist die zeitlich begrenzte Wieder­ holung von Signalprofilen erkennbar, die die zur Reduktion des Rauschens notwendige Redundanz enthält. Fig. 5b zeigt den Wel­ lenzug nach Addition eines synthetischen Rauschens. Nach der erfindungsgemäßen Rauschreduzierung ergibt sich das Bild gemäß Fig. 5c. Es zeigt sich, daß das Originalsignal zum größten Teil rekonstruiert werden konnte.
Die Funktionsfähigkeit der erfindungsgemäßen Rauschreduzierung wurde in verschiedenen Rauscharten und -amplituden geprüft. Als Maß für die Leistungsfähigkeit der Rauschreduzierung kann die Dämpfung D (in dB) gemäß Gleichung (3) betrachtet werden.
D = 10 log ((Σ(k-xx)2)/(Σ(yk -xk)2)) (12)
In Gleichung (3) steht xk für das unverrauschte Signal (Lei­ stungsanteil), yk für das verrauschte Signal (Eingangs- Schallsignal) und k für das Signal nach der erfindungsgemäßen Rauschreduzierung.
Fig. 6 illustriert die Abhängigkeit der Dämpfung D der nichtli­ near Rauschreduzierung in Abhängigkeit von der relativen Rau­ schamplitude (Varianz des Rauschanteils. Varianz des Leistungsanteils). Es zeigt sich, daß die Dämpfung ein Maximum für relative Rauschamplituden im Bereich von rund 10% besitzt. Negative Dämpfungen bei niedrigen Rauschamplituden zeigen an, daß schwach gestörte Signale durch die erfindungsgemäße Rauschreduzierung selbst gestört werden.
Die Fig. 7 und 8 zeigen weitere Einzelheiten der Sprach­ rauschreduzierung. Fig. 7 illustriert das Auftreten sich wie­ derholender Signalprofile innerhalb des im oberen Teil der Fi­ gur gezeigten Phonemzuges. In Abhängigkeit von einem (willkür­ lichen) Zeitindex i ist im unteren Teil der Figur ein Kurven­ bild gedruckt, das aus unter den folgenden Bedingungen gebilde­ ten Punkten besteht. Für jeden Zeitpunkt i wird der zugehörige Zeitversatzvektor i und die Menge aller Zeitversatzvektoren j,i betrachtet. Falls der Betrag des Differenzvektors zwischen dem i und jedem j kleiner als eine vorbestimmte Grenze ist, wird ein Punkt gedrückt. Die Punkte bilden mehr oder wenige ausgedehnte Linien. Die Linienstrukturen zeigen, daß innerhalb der Phoneme die oben erläuterten Periodizitäten der Signalpro­ file auftreten. Für Linienstrukturen, die in Ordinatenrichtung besonders ausgedehnt sind, gilt, daß die Anzahl von intra- Phonem-Nachbarn besonders groß ist. Es zeigt sich jedoch auch, daß in der Regel für |i-j| < 2000 keine Wiederholungen auftre­ ten.
Fig. 8 zeigt wiederum am Beispiel der Worte "Buon giorno" im oberen Teil der Figur das unverrauschte Signal, im mittleren Teil das synthetisch hinzugefügte Rauschen und im unteren Teil das nach der Rauschreduzierung verbliebene Rauschen. Die Ordi­ natenskalierung ist in allen drei Fällen identisch. Das ver­ bleibende Rauschen (unterster Teil der Figur) zeigt eine syste­ matische Variation, die darauf hinweist, daß der Erfolg der er­ findungsgemäßen Rauschreduzierung selbst vom Schallsignal, d. h. vom konkreten Phonem, abhängt.
Gegenstand der Erfindung ist auch eine Vorrichtung zur Imple­ mentierung des erfindungsgemäßen Verfahrens. Gemäß Fig. 9 um­ faßt eine Rauschreduzierungsanordnung einen Meßwertaufnehmer 91, einen Datenspeicher 92 und/oder einen Pufferspeicher 93, eine Abtastschaltung 94, eine Rechenschaltung 95 und eine Aus­ gabeeinheit 96.
Die hier vorgestellten Komponenten der erfindungsgemäßen Vor­ richtung werden vorzugsweise als festverschaltete Schalt­ kreisanordnung oder als interierter Chip hergestellt.
Im folgenden werden bevorzugte Anwendungen der Erfindung ge­ nannt. Neben der bereits genannten Rauschreduzierung an Sprach­ signalen ist die Erfindung auch bei der Rauschreduzierung an Hörgeräten und zur Verbesserung der computergestützten automa­ tischen Spracherkennung anwendbar. In Bezug auf die Spracher­ kennung kann insbesondere vorgesehen sein, die entrauschten Zeitreihenwerte bzw. Sektoren mit Tabellenwerten zu verglei­ chen. Die Tabellenwerte repräsentieren entsprechende Werte bzw. Vektoren vorbestimmter Phoneme. Eine automatische Spracherken­ nung kann somit mit dem Rauschreduzierungsverfahren integriert werden.
Weitere Anwendungen liegen im Bereich der Telekommunikation und bei der Signalverarbeitung anderer Schallquellen als der menschlichen Sprache. Hierzu zählen beispielsweise Tierstimmen oder auch Musik.

Claims (11)

1. Verfahren zur Signalverarbeitung eines Schallsignals y, bei dem innerhalb vorbestimmter Signalabschnitte des Schallsignals annähernd periodische Signalprofile erfaßt und Korrelationen zwischen den Signalprofilen ermittelt werden, wobei korrelierte Signalanteile einem Leistungs­ anteil und unkorrelierte Signalanteile einem Rauschanteil des Schallsignals zugeordnet werden.
2. Verfahren gemäß Anspruch 1, bei dem die Korrelationen zwischen den Signalprofilen mit Verfahren der nicht- linearen Rauschreduzierung in deterministischen Systemen ermittelt werden.
3. Verfahren gemäß Anspruch 1, bei dem das Schallsignal y, das sich aus einem Sprachanteil x und einem Rauschanteil r zusammensetzt in jedem Signalabschnitt gemäß den fol­ genden Schritten verarbeitet wird:
  • a) Erfassung einer Vielzahl von Schallsignalwerten yk = xk + rk mit einem Abtastabstand τ,
  • b) Bildung einer vorbestimmten Anzahl von N Zeitver­ satzvektoren, von denen jeder aus Komponenten be­ steht, deren Anzahl m eine Einbettungsdimension der Zeitversatzvektoren und deren Werte yk ein Einbet­ tungsfenster der Breite m.τ darstellen, in einer vorbestimmten Umgebung U, in der die annähernd pe­ riodischen Signalprofile auftreten,
  • c) Ermittlung von Korrelationen zwischen den Zeitver­ satzvektoren und Projektion der Zeitversatzvektoren auf vorbestimmte Singulärwertvektoren, und
  • d) Ermittlung von Nutzsignalwerten, die ein Sprachsi­ gnal, das im wesentlichen dem Sprachanteil xk ent­ spricht und/oder ein Rauschsignal bilden, das im wesentlichen dem Rauschanteil rk entspricht.
4. Verfahren gemäß Anspruch 3, bei der die Zahl N der gebil­ deten Zeitversatzvektoren der Zahl der sich im Signalab­ schnitt annähernd periodisch wiederholenden Signalprofile entspricht.
5. Verfahren gemäß Anspruch 3, bei dem die Korrelationen zwischen den Zeitversatzvektoren durch Berechnung einer Kovarianzmatrix im betrachteten Signalabschnitt erfolgt.
6. Verfahren gemäß Anspruch 3, bei dem die Schritte b) bis c) mit den Nutzsignalwerten mindestens einmal wiederholt werden.
7. Verfahren gemäß Anspruch 3, bei dem das Schallsignal ein Sprachsignal ist.
8. Verfahren gemäß einem der Ansprüche 3 bis 7, bei dem der Abtastabstand im Bereich von 1 bis 10 ms und die Dauer des Einbettungsfensters im Bereich von rund 10 bis 500 ms liegen.
9. Vorrichtung zur Durchführung eines Verfahrens gemäß einem der vorhergehenden Ansprüche, die einen Meßwertaufnehmer (91), einen Datenspeicher (92) und/oder einen Pufferspei­ cher (93), eine Abtastschaltung (94), eine Rechenschal­ tung (95) und eine Ausgabeeinheit (96) aufweist.
10. Verwendung eines Verfahrens gemäß einem der Ansprüche 1 bis 8 zur Rauschreduzierung an Sprachsignalen in der Te­ lekommunikation, in Hörgeräten oder bei der automatischen Spracherkennung.
11. Verwendung nicht-linearer Rauschreduzierungsverfahren für deterministische Systeme zur Rauschreduzierung von Sprachsignalen.
DE19859174A 1998-12-21 1998-12-21 Verfahren und Vorrichtung zur Verarbeitung rauschbehafteter Schallsignale Expired - Fee Related DE19859174C1 (de)

Priority Applications (4)

Application Number Priority Date Filing Date Title
DE19859174A DE19859174C1 (de) 1998-12-21 1998-12-21 Verfahren und Vorrichtung zur Verarbeitung rauschbehafteter Schallsignale
US09/465,643 US6502067B1 (en) 1998-12-21 1999-12-17 Method and apparatus for processing noisy sound signals
EP99125575A EP1014340A3 (de) 1998-12-21 1999-12-21 Verfahren und Vorrichtung zur Verarbeitung rauschbehafteter Schallsignale
JP11363321A JP2000194400A (ja) 1998-12-21 1999-12-21 雑音の多い音響信号を処理する方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19859174A DE19859174C1 (de) 1998-12-21 1998-12-21 Verfahren und Vorrichtung zur Verarbeitung rauschbehafteter Schallsignale

Publications (1)

Publication Number Publication Date
DE19859174C1 true DE19859174C1 (de) 2000-05-04

Family

ID=7892062

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19859174A Expired - Fee Related DE19859174C1 (de) 1998-12-21 1998-12-21 Verfahren und Vorrichtung zur Verarbeitung rauschbehafteter Schallsignale

Country Status (4)

Country Link
US (1) US6502067B1 (de)
EP (1) EP1014340A3 (de)
JP (1) JP2000194400A (de)
DE (1) DE19859174C1 (de)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7124075B2 (en) * 2001-10-26 2006-10-17 Dmitry Edward Terez Methods and apparatus for pitch determination
EP1585112A1 (de) * 2004-03-30 2005-10-12 Dialog Semiconductor GmbH Geräuschunterdrückung ohne Signalverzögerung
ATE488002T1 (de) * 2005-09-07 2010-11-15 Biloop Tecnologic S L Mikrocontroller-implementiertes verfahren zur erkennung eines tonsignals
US20070076001A1 (en) * 2005-09-30 2007-04-05 Brand Matthew E Method for selecting a low dimensional model from a set of low dimensional models representing high dimensional data based on the high dimensional data
WO2007103037A2 (en) 2006-03-01 2007-09-13 Softmax, Inc. System and method for generating a separated signal
US8175291B2 (en) * 2007-12-19 2012-05-08 Qualcomm Incorporated Systems, methods, and apparatus for multi-microphone based speech enhancement
US8321214B2 (en) * 2008-06-02 2012-11-27 Qualcomm Incorporated Systems, methods, and apparatus for multichannel signal amplitude balancing
US9253568B2 (en) * 2008-07-25 2016-02-02 Broadcom Corporation Single-microphone wind noise suppression
US8515097B2 (en) * 2008-07-25 2013-08-20 Broadcom Corporation Single microphone wind noise suppression
US9228785B2 (en) 2010-05-04 2016-01-05 Alexander Poltorak Fractal heat transfer device
TWI412019B (zh) 2010-12-03 2013-10-11 Ind Tech Res Inst 聲音事件偵測模組及其方法
JP2014085609A (ja) * 2012-10-26 2014-05-12 Sony Corp 信号処理装置および方法、並びに、プログラム
CN103811017B (zh) * 2014-01-16 2016-05-18 浙江工业大学 一种基于Welch法的冲床噪声功率谱估计改进方法
US9530408B2 (en) * 2014-10-31 2016-12-27 At&T Intellectual Property I, L.P. Acoustic environment recognizer for optimal speech processing
JP6793299B2 (ja) 2015-08-26 2020-12-02 パナソニックIpマネジメント株式会社 信号検出装置及び信号検出方法
WO2018013668A1 (en) 2016-07-12 2018-01-18 Alexander Poltorak System and method for maintaining efficiency of a heat sink
US11217254B2 (en) * 2018-12-24 2022-01-04 Google Llc Targeted voice separation by speaker conditioned on spectrogram masking
CN110349592B (zh) * 2019-07-17 2021-09-28 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
JP7271360B2 (ja) * 2019-07-31 2023-05-11 株式会社Nttドコモ 状態判定システム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1293693C (en) * 1985-10-30 1991-12-31 Tetsu Taguchi Noise canceling apparatus
KR950013124B1 (ko) * 1993-06-19 1995-10-25 엘지전자주식회사 케이오스(chaos) 피이드백 시스템
US6000833A (en) * 1997-01-17 1999-12-14 Massachusetts Institute Of Technology Efficient synthesis of complex, driven systems
US6208951B1 (en) * 1998-05-15 2001-03-27 Council Of Scientific & Industrial Research Method and an apparatus for the identification and/or separation of complex composite signals into its deterministic and noisy components

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
E. TAKENS:"Detecting Strange Attractors in Turbu- lence", In: Lecture Notes in Math., Bd. 898, Springer, New York, 1981 *
E.J. KOSTELICH et al.:" Phys. Rev. E.",Bd.48,1993,S. 1752 *
H. KANTZ et al.:"Nonlinear Time Series Analysis", Cambridge University Press, Cambridge, 1997 *
H. KANTZ et al.:"Phys.Rev.E.",Bd.48,1993, S.1529 *
H.D.I. ARBANEL:"Analysis of Observed Chaotic Data"Springer New York, 1996 *
P. GRASSBERGER et al.: "Chaos", Bd.3, 1993, S.127 *
T. SAUER et al.: J. Stat. Phys., Bd.65, 1991, S. 579 *

Also Published As

Publication number Publication date
US6502067B1 (en) 2002-12-31
EP1014340A3 (de) 2001-07-18
JP2000194400A (ja) 2000-07-14
EP1014340A2 (de) 2000-06-28

Similar Documents

Publication Publication Date Title
DE19859174C1 (de) Verfahren und Vorrichtung zur Verarbeitung rauschbehafteter Schallsignale
DE60104091T2 (de) Verfahren und Vorrichtung zur Sprachverbesserung in verrauschte Umgebung
DE69619284T3 (de) Vorrichtung zur Erweiterung der Sprachbandbreite
DE102007001255B4 (de) Tonsignalverarbeitungsverfahren und -vorrichtung und Computerprogramm
DE69925905T2 (de) Blinde trennung von quellen durch faltung mit hilfe eines vielfachdekorrelationsverfahrens
EP2158588B1 (de) Spektralglättungsverfahren von verrauschten signalen
DE60225400T2 (de) Verfahren und Vorrichtung zur Verarbeitung eines dekodierten Sprachsignals
DE2719973C2 (de)
DE60027438T2 (de) Verbesserung eines verrauschten akustischen signals
DE602005000896T2 (de) Sprachsegmentierung
DE3101851C2 (de) Vorrichtung zum Erkennen von Sprache
EP1193688A2 (de) Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
DE112016006218T5 (de) Schallsignalverbesserung
EP1193689A2 (de) Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
DE69020736T2 (de) Wellenanalyse.
DE69906569T2 (de) Verfahren und vorrichtung zur spracherkennung eines mit störungen behafteten akustischen signals
EP2080197B1 (de) Vorrichtung zur geräuschunterdrückung bei einem audiosignal
DE102014207437A1 (de) Spracherkennung mit einer Mehrzahl an Mikrofonen
DE10047718A1 (de) Verfahren zur Spracherkennung
EP3940692B1 (de) Verfahren zum automatischen lippenlesen mittels einer funktionskomponente und zum bereitstellen der funktionskomponente
EP3065417A1 (de) Verfahren zur unterdrückung eines störgeräusches in einem akustischen system
DE102005039621A1 (de) Verfahren und Vorrichtung zur adaptiven Reduktion von Rausch- und Hintergrundsignalen in einem sprachverarbeitenden System
DE69025932T2 (de) Einrichtung und verfahren zum erzeugen von stabilisierten darstellungen von wellen
DE60025333T2 (de) Sprachdetektion mit stochastischer konfidenzmassbewertung des frequenzspektrums
EP1212751B1 (de) Verfahren zur unterdrückung von störrauschen in einem signalfeld

Legal Events

Date Code Title Description
8100 Publication of the examined application without publication of unexamined application
D1 Grant (no unexamined application published) patent law 81
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee