AT509570B1 - Methode und apparat zur einkanal-sprachverbesserung basierend auf einem latenzzeitreduzierten gehörmodell - Google Patents

Methode und apparat zur einkanal-sprachverbesserung basierend auf einem latenzzeitreduzierten gehörmodell Download PDF

Info

Publication number
AT509570B1
AT509570B1 AT0956707A AT95672007A AT509570B1 AT 509570 B1 AT509570 B1 AT 509570B1 AT 0956707 A AT0956707 A AT 0956707A AT 95672007 A AT95672007 A AT 95672007A AT 509570 B1 AT509570 B1 AT 509570B1
Authority
AT
Austria
Prior art keywords
noise
signal
filter
speech
quot
Prior art date
Application number
AT0956707A
Other languages
English (en)
Other versions
AT509570A5 (de
Inventor
Martin Opitz
Robert Hoeldrich
Franz Zotter
Markus Noisternig
Original Assignee
Akg Acoustics Gmbh
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Akg Acoustics Gmbh filed Critical Akg Acoustics Gmbh
Publication of AT509570A5 publication Critical patent/AT509570A5/de
Application granted granted Critical
Publication of AT509570B1 publication Critical patent/AT509570B1/de

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

österreichisches Patentamt AT 509 570 B1 2011-12-15
Beschreibung
METHODE UND APPARAT ZUR EINKANAL-SPRACHVERBESSERUNG BASIEREND AUF EINEM LATENZZEITREDUZIERTEN GEHÖRMODELL
BEREICH DER ERFINDUNG
[0001] Die gegenständliche Erfindung bezieht sich auf eine Methode zur Verbesserung eines breitbandigen Audiosignals mit Hintergrundgeräuschen und im Speziellen auf ein Störgeräuschunterdrückungssystem, eine Störgeräuschunterdrückungsmethode und ein Störgeräuschunterdrückungsprogramm. Im Speziellen bezieht sich die gegenständliche Erfindung auf eine latenzzeitreduzierte Einkanalstörgeräuschunterdrückung, unter Verwendung von Teilbandverarbeitung basierend auf Ausblendeigenschaften des menschlichen Gehörsystems.
HINTERGRUND DER ERFINDUNG
[0002] Zusätzliche Hintergrundgeräusche in der Sprachkommunikationssysteme reduziert die subjektive Qualität und Verständlichkeit der wahrgenommenen Stimme. Deshalb erfordern Sprachverarbeitungssysteme Störgeräuschreduktionsmethoden, z.B. Methoden, die auf eine Verarbeitung abzielen, um den Rauschpegel in einem verrauschten Signal zu eliminieren oder zu abzuschwächen und das Störabstand (Signal-zu-Rausch-Verhältnis, SNR) zu verbessern ohne die Sprache oder ihre Charakteristik zu beeinträchtigen. Störgeräuschreduktion wird im Allgemeinen auch Störgeräuschunterdrückung oder Sprachverbesserung genannt.
[0003] Zum Beispiel werden Mobiltelefone oft in Umgebungen, wie öffentliche Plätze, mit hohem Hintergrundstörgeräuschen verwendet. Die Verwendung von Mobiltelefonen und sprachgesteuerte Geräte und Kommunikationssysteme in Autos hat einen großen Bedarf an Freisprechinstallationen für die Erhöhung der Sicherheit und des Komforts im Auto geschaffen. In vielen Staaten und Regionen verbietet das Gesetz z.B. das handgehaltene Telefonieren im Auto. Störgeräuschreduktion wird für diese Anwendungen wichtig, da ihre Anwendungen in akustisch ungünstigen Umgebungen notwendig sind, im Speziellen bei niedrigem Störabstand (SNR) und hoher zeitlich veränderlichen Störgeräuschpegelcharakteristik, wie z.B. Rollgeräusche von Autos.
[0004] In (Freisprech-)Applikationen für Telekonferenzen, wie Videokonferenzen oder Spracherkennung und Abfragesysteme rührt das Hintergrundstörgeräusch von Ventilatoren von Computern, Druckern oder Faxgeräten her, welches als (langzeitlich) stationär betrachtet werden kann. Konversationsstörgeräusche von (Telefon-)Gesprächen, die von Kollegen stammen, die sich das Zimmer teilen, werden oft als Schnattergeräusch (babble noise) bezeichnet und bestehen aus harmonischen Komponenten und sind deshalb schwieriger durch eine Störgeräuschreduktionseinheit abzuschwächen.
[0005] Applikationen in Hörhilfen und Autosprechkommunikationssystemen erfordern jedoch Rauschunterdrückungsmethoden, die in Echtzeit ausgeführt werden können.
[0006] Trotzdem, die rasante Entwicklung der darunterliegenden Hardware in Bezug auf Rechenleistung und Speicherkapazität unterstützt den Fortschritt der Softwarerealisierungen.
[0007] Einer der meist verbreiteten Methoden der Rauschunterdrückung in anwendungsnahen Anwendungen wird in der Fachsprache als spektrale Subtraktion bezeichnet (vgl. S. F. Boll, "Suppression of Acoustic Noise in Speech using Spectral Subtraction," IEEE Trans. Acoust. Speech and Sig. Proc., vol. ASSP-27, pp. 113-120, Apr. 1979). Im Allgemeinen schätzt der spektrale Subtraktionsansatz die kurzzeitige spektrale Amplitude (STSA) der klaren Sprache von einem gestörten Sprachsignal, z.B. die gewünschte, durch Rauschen verunreinigte Sprache durch Subtraktion eines geschätzten Rauschsignals. Basierend auf der Annahme, dass das menschliche Ohr unempfindlich gegenüber Phasenverzerrungen ist, wird der geschätzte Betrag des Sprachsignals mit der Phase des gestörten Signals kombiniert (vgl. C. L. Wang et al., "The unimportance of phase in speech enhancement, "IEEE Trans. Acoust. Speech and Sig. Proc., 1/31 österreichisches Patentamt AT 509 570 B1 2011-12-15 vol. ASSP-30, pp. 679-681, Aug. 1982). In der Praxis wird die spektrale Subtraktion durch die Multiplikation des Eingangssignalspektrums mit einer Gewichtsfunktion bewerkstelligt, um so Frequenzkomponenten mit geringer SNR zu unterdrücken. Diese SNR-basierte Gewichtsfunktion wird durch Abschätzungen des Störgeräuschspektrums gebildet und das gestörte Sprach-spektrum wird im weitesten Sinne als stationär, und die mittelwertfreien Zufallsignale, die Sprache und die Rauschsignale als unkorreliert angenommen. Diese konventionellen spektralen Subtraktionsmethoden bieten signifikante Geräuschunterdrückung mit dem Hauptnachteil der Reduktion der Signalqualität an, akustisch wahrgenommen als musikalische Klänge oder musikalisches Geräusch. Die musikalischen Klänge stammen von den spektralen Schätzfehlern. In letzten Jahren wurden viele Verbesserungen des einfachen spektralen Subtraktionsansatzes entwickelt.
[0008] Eine oft angewendete Methode um die musikalischen Klänge zu reduzieren ist ein über-schätzes Störgeräuschspektrum zu substrahieren um die Fluktuationen in der DFT-Koeffizien-ten zu reduzieren und um zu verhindern, dass die spektralen Komponenten unter eine spektrale Untergrenze gehen (vgl. M. Berouti et al., "Enhancement of speech corrupted by acoustic noi-se," in Proc. IEEE Int. Conf. on Acoust., Speech and Sig. Proc. (ICASSP'79), vol. 4, pp. 208-211, Washington D.C., Apr. 1979). Dieser Ansatz reduziert erfolgreich die musikalischen Klänge bei schlechten SNR-Verhältnissen und Perioden mit alleinigem Störgeräuschen. Der Hauptnachteil ist die Verzerrung des Sprachsignals während des Sprechens. In der Praxis wurde ein Kompromiss zwischen Sprachqualität und dem Rest-Störgeräuschpegel gefunden. Weitere Methoden bewältigen dieses Problem durch die Einführung von optimalen und adaptiven Übersubtraktionsfaktoren für schlechte SNR-Verhältnisse und schlagen eine Untersubtraktion der Störgeräuschspektrums für gute SNR-Verhältnisse vor (vgl. W. M. Kushner et al., "The effects of subtractive-type speech enhancement/noise reduction algorithms on parameter estimation for improved recognition and coding in high noise environments," in Proc. IEEE Int. Conf. Acous-tics, Speech and Sig. Proc. (ICASSP'89), vol. 1, pp. 211-214, 1989).
[0009] Die Anwendung einer auf weichen Entscheidung basierenden (soft-decision based) Modifikation der spektralen Gewichtsfunktion (vgl. R. McAulay and M. Malpass, "Speech en-hancement using a soft-decision noise Suppression filter," in IEEE Trans. Acoust., Speech and Sig. Proc, vol. 28, no. 2, pp. 137-145, 1980) hat Verbesserungen der Störgeräuschunterdrückungseigenschaften des Verstärkersystems in Bezug auf die Unterdrückung der musikalischen Klänge gezeigt. Diese weichen Entscheidungsansätze hängen hauptsächlich von der a priori Wahrscheinichkeit des Fehlens der Sprache in jeder spektralen Komponente der gestörten Sprache ab.
[0010] Die kleinste mittlere quadratische Abweichung des kurzzeitigen spektralen Amplitudenschätzers (MMSE-STSA, vgl. Y. Ephraim and D. Malah, "Speech enhancement using a mini-mum mean-square error short-time amplitude estimator," IEEE Trans. Acoust. Speech and Sig. Proc., vol. 32, no. 6, pp.1109-1121, 1984) und die kleinste mittlere quadratische Abweichung des logarithmischen spektralen Amplitudenschätzers (MMSE-LSA, Y. Ephraim and D. Malah, "Speech enhancement using a minimum mean-square error log spectral amplitude estimator," IEEE Trans. Acoust. Speech and Sig. Proc, vol. 33, no. 2, pp.443-445, 1985) minimieren die entsprechende mittlere quadratische Abweichung der geschätzten kurzzeitigen spektralen oder logarithmischen spektralen Amplitude. Es wurde erkannt, dass der nicht-lineare Glättungsvorgang der MMSE-SP/LSA Methoden (die sogenannten entscheidungsgesteuerten Ansätze), eine einheitliche Abschätzung des SNR erwirkt, der eine gute Störgeräuschunterdrückung ohne unangenehme musikalische Klänge bewerkstelligt (vgl. O. Capp, "Elimination of the musical noise phenomenon with the Ephraim and Malah noise suppressor" IEEE Trans. Speech and Audio Proc., vol. 2, no. 2, pp. 345-349, 1994). Beide: Capp and Malah (vgl. E. Malah et al., "Tracking speech-presence uncertainty to improve speech enhancement in non-stationary noise environments," in Proc. IEEE Int. Conf. Acoust., Speech and Sig. Proc. (ICASSP'99), vol. 2, pp. 789-792, 1999) schlagen eine Begrenzung der a priori SNR-Abschätzung vor, um das Problem des wahrnehmbaren musikalischen Rauschens mit niedrigem Pegel während Sprechpausen zu bewältigen. Das sogenannte a priori SNR stellt die Information über das unbekannte 2/31 österreichisches Patentamt AT 509 570 B1 2011-12-15
Betragssprektrum dar, das von den vorhergegangenen Frames gesammelt und im entscheidungsgesteuerten Ansatz (DDA) ausgewertet wurde. Weil die Glättung, die vom DDA ausgeführt wird, Unregelmäßigkeiten aufweist, kann das musikalische Geräusch mit geringem Pegel auftreten. Eine einfache Lösung für dieses Problem besteht in der Einschränkung des a priori SNR durch eine untere Schranke.
[0011] In der Einkanal-Spektralsubtraktion wird das Störgeräuschspektrum normalerweise während der Sprechpause abgeschätzt, das Sprechaktivitätserkennungmethoden (VAD) erfordert (vgl. R. McAulay and M. Malpass, "Speech enhancement using a soft-decision noise Suppression filter" in IEEE Trans. Acoust., Speech and Sig. Proc., vol. 28, no. 2, pp. 137-145, 1980; and W. J. Hess, "A pitch-synchronous digital feature extraction System for phonemic recognition of speech", in IEEE Trans. Acoust., Speech and Sig. Proc., vol. 24, no. 1, pp. 14-25, 1976). Dieser Ansatz impliziert statische Störgeräuschcharkteristika während der Perioden des Sprechens. Arslan et al. entwickelte eine robuste Störgeräuschschätzmethode, die keine Sprechaktivitätserkennungmethoden wegen der rekursiven Mittelung mittels pegelabhängiger Zeitkonstanten für jedes Teilband erfordert (vgl. L. Arslan et al. "New methods for adaptive noise Suppression", in Proc. Int. Conf. on Acoustics, Speech and Sig. Proc. (ICASSP-95), Detroit, May 1995). Martin schlägt eine Störgeräuschschätzmethode vor, basierend auf einer Minimum-Statistik und einer optimalen Glättung der Leistungsspektrumdichte (PSD, vgl. R. Martin, "Noise power spectral density estimation based on optimal smoothing and minimum statistics," in IEEE Trans. Speech and Audio Proc., vol. 9, no. 5, pp. 512, July 2001). Weiters präsentiert Ealey et al. eine Methode zur Abschätzung der nicht-stationären Störgeräusche während der Dauer der gesprochenen Worte durch die Verwendung der harmonischen Struktur des gesprochenen Sprachspektrums, auch bekannt als harmonisches Tunneln (vgl. D. Ealey et al., "Harmonie tunnelling: tracking non-stationary noises during speech," in Proc. Eurospeech Aalborg, 2001). Des Weiteren wird von Sohn und Sung vorgeschlagen, wenn Informationen aus weichen Entscheidungen verwendet werden, dass das Störgeräuschspektrum kontinuierlich adaptiert wird, ob Sprache vorhanden ist der nicht, (vgl. J. Sohn and W. Sung, "A voice activity detector employing soft decision based noise spectrum adaptation," in Proc. IEEE Int. Conf. Acoustics, Speech and Sig. Proc. (ICASSP'98), vol. 1, pp-365-368, 1998).
[0012] Ephraim und Van Trees schlagen eine andere wichtige auf Signalteilraumzerlegung basierte Methode zur Störgeräuschunterdrückung vor (vgl. Y. Ephraim and H. L. Van Trees, "A Signal subspace approach for speech enhancement", in IEEE Trans. Speech and Audio Proc, vol. 3, pp. 251-266, July 1995). Dabei wird das verrauschte Signal in einen Signal-plus-Störgeräusch Teilraum und einen Störgeräuschteilraum zerlegt, wobei diese beiden Teilräume orthogonal zueinander sind. Dadurch wird es möglich das klare Sprachsignal von dem verrau-scheten Signal abzuschätzen. Der resultierende lineare Schätzer ist ein allgemeines Wiener-Filter mit einem justierbaren Störgeräuschpegel um den Kompromiss zwischen der Signalverzerrung und dem Reststörgeräusch einzustellen, weil sie nicht gleichzeitig minimiert werden können.
[0013] Skoglund und Kleijn zeigen die Wichtigkeit des temporären Ausblendens von Eigenschaften in Verbindung mit der Einspeisung der gesprochenen Sprache (vgl. J. Skoglund and W. B. Kleijn, "On Time-Frequency Masking in Voiced Speech", in IEEE Trans. Speech and Audio Proc., vol. 8, no. 4, pp. 361-369, July 2000). Es wird gezeigt, dass Störgeräusche zwischen zwei Einspeisungsimpulsen stärker wahrgenommen werden, als Störgeräusche in der Nähe der Impulse und dies ist speziell für Sprache mit geringer Wortdichte der Fall, für die der Einspeisungsimpuls temporär spärlich zu finden ist. Temporäres Ausblenden wird nicht von konventionellen Störgeräuschreduktionsmethoden verwendet, die einen Frequenzbereichschätzer verwenden. WO 2006 114100 offenbart ein Signalteilraum-Ansatz, der temporäre Ausble-dungseigenschaften in Betracht zieht.
GEGENSTAND UND ZUSAMMENFASSUNG DER ERFINDUNG
[0014] Das Ziel der vorliegenden Erfindung besteht darin, eine auf einem Einkanalhörmodell basierende Geräuschunterdrückungsmethode mit latenzzeitreduzierten Verarbeitung eines 3/31 österreichisches Patentamt AT 509 570 B1 2011-12-15 breitbandigen Sprachsignals in der Gegenwart von Hintergrundgeräuschen zu schaffen. Im Speziellen basiert die gegenwärtige Erfindung auf einer Methode zur spektralen Subtraktion unter Verwendung eines modifizierten entscheidungsgesteuerten Ansatzes, umfassend eine Übersubtraktion und einen einstellbaren Geräuschpegel zur Vermeidung von wahrnehmbaren musikalisches Klängen. Weiters verwendet die gegenwärtige Erfindung Teilbandverarbeitung mit Vor- und Nachfilterung, um zur menschlichen Wahrnehmung gehörendes zeitweiliges und gleichzeitiges Ausblenden zu berücksichtigen, im Speziellen um die wahrnehmbaren Signalverzerrungen während der Sprechperioden zu minimieren.
[0015] Die Frequenzbereichverarbeitung wird durch das vorgeschlagene System ausgeführt, das mittels einer uneinheitlichen Gammaton-Filterbank (GTF), die in kritische Bänder, auch oft als Bark-Bänder bezeichnet, unterteilt ist. Diese Analysefilterbank teilt das verrauschte Signal in eine Vielzahl von sich überlappenden schmalbandigen Signalen auf, wobei die sepktrale (gleichzeitige) Ausblendeigenschaften des menschlichen Hörempfindens berücksichtigt wird.
[0016] Eine Vorverarbeitungseinheit, die das Transferverhalten des menschlichen Außen- und Mittelohr nachbildet, wird auf das zeit-diskrete verrauschte Eingangssignal angewendet (z.B. auf die gewünschte mit Störgeräuschen und Interferenzen verunreinigte Sprache).
[0017] In jedem Teilband wird der Pegel des verrauschten Signals detektiert und geglättet. Diese engbandigen Pegeldetektoren werden auf eine Vielzahl von Teilbändern angewendet, um die Phase der einfachen Filterteile auszunutzen und um kürzeste Signalverarbeitungszeiten zu erhalten.
[0018] Von der geglätteten Einhüllenden der Teilbandsignale wird der Störgeräuschpegel unter der Verwendung eines heuristischen, auf der rekursiven Minimum-Statistik basierenden Ansatzes für jedes Teilband geschätzt.
[0019] Das unmittelbare Signal-zu-Störgeräusch-Verhältnis (SNR) wird für jedes Teilband von der Einhüllenden des verrauschten Signals und der Störgeräuschpegels geschätzt.
[0020] Die a priori SNR wird von der unmittelbaren SNR durch die Verwendung der spektralen Ephraim-Malah-Subtraktionsregel (EMSR) geschätzt. Um den Einfluss der Schätzfehler zu minimieren, wird ein verbesserter entscheidungsgesteuerter Ansatz (DDA) vorgeschlagen, der einen Unterschätzungsparameter und einen unteren Störgeräuschpegelparameter einführt.
[0021] Das zeitliche, auf dem menschlichen Hörempfinden basierende Ausblenden wird durch das adäquate Filtern der Teilbandsignale berücksichtigt. Diese nichtlineare Gehörnachblendfil-ter wenden rekursive Mittelwertbildung an fallende Flanken der in jedem Teilband detektierten Signalpegel an; mit den folgenden Effekten: (a) Überschätzungsvarianzen der stoßartigen Störgeräusche, (b) Störgeräuschunterdrückungsalgorithmen haben keinen Effekt auf Signal unterhalb der zeitlichen Ausblendgrenze und (c) es wird keine zusätzliche Signalverzögerung für transiente Signale verursacht, die wichtig für die Sprachwahrnehmung sind.
[0022] Eine nichtlineare Gewichtsfunktion für jedes Teilband wird aus der a priori SNR abgeschätzt, welche eine Übersubstraktion des geschätzten Störgeräuschsignals umfasst.
[0023] Das gestörte Signal in jedem Teilband wird mit einem entsprechenden Gewichtsfaktor multipliziert, um die Störgeräuschsignalkomponenten zu unterdrücken.
[0024] Eine optimierte, nahezu perfekte Rekonstruktionsfilterbank setzt ein Entscheidungskriterium für vorzeichenbehaftetes Summieren zum Wiederherstellen des verbesserten Vollbandsprachsignals ein.
[0025] Letztlich wird ein Nachfilter auf das verbesserte Vollbandsignal angewendet, um den Effekt vom Vorfilter zu kompensieren.
[0026] Bemerkungen: Die eingangs zitierten Störgeräuschunterdrückungsmethoden arbeiten im Frequenzbereich und verwenden die Diskrete Zeit-Fourier-Transformation (DTFT), die auf eine Blockverarbeitung der zeit-diskreten Eingangsignale basiert. Diese Blockverarbeitung fügt eine framegrößenabhängige Signalverzögerung hinzu. 4/31 österreichisches Patentamt AT 509 570 B1 2011-12-15 [0027] Einkanal-Sprachverstärkungssysteme des Subtraktionstyps sind effizient in der Reduktion der Hintergrundgeräusche; jedoch bergen sie wahrnehmbare, lästige Reststörgeräusche. Um dieses Problem zu bewältigen, werden die Eigenschaften des Hörsystems in den Verstärkungsprozess eingebracht. Dieses Phänomen wird durch die Berechung der Störgeräuschaus-blendungsgrenze im Frequenzbereich modelliert, unter der alle Komponenten unhörbar sind (vgl. N. Virag, "Single Channel Speech Enhancement Based on Masking Properties of the Human Auditory System", IEEE Trans, on Speech and Audio Proc., vol. 7, no. 2, pp. 126-137, March 1999).
[0028] Um die Hörausblendung in Sprachverstärkungssystemen des Subtraktionstyps zu modellieren, sind Filterbankimplementierungen speziell attraktiv, da sie auf die spektrale und zeitliche Auflösung des menschlichen Ohrs adaptiert werden können. Die Autoren schlagen eine Störgeräuschunterdrückungsmethode vor, basierend auf spektraler Subtraktion kombiniert mit der Zerlegung in kritische Bänder Gammaton-Filterbänke (GTF). Das Konzept der kritischen Bänder, welches die Auflösung des menschlichen Gehörsystems beschreibt, führt zu einer nichtlinearen Frequenzskala, der sogenannten Bark-Skala (vgl. J. O. Smith III and J. S. Abel, "Bark and ERB Bilinear Transforms," IEEE Trans, on Speech and Audio Proc., vol. 7, no. 6, pp. 697-708, Nov. 1999).
[0029] Die Verwendung der Gammaton-Filterbank übertrifft die DTFT basierten Ansätze in Bezug auf die rechnerische Komplexität und die Gesamtsystemverzögerungszeit. Jedoch, erlauben die GTF-Ansätze Auführungen mit kurzen Laufzeiten, Analyse-Synthese-Schemata mit geringer rechnerischer Komplexität und nahezu perfekter Rekonstruktion. Der vorgeschlagene Systhesefilter erstellt das breitbandige Ausgangssignal durch eine einfache Summation der Teilbandsignale unter Einführung eines Kriteriums der Notwendigkeit, das Vorzeichen vor der Summation zu wechseln. Dieser Ansatz übertrifft die von McAulay and Malpass vorgeschlagenen sprachkanalentschlüsselungsbasierten (vocoder-based) Ansätze (vgl. R. J. McAulay and M. L. Malpass, "Speech Enhancement Using a Soft-Decision Noise Suppression Filter", IEEE Trans, on Acoust., Speech and Sig. Proc., vol. ASSP-28, no. 2, pp. 137-145, April 1980). In diesem Ansatz wird die Vollbandrekonstruktion des Ausgangsignals durch Summation von alternierend aus-der-Phase befindlichen Teilbandsignalen ohne Berücksichtigung der realen Phasenbeziehung zwischen Subbändern bewerkstelligt. Das bringt große Verzerrungen für das Ausgangsignal.
[0030] Wichtige Bemerkung: Teilbandsignale ohne Downsampling, wie sie oft in Hörhilfssystemen angewendet werden, benötigen keine Synthesefilterbank. Daher ist dieser Ansatz für laufzeitreduzierte Sprachverstärkungssysteme anwendbar, aber rechnerisch hoch ineffizient. Die von den Autoren vorgeschlagene Methode erlaubt die Berechnung des Ausgangsignals von den Teilbandsignalen durch einfache Summation unter Berücksichtigung der Phasenunterschiede! [0031] Es ist wert zu erwähnen, dass es viele Anwendungen, wie Hörhilfen oder Freisprecheinrichtungen in Autos, gibt, bei denen die rechnerischen Komplexität und Signalverzögerungen von äußerster Wichtigkeit sind.
[0032] Die Hauptvorteile der gegenwärtigen Erfindung, verglichen mit konventionellen Störgeräuschunterdrückungsmethoden, sind die signifikanten Verbesserungen betreffend den Gesamtsignalverzögerungen und die rechnerische Effizienz.
[0033] Die Erfindung wird nicht durch die folgende Ausführungsform beschränkt. Sie ist lediglich zur Erläuterung des erfinderischen Konzeptes und zur Darstellung einer möglichen Anwendung vorgesehen.
[0034] Erfindungsgemäß arbeitet die Methode für laufzeitreduzierte, auf einem Gehörmodell basierte Einkanal-Störgeräuschunterdrückung und -reduktion als unabhängiges Modul und ist für Installationen in digitalen Signalverarbeitungsketten vorgesehen, worin ein durch Software spezifizierter Algorithmus in einen kommerziell verfügbaren digitalen Signalprozessor (DSP), insbesondere ein DSP für Audioanwendungen, implementiert ist. 5/31 österreichisches Patentamt AT 509 570 B1 2011-12-15 [0035] Bemerkungen: Die Amplitude des klaren Sprachsignals wird mit der spektralen Ephraim-Malah-Subtraktionsregel (EMSR) von der gegebenen Amplitude des verrauschten Signals und der geschätzten Störgeräuschvarianz abgeschätzt. Um Artefakte wie das musikalische Geräusch zu vermeiden, werden modifizierte entscheidungsgesteuerte Ansätze (DDA), die Übersubtraktion (Unterschätzung) der Störgeräuschvarianz mit einem unteren Störgeräuschpegelparameter eingeführt.
[0036] Im Vergleich zum nachgewiesenen Stand der Technik, sowohl Druckschrift für Druckschrift als auch in deren Zusammenschau, ist die Lösung neu und erfinderisch. Der wesentliche Unterschied besteht darin, dass die dargestellte auditive Gammaton-Analysefilterbank zur Teilbandzerlegung des Eingangssignals eine zusätzliche Phasenverschiebung an den Teilbändern durchführt, durch welche eine verbesserte Rekonstruktion des Ausgangssignals mittels einfacher und recheneffizienter Summation der unterabgetasteten Teilbandsignale im Zeitbereich erreicht wird.
[0037] Desweiteren ist im Vergleich zum vorliegenden Stand der Technik folgender Unterschied feststellbar: Die dargestellte Methode zur Störgeräuschschätzung unter Anwendung nachgefühlter Schwellwerte ist besonders effizient hinsichtlich des Speicherbedarfs der rekursiven Ausführung. Rekursive Verfahren weisen üblicherweise eine hohe Robustheit und Stabilität auf, jedoch sind diese Vorteile immer mit hohem Speicherbedarf und einer hohen Rechenzeit verknüpft. Die Kombination der ineinandergreifenden Verarbeitungsstufen (Mitteln bei kleinen Signalpegeln - Halten der Schätzwerte bei hohen jedoch zeitlich begrenzten Signalpegeln -Überschätzen bei anhaltend hohen Signalpegeln) ist in dieser Form im Stand der Technik noch nicht gegeben. Durch die rekursive Struktur der Signalverarbeitungsalgorithmen kann eine lange Speicherung von Signalpegelwerten vermieden und der benötigte Rechenaufwand minimiert werden.
KURZBESCHREIBUNG DER ZEICHNUNGSFIGUREN
[0038] Fig. 1 ist eine schematische Darstellung einer Einkanal-Teilband-Sprachverstär- kungseinheit der vorliegenden Erfindung.
[0039] Fig. 2 ist eine schematische Darstellung der nichtlinearen Berechnung des Ver stärkungsfaktors für die Störgeräuschunterdrückung, welche für jedes Teilband angewendet wird.
[0040] Fig. 3 und 4 zeigen die dachförmige MMSE-SP-Abschwächungsfläche in Abhängigkeit der a posteriori (yk) und der a priori (ξϋ SNR. Um alle Werte 0 < yk < oo abzudecken bezieht sich die x-Achse auf yk und nicht wie in der Literatur auf (yk -1). Die strichpunktierte Linie in Fig. 3 markiert den Übergang zwischen den Bereichen und , die strichlierte Linie zeigt die spektrale Leis- v n tungssubtraktionskontur. Die Konturen der DDA-Abschätzung sind in Fig. 4 über der MMSE-SP-Abschwächnungsfläche eingezeichnet. Die gestrichelten Linien in Fig. 4 zeigen den Durchschnitt der dynamischen Verhältnisse zwischen yk und Die soliden Linien zeigen die statischen Verhältnisse.
[0041] Fig. 5 und 6 sind Darstellungen des kombinierten (modifizierten) DDA- und MMSE-SP-
Abschätzungsverhalten. Die strichlierten Linien in Fig. 5 zeigen den Durchschnitt des dynamischen Verhältnis zwischen yk und ξι<. Die soliden Linien zeigen die statischen Verhältnisse. Zwei fikitive Hystereseschleifen in Fig. 6 passen mit den Beobachtungen von informellen Experimenten überein.
[0042] Fig. 7 zeigt ein Blockdiagramm des Komplettsystems.
[0043] Fig. 8 zeigt das Komplettsystem, das eine Hörfrequenzanalyse und eine Wieder zusammensetzung als Eingang und Ausgang umfasst, sowie eine spezielle verzögerszeitreduzierte Sprachverstärkung mit geringem Aufwand dazwi- 6/31
österreichisches Patentamt [0044] Fig. 9 [0045] Fig. 10 [0046] Fig. 11 [0047] Fig. 12 [0048] Fig. 13 [0049] Fig. 14 AT 509 570 B1 2011-12-15 sehen. Eine Kombination eines ausgeklügelten Geräuschunterdrückungsgesetz mit einem menschlichen Gehörmodell ermöglicht hochqualitative Leistungsmerkmale. zeigt einen Außenohr- und einen Mittelohrfilter zusammengestellt aus drei Abschnitten zweiter Ordnung (SOS). zeigt ein Beispiel: Three-Zero Gammaton-Filter der Ordnung 3. Die gemeinsame Null bei z = 1 ist nicht in dieser Figur dargestellt. zeigt eine bekannte Art der Pegelerkennung. Bei der Verwendung der Signalleistung wird das Quadrat der Amplitude detektiert. zeigt den laufzeitreduzierten FIR-Pegeldetektor. zeigt einen nichtlinearen rekursiven Post-Masking auditorisches Filter, der auf fallende Flanken anspricht. zeigt einen rekursiven Störgeräuschpegelabschätzer, der drei Zeitkonstanten und einem Zählerschwellwert verwendet.
DETAILLIERTE BESCHREIBUNG
[0050] In dieser Beschreibung werden neue Aspekte vorgelegt, welche die Ephraim-Malah-Störgeräuschunterdrückungsregel (EMSR) und den entscheidungsgesteuerten Ansatz (DDA) für eine a priori Störabstandabschätzung betreffen. Nach Aufteilung des Bereichs des Amplitudenabschätzers wird es klar, dass die kombinierte DDA-Abschätzung eines unkonfigurierten Hysteresezyklus folgt. Die Einführung eines Hysteresebreiteparamteters verbessert die Hystereseform und reduziert das musikalische Geräusch. Schließlich erhalten wir einen flexibleren Störgeräuschunterdrücker mit geringerer Abhängigkeit von der Abtastraste des Systems.
I. EINFÜHRUNG
[0051] Der Ephraim-Malah-Amplitudenabschätzer und die entscheidungsgesteuerte Ephraim-Malah a priori SNR-Abschätzung (Y. Ephraim and D. Malah, "Speech Enhancement Using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator", IEEE Transactions on Acoustics, Speech, and Signal Processing, nr. 6, vol. ASSP-32, pp. 1109-1121, Dec. 1984 and Y. Ephraim and D. Malah, "Speech Enhancement Using a Minimum Mean-Square Error Log-Spectral Amplitude Estimator", IEEE Transactions on Acoustics, Speech, and Signal Processing, nr. 2, vol. ASSP-33, pp. 443-445, Apr. 1985.) sind leistungsstarke Werkzeuge der Störgeräuschunterdrückung in der Sprachsignalverarbeitung. Gegenwärtig gibt es eine ganze Menge von kürzlich publizierten Arbeiten zu beiden Themen, da der kombinierte Algorithmus ein leistungsfähiges Werkzeug einerseits ist (O. Cappe, "Elimination of the Musical Noise Phenomenon with the Ephraim and Malah Noise Suppressor", IEEE Transactions on Speech and Audio Processing, nr. 2, vol. 2, pp. 345-349, Apr. 1994), aber anderseits sind Vereinfachungen (P. J. Wolfe and S. J. Godsill, "Simple Alternatives to the Ephraim and Malah Suppression Rule for Speech Enhancement", Proc. 11th IEEE Signal Processing Workshop, pp. 496-499, 6-8. Aug 2001) sowie Weiterentwicklungen (I. Cohen and B. Berdugo, "Speech Enhancement for non-stationary noise environments", Signal Processing, no. 11, pp. 2403-2418, Elsevier, Nov. 2001; I. Cohen, "Speech Enhancement Using a Noncausal A Priori SNR estimator", IEEE Signal Processing Letters, no. 9, pp. 725-728, Sep. 2004; I. Cohen, "Relaxed Statistical Model for Speech Enhancement and A Priori SNR Estinnation", Center for Communication and Information Technologies, Israel Institute of Technology, Oct, 2003, CCIT Report no. 443; Μ. K. Hasan, S. Salahuddin, M. R. Khan, "A Modified A Priori SNR for Speech Enhancement Using Spectral Subtraction Rules", IEEE Signal Processing Letters, vol. 11, no. 4, pp 450-453, April 2004) wünschenswert sind.
[0052] Im Amplitudenabschätzungsteil des Alogrithmus wird ein Signalmodell herangezogen, in welchem ein Störgeräuschsignal y[n], bestehend aus Sprache x[n] und additiven Störgeräuschen d[n], zum Zeitindex n. Die Signale x[n] und d[n] werden als statistisch unabhängige 7/31 österreichisches Patentamt AT 509 570 B1 2011-12-15
Gauß'sche Zufallsvariablen angenommen. Wegen bestimmter Eigenschaften der Fouriertransformation kann das selbe statistische Modell für die entsprechenden kurzzeitigen spektralen Amplituden Xk[m] und Dk[m] in jedem Frequenzintervall k zum Analysezeitpunkt m angenommen werden. (Unterstrichene Variablen kennzeichnen hier komplexwertige Größen. Deshalb ist Xk[m] in unserer Notation eine komplexe Variable. Zur Vereinfachung der Notation soll Xk[m] den Betrag |Xk[m]| darstellen.) Bei gegebenen Sprach- und Störgeräuschvarianzen a2xk und σ] k kann die Sprachamplitude Xk[m] von der verrauschten Sprache Yk[m] abgeschätzt werden.
Ein geeigneter Abschätzer [m] für die klare Sprachamplitude wird in Abschnitt l-A beschrieben.
[0053] Die unbekannten Varianzen der klaren Sprache a2xk werden implizit im a priori SNR-Abschätzungsteil des Algorithmus bestimmt, wobei die Störgeräuschvarianz adk im Vorhinein zu bestimmen ist, z.B. durch die Verwendung der Minimum-Statistik (P. J. Wolfe and S. J. God-sill, "Simple Alternatives to the Ephraim and Malah Suppression Rule for Speech Enhancement", Proc. 11th IEEE Signal Processing Workshop, pp. 496-499, 6-8. Aug 2001), MCRA (I. Cohen and B. Berdugo, "Speech Enhancement for non-stationary noise environments", Signal Processing, no. 11, pp. 2403-2418, Elsevier, Nov. 2001) oder harmonisches Tunneln (D. Ealey, H. Kelleher, D. Pearce, "Harmonie Tunneling: Tracking Non-Stationary Noises Düring Speech", Proc. Eurospeech, 2001).
[0054] Die entscheidungsgesteuerte Abschätzung, beschrieben in Abschnitt l-B, bestimmt die a priori SNR ξ1ζ=σ2χ1ζΙ a2dk in jedem Frequenzintervall k. Zusätzlich verwendet der Störgeräuschunterdrücker eine unmittelbare Abschätzung, den sogenannten a posteriori SNR-Ab-schätzer, der das Quadrat des gegenwärtigen Störgeräuschbetrags auf die Störgeräuschvarianz bezieht 7k[m] = Yk[m]la2dJi.
[0055] In Abschnitt II wird ein Überblick über die kombinierte Abschätzung gegeben und die Hystereseform präsentiert. Anschließend wird in Abschnitt III gezeigt, wie eine kleine Modifikation ungwünschtes Abschätzungsverhalten reduzieren kann und eine glattere Hysterese ermöglicht. A. DAS EPHRAIM-MALAH-UNTERDRÜCKUNGSGESTZ (EMSR) [0056] Wie eingangs beschrieben, rekonstruiert der EMSR den Betrag des klaren Sprachsignals Xk\m\ von der verrauschten Beobachtung Yk[m], Weil die Beträge zu unterschiedlichen
Zeitpunkten m als statistisch unabhängig angenommen wurden, kann der Zeitindex m zur Vereinfachung der Notation weggelassen werden.
[0057] Der MMSE-SA-Schätzer von Ephraim und Malah (Y. Ephraim and D. Malah, "Speech Enhancement Using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator", IEEE Transactions on Acoustics, Speech, and Signal Processing, nr. 6, vol. ASSP-32, pp. 1109-1121, Dec. 1984) löst die Bayes'sche Formel Λ=4ν,ΐη} um die Amplitude der klaren
Sprache Xk abzuschätzen. Werden verschiedene Verzerrungen auf die Amplitude angewendet, werden andere Schätzer in ähnlicherWeise abgeleitet, z.B. der MMSE-LSA Y. Ephraim and D. Malah, "Speech Enhancement Using a Minimum Mean-Square Error Log-Spectral Amplitude Estimator", IEEE Transactions on Acoustics, Speech, and Signal Processing, nr. 2, vol. ASSP- 33, pp. 443-445, Apr. 1985) Xk=eE^Xt^t\ und der MMSE-SP von Wolfe und Godsill (P. J.
Wolfe and S. J. Godsill, "Simple Alternatives to the Ephraim and Malah Suppression Rule for Speech Enhancement", Proc. 11th IEEE Signal Processing Workshop, pp. 496-499, 6-8. Aug 2001) Xk =yjE{x2\Yk\. Für eine detailiertere Beschreibung sei auf Cohen verwiesen (I. Cohen, "Relaxed Statistical Model for Speech Enhancement and A Priori SNR Estimation", Center for 8/31 österreichisches Patentamt AT 509 570 B1 2011-12-15
Communication and Information Technologies, Israel Institute of Technology, Oct, 2003, CCIT Report no. 443).
[0058] Gemäß Ephraim and Malah ist die verrauschte Phase eine optimale Schätzung der klaren Phase. Daher ist der Rekonstruktionsoperator ein reell-wertiges Spektralgewicht G[m]: G[m]Kk[m]
Xk[m] Yk[m] G[m\ -Zfc[m]. (1) (2) [0059] Wegen seiner Einfachheit haben wir die MMSE-SP (3) von Wolfe und Godsill als Basis für unsere Betrachtung gewählt. Die entsprechende Gewichtsregel kann wie folgt angegeben werden:
Gmmse—sp[m]
(3) unter der Verwendung der Gleichung des Wiener-Filters (4) _ χΑ = 6
Grv - 1 + &‘ [0060] Um die Anwendung zu vereinfachen, zerlegen wir den Rekonstruktionsoperator in einige Regionen • (7k - 1) < 1/6 : Gmmse-sp • (7¾ — 1) 1/6 : Gmmse-sp ~ Gw • — 1) = 1/6 : GmMSE-SP = >/Gw 2/7fc- [0061] Zusätzlich können wir das Wiener-Filter durch • 6^1’ Gw ~ 6 • 6 ^ 1 : Gw ~ 1 [0062] approximieren. Mit der Kombination von beiden können wir die MMSE-SP-Fläche logarithmisch in flache Teile zerlegen (vgl. auch Fig. 3): 1) (7fe - 1) <C 1 /6, ξΐι < 1 => Gmmse-sp « \/6/7fc 2) (7¾ - 1) < 1/6, ξ* » 1 => Gmmse-sp ~ \fillk 3) (7k - 1) > 1/6» 6 < 1 =* Gmmse-sp « 6 4) (7*, - 1) > 1/6, 6 > 1 => Gmmse-sp ~ 1 [0063] In den folgenden Abschnitten verwenden wir die Kurzform G wenn wir uns auf GMmse-sp beziehen. B. DER ENTSCHEIDUNGSGESTEUERTE ANSATZ (DDA) [0064] Der DDA kombiniert zwei einfache SNR-Schätzer zu einem neuen Schätzer für a priori SNR ξκ.
[0065] Der erste Schätzer ist der unmittelbare SNR Mit nur positiven SNR-Werten erhält man (n-i)= k- 9/31 österreichisches Patentamt AT 509 570 B1 2011-12-15 (5) SNRinst = max(7fc - 1,0), [0066] das vor der Störgeräuschunterdrückung berechnet werden kann. Dieses unmittelbare SNR unterscheidet sich von dem wirklichen SNR in den folgenden Fällen: [0067] · wenn das Analysezeitfenster zu kurz, hinsichtlich der Stationarität der Signale x[n] und d[n], ist, [0068] · wenn ein nichtstationäres Störgeräusch nicht im Detail indentifiziert werden kann oder [0069] · wenn Störgeräusch und Sprachsignal stark korreliert sind.
[0070] Der Schätzer zweiter Ordnung beschreibt das wiederhergestellte SNR, welches nach der Störgeräuschunterdrückung folgendermaßen berechnet wird SNRrec = n = lk-G2 (6) 'd,k [0071] Bei schlechten SNR-Verhältnissen, z.B. 0 < 7k < 2, zeigt das a posteriori SNR 7k relative Variationen mit der Zeit, die kleiner als jene von (7k - 1) sind. (Relative Variationen, z.B. 10 log(7k[m]) - 10 log(7k[m-1]), sind signifikanter als lineare Variationen hinsichtlich des menschlichen Hörempfindens.) Idealer Weise liefert G 5 eine konsistente hohe Dämpfung für schlechte SNR-Verhältnisse. Daher ergibt die wiederhergestellte SNRrec beständigere Werte als SNRinst bei schlechten SNR Fällen.
[0072] Letztendlich kombiniert der DDA zur Abschätzung des a priori SNR SNRinst und SNRrec: (7) £fc[m] = (1 — a) · SNRin8t[m] + a · SNRrec [τη — 1]- [0073] Die spezifischen Eigenschaften des Schätzers können beim Einsetzen der Unterdrückungsverstärkung in den DDA beobachtet werden.
[0074] II. Kombination von DDA und EMSR
[0075] Das Einsetzen der Teile des Rekonstruktionsoperators Gmmse-sp von Wolfe und Godsill aus Abschnitt l-A in die DDA-Gleichung (7) von Ephraim und Malah ergibt für die kombinierte a priori SNR-Schätzung folgende Wirkungsbereiche: 1) (7k — 1) < 1/fjfe, 6 < 1. G α y/ξΐί/7fc £fc[m] « (1 — a) · max (qfk[m] — 1,0) + (8) a - £fc[m - 1]. 2) (7fc - 1) <C 1/&, 6 » 1, G « y/lpik £fc[ra] « (1 — a) · max (7*[πι] — 1,0) + a (9) ~ a. 10/31 österreichisches Patentamt AT 509 570 B1 2011-12-15 3) (7fc - 1) » 1/&, ξ*[τη] « (1 - a) max (7*[m] - 1,0) + or £*[m - 1] - 7*[m - 1] (10)
(ID « (1 - a) (7k[m] - 1). « (1 - a) · max (7fc[m] -1,0) + a 7k[m - 1] « a-7*;[m-l]. 5) (7fc - 1) = 1/6, & < 1 =► G = >/2 · efc/7fc w (1 - a) · (TfcH “ 1) + (12) 2a ^fc[m - 1].
[0076] Die Charakteristik des kombinierten Ansatzes kann in Fig. 4 betrachtet werden. Unter der Berücksichtigung der Amplitude des Sprachsignals und eines konstanten Störgeräuschpegels, z.B. einer zeitlich veränderlichen a posteriori SNR 7k als Eingangssequenz, kann man sich eine Art von Hystereseschleifeentwicklung auf der MMSE-SP-Fläche vorstellen. Neben offensichtlichen Unstetigkeiten in dieser Schleife werden andere Eigenschaften gezeigt (O. Cappe, "Elimination of the Musical Noise Phenomenon with the Ephraim and Malah Noise Suppressor", IEEE Transactions on Speech and Audio Processing, nr. 2, vol. 2, pp. 345-349, Apr. 1994).
A. REKURSIVE MITTELWERTBILDUNG
[0077] 1) ERWARTUNGEN VON REKURSIVER MITTELWERTBILDUNG: In der obigen Aufzählung kann man erkennen, dass die a priori SNR-Schätzung in Teil 1 mit dem rekursiven Mittelwert (8) der unmittelbaren SNRinst (5) korrespondiert. Es ist möglich den Mittelungsprozess durch die Einführung einer Zeitkonstante Tavg, die den Mittelwertparameter α = exp[-1/(Tavg fs)] bestimmt, zu verallgemeinern. Hier bezeichnet die Abtastrate fs = 1/T die Anzahl der Zeit-Frequenz-Tranformationen pro Sekunde.
[0078] 2) DER KONSTANTE-EFFEKT: Falls das a priori SNR ξκ einen konstanten Wert in Teil 1 aufweist, z.B. für den Fall von großen Zeitkonstanten Tavg oder an den Rändern des ξκ-Wertebereichs, könnte der Schätzer seltsam funktionieren. Bei kleinen und konstanten ξκ wird das System die Ausgangsgröße auf einem konstanten Pegel gehalten. Das passiert, wenn der Eingang klein genug ist (κ*2[ι»]/σ^ -l) «l/£t ^>Yk2[m]«G2dk/Gw (unter Verwen dung von (8) und seinen Voraussetzungen):
11/31 (13) [0079] Unter bestimmten Umständen kann das zu störenden, zusätzlichen, breitbandigen Stör- österreichisches Patentamt AT 509 570 B1 2011-12-15 geräuschen führen, die schlimmer sein können als eine konstante Ausgangsgröße, die wegen der Beschränkung von 6 auf ein Minimum ζ für F/[m] < a]k I ζ verursacht wird.
[0080] 3) INSTABILE REKURSIVE MITTELWERTBILDUNG: Folgt man (12), kann Teil 5 zu a priori SNR-Schätzung durch instabile rekursive Mittelwertbildung von SNRins, führen, falls α > 1/2, z.B. kann 6 plötzlich in diesem Teil steigen.
B. TEILE OHNE REKURSIVER MITTELWERTBILDUNG
[0081] In den Teilen 2, 3, und 4 ist die Interpretation der rekursiven Mittelwertbildung nicht brauchbar. In (9) nimmt nämlich die a priori SNR-Schätzung 6 einen konstanten Wert an, und in (10) wird ξκ durch eine einfache Verzögerungszeit bestimmt. Es wirkt merkwürdig, dass SNR ξκ in (10) reduzierte Version von SNRins, ist.
C. ZUSAMMENFASSUNG DER EIGENSCHAFTEN
[0082] Tatsächtlich, besitzt jeder Teil außer 1 und 4 (Eqs. (8) und (11)) unerwartetes Verhalten. Mit der Definition von α durch eine Zeitkonstante erhält man verallgemeinerte mittelwertbildende Eigenschaften von (8), wohingegen a abtastratenabhängiges Verhalten durch die durch Eqs. (9)-(12) definierte Schätzung eingeführt wird. Diese Form der Abtastrate schließt einen allgemein passenden Parametersatz für unterschiedliche Zeitschrittanalysen und Transformationsgrößen aus.
[0083] Ungünstiges Schätzverhalten, z.B. der "Konstant- ξ-Effekt", und die Unstetigkeiten in der Hystereseschleife (Fig. 4) erhöhen die Erwägung bezüglich einer Modifikation der DDA und einer nochmaligen Prüfung derzeitkonstanten und Minimum-a priori SNR-Größen.
III. EIN MODIFIZIERES, SCHNELL ANTWORTENDER DDA
[0084] Um den Einfluss unerwartender Schätzfunktionen zu minimieren, wird der entscheidungsgesteuerte Ansatz modifiziert: £*[m] = (1 — a) · (p · SNRmstfwi] + C) + & · SNRrec[m — 1], (14) [0085] mit ζ als unterer Störgeräuschpegelparameter (O. Cappe, „Elimination of the Musical Noise Phenomenon with the Ephraim and Malah Noise Suppressor“, IEEE Transactions on Speech and Audio Processing, nr. 2, vol. 2, pp. 345-349, Apr. 1994) und p and Unterschätzparameter des unmittelbaren SNR. Ähnlich wie bei den Teilen in Abschnitt II kann man folgendes finden: 1) (tk - 1) « 1/6. & C 1, G » VWrÄ £fc[ra] « p( 1 — α) · max(7fc[m] — 1,0) + a 6[m — 1]. (15) 2) (lk - 1) < 1/6, 6 » 1, G « y/l/lfk (16) 6H ~ «· 3) (7* -1) > 1/6,6 < ~ 6 6[m] « ρ( 1 - a) (7fcH - 1)· U7) 4) (7* -1) > 1/6,6 »1, G «i (18) 6M ~ a · 7k[m - 1]. 12/31 österreichisches Patentamt AT 509 570 B1 2011-12-15 [0086] Hinsichtlich der Teilungen des neuen Schätzers, kann man das Schema des Gesamtschätzers in Fig. 5 betrachten. Statt der Zeitkonstanten in dem quasistationären Bereich der Sprache wird jetzt Tavg = 2 ms verwendet, p = 10'15/10 garantiert, dass der Skalierungsfaktor in (17) durch p(l-a) « p approximiert wird, das die Unstetigkeiten in der Abschätzhysterese behebt. Man kann den unteren Störgeräuschpegel ζ = 10'2T°so klein wählen, dass die maximale Abschwächung ζ am unteren Ende des dynamischen Bereichs des Frequenzintervalls liegt. Diese Maßnahmen reduzieren größtenteils die in Abschnitt ll-C beschriebene Abtastratenabhängigkeit und den "Konstante-Effekt" aus Abschnitt II-A.2.
[0087] Es wird klar, dass steigende unmittelbare SNRs nun besser abgeschwächt werden nach Fig. 5 als in Fig. 4. Daher kann eine starke Abschwächung für musikalische Klänge, z.B. inkonsistente hohe unmittelbare SNR, bereitgestellt werden, während ein Signal mit durchwegs hoher SNR, durch den Störgeräuschunterdrücker hindurchgehen kann. Die zwei gekräuselten Schleifen in Fig. 6 geben ein Beispiel einer approximierten Hystereseschleife während des Systembetriebs.
[0088] Der Parameter p kann direkt die Unterdrückungshysteresebreite und die Unterdrückung des musikalischen Geräusches steuern. Unsere Modifikationen ermöglichen eine separate Steuerung der mittelwertbildenen Zeitkonstante und das Störgeräuschunterdrückung.
IV. SCHLUSSFOLGERUNG
[0089] Wir haben einen nachvollziehbaren Weg gefunden, um die Eigenschaften der spektralen Amplitudenschätzung von Wolfe und Godsill sowie die entscheidungsgesteuerte a priori SNR-Abschätzung von Ephraim und Malah grafisch zu beschreiben. Diese Beschreibung kann in ähnlicher Weise für andere Amplitudenschätzreglen verwendet werden und bietet eine neue Einsicht in den Störgeräuschunterdrücker von Ephraim und Malah.
[0090] Bisher war die die Unterdrückung des musikalischen Geräusches ein Kompromiss zwischen der Unterdrückung des musikalischen Geräusches und transienten Verzerrung. Kleine Modifikationen in der entscheidungsgesteuerten Schätzregel erlaubt ein flexibleres Handhaben der Unterdrückung des musikalischen Geräusches, bei gleichzeitiger Reduktion der Abhängigkeiten der Zeitschrittanalyse und des "Konstante-Effektes". Ein informeller Hörtest mit modifiziertem Algorithmus und justierbarer Analysezeit/Frequenzauflösung (Filterbankansatz) zeigte bereits nützliche Verbesserungen in Gesamtsystem.
[0091] Unsere zukünftige Arbeit wird unsere beschreibenden Methoden in ausgeklügeltere Schätzansätze von Cohen (I. Cohen, "Speech Enhancement Using a Noncausal A Priori SNR estimator", IEEE Signal Processing Letters, no. 9, pp. 725-728, Sep. 2004) oder Hasan (Μ. K. Hasan, S. Salahuddin, M. R. Khan, "A Modified A Priori SNR for Speech Enhancement Using Spectral Subtraction Rules", IEEE Signal Processing Letters, vol. 11, no. 4, pp 450-453, April 2004) einsetzen.
APPARAT FÜR LAUFZEITREDUZIERTE EINKANAL-SPRACHVERSTÄRKUNG
[0092] Im Folgenden wird eine bevorzugte Ausführungsform beschrieben, jedoch ist die Erfindung nicht auf diese Ausführungsform beschränkt.
[0093] Die Reduktion von musikalischen Geräuschen in Störgeräuschunterdrückungsalgorithmen ist immer noch ein Kernpunkt für Störgeräuschreduktion. Obwohl die Ephraim-Malah-Unterdrückungsregel (EMSR) und der entscheidungsgesteuerte Ansatz (DDA) ein gutes Leistungsvermögen aufweisen, müssen zusätzliche Hilfsmittel angewendet werden. Darüber hinaus stellen die Verarbeitungszeiten von der Signalanalyse kommend (schnelle Fourier-Transformation, FFT) ein Problem für Echtzeitanwendungen dar. Entscheidende Verbesserungen in beiden Punkten kann durch die Implementierung der Signalanalyse und Filteransätze mit menschliche Hörempfindungsmodellen und Laufzeitreduktion erreicht werden. 13/31 österreichisches Patentamt AT 509 570 B1 2011-12-15
V. EINFÜHRUNG
[0094] Der Hauptteil dieser Beschreibung ist der Aufbereitung und der Anlayse des Hörsignals unter Verwendung von effizienten Algorithmen mit kurzen Verzögerungszeiten gewidmet. Unser System kombiniert eine Gehör-Gammaton-Filterbank (R. F. Lyon, "The All-Pole Gammatone Filter and Auditory Models", Proc. Forum Acusticum, Antwerpen 1996; L. Lin, E. Ambikairajah, W. H. Holmes, "Auditory Filterbank Design Using Masking Curves", Proc. EUROSPEECH Scandinavia, 7th European Conference on Speech Communication and Technology, 2001; L. Lin, E. Ambikairajah, W. H. Holmes, "Perceptual Domain Based Speech and Audio Coder", Proc. of the third International Symposion DSPCS 2002, Sydney, Jan. 28-31, 2002) mit der Ephraim-Malah Störgeräuschunterdrückungsregel (Y. Ephraim and D. Malah, "Speech Enhancement Using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator", IEEE Transactions on Acoustics, Speech, and Signal Processing, nr. 6, vol. ASSP-32, pp. 1109-1121, Dec. 1984; Ephraim and D. Malah, "Speech Enhancement Using a Minimum Mean-Square Error Log-Spectral Amplitude Estimator", IEEE Transactions on Acoustics, Speech, and Signal Processing, nr.2, vol. ASSP-33, pp. 443-445, Apr. 1985; P. J. Wolfe and S. J. Godsill, "Simple Alternatives to the Ephraim and Malah Suppression Rule for Speech Enhancement", Proc. 11th IEEE Signal Processing Workshop, pp. 496-499, 6-8. Aug 2001). Diese Kombination wurde kürzlich von den Autoren vorgestellt, wobei die Kombination einer Gehör-Gammaton-Filterbank mit einem Wiener-Störgeräuschunterdrücker von (L. Lin, E. Ambikairajah, "Speech Denoising Based on an Auditory Filterbank", 6th ICSP, International Conference on Signal Processing, (552-555), 26-30 Aug. 2002) und eine Frequenzbereichlösung von WO 00/30264 (International applicatoin No. PCT/SG99/00119) bekannt ist. Ferner ist die Integration eines Außen- und Mittelohrfilters im Zeitbereich sowie die Integration eines nichtlinearen temporären Post-Masking Filter (G. Stall, J. G. Beerends, R. Bitto, K. Brandenburg, C. Colomes, B. Feiten, M. Keyhl, C. Schmidmer, T. Sporer, T. Thiede, W. C. Treurniet, "PEAQ - der neue ITU-Standard zur objektiven Messung der wahrgenommenen Audioqualität", RTM - Rundfunktechnische Mitteilungen, die Fachzeitschrift für Hörfunk und Fernsehtechnik, 43. Jahrgang, ISSN 0035-9890 (81-120), Firma Mensing GmbH + Co. KG, Abteilung Verlag, Sept. 1999; L. Lin, E. Ambikairajah, W. H. Holmes, "Perceptual Domain Based Speech and Audio Coder", Proc. of the third International Symposion DSPCS 2002, Sydney, Jan. 28-31, 2002) in ein Störgeräuschunterdrückungssystem neu. Zusätzlich wird ein engbandiger Pegeldetektor mit kurzer Latenzzeit, der die Phase eines einfachen Filters erster Ordnung ausnützt, erstmals vorgestellt. Abschließend präsentieren wir ein einfaches Schema zur Signalrekonstruktion (Wiederherstellung) unter der Vermeidung von Bandkantensignalauslöschungen.
[0095] · Die Kombination einer Gehör-Gammaton-Filterbank und eines EMSR-Störgeräusch- unterdrückers in einem Zeitbereichansatz [0096] · Integration eines Außen- und Mittelohrfilters in das Unterdrückungssystem in einem
Zeitbereichansatz [0097] · Integration eines Post-Masking auditorischen Filters
Engbandiger Pegeldetektor mit kurzer Latenzzeit Signalwiederherstellung nach Wolfe und Godsill mit geringem Aufwand Upsampling mit kurzer Latenzzeit Wiederherstellung mit kurzer Latenzzeit trotz hindernder destruktiver Interferenzen [0098] [0099] [00100] [00101] [00102] Die Druckschriften „Speech denoising based on an auditory filterbank" von Lin et al., 2002, „Nonlinear Adaptive Speech Enhancement Inspired by Early Auditory Processing" von Hussain et al., 2005 und die WO 0205262 A2 beschreiben jeweils ein Verfahren zur Störgeräuschunterdrückung von Audiosignalen im Zeitbereich. Dabei erfolgt eine Aufspaltung des Audio-Eingangssignals in eine Vielzahl von Frequenzteilbändern, in denen jeweils eine Störgeräuschunterdrückung durchgeführt wird, anschließend werden die gefilterten Frequenzteilbänder wieder zu einem Ausgangssignal zusammengesetzt. Solche Verfahren zur Rekonstruktion des Ausgangssignals aus Frequenzteilbändern erlauben ohne Verwendung einer Synthese- 14/31 österreichisches Patentamt AT 509 570 B1 2011-12-15
Filterbank keine Unterabtastung der Teilbandsignale, was zu einem vergleichsweise hohen Rechenleistungsbedarf führt. Somit weisen diese Verfahren vor allem in modernen Telekom-munikations- und Mobilfunksystemen einen wesentlichen Nachteil auf.
VI. SYSTEMÜBERBLICK
[00103] Das Gesamtsystem ist als Blockdiagramm in Fig. 7 dargestellt und kann als analoger oder digitaler Effektprozessor oder als Teil eines Softwarealgorithmus implementiert werden. Innerhalb des Gesamtsystems sind mehrere Subsysteme (Fig. 8): [00104] · ein Außen- und Mittelohrfilter (Home), [00105] · ein Gammaton-Filterbank-Analyseabschnitt (GFB), [00106] · der Pegeldetektor mit kurzer Latenzzeit (LD), [00107] · der auditorische Post-Masking-Filter (PM), [00108] · ein rekursiver Störgeräuschspektrumschätzer (NE), [00109] · das spektrale Subtraktionsgewicht (EMSR), [00110] · Upsampling mit kurzer Latenzzeit (L t), [00111] · dem Vocoder-Zustand und [00112] · das inverse Außen- und Mittelohrfilter (Η,ομε)-
VII. AUSSEN- UND MITTELOHRFILTER
[00113] Ein Außen- und Mittelohrfilter unfasst drei Teile von zweiter Ordnung (SOS), die den physiolgischen Teil des menschlichen Ohrs repräsentieren (E. Zwicker, H. Fastl, "Psychoa-coustics, facts and models", Springer, Berlin Heidelberg, 1999; E. Terhardt, "Akustische Kommunikation", Springer, Berlin Heidelberg, 1998): [00114] 1) Die Hochpassdämpfungskurve unterhalb von 1KHz modelliert die 100-Phon-Kurve, die die akustischen Impedanz des Außenohrs und die mechanische Impedanz der Gehörknöchelchen im Mittelohr repräsentiert [00115] 2) Die Resonanz des Ohrkanals und [00116] 3) Die Tiefpassdämpfungskurve überhalb 1kHz modelliert die Hörschwelle.
[00117] Die letzten zwei Filter sind optional, wobei die Hochpass-Komponente obligatorisch ist und den Einfluss der niederfrequenten Störgeräusche auf den Störgeräuschunterdrücker reduziert.
[00118] Eine Filterstruktur mit einem adequaten Größentransferfunktion könnte letztendlich wie in Fig. 9 aussehen. Alle drei Filterabschnitte müssen Abschnitte zweiter Ordnung aufweisen, um geeignete Flanken zu gewährleisten. Die äußeren Filterränder können als zweite-Ordnung Tief-und Hochpass-Kuhschwanzfilter modelliert werden, wobei die Resonanzen als parametrischen Glockenfilter modelliert werden kann (P. Dutilleux, U. Zölzer, "DAFX", Wiley&Sons, 2002).
[00119] Die Filterinversion ist unkompliziert. Falls Nullen bei z.B. z = 1 im z-Bereich sein sollen, kann das inverse Filter das nicht bewerkstelligen. Möglicherweise ist z = 0.99 eine geeignete Wahl für einen Startwert zur Inversion eine z = 1 Null.
VIII. FREQUENZGRUPPEN/GEHORBANDBREITEN
[00120] Frequenzgruppierung ist ein wichtiger Effekt in der menschlichen Wahrnehmung der Lautstärke. Die wahrgenommene Lautstärke umfasst besondere Lautstärken für unterschiedliche Frequenzbereiche. Eine hörbare Frequenzskala kann zum Modellieren der Frequenzgruppeneffekte verwendet werden, dessen Einheiten als die Frequenzauflösung der menschlichen Lautstärkewahrnehmung gesehen werden kann (E. Zwicker, H. Fastl, „Psychoacoustics, facts and models“, Springer, Berlin Herdeiberg, 1999). Wir bezeichnen eine beliebige hörbare Fre- 15/31 österreichisches Patentamt AT 509 570 B1 2011-12-15 quenztransformation mit ffi{·} und die dazugehörige inverse Frequenstransformation mit Eine vernünftige Frequenzskala verwendet eine kleine Anzahl von Frequenzgruppen gemäß der Formel von Traunmüller (e. Terhardt, „ Akustische Kommunikation“, Springer, Berlin Heidelberg, 1998) *7[Bark]=» {//[Hz]} = 11^-0.53. (19)
Demgemäß ist die inverse Tranformation ffi'1 {} //[Hz] = !8 W[Bark]} = 1960 <20> [00121] Die Mittelfrequenzen fk der Gehör-Filterbank kann unter Anwendung der inversen Transformation fk = 0,‘r -\\pk) an einer äquidistanten Skala vk (mit Abständen dv, z.B. dv = 1[Bark]) im Bark-Raum berechnet werden, Ähnlich können die Bandbreiten Bk von Bk = ®'1{vk + dv/2} - ffi-1{vk - dv/2} berechnet werden. Andere Bark-Skalen (z.B. E. Zwicker, H. Fastl, "Psycho-acoustics, facts and models", Springer, Berlin Heidelberg, 1999) verwenden kleinere Bandbreiten und ergeben Gehörfilter mit größerer Gruppenverzögerung; daher wird der obige Abstand bevorzugt.
[00122] Um die Verwechslung mit der Variable z der z-Bereichs zu vermeinden, wird v anstelle von z für die Bark-Frequenzen verwendet.
IX. GEHOR-GAMMATON-FILTERS
[00123] Gehör-Gammaton-Filter (R. F. Lyon, "The All-Pole Gammatone Filter and Auditory Models", Proc. Forum Acusticum, Antwerpen 1996) können efiizient im Zeitbereich implementiert werden und erlauben die Separation eines breitbandigen Audiosignals in Gehörbandsignalen. Die Antwortgröße des Gammaton-Filters korrespondiert mit den unmittelbaren Ausben-dungseigenschaften des menschlichen Ohrs. Die Größe dieses Filters über die hörbare Frequenzskala aufgetragen bleibt gleich, egal für welche Mittelfrequenz das Filter ausgelegt wurde. Die beliebige Form repräsentiert eine Familie von Gammaton-Filtern der Ordnung m und ist weiter dargestellt, worin k der Filterbankkanalindex ist. Eine entsprechende z-Transformation, worin *GF ein beliebiges Gammaton-Filter (z.B. GF, APGF, OZGF, TZGF) bezeichnet: H* GF,k(^) 9*GF ' -iÄium.ki'Z) Π _1_ 1 - 2 · rk cos(0fc) · z~x + rk · z~2 (21) [00124] Digitale Mittelfrequenzen 0k und Pol-Radien rk werden von den zeitkontinuierlichen Größen Mittelfrequenz fk, Bandbreite Bk, die Bandrandunterdrückung CdB (z.B. CdB - - 5[dB]) und die Abtastrate fs:
9k = 2π · JS rk = 1 - 2ττ· 7* Js (22) [00125] Eine Gehör-Gainmaton-Filterbank repräsentiert eine Gruppe von überlappenden Gam-matone-Filtern, welche die hörbare Frequenzskala in äquidistante Frequenzbänder unterteilt. Die Ordnung m = 4 wird häufig in der Literatur verwendet, wobei die Ordnung m = 3 zur Minimierung der Rechenleistung vorgeschlagen wurde. Der Term g*GF soll derart justierbar sein, dass die Einheitsverstärkung bei der Mittelfrequenz fk erreicht wird. Für eine spezielle Form des Gammaton-Filters muss das System Hnum,k(z), wie in den folgenden Unterabschnitten gezeigt, geeignet adaptiert werden. 16/31
österreichisches Patentamt AT 509 570 B1 2011-12-15
A. EINFACHES GAMMATON-FILTER
[00126] Das einfache Gammaton-Filter (GF; R. F. Lyon, "The All-Pole Gammatone Filter and Auditory Models", Proc. Forum Acusticum, Antwerpen 1996) muss von der zeitkontinuierlichen Impulsantwort unter der Verwendung der Laplace- und Impulsvarianzentransformation (A. V. Oppenheim, R. W. Schäfer, J. R. Buck, "Discrete-Time Signal Processing", Prentice Hall, 1999) abgeleitet werden: (23) h(t) = tm 1e Bfc t cos(27r/fct), [00127] welches das unbekannte Polynom Hnum,k(z) in (21) bestimmt. Wegen seiner Form und des rechnerischen Aufwands ist seine Verwendung nicht empfohlen.
B. ALL-POL GAMMATON-FILTER
[00128] Ein All-Pol Gammaton-Filter (APGF) erhält man wenn das Polynom in (21) verschwindet Hnum,k(z) = 1. Es ist das effizienteste Gammaton-Filter (R. F. Lyon, "The All-Pole Gammatone Filter and Auditory Models", Proc. Forum Acusticum, Antwerpen 1996).
C. ONE-ZERO GAMMATONE-FILTER
[00129] Das Setzen von Hnum,kZ) = (1 - z'1) in (21) führt zu einem sogenannten One-Zero Gam-maton-Filter (R. F. Lyon, "The All-Pole Gammatone Filter and Auditory Models", Proc. Forum Acusticum, Antwerpen 1996). Das One-Zero Gammaton-Filter(OZGF) kann effizient aus einem "One-Zero" für alle Kanäle k vor dem Zerlegen in k All-Pol Gammaton-Filters zusammengesetzt werden.
D. THREE-ZERO GAMMATON-FILTER _|_Λ [00130] Wenn ein Paar von komplex-konjugierten Nullstellen z = rz-e~z* mit der digitalen Frequenz 0z,k bei 1 Bark über der Mittelfrequenz 0k mit einem Radius rz« 0.98 und eine zusätzlichen Nullstelle bei z = 1 hinzugefügt werden, erhält man Hnwnk{z) = (\.-2rzcos{ezk)z i + r2z~2)-(l-z~1) für das Three-Zero Gammaton-Filter (TZGF) mit einer verbesserten Form (L. Lin, E. Ambikairajah, W. H. Holmes, "Auditory Filterbank Design Using Masking Curves", Proc. EUROSPEECH Scandinavia, 7th European Conference on Speech Communication and Technology, 2001). Der rechnerische Aufwand des One-Zero Gammaton-Filters der Ordnung m + 1 ist gleich dem Aufwand des Three-Zero Gammaton-Filter der Ordnung m, falls wieder ein einzelnes "One-Zero" für alle Kanäle k verwendet wird. Geeignete Transformationen und digitale Frequenzberechnugen 0z,k folgen aus (19), (20) und (22).
X. WIEDERZUSAMMENSETZUNG
[00131] Die Wiederzusammensetzung eines breitbandigen Signals von den hörbaren Bandsignalen kann als Addition aller Signalbänder implementiet werden. Unglücklicherweise kann das destruktive Signalauslöschung in den Überlappungsbereichen benachbarter Signalkanäle mit sich bringen. Deshalb leiten wir ein einfaches Kriterium ab, das die Notwendigkeit eines Vorzeichenwechsels für jeden zweiten Kanal vor der Summation zeigt:
(24) [00132] Bei der Verwendung dieser Formel liegt die Frequenzantwort der Superposition aller Signale im Bereich CdB + 3 [dB] and 0[dB]. Das Weglassen eines notwendigen Vorzeichens kann zu destruktiver Signalauslöschung an den Bandrändern benachbarter Filter führen.
XI. (LAUFZEITREDUZIERTE) PEGELERKENNUNG
[00133] Von der Gehör-Filterbank modellierte Ausblendungseffekte können nicht ausgenutzt 17/31 österreichisches Patentamt AT 509 570 B1 2011 -12-15 werden, solange die Amplitude des Filterbankkanals nicht bestimmt ist. Geeignete Wege der Pegelerkennung werden in den folgenden Unterabschnittten vorgeschlagen.
[00134] Wir schlagen den ersten einfachen Ansatz für hochfrequente Kanäle und den laufzeitreduzierten Ansatz für die niederfrequente Bänder vor.
A. EINFACHE PEGELERKENNUNG MIT PRE-MASKING
[00135] Normalerweise werden Nichlinearitäten, wie z.B. Absolutbetrag, Quadrat, Halbwellen-Gleichrichtung, dazu verwendet, um die Signalamplitude in das Basisband bei etwa 0 Hz zu transformieren. Des Weiteren entfernt ein Glättungsfilter höherfrequente Komponenten, und letztendlich wird das gewünschte Amplitudensignal gefunden. Fig. 11 zeigt ein Beispiel, das auch den Formfaktor F mitberücksichtigt.
[00136] Üblich verwendete Ansätze der Amplitudenerkennung sind rechnerisch effizient, Glättungsfilter beinhalten Gruppenlaufzeiten im Signalpfad, die zu kompensieren sind. Wir empfehlen den rekursiven Glättungsparameter α durch eine Zeitkonstante Tavg in [s] zu beschreiben a = e_7T7*. (25) [00137] Geeignete Zeitkonstanten stimmen mit der Vor-Hörausblendzeitkonstante überein, und ist näherungsweise Tavg ~ 2[ms] (G. Stoll, J. G. Beerends, R. Bitto, K. Brandenburg, C. Colomes, B. Feiten, M. Keyhl, C. Schmidmer, T. Sporer, T. Thiede, W. C. Treurniet, "PEAQ - der neue ITU-Standard zur objektiven Messung der wahrgenommenen Audioqualität", RTM - Rundfunktechnische Mitteilungen, die Fachzeitschrift für Hörfunk und Fernsehtechnik, 43. Jahrgang, ISSN 0035-9890 (81-120), Firma Mensing GmbH + Co. KG, Abteilung Verlag, Sept 1999).
B. LAUFZEITREDUZIERTE PEGELERKENNUNG
[00138] Unsere neue Methode nützt die Phase eines einfachen Filterabschnitts aus. Diese Methode zur Pegelerkennung kann ebenfalls in anderen technischen Gebieten Anwendung finden und ist nicht alleine auf die Störgeräuschunterdrückung beschränkt.
[00139] Mit der Hilbert-Transformation kann das breitbandige Signal konsistent um 90° phasenverschoben werden. Durch Summation der Quadrate des originalen und des verschobenen Signals bleiben die Quadrate der Amplituden (z.B. Signalleistung), und die sinusförmigen Komponenten löschen einander aus. Aber eine kausale Implementierung der Hilbert-Transformation existiert nicht.
[00140] Im Gegensatz zum idealen Hilbert-Transformator, benötigen wir die 90° Phasenverschiebung nur im betrachteten Frequenzintervall, z.B. in der entsprechenden hörbaren Frequenzgruppe.
[00141] Wir schlagen vor, folgende Filterarten für eine 90° Phasenverschiebung bei einer Frequenz 0k zu verwenden: [00142] · einen einfachen FIR-Abschnitt erster Ordnung, [00143] · einen einfachen 11R-All-Pass (AP) erster Ordnung, und [00144] · eine einfache Verzögerungsline mit einer Kl4 Verzögerung bei 0k.
[00145] Jede der obgenannten Methoden erbringt 90° Phasenverschiebung bei einer virtuellen beliebigen Frequenz 0k und ist deshalb geeignet.
[00146] Man kann zwischen den folgenden Eigenschaften wählen: [00147] · FIR: numerisch nicht stabil bei 0k = [0,π/2, π], bietet das breiteste Band mit 90° Pha senverschiebung.
[00148] · AP: numerisch nicht stabil bei 0k = [0,π/2,π], das 90° Phasen-Frequenzband ist schmäler und der Rechenaufwand ist größer. 18/31 österreichisches Patentamt AT 509 570 B1 2011-12-15 [00149] · λ/4-delay: numerisch stabil, das schmälste Frequenzband mit 90° Phaseverschie bung, Rechenaufwand gering, viel Speicher notwendig.
[00150] Fig. 12 zeigt ein Beispiel für die FIR-Pegelerkennungsmethode. Ein geeigneter Parameter kann über die Phasengleichung für das entsprechende System gefunden werden, z.B. A. V Oppenheim, R. W. Schäfer, J. R. Buck, "Discrete-Time Signal Processing", Prentice Hall, 1999.
XII. AUDITORISCHES POST-MASKING
[00151] Die Verwendung der nichtlinearen Post-Masking-Filter (z.B. rekursive Mittelwertbildung reagiert auf fallende Flanken) birgt einige Vorteile: [00152] · Die Impulsive Störgeräuschvarianz ist wegen dem Nachausblenden leicht über schätzt (Übersubtraktion).
[00153] · Störgeräuschunterdrückungsalgorithmen können keine Signale abschwächen bis die
Nach-Hörausblendzeit verstrichen ist.
[00154] · Aliasing-Effekte nach dem Downsampling oder die Welligkeit im Amplitudensignal sind aufgrund der glättenden Wirkung des Nachausblendens reduziert.
[00155] · Dabei wird geglättet und die Amplituden der wichtigen transient Signale erfahren keine zusätzlichen Grupppenverzögerungszeiten.
[00156] Wir schlagen eine Struktur vor, die an der Signalleistung in jeden Kanal arbeitet (vgl. Fig. 13, L. Lin, E. Ambikairajah, W. H. Holmes, "Perceptual Domain Based Speech and Audio Coder", Proc. of the third International Symposion DSPCS 2002, Sydney, Jan. 28-31, 2002).
[00157] Der Mittelwertparameter ak im Kanal k hat mit dem menschlichen Nach-Hörausblendzeitkonstanten für die ensprechenden Frequenzen fk zu korrespondieren. Deshalb verwenden wir folgende Gleichung um den Mittelwertparameter α herzuleiten: et* = e G rk·^. (26) [00158] Ein Parameter G kann zum Skalieren der Nachausblendzeitkonstanten verwendet werden.
[00159] Die Zeitkonstante für 1[Bark] ist näherungsweise τ ~ 40[ms], und für 20[Bark] näherungsweise τ ~ 4[ms] (G. Stoll, J. G. Beerends, R. Bitto, K. Brandenburg, C. Colomes, B.
Feiten, M. Keyhl, C. Schmidmer, T. Sporer, T. Thiede, W. C. Treurniet, "PEAQ - der neue ITU-Standard zur objektiven Messung der wahrgenommenen Audioqualität", RTM - Rundfunktechnische Mitteilungen, die Fachzeitschrift für Hörfunk und Fernsehtechnik, 43. Jahrgang, ISSN 0035-9890 (81-120), Firma Mensing GmbH + Co. KG, Abteilung Verlag, Sept 1999). Folgende Gleichung kann zur Herleitung von τκ verwendet werden:
T*/[ms] =-_j___i_ 1--W
[00160] Alternativ kann die Gleichung in der zitierten Referenzen verwendet werden, aber unsere Formel bietet eine geeignete Interpolation mit längeren Zeitkonstanten.
XIII. REKURSIVE MINIMUM-STATISTIK
[00161] Wir können die Struktur in Fig. 14 verwenden, um den Störgeräuschpegel in jedem Frequenzband abzuschätzen. Ähnliche Ansätze können in R. Martin, "Noise Power Spectral Estimation Based on Optimal Smoothing and Minimum Statistics", IEEE Transactions on Speech and Audio Processing, nr. 5, vol. 9, pp. 504-512, Jul. 2001 oder WO 00/30264 (International application No. PCT/SG99/00119) gefunden werden. 19/31
österreichisches Patentamt AT 509 570 B1 2011-12-15 [00162] Diese Methode verwendet hauptsächtlich drei Zeitkonstanten zum Mitteln der Signalpegel. Fallende Flanken werden leicht gemittelt, wobei während steigender Eingangsflanken der Ausgang während der Periode von Nw Abtastintervallen konstant gehalten wird (unendlich große Zeitkonstante). Wenn Nw Abtastintervalle verstrichen sind, wird die steigende Flanke durch eine dritte Zeitkonstante gemittelt. Die Zeitkonstanten können, ähnlich wie in (25) und (26), zu einem rekursiven Mittelwertparameter konvertiert werden.
[00163] Eine geeignete Zählergrenze Nw kann mittels einem kontinuierlichen Zeitintervall Tw berechnet werden (28)
Nw = round(Tw · fs).
[00164] Für Äußerungen oder Wörter der menschlichen Sprache kann dieses Zeitintervall angemessen gewählt werden, z.B. Tw ® 1.5s. Die Zeitkonstante für die fallende Flanke kann eine skalierte Version der Nachausblendzeitkonstante oder z.B. konstant 200[ms] sein.
[00165] Die steigendene Flanke definierede Zeitkonstante ß kann näherungsweise 700[ms] sein, das einer Geschwindigkeit von circa 6[dB]/[s] entspricht. Im Gegensatz zu allen anderen Zeitkonstanten, wird diese als für alle Kanäle k gleich vorgeschlagen.
[00166] Die Sättigungswirkung in Fig. 14 kann wie folgt angegeben werden: f(x) = < 1 falls x > 0, (29) v 0 sonst. XIV. EPHRAIM-MALAH STÖRGERÄUSCHUNTERDRÜCKUNGSREGEL (EMSR) [00167] Mit der EMSR (Y. Ephraim and D. Malah, "Speech Enhancement Using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator", IEEE Transactions on Acoustics, Speech, and Signal Processing, nr. 6, vol. ASSP-32, pp. 1109-1121, Dec. 1984; Y. Ephraim and D. Malah, "Speech Enhancement Using a Minimum Mean-Square Error Log-Spectral Amplitude Estimator", IEEE Transactions on Acoustics, Speech, and Signal Processing, nr.2, vol. ASSP-33, pp. 443-445, Apr. 1985) können wir die klare Sprachamplitude aus der gegebenen verrauschten Sprachamplitude und der Störgeräuschvarianz abschätzen. Wir können z.B. die Definition von Wolfe und Godsill für die spektralen Gewichte (P. J. Wolfe and S. J. Godsill, "Simple Alternatives to the Ephraim and Malah Suppression Rule for Speech Enhancement", Proc. 11 th IEEE Signal Processing Workshop, pp. 496-499, 6-8. Aug 2001) und einen modifizierten entscheidungsgesteuerten Ansatz (F. Zotter, M. Noisternig, R. Höldrich, "Speech Enhancement Using the Ephraim and Malah Suppression Rule and Decision Directed Approach: A Hysteretic Process“, to appear in IEEE Signal Processing Letters, 2005. First manuscript sub-mitted Jan 24, 2005) verwenden
(30) [00168] Die folgenden Beziehungen sind in der obigen Gleichung involviert:
£fc[m] = α · min(7fc[ra] -1,0) + (31) 20/31 (32) österreichisches Patentamt AT 509 570 B1 2011-12-15 P (1 - a) · 7k[m - 1] · g2k[m - 1] + C (33> m = L n (35) [00169] Die Störgeräuschvarianz a2dk[m] ist durch den Störgeräuschschätzalgorithmus gegeben; m und n sind Zeitindices, fs ist die System abtastrate und L ist ein Downsampling-Faktor.
[00170] Gemäß Y. Ephraim and D. Malah, "Speech Enhancement Using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator", IEEE Transactions on Acoustics, Speech, and Signal Processing, nr. 6, vol. ASSP-32, pp. 1109-1121, Dec. 1984, istyk[m] das a posteriori SNR und ξκ[ηι] das a priori SNR. Gw,k[m] ist das spektrale Gewicht des Wiener-Filters, α der Mittelwertparameter, definiert durch eine mittelwertbildene Zeitkonstante Tsnr,k, die entweder näherungsweise 2[ms] (F. Zotter, M. Noisternig, R. Höldrich, "Speech Enhancement Using the Ephraim and Malah Suppression Rule and Decision Directed Approach: A Hysteretic Process", to appear in IEEE Signal Processing Leiters, 2005. First manuscript submitted Jan 24, 2005) oder von den Hörausblendzeitkonstanten ableitet ist.
[00171] Der "Übersubtraktionsfaktor" p (vgl. Zotter et at) kann als p = 10'15/1° gewählt werden und der untere Störgeräuschparameter ζ als ζ = 10'40/10.
XV. LAUFZEITREDUZIERTES UPSAMPLING
[00172] Normales Upsampling benötigt entweder eine Verarbeitungsverzögerung oder eine Gruppenlaufzeit wegen der involvierten Interpolationsoperation. Bei der Verwendung des Up-sampling-Faktors L sind solche Verzögerungszeiten näherungsweise L Abtastschritte lang.
[00173] Wir schlagen vor, eine spezielle Methode für das Upsampling zu verwenden, das keine zusätzlichen Verzögerungszeiten bringt. Das kann dadurch bewerkstelligt werden, dass das Signal in Puffer aufgeteilt wird (vorzugsweise mit einer Puffergröße des ADCs und DACs).
[00174] Wenn in jedem Signalblock der letzte Abtastwert des vorangegangenen Blocks vorhanden ist, ist es möglich die folgenden Abtastwerte linear zu interpolieren. Deshalb hat der letzte Abtastwert in jedem Block mit dem Abtastzeitpunkt der niedrigeren Abtastrate übereinzustimmen.
XVI. SCHLUSSFOLGERUNGEN
[00175] Frequenzbereichslösungen, die äquivalente Gehörmodelle verwenden, benötigen Verzögerungszeiten im Bereich von 10 Milisekunden. Die Implementierung unseres Systems mit 20 Frequenzbändern und einem TZGF der dritten Ordnung hat eine mittlere Latenzzeit von 3.5 bis 4 Milisekunden. Der erforderliche rechnerische Aufwand ist etwa 8.9 MIPs bei fs = 16[kHz], das ist ein wenig mehr, als für DFT-Lösungen benötigt wird (7 MIPs). Wir haben ebenfalls eine leicht modifizierte Ephraim-Malah-Unterdrückungsregel (EMSR) mit der vereinfachten Wolfe-Godsill-Formel und dem modifizierten entscheidungsgesteuerten Ansatz angewendet.
[00176] Die Offenbarung aller zitierten Publikationen ist zur Gänze in dieser Beschreibung eingeschlossen. 21 /31

Claims (15)

  1. österreichisches Patentamt AT 509 570 B1 2011-12-15 Patentansprüche 1. Methode zur Störgeräuschunterdrückung für ein Eingangsaudiosignal (y[n]), das ein gewünschtes Signal (x[n]) und eine Störgeräuschsignalkomponente aufweist, wobei die Methode folgende Schritte umfasst: - Aufspaltung des Eingangsaudiosignals (y[n]) in eine Vielzahl von Teilbändern (yk[n]) durch eine Bandaufspaltungsanalyse, basierend auf einer Gammaton-Filterbank (GFB), vorzugsweise einer nichteinheitlichen Gammaton-Filterbank, - Störgeräuschunterdrückung in jedem Teilband (yk[nj) durch eine Vielzahl von Störgeräuschunterdrückungsprozessoren, - Zusammensetzung der Vielzahl von Teilbändern ( yk[n]) zu einem Ausgangssignal (x[nj) durch einen Synthesefilter, wobei alle Schritte im Zeitbereich ausgeführt werden, dadurch gekennzeichnet, dass die Gammaton-Filterbank (GFB) eine Phasenverschiebung an den Teilbändern durchführt.
  2. 2. Methode nach Anspruch 1, dadurch gekennzeichnet, dass ein Vorprozessor (Home) und ein Nachprozessor (Hiome) eine nichtlineare Filterung des Eingangsaudiosignals (y[nj) durchführen, die dabei: a. ein vorverarbeitendes Filter, welches das Transferverhalten des menschlichen Außen-und Mittelohrs emuliert und auf das zeitdiskrete verrauschte Eingangsaudiosignal (y[nj) angewendet wird, und b. ein nachverarbeitendes Filter, welches auf das entstörte/verbesserte Vollbandsignal angewendet wird, um den Effekt des vorverarbeiteten Filters zu kompensieren, umfassen.
  3. 3. Methode nach einem der Ansprüche 1 oder 2, dadurch gekennzeichnet, dass die Störgeräuschunterdrückungsprozessoren jeweils eine Signalpegelerkennung (LD), einen Störgeräuschschätzer (NE), einen auditorischen Ausblendfilter (PM) und einen Subtraktionsprozessor umfassen.
  4. 4. Methode nach Anspruch 3, dadurch gekennzeichnet, dass die Signalpegelerkennung (LD) jene Phase des Teilbandes mit niedriger Ordnung verwendet, um ein Quadratur-Signal zu generieren und ein In-Phasen-Signal aus dem Teilband (yk[nj) auswertet und die quadratischen Amplituden dieser Signale zur quadrierten Amplituden-Einhüllenden aufsummiert.
  5. 5. Methode nach Anspruch 3, dadurch gekennzeichnet, dass der Störgeräuschschätzer (NE) einen Teilbandstörgeräuschwert durch Glättung basierend auf der Minimums-Statistik generiert, wobei insbesondere eine gewichtete Mittelwertbildung des vorherigen Störgeräuschwertes und des gegenwärtigen Eingangswertes mit drei unterschiedlichen Zeitkonstanten angewendet wird.
  6. 6. Methode nach Anspruch 3, dadurch gekennzeichnet, dass der auditorische Ausblendfilter (PM) die detektierte Signalleistung in jeden Teilband zur Generierung eines temporären auf das menschliche Hörempfinden basierenden Ausblendverhalten verwendet, wobei insbesondere ein nichtlinearer, gewichteter Mittelwert des vorangegangenen Teilbandeingangswertes und des gegenwärtigen Eingangswertes nur bei fallenden Flanken in Abhängigkeit des detektierten Pegels in jedem Teilband angewendet wird.
  7. 7. Methode nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass der Störgeräuschschätzer (NE) von dem gegenwärtigen Eingangswert im Vergleich zu zeitabhängigen, pegelabhängigen Schwellen abhängt. 22/31 österreichisches Patentamt AT 509 570 B1 2011-12-15
  8. 8. Methode nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, dass die Störgeräuschunterdrückung in jedem Teilband durch die Ephraim-Malah-Störgeräuschunter-drückungregel (EMSR) durchgeführt wird.
  9. 9. Methode nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, dass die Störgeräuschunterdrückung in jedem Teilband durch einen entscheidungsgesteuerten Ansatz (DDA) ausgeführt wird.
  10. 10. Apparat zur Störgeräuschunterdrückung für ein Eingangsaudiosignal (y[nj), das ein gewünschtes Signal (x[nj) und eine Störgeräuschsignalkomponente aufweist, wobei der Apparat folgende Bestandteile umfasst: - einen Bandaufspaltungsanalysator zur Aufspaltung des Eingangsaudiosignals (y[nj) in eine Vielzahl von Teilbändern (yk[nj), basierend auf einer Gammaton-Filterbank (GFB), vorzugsweise einer nichteinheitlichen Gammaton-Filterbank, - einer Vielzahl von Störgeräuschunterdrückungsprozessoren zur Störgeräuschunterdrückung in jedem Teilband (yk[nj), - einem Synthesefilter zur Zusammensetzung der Vielzahl von Teilbändern (yk[nj) zu einem Ausgangssignal (x[nj), wobei alle Bestandteile im Zeitbereich arbeiten, dadurch gekennzeichnet, dass ein Vorprozessor (Home) und ein Nachprozessor (Η,ομε) eine nichtlineare Filterung des Eingangsaudiosignals durchführen, die dabei: a. ein vorverarbeitendes Filter, welches das Transferverhalten des menschlichen Außen-und Mittelohrs emuliert und auf das zeitdiskrete verrauschte Eingangsaudiosignal angewendet wird und b. ein nachverarbeitendes Filter, welches auf das verbesserte Vollbandsignal angewendet wird, um den Effekt des vorverarbeiteten Filters zu kompensieren, umfassen.
  11. 11. Apparat nach Anspruch 10, dadurch gekennzeichnet, dass die Störgeräuschunterdrückungsprozessoren jeweils einen Signalpegeldetektor (LD), einen Störgeräuschschätzer (NE), einen auditorischen Ausblendfilter (PM) und einen Subtraktionsprozessor umfassen.
  12. 12. Apparat nach Anspruch 11, dadurch gekennzeichnet, dass der Signalpegeldetektor (LD) die Phase des Filterabschnittes mit niedriger Ordnung verwendet, um ein Quadratur-Signal zu generieren, ein In-Phasen-Signal aus dem Teilband (yk[nj) auswertet und die quadratischen Amplituden dieser Signale aufsummiert.
  13. 13. Apparat nach Anspruch 12, dadurch gekennzeichnet, dass das Quadratur-Signal von einem im Signalpegeldetektor (LD) vorgesehenen FIR-Abschnitt erster Ordnung generiert wird.
  14. 14. Apparat nach Anspruch 12, dadurch gekennzeichnet, dass das Quadratur-Signal von einem im Signalpegeldetektor (LD) vorgesehenen FIR-AII-Pass (AP) erster Ordnung generiert wird.
  15. 15. Apparat nach Anspruch 12, dadurch gekennzeichnet, dass das Quadratur-Signal von einer Verzögerungslinie zur Schaffung einer λ/4-Verzögerung bei einer digitalen Frequenz (0k) generiert wird. Hierzu 8 Blatt Zeichnungen 23/31
AT0956707A 2007-10-02 2007-10-02 Methode und apparat zur einkanal-sprachverbesserung basierend auf einem latenzzeitreduzierten gehörmodell AT509570B1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/AT2007/000466 WO2009043066A1 (en) 2007-10-02 2007-10-02 Method and device for low-latency auditory model-based single-channel speech enhancement

Publications (2)

Publication Number Publication Date
AT509570A5 AT509570A5 (de) 2011-09-15
AT509570B1 true AT509570B1 (de) 2011-12-15

Family

ID=39447761

Family Applications (1)

Application Number Title Priority Date Filing Date
AT0956707A AT509570B1 (de) 2007-10-02 2007-10-02 Methode und apparat zur einkanal-sprachverbesserung basierend auf einem latenzzeitreduzierten gehörmodell

Country Status (4)

Country Link
AT (1) AT509570B1 (de)
DE (1) DE112007003674T5 (de)
GB (1) GB2465910B (de)
WO (1) WO2009043066A1 (de)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102011004338B3 (de) 2011-02-17 2012-07-12 Siemens Medical Instruments Pte. Ltd. Verfahren und Vorrichtung zum Schätzen eines Störgeräusches
CN102157156B (zh) * 2011-03-21 2012-10-10 清华大学 一种单通道语音增强的方法和***
US9173025B2 (en) 2012-02-08 2015-10-27 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals
EP2747081A1 (de) * 2012-12-18 2014-06-25 Oticon A/s Audioverarbeitungsvorrichtung mit Artifaktreduktion
US10141003B2 (en) 2014-06-09 2018-11-27 Dolby Laboratories Licensing Corporation Noise level estimation
CN110580910B (zh) * 2018-06-08 2024-04-26 北京搜狗科技发展有限公司 一种音频处理方法、装置、设备及可读存储介质
US10939161B2 (en) 2019-01-31 2021-03-02 Vircion LLC System and method for low-latency communication over unreliable networks
CN111063366A (zh) * 2019-12-26 2020-04-24 紫光展锐(重庆)科技有限公司 降低噪声的方法、装置、电子设备及可读存储介质
CN112151060B (zh) * 2020-09-25 2022-11-25 展讯通信(天津)有限公司 单通道语音增强方法及装置、存储介质、终端

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002005262A2 (en) * 2000-07-12 2002-01-17 Andrea Electronics Corporation Sub-band exponential smoothing noise canceling system

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6052771A (en) 1998-01-20 2000-04-18 International Business Machines Corporation Microprocessor with pipeline synchronization
ATE335309T1 (de) 1998-11-13 2006-08-15 Bitwave Private Ltd Signalverarbeitungsvorrichtung und verfahren
EP1729287A1 (de) * 1999-01-07 2006-12-06 Tellabs Operations, Inc. Verfahren und Vorrichtung für adaptive Rauschunterdrückung
HUP0003010A2 (en) * 2000-07-31 2002-08-28 Herterkom Gmbh Signal purification method for the discrimination of a signal from background noise
EP1600947A3 (de) * 2004-05-26 2005-12-21 Honda Research Institute Europe GmbH Subtraktive Reduktion von harmonischen Störgeräuschen
WO2006114100A1 (en) * 2005-04-26 2006-11-02 Aalborg Universitet Estimation of signal from noisy observations

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002005262A2 (en) * 2000-07-12 2002-01-17 Andrea Electronics Corporation Sub-band exponential smoothing noise canceling system

Also Published As

Publication number Publication date
WO2009043066A1 (en) 2009-04-09
AT509570A5 (de) 2011-09-15
GB2465910A (en) 2010-06-09
GB201004090D0 (en) 2010-04-28
GB2465910B (en) 2012-02-15
DE112007003674T5 (de) 2010-08-12

Similar Documents

Publication Publication Date Title
AT509570B1 (de) Methode und apparat zur einkanal-sprachverbesserung basierend auf einem latenzzeitreduzierten gehörmodell
DE112009000805B4 (de) Rauschreduktion
US7313518B2 (en) Noise reduction method and device using two pass filtering
DE602004008973T2 (de) Rauschminderung für die automatische spracherkennung
US8010355B2 (en) Low complexity noise reduction method
EP2031583B1 (de) Schnelle Schätzung der Spektraldichte der Rauschleistung zur Sprachsignalverbesserung
Soon et al. Speech enhancement using 2-D Fourier transform
CA2344695A1 (en) Noise suppression for low bitrate speech coder
DE102007030209A1 (de) Glättungsverfahren
DE60212617T2 (de) Vorrichtung zur sprachverbesserung
EP1995722B1 (de) Verfahren zur Verarbeitung eines akustischen Eingangssignals zweck Sendung eines Ausgangssignals mit reduzierter Lautstärke
Madhu et al. Temporal smoothing of spectral masks in the cepstral domain for speech separation
Saleem et al. Deep neural network based supervised speech enhancement in speech-babble noise
AT504164B1 (de) Vorrichtung zur gerauschunterdruckung bei einem audiosignal
Amehraye et al. Perceptual improvement of Wiener filtering
Taşmaz et al. Speech enhancement based on undecimated wavelet packet-perceptual filterbanks and MMSE–STSA estimation in various noise environments
Surendran et al. Variance normalized perceptual subspace speech enhancement
Gui et al. Adaptive subband Wiener filtering for speech enhancement using critical-band gammatone filterbank
Nower et al. Restoration of instantaneous amplitude and phase using Kalman filter for speech enhancement
Upadhyay et al. A perceptually motivated stationary wavelet packet filterbank using improved spectral over-subtraction for enhancement of speech in various noise environments
Roy Single channel speech enhancement using Kalman filter
Rao et al. Speech enhancement using cross-correlation compensated multi-band wiener filter combined with harmonic regeneration
Buragohain et al. Single Channel Speech Enhancement System using Convolutional Neural Network based Autoencoder for Noisy Environments
Babu et al. Modified Kalman Filter-based Approach in Comparison with Traditional Speech Enhancement Algorithms from Adverse Noisy Environments
Sunnydayal et al. Speech enhancement using sub-band wiener filter with pitch synchronous analysis