DE202022106134U1

DE202022106134U1 - Eine spektro-temporale diskriminierende, auf Zufallsfeldern basierende Sprachanhebung

Info

Publication number: DE202022106134U1
Application number: DE202022106134.3U
Authority: DE
Original assignee: Nitte Meenakshi Institute Of Tech; Nitte Meenakshi Institute of Technology
Current assignee: NAGRAJ, AJEY SALIGRAMA, DR., BENGALURU, IN; NITTE MEENAKSHI INSTITUTE OF TECHNOLOGY, BENGA, IN; PAREEK, PIYUSH KUMAR, DR., BENGALURU, IN; VENKATAREDDY, PRASHANTH, DR., BENGALURU, IN
Priority date: 2022-11-01
Filing date: 2022-11-01
Publication date: 2022-11-15
Anticipated expiration: 2032-11-02

Abstract

System für eine spektro-temporale diskriminierende, auf Zufallsfeldern basierende Sprachanhebung, wobei das System umfasst:
eine Eingabeeinheit zum Empfang von verrauschter Sprache über eine Eingabevorrichtung;
eine Vorverarbeitungseinheit zur Fensterung von Sprache mit einer benutzerdefinierten Fensterverschiebung, um das Sprachsignal in die TF-Ebene zu transformieren;
eine Nachbearbeitungseinheit zum Schätzen eines verbesserten Signals durch Überlagerung einer binären TF-Maske, die dem verrauschten TF-Signal überlagert wird, und Invertierung zurück in den Zeitbereich; und
eine Steuereinheit zur Förderung von zwei Stufen der inversen Transformation und von Überlappungsadditionsschritten, um das verbesserte zeitliche Signal zu erhalten.

Description

BEREICH DER ERFINDUNG
Die vorliegende Offenlegung bezieht sich auf eine spektro-temporale, diskriminierende, auf Zufallsfeldern basierende Sprachverbesserung unter Verwendung eines ungerichteten grafischen Modells.
HINTERGRUND DER ERFINDUNG
In der heutigen Ära der digitalen Sprachkommunikation, der freihändigen mobilen Interaktion und der Mensch-Maschine-Interaktion gibt es unweigerlich Szenarien, in denen die Qualität der Kommunikation in lauten Umgebungen leidet. Daher ist die Entwicklung von Techniken zur Sprachverbesserung für reale sprachbasierte Kommunikationsszenarien und -zwecke relevant und notwendig. Eine solche Technik würde nicht nur das Hintergrundrauschen unterdrücken, so dass die „verbesserte“ Sprache (die nun das gewünschte Vordergrundsignal ist) nicht nur verständlich ist, sondern auch darauf abzielen, keine neuen hörbaren Verzerrungen in das resultierende Signal einzuführen. Man würde sich auch eine sanfte Leistungsverschlechterung mit zunehmendem Lärmpegel wünschen. Bevor man versucht, das Rauschen zu unterdrücken, ist es wichtig, die Eigenschaften des Rauschens und seine Beziehung zum (sauberen) Zielsignal zu kennen. Rauschen kann (i) additiv sein, wie z. B. Sprache, die in einer Fabrik oder auf einer Straße aufgenommen wurde, (ii) konvolutiv, wenn sie in einem halligen Raum aufgenommen wurde. Außerdem kann das Rauschen entweder mit der gewünschten Sprache korreliert oder unkorreliert sein. Die Situation kann noch komplizierter werden, wenn mehrere Mikrofone vorhanden sind.
Es ist bekannt, dass die spektralen Spitzen in der Sprache sowohl in zeitlichen als auch in spektralen Bereichen strukturiert sind. Robustheit gegenüber additivem Rauschen und gegenüber spektralen Veränderungen kennzeichnen diese spektralen Spitzen. Alle Verfahren zur Sprachverbesserung beruhen jedoch auf der Unterdrückung von Rauschen durch Schätzung von Verstärkungsfunktionen. Diese Verstärkungsfunktionen liegen im Bereich von [0 1]. Die Verstärkungsfunktionen werden auf die verrauschte Sprache angewandt, um die verrauschten Komponenten zu unterdrücken und die Sprachkomponenten zu erhalten. Daraus folgt, dass die Verstärkungsfunktion so beschaffen sein muss, dass verrauschte Regionen niedrige Verstärkungswerte (näher an Null) und Sprachregionen hohe Verstärkungswerte (näher an Eins) haben. Basierend auf den Ansätzen zur Schätzung der Verstärkungsfunktion wurden die Rauschunterdrückungstechniken in der Literatur grob in 5 Kategorien eingeteilt: (i) auf Spektralsubtraktion basierende Techniken, (ii) auf Wiener Filterung basierende Techniken, (iii) auf Statistik basierende Techniken, (iv)auf Unterräumen basierende Techniken und (v) binäre Maskenschätztechniken. In den folgenden Unterabschnitten wird jedes dieser Verfahren kurz beschrieben.
In Anbetracht der vorangegangenen Diskussion wird deutlich, dass ein Bedarf an einer spektro-temporalen, diskriminierenden, auf Zufallsfeldern basierenden Sprachanhebung besteht.
ZUSAMMENFASSUNG DER ERFINDUNG
Die vorliegende Offenlegung zielt darauf ab, eine spektro-temporale diskriminierende, auf Zufallsfeldern basierende Sprachverbesserung bereitzustellen, die die inhärente Natur der Sprache - die kontinuierliche und langsame zeitliche Entwicklung der spektralen harmonischen Konturen - berücksichtigt.
In einer Ausführungsform wird eine spektro-temporale, diskriminierende, auf Zufallsfeldern basierende Sprachverbesserung offenbart. Das System umfasst eine Eingabeeinheit zum Empfangen verrauschter Sprache über eine Eingabevorrichtung. Das System umfasst ferner eine Vorverarbeitungseinheit zur Fensterung von Sprache mit einer benutzerdefinierten Fensterverschiebung, um das Sprachsignal in die TF-Ebene zu transformieren. Das System umfasst ferner eine Nachverarbeitungseinheit zur Schätzung eines verbesserten Signals durch Überlagerung einer binären TF-Maske, die dem verrauschten TF-Signal überlagert wird, und zur Invertierung zurück in den Zeitbereich. Das System enthält außerdem eine Steuereinheit, die zwei Stufen der inversen Transformation und der Überlappungsaddition steuert, um das verbesserte Zeitsignal zu erhalten.
In einer anderen Ausführungsform wird die Sprache alle 32 ms mit einer Fensterverschiebung von 8 ms gefenstert, um das Signal in die TF-Ebene zu transformieren.
In einer anderen Ausführungsform, bei der die STFT verwendet wird, besteht ein häufiger Mangel darin, dass die verrauschten Phasenkomponenten der STFT bei der Rekonstruktion verwendet werden.
In einer anderen Ausführungsform enthält die Nachbearbeitungseinheit ein diskriminierendes Zufallsfeld.
In einer anderen Ausführungsform werden die Histogramme bei höherem SNR in der Eingangssprache beobachtet, und der Mittelwert der verrauschten Sprache und der Rauschstatistik ist nach links verschoben, was auf eine geringere Rauschleistung hinweist.
In einer anderen Ausführungsform führt die erste Transformationsstufe zu einer spektral-temporalen Darstellung der verrauschten Daten, wobei jede akustische Frequenzkomponente (oder jeder Spektralkanal) des Kanals als unabhängiges zeitliches Signal betrachtet wird.
In einer anderen Ausführungsform sind die latenten Knoten in der zeitlichen Dimension nicht gekoppelt, während die Nachbarn erster Ordnung der latenten Knoten entlang der akustischen und der Modulationsfrequenzdimensionen miteinander verbunden sind, wobei eine Vergrößerung der Nachbarn die binäre Maskenschätzung glättet und dominante Regionen beibehalten werden, während Bereiche, die eine Mischung aus Sprache und Rauschen enthalten, bei einer Vergrößerung der Nachbarschaft der latenten Knoten unterdrückt werden.
In einer anderen Ausführungsform werden TF-Regionen des Spektrogramms eingesetzt, um mögliche Regionskandidaten zu identifizieren, wobei die Vorverarbeitungseinheit so konfiguriert ist, dass sie Musikgeräuschregionen unter Verwendung von Attributen der Region schätzt, wie z. B. die Fläche in Form von TF-Bins, das Verhältnis der Ausbreitung verbundener TF-Regionen entlang der zeitlichen zu der entlang der spektralen Dimension und die Energie der TF-Regionen.
Ein Ziel der vorliegenden Offenlegung ist es, in Bezug auf das durchschnittliche globale SNR und das segmentale SNR eine ähnliche Leistung wie bei der iterativen Wiener-Technik zu erzielen.
Ein weiteres Ziel der vorliegenden Offenbarung ist es, die Eignung verschiedener Anreicherungsfunktionen anstelle der für Anreicherungstechniken verwendeten posterioren Klassifizierungstechnik zu vergleichen.
Ein weiteres Ziel der vorliegenden Erfindung ist es, eine schnelle und kosteneffiziente spektro-temporale, diskriminierende, auf Zufallsfeldern basierende Sprachverbesserung unter Verwendung eines ungerichteten grafischen Modells bereitzustellen.
Zur weiteren Verdeutlichung der Vorteile und Merkmale der vorliegenden Offenbarung wird eine genauere Beschreibung der Erfindung durch Bezugnahme auf bestimmte Ausführungsformen gegeben, die in den beigefügten Figuren dargestellt sind. Es wird davon ausgegangen, dass diese Figuren nur typische Ausführungsformen der Erfindung darstellen und daher nicht als Einschränkung des Umfangs der Erfindung zu betrachten sind. Die Erfindung wird mit zusätzlicher Spezifität und Detail mit den beigefügten Figuren beschrieben und erläutert werden.
Figurenliste
Diese und andere Merkmale, Aspekte und Vorteile der vorliegenden Offenbarung werden besser verstanden, wenn die folgende detaillierte Beschreibung unter Bezugnahme auf die beigefügten Figuren gelesen wird, in denen gleiche Zeichen gleiche Teile in den Figuren darstellen, wobei:

1 ein Blockdiagramm einer spektro-temporalen, diskriminierenden, auf Zufallsfeldern basierenden Sprachanhebung gemäß einer Ausführungsform der vorliegenden Offenbarung zeigt;
2 ein Blockdiagramm der vorgeschlagenen spektro-temporalen DRF-basierten Sprachanhebung gemäß einer Ausführungsform der vorliegenden Offenbarung zeigt; und
3 ein Blockdiagramm der Verbesserung der MD-DRF gemäß einer Ausführungsform der vorliegenden Offenbarung zeigt.

Der Fachmann wird verstehen, dass die Elemente in den Figuren der Einfachheit halber dargestellt sind und nicht unbedingt maßstabsgetreu gezeichnet wurden. Die Flussdiagramme veranschaulichen beispielsweise das Verfahren anhand der wichtigsten Schritte, um das Verständnis der Aspekte der vorliegenden Offenbarung zu verbessern. Darüber hinaus kann es sein, dass eine oder mehrere Komponenten der Vorrichtung in den Figuren durch herkömmliche Symbole dargestellt sind, und dass die Figuren nur die spezifischen Details zeigen, die für das Verständnis der Ausführungsformen der vorliegenden Offenbarung relevant sind, um die Figuren nicht mit Details zu überfrachten, die für Fachleute, die mit der vorliegenden Beschreibung vertraut sind, leicht erkennbar sind.
AUSFÜHRLICHE BESCHREIBUNG
Um das Verständnis der Erfindung zu fördern, wird nun auf die in den Figuren dargestellte Ausführungsform Bezug genommen und diese mit bestimmten Worten beschrieben. Es versteht sich jedoch von selbst, dass damit keine Einschränkung des Umfangs der Erfindung beabsichtigt ist, wobei solche Änderungen und weitere Modifikationen des dargestellten Systems und solche weiteren Anwendungen der darin dargestellten Grundsätze der Erfindung in Betracht gezogen werden, wie sie einem Fachmann auf dem Gebiet der Erfindung normalerweise einfallen würden.
Der Fachmann wird verstehen, dass die vorstehende allgemeine Beschreibung und die folgende detaillierte Beschreibung beispielhaft und erläuternd für die Erfindung sind und nicht als einschränkend angesehen werden.
Wenn in dieser Beschreibung von „einem Aspekt“, „einem anderen Aspekt“ oder ähnlichem die Rede ist, bedeutet dies, dass ein bestimmtes Merkmal, eine bestimmte Struktur oder eine bestimmte Eigenschaft, die im Zusammenhang mit der Ausführungsform beschrieben wird, in mindestens einer Ausführungsform der vorliegenden Offenbarung enthalten ist. Daher können sich die Ausdrücke „in einer Ausführungsform“, „in einer anderen Ausführungsform“ und ähnliche Ausdrücke in dieser Beschreibung alle auf dieselbe Ausführungsform beziehen, müssen es aber nicht.
Die Ausdrücke „umfasst“, „enthaltend“ oder andere Variationen davon sollen eine nicht ausschließliche Einbeziehung abdecken, so dass ein Verfahren oder eine Methode, die eine Liste von Schritten umfasst, nicht nur diese Schritte einschließt, sondern auch andere Schritte enthalten kann, die nicht ausdrücklich aufgeführt sind oder zu einem solchen Verfahren oder einer solchen Methode gehören. Ebenso schließen eine oder mehrere Vorrichtungen oder Teilsysteme oder Elemente oder Strukturen oder Komponenten, die mit „umfasst...a“ eingeleitet werden, nicht ohne weitere Einschränkungen die Existenz anderer Vorrichtungen oder anderer Teilsysteme oder anderer Elemente oder anderer Strukturen oder anderer Komponenten oder zusätzlicher Vorrichtungen oder zusätzlicher Teilsysteme oder zusätzlicher Elemente oder zusätzlicher Strukturen oder zusätzlicher Komponenten aus.
Sofern nicht anders definiert, haben alle hierin verwendeten technischen und wissenschaftlichen Begriffe die gleiche Bedeutung, wie sie von einem Fachmann auf dem Gebiet, zu dem diese Erfindung gehört, allgemein verstanden wird. Das System, die Methoden und die Beispiele, die hier angegeben werden, dienen nur der Veranschaulichung und sind nicht als Einschränkung gedacht.
Ausführungsformen der vorliegenden Offenbarung werden im Folgenden unter Bezugnahme auf die beigefügten Figuren im Detail beschrieben.
In 1 ist ein Blockdiagramm einer spektro-temporalen diskriminierenden, auf Zufallsfeldern basierenden Sprachverbesserung gemäß einer Ausführungsform der vorliegenden Offenbarung dargestellt. Das System 100 umfasst eine Eingabeeinheit 102 zum Empfangen verrauschter Sprache über ein Eingabegerät.
In einer Ausführungsform ist eine Vorverarbeitungseinheit 104 mit der Eingabeeinheit 102 verbunden, um die Sprache mit einer benutzerdefinierten Fensterverschiebung zu fenstern und das Sprachsignal in die TF-Ebene zu transformieren.
In einer Ausführungsform ist eine Nachverarbeitungseinheit 106 mit der Vorverarbeitungseinheit 104 verbunden, um ein verbessertes Signal zu schätzen, indem eine binäre TF-Maske dem verrauschten TF-Signal überlagert und in den Zeitbereich zurückinvertiert wird.
In einer Ausführungsform ist eine Steuereinheit 108 mit der Nachverarbeitungseinheit 106 verbunden, um zwei Stufen der inversen Transformation und der Überlappungsaddition zu fördern, um das verbesserte zeitliche Signal zu erhalten.
In einer anderen Ausführungsform wird die Sprache alle 32 ms mit einer Fensterverschiebung von 8 ms gefenstert, um das Signal in die TF-Ebene zu transformieren.
In einer anderen Ausführungsform, bei der die STFT verwendet wird, besteht ein häufiger Mangel darin, dass die verrauschten Phasenkomponenten der STFT bei der Rekonstruktion verwendet werden.
In einer anderen Ausführungsform enthält die Nachbearbeitungseinheit 106 ein diskriminierendes Zufallsfeld.
In einer anderen Ausführungsform werden die Histogramme bei höherem SNR in der Eingangssprache beobachtet, und der Mittelwert der verrauschten Sprache und der Rauschstatistik ist nach links verschoben, was auf eine geringere Rauschleistung hinweist.
In einer anderen Ausführungsform führt die erste Transformationsstufe zu einer spektral-temporalen Darstellung der verrauschten Daten, wobei jede akustische Frequenzkomponente (oder jeder Spektralkanal) des Kanals als unabhängiges zeitliches Signal betrachtet wird.
In einer anderen Ausführungsform sind die latenten Knoten in der zeitlichen Dimension nicht gekoppelt, während die Nachbarn erster Ordnung der latenten Knoten entlang der akustischen und der Modulationsfrequenzdimensionen miteinander verbunden sind, wobei eine Vergrößerung der Nachbarn die binäre Maskenschätzung glättet und dominante Regionen beibehalten werden, während Bereiche, die eine Mischung aus Sprache und Rauschen enthalten, bei einer Vergrößerung der Nachbarschaft der latenten Knoten unterdrückt werden.
In einer anderen Ausführungsform werden TF-Regionen des Spektrogramms eingesetzt, um mögliche Regionskandidaten zu identifizieren, wobei die Vorverarbeitungseinheit 104 so konfiguriert ist, dass sie musikalische Geräuschregionen unter Verwendung von Attributen der Region schätzt, wie z. B. die Fläche in Form von TF-Bins, das Verhältnis der Ausbreitung verbundener TF-Regionen entlang der zeitlichen zu der entlang der spektralen Dimension, und die Energie der TF-Regionen.
2 zeigt ein Blockdiagramm der vorgeschlagenen spektro-temporalen DRF-basierten Sprachanhebung gemäß einer Ausführungsform der vorliegenden Offenbarung. Die Techniken werden anhand des NOIZEUS-Datensatzes bewertet. Er enthält 30 Sätze von 6 Sprechern. Die Sprachdaten werden mit 8 kHz abgetastet und mit 16 Bits/Sample quantisiert. Es werden vier Rauschbedingungen berücksichtigt: AWGN, Auto, Straße und rosa Rauschen. Die verrauschte Sprache wird in 4 Eingangs-SNR-Szenarien betrachtet: 0 dB, 5 dB, 10 dB und 15 dB. Für jede Äußerung des Sprachsignals werden zunächst alle 32 ms der Daten mit einer Überlappung von 75 % gefenstert (Hamming).
Es folgt eine Transformation des Signals in die TF-Ebene. Die DCT ist die gewählte invertierbare Transformation für die Analyse im spektral-temporalen Bereich mit einer DCT mit 256 Punkten und für die Analyse im Modulationsbereich mit einer DCT mit 64 Punkten. Die zweite Stufe der DCT ist erforderlich, um die Koeffizienten des Modulationsbereichs zu erhalten. Auch hier wird jede Spektralkomponente der TF-Ebene gepuffert und mit 128 ms Daten mit 75 % Überlappung gefenstert, wodurch das TF-Bereichssignal in den T-F-M-Bereich transformiert wird.
3 zeigt ein Blockdiagramm der Verbesserung von MD-DRF in Übereinstimmung mit einer Ausführungsform der vorliegenden Offenbarung. Der Rahmen für die Sprachverbesserung, der auch die inhärente Natur der Sprache berücksichtigt - kontinuierliche und langsame zeitliche Entwicklung der spektralen harmonischen Konturen. Die Beobachtungen bestehen aus TF-Bins von verrauschter Sprache. Die Technik führte zu einer besseren Leistung als der iterative Wiener-Filter, der vorgeschlagen wird, um eine deutliche Abschwächung des musikalischen Rauschens zu erreichen. Die Technik bietet Kontinuität und ist meist auf benachbarte TF-Bins beschränkt. Alle verbleibenden musikalischen Geräuschbereiche zeigen sich als abrupte Übergänge und hochfrequente spektral-temporale Modulationen. An dieser Stelle wird die Möglichkeit der Minimierung solchen Rauschens durch die Untersuchung des Modulationsbereichssignals erforscht. Daher wird die auf dem Modulationsbereich basierende DRF-Formulierung vorgeschlagen, die in dieser Arbeit auch als MD-DRF bezeichnet wird. Zur Unterstützung der Entwicklung der 3-D-Formulierung des DRF wird ein kurzer Überblick gegeben.
Das vorgeschlagene Verfahren wird anhand (a) des globalen SNR, (b) des durchschnittlichen segmentalen SNR (SegSNR) und (c) des PESQ-Maßes bewertet. Jedes der oben genannten Maße wird für jede Äußerung im NOIZEUS-Datensatz ermittelt. Die Messwerte werden über alle 30 Sätze gemittelt und für jede Geräuschbedingung angegeben. Dies wird mit der Leistung der ST-DRF-Technik und der iterativen Wiener-Filter-Technik verglichen. Subjektive Hörtests werden ebenfalls für weitere Vergleiche herangezogen.
Betrachtet man den durchschnittlichen globalen SNR, so zeigt das MD-DRF-Verfahren bei niedrigen SNR-Eingangspegeln eine bessere Leistung im Vergleich zu den beiden anderen Verfahren in verrauschten Umgebungen wie Straßen- und Autolärm. Bei synthetischen Rauschbedingungen wie rosa Rauschen und AWGN zeigt das MD-DRF-Verfahren einen geringeren Vorteil gegenüber dem ST-DRF-Verfahren und iter-WF. Dies lässt sich durch die Ausbreitung des Restrauschens in jedem Modulationsfenster erklären und führt zu einem niedrigeren globalen SNR und SegSNR. Die Leistung von MD-DRF ist in Bezug auf das durchschnittliche SegSNR bei niedrigen SNR-Eingangspegeln konkurrenzfähiger als bei hohen SNR-Eingangspegeln als die von ST-DRF.
Daraus folgt, dass die Leistung von MD-DRF, ST-DRF und iter-WF in Bezug auf das durchschnittliche globale SNR und segSNR in realen, verrauschten Szenarien vergleichbar ist. In realistischen Lärmumgebungen wie Auto- und Straßenlärm ist die Leistung von MD-DRF leicht besser oder vergleichbar mit der von ST-DRF; beide vorgeschlagenen DRF-Methoden zeigen bessere PESQ-Werte als iter-WF (außer bei rosa Rauschen). Bei rosa Rauschen und AWGN-Rauschen hat ST-DRF leicht bessere Ergebnisse als MD-DRF.
Obwohl SegSNR und PESQ verschiedene Aspekte der Qualität verbesserter Sprache messen, spiegeln sie nicht die Menge des musikalischen Rauschens wider. Aus diesem Grund werden Hörtests durchgeführt.
Es werden DRF-basierte Ansätze zur Sprachverbesserung unter Verwendung eines ungerichteten grafischen Modells vorgeschlagen. Spektral-temporale Strukturen wie Obertöne bleiben auch dann gut erhalten, wenn die Eingangssprache durch Eingaben mit niedrigem SNR verschlechtert wird; dies wird durch die Berücksichtigung der Nachbarschaftskorrelationen in binären Masken erreicht. Das vorgeschlagene ST-DRF (λ_s=1) schneidet in Bezug auf das durchschnittliche globale SNR und das segmentale SNR ähnlich gut ab wie das iterative Wiener-Verfahren. Darüber hinaus wird eine bessere Qualität aufgrund der erheblichen Unterdrückung von Musikgeräuschen beobachtet. Hörtests und die Beobachtung von Spektrogrammen zeigen, dass STDRF (λ_s=1) ein besseres Verfahren ist und daher dem ST-DRF (λ_s=0) oder dem iterativen Wiener Filter vorzuziehen ist. ST-DRF (λ_s=1) erfordert einen Vorausschau-Puffer von mindestens einem Bild, um die Nachbarschaftsinformationen zu erfassen. Die Ergebnisse werden mit einer einfachen posteriorbasierten binären Kategorisierung für die Anreicherungsfunktion E berichtet. Es können anspruchsvollere E formuliert werden, während das latente B für die Glättungsfunktion beibehalten wird; dies kann das Beste aus der Anreicherungsfunktion und dem Ansatz zur Unterdrückung von Musikgeräuschen herausholen.
Es wird ein DRF-Rahmen für die Sprachverbesserung im Modulationsbereich vorgeschlagen. Die Beobachtungen umfassen die zeitliche Entwicklung der Modulationsfrequenzen der einzelnen akustischen Kanäle. Es wird eine auf Zeit-Frequenz-Modulation basierende binäre Maske abgeleitet. Um dies zu erreichen, werden die Nachbarschaftsbeziehungen verwendet, um die Kontinuität entlang der Zeit und der akustischen und Modulationsfrequenzen darzustellen. Das MD-DRF-Verfahren zeigt eine bessere Leistung als ST-DRF und der iterative Wiener-Filter bei Messungen wie dem durchschnittlichen segmentalen SNR, dem globalen SNR, PESQ und Hörtests. Die bessere Leistung ist bei niedrigen SNR-Eingangsgeräuschpegeln in Straßen- und Autolärm vorherrschend. Jegliches musikalische Restrauschen, das im ST-DRF vorhanden ist, wird im MD-DRF reduziert und ist nun über den zeitlichen Bereich verschmiert. Außerdem wird eine detaillierte Analyse der Auswirkungen verschiedener Parameter auf die Leistung der vorgeschlagenen Technik vorgestellt. Es werden verschiedene architektonische Konfigurationen der latenten Schicht untersucht, um die Anzahl der für jeden latenten Knoten berücksichtigten Nachbarn zu ändern. Es wird festgestellt, dass die Ausbreitung von musikalischen Restgeräuschen, die dem Nachhall ähneln, durch die Erhöhung der Konnektivität zwischen den latenten Knoten gemildert werden kann.
Die Herausforderung, musikalisches Rauschen in Techniken zur Sprachverbesserung zu bewerten, wird angegangen. Zusammenhängende TF-Regionen des Spektrogramms werden verwendet, um mögliche Regionskandidaten zu identifizieren. Attribute der Region, wie die Fläche in Form von TF-Bins, das Verhältnis der Ausbreitung verbundener TF-Regionen entlang der zeitlichen zu der entlang der spektralen Dimension, die Energie der TF-Regionen, werden verwendet, um musikalische Geräuschregionen zu schätzen. Eine Anzahl solcher Regionen wird als objektives Maß vorgeschlagen. Die mit dem vorgeschlagenen objektiven Maß erhaltenen Rangfolgen werden mit den subjektiven Maßen korreliert. Es zeigt sich, dass die Korrelation bei niedrigerem Eingangs-SNR höher ist. Darüber hinaus werden diese geschätzten TF-Regionen zur Unterdrückung des Artefakts selbst als Nachbearbeitungsschritt bei Techniken zur Sprachverbesserung verwendet.
Die Figuren und die vorangehende Beschreibung geben Beispiele für Ausführungsformen. Der Fachmann wird verstehen, dass eines oder mehrere der beschriebenen Elemente durchaus zu einem einzigen Funktionselement kombiniert werden können. Alternativ dazu können bestimmte Elemente in mehrere Funktionselemente aufgeteilt werden. Elemente aus einer Ausführungsform können einer anderen Ausführungsform hinzugefügt werden. Die Reihenfolge der hier beschriebenen Prozesse kann beispielsweise geändert werden und ist nicht auf die hier beschriebene Weise beschränkt. Darüber hinaus müssen die Aktionen eines Flussdiagramms nicht in der gezeigten Reihenfolge ausgeführt werden; auch müssen nicht unbedingt alle Aktionen durchgeführt werden. Auch können die Handlungen, die nicht von anderen Handlungen abhängig sind, parallel zu den anderen Handlungen ausgeführt werden. Der Umfang der Ausführungsformen ist durch diese spezifischen Beispiele keineswegs begrenzt. Zahlreiche Variationen sind möglich, unabhängig davon, ob sie in der Beschreibung explizit aufgeführt sind oder nicht, wie z. B. Unterschiede in der Struktur, den Abmessungen und der Verwendung von Materialien. Der Umfang der Ausführungsformen ist mindestens so groß wie in den folgenden Ansprüchen angegeben.
Vorteile, andere Vorzüge und Problemlösungen wurden oben im Hinblick auf bestimmte Ausführungsformen beschrieben. Die Vorteile, Vorzüge, Problemlösungen und Komponenten, die dazu führen können, dass ein Vorteil, ein Nutzen oder eine Lösung auftritt oder ausgeprägter wird, sind jedoch nicht als kritisches, erforderliches oder wesentliches Merkmal oder Komponente eines oder aller Ansprüche zu verstehen.
Bezugszeichenliste

100: Eine spektro-temporale diskriminierende, auf Zufallsfeldern basierende Sprachverbesserung .
102: Eingabeeinheit
104: Vorverarbeitungseinheit
106: Nachbearbeitungseinheit
108: Kontrolleinheit
202: Verrauschte Sprache
204: Diskriminierendes Zufallsfeld
206: Geschätzte Sprache Ŝ(n)
208: Transformieren
210: Geschätzte binäre Maske B(n,k)
212: Inverse Transformation
302: Kurzzeittransformation Spektro-temporaler Bereich
304: Kurzzeittransformation Modulationsbereich
306: Schätzung der binären Maske C(t,k,l)
308: Rücktransformation + Überlappungsaddition, um das Signal im spektro-temporalen Bereich
310: Rücktransformation + Überlappungsaddition, um das Signal im zeitlichen Bereich zu erhalten
312: Verbesserte Sprache S(n)
314: Diskriminierendes Zufallsfeld

Claims

System für eine spektro-temporale diskriminierende, auf Zufallsfeldern basierende Sprachanhebung, wobei das System umfasst: eine Eingabeeinheit zum Empfang von verrauschter Sprache über eine Eingabevorrichtung; eine Vorverarbeitungseinheit zur Fensterung von Sprache mit einer benutzerdefinierten Fensterverschiebung, um das Sprachsignal in die TF-Ebene zu transformieren; eine Nachbearbeitungseinheit zum Schätzen eines verbesserten Signals durch Überlagerung einer binären TF-Maske, die dem verrauschten TF-Signal überlagert wird, und Invertierung zurück in den Zeitbereich; und eine Steuereinheit zur Förderung von zwei Stufen der inversen Transformation und von Überlappungsadditionsschritten, um das verbesserte zeitliche Signal zu erhalten.
System nach Anspruch 1, wobei die Sprache alle 32 ms mit einer Fensterverschiebung von 8 ms gefenstert wird, um das Signal in die TF-Ebene zu transformieren.
System nach Anspruch 1, wobei bei Verwendung der STFT ein allgemeiner Mangel darin besteht, dass die verrauschten Phasenkomponenten der STFT während der Rekonstruktion verwendet werden.
System nach Anspruch 1, wobei die Nachbearbeitungseinheit ein diskriminierendes Zufallsfeld enthält.
System nach Anspruch 1, wobei die Histogramme bei höherem SNR in der Eingangssprache beobachtet werden und der Mittelwert der verrauschten Sprach- und Rauschstatistik nach links verschoben ist, was auf eine geringere Rauschleistung hinweist.
System nach Anspruch 1, wobei die Transformation der ersten Stufe zu einer spektro-temporalen Darstellung der verrauschten Daten führt, wobei jede akustische Frequenzkomponente (oder jeder Spektralkanal) des Kanals als unabhängiges zeitliches Signal betrachtet wird.
System nach Anspruch 1, wobei die latenten Knoten in der zeitlichen Dimension nicht gekoppelt sind, während die Nachbarn erster Ordnung der latenten Knoten entlang der akustischen und der Modulationsfrequenzdimension miteinander verbunden sind, wobei die Vergrößerung der Nachbarn die binäre Maskenschätzung glättet und dominante Regionen beibehalten werden, während Bereiche, die eine Mischung aus Sprache und Rauschen enthalten, bei Vergrößerung der Nachbarschaft der latenten Knoten unterdrückt werden.
System nach Anspruch 1, wobei TF-Regionen des Spektrogramms eingesetzt werden, um mögliche Regionskandidaten zu identifizieren, wobei die Vorverarbeitungseinheit so konfiguriert ist, dass sie musikalische Rauschregionen unter Verwendung von Attributen der Region schätzt, wie z. B. die Fläche in Form von TF-Bins, das Verhältnis der Ausbreitung verbundener TF-Regionen entlang der zeitlichen zu der entlang der spektralen Dimension und die Energie der TF-Regionen.