DE3856280T2

DE3856280T2 - Rauschunterdrückungssystem

Info

Publication number: DE3856280T2
Application number: DE3856280T
Authority: DE
Inventors: Joseph John Hoffman Estates Il 60195 Barlo; Ira Alan Hoffman Estates Il 60195 Gerson; Brett Louis Palatine Il 60067 Lindsley; Richard Joseph Palatine Il 60067 Vilmur
Original assignee: Motorola Inc
Current assignee: Motorola Solutions Inc
Priority date: 1987-10-01
Filing date: 1988-09-22
Publication date: 1999-08-12
Anticipated expiration: 2008-09-23
Also published as: JP2995737B2; EP0380563A1; EP0380563B1; KR970000789B1; JPH03500347A; EP0380563A4; US4811404A; KR890702356A; DE3856280D1; WO1989003141A1

Description

Querbezug zu in Bezug genommenen Anmeldungen

Diese Anmeldung nimmt Bezug auf das U. S. Patent Nr. 4,628,529, angemeldet vom gleichen Anmelder wie die vorliegende Anmeldung. Weiterhin enthält diese Anmeldung einen Gegenstand, der zum U. S. Patent Nr. 4,630,304 und zum U. S. Patent Nr. 4,630,305 verwandt ist, die ebenfalls vom gleichen Anmelder wie die vorliegende Anmeldung angemeldet sind.

Hintergrund der Erfindung

1. Gebiet der Erfindung

Die vorliegende Erfindung betrifft im allgemeinen akustische Rauschunterdrückungssysteme. Die vorliegende Erfindung ist im besonderen darauf gerichtet, die Sprachqualität eines Rauschunterdrückungssystems, das die Rauschunterdrückungstechnik der spektralen Subtraktion verwendet, zu verbessern.

2. Beschreibung des Standes der Technik

Akustische Rauschunterdrückung in einem Sprachkommunikationssystem dient im allgemeinen dem Zweck der Verbesserung der Gesamtqualität des gewünschten Tonsignals durch Filterung des Umgebungshintergrundrauschens vom gewünschten Sprachsignal. Dieser Sprachverbesserungsvorgang ist besonders in Umgebungen notwendig, die ungewöhnlich hohe Pegel von Umgebungshintergrundrauschen haben, wie ein Flugzeug, ein fahrendes Auto oder eine laute Fabrik.
Die Rauschunterdrückungstechnik, die in den zuvor erwähnten Patenten beschrieben wird, ist die Technik der spektralen Subtraktion oder der spektralen Verstärkungsmodifikation. Wenn dieses Verfahren benutzt wird, wird das Toneingangssignal durch eine Reihe von Bandpassfiltern in einzelne spektrale Bänder aufgeteilt und bestimmte spektrale Bänder werden entsprechend ihres Rauschenergieinhalts gedämpft. Ein Spektralsubtraktionsrauschunterdrückungsvorfilter Verwendet eine Abschätzung der Hintergrundrauschleistungsspektraldichte, um in jedem Kanal einen Signal-Rausch-Abstand (SNR) der Sprache zu erzeugen, der dann verwendet wird, um einen Verstärkungsfaktor für jeden einzelnen Kanal zu berechnen. Der Verstärkungsfaktor wird als ein Zeiger für eine Verweistabelle verwendet, um die Dämpfung für dieses spezielle spektrale Band zu bestimmen. Die Kanäle werden dann gedämpft und wiedervereinigt, um die rauschunterdrückte Ausgangssignalform zu erzeugen.
Bei spezialisierten Anwendungen, die Umgebungen mit relativ hohem Hintergrundrauschen einschließen, weisen die meisten Rauschunterdrückungstechniken wesentliche Leistungsbegrenzungen auf. Ein Beispiel für eine solche Anwendung ist die Möglichkeit eines Fahrzeug-Lautsprecher-Mikrofons für ein zellulares Mobilfunktelefonsystem, das für den Autofahrer die Freisprechfunktion gewährleistet. Das mobile Freisprechmikrofon befindet sich typischerweise in einem größeren Abstand vom Nutzer, beispielsweise wenn es überkopf an der Sonnenblende befestigt ist. Das weiter entfernte Mikrofon liefert unter den Bedingungen der Straßen- und Windgeräusche einen viel schwächeren Signal-Rausch-Abstand an den landseitigen Gesprächsteilnehmer. Obwohl die auf der Landseite empfangene Sprache normalerweise verständlich ist, kann die ständige Beaufschlagung mit solchen Hintergrundrauschpegeln oftmals die Ermüdung des Hörers vergrößern.
Obwohl die meisten Verfahren nach dem Stand der Technik unter normalen Hintergrundrauschbedingungen ausreichend gut arbeiten, wird die Leistungsfähigkeit von bekannten Techniken in solchen spezialisierten Anwendungen von ungewöhnlich hohem Hintergrundrauschen stark eingeschränkt. Typische Spektralsubtraktionsrauschunterdrückungssysteme können den Hintergrundrauschpegel über das Sprachfrequenzspektrum um ungefähr 10 dB reduzieren, ohne die Sprachqualität ernsthaft zu beeinträchtigen. Wenn jedoch Verfahren nach dem Stand der Technik in Umgebungen mit relativ hohem Hintergrundrauschen verwendet werden, die Rauschunterdrückungspegel von annähernd 20 dB erfordern, gibt es eine wesentliche Verschlechterung in den Qualitätscharakteristiken der Sprache. Weiterhin entwickelt sich in Umgebungen mit schnell veränderlichem hohem Rauschen im Ausgangssprachsignal ein starkes niederfrequentes Rauschtrillern, das dem Klang von entferntem "Düsenantriebsdröhnen" ähnelt. Dieses Rauschtrillern haftet einem Spektralsubtraktionsrauschunterdrückungssystem an, denn die einzelnen Kanalverstärkungsparameter werden ständig in Reaktion auf die sich verändernde Hintergrundrauschumgebung aktualisiert.
Das Problem des Hintergrundrauschtrillerns wurde durch die Verwendung der Verstärkungsglättung indirekt angesprochen aber nicht eliminiert. Zum Beispiel schlagen R. J. McAulay und M. L. Malpass in dem Artikel, betitelt "Speech Enhancement Using a soft-Decision Noise Suppression Filter", IEEE Trans. Acoust., Speech, Signal Procession, Band ASSP-28, Nr. 2 (April 1980), S. 137-145, die Verwendung der Verstärkungsglättung auf einer rahmenweisen Grundlage vor, um die Einführung von Unstetigkeiten in die Ausgangssignalform zu vermeiden. Weil die Einführung der Verstärkungsglättung verursachen kann, daß die Rauschunterdrückungsvorfilter zu träge sind, um auf einen Übergang der ansteigenden Flanke zu reagieren (was in Sprachverzerrung resultieren würde), wurde ein Wichtungsfaktor von 1 oder ¹/&sub2; ausgewählt, so daß der Vorfilter sofort auf eine Erhöhung der Verstärkung reagiert, während er danach tendiert, jede Verminderung der Verstärkung zu glätten.
Leider erzeugt wiederum eine übermäßige Verstärkungsglättung erhebliche nachteilige Auswirkungen auf die Sprachqualität, die Hauptwirkung ist die erkennbare Einführung eines Endechos oder einer "Rauschpumpe" bei gesprochenen Wörtern. Es gibt ebenfalls bei großen Beträgen der Verstärkungsglättung eine wesentliche Verminderung der Sprachamplitude.
Die Rauschtrillerauswirkung wurde durch die Technik der Glättung des Rauschunterdrückungsverstärkungsfaktors für jeden einzelnen Kanal auf einer abtastwertweisen Grundlage anstatt auf einer rahmenweisen Grundlage weiter verbessert. Die abtastwertweise Glättung sowie die Verwendung von unterschiedlichen Glättungskoeffizienten für jeden Kanal wird im U. S. Patent Nr. 4,630,305, betitelt "Atomatic Gain Selector for a Noise Suppression System" beschrieben. Jedoch erkennt keines der bekannten Verfahren nach dem Stand der Technik, daß die Hauptquelle der Kanalverstärkungsunstetigkeiten die inhärente Schwankung des Hintergrundrauschens in jedem Kanal von einem Rahmen zum nächsten ist. In bekannten Spektralsubtraktionssystemen würde selbst eine 2 dB SNR- Abweichung eine Verstärkungsveränderung von einigen 43 hervorrufen, die dann als ein belästigendes Hintergrundrauschtrillern hörbar wäre. Daher ist das Trillerproblem niemals effektiv gelöst worden.
Überdies verkompliziert das Schmalbandrauschen, das eine hohe Leistungsspektraldichte in nur einigen wenigen Kanälen hat, das Hintergrundrauschtrillerproblem weiter. Da diese wenigen Hochenergierauschkanäle nicht durch die Hintergrundrauschunterdrückung gedämpft werden würden, hat der resultierende Tonausgang eine Charakteristik des Typs "Laufendes Wasser". Schmalbandrauschbündel verschlechtern ebenfalls die Genauigkeit der Hintergrundrauschaktualisierungsentscheidung, die notwendig ist, um die Rauschunterdrückung in Umgebungen mit wechselndem Hintergrundrauschen durchzuführen.
Da die Verstärkungsfaktoren durch SNR-Abschätzungen ausgewählt werden, die durch die Sprachenergie in jedem Kanal (Signal) und die momentane Hintergrundrauschenergieabschätzung in jedem Kanal (Rauschen) bestimmt werden, basiert die Leistungsfähigkeit des gesamten Rauschunterdrückungssystems auf der Genauigkeit der Hintergrundrauschabschätzung. Die statistischen Daten des Hintergrundrauschens werden während der Zeitdauer abgeschätzt, wenn nur das Hintergrundrauschen vorhanden ist, wie während der Unterbrechung in der menschlichen Sprache. Deshalb muß eine genaue Sprache/- Rauschunterscheidung getroffen werden, um zu bestimmen, wann solche Unterbrechungen in der Sprache auftreten.
Es ist weithin bekannt, daß die Energiehistogrammtechnik für die Unterscheidung zwischen Hintergrundrauschen und Sprache in Umgebungen mit normalen Umgebungsrauschen ausreichend gut arbeitet. Siehe zum Beispiel W. J. Hess, "A Pitch Synchronous Digital Feature Extraction system for Phonemic Recognition of Speech", IEEE Trans. Acoust., Speech, Signal Processing, Band ASSP-24, Nr. 1 (Februar 1976), S. 14-25. Energiehistogramme von akustischen Signalen stellen eine doppelmodulare Verteilung dar, bei der die beiden Modi dem Rauschen und der Sprache entsprechen. Auf diese Weise kann ein geeigneter Schwellenwert zwischen den beiden Modi eingestellt werden, um die Sprache/Rausch-Klassifizierung zu gewährleisten. Jedoch ist die Unterscheidung zwischen Hintergrundrauschenergie und stimmloser Sprachenergie in Umgebungen mit relativ hohem Hintergrundrauschen unklar. Demzufolge ist die Aufgabe, die beiden Modi des Energiehistogramms genau zu finden und den richtigen Schwellenwert zwischen ihnen einzustellen, extrem schwierig.
Um sich verändernde Rauschhintergründe anzupassen, realisieren McAulay und Malpass einen adaptiven Schwellenwert durch ständige Überwachung der Histogrammenergie auf einer rahmenweisen Basis und Aktualisierung des Schwellenwerts, indem unterschiedliche Verzögerungsfaktoren verwendet werden. Alternativ verwendet das U. S. Patent Nr. 4,630,304 einen Energietalwertdetektor, um auf der nachverarbeiteten Signalenergie - der Signalenergie, die am Ausgang des Rauschunterdrückungssystems verfügbar ist - basierend die Sprach/Rauschentscheidung durchzuführen, um das erkannte Sprachminimum zu bestimmen. Auf diese Weise wird die Genauigkeit der Hintergrundrauschabschätzung verbessert, da es auf einem viel saubereren Sprachsignal basiert.
Jedoch reagiert kein Verfahren nach dem Stand der Technik in geeigneter Weise auf ein plötzliches, starkes Ansteigen des Hintergrundrauschpegels. Diese Aktualisierungsentscheidungsvorgänge der Hintergrundrauschabschätzung interpretieren einen plötzlichen lauten Rauschpegelanstieg als Sprache, so daß keine Aktualisierungen durchgeführt werden. Das Energiehistogramm oder der Talwertdetektor haben eine langsame Anpassungscharakteristik, die sich schließlich an den höheren Rauschpegel anpassen wird. Diese Anpassungscharakteristik jedoch führt zu falschen Rauschaktualisierungen bei den schwächeren Energieabschnitten der Sprache. Diese fehlerhafte Entscheidung verschlechtert die Leistungsfähigkeit des Rauschunterdrückungssystems wesentlich.
Es besteht deshalb ein Bedarf nach einem verbesserten akustischen Rauschunterdrückungssystem, das auf die Probleme der Hintergrundrauschschwankungen, Schmalbandrauschbündel und plötzlichen Hintergrundrauschen gerichtet ist.

Zusammenfassung der Erfindung

In Übereinstimmung mit einem ersten Aspekt der vorliegenden Erfindung wird ein Rauschunterdrückungssystem zur Dämpfung des Hintergrundrauschens in einem verrauschten Eingangssignal bereitgestellt, um ein Rauschunterdrücktes Ausgangssignal zu erzeugen, wobei dieses Rauschunterdrückungssystem umfaßt: Mittel zur Aufteilung des Eingangssignals in eine Vielzahl von vorverarbeiteten Signalen, die durch ausgewählte Frequenzkanäle dargestellt werden; Mittel zur Erzeugung von Abschätzungen der Signal-plus-Rausch-Energie und der Rauschenergie in jedem einzelnen Kanal; und Mittel zur Erzeugung eines Verstärkungswerts für jeden einzelnen Kanal in Reaktion auf diese Kanalenergieabschätzungen; wobei das System dadurch gekennzeichnet ist, daß: diese Verstärkungswerte einen minimalen Verstärkungswert für jeden Kanal haben; diese Mittel zur Erzeugung eines Verstärkungswerts Schwellenwertmittel enthalten, um zu gestatten, daß Verstärkungswerte über diesem minimalen Verstärkungswert nur erzeugt werden, wenn diese Signal-plus- Rausch-Energieabschätzungen diese Rauschenergieabschätzungen um einen vorbestimmten Betrag überschreiten; und Mittel zur Modifizierung der Verstärkung jedes aus dieser Vielzahl vorverarbeiteter Signale in Reaktion auf diese Verstärkungswerte, um eine Vielzahl von nachverarbeiteten Signalen bereitzustellen.
In einem weiteren Aspekt der vorliegenden Erfindung wird ein Verfahren der Dämpfung des Hintergrundrauschens in einem verrauschten Eingangssignal bereitgestellt, um in einem Rauschunterdrückungssystem ein rauschunterdrücktes Ausgangssignal zu erzeugen, wobei das Verfahren die folgenden Schritte umfaßt: Aufteilung des Eingangssignals in eine Vielzahl von vorverarbeiteten Signalen, die durch eine Anzahl von N ausgewählten Frequenzkanälen dargestellt werden;
Erzeugung einer Abschätzung der Energie in jedem einzelnen Kanal; Erzeugung und Speicherung einer Abschätzung der Hintergrundrauschleistungsspektraldichte dieser vorverarbeiteten Signale; und Erzeugung einer Abschätzung des Signal- Rausch-Abstands (SNR) in jedem einzelnen Kanal auf der Grundlage dieser Hintergrundrauschabschätzungen und dieser Kanalenergieabschätzungen; wobei das Verfahren durch die folgenden Schritte gekennzeichnet ist: Erzeugung eines Verstärkungswerts für jeden einzelnen Kanal in Reaktion auf diese Kanal-SNR-Abschätzungen, wobei diese Verstärkungswerte einen Bereich von Minimalwerten haben; und wobei dieser die Verstärkungswerte erzeugende Schritt die folgenden Schritte beinhaltet: Bereitstellung eines vordefinierten SNR- Schwellenwerts und Vergleich dieser Kanal-SNR-Abschätzungen mit diesem vordefinierten SNR-Schwellenwert, so daß die Kanäle, die SNR-Abschätzungen unter diesem SNR-Schwellenwert haben, Verstärkungswerte innerhalb dieses Minimalbereichs erzeugen; und Modifizierung der Verstärkung jedes aus der Vielzahl vorverarbeiteter Signale in Reaktion auf diese Verstärkungswerte, um eine Vielzahl nachverarbeiteter Signale bereitzustellen.
Die vorliegende Erfindung stellt vorteilhafterweise ein Verfahren und Gerät zur Unterdrückung von Hintergrundrauschen in Umgebungen mit hohem Hintergrundrauschen dar, ohne die Sprachqualität wesentlich zu verschlechtern. Überdies richtet sich die vorliegende Erfindung auf das Problem der Hintergrundrauschschwankung, ohne große Beträge der Verstärkungsglättung zu erfordern. Außerdem stellt eine bevorzugte Ausführung der vorliegenden Erfindung ein Spektralsubtraktionsrauschunterdrückungssystem bereit, das die nachteiligen Auswirkungen von Schmalbandrauschbündeln ausgleicht. Weiterhin stellt die vorliegende Erfindung einen verbesserten Hintergrundrauschabschätzungsmechanismus bereit, der nicht durch schwachenergetische Sprachanteile getäuscht wird, und der außerdem noch eine Korrektur für plötzliche, starke Anstiege der Hintergrundrauschpegel gewährleistet.
In der vorliegenden Erfindung betreffen die Verbesserungen des Rauschunterdrückungssystems die Hinzufügung eines SNR- Schwellenwertmechanismus, um untergeordnete Verstärkungsschwankungen bei niedrigen SNR-Zuständen zu eliminieren, eine metrische Sprachmaßberechnungseinrichtung zur Erzeugung einer genaueren Aktualisierungsentscheidung der Hintergrundrauschabschätzung und eine Kanal-SNR-Modifizierungseinrichtung, um Schmalbandrauschbündel zu unterdrücken.
Der erste Aspekt der vorliegenden Erfindung bezieht sich im besonderen auf die Hinzufügung eines SNR-Schwellenwertmechanismus zur Bereitstellung eines vorbestimmten SNR-Schwellenwerts, den die Kanal-SNR-Abschätzungen überschreiten müssen, bevor ein Verstärkungswert oberhalb eines vordefinierten minimalen Verstärkungswerts erzeugt werden kann. In einer bevorzugten Ausführung ist der SNR-Schwellenwert auf 2,25 dB SNR eingestellt, so daß untergeordnete Hintergrundrauschschwankungen keine schrittweisen Unstetigkeiten in den Rauschunterdrückungsverstärkungen erzeugen.
In einer bevorzugten Ausführung wird eine Sprachmaßberechnungseinrichtung verwendet, um die Sprach/Rausch-Klassifizierung für die Hintergrundrauschaktualisierungsentscheidung durchzuführen, indem ein Zweischritt-Vorgang verwendet wird. Zuerst werden die ursprünglichen SNR-Abschätzungen benutzt, um eine Sprachmaßtabelle zu indexieren, um Sprachmaßwerte für jeden Kanal zu bekommen. Ein Sprachmaß ist eine Messung der gesamten sprachähnlichen Charakteristiken aller Kanalenergien. Die einzelnen Sprachkanalmeßwerte werden summiert, um einen ersten Mehrkanalenergieparameter zu erzeugen, und dann mit einem Hintergrundrauschaktualisierungsschwellenwert verglichen. Wenn die Sprachmaßsumme nicht den Schwellenwert erreicht, wird der Eingangsrahmen als Rauschen betrachtet und eine Hintergrundrauschaktualisierung wird durchgeführt. Zweitens wird die Zeitdauer seit dem Auftreten der vorherigen Hintergrundabschätzungsaktualisierung ständig überwacht. Wenn seit der letzten Aktualisierung zu viel Zeit vergangen ist, zum Beispiel 1 Sekunde, dann wird angenommen, daß ein wesentlicher Anstieg des Rauschens aufgetreten ist und eine Hintergrundrauschaktualisierung wird durchgeführt, trotzdem es so aussieht, als ob es sich um einem Sprachrahmen handelt. Diese zweite Prüfung gründet sich auf die Annahme, daß Sprache selten auf allen Kanälen für mehr als eine Sekunde ununterbrochen hohe Energiepegel enthält, was bei einem plötzlichen, lauten Rauschpegelanstieg der Fall sein würde. Der Sprachmaßalgorithmus, der den Zweischritt-Entscheidungsvorgang enthält, stellt ein sehr genaues Signal für die Hintergrundrauschabschätzungsaktualisierung bereit.
In einer weiteren bevorzugten Ausführung liefert ein Kanal- SNR-Modifizierungsmechanismus einen zweiten Mehrkanalenergieparameter in Reaktion auf die Anzahl der SNR-Abschätzungen der oberen Kanäle, die einen vorbestimmten Energieschwellenwert, zum Beispiel 6 dB SNR, überschreiten. Wenn nur wenige Kanäle einen Energiepegel oberhalb dieses Schwellenwerts haben (wie es für ein Schmalbandrauschbündel der Fall sein würde), würde der gemessene SNR für diese bestimmten Kanäle vermindert werden. Wenn außerdem die vorher erwähnte Sprachmaßsumme kleiner als ein Maßschwellenwert ist (was anzeigen würde, daß der Rahmen Rauschen wäre), werden alle Kanäle gleichermaßen vermindert. Diese SNR-Modifizierungstechnik gründet sich auf die Annahme, daß typische Sprache eine Mehrzahl von Kanälen aufweist, die Signal-Rausch-Abstände von 6 db und mehr haben.
Eine beispielhafte Ausführung der vorliegenden Erfindung wird nun unter Bezugnahme auf die begleitenden Zeichnungen beschrieben.

Kurze Beschreibung der Zeichnungen

Fig. 1 ist ein detailliertes Blockschaltbild, das eine bevorzugte Ausführung des verbesserten Rauschunterdrückungssystems in Übereinstimmung mit der vorliegenden Erfindung erläutert;
Fig. 2 ist eine grafische Darstellung, die die Ausgabe der Sprachmaßwerte als eine Funktion der Eingabe der SNR- Abschätzungsindexwerte für den Sprachmaßberechnungsblock von Fig. 1 darstellt;
Fig. 3 ist eine grafische Darstellung einer beispielhaften Verstärkungstabelle, die die Gesamtkanaldämpfung für bestimmte Kanalgruppen als eine Funktion der SNR-Abschätzung erläutert;
Fig. 4a bis 4f sind Ablaufdiagramme, die den speziellen Ablauf erläutern, der in Übereinstimmung mit der Verwendung der bevorzugten Ausführung der vorliegenden Erfindung durchgeführt wird;
Fig. 5a und 5b sind Ablaufdiagramme, die den allgemeinen Ablauf erläutern, der nach dem Stand der Technik durchgeführt wird;
Fig. 6a bis 6d sind detaillierte Ablaufdiagramme, die spezielle, in den Figur en 5a und 5b gezeigte Abläufe erläutern.

Detaillierte Beschreibung der bevorzugten Ausführung

Fig. 1 ist ein detailliertes Blockschaltbild der bevorzugten Ausführung der vorliegenden Erfindung. Alle Baugruppen der Fig. 1, die eine Bezugsnumerierung geringer als 600 haben, entsprechen jenen des U. S. Patents Nr. 4,628,529-Borth u. a. und werden in den Figur en 5a und 5b und in den Figur en 6a bis 6d der vorliegenden Anmeldung gezeigt. Die zusätzlichen Schaltungskomponenten, die Bezugsnumerierungen größer als 600 haben, stellen die Verbesserungen des Systems dar und werden nachfolgend hierin beschrieben.
Erstens, bezüglich dem Borth Patent U. S. 4,628,529 nach dem Stand der Technik (und nun ausdrücklich in Bezug auf die Figur en 5a und 5b und die Figur en 6a bis 6d), ist Fig. 5a/b ein Ablaufdiagramm, das die Gesamtfunktion des Rauschunterdrückungsmechanismus nach dem Stand der Technik erläutert. Dieses verallgemeinerte Ablaufdiagramm ist in drei Funktionsblöcke unterteilt: Rauschunterdrückungsschleife 604 - weiter detailliert in Fig. 6a beschrieben; automatischer Verstärkungswähler 615 - genauer in Fig. 6b beschrieben; und automatischer Hintergrundrauschabschätzer 621 - in den Figur en 6c und 6d erläutert.
Die Funktionsweise des verbesserten Rauschunterdrückungssystems beginnt in der Fig. 5a beim Initialisierungsblock 601. Wenn das System erstmals eingeschaltet wird, gibt es im Energieabschätzungsspeicherregister 585 keine alten Hintergrundrauschabschätzungen und es gibt im Energietalwertdetektor 570 keine Rauschenergievorgeschichte. Folglich wird während der Initialisierung 601 das Speicherregister 585 mit einem Initialisierungswert voreingestellt, der einen Hintergrundrauschabschätzungswert darstellt, der einem sauberen Sprachsignal am Eingang entspricht. Gleichfalls wird der Energietalwertdetektor 570 mit einem Initialisierungswert voreingestellt, der einen Talwertpegel darstellt, der einem verrauschten Sprachsignal am Eingang entspricht.
Der Initialisierungsblock 601 liefert ebenfalls anfängliche Abtastwertzählerstände, Kanalzählerstände und Rahmenzählerstände. Für die Zwecke der nachfolgenden Erläuterung wird eine Abtastperiode als 25 Millisekunden definiert, was einer Abtastrate von 8 kHz entspricht. Eine Rahmenperiode wird definiert, ein Zeitintervall von der Dauer 10 Millisekunden zu sein, auf das die Eingangssignalabtastwerte quantisiert werden. So entspricht ein Rahmen bei einer 8 kHz Abtastrate 80 Abtastwerten.
Anfangs wird der Abtastwertzähler auf Null gesetzt. Der Block 602 erhöht den Abtastwertzähler um Eins und im Block 603 wird ein verrauschter Sprachabtastwert vom A/D-Wandler 510 eingegeben. Der Sprachabtastwert wird dann im Block 605 durch das Frequenzanhebungsnetzwerk 520 frequenzmäßig angehoben. Der Frequenzanhebung folgend initialisiert der Block 606 den Kanalzähler auf Eins. Der Entscheidungsblock 607 prüft dann den Kanalzählerstand. Wenn der Kanalzähler kleiner als die höchste Kanalnummer N ist, wird der Abtastwert für diesen Kanal bandpassgefiltert und im Block 608 wird die Signalenergie für diesen Kanal abgeschätzt. Das Ergebnis wird für den späteren Gebrauch gespeichert. Der Block 609 glättet die ursprüngliche Kanalverstärkung für den vorhandenen Kanal, und der Block 610 modifiziert den Pegel des bandpassgefilterten Abtastwertes, indem die geglättete Kanalverstärkung verwendet wird. Die N Kanäle werden dann (ebenfalls im Block 610) kombiniert, um einen einzigen verarbeiteten Ausgangssprachabtastwert zu bilden. Der Block 611 erhöht den Kanalzähler um Eins und der Vorgang in den Blöcken 607 bis 611 wird wiederholt.
Wenn das Ergebnis der Entscheidung in 607 wahr ist, wird der kombinierte Abtastwert im Block 612 frequenzmäßig herabgesetzt und als ein modifizierter Sprachabtastwert im Block 613 ausgegeben. Der Abtastwertzähler wird dann im Block 614 geprüft um festzustellen, ob alle Abtastwerte im momentanen Rahmen verarbeitet worden sind. Wenn Abtastwerte übrigbleiben, wird die aus den Blöcken 602 bis 613 bestehende Schleife für einen weiteren Abtastwert wieder begonnen. Wenn alle Abtastwerte im momentanen Rahmen verarbeitet worden sind, leitet der Block 614 den Vorgang zur Aktualisierung der einzelnen Kanalverstärkungen im Block 615 ein.
In Fig. 5b fortfahrend setzt der Block 616 den Kanalzähler auf Eins. Der Block 617 prüft, ob alle Kanäle verarbeitet worden sind. Wenn diese Entscheidung negativ ist, berechnet Block 618 den Index zur Verstärkungstabelle für den bestimmten Kanal durch die Bildung einer SNR-Abschätzung. Dieser Index wird dann im Block 619 benutzt, um einen Kanalverstärkungswert von der Verweistabelle zu erhalten. Der Verstärkungswert wird dann für die Verwendung in der Rauschunterdrückungsschleife 604 gespeichert. Der Block 620 erhöht dann den Kanalzähler und Block 617 überprüft erneut um festzustellen, ob alle Kanalverstärkungen aktualisiert worden sind. Wenn diese Entscheidung bestätigt wird, wird dann im Block 621 die Hintergrundrauschabschätzung aktualisiert.
Um die Hintergrundrauschabschätzung zu aktualisieren, simuliert das Patent US-A-4,628,529 zuerst im Block 622 die nachverarbeitete Energie durch die Multiplikation des aktualisierten ursprünglichen Kanalverstärkungswerts mit der vorverarbeiteten Energieabschätzung für diesen Kanal. Als nächstes werden im Block 623 die simulierten nachverarbeiteten Energieabschätzungen kombiniert, um eine Gesamtkanalenergieabschätzung für die Verwendung durch den Energietalwertdetektor zu bilden. Der Block 624 vergleicht die Werte dieser nachverarbeiteten Gesamtenergieabschätzung mit dem vorherigen Talwertpegel. Wenn der Energiewert den vorherigen Talwertpegel überschreitet, wird im Block 626 der vorherige Talwertpegel durch die Erhöhung des Pegels mit einer langsamen Zeitkonstante aktualisiert. Dies tritt auf, wenn Sprache oder ein höherer Hintergrundrauschpegel vorhanden ist. Wenn der Ausgang des Entscheidungsblocks 624 negativ ist (nachverarbeitete Energie ist geringer als vorheriger Talwertpegel), wird der vorherige Talwertpegel im Block 625 durch Verminderung des Pegels mit einer schnellen Zeitkonstante aktualisiert. Diese Pegelverminderung des vorherigen Talwertpegels tritt auf, wenn minimales Hintergrundrauschen vorhanden ist. Dementsprechend wird der Hintergrundrauschverlauf ständig durch langsames Ansteigen oder schnelle Vermindern des vorherigen Talwertpegels in Richtung der momentanen nachverarbeiteten Energieabschätzung aktualisiert.
Nachfolgend auf die Aktualisierung des vorherigen Talwertpegels (Block 625 oder 626), prüft der Entscheidungsblock 627, ob der momentane nachverarbeitete Energiewert einen vorbestimmten Rauschschwellenwert überschreitet. Wenn das Ergebnis dieses Vergleichs negativ ist, wird eine Entscheidung getroffen, daß nur Rauschen vorhanden ist, und die Hintergrundrauschspektralabschätzung wird im Block 628 aktualisiert. Dies entspricht dem Schließen des Kanalschalters 575. Wenn das Ergebnis des Prüfung positiv ist, was anzeigt, daß Sprache vorhanden ist, wird die Hintergrundrauschabschätzung nicht aktualisiert. In jedem Fall endet die Funktion der Hintergrundrauschabschätzungseinrichtung 621, wenn der Abtastwertzähler im Block 629 zurückgesetzt wird und der Rahmenzähler im Block 630 erhöht wird. Die Funktion geht dann zum Block 602 über, um die Rauschunterdrückung auf dem nächsten Sprachrahmen zu beginnen.
Das Ablaufdiagramm der Fig. 6a erläutert die spezifischen Einzelheiten des Ablaufs der Rauschunterdrückungsschleife 604. Für jeden Abtastwert der Eingangssprache erhöht der Block 701 den Abtastwert mit Hilfe des Filters frequenzmäßig, was durch die Gleichung beschrieben wird:
Y(nT) = X(nT) - K&sub1;[X((n - 1)T)]
wobei Y(nT) der Ausgang des Filters zum Zeitpunkt nT ist, T ist die Abtastwertperiode, X(nT) und X((n - 1)T) sind die Eingangsabtastwerte zu den Zeitpunkten nT bzw. (n - 1)T und der Frequenzerhöhungskoeffizient K&sub1; ist 0,9375. Wie vorher angemerkt, erhöht dieser Filter den Sprachabtastwert frequenzmäßig auf ungefähr +6 dB pro Oktave.
Block 702 setzt den Kanalzähler auf Eins und initialisiert die Ausgangsabtastwertsumme auf Null. Block 703 prüft um festzustellen, ob der Kanalzähler gleich der Gesamtanzahl der Kanäle N ist. Wenn diese Entscheidung negativ ist, beginnt die Rauschunterdrückungsschleife mit der Filterung des Sprachabtastwerts durch den Bandpassfilter entsprechend dem vorhandenen Kanalzählerstand. Wie früher angemerkt, sind die Bandpassfilter digital realisiert, indem DSP-Techniken verwendet werden, so daß sie als 4-poliger Butterworth Bandpassfilter wirken.
Der Sprachabtastwertausgang vom Bandpassfilter (cc) wird dann im Block 705 doppelweg-gleichgerichtet und im Block 706 tiefpassgefiltert, um den Energiehüllkurvenwert E(cc) für diesen bestimmten Abtastwert zu erhalten. Diese Kanalenergieabschätzung wird dann im Block 707 für die spätere Verwendung gespeichert. Wie es für Fachmänner erkennbar sein wird, ist der Energiehüllkurvenwert E(cc) faktisch eine Abschätzung der Quadratwurzel der Energie in diesem Kanal.
Block 708 liefert den ursprünglichen Verstärkungswert RG für den Kanal cc und führt die Verstärkungsglättung mit Hilfe eines IIR-Filters erster Näherung durch, indem die Gleichung realisiert wird:
G(nT) = G((n - 1)T) + K&sub2;(cc) (RG(nT) - G(n - 1)T)
wobei G(nT) die geglättete Kanalverstärkung zum Zeitpunkt nT ist, T ist die Abtastperiode, G((n - 1)T) ist die geglättete Kanalverstärkung zum Zeitpunkt (n - 1)T, RG(nT) ist die berechnete ursprüngliche Kanalverstärkung für die letzte Rahmenperiode und K&sub2;(cc) ist der Filterkoeffizient für den Kanal cc. Diese Glättung der ursprünglichen Verstärkungswerte auf einer abtastwertweisen Grundlage reduziert die Unstetigkeiten in den Verstärkungsveränderungen, wodurch die Rauschtrillerleistung wesentlich verbessert wird.
Block 709 multipliziert den in Block 704 erhaltenen gefilterten Abtastwert mit dem geglätteten Verstärkungswert für den Kanal cc, der vom Block 708 erhalten wird. Diese Funktion modifiziert den Pegel des bandpassgefilterten Abtastwerts, indem die momentane Kanalverstärkung verwendet wird, entsprechend der Funktion der Kanalverstärkungsmodifizierungseinrichtung 250. Block 710 addiert dann den modifizierten Filterabtastwert für den Kanal cc zu der Ausgangsabtastwertgesamtsumme, was die N modifizierten Bandpassfilterausgänge kombiniert, wenn es N-mal durchgeführt wird, um einen einzigen verarbeiteten Sprachabtastwertausgang zu bilden. Die Funktion des Blocks 710 entspricht dem Kanalkombinierer 260. Block 711 erhöht den Kanalzähler um Eins und der Ablauf der Blöcke 703 bis 711 wird dann wiederholt.
Wenn das Ergebnis der Prüfung in 703 wahr ist, wird im Block 712 der Ausgangssprachabtastwert auf ungefähr -6 dB pro Oktave frequenzmäßig herabgesetzt entsprechend der Gleichung:
Y(nT) = X(nT) + K&sub3;[Y((n - 1)T]
wobei X(nT) der verarbeitete Abtastwert zum Zeitpunkt §17 ist, T ist die Abtastperiode, Y(nT) und Y((n - 1)T sind die frequenzmäßig herabgesetzten Sprachabtastwerte zu den Zeitpunkten nT bzw. (n - 1)T und K&sub3; ist der Frequenzherabsetzungskoeffizient, der einen Wert von 0,9375 hat. Der frequenzmäßig herabgesetzte verarbeitete Sprachabtastwert wird dann zum D/A-Wandlerblock 613 ausgegeben. Auf diese Weise erläutert die Rauschunterdrückungschleife der Fig. 6a sowohl die Kanalfilterreihenrauschunterdrückungstechnik als auch die abtastwertweise Kanalverstärkungsglättungstechnik.
Das Ablaufdiagramm der Fig. 6b beschreibt noch genauer die detaillierte Funktion des automatischen Verstärkungsauswahlblocks 614 der Fig. 5. Der Verarbeitung aller Sprachabtastwerte in einem bestimmten Rahmen folgend, geht die Funktion zum Block 615 über, der dazu dient, die einzelnen Kanalverstärkungen zu aktualisieren. Zuerst wird im Block 720 der Kanalzähler (cc) auf Eins gesetzt. Als nächstes prüft der Entscheidungsblock 721, ob alle Kanäle verarbeitet worden sind. Wenn nicht, setzt sich die Funktion mit Block 722 fort, der den Signal-Rausch-Abstand für den bestimmten Kanal berechnet. Wie früher erwähnt, ist die SNR-Berechnung einfach eine Division der kanalweisen Energieabschätzungen (Signalplus-Rauschen) durch die kanalweisen Hintergrundrauschabschätzungen (Rauschen). Deshalb dividiert der Block 722 einfach die momentan gespeicherte Kanalenergieabschätzung vom Block 707 durch die momentane Hintergrundrauschabschätzung vom Block 628 nach der Gleichung
Index(cc) = [momentane Rahmenenergie für Kanal cc] / [Hintergrundrauschenergieabschätzung für Kanal cc]
Im Block 723 wird die bestimmte Verstärkungstabelle, die indexiert werden soll, ausgewählt. Der quantifizierte Wert des momentanen Talwertpegels wird verwendet, um diese Auswahl durchzuführen. Es kann jedoch jedes Verfahren zur Verstärkungstabellenauswahl verwendet werden. Weiterhin ist für Rauschunterdrückungssysteme, die eine einzige Verstärkungstabelle verwenden, keine Verstärkungstabellenauswahl notwendig.
Der in Block 722 berechnete SNR-Index wird im Block 724 verwendet, um den ursprünglichen Kanalverstärkungswert aus der geeigneten Verstärkungstabelle aufzurufen. Daher wird der Verstärkungswert als eine Funktion von zwei oder drei Variablen indexiert: (1) der Kanalnummer; (2) der momentanen Kanal-SNR-Abschätzung; und möglicherweise (3) des gesamtdurchschnittlichen Hintergrundrauschpegels.
Block 725 speichert den durch den Block 724 ausgewählten ursprünglichen Verstärkungswert. Im Block 726 wird der Kanalzähler erhöht und der Entscheidungsblock 721 wird wieder begonnen. Nachdem alle N Kanalverstärkungen aktualisiert worden sind, geht der Ablauf zum Block 621 über. Daher aktualisiert der automatische Verstärkungsauswahlblock 615 die Kanalverstärkungswerte auf einer rahmenweisen Grundlage, um den momentanen SNR jeden einzelnen Kanals noch genauer wiederzugeben.
Fig. 6c und Fig. 6d erweitern den Block 621, um die Wirkungsweise einer automatischen Hintergrundrauschabschätzungseinrichtung nach dem Stand der Technik noch spezifischer zu beschreiben. Im einzelnen beschreibt Fig. 6c den Vorgang der Simulation der nachverarbeiteten Energie und die Kombinierung dieser Abschätzungen, während Fig. 6d die Funktion des Talwertdetektors 570 beschreibt.
Nun Bezug auf Fig. 6c nehmend, die Funktion zur Simulation der nachverarbeiteten Sprache beginnt im Block 730 durch das Setzen des Kanalzählers (cc) auf Eins. Block 731 prüft diesen Kanalzähler um festzustellen, ob alle N Kanäle verarbeitet worden sind. Wenn nicht, beschreibt die Gleichung des Blocks 732 den tatsächlichen Simulationsvorgang, der durch eine Energieabschätzungsmodifizierungseinrichtung nach dem Stand der Technik durchgeführt wird.
Die simulierte nachverarbeitete Sprachenergie wird durch die Multiplikation des ursprünglichen Kanalverstärkungswerts (direkt von den Kanalverstärkungstabellen erhalten) mit der vorverarbeiteten Energieabschätzung (von der Kanalenergieabschätzungseinrichtung 220 erhalten) für jeden Kanal über die Gleichung erzeugt:
SE(cc) = E(cc)RG(cc)
wobei SE(cc) die simulierte nachverarbeitete Energie für den Kanal cc ist, E(cc) ist die momentane Rahmenenergieabschätzung für den Kanal cc, die durch den Block 707 gespeichert wird, und RG(cc) ist der ursprüngliche Kanalverstärkungswert für den Kanal cc, der vom Block 725 erhalten wird. Wie früher angemerkt, ist E(cc) faktisch die Quadratwurzel der Energie im Kanal, da es eine Messung der Signalhüllkurve ist. Deswegen wird der RG(cc) Term in der obigen Gleichung nicht quadriert. Die Multiplikation, die im Block 732 durchgeführt wird, dient im wesentlichen der gleichen Funktion wie die Kanalverstärkungsmodifizierungseinrichtung 250, mit der Ausnahme, daß die Kanalverstärkungsmodifizierungseinrichtung das vorverarbeitete Sprachsignal verwendet, wohingegen die Energieabschätzungsmodifizierungseinrichtung 560 die vorverarbeitete Sprachenergie verwendet.
Der Kanalzähler wird dann im Block 733 erhöht und im Block 731 neu geprüft. Wenn für alle N Kanäle ein simulierter vorverarbeiteter Energiewert erhalten wurde, dienen die Blöcke 734 bis 738 dazu, die einzelnen simulierten Kanalenergieabschätzungen zu kombinieren, um eine einzige Gesamtenergieabschätzung nach der Gleichung zu bilden:
KANAL(i)NACHVERARBEITETE ENERGIE
wobei N die Anzahl der Filter in der Filtergruppe ist. Block 734 initialisiert der Kanalzähler auf Eins und Block 735 initialisiert den nachverarbeiteten Gesamtenergiewert auf Null. Nach der Initialisierung prüft der Entscheidungblock 736, ob alle Kanalenergien kombiniert worden sind oder nicht. Wenn nicht, addiert der Block 737 den simulierten nachverarbeiteten Energiewert für den momentanen Kanal zu dem nachverarbeiteten Gesamtenergiewert. Die momentane Kanalnummer wird dann im Block 738 erhöht und die Kanalnummer wird wieder im Block 736 geprüft. Wenn alle N Kanäle kombiniert worden sind, um die simulierte nachverarbeitete Gesamtenergieabschätzung zu bilden, geht der Vorgang zum Block 740 der Fig. 6d über.
Nun Bezug auf Fig. 6d nehmend, die Blöcke 740 bis 745 erläutern, wie die nachverarbeitete Signalenergie verwendet wird, um den vorherigen Talwertpegel zu erzeugen und zu aktualisieren, entsprechend der Funktion eines Energietalwertdetektors nach dem Stand der Technik. Nachdem alle nachverarbeiteten Energien pro Kanal kombiniert worden sind, berechnet der Block 740 den Logarithmus dieser kombinierten nachverarbeiteten Kanalenergie. Ein Grund dafür, daß in der Ausführung die Logarithmusdarstellung der nachverarbeiteten Sprachenergie verwendet wird, besteht darin, die Darstellung eines Signals mit einem extrem großen dynamischen Bereich (> 90 dB) in einem 8-Bit-Mikroprozessorsystem zu erleichtern.
Der Entscheidungblock 741 prüft dann um festzustellen, ob dieser logarithmische Energiewert den vorherigen Talwertpegel überschreitet. Wie früher erwähnt, ist der vorherige Talwertpegel entweder der gespeicherte Talwertpegel für den vorherigen Rahmen oder ein initialisierter Talwertpegel, der durch den Block 601 der Fig. 6 bereitgestellt wird. Wenn der logarithmische Wert den vorherigen Talwertpegel überschreitet, wird der vorherige Talwertpegel im Block 743 mit dem momentanen logarithmischen [nachverarbeiteten Energie-] Wert durch die Erhöhung des Pegels mit der langsamen Zeitkonstante von ungefähr einer Sekunde aktualisiert, um einen momentanen Talwertpegel zu bilden. Dies tritt auf, wenn Sprache oder ein höherer Hintergrundrauschpegel vorhanden ist. Wenn umgekehrt der Ausgang des Entscheidungsblocks 741 negativ ist (log[nachverarbeitete Energie] kleiner als vorheriger Talwertpegel), wird der vorherige Talwertpegel im Block 742 mit dem momentanen log[nachverarbeitete Energie]-Wert durch Verminderung des Pegels mit einer schnellen Zeitkonstante von ungefähr 40 Millisekunden aktualisiert, um den momentanen Talwertpegel zu bilden. Dies tritt auf, wenn ein geringerer Hintergrundrauschpegel vorhanden ist. Dementsprechend wird der Hintergrundrauschverlauf durch langsames Anheben oder schnelles Absenken des vorherigen Talwertpegels in Abhängigkeit vom Hintergrundrauschpegel der momentan simulierten nachverarbeiteten Sprachenergleabschätzung ständig aktualisiert.
Nach der Aktualisierung des vorherigen Talwertpegels prüft der Entscheidungsblock 744, ob der momentane log[nachverarbeitete Energie]-Wert den momentanen Talwertpegel plus einen vorbestimmten Versatz überschreitet. Die Addition des momentanen Talwertpegels plus diesen Talwertversatz erzeugt einen Rauschschwellenwertpegel. Dieser Versatz gewährleistet ungefähr ein 6 dB Anwachsen des momentanen Tal wertpegels. Deswegen besteht ein weiterer Grund für die Benutzung der logarithmischen Arithmetik darin, den konstanten 6 dB Versatzadditionsvorgang zu vereinfachen.
Wenn der logarithmische Energiewert diesen Schwellenwert überschreitet - was einem Sprachrahmen eher entsprechen würde als Hintergrundrauschen - wird die momentane Hintergrundrauschabschätzung nicht aktualisiert und der Hintergrundrauschaktualisierungsvorgang endet. Wenn jedoch der logarithmische Energiewert den Rauschschwellenwertpegel nicht überschreitet - was einem erkannten Minimum im nachverarbeiteten Signal entsprechen würde, das anzeigt, daß nur Rauschen vorhanden ist - wird im Block 745 die Hintergrundrauschspektralabschätzung aktualisiert. Dies entspricht dem Schließen des Kanalschalters 757 in Reaktion auf ein positives Talwerterkennungssignal vom Energietalwertdetektor 570. Dieser Aktualisierungsvorgang besteht aus der Bereitstellung eines zeitlich gemittelten Werts der vorverarbeiteten Kanalenergieabschätzung für den bestimmten Kanal durch die Glättung der Abschätzung (im Glättungsfilter 580) und aus der Speicherung dieser zeitlich gemittelten Werte als die Rauschabschätzungen pro Kanal (im Energieabschätzungsspeicherregister 585). Diese Funktion des Hintergrundrauschabschätzungsblocks 621 endet für den bestimmten Rahmen, der verarbeitet wird, durch den Übergang zum Block 629 und 630, um einen neuen Rahmen zu erhalten.
Nun werden die Funktion und die Struktur der vorliegenden Erfindung detailliert beschrieben (wieder Bezug auf Fig. 1 nehmend), das verbesserte Rauschunterdrückungssystem 800 beinhaltet Veränderungen gegenüber dem vorher erwähnten Borth Rauschunterdrückungssystem auf drei grundlegenden Gebieten: (a) die Aktualisierung der Hintergrundrauschabschätzungen durch die Sprachmaßberechnungseinrichtung 810; (b) die Modifikation der SNR-Abschätzungen durch die Kanal-SNR- Modifizierungseinrichtung 820; und (c) die Verwendung des SNR-Schwellenwertblocks 830, um den Verstärkungsanstieg jedes Kanals zu verschieben. Jede dieser Verbesserungen wird in Bezug auf das Blockschaltbild der Fig. 1 und in Bezug auf das Ablaufdiagramm der Fig. 4a-4f beschrieben.
Die Sprachmaßberechnungseinrichtung 810 ersetzt die Talwertdetektorschaltung des bisherigen Systems. Ein Sprachmaß ist im wesentlichen eine Messung der gesamten sprachähnlichen Charakteristiken aller Kanalenergien. In der bevorzugten Ausführung wird die Sprachmaßberechnungseinrichtung 810 als eine Verweistabelle realisiert, die die einzelnen Kanal-SNR-Abschätzungen auf 235 in Sprachmaßwerte übersetzt. Die Sprachmaßwerte werden intern verwendet um zu bestimmen, wann die Hintergrundrauschabschätzungen durch Schließen des Kanalschalter 575 für einen Rahmen zu aktualisieren sind. Wie hierin verwendet, ist die Aktualisierung der Hintergrundrauschabschätzung als die teilweise Modifizierung der alten Hintergrundrauschabschätzung durch eine neue Abschätzung definiert, indem zum Beispiel ein neu/alt Abschätzungsverhältnis von 10%/90% verwendet wird. Die Sprachmaßwerte werden ebenfalls im Kanal-SNR-Modifizierungsvorgang verwendet, wie er nachfolgend beschrieben wird.
Aus der Sicht der Durchführung einer Hintergrundrauschaktualisierungsentscheidung könnte ein Rahmen, der hohe Energie hat, was typischerweise eine Anzeige eines Sprachrahmens ist, ebenfalls bedeuten, daß ein Schmalbandrauschtransient oder ein plötzlicher Anstieg des Hintergrundrauschpegels aufgetreten ist. Deswegen kennzeichnet die vorliegende Erfindung die Rahmenenergie als eine Sprachmaßsumme VMSUM und verwendet diesen Mehrkanalenergieparameter, um die Aktualisierungsentscheidung durchzuführen. Der Vorgang verwendet eine Sprachmaßtabelle, die als eine Kurve, wie in Fig. 2 gezeigt, dargestellt werden kann.
Fig. 2 ist eine grafische Darstellung, die die charakteristische Kurve der Sprachmaße für einen bestimmten Kanal erläutert. Die waagerechte Achse stellt die SNR-Abschätzungsindizes dar. Jeder SNR-Abschätzungsindexwert bedeutet drei Achtel (3/8) dB Signal-Rausch-Abstand. So stellt ein SNR-Index von 10 ein SNR von 3,75 dB dar. Die senkrechte Achse stellt die Sprachmaßwerte VM(cc) für jeden der N Kanäle dar. Es ist zu beachten, daß für einen SNR-Index von 1 ein Sprachmaß von 2 erzeugt wird. Es ist auch anzumerken, daß die Kurve nicht linear ist, weil die Kanalenergie bei höheren SNRs mehr sprachähnliche Charakteristiken hat.
Erstens werden die ursprünglichen SNR-Abschätzungen verwendet, um die Sprachmaßtabelle zu indexieren, um einen Sprachmaßwert VM(CC) für jeden Kanal zu erhalten. Zweitens werden die einzelnen Kanalsprachmaßwerte summiert, um die Summe von allen einzelnen Kanalsprachmaßwerten zu erzeugen, die die Sprachmaßsumme VMSUM genannt wird. Drittens wird VMSUM mit einem AKTUALISIERUNGSSCHWELLENWERT verglichen, der eine Sprachmaßsumme darstellt, die als Rauschen betrachtet wird. Wenn der Mehrkanalenergieparameter VMSUM kleiner als der AKTUALISIERUNGSSCHWELLENWERT ist, hat der betreffende Rahmen sehr wenig sprachähnliche Charakteristiken und ist höchstwahrscheinlich Rauschen. Deswegen wird eine Hintergrundrauschaktualisierung durch das Schließen des Kanalschalters 575 für den betreffenden Rahmen durchgeführt. Die allerneueste Sprachmaßsumme VMSUM wird ebenfalls für die Kanal-SNR-Modifizierungseinrichtung 820 über die Leitung 815 zur Verwendung im Modifikationsalgorithmus verfügbar gemacht. In der bevorzugten Ausführung wird der AKTUALISIERUNGSSCHWELLENWERT auf einen Gesamtsprachmaßsummenwert von 32 gesetzt. Da der minimale Wert in der Sprachmaßtabelle 2 ist, ist die minimale Summe für 14 Kanäle 28. Die Sprachmaßtabellenwerte bleiben auf 2, bis ein SNR-Index von 12 (oder 4,5 dB SNR) erreicht wird. Das bedeutet, daß ein erhöhter Pegel des Breitbandrauschens (die einzelnen Kanäle haben jeweils SNR-Werte, die nicht größer als 4,125 dB sind) noch einen Summe von 28 erzeugen wird. Da der AKTUALISIERUNGSSCHWELLENWERT von 32 nicht überschritten werden würde, würde das Breitbandrauschsprachmaß korrekterweise als Rauschen klassifiziert werden und-es würde eine Hintergrundrauschaktualisierung durchgeführt werden. Umgekehrt würde jeder einzelne Kanal, der einen SNR-Indexwert größer als 24 (oder zumindest 9,0 dB SNR) hat, verursachen, daß VMSUM den AKTUALISIERUNGSSCHWELLENWERT überschreitet und in einer Sprach- oder Schmalbandrauschbündelentscheidung resultieren.
Viele Variationen der Sprachmaßtabelle sind möglich, da verschiedene Maßtypen für die richtige Auswahl des AKTUALISIERUNGSSCHWELLENWERTS verglichen werden können. Weiterhin kann die Empfindlichkeit der Sprache/Rauschen- Entscheidung für eine bestimmte Anwendung ausgewählt werden. In der bevorzugten Ausführung zum Beispiel kann der Schwellenwert eingestellt werden, um jeden einzelnen Kanal zu berücksichtigen, der einen SNR-Wert hat, der so empfindlich wie 4,5 dB ist bis so unempfindlich wie 15 dB ist. Der entsprechende AKTUALISIERUNGSSCHWELLENWERT würde dann innerhalb des Bereichs von 29 bis 41 gesetzt.
Zusätzlich zur Durchführung der Sprache/Rauschen-Entscheidung durch die Verwendung der Sprachmaße verfolgt die Sprachmaßberechnungseinrichtung 810 die Zeitdauer, die seit der letzten Hintergrundrauschaktualisierung vergangen ist. Ein Aktualisierungszähler wird bei jedem Rahmen geprüft um festzustellen, ob mehr als eine vorgegebene Anzahl von Sprungmarken, die jede eine vorbestimmte Zeit darstellen, seit der vorherigen Aktualisierung passiert hat. In der be vorzugten Ausführung, die 10 Millisekundenrahmen verwendet, was einem zeitlichen Schwellenwert von 1 Sekunde ohne Aktualisierungen entspricht, wird eine Aktualisierung durchgeführt, wenn der Aktualisierungszähler 100 erreicht, ungeachtet der Sprachmaßentscheidung. Es wäre jedoch jeder zeitliche Schwellenwert innerhalb des Bereichs von 0,5 Sekunden bis 4 Sekunden realisierbar. Wie vorher erwähnt wird diese Zeitparameterprüfung verwendet, um zu verhindern, daß jedes plötzliche, starke Ansteigen des Rauschpegels undefiniert als Sprache interpretiert wird.
Die Grundfunktion der Kanal-SNR-Modifizierungseinrichtung 820 besteht darin, die nachteiligen Auswirkungen der Schmalbandrauschbündel auf das Rauschunterdrückungssystem zu eliminieren. Ein Schmalbandrauschbündel kann als eine zeitweilige Erhöhung der Kanalenergie für einige wenige Kanäle definiert werden. In der bevorzugten Ausführung wird ein hoher Energiepegel oberhalb eines 6 dB SNR-Schwellenwerts in weniger als 5 der oberen 10 Kanäle als ein Schmalbandrauschbündel klassifiziert. Ein solches Rauschbündel würde normalerweise hohe Verstärkungswerte für nur eine geringe Anzahl von Kanälen erzeugen, was in einem oben beschriebenen Hintergrundrauschtrillern vom Typ "Laufendes Wasser" resultieren würde.
Ursprüngliche SNR-Abschätzungen auf 235 werden an den Eingang der Kanal-SNR-Modifizierungseinrichtung 820 angelegt und modifizierte SNR-Abschätzungen sind am Ausgang auf 825. Grundsätzlich zählt die SNR-Modifizierungseinrichtung 820 die Zahl der Kanäle, die Kanal-SNR-Indexwerte haben, die einen Indexschwellenwert überschreiten. In der bevorzugten Ausführung wird der Indexschwellenwert gesetzt, um einem SNR-Wert innerhalb des Bereichs von 4 dB bis 10 dB, vorzugsweise 6 dB SNR, zu entsprechen. Wenn die Zahl der Kanäle unter einem vorbestimmten Zählerschwellenwert ist, dann wird die Entscheidung getroffen, die SNRs zu modifizieren. Der Zähler schwellenwert stellt eine relativ geringe Anzahl von Kanälen dar, d. h. nicht mehr als 40% der Gesamtanzahl der Kanäle N. In der bevorzugten Ausführung wird der Zählerschwellenwert auf 5 von den 10 gemessenen Kanälen gesetzt. Während des Modifikationsvorgangs selbst reduziert die Kanal-SNR- Modifizierungseinrichtung 820 entweder den SNR nur von den bestimmten Kanälen, die einen SNR-Index haben, der kleiner als ein RÜCKSETZSCHWELLENWERT (eine Anzeige eines Schmalbandrauschkanals) ist, oder reduziert den SNR von allen Kanälen, wenn die Sprachmaßsumme kleiner als ein Maßschwellenwert (eine Anzeige eines sehr schwachen Energierahmens) ist. So werden die Kanäle gedämpft, die das Schmalbandrauschbündel enthalten, um sie daran zu hindern, die Verstärkungstabellenverweisfunktion nachteilig zu beeinflussen.
Der SNR-Schwellenwertblock 830 prüft einen vorbestimmten SNR- Schwellenwert für jeden Kanal, der von den modifizierten Kanal-SNR-Abschätzungen überschritten werden muß, bevor ein hoher Verstärkungswert erzeugt werden kann. Nur SNR- Abschätzungen, die einen Wert oberhalb des SNR-Schwellenwerts haben, werden direkt an die Verstärkungstabellensätze angelegt. Deshalb wird es kleinen Hintergrundrauschschwankungen nicht gestattet, hohe Verstärkungswerte zu erzeugen, die Sprache darstellen. Diese Verwendung eines SNR-Schwellenwerts stellt im wesentlichen einen Versatz im Verstärkungsanstieg für Kanäle dar, die einen geringen Signal-Rausch-Abstand haben. Vorzugsweise würde der SNR-Schwellenwert innerhalb des Bereichs von 1,5 dB bis 5 dB gesetzt werden, um geringe Rauschschwankungen zu eliminieren. Der SNR-Schwellenwert kann als eine separate Baugruppe wie in Fig. 1 gezeigt realisiert werden, oder er kann als eine "tote Zone" in der charakteristischen Verstärkungskurve für jeden Verstärkungstabellensatz 590 realisiert sein.
Fig. 3 erläutert grafisch die Funktion des SNR-Schwellenwertblocks 830 sowie die Dämpfungsfunktion der Kanalverstärkungswerte in jedem Verstärkungstabellensatz. Auf der waagerechten Achse sind die modifizierten SNR-Abschätzungen in dB dargestellt, wie sie von der Kanal-SNR-Modifizierungseinrichtung 820 auf 825 ausgegeben werden würden. Die senkrechte Achse stellt die Kanalverstärkung (Dämpfung) dar, die am Ausgang des Kanalverstärkungsmodifizierungseinrichtung 250 auf 255 beobachtet werden würde. Ein maximaler Betrag der Hintergrundrauschdämpfung wird für Kanäle erreicht, die einen minimalen Verstärkungswert haben. Es ist anzumerken, daß der SNR-Schwellenwertblock 830 als "tote Zone" oder Versatz von ungefähr 2,25 dB in der Verstärkungsanstiegskurve dargestellt ist. Daher muß eine SNR-Abschätzung diesen Schwellenwert überschreiten, bevor die Kanalverstärkung über den gezeigten minimalen Verstärkungspegel ansteigen kann. Es ist ebenfalls anzumerken, daß zwei Kurven dargestellt sind, wobei jede einen unterschiedlichen minimalen Verstärkungspegel hat. Die obere mit Gruppe A bezeichnete Kurve, repräsentiert eine untere Kanalgruppe, die zum Beispiel in der bevorzugten Ausführung aus den Kanälen 1-4 besteht, während die Gruppe B die Kanäle 5-14 mit den höheren Frequenzen repräsentiert.
Wie aus der grafischen Darstellung ersichtlich ist, haben die niederfrequenten Kanäle einen minimalen Verstärkungswert von -13,1 dB, während die Kanäle mit den oberen Frequenzen einen minimalen Verstärkungswert von -20,7 dB haben. Es ist erkannt worden, daß eine geringere Sprachqualitätsverschlechterung auftritt, wenn die Kanäle in solche Gruppen unterteilt werden. Obwohl in der bevorzugten Ausführung nur zwei verschiedene Verstärkungskurven für den Verstärkungstabellensatz Nr. 1 verwendet werden, kann es sich als vorteilhaft herausstellen, für jeden Kanal eine unterschiedliche Kurve der Verstärkungscharakteristik bereitzustellen. Wie in dem als Bezug genommenen Borth Patent erläutert wird, werden außerdem mehrere Verstärkungstabellensätze verwendet, um eine größere Auswahl von Kanalverstärkungswerten in Abhängigkeit von der jeweiligen Hintergrundrauschumgebung zu gestatten. Die Rauschpegelquantisierungseinrichtung 555 verwendet auf den Gesamthintergrundrauschabschätzungen basierende Hystereseschleifen, um einen bestimmten Verstärkungstabellensatz auszuwählen. Das Verstärkungstabellenauswahlsignal, das von der Rauschpegelquantisierungseinrichtung 555 ausgegeben wird, wird an den Verstärkungstabellenschalter 595 angelegt, um den Vorgang der Verstärkungstabellenauswahl auszuführen. Dementsprechend kann ein Verstärkungstabellensatz aus einer Vielzahl von Verstärkungstabellensätzen 590 als eine Funktion des gesamtdurchschnittlichen Hintergrundrauschpegels gewählt werden.
Diese Verbesserungen der Rauschunterdrückung eliminieren die Unbeständigkeit der Hintergrundrauschunterdrückung ohne einen großen Betrag der Verstärkungsglättung zu benötigen. Eine Hintergrundrauschdämpfung innerhalb eines Bereichs von 10 dB bis 25 dB wird mit der vorliegenden Erfindung leicht erreicht. Bei den Verbesserungen erfordert das System eine Verstärkungsglättung, die eine Zeitkonstante von nur 10 bis 20 Millisekunden hat, um einen glatten oder "weißen" Restrauschhintergrund zu erhalten. Frühere Techniken erforderten Zeitkonstanten von 40 bis 60 Millisekunden für die Verstärkungsglättung, die nicht nur in unvollkommener Trillerreduzierung resultierten, sondern ebenfalls die Sprachqualität wesentlich verschlechterten.
Da die Gesamtfunktion des verbesserten Rauschunterdrückungssystems ähnlich zu der ist, die in der früheren Beschreibung US-A-4,628,529 nach dem Stand der Technik beschrieben wird, wird das verallgemeinerte Ablaufdiagramm, das in den Figur en 5a/b dieser Anmeldung erläutert wird, nochmals verwendet, um die vorliegende Erfindung zu beschreiben. Der allgemeine Aufbau der Funktion der vorliegenden Erfindung kann nach wie vor in drei funktionale Gruppen eingeteilt werden: Rauschunterdrückungsschleife - Abfolgeblock 604 der vorher beschriebenen Fig. 5a nach dem Stand der Technik, der genauer in der Fig. 6a nach dem Stand der Technik der vorliegenden Erfindung beschrieben wird; automatische Verstärkungsauswahleinrichtung - Abfolge 615 der vorher beschriebenen Fig. 5b nach dem Stand der Technik, die für die vorliegende Erfindung modifiziert worden ist; und automatische Hintergrundrauschabschätzungseinrichtung - Abfolge 621 der Fig. 5b nach dem Stand der Technik, die ebenfalls für die vorliegende Erfindung modifiziert worden ist. Die detaillierten Ablaufdiagramme der Figur en 4a bis 4f der vorliegenden Anmeldung können die Abfolgeblöcke 615 und 621 der Fig. 5b nach dem Stand der Technik ersetzen, um die Funktion des verbesserten Rauschunterdrückungssystems 800 zu beschreiben. Daher beschreiben die Figur en 5a und 6a nach dem Stand der Technik des vorher beschriebenen Borth Patents (4,628,529) die Rauschunterdrückungsschleife, die auf einer Grundlage Abtastwert für Abtastwert durchgeführt wird, während die Figur en 4a bis 4f der vorliegenden Erfindung den Kanalverstärkungsauswahlvorgang und den Hintergrundrauschabschätzungsaktualisierungsvorgang auf einer Grundlage Rahmen für Rahmen beschreiben.
Nun auf Fig. 4a Bezug nehmend, die Funktion des verbesserten Rauschunterdrückungssystems 800 beginnt beim "JA" Ausgang des Entscheidungsschritts 614 der zuvor erwähnten Fig. 5a, da die eigentliche spektrale Verstärkungsmodifikationsfunktion für den bestimmten Rahmen bereits auf einer Basis Abtastwert für Abtastwert durch die Verwendung der Verstärkungswerte vom vorherigen Rahmen durchgeführt worden ist. Die Abfolge 850 dient dazu, die auf 235 verfügbaren SNR-Abschätzungen zu erzeugen. Zu allererst wird der Kanalzähler CC im Schritt 851 auf Eins gesetzt. Als nächstes wird die Sprachmaßsummenvariable VMSUM im Schritt 852 auf Null initialisiert. Der Schritt 853 berechnet den ursprünglichen Signal-Rausch-Abstand SNR für den bestimmten Kanal als einen SNR-Abschätzungsindexwert INDEX(CC). Die SNR-Berechnung ist einfach eine Division der auf 225 verfügbaren kanalweisen Energieabschätzungen (Signal plus Rauschen) durch die kanalweisen Hintergrundrauschabschätzungen (Rauschen) auf 325. Es können jedoch alternativ andere Abschätzungen des Signal-Rausch-Schwellenwerts verwendet werden. Deshalb dividiert der Schritt 853 einfach die momentan gespeicherte Kanalenergieabschätzung (vom Ablaufdiagrammschritt 707 der zuvor erwähnten Fig. 6a erhalten) durch die momentane Hintergrundrauschabschätzung BNE(CC) vom vorherigen Rahmen.
In der Abfolge 860 werden die Sprachmaße berechnet. Zuerst wird die Sprachmaßtabelle für den bestimmten Kanal im Schritt 861 indexiert, indem der ursprüngliche SNR-Abschätzungsindex INDEX(CC) verwendet wird. Die Sprachmaßtabelle wird im Schritt 862 gelesen, um einen Sprachmaßwert VM(CC) für diesen speziellen Kanal zu erhalten. Dieser einzelne Kanalsprachmaßwert wird im Schritt 863 zu der Sprachmaßsumme VMSUM hinzuaddiert. Der Kanalzähler CC wird im Schritt 864 erhöht und im Schritt 865 geprüft. Wenn nicht die Sprachmaße für alle N Kanäle berechnet worden sind, kehrt die Steuerung zum Schritt 853 zurück.
Die Abfolge 870 erläutert den Entscheidungsvorgang der Hintergrundrauschabschätzungsaktualisierung, der durch die Sprachmaßberechnungseinrichtung 810 durchgeführt wird. Die Sprachmaßsumme VMSUM wird im Schritt 871 mit dem AKTUALISIERUNGSSCHWELLENWERT verglichen. Wenn VMSUM kleiner oder gleich dem AKTUALISIERUNGSSCHWELLENWERT ist, dann ist der Rahmen wahrscheinlich ein Rauschrahmen. Das ZEITGEBERKENNZEICHENBIT wird im Schritt 872 zurückgesetzt und der Aktualisierungszähler UC wird im Schritt 873 zurückgesetzt. Die Steuerung geht zum Schritt 878 über, wo das AKTUALISIERUNGSKENNZEICHENBIT als wahr eingestellt wird, was bedeutet, daß eine Hintergrundrauschabschätzungsaktualisierung für den momentanen Rahmen durchgeführt werden wird.
Wenn VMSUM größer als der AKTUALISIERUNGSSCHWELLENWERT ist, ist der Rahmen wahrscheinlich ein Sprachrahmen. Nichtsdestoweniger prüft der Schritt 874 das ZEITGEBERKENNZEICHENBIT um festzustellen, ob ein plötzliches, lautes Anwachsen des Hintergrundrauschs als Sprache interpretiert worden ist. Wenn das ZEITGEBERKENNZEICHENBIT einen wahren Zustand hat, ist das eine zweite Zeitintervall vor einigen Rahmen überschritten worden und eine Hintergrundrauschabschätzungsaktualisierung ist immer noch notwendig. Dies beruht auf der Tatsache, daß für jeden Rahmen nur eine teilweise Hintergrundrauschaktualisierung durchgeführt wird. Wenn das ZEITGEBERKENNZEICHENBIT keinen wahren Zustand hat, wird der Aktualisierungszähler UC im Schritt 875 erhöht und im Schritt 876 geprüft. Wenn seit der letzten Hintergrundrauschabschätzungsaktualisierung 100 Rahmen aufgetreten sind, wird das ZEITGEBERKENNZEICHENBIT im Schritt 877 auf den wahren Zustand gesetzt und das BNE AKTUALISIERUNGSKENNZEICHENBIT wird im Schritt 878 auf einen wahren Zustand gesetzt. Es werden dann eine Reihe von teilweisen Hintergrundrauschabschätzungsaktualisierungen durchgeführt, bis die Sprachmaßsumme VMSUM wieder unter den AKTUALISIERUNGSSCHWELLENWERT sinkt. Es ist anzumerken, daß sich die einzige Stelle im Ablaufdiagramm, die das ZEITGEBERKENNZEICHENBIT zurücksetzt, im Schritt 872 befindet, wenn die Sprachmaßsumme VMSUM wieder Rauschen ähnelt. Wenn der Aktualisierungszähler UC 100 Rahmen nicht erreicht hat, scheint der jetzige Rahmen ein Sprachrahmen zu sein, und es wird keine Hintergrundrauschaktualisierung durchgeführt.
Nun auf die Abfolge 880 der Figur en 4b und 4c Bezug nehmend, die Entscheidung, die Kanal-Signal-Rausch-Abstände zu modifizieren, wird als nächstes durchgeführt. Im Schritt 881 wird eine Indexzählervariable IC initialisiert. Der Kanalzähler CC wird im Schritt 882 auf 5 gesetzt, um nur die oberen 10 der 14 Kanäle, die eine hohe Energie haben, zu zählen. Der ursprüngliche SNR-Abschätzungsindex INDEX(CC) wird im Schritt 883 geprüft um festzustellen, ob er einen INDEXSCHWELLENWERT erreicht hat, der ungefähr 6 dB SNR entsprechen würde. Hier wird die Annahme gemacht, daß zumindest 5 der oberen 10 Kanäle eines Sprachrahmens Energie enthalten sollten, die einen SNR von zumindest 6 dB hat. Wenn der bestimmte SNR INDEX(CC) über dem INDEXSCHWELLENWERT liegt, wird der Indexzähler IC im Schritt 884 erhöht. Wenn nicht, wird der Kanalzähler CC im Schritt 885 erhöht und im Schritt 886 geprüft, um den nächsten Kanal zu untersuchen.
Wenn alle 10 obere Kanäle gemessen worden sind, stellt der Indexzähler IC die Anzahl der Kanäle dar, die eine SNR- Abschätzungsindex haben, der größer als der INDEXSCHWELLENWERT ist. Der Indexzähler IC wird dann im Schritt 887 mit einem ZÄHLERSCHWELLENWERT verglichen. Wenn IC anzeigt, daß mehr Kanäle als der ZAHLERSCHWELLENWERT, zum Beispiel 5 der oberen 10 Kanäle, ausreichend Energie enthalten, dann ist der Rahmen wahrscheinlich ein Sprachrahmen und das MODIFIZIERUNGSKENNZEICHENBIT wird im Schritt 889 in den unwahren Zustand gesetzt, um die Kanal-SNR-Modifizierung zu verhindern. Wenn nur wenige Kanäle hohe Energie enthalten, was einen Rahmen mit Schmalbandrauschen darstellen würde, dann wird das MODIFIZIERUNGSKENNZEICHENBIT im Schritt 888 auf den wahren Zustand gesetzt.
Die Abfolge 890 beschreibt den SNR-Modifizierungsvorgang, der durch den Kanal-SNR-Modifizierungsblock 820 durchgeführt wird. Anfangs wird das MODIFIZIERUNGSKENNZEICHENBIT im Schritt 891 geprüft. Wenn es im unwahren Zustand ist, wird der Kanal-SNR-Modifizierungsvorgang übergangen. Wenn das MODIFIZIERUNGSKENNZEICHENBIT wahr ist, wird der Kanalzähler CC im Schritt 892 initialisiert. Danach wird jeder Kanal-SNR- Abschätzungsindex im Schritt 893 geprüft um festzustellen, ob er kleiner oder gleich einem ZURÜCKSETZUNGSSCHWELLENWERT ist. Der ZURÜCKSETZUNGSSCHWELLENWERT, der einen Wert haben kann, der 6 dB SNR entspricht, stellt die maximale SNR-Abschätzung dar, die Hintergrundrauschtrillern darstellt. Nur Kanäle, die einen geringen SNR-Abschätzungsindex haben, bestehen diese Prüfung. Jedoch selbst wenn der Kanalindex größer als der ZURÜCKSETZUNGSSCHWELLENWERT ist, wird die Sprachmaßsumme VMSUM nochmals im Schritt 894 geprüft. Wenn VMSUM kleiner oder gleich einem MASSSCHWELLENWERT ist, der der Darstellung eines Gesamtsprachmasses eines Schmalbandrauschrahmens entspricht, wird der INDEX(CC) im Schritt 895 durch das Gleichsetzen mit dem minimalen Indexwert von 1 modifiziert. Der Kanalzähler CC wird im Schritt 896 erhöht und im Schritt 897 geprüft um festzustellen, ob alle Kanäle überprüft worden sind. Wenn nicht, kehrt die Steuerung zum Schritt 893 zurück, um den nächsten Kanalindex zu überprüfen. Daher wird ein Rahmen, der entweder Kanalenergieschwankungen oder Schmalbandrauschen enthält, modifiziert, so daß der Rahmen keine unerwünschten Verstärkungsveränderungen hervorruft.
Die Abfolge 900 führt die Funktionen des SNR-Schwellenwertblocks 830 aus. Der Kanalzähler CC wird im Schritt 901 initialisiert. Der SNR-Index für den bestimmten Kanal wird im Schritt 902 mit einen SNR-SCHWELLENWERT verglichen. In der bevorzugten Ausführung stellt der SNR-SCHWELLENWERT einen Indexwert dar, der 2,25 dB SNR entspricht. Wenn INDEX(CC) über dem SNR-SCHWELLENWERT liegt, kann er verwendet werden, die Verstärkungstabelle zu indexieren. Wenn nicht, wird der Indexwert im Schritt 903 wieder auf 1 gesetzt, was den minimalen Indexwert darstellt. Der Kanalzähler CC wird im Schritt 904 erhöht und im Schritt 905 geprüft. Dieser SNR-Schwellenwertprüfvorgang dient dazu, die geringen Hintergrundrauschveränderungen in allen Kanälen zu reduzieren.
Nun Bezug auf die Abfolge 910 der Fig. 4d nehmend, die Verstärkungstabellensätze werden durch die Rauschpegelquantisierungseinrichtung 555 und den Verstärkungstabellenschalter 595 ausgewählt. Im Schritt 911 wird der Kanalzähler CC initialisiert und im Schritt 912 wird eine Variable initialisiert, die Hintergrundrauschabschätzungssumme BNESUM genannt wird. Im Schritt 913 wird die momentane Hintergrundrauschabschätzung BNE(CC) für jeden Kanal gewonnen und im Schritt 914 zu BNESUM aufaddiert. Der Schritt 915 erhöht den Kanalzähler CC und der Schritt 916 prüft den Kanalzähler um festzustellen, ob die Hintergrundrauschabschätzungen für alle N Kanäle aufsummiert worden sind.
Im Schritt 917 wird BNESUM mit einem ersten Hintergrundrauschabschätzungsschwellenwert verglichen. Wenn sie größer als der BNE SCHWELLENWERT 1 ist, dann wird im Schritt 918 der Verstärkungstabellensatz Nr. 1 ausgewählt. Ähnlicherweise prüft der Schritt 919 nochmals BNESUM um festzustellen, ob sie größer als der geringere Wert von BNE SCHWELLENWERT 2 ist. Wenn BNESUM größer als BNE SCHWELLENWERT 2, aber kleiner als BNE SCHWELLENWERT 1 ist, dann wird im Schritt 920 der Verstärkungstabellensatz Nr. 2 ausgewählt. Andernfalls wird im Schritt 921 der Verstärkungstabellensatz Nr. 3 ausgewählt. Daher werden die Verstärkungstabellensätze 590 als eine Funktion des gesamtdurchschnittlichen Hintergrundrauschpegels ausgewählt.
Die Abfolge 930 beschreibt die Schritte zur Gewinnung der ursprünglichen Verstärkungswerte RG(CC) aus den Verstärkungstabellensätzen 590. Der Schritt 931 setzt den Kanalzähler CC auf 1. Die ausgewählte Verstärkungstabelle wird im Schritt 932 indexiert, indem der Kanal-SNR-Abschätzungsindex INDEX(CC) verwendet wird, der die SNR-Modifikation und die Schwellenwertprüfungen passiert hat. Der ursprüngliche Ver stärkungswert RG(CC) wird im Schritt 933 aus der gewählten Verstärkungstabelle gewonnen und wird dann im Schritt 934 für den Gebrauch als Verstärkungswert für den nächsten Rahmen der Rauschunterdrückung gespeichert. Der Kanalzähler CC wird im Schritt 935 erhöht und im Schritt 936 wie zuvor geprüft. Wie im U. S. Patent Nr. 4,630,305 beschrieben, werden die ursprünglichen Verstärkungswerte für jeden Kanal auf 535 dann auf einer abtastwertweisen Grundlage an die Verstärkungsglättungsfilter 530 zur Glättung angelegt.
Schließlich beschreibt die Abfolge 940 den eigentlichen Aktualisierungvorgang der Hintergrundrauschabschätzung, der im Block 420 der Fig. 1 durchgeführt wird. Der Schritt 941 prüft anfangs das AKTUALISIERUNGSKENNZEICHENBIT um festzustellen, ob eine Hintergrundrauschabschätzung durchgeführt werden sollte. Wenn das AKTUALISIERUNGSKENNZEICHENBIT unwahr ist, dann ist der Rahmen ein Sprachrahmen und es kann keine Hintergrundrauschaktualisierung auftreten. Andernfalls wird die Hintergrundrauschaktualisierung, die durch das Schließen des Kanalschalters 575 simuliert wird, während eines Rauschrahmens durchgeführt. Im Schritt 942 wird das AKTUALISIERUNGSKENNZEICHENBIT auf den unwahren Zustand zurückgesetzt. Die Schritte 942 bis 945 dienen dazu, die momentane Hintergrundrauschabschätzung in jedem der N Kanäle über folgende Gleichung zu aktualisieren:
E(i,k) = E(i, k - 1) + SF[(PE(i) - E(i, k - 1)],
i = 1, 2, ..., N
wobei E(i, k) die momentane Energierauschabschätzung für den Kanal (i) zum Zeitpunkt (k) ist, E (i, k - 1) ist die alte Energierauschabschätzung für den Kanal (1) zum Zeitpunkt (k - 1), PE(i) ist die momentane vorverarbeitete Energieabschätzung für den Kanal (i) und SF ist die Glättungsfaktorzeitkonstante, die bei der Glättung der Hintergrundrausch abschätzungen verwendet wird. Deswegen wird E(i, k - 1) im Energieabschätzungsspeicherregister 585 gespeichert, und der SF-Term führt die Funktion des Glättungsfilters 580 aus. In der bevorzugten Ausführung wird SF gewählt, 0,1 für eine Rahmendauer von 10 Millisekunden zu sein.
Der Schritt 943 initialisiert den Kanalzähler CC auf 1. Der Schritt 944 führt die obige Gleichung in Bezug auf die auf 225 verfügbare momentane Hintergrundrauschabschätzung aus, wobei die alte Hintergrundrauschabschätzung auf 325 verfügbar ist, die alte Hintergrundrauschabschätzung ALTE BNE(CC) im Energieabschätzungsspeicherregister 585 gespeichert ist und die neue Hintergrundrauschabschätzung NEUE BNE(CC) vom Schalter 575 verfügbar ist. Der Schritt 945 erhöht den Kanalzähler CC und der Schritt 946 prüft um festzustellen, ob alle N Kanäle verarbeitet worden sind. Wenn ja, ist die Hintergrundrauschabschätzungsaktualisierung beendet und die Funktion kehrt zum Schritt 629 der Fig. 5b des zuvor erwähnten Borth Patents zurück, um den Abtastwertzähler zurückzusetzen und den Rahmenzähler zu erhöhen. Die Steuerung kehrt dann wieder zurück, um die Rauschunterdrückung auf einer Grundlage Abtastwert für Abtastwert für den nächsten Rahmen durchzuführen.
Zurückblickend kann nun gesehen werden, daß die vorliegende Erfindung die folgenden Verbesserungen gewährleistet: (a) eine Reduzierung des Hintergrundrauschtrillerns durch Verschiebung des Verstärkungsanstiegs der Verstärkungstabellen bis ein bestimmter SNR-Wert erreicht wird; (b) Schutz vor Schmalbandrauschbündeln durch Modifikation der SNR- Abschätzungen auf der Grundlage der Sprachmaßberechnung und der Kanalenergien; und (c) genauere Hintergrundrauschabschätzungen durch die Durchführung der Aktualisierungsentscheidung auf der Grundlage des Gesamtsprachmasses und des Zeitintervalls seit der letzten Aktualisierung.
Während spezielle Ausführungen der vorliegenden Erfindung hierin gezeigt und beschrieben worden sind, können durch Fachmänner weitere Modifikationen und Verbesserungen gemacht werden. Zum Beispiel wird der Funktionsablauf hierin beschrieben, daß er im Echtzeitbetrieb durchgeführt wird. Wegen der innewohnenden Hardwarebeschränkungen jedoch können die vorherigen Hintergrundrauschabschätzungen für die Kanalverstärkungswerte für die Benutzung im nächsten Rahmen gespeichert werden. Alle solche Modifikationen, die auf die offenbarten, zugrundegelegten Prinzipien zurückgreifen, und die hierin enthaltenen Ansprüche fallen in den Bereich dieser Erfindung.

Claims

1. Rauschunterdrückungssystem (800) zur Dämpfung des Hintergrundrauschens von einem verrauschten Eingangssignal (205), um ein rauschunterdrücktes Ausgangssignal (265) zu erzeugen, wobei dieses Rauschunterdrückungssystem umfaßt:

- Mittel (210) zur Aufteilung des Eingangssignals (205) in eine Vielzahl von vorverarbeiteteh Signalen, die ausgewählte Frequenzkanäle darstellen;

- Mittel (220) zur Erzeugung von Abschätzungen der Signalplus-Rausch-Energie und der Rauschenergie in jedem einzelnen Kanal; und

- Mittel (310, 810) zur Erzeugung eines Verstärkungswerts für jeden einzelnen Kanal in Reaktion auf diese Kanalenergieabschätzungen; wobei das System (800) dadurch gekennzeichnet ist, daß:

- diese Verstärkungswerte für jeden Kanal einen minimalen Verstärkungswert haben;

- diese Mittel (310, 810) zur Erzeugung eines Verstärkungswerts Schwellenwertmittel enthalten, die gestatten, daß Verstärkungswerte oberhalb dieses minimalen Verstärkungswerts nur erzeugt werden, wenn diese Signal-plus- Rausch-Energieabschätzungen diese Rauschenergieabschätzungen um einen vorbestimmten Betrag überschreiten; und

- Mittel zur Modifizierung der Verstärkung jedes aus der Vielzahl vorverarbeiteter Signale in Reaktion auf diese Verstärkungswerte, um eine Vielzahl nachverarbeiteter Signale bereitzustellen.

2. Rauschunterdrückungssystem nach Anspruch 1, wobei diese Mittel (310; 810) zur Erzeugung eines Verstärkungswerts auf der Grundlage des Signal-Rausch-Abstands (SNR) dieser Kanalenergieabschätzungen Verstärkungswerte erzeugt und wobei diese SNR-Abschätzungen mit einem vordefinierten SNR-Schwellenwert verglichen werden, so daß Kanäle, die SNR-Abschätzungen unter diesem SNR-Schwellenwert haben, minimale Verstärkungswerte erzeugen.

3. Rauschunterdrückungssystem nach Anspruch 2, wobei dieser vordefinierte SNR-Schwellenwert einem SNR-Wert innerhalb des Bereichs von 1,5 dB bis 5 dB SNR entspricht.

4. Rauschunterdrückungssystem nach Anspruch 3, wobei dieser vordefinierte SNR-Schwellenwert einem SNR-Wert von ungefähr 2,25 dB SNR entspricht.

5. Rauschunterdrückungssystem nach einem der vorhergehenden Ansprüche, wobei diese verstärkungsmodifizierenden Mittel einen maximalen Betrag der Dämpfung des vorverarbeiteten Signals in einem bestimmten Kanal, der einen minimalen Verstärkungswert hat, gewährleisten.

6. Rauschunterdrückungssystem nach einem der vorhergehenden Ansprüche, wobei die Verstärkungswerte einen größeren Betrag der Dämpfung für Kanäle mit hohen Frequenzen als für Kanäle mit niedrigen Frequenzen erzeugen.

7. Rauschunterdrückungssystem nach einem der vorhergehenden Ansprüche, wobei diese Mittel (310, 810) zur Erzeugung eines Verstärkungswerts weiter eine Vielzahl von Verstärkungstabellen enthalten, wobei jede Verstärkungstabelle vorbestimmte einzelne Kanalverstärkungswerte entsprechend dieser einzelnen Kanalenergieabschätzungen hat, und wobei Verstärkungstabellenauswahlmittel zur automatischen Auswahl einer Verstärkungstabelle aus dieser Vielzahl von Verstärkungstabellen als eine Funktion des gesamtdurchschnittlichen Hintergrundrauschpegels dieses Eingangssignals vorhanden sind.

8. Rauschunterdrückungssystem nach einem der vorhergehenden Ansprüche, das weiter Mittel zur Kombinierung dieser Vielzahl nachverarbeiteter Signale enthält, um dieses rauschunterdrückte Ausgangssignal zu erzeugen.

9. Rauschunterdrückungssystem nach einem der vorhergehenden Ansprüche, wobei diese Mittel (220) zur Erzeugung der Abschätzungen enthalten:

- Mittel zur Erzeugung und Speicherung einer Abschätzung der Hintergrundrauschleistungsspektraldichte dieser vorverarbeiteten Signale, wobei diese hintergrundrauschabschätzungserzeugenden Mittel Mittel zur Modifizierung dieser Hintergrundrauschabschätzung in Reaktion auf einen Zeitparameter enthalten, der eine Anzeige des Zeitintervalls seit der vorherigen Hintergrundrauschabschätzungsmodifikation ist; und

- Mittel zur Erzeugung einer Abschätzung des Signal- Rausch-Abstands (SNR) in jedem einzelnen Kanal auf der Grundlage dieser modifizierten Hintergrundrauschabschätzungen;

wobei diese Mittel (310, 810) zur Erzeugung eines Verstärkungswerts für jeden einzelnen Kanal jeden Verstärkungswert in Reaktion auf diese Kanal-SNR-Abschätzungen erzeugen.

10. Rauschunterdrückungssystem nach Anspruch 9, wobei diese hintergrundrauschabschätzungsmodifizierenden Mittel Mittel zur Erzeugung dieses Zeitparameters und Mittel zum Vergleich dieses Zeitparameters mit einem vorbestimmten Zeitgeberschwellenwert enthalten, so daß eine Hintergrundrauschabschätzungsmodifikation durchgeführt wird, wenn dieser Zeitparameter diesen Zeitgeberschwellenwert überschreitet.

11. Rauschunterdrückungssystem nach Anspruch 10, wobei diese hintergrundrauschabschätzungsmodifizierenden Mittel weiter Mittel zur Erzeugung einer Abschätzung der Energie in jedem einzelnen Kanal und Mittel zur Erzeugung eines Mehrkanalenergieparameters in Reaktion auf den Gesamtwert aller einzelnen Kanalenergleabschätzungen enthalten.

12. Rauschunterdrückungssystem nach Anspruch 11, wobei diese mehrkanalenergieparametererzeugenden Mittel sich geringen Veränderungen der einzelnen Kanalenergieabschätzungen anpassen, so daß diese geringen Veränderungen diesen Mehrkanalenergieparameter nicht wesentlich beeinflussen.

13. Rauschunterdrückungssystem nach Anspruch 11 oder 12, wobei diese hintergrundrauschabschätzungsmodifizierenden Mittel weiter Mittel zum Vergleich dieses Mehrkanalenergieparameters mit einem Vorbestimmten Energieschwellenwert enthalten, so daß eine Hintergrundrauschabschätzungsmodifikation durchgeführt wird, wenn dieser Mehrkanalenergieparameter kleiner als dieser Energieschwellenwert ist.

14. Rauschunterdrückungssystem nach Anspruch 13, wobei diese hintergrundrauschabschätzungsmodifizierenden Mittel diese Hintergrundrauschabschätzungen in Reaktion auf diesen Zeitparameter modifizieren, ungeachtet dieses Mehrkanalenergieparameters.

15. Rauschunterdrückungssystem nach einem der Ansprüche 11 bis 14, wobei dieser Mehrkanalenergieparameter dadurch erzeugt wird, daß diese einzelnen Kanal-SNR-Abschätzungen die einzelnen Kanalsprachmaße übersetzen, wobei die Sprachmaßsumme eine Messung der gesamten sprachähnlichen Charakteristiken der Energie in allen Kanälen ist.

16. Rauschunterdrückungssystem nach einem der vorhergehenden Ansprüche, weiter umfassend:

- Mittel (815, 820, 830) zur Überwachung dieser Kanalenergieabschätzungen und zur Unterscheidung der Schmalbandrauschbündel von Sprachenergie und Hintergrundrauschenergie, wodurch ein Modifikationssignal (835) erzeugt wird;

- Mittel (590) zur selektiven Modifizierung dieser Kanalenergieabschätzungen in Reaktion auf dieses Modifikationssignal (835), so daß Kanalenergleabschätzungen, die Schmalbandrauschbündel darstellen, modifiziert werden;

- Mittel zur Erzeugung eines Verstärkungswerts für jeden einzelnen Kanal in Reaktion auf jede modifizierte Kanalenergieabschätzung; und

- Mittel zur Modifizierung der Verstärkung jedes aus dieser Vielzahl vorverarbeiteter Signale in Reaktion auf diese Verstärkungswerte, um eine Vielzahl nachverarbeiteter Signale bereitzustellen.

17. Rauschunterdrückungssystem nach Anspruch 16, wobei dieses Modifikationssignal eine Anzeige der Gesamtanzahl der einzelnen Kanäle ist, die Energieabschätzungen haben, die einen vorbestimmten Energieschwellenwert überschreiten.

18. Rauschunterdrückungssystem nach Anspruch 16 oder 17, wobei diese kanalenergieabschätzungsmodifizierenden Mittel Mittel (830) zum Vergleich dieses Modifikationssignals mit einem vorbestimmten Zählerschwellenwert enthalten, so daß eine Kanalenergieabschätzungsmodifikation durchgeführt wird, wenn diese Gesamtanzahl der einzelnen Kanäle kleiner als dieser Zählerschwellenwert ist.

19. Rauschunterdrückungssystem nach Anspruch 16, 17 oder 18, wobei diese verstärkungsmodifizierenden Mittel einen maximalen Betrag der Dämpfung des vorverarbeiteten Signals in einem bestimmten Kanal, der eine modifizierte Kanalenergieabschätzung hat, gewährleisten.

20. Verfahren zur Dämpfung des Hintergrundrauschens eines verrauschten Eingangssignals (205), um in einem Rauschunterdrückungssystem (800) ein rauschunterdrücktes Ausgangssignal (265) zu erzeugen, wobei das Verfahren die folgenden Schritte umfaßt:

- Aufteilung (850) des Eingangssignals in eine Vielzahl vorverarbeiteter Signale, die durch eine Anzahl von N ausgewählten Frequenzkanälen dargestellt werden;

- Erzeugung einer Abschätzung der Energie in jedem einzelnen Kanal (853);

- Erzeugung und Speicherung einer Abschätzung der Hintergrundrauschleistungsspektraldichte dieser vorverarbeiteten Signale; und

- Erzeugung einer Abschätzung des Signal-Rausch- Abstands (SNR) in jedem einzelnen Kanal auf der Grundlage dieser Hintergrundrauschabschätzungen und dieser Kanalenergieabschätzungen;

wobei das Verfahren durch die folgenden Schritte gekennzeichnet ist:

- Erzeugung (861, 862) eines Verstärkungswerts für jeden einzelnen Kanal in Reaktion auf diese Kanal- SNR-Abschätzungen, wobei diese Verstärkungswerte einen Bereich minimaler Werte haben;

und wobei dieser verstärkungswerterzeugende Schritt die folgenden Schritte enthält:

- Bereitstellung eines vordefinierten SNR-Schwellenwerts und Vergleich (902) dieser Kanal-SNR-Abschätzungen mit diesem vordefinierten SNR-Schwellenwert, so daß Kanäle, die SNR-Abschätzungen unter diesem SNR-Schwellenwert haben, Verstärkungswerte innerhalb dieses minimalen Bereichs erzeugen; und

- Modifizierung (910) der Verstärkung jedes aus dieser Vielzahl vorverarbeiteter Signale in Reaktion auf diese Verstärkungswerte, um eine Vielzahl nachverarbeiteter Signale bereitzustellen.