-
Gebiet der
Erfindung
-
Die
vorliegende Erfindung bezieht sich auf Kommunikationssysteme und
genauer gesagt auf das adaptive Filtern von Audiosignalen in Kommunikationssystemen.
-
Hintergrund
der Erfindung
-
In
heutigen Kommunikationssystemen überwiegen
adaptive Filteranordnungen. Solche Anordnungen werden typischerweise
verwendet, um unerwünschte
Signalkomponenten zu reduzieren oder zu entfernen und/oder gewünschte Signalkomponenten zu
kontrollieren oder zu verstärken.
-
Ein übliches
Beispiel einer solchen Filteranordnung bezieht sich auf Freisprechtelefone,
bei denen ein eingebauter Kopfhörer
und ein Mikrofon eines konventionellen Telefonhörers durch einen externen Lautsprecher
bzw. ein externes Mikrofon ersetzt sind, so dass der Telefonbenutzer
kommunizieren kann, ohne die Telefoneinheit physisch in der Hand zu
halten. Da aus dem externen Lautsprecher dringendes Geräusch vom
externen Mikrofon aufgenommen werden kann, wird üblicherweise eine adaptive Filterung
durchgeführt,
um zu verhindern, dass die Lautsprecherausgabe zurück echot
und den entfernten Verwender am anderen Ende der Konversation stört. Diese
Art adaptiver Filterung oder Echo-Unterdrückung ist ein grundlegendes
Merkmal von Vollduplex-Freisprech-Kommunikationsvorrichtungen von heute
geworden.
-
EP 0,708,536 offenbart einen
bekannten Echo-Unterdrücker
zum Trainieren einer Echo-Pfadabschätzung ohne für Sprache
ein Hindernis darzustellen.
-
Typischerweise
wird eine Echo-Unterdrückung
erzielt, indem das Lautsprechersignal durch einen adaptiven Finite
Impulse Reaktions (FIR)-Filter geleitet wird, der den akustischen
Echopfad zwischen dem Freisprech-Lautsprecher und dem Freisprech-Mikrofon
annähert
oder modelliert (z. B. ein Passagier-Innenraum bei einer Automobil-Freisprech-Telefonanwendung).
Der FIR-Filter stellt daher eine Echoabschätzung bereit, die von dem Mikrofon-Ausgangssignal
vor der Übertragung
an den entfernten Nutzer beseitigt werden kann. Die Filterungs-Charakteristik
(das heißt,
der Satz von FIR-Koeffizienten) des adaptiven FIR-Filters wird dynamisch und
kontinuierlich eingestellt, basierend sowohl auf der Lautsprechereingabe
als auch der echo-unterdrückten
Mikrofonausgabe, um eine enge Annäherung an den Echopfad bereitzustellen
und Änderungen
im Echopfad zu verfolgen (z. B. wenn ein hiesiger Nutzer eines Automobil-Freisprech-Telefons innerhalb
des Passagierraums seine Position verschiebt).
-
Die
Einstellung der Filter-Charakteristik wird üblicherweise unter Verwendung
einer Art des wohlbekannten Adaptions-Algorithmus des kleinsten mittleren
Quadrats (LMS, Least Mean Square) erreicht, der von Widrow und Hoff
1960 entwickelt worden ist. Der LMS-Algorithmus ist das kleinste
quadratisch stochastische Gradienten-Schrittverfahren, welches, da
es sowohl effizient als auch robust ist, oft in vielen Echtzeitanwendungen
verwendet wird. Der LMS-Algorithmus und seine bekannten Variationen
(z. B. der normalisierte LMS oder NLMS-Algorithmus) haben jedoch
gewisse Nachteile. Beispielsweise kann der LMS-Algorithmus manchmal
etwas langsam beim Konvergieren (das heißt beim Annähern der Ziel-Filter-Charakteristik,
wie etwa dem akustischen Echopfad in einer Freisprech-Telefonanwendung) sein,
insbesondere wenn der Algorithmus basierend auf nicht-weißem oder
getöntem
Eingangssignal adaptiert oder trainiert wird.
-
Eine
langsame LMS-Adaptation ist ein besonderes Problem beim Freisprech-Telefonkontext, insoweit
als das Trainingssignal (das heißt das Lautsprechersignal)
menschliche Sprache enthält,
die nur einen relativ kleinen Teil des gesamten möglichen
Signalraums anregt und die langsam abnehmende Autokorrelations-Eigenschaften
aufweist, insbesondere in Bezug auf stimmhafte (das heißt Vokal-)
Geräusche.
Darüber
hinaus kann der Nah-End-Hintergrundlärm (z. B. Automobil-Innenraum und Straßengeräusch) den
LMS-Adaptionsprozess stören
und weiter verlangsamen. Folglich gibt es einen Bedarf an verbesserten
adaptiven Filterungstechniken bei der Freisprech-Telefonie und bei
anderen Kontexten.
-
Zusammenfassung
der Erfindung
-
Die
vorliegende Erfindung erfüllt
die oben beschriebenen und anderen Notwendigkeiten durch Bereitstellen
von schnell konvergierenden adaptiven Filter-Algorithmen. Gemäß exemplarischen
Ausführungsformen
wird die Konvergenz-Geschwindigkeit eines
konventionellen adaptiven Algorithmus durch Kombinieren eines adaptionsverstärkenden
Signals mit einem konventionellen Algorithmen-Trainingssignal verbessert,
um ein verstärktes
oder optimiertes Trainingssignal bereitzustellen. Das adaptionsverstärkende Signal
wird so ausgewählt,
dass es Eigenschaften (z. B. spektrale Weißheit und rasch abnehmender
Autokorrelation zwischen Proben) aufweist, die dem Adaptions-Algorithmus
gestatten, rascher zu konvergieren. Vorteilhafterweise kann das
adaptionsverstärkende
Signal mit dem konventionellen Trainingssignal so kombiniert werden,
dass das verbesserte Trainingssignal nicht wahrnehmbar anders als das
konventionelle Trainingssignal ist. Beispielsweise kann im Freisprech-Telefonkontext
das adaptionsverbessernde Signal so maßgeschneidert werden, dass
es vom Lautsprechersignal (das heißt dem konventionellen Trainingssignal)
maskiert ist und somit für
den Telefonnutzer unhörbar
ist.
-
Eine
beispielhafte Signalverarbeitungsvorrichtung gemäß der Erfindung beinhaltet
einen adaptiven Filter, der dafür
konfiguriert ist, ein Eingangssignal zu filtern und dadurch ein
gefiltertes Ausgangssignal bereitzustellen, wobei eine Filtereigenschaft des
adaptiven Filters dynamisch, basierend auf dem gefilterten Ausgabesignal
und auf einem Trainingssignal, justiert wird. Die beispielhafte
Signalverarbeitungsvorrichtung enthält auch einen Adaptionsverstärkungs-Prozessor,
der ein adaptionsverstärkendes
Signal mit einem Referenzsignal kombiniert, um das Trainingssignal
bereitzustellen, wobei das adaptionsverstärkende Signal basierend auf
dem Referenzsignal dynamisch eingestellt wird. Vorteilhafterweise
kann das adaptionsverstärkende
Signal eine unhörbare
Komponente des Trainingssignals sein, die vom Referenzsignal maskiert
ist. Beispielsweise kann das adaptionsverstärkende Signal durch Filtern einer
weißen
Pseudo-Rauschen-Sequenz oder einer reproduzierbaren Maximallängen-Sequenz
unter Verwendung der Frequenzmaske des Referenzsignals erzeugt werden.
Alternativ kann das adaptionsverstärkende Signal erzeugt werden,
indem zuerst Audiocodierung und dann Audiodecodierung des Referenzsignales
durchgeführt
wird.
-
Ein
beispielhaftes Verfahren gemäß der Erfindung
beinhaltet die Schritte des Berechnens einer Frequenzmaske eines
Referenzsignals; Berechnens eines adaptionsverstärkenden Signals basierend auf der
Frequenzmaske des Referenzsignals; Berechnens eines Trainingssignals
basierend auf dem Referenzsignal und dem adaptionsverstärkenden
Signal; und Einstellens einer Filter-Charakteristik des adaptiven
Filters, basierend auf dem Trainingssignal. Wie oben kann das adaptionsverstärkende Signal
eine unhörbare
Komponente des Trainingssignals sein, die vom Referenzsignal maskiert
ist. Beispielsweise kann der Schritt des Berechnens des adaptionsverstärkenden
Signals den Schritt des Filterns einer weißen Pseudo-Rausch-Sequenz oder
einer Maximallängen-Sequenz
unter Verwendung der Frequenzmaske des Referenzsignals beinhalten.
Alternativ kann der Schritt des Berechnens des adaptionsverstärkenden
Signales den Schritt der Audiocodierung des Referenzsignals und
dann der Audiodecodierung des Referenzsignals beinhalten.
-
Die
oben beschriebenen und anderen Merkmale und Vorteile der Erfindung
werden nachstehend detailliert und unter Bezugnahme auf die illustrativen Beispiele,
die in den beigefügten
Zeichnungen gezeigt werden, erläutert.
Fachleute werden erkennen, dass die beschriebenen Ausführungsformen
für illustrative
Zwecke und zum Verständnis
bereitgestellt werden und dass verschiedene äquivalente Ausführungsformen
hier erwogen werden.
-
Kurze Beschreibung
der Zeichnungen
-
1 ist
ein Blockdiagramm eines beispielhaften Freisprech-Telefonsystems,
in dem adaptionsverstärkende
Techniken der Erfindung implementiert sind.
-
2 ist
ein Spektralplot, der eine beispielhafte sofortige Frequenzmaske
entsprechend einem einzelnen hörbaren
Ton darstellt.
-
3 ist
ein Blockdiagramm eines beispielhaften Adaptionsverstärkungs-Prozessors
gemäß der Erfindung.
-
4 ist
ein Blockdiagramm eines alternativen Adaptionsverstärkungs-Prozessors
gemäß der Erfindung.
-
Detaillierte
Beschreibung der Erfindung
-
1 zeigt
ein beispielhaftes Freisprech-Telefonsystem 100, das Adaptionsverstärkungstechniken
gemäß der Erfindung beinhaltet.
Wie gezeigt, beinhaltet das beispielhafte System 100 ein
Mikrofon 110, einen Lautsprecher 120, eine Summiervorrichtung 130,
einen finiten Impuls-Reaktions (FIR)-Filter 140, einen Kleinste-mittlere-Quadrate
(LMS)-Kreuzkorrelator 150 und
einen Adaptionsverstärkungs-Prozessor 160.
Fachleute werden erkennen, dass die unten beschriebene Funktionalität der in 1 dargestellten
Komponenten unter Verwendung bekannter digitaler Signalverarbeitungs-Hardware
und/oder eines Universal-Digital-Computers implementiert werden
kann. Fachleute werden auch erkennen, dass in der Praxis das beispielhafte
System 100 Komponenten (z. B. einen Analog/Digital-Wandler am
Ausgang des Mikrofons 110 und einen Digital/Analog-Wandler
am Eingang des Lautsprechers 120) beinhaltet, die in 1 weggelassen
sind, da sie für
ein Verständnis
der vorliegenden Erfindung nicht kritisch sind.
-
Im
Betrieb wird ein entferntes Audiosignal einschließlich der
Sprache eines entfernten Anwenders (nicht gezeigt) am Lautsprecher 120 für die Präsentation
an den Nah-End-Anwender (ebenfalls nicht gezeigt) eingegeben. Die
Lautsprecherausgabe wird dann über
einen unbekannten und sich manchmal ändernden Echopfad zurück zum Mikrofon 110 geechot,
wie durch die variable Übertragungsfunktion H(z)
in 1 angezeigt ist. Somit beinhaltet die Audioausgabe
aus dem Mikrofon 110 das Lautsprecher-Echo, wie auch die
Nah-End-Anwendersprache und Nah-End-Hintergrundgeräusche. Um
zu verhindern, dass das Lautsprecher-Echo den entfernten Anwender
erreicht und stört,
filtert der FIR-Filter 140 das Lautsprechersignal, um eine
Abschätzung
des am Mikrofon 110 empfangenen Lautsprecher-Echos bereitzustellen
und die resultierende Echo-Abschätzung
wird von der Mikrofonausgabe über
die Summiervorrichtung 130 subtrahiert. Die echo-unterdrückte Ausgabe
aus der Summiervorrichtung 130 wird dann an den entfernten
Anwender übertragen und
zum LMS-Kreuzkorrelator 150 zur Verwendung beim Adaptieren
der Filter-Koeffizienten oder Abgriffe des FIR-Filters 140 zurückgekoppelt,
so dass sie zum echten Echopfad H(z) konvergieren und ihm folgen.
Wie im Stand der Technik bekannt, berechnet der LMS-Kreuzkorrelator 150 Filter-Koeffizienten-Aktualisierungen
basierend sowohl auf der echo-unterdrückten Ausgabe, oder dem Fehlersignal,
als auch dem Lautsprecher-Eingangs- oder -Trainingssignal.
-
Bei
konventionellen Systemen wird das entfernte Audiosignal direkt zum
Lautsprecher zur Präsentation
an dem Nah-End-Anwender
gereicht und eine digitalisierte Version des entfernten Audiosignals
wird direkt als Trainings- oder Referenzsignal zum Entwickeln der
Echoabschätzung
verwendet (das heißt
das digitale entfernte Audio wird direkt sowohl am FIR-Filter 140 als
auch dem LMS-Kreuzkorrelator 150 eingegeben). Folglich
können
die Filter-Koeffizienten des FIR-Filters 140 langsam damit sein,
zum wahren Echopfad H(z) zu konvergieren und ihm zu folgen, wie
oben beschrieben. Mit anderen Worten ist, da die Sprache des entfernten
Anwenders typischerweise langsam abnehmende Autokorrelations-Eigenschaften aufweist
und nur einen relativ kleinen Teil des gesamten möglichen
Signalraums anregt, das entfernte Audiosignal nicht ideal zur Verwendung
beim Trainieren eines LMS-basierten Algorithmus.
-
Gemäß der vorliegenden
Erfindung wird jedoch das entfernte Audiosignal nicht direkt als
ein Trainingssignal für
den LMS-Prozess
verwendet. Stattdessen verwendet der adaptionsverstärkende Prozessor 160 das
entfernte Audiosignal als eine Referenz beim Entwickeln eines adaptionsverstärkenden
Signals (das heißt
eines Signals, welches Eigenschaften aufweist, die zum Trainieren
eines adaptiven Algorithmus geeigneter sind), das mit dem entfernten
Audio-Referenzsignal kombiniert wird, um ein optimales, adaptionsverstärkendes
Trainingssignal bereitzustellen. Vorteilhafterweise können Unterschiede
zwischen dem optimierten Trainingssignal und dem entfernten Audio-Referenzsignal
(das heißt dem
konventionellen Trainingssignal) für das menschliche Ohr unwahrnehmbar
gemacht werden. Genauer gesagt, kann das Adaptionsverstärkungssggnal
so maßgeschneidert
werden, dass es vom entfernten Audiosignal maskiert wird und somit für den Nah-End-Anwender
unhörbar
ist. Als Ergebnis wird eine Adaptionsverstärkung erzielt, ohne die Systemleistung
aus der Sicht des Nah-End-Anwenders zu beeinträchtigen.
-
Um
das Adaptionsverstärkungssginal
für den Nah-End-Anwender,
der einem entfernten Audiosignal zuhört, unwahrnehmbar zu machen,
werden bekannte Maskierungseigenschaften des menschlichen Hör-Mechanismus
eingesetzt. Speziell wird eine dynamische Frequenzmaske des entfernten
Audiosignals in Echtzeit berechnet und das Adaptionsverstärkungssginal
wird dynamisch übereinstimmend
mit der Frequenzmaske eingestellt, so dass das Adaptionsverstärkungssginal
unhörbar
bleibt. Anders ausgedrückt,
wird das Adaptionsverstärkungssginal
kontinuierlich maßgeschneidert,
so dass es effektiv durch das entfernte Audiosignal verborgen wird.
-
Das
Maskieren eines Signals durch ein anderes ist in 2 dargestellt.
In der Figur ist eine verzögerungsfreie
Frequenzmaske 210 eines Einzeltons 230 gezeigt.
Die verzögerungsfreie
Frequenzmaske 210 definiert einen verzögerungsfreie Bereich 220,
der vom Einzelton 230 maskiert (das heißt unhörbar gemacht) ist. Mit anderen
Worten kann kein Signal, das einen Spektralinhalt vollständig innerhalb des
Bereichs 220 aufweist, von einem dem Ton 230 zuhörenden menschlichen
Ohr wahrgenommen werden. In der Praxis wird die Frequenzmaske eines
Audiosignals dynamisch und kontinuierlich verändert, und Fachleute werden
erkennen, dass die verzögerungsfreie
Maske 210 nur für
einen festen Zeitpunkt gilt.
-
Die
Maskiereigenschaften des menschlichen Hör-Mechanismusses werden beispielsweise
in Zwicker and Fastl, "Psychoacoustics,
Facts and Models",
Springer, Heidelberg, 1990 beschrieben. Zusätzlich sind Algorithmen zum
dynamischen Berechnen der Frequenzmaske eines Audiosignals in Echtzeit
im Detail in den Spezifikationen beschrieben, die von der bekannten
Moving Pictures Experts Group (MPEG) herausgegeben werden. Man siehe
beispielsweise K. Brandenburg und Marini Bosi, "Overview of MPEG-Audio: Current und
future standards for low bit-rate audio coding", 99. AES, New York, 6.-9. Oktober 1995,
Vorabdruck #4130 (29 Seiten) und Nikil Jayant, James Johnston und
Robert Safranek, "Signal
Compression Based on Models of Human Perception", Proceedings of the IEEE, Oktober 1993,
Band 81, Nummer 10, Seiten 1385-1421, die alle unter Bezugnahme
hier inkorporiert sind.
-
Solche
Algorithmen werden beispielsweise bei MPEG-Audiocodierern verwendet, um die Bit-Rate
zu reduzieren, die benötigt
wird, um ein interessierendes Signal zu repräsentieren. Mit anderen Worten werden
die Frequenzmasken-Algorithmen
verwendet, um zu bestimmen, welche Anteile eines Signals entfernt
werden können,
ohne das Signal hörbar
zu stören.
Im Gegensatz dazu werden dynamische Frequenzmasken-Algorithmen im Kontext
der vorliegenden Erfindung verwendet, um eine Frequenzverteilung
des Adaptionsverstärkungssginals
zu etablieren. Anders ausgedrückt
wird, bei gegebener dynamischer Frequenzmaske des entfernten Audiosignals,
das Adaptionsverstärkungssginal
in Echtzeit so konstruiert, dass es einen Spektralinhalt aufweist, der
vollständig
innerhalb des unhörbaren
Bereichs liegt (das heißt
innerhalb des Bereichs, der vom entfernten Audiosignal maskiert
wird). Beispielsweise kann das Adaptionsverstärkungssginal so eingestellt werden,
dass es eine Spektralverteilung aufweist, die sich der der dynamisch
berechneten Frequenzmaske annähert.
-
Die
Erzeugung des Adaptionsverstärkungssginals
anhand der Frequenzmaske des entfernten Audiosignals kann in einer
Reihe von Weisen bewerkstelligt werden. Beispielsweise kann ein
Modellsignal mit Eigenschaften, die eine rasche adaptive Algorithmus-Konvergenz
(z. B. spektrale Weißheit und
rasches Abklingen oder nichtexistierende Autokorrelation zwischen Proben)
fördern,
unter Verwendung der entfernten Audio-Frequenzmaske gefiltert werden, um das
Adaptionsverstärkungssginal
bereitzustellen.
-
Beispielhafte
Modellsignale enthalten weiße Pesudo-Rausch(PN)-Signale
und reproduzierbare Maximallängen-Sequenz
(MLS)-Signale. Verfahren zum Erzeugen solcher Signale in Echtzeit
sind bekannt. Weißes
Rauschen und MLS-Signale werden oft beispielsweise beim Echtzeittesten
von Frequenz- und Raumreaktionen für High-Fidelity-Audio-Ausstattung
verwendet. Vorteilhafterweise, wenn das sich ergebende Adaptionsverstärkungssginal
mit dem entfernten Audiosignal kombiniert (z. B. dazu-addiert) wird,
veranlasst das resultierende optimierte Trainingssignal die Filterungseigenschaft
des FIR-Filters 140 dazu, rascher zu konvergieren, während der
Nah-End-Anwender sich nicht bewusst wird, dass das Adaptionsverstärkungssginal
vorhanden ist.
-
3 stellt
einen beispielhaften Prozessor 300 zum Erzeugen eines verbesserten
adaptiven Algorithmus-Trainingssignals in der oben beschriebenen
Art und Weise dar. Der beispielhafte Prozessor 300 kann
beispielsweise verwendet werden, um den Adaptionsverstärkungs-Prozessor 160 von 1 zu implementieren.
Wie gezeigt, beinhaltet der beispielhafte Prozessor 300 einen
Frequenzmasken-Berechnungsprozessor 310, einen Pseudo-Rauschen-Generator 320,
einen Frequenzmaskenfilter 330 und eine Summiervorrichtung 340.
Fachleute werden erkennen, dass die unten beschriebene Funktionalität der Komponenten
von 3 unter Verwendung jeglicher aus einer Vielzahl
von bekannten Hardware-Konfigurationen
implementiert werden kann, einschließlich standardmäßiger digitaler
Signalverarbeitungskomponenten, einem Universal-Computer und/oder
einer oder mehrerer applikations-spezifischer integrierter Schaltungen
(ASICs).
-
In 3 wird
ein Referenzsignal (z. B. ein entferntes Audiosignal) mit einem
Eingang des Frequenzmasken- Berechnungsprozessors 310 und
mit einem ersten additiven Eingang der Summiervorrichtung 340 gekoppelt.
Zusätzlich
wird ein Ausgang des Frequenzmasken-Berechnungsprozessors 310 mit einem
Kontrolleingang des Frequenzmaskenfilters 330 gekoppelt
und ein Ausgang des Pseudo-Rauschen-Generators 320 wird
mit einem Audioeingang des Frequenzmaskenfilters 330 gekoppelt.
Weiterhin wird ein Audioausgang des Frequenzmaskenfilters 330 mit
einem zweiten additiven Eingang der Summiervorrichtung 340 gekoppelt
und ein Ausgang der Summiervorrichtung 330 dient als adaptionsverstärkendes
Trainingssignal (z. B. zur Eingabe in den adaptiven Filter 140 und
den LMS-Kreuzkorrelator 150 von 1).
-
Im
Betrieb berechnet der Frequenzmasken-Berechnungsprozessor 310 die
dynamische Frequenzmaske des entfernten Audiosignals (z. B. einmal
für jeden
Block an Proben des entfernten Audiosignals). Wie oben beschrieben,
wird die Frequenzmaske unter Verwendung jeglichen geeigneten Algorithmusses
berechnet, wie etwa den in den oben inkorporierten MPEG-Dokumenten beschriebenen
Algorithmen. Die sich ergebende Frequenzmaske wird dann verwendet,
um die Filterübertragungsfunktion des
Frequenzmaskenfilters 330 zu aktualisieren.
-
Zum
gleichen Zeitpunkt stellt der Generator 320 ein Modellsignal
(z. B. eine Pseudo-Weiß-Rauschen-Sequenz
oder eine Maximallängen-Sequenz) dem
Audioeingang des Frequenzmaskenfilters 330 bereit und der
Filter 330 bearbeitet das Modellsignal, um ein gefiltertes
modelliertes Signal bereitzustellen, das dem entfernten Audiosignal
hinzugefügt
wird (über
die Summiervorrichtung 340), um das verbesserte adaptive
Algorithmen-Referenzsignal bereitzustellen. Wie oben beschrieben,
fördert
der addierte Signalinhalt die rasche Konvergenz des echo-unterdrückenden
adaptiven Filters (z. B. Filter 130 von 1)
und ist für
den Nah-End-Anwender unhörbar.
-
Fachleute
werden erkennen, dass die vom Frequenzmaskenfilter 330 durchgeführte Filterung entweder
in der Frequenz- oder in der Zeitdomäne ausgeführt werden kann. Bei Anwendungen,
bei denen eine Frequenzdomänenfilterung
(das heißt
Filterung durch Vektor-Multiplikation eines Satzes von Frequenzdomänen-Koeffizienten des
Filters 330 mit einer Frequenzdomänen-Repräsentation
eines Probenblocks des Modellsignals) bevorzugt wird, kann der Filter 330 aktualisiert
werden, indem periodisch (das heißt einmal für jeden Probenblock) die Spektralwerte,
die sich aus der Frequenzmaskenberechnung ergeben, direkt zum Filter 330 kopiert
werden. Alternativ kann bei Anwendungen, bei denen eine Zeitdomänenfilterung
(das heißt,
Filterung durch probenweise Konvolution von Proben des Modellsignals mit
Zeitdomänen-Koeffizienten
des Frequenzmaskenfilters 330) bevorzugt wird, der Filter 330 durch Umwandeln
der sich aus der Frequenzmaskenberechnung der Zeitdomäne (z. B.
unter Verwendung einer Inversen Fast Fourier Transformation oder IFFT)
ergebenden Spektralwerte und dann Kopieren der sich ergebenden Zeitdomänen-Koeffizienten zum Filter 300 aktualisiert
werden. Die Auswahl zwischen Zeitdomänen und Frequenzdomänenfilterung
ist eine Frage der Designauswahl.
-
4 stellt
ein alternatives System 400 zum Erzeugen des Adaptionsverstärkungssginals
anhand der Frequenzmaske des entfernten Audiosignals dar. Wie der
Prozessor 300 von 3 kann der
alternative Prozessor 400 beispielsweise verwendet werden, um
den Adaptionsverstärkungsprozessor 160 von 1 zu
implementieren. Wie gezeigt, beinhaltet der alternative Prozessor 400 einen
MPEG-Audio-Codierer 410 und einen MPEG-Audio-Decodierer 420. Fachleute
werden erkennen, dass die unten beschriebene Funktionalität der Komponenten
von 4 unter Verwendung jeglicher aus einer Vielzahl von
bekannten Hardware-Konfigurationen implementiert werden kann, einschließlich standardisierter
digitaler Signalverarbeitungs-Komponenten, einem Universal-Digital- Computer und/oder
einem oder mehreren applikationsspezifischen integrierten Schaltung (ASICs).
-
In 4 wird
ein Referenzsignal (z. B. das entfernte Audiosignal) mit einem Eingang
des Audio-Codierers 410 gekoppelt und ein Ausgang des Audio-Codierers 410 ist
mit einem Eingang des Audio-Decodierers 420 gekoppelt.
Ein Ausgang des Audio-Decodierers 420 dient als das adaptionsverstärkende Trainingssignal
(z. B. zur Eingabe an den adaptiven Filter 140 und den
LMS-Kreuzkorrelator 150 von 1).
-
Im
Betrieb codiert der Audio-Codierer 410 das entfernte Audiosignal
(z. B. unter Verwendung eines MPEG-Codierungs-Algorithmusses, wie in den oben inkorporierten
MPEG-Dokumenten
beschrieben) und der Audio-Decodierer 420 decodiert das
resultierende Signal unmittelbar (z. B. unter Verwendung eines komplementären MPEG-Decodier-Algorithmus,
wie in den oben inkorporierten MPEG-Artikeln beschrieben), um das
adaptionsverstärkende Referenzsignal
bereitzustellen. Da der MPEG-Audio-Codierer unhörbare Informationen im entfernten Audiosignal
unter Verwendung sehr weniger Bits codiert, wird die unhörbare Information
schwer quantisiert und es wird unhörbares Quantisierungs-Rauschen
nach Wunsch eingeführt.
Wie beim Prozessor 300 von 3 fördert der
im entfernten Audiosignal in 4 eingeführte Signalinhalt
rasche Konvergenz des echo-unterdrückenden adaptiven Filters (z.
B. Filter 130 von 1) und ist
für Nah-End-Anwender unhörbar.
-
Allgemein
stellt die vorliegende Erfindung Verfahren und Vorrichtungen zum
Verbessern der Konvergenzgeschwindigkeit eines adaptiven Filterungs-Algorithmus
bereit. Gemäß beispielhafter
Ausführungsformen
wird die Konvergenzgeschwindigkeit eines adaptiven Algorithmusses
durch Kombinieren eines adaptionsverstärkenden Signals mit einem konventionellen
Algorithmus-Trainingssignal verbessert, um ein verstärktes oder
optimiertes Trainingssignal bereitzustellen. Das adaptionsverstärkende Signal
ist so ausgelegt, dass es Eigenschaften (z. B. spektrale Weißheit und
rasch abklingende Autokorrelation zwischen Proben) aufweist, die
dem Adaptions-Algorithmus gestatten, rascher zu konvergieren. Vorteilhafterweise
kann das Adaptionsverstärkungssignal
mit dem konventionellen Trainingssignal so kombiniert werden, dass
das verstärkte
Trainingssignal nicht wahrnehmbar anders als das konventionelle Trainingssignal
ist. Beispielsweise kann im Freisprech-Telefonkontext das Adaptionsverstärkungssignal
so maßgeschneidert
werden, dass es vom Lautsprechersignal (das heißt dem konventionellen Trainingssignal)
maskiert und damit für
den Telefon-Anwender unhörbar
ist.
-
Fachleute
werden erkennen, dass die vorliegende Erfindung nicht auf die spezifischen
beispielhaften Ausführungsformen
beschränkt
ist, die hier aus illustrativen Gründen beschrieben worden sind, und
dass zahlreiche alternative Ausführungsformen ebenfalls
erwogen werden. Beispielsweise sind, obwohl die beispielhaften Ausführungsformen
in Bezug auf akustische Echo-Unterdrückung im Freisprech-Telefonie-Kontext
beschrieben worden sind, die offenbarten Adaptionsverstärkungstechniken gleichermaßen auf
alle adaptiven Filterungsanordnungen anwendbar (z. B. adaptive Geräuschunterdrückung und
Netzwerk-Echo-Unterdrückung).
Darüber
hinaus können
die offenbarten Maskierungstechniken beispielsweise ebenfalls verwendet
werden, um unhörbare
Daten hinter einem hörbaren,
interessierenden Signal zu übertragen,
wie etwa Sprache oder Musik. Der Umfang der Erfindung ist daher durch
die hier angehängten
Ansprüche
definiert, und nicht durch die vorstehende Beschreibung, und alle mit
der Bedeutung der Ansprüche
konsistenten Äquivalente
sollen hiervon erfasst sein.