-
GEBIET DER
ERFINDUNG
-
Die
Erfindung betrifft ein Netzelement und ein Verfahren zur Verbesserung
der Qualität
von digitalisierten Analogsignalen, die in einer parametrisierten,
codierten Form über
ein Digitalnetz übertragen werden.
-
HINTERGRUND
DER ERFINDUNG
-
Digitalnetze,
wie zum Beispiel paketbasierte IP-Netze (Internet Protocol) oder
TDM-basierte Netze (Time Division Multiplex), werden verwendet,
um nicht nur den Signalverkehr, sondern auch um digitalisierte Analogsignale,
insbesondere Audiosignale wie beispielsweise Sprach- und Videosignale,
zu übertragen.
-
Bevor
ein digitalisiertes Analogsignal von dem Digitalnetz übertragen
werden kann, muss eine Umwandlung des Signals von analog zu digital durchgeführt werden.
Ferner wird das Signal für
gewöhnlich
komprimiert, z.B. mit einem Verhältnis
von 8:1 oder von 4:1, um einen Low-Bit-Rate-Zugang zu dem Kernnetz
zu gestatten und für
Einsparungen von Kapazitäten
innerhalb des Kernnetzes selbst.
-
Wenn
zum Beispiel Sprachsignale zwischen zwei IP-Terminals übertragen
werden, werden die Sprachsignale von einem Codierer in dem Ausgangsterminal
umgewandelt und komprimiert, um parametrisierte, codierte, digitalisierte
Analogsignale zu bilden, und von einem Decodierer in dem Zielterminal
dekomprimiert und zurückumgewandelt,
und umgekehrt.
-
Die
Qualität
der dem Endnutzer an dem jeweiligen Ausgangsterminal dargebotenen
Sprache hängt
von einer Reihe von Faktoren ab.
-
Eine
erste Gruppe von Faktoren betrifft das Netz und umfasst Verzögerungen,
verlorene Pakete, usw., auf der Übertragungsstrecke.
-
Eine
zweite Gruppe von Faktoren betrifft das Terminal und umfasst die
Qualität
des Mikrofons, der Lautsprecher, des A/D-Umwandlers, der automatischen
Pegelregelung, des Echokompensators, des Rauschunterdrückers, usw.
Ein weiterer das Terminal betreffender Faktor sind die Umgebungseinflüsse des
Terminals, wie zum Beispiel Umgebungsgeräusche. Neben der unterschiedlichen
Güte der
verwendeten Leistungsmerkmale oder Dienste zur Verbesserung der
Sprache, kann es einigen Terminals sogar völlig an gewissen Leistungsmerkmalen
oder Diensten zur Verbesserung der Sprache fehlen, welche nützlich wären, um
die Zufriedenheit des Endnutzers zu erhöhen.
-
Eine
dritte Gruppe von Faktoren tritt auf, wenn bei einer Übertragung
mehrere Netze involviert sind, z.B. wenn ein IP-Terminal mit einem PSTN (Public Switched
Telephone Network) oder mit einem Mobilzugangnetz zusammenarbeitet.
In so einem Fall können
sich zusätzliche
Qualitätsverluste
aus dem Echo von PSTN-Hybriden oder von akustischem Rauschen von
mobilen Terminals usw. ergeben. IP-PSTN-Gateways werden verwendet,
um das Zusammenarbeiten zwischen dem IP-Netz und dem PSTN-Netz oder dem Mobilzugangnetz
zu ermöglichen.
Diese Gateways können
Leistungsmerkmale zur Verbesserung der Qualität der Sprache, die sie übertragen,
einschließen.
-
Einigen
Gateways fehlt es jedoch an wichtigen Leistungsmerkmalen zur Verbesserung
der Sprache.
-
Bei
Digitalnetzen wird für
gewöhnlich
nichts getan, um die terminal- oder die netzübergangsspezifischen Faktoren
auf der Netzseite zu kompensieren.
-
Für GSM-Netze
(Global System for Mobile communication) spezifiziert die ETSI (European
Telecommunication Standards Institution) TFO (Tandem Free Operation),
wie mehrfache Codierungen und Decodierungen, insbesondere an Gateways
und Verteilern, vermieden werden können. Bei der Befolgung des
TFO-Modells schließt
der übertragene TFO-Strom
parametrisierte, codierte Sprachsignale ein, die im Sprach-Parameter-Bereich
von einem Ende zum anderen gehen. Die Endpunkte können zwei
mobile oder ein mobiles und ein IP-Terminal über ein Gateway sein. Zwei
nur durch ein IP-Netz miteinander verbundene IP-Terminals involvieren von
Natur aus eine TFO. Die gleichen Prinzipien gelten auch für GPRS-Netze (General Packet
Radio Service) und für
Netze der dritten Generation, wo die Sprachsignale die ganze Strecke über in paketbasierten
Netzen verbleiben können.
Beispielhafte Strecken von dem Letztgenannten sind: MS-BS-RNC-SGSN-GGSN-IP-Terminal
oder MS-BS-PCU-SGSN-GGSN-IP-Terminal
(MS: Mobile Station; BS: Base Station; RNC: Radio Network Controller;
SGSN: Serving GPRS Support Node; GGSN: Gateway GPRS Support Node;
PCU: Packet Control Unit). Bis jedoch bei allen Netzen End-zu-End
TFO Verbindungen realisiert sind, müssen die Übergangsfaktoren, die die Qualität von übertragenen
digitalisierten Analogsignalen beeinflussen, immer noch berücksichtigt
werden. Die termialspezifischen Faktoren werden bei dem TFO-Ansatz
ohnehin nicht beeinflusst.
-
Insgesamt
würde es
vorteilhaft sein, wenn Digitalnetze Mittel zur Verbesserung der
Qualität
von digitalisierten Analogsignalen vorsehen würden. Mehrfache Codier- und
Decodiervorgänge
sollten aus Qualitätsgründen jedoch
vermieden werden.
-
Für paketbasierte
Netze führt
die ITU-T Spezifikation H.323 (07/2000) einen Multipoint Prozessor (MP)
ein, der für
Konferenzschaltungen verwendet wird. Der Multipoint Prozessor stellt
durch Verteilung und/oder Mischung aus M-Audio-Eingängen N-Audio-Ausgänge her.
Zum Mischen werden die Eingangs-Audio-Signale zu linearen Signalen
decodiert, auf die eine lineare Kombination angewendet wird. Das
sich daraus ergebende Signal wird wieder in das geeignete Audioformat
codiert. Es wird vorgeschlagen, dass der Multipoint Prozessor außerdem einige der
Eingangs-Signale beseitigt oder abschwächt, um das Rauschen und andere
unerwünschte
Signale zu reduzieren.
-
Das
bedeutet jedoch, dass ebenso ein zusätzlicher Decodier- und Codier-Schritt
eingeführt wird,
was der Qualität
des Audiosignals zuliebe und wegen einer geringen Verarbeitungsverzögerung vermieden
werden sollte, so wie bereits oben erwähnt.
-
Das
Dokument
EP 0 910 200
A1 bezieht sich auf eine Netzabschlusseinheit, die konfiguriert
ist, um Kommunikationssignale zu empfangen, die einem Datenkommunikationsnetz
zugeordnet sind, das in der Lage ist, die Dienstgüte zu variierten.
Die Netzabschlusseinheit umfasst mindestens ein Modul, das die empfangenen
Kommunikationssignale modifizieren kann, um so die Dienstgüte des Datenkommunikationsnetzes
auf einem Schwellenwert oder unterhalb eines Schwellenwertes zu
halten, unabhängig von
der Netzbelastung.
-
ZUSAMMENFASSUNG
DER ERFINDUNG
-
Ziel
der Erfindung ist die Bereitstellung eines Netzelementes und eines
Verfahrens, die eine zufrieden stellende Verbesserung der Qualität von digitalisierten
Analogsignalen gestattet, die auf Netzseite über ein Digitalnetz übertragen
werden.
-
Einerseits
wird dieses Ziel durch ein Netzelement zur Verbesserung der Qualität von digitalisierten
Analogsignalen, die mindestens in parametrisierter, codierter Form über ein
Digitalnetz übertragen werden,
zu dem das Netzelement Zugang hat, erreicht, wobei das Netzelement
umfasst: einen Nutzdaten-Extraktions-Block zur Extrahierung von
codierten, digitalisierten Analogsignalen von dem Digitalnetz, wobei
die codierten, digitalisierten Analogsignale zumindest teilweise
parametrisierte, codierte, digitalisierte Analogsignale einschließen; erste
Verarbeitungsmittel zur Verarbeitung der extrahierten, parametrisierten,
codierten, digitalisierten Analogsignale im Parameter-Bereich, mit
zur Verbesserung der Qualität
der digitalisierten Analogsignale geeigneten Funktionen; zweite
Verarbeitungsmittel zur Verarbeitung von zumindest einem Teil der
extrahierten, codierten, digitalisierten Analogsignale im linearen
Bereich, mit zur Verbesserung der Qualität der digitalisierten Analogsignale
geeigneten Funktionen; einen Nutzdaten-Einfüge-Block zur Einfügung der
verarbeiteten, codierten, digitalisierten Analogsignale in das Digitalnetz;
und Analyse- und Selektions-Mittel zur Bestimmung der Qualitätsverbesserung
der digitalisierten Analogsignale, die sich aus der Verarbeitung der
extrahierten, codierten, digitalisierten Analogsignale im Parameter-Bereich
und aus der Verarbeitung der extrahierten, codierten, digitalisierten
Analogsignale im linearen Bereich ergeben, und zur Bewirkung, dass
zumindest die codierten, digitalisierten Analogsignale, die von
den Verarbeitungsmitteln verarbeitet wurden, die zu einer besseren
Verbesserung führen,
von dem Nutzdaten-Einfüge-Block wieder in das
Digitalnetz eingefügt
werden.
-
Andererseits
wird der Gegenstand durch ein Verfahren zur Verbesserung der Qualität von digitalisierten
Analogsignalen, die mindestens in parametrisierter, codierter Form über ein
Digitalnetz übertragen
werden, erreicht, wobei das Verfahren umfasst:
- – Extrahierung
von codierten, digitalisierten Analogsignalen von dem Digitalnetz,
wobei die codierten, digitalisierten Analogsignale zumindest teilweise
parametrisierte, codierte, digitalisierte Analogsignale einschließen;
- – Bestimmung
der Qualitätsverbesserung
der digitalisierten Analogsignale, die von der Verarbeitung der
extrahierten, codierten, digitalisierten Analogsignale im Parameter-Bereich
und von der Verarbeitung der extrahierten, codierten, digitalisierten
Analogsignale im linearen Bereich erwartet wird;
- – Verarbeitung
der extrahierten, parametrisierten, codierten, digitalisierten Analogsignale
im Parameter-Bereich, zumindest dann, wenn eine höhere Qualitätsverbesserung
von der Verarbeitung im Parameter-Bereich erwartet wird, mit zur
Verbesserung der Qualität
der digitalisierten Analogsignale geeigneten Funktionen; und
- – Verarbeitung
von zumindest einem Teil der extrahierten, codierten, digitalisierten
Analogsignale im linearen Bereich, zumindest dann, wenn eine höhere Qualitätsverbesserung
von der Verarbeitung im linearen Bereich erwartet wird, mit zur Verbesserung
der Qualität
der digitalisierten Analogsignale geeigneten Funktionen; und – Einfügung zumindest
der verarbeiteten, codierten, digitalisierten Analogsignale in das
Digitalnetz, die in dem Bereich verarbeitet wurden, in welcher von der
Verarbeitung erwartet wurde, dass sie zu einer höheren Qualitätsverbesserung
führt.
-
Durch
die Einschließung
einer Möglichkeit zur
Verarbeitung der übertragenen,
codierten, digitalisierten Analogsignale nicht nur im linearen Bereich, sondern
auch im Parameter-Bereich,
ermöglichen das
Netzwerkelement und das Verfahren, die der Erfindung entsprechen,
eine optimale Verbesserung der Qualität von digitalisierten Analogsignalen
auf der Netzseite.
-
Die
Analyse- und Selektions-Mittel des Netzes der Erfindung bestimmen,
ob eine Verarbeitung entweder im linearen Bereich und/oder im Parameter-Bereich
verwendet werden sollte, indem analysiert wird, ob entweder die
Verarbeitung im linearen Bereich oder im Parameter-Bereich zu einer
besseren Qualitätsverbesserung
der digitalisierten Analogsignale führt. Ein entsprechender Schritt
wird bei dem Verfahren der Erfindung vorgesehen. Wenn zum Beispiel
die Parameter-Bereich-Verarbeitung
für die
Verbesserung der Signalqualität technisch
nicht ausführbar
ist, wird davon ausgegangen, dass die lineare Verarbeitung zu einer
besseren Qualitätsverbesserung
führt.
Wenn die Verarbeitung im Parameter-Bereich möglich ist, wird die erwartete
Qualitätsverbesserung
für beide
Arten der Verarbeitung bestimmt und die Auswahl wird auf einen Vergleich
der erwarteten Verbesserungen gestützt.
-
Im
Falle, dass von der Verarbeitung der extrahierten Signale im Parameter-Bereich
erwartet wird, dass sie zu einer besseren Verbesserung der Qualität des digitalisierten
Analogsignals führen,
werden zumindest die im Parameter-Bereich verarbeiteten Signale wieder
in das Netz eingefügt.
Im Falle, dass von der Verarbeitung der extrahierten Signale im
linearen Bereich erwartet wird, dass sie zu einer besseren Verbesserung
der Qualität
des digitalisierten Analogsignals führen, werden nur die im linearen Bereich
verarbeiteten Signale wieder in das Netz eingefügt.
-
Im
Falle, dass von der Verarbeitung im Parameter-Bereich erwartet wird,
dass sie zu besseren Ergebnissen führt, sollten nur die im linearen
Bereich verarbeiteten Signale ergänzend zu den im Parameter-Bereich
verarbeiteten Signalen in das Netz eingefügt werden, falls die Verarbeitung
im linearen Bereich zu einer höheren
Verarbeitungsverzögerung führt, wegen
der erforderlichen, zeitaufwändigen
Vor- und Nachbehandlungen. Auf diese Weise ist es möglich, auf
die nachteilige, zusätzliche,
vor der Verarbeitung der parametrisierten, codierten, digitalisierten Analogsignale
im linearen Bereich erforderliche, Decodierung und Codierung der
extrahierten Signale zu verzichten. Keine zusätzliche Decodierung und Codierung
der Signale bedeutet eine bessere Qualität der digitalisierten Analogsignale
und zugleich eine geringere Verarbeitungsverzögerung. Zum Beispiel erfordern über paketbasierte
Netze übertragene,
parametrisierte, codierte, digitalisierte Analogsignale, sowie die
in dem TFO-Strom in einem TDM-basierten Netz übertragenen, codierten, digitalisierten
Analogsignale, ein Decodieren vor, und ein Codieren nach der Verarbeitung
im linearen Bereich, wohingegen die in dem Pulscodemodulations-(PCM)Strom
in einem TDM-basierten Netz übertragenen,
codierten, digitalisierten Analogsignale für die lineare Verarbeitung
nur eine Umwandlung von A-Law oder μ-Law in die lineare Form und
umgekehrt erfordern.
-
Während die
wieder in das Netz einzufügenden
Signale gemäß der erwarteten
Qualitätsverbesserung
ausgewählt
werden, kann in jedem Fall in beiden Bereichen eine Verarbeitung
durchgeführt
werden, falls die verarbeiteten Signale zur Bestimmung, von welcher
Verarbeitung erwartet wird, dass sie zu einem besseren Ergebnis
führt,
zu evaluieren sind. Im Falle, dass nur die im Parameter-Bereich
verarbeiteten Signale wieder in das Netz einzufügen sind, kann diese Einfügung durchgeführt werden,
bevor die Verarbeitung im linearen Bereich abgeschlossen ist. Die
im linearen Bereich verarbeiteten Signale werden dann benutzt, sobald
sie zur Bestimmung der zukünftigen,
erwarteten Qualitätsverbesserungen durch
die lineare Verarbeitung bereit stehen.
-
Bevorzugte
Ausführungsformen
der Erfindungen werden aus den Unteransprüchen ersichtlich.
-
Die
Analyse- und Selektions-Mittel des Netzes der Erfindung kann seine
Entscheidung, ob eine Verarbeitung im Parameter-Bereich oder im linearen Bereich auszuführen ist,
auf eine Analyse der eingehenden Parameter-Bereich-Daten stützen, wie
zum Beispiel auf die Parameter für
Verstärkungen.
Alternativ oder ergänzend
kann es seine Entscheidung auf Messungen stützen, wie zum Beispiel des Sprachpegels,
des Signal-zu-Stör-Abstands
und des Vorhandenseins von Echos, die nach der Decodierung im linearen
Bereich durchgeführt
werden. Vorzugsweise erfolgen die Messungen und die Auswahl bevor
und nachdem die Eingangs-Daten im linearen Bereich und im Parameter-Bereich
verarbeitet wurden. Die Auswahl des Verarbeitungs-Bereichs kann dann
durch den Vergleich der Messungen mit festen Schwellenwerten erfolgen,
die entweder die Verarbeitung im linearen Bereich oder die im Parameter-Bereich nahe legen.
Die numerischen Werte der Schwellenwerte können abgeleitet werden aus
der Durchführung
von z.B. realen Hörtests
mit variierenden Test-Eingangs-Daten, die in beiden Bereichen verarbeitet
und bewertet werden.
-
Da
mehrere Faktoren die Auswahl des Verarbeitungs-Bereichs beeinflussen,
kann es schwierig sein, Schwellenwert-Modelle zu formulieren, die
unter allen Gesprächsbedingungen
zu der besten Auswahl führen.
Daher wird bei einer weiteren bevorzugten Ausführungsform ein auf einem neuronalen
Netz basierender Ansatz zur Auswahl des Verarbeitungs-Bereichs,
von der erwartet wird, dass sie die besseren Ergebnisse liefert,
verwendet. Eingehende Parameter-Bereich-Daten und Ergebnisse von
den Messungen nach der Decodierung können als Eingabe für das neuronale
Netz aus N Neuronen benutzt werden. Die Gewichte oder die Koeffizienten
für die Neuronen
können
abgeleitet werden, indem das Netz mit geeigneten Test-Daten und
mit Ergebnissen von realen Hörtests
trainiert wird.
-
Die
Verarbeitungsmittel zur Verarbeitung im Parameter- Bereich und die Verarbeitungsmittel
zur Verarbeitung im linearen Bereich können eine Vielzahl von Funktionen
einschließen.
Echokompensierung, Rauschminderung und Pegelregelung sind sowohl
für die
Verarbeitung im Parameter-Bereich
als auch im linearen Bereich mögliche
Funktionen. Außerdem
sind für
die Verarbeitung im Parameter-Bereich zumindest die Transcodierung
und die Sprachmischung als Conference Bridge mögliche Funktionen.
-
Für eine Verstärkungsregelung
im Parameter-Bereich können
zum Beispiel die Verstärkungs-Parameter
der extrahierten, parametrisierten, codierten, digitalisierten Analogsignale
mit einer gewünschten
Verstärkung
verglichen werden zur Bildung der entsprechenden neuen Verstärkungs-Parameter.
Die gewünschten
Verstärkungs-Parameter können voreingestellt
sein, von dem Nutzer eingegeben werden oder aus den empfangenen
Verstärkungs-Parametern
berechnet werden. Die neuen Verstärkungs-Parameter werden dann
in die extrahierten, parametrisierten, codierten, digitalisierten Analogsignale
eingefügt,
wodurch die ursprünglichen Verstärkungs-Parameter
ersetzt werden.
-
Um
bei der Verarbeitung im Parameter-Bereich eine Rauschminderung zu
erreichen, wird eine Verarbeitung im Zeitbereich oder im Frequenzbereich
durchgeführt,
vorzugsweise in beiden. Im Zeitbereich werden Rauschanteile und
Signalanteile mit einem niedrigen Pegel der extrahierten, parametrisierten,
codierten, digitalisierten Analogsignale abgeschwächt, und
die entsprechenden Verstärkungs-Parameter
werden in die extrahierten, parametrisierten, codierten, digitalisierten
Analogsignale eingefügt, wodurch
die ursprünglichen
Verstärkungs-Parameter ersetzt
werden. Im Frequenzbereich werden die Frequenzanteile des Rauschens
in den extrahierten, parametrisierten, codierten, digitalisierten
Analogsignalen, die ungefähr
die gleiche Energie wie die Rausch-Schätzung haben, abgeschwächt. Entsprechende
lineare Vorhersage-Parameter
werden dann in die extrahierten, parametrisierten, codierten, digitalisierten
Analogsignale eingefügt,
wodurch die ursprünglichen,
linearen Vorhersage-Parameter ersetzt werden.
-
Zur
Echounterdrückung
im Parameter-Bereich werden parametrisierte, codierte, digitalisierte Analogsignale
aus beiden Richtungen extrahiert. Die Signale können dann verglichen werden,
um Echos in den ersten parametrisierten, codierten, digitalisierten
Analogsignalen zu entdecken. Anteile des ersten parametrisierten,
codierten, digitalisierten Analogsignals werden durch Comfort-Noise-Anteile ersetzt, falls
in dem Anteil des ersten parametrisierten, codierten, digitalisierten
Analogsignals ein Echo festgestellt wurde. Das Echo-Signal kann
ebenso zunächst abgeschwächt werden
und dann wird das Rest-Echosignal
unterdrückt.
Es wird vorgeschlagen, eine Möglichkeit
zur Vorbeileitung der ersten parametrisierten, codierten, digitalisierten
Analogsignale ohne Echokompensierung einzuschließen, falls es in der entgegengesetzten
Richtung keine Signalaktivität
gibt, oder falls der Signalpegel der extrahierten, parametrisierten,
codierten, digitalisierten Analogsignale in der entgegengesetzten
Richtung unter einem Schwellenpegel liegt.
-
Bei
einer bevorzugten Ausführungsform
der Erfindung wird ein Bad-Frame-Handler-Block in dem Netzelement
eingeschlossen. Dieser Block kann mit dem Nutzdaten-Extraktions-Block
und mit den Verarbeitungsmitteln zur Entdeckung von fehlenden Frames,
z.B. anhand von RTP-Zahlen (Real Time Protocol), zusammenarbeiten
zur Regenerierung der fehlenden Frames, z.B. durch die Verwendung
von Interpolationstechniken oder durch das Kopieren von vorhergehenden
Frames, und zur Neuordnung von ungeordneten Frames innerhalb eines
Pufferfensters. Eine geeignete Stelle für den Bad-Frame-Handler-Block ist
unmittelbar hinter dem Nutzdaten-Extraktions-Block.
-
Bei
einer weiteren bevorzugten Ausführungsform
der Erfindung umfasst das Netzelement Analyse-Mittel zur Bestimmung,
ob auf die extrahierten, parametrisierten, codierten, digitalisierten
Analogsignale eine Verarbeitung anzuwenden ist, und zur Auswahl
der Funktionen, die auf die extrahierten, parametrisierten, codierten,
digitalisierten Analogsignale im Parameter-Bereich und/oder im linearen
Bereich anzuwenden sind. Diese Funktionen können in den Analyse- und Selektions-Mitteln
eingeschlossen werden, die zur Bestimmung der von einer Verarbeitung
im Parameter-Bereich
und von einer Verarbeitung im linearen Bereich erwarteten Qualitätsverbesserung
benutzt werden.
-
In
dem Fall, dass eine Verarbeitung für nicht erforderlich erachtet
wird, können
die codierten, digitalisierten Analogsignale ein Verarbeitungsmittel oder
beide Verarbeitungsmittel einfach passieren, ohne dass eine Verarbeitung
ausgeführt
wird.
-
Die
Auswahl kann von den Analyse-Mitteln eigenständig getroffen werden, indem
die empfangenen, codierten, digitalisierten Analogsignale analysiert
werden, und möglicherweise
indem bereits verarbeitete Signale analysiert werden. Alternativ
oder ergänzend
kann die Auswahl von einem externen Steuerungssignal abhängen. Selbst
wenn ein externes Steuerungssignal verwendet wird und dieses keine
auszuführende
Verarbeitung fordert, können
die Analyse-Mittel
die Qualität
der empfangenen, parametrisierten, codierten, digitalisierten Analogsignale evaluieren,
z.B. im Hinblick auf den Sprachpegel, das Vorhandensein von Echos,
den Signal-zu-Stör-Abstand,
und eine oder mehrere Verarbeitungsfunktionen auswählen. Das
externe Steuerungssignal kann bei dem Netzelement über einen
Steuerungs-Block in dem Netzelement eingehen, welcher dem spezifizierten
H.248-Protokoll entsprechen kann, und zeigt zum Beispiel an, dass
es bereits einen Echokompensator auf der Verbindung gibt, sodass
die empfangenen, parametrisierten, codierten, digitalisierten Analogsignale
ohne eine Echokompensierung durch die Verarbeitungsmittel weitergeleitet
werden können. Der
Steuerungsblock kann ebenso einen direkten Zugang zu den Verarbeitungsmitteln
haben, um selber die Verarbeitungsfunktionen, die ausgeführt werden
sollen, auszuwählen.
-
Die
Auswahl der am besten geeigneten Funktionen, die eingesetzt werden
sollen, ist ebenso ein bevorzugtes Merkmal des Verfahrens gemäß der Erfindung.
-
Das
involvierte Digitalnetz kann entweder ein paketbasiertes Netz, wie
zum Beispiel ein IP-, UDP-(User Datagram Protocol) oder RTP-(Real
Time Protocol)Netz, oder ein TDM-basiertes
Netz sein. Indes kann ebenso auf jedes andere Digitalnetz zugegriffen
werden, das parametrisierte, codierte, digitalisierte Analogsignale überträgt. Wenn
in dieser Beschreibung auf ein IP-Netz Bezug genommen wird, schließt dies
jedes IP-, UDP- oder RTP-Netz ein.
-
In
einem paketbasierten Netz werden die digitalisierten Analogsignale
nur als parametrisierte, codierte, digitalisierte Analogsignale übertragen.
In einem TDM-basierten
Netz, z.B. für
GSM verwendet, können
die digitalisierten Analogsignale als parametrisierte, codierte,
digitalisierte Analogsignale in einem TFO-Strom und gleichzeitig
in einem PCM-Strom (Pulse Code Modulation) als in A-Law oder in μ-Law codierte
G.711-PCM-Samples übertragen
werden.
-
Entsprechend
ist in einer bevorzugten Alternative der Nutzdaten-Extraktions-Block
geeignet, um parametrisierte, codierte, digitalisierte Analogsignale von
einem IP-Stapel eines paketbasierten Netzes zu extrahieren, und
der Nutzdaten-Einfüge-Block
ist geeignet, um parametrisierte, codierte, digitalisierte Analogsignale
in den besagten IP-Stapels
des paketbasierten Netzes einzufügen.
-
Bei
einer anderen bevorzugten Alternative ist der Nutzdaten-Extraktions-Block
geeignet, um von den Zeitschlitzen eines TDM-basierten Netzes einen TFO-Strom,
und falls gewünscht,
außerdem
einen PCM-Strom, zu extrahieren. In dem letzteren Fall werden die
beiden Ströme
in der Nutzdaten-Extraktions-Box
für die
weitere Verarbeitung getrennt, und der Nutzdaten-Einfüge-Block
ist geeignet, um einen zugeführten
TFO-Strom mit einem zugeführten PCM-Strom
wieder zu kombinieren, und um den kombinierten Strom in das besagte
TDM-basierte Netz einzufügen.
Wenn dem Nutzdaten-Einfüge-Mittel nur ein PCM-Strom
zugeführt
wird, kann es jedoch auch nur diesen PCM-Strom wieder in das besagte TDM-basierte
Netz einfügen.
-
Bei
dem GSM-PCM kann der Nutzdaten-Extraktions-Block nur den TFO-Strom
als Eingabe nehmen oder alternativ den TFO-Strom und den PCM-Strom,
die dann in dem Nutzdaten-Extraktions-Block getrennt werden.
-
Ein
extrahierter TFO-Strom, der wieder in das Digitalnetz eingefügt wird,
wurde entweder im Parameter-Bereich oder im linearen Bereich verarbeitet,
mit einem Decodieren vor und einem Codieren nach der linearen Verarbeitung.
Welche Art von TFO-Strom eingefügt
wird, sollte von der erreichten oder von der erreichbaren Qualitätsverbesserung des
eingeschlossenen digitalisierten Analogsignals abhängen. Außerdem sollte
der nach der Decodierung im linearen Bereich verarbeitete TFO-Strom, ohne
vorherige Codierung, in einen PCM-Strom umgewandelt werden, der
mit den ausgewählten
codierten TFO-Strömen
zur Einfügung
in das Digitalnetz kombiniert wird. Falls jedoch kein TFO-Strom
bei dem Nutzdaten-Extraktions-Mittel verfügbar ist oder falls der TFO-Strom
gestoppt wird, kann der PCM-Strom extrahiert und im linearen Bereich
verarbeitet werden, und selber an das Digitalnetz über die Nutzdaten-Einfüge-Mittel
ausgegeben werden.
-
Alternativ
kann der TFO-Strom im Parameter-Bereich verarbeitet werden, und
der PCM-Strom, der für
die lineare Verarbeitung nicht decodiert werden braucht, kann parallel
im linearen Bereich verarbeitet werden. Falls der TFO-Strom nur
dann verarbeitet wird, wenn von ihm angenommen wird, dass er zu
einem besseren Ergebnis führt,
als die Verarbeitung des PCM-Stroms, wird der TFO-Strom nicht notwendigerweise
bei den Daten eingeschlossen, die wieder in das Netz eingefügt werden,
wenn er nicht verarbeitet wurde.
-
Das
Netzelement gemäß der Erfindung
kann frei neben oder im Innern jedes anderen Netzelementes angebracht
werden. In einem paketbasierten Netz wird das Netzelement der Erfindung
vorzugsweise an gleicher Stelle wie ein Breitband-IP-Netzknoten angebracht,
was zu minimalen Verarbeitungsverzögerungen führt.
-
Das
Netzelement und das Verfahren der Erfindung können für die Verbesserung der Qualität jedes
digitalisierten Analogsignals verwendet werden, das von einem Digitalnetz
in parametrisierter, codierter Form übertragen wird. Es ist von
besonderer Relevanz für übertragene
Sprachsignale, aber auch z.B. für
Videosignale.
-
KURZE BESCHREIBUNG
DER FIGUREN
-
Im
Folgenden wird die Erfindung unter Bezugnahme auf die Zeichnungen
detaillierter erläutert, wobei
-
1 die
Integration des Netzelements gemäß der Erfindung
in ein IP-Netz zeigt;
-
2 eine
erste Ausführungsform
des Netzelements gemäß der Erfindung
zeigt;
-
3 eine
zweite Ausführungsform
des Netzelements gemäß der Erfindung
zeigt;
-
4 eine
dritte Ausführungsform
des Netzelements gemäß der Erfindung
zeigt;
-
5 ein
Blockdiagramm einer Ausführungsform
einer Parameter-Bereich-Verstärkungsregelung
zeigt;
-
6 ein
Blockdiagramm einer Ausführungsform
einer Parameter-Bereich-Rauschunterdrückung zeigt;
-
7 ein
Blockdiagramm einer Ausführungsform
einer Parameter-Bereich-Echounterdrückung zeigt;
-
8 ein
Blockdiagramm einer Ausführungsform
einer Parameter-Bereich-Echokompensierung zeigt.
-
DETAILLIERTE
BESCHREIBUNG DER ERFINDUNG
-
1 zeigt
die Umgebung eines Netzelements 1 gemäß der Erfindung.
-
Ein
erstes Terminal 2 ist über
ein IP-Netz mit einem zweiten Terminal 3 verbunden. Beide
Terminals 2, 3 können IP-Telefone sein. An einer Stelle in dem
IP-Netz gibt es einen IP-Router, der einen Breitband-IP-Netzknoten 4 bildet.
Dieser Netzknoten 4 ist an gleicher Stelle wie das Netzelement 1 gemäß der Erfindung
angebracht, und mit diesem verbunden.
-
Das
Netzelement 1 arbeitet im Sprach-Parameter-Bereich und
ist in der Lage, Signalverarbeitungsfunktionen für parametrisierte, codierte
Sprachsignale durchzuführen.
Die verfügbaren
Funktionen sind Echokompensierung, Rauschminderung, Verstärkungsregelung,
Conference Bridge und Bad Frame Handling. Möglichkeiten zur Durchführung einiger dieser
Funktionen werden später
unter Bezugnahme auf die 5 bis 8 beschrieben.
-
Parametrisierte,
codierte Sprachsignale gehen von dem ersten Terminal 2 zu
dem Netzknoten 4. Sie werden von dem Netzknoten 4 zu
dem Netzelement 1 weitergeleitet, welches die geeigneten
Funktionen im Sprach-Parameter-Bereich durchführt. Dann werden die verarbeiteten,
parametrisierten, codierten Sprachsignale an den Netzknoten 4 zurückgesendet,
welcher sie zu ihrem Bestimmungsort weiterleitet, dem zweiten Terminal 3.
-
2 zeigt
die verschiedenen Elemente, die in einer Ausführungsform des Netzelements 1 der 1 umfasst
sind.
-
Ein
Nutzdaten-Extraktions-Block 20 und ein Nutzdaten-Einfüge-Block 21 bilden
zusammen die Schnittstelle des Netzelements 1 zu dem Netzknoten 4.
Innerhalb des Netzelements 1 ist der Nutzdaten-Extraktions-Block 20 über einen
Bad-Frame-Handler-Block 22 mit einem Analysierer- und Selektor-Block 23 verbunden.
Die beiden Ausgänge
des Analysierer- und Selektor-Blocks 23 sind einerseits mit
ersten Verarbeitungsmitteln 24 verbunden und andererseits über einen
Sprach-Decodier-Block 25 mit zweiten Verarbeitungsmitteln 26.
Jedes der Verarbeitungsmittel 24, 26 umfasst eine
Funktion für
die Echokompensierung, für
die Rauschminderung und für
die Pegelregelung. Der Ausgang der ersten Verarbeitungsmittel 24 ist
mit dem Eingang eines Selektors 27 verbunden. Der Ausgang
der zweiten Verarbeitungsmittel 26 ist ebenfalls mit dem
Eingang des Selektors 27 verbunden, aber über einen
Sprach-Codier-Block 28. Der Ausgang des Selektors 27 ist
der Eingang zu dem Nutzdaten-Einfüge-Block 21. Schließlich gibt
es einen Steuerungsblock 29, z.B. einen H.248-Protokoll-Steuerungsblock,
der als Eingabe ein außerhalb
des Netzelementes 1 erzeugtes Steuerungssignal empfängt, und
dessen Ausgang mit dem Analysierer- und Selektor-Block 23 verbunden
ist.
-
Das
Netzelement 1 arbeitet wie folgt:
Der Nutzdaten-Extraktions-Block 20 extrahiert
von dem IP-Stapel
des Netzknotens 4 der 1 die Nutzdaten,
das heißt
die parametrisierten, codierten Sprachsignale. Die Sprachparameter
werden von dem Bad-Frame-Handler-Block 22 überprüft. Hier werden
fehlende Frames entdeckt und unter Verwendung von Interpolationstechniken
regeneriert. Ferner werden ungeordnete Frames innerhalb eines Pufferfensters
neu geordnet. Die verarbeiteten Signale werden dann an den Analysierer-
und Selektor-Block 23 weitergeleitet.
-
Der
Analysierer- und Selektor-Block 23 analysiert die Sprachparameter
und bestimmt, ob eine Verarbeitung in einem linearen Bereich oder
im Parameter-Bereich zu einem besseren Ergebnis führen würde und
welche der verfügbaren
Funktionen angewendet werden sollten. Wenn die Parameter-Bereich-Verarbeitung für die Sprachverbesserung
technisch nicht ausführbar
ist, wird die lineare Verarbeitung ausgewählt. Der Analysierer- und Selektor-Block 23 kann
ebenso bestimmen, dass überhaupt
keine Verarbeitung durchgeführt
werden braucht. Der Analysierer- und Selektor-Block 23 empfängt außerdem über den
Steuerungsblock 29 externe Informationen, die zum Beispiel
anzeigen, ob es bereits einen Echokompensator auf der Verbindung
gibt, sodass eine weitere Echokompensierung nicht erforderlich ist.
-
Wenn
keine Verarbeitung oder eine Verarbeitung im Parameter-Bereich ausgewählt wurde,
gibt der Analysierer- und Selektor-Block 23 die codierten Sprachsignale
an die ersten Verarbeitungsmittel 24 aus, welche im Parameter-Bereich
auf die parametrisierten, codierten Sprachsignale alle ausgewählten Funktionen
anwenden.
-
Wenn
eine Verarbeitung im linearen Bereich als erforderlich angenommen
wurde, gibt der Analysierer- und Selektor-Block 23 die
parametrisierten, codierten Sprachsignale an den Sprach-Decodier-Block 25 aus.
Der Sprach-Decodier-Block 25 decodiert die codierten Sprachsignale,
die für
GSM FR (Full Rate) geeignet sein können, um ein lineares Signal
zu bilden. Das lineare Sprachsignal wird dann in die zweiten Verarbeitungsmittel 26 eingegeben,
welche im linearen Bereich auf das lineare Sprachsignal alle ausgewählten Funktionen
anwendet. Nach der Verarbeitung wird das lineare Sprachsignal in
den Sprach-Codier-Block 28 eingegeben, welcher das lineare
Sprachsignal codiert, um wieder für das GSM FR geeignete, parametrisierte,
codierte Sprachsignale zu bilden.
-
Der
Selektor 27 empfängt
die Ausgangs-Signale des Sprach-Codier-Blocks 28 und
der ersten Verarbeitungsmittel 24 und wird ferner durch
den Analysierer- und Selektor-Block 23 gesteuert. Daher ist
der Selektor 27 in der Lage, zu bestimmen, ob die Signale
von den ersten Verarbeitungsmitteln 24 oder die Signale
von dem Sprach-Codier-Block 28 verarbeitete,
codierte Sprachsignale ausmachen, und die jeweiligen Signale zu
dem Nutzdaten-Einfüge-Block 21 weiterzuleiten.
Der Selektor 27 kann ferner die Arbeit des Analysierer-
und Selektor-Blocks 23 durch die Zur-Verfügung-Stellung
von Informationen über die
verarbeiteten Signale unterstützen.
-
In
dem Nutzdaten-Einfüge-Block
werden die parametrisierten, codierten Sprachsignale wieder als Nutzdaten
in den IP-Stapel
des Netzknotens 4 eingefügt, von wo sie an ihren Bestimmungsort 3 weitergeleitet
werden.
-
Insgesamt
kann eine Verbesserung der Qualität der Sprache erreicht werden,
während
zusätzliche
Decodierungen und Codierungen nur sofern erforderlich durchgeführt werden.
Daher wird eine überflüssige Verminderung
der Sprachqualität
vermieden und die Verarbeitungsverzögerung wird durch die Verarbeitung
im Parameter-Bereich niedrig gehalten. Da das Netzelement 1 zusammen
mit dem Breitband-IP-Netzknoten 4 angebracht ist, werden die
Verarbeitungsverzögerungen
weiter minimiert.
-
3 veranschaulicht
schematisch eine andere Ausführungsform
des Netzelements der Erfindung. Die Ausführungsform ist ähnlich der
ersten Ausführungsform
des Netzelements, aber es wird für die
Verarbeitung von codierten Sprachparametern verwendet, die von einem
Netzknoten in einem TDM-basierten Netz empfangen wurden, welches
für GSM
TFO verwendet wird.
-
Ebenso
wie das Netzelement der 2 umfasst das Netzelement der 3 einen
Nutzdaten-Extraktions-Block 30, einen Bad-Frame-Handler-Block 32,
einen Analysierer- und Selektor-Block 33, einen Decodier-Block 35,
erste und zweite Verarbeitungsmittel 34, 36, einen
Codier-Block 38, einen Nutzdaten-Einfüge-Block 31 und einen
H.248-Protokoll-Steuerungsblock 39.
Beide Verarbeitungsmittel 34, 36 umfassen wieder
Funktionen für
die Echokompensierung, die Rauschminderung und die Pegelregelung.
Die Elemente sind in der gleichen Art und Weise wie in 2 miteinander
verbunden. Im Gegensatz zu dem Netzelement der 2 ist
jedoch anstelle eines Selektor-Blocks 27 ein zweiter Analysierer-
und Selektor-Block 37 zwischen dem Codier-Block 38 und
dem Nutzdaten-Einfüge-Block 31 integriert.
Außerdem
ist der Ausgang der zweiten Verarbeitungsmittel 36 nicht
nur mit dem Codier-Block 38 verbunden, sondern auch unmittelbar mit
dem Nutzdaten-Einfüge-Block 31.
-
Das
Netzelement der zweiten Ausführungsform
arbeitet wie folgt:
Das von dem Netzknoten bei dem Nutzdaten-Extraktions-Block 30 eingehende
Signal enthält
einen G.711-PCM-Strom von 48 oder 56 kbps in den höchstwertigen
Bits und GSM-TFO-codierte Sprachparameter bei 16 oder 8 kbps in
den niedrigstwertigen Bits. In dem Nutzdaten-Extraktions-Block 30 wird der
TFO-Strom von dem
PCM-Strom getrennt. Nur der TFO-Strom wird zu dem Bad-Frame-Handler-Block 32 weitergeleitet,
wo er so behandelt wird, wie für
die Behandlung der parametrisierten, codierten Sprachsignale in
der Ausführungsform
der 2 beschrieben.
-
Nach
dem Bad-Frame-Handling wird der TFO-Strom in den Analysierer- und
Selektor-Block 33 eingegeben. Der Analysierer- und Selektor-Block 33 leitet
den TFO-Strom einerseits an die ersten Verarbeitungsmittel 34 weiter,
wo der Strom im Parameter-Bereich verarbeitet wird. Andererseits
leitet der Analysierer- und Selektor-Block 33 den TFO-Strom an
die Decodier-Mittel 35 weiter, wo eine Sprach-Decodierung
durchgeführt
wird, z.B. wieder eine Decodierung von GMS FR zur linearen Form.
Der decodierte TFO-Strom wird dann in die zweiten Verarbeitungsmittel 36 eingegeben,
wo er im linearen Bereich verarbeitet wird. Für beide Verarbeitungsmittel 34, 36 werden
die anzuwendenden Funktionen in dem ersten Analysierer- und Selektor-Mittel 33 ausgewählt, gemäß einem
externen Steuerungssignal, das über den
Steuerungsblock 39 in das Netzelement eingeht.
-
Die
Ausgabe des ersten Verarbeitungsmittels 34 wird in den
Analysierer- und Selektor-Block 37 eingegeben. Die Ausgabe
der zweiten Verarbeitungsmittel 36 wird in den Codiermitteln
wieder codiert, z.B. Codierung von der linearen Form in GSM FR,
und ebenso in den zweiten Analysierer- und Selektor-Block 37 eingegeben.
-
Der
erste Analysierer- und Selektor-Block 33 und der zweite
Analysierer- und Selektor-Block 37 arbeiten zusammen, um
zu bestimmen, welche Verarbeitung, die im Parameter-Bereich oder
die im linearen Bereich, zu einer besseren Sprachqualität führt.
-
Im
Falle, dass bestimmt wird, dass die Parameter-Verarbeitung des TFO-Stroms zu einer
besseren Sprachqualität
führt,
als die lineare Verarbeitung des decodierten TFO-Stroms, wird nur der von den ersten
Verarbeitungsmitteln 34 kommende TFO-Strom von dem zweiten
Analysierer- und Selektor-Block 37 zu den Nutzdaten-Einfüge-Mitteln 31 weitergeleitet.
Im Falle, dass bestimmt wird, dass die lineare Verarbeitung des
decodierten TFO-Stroms zu einer besseren Sprachqualität führt, als
die Parameter-Verarbeitung
des TFO-Stroms, wird nur der von dem Codier-Block 38 kommende TFO-Strom
von dem zweiten Analysierer- und Selektor-Block 37 zu den
Nutzdaten-Einfüge-Mitteln 31 weitergeleitet.
-
Beide
Pfade können
die ganze Zeit über
in Betrieb sein, sodass ein Wechsel zwischen den verschiedenen Modi,
reine lineare Verarbeitung und parallele Verarbeitung, ohne Diskontinuitäten bei
den internen Zuständen
der Decodier- Mittel 25 und
der Codier-Mittel 28 durchgeführt werden kann.
-
Die
Ausgabe des zweiten Verarbeitungsmittels 36 wird außerdem ohne
jegliche Codierung unmittelbar an das Nutzdaten-Einfüge-Mittel 31 weitergeleitet.
In den Nutzdaten-Einfüge-Mitteln 31 wird aus
dem decodierten und linear verarbeiteten TFO-Strom ein PCM-Strom
gebildet. Der PCM-Strom und der ausgewählte, codierte TFO-Strom werden dann
kombiniert und für
weitere Übertragungen
wieder in das TDM-basierte Netz eingefügt.
-
Folglich
wurde die Sprachqualität
des digitalisierten Analogsignals in dem ausgehenden PCM-Strom durch
lineare Verarbeitung verbessert und die Sprachqualität des digitalisierten
Analogsignals in dem ausgehenden TFO-Strom wurde durch Verarbeitung
im Parameter-Bereich oder im linearen Bereich verbessert, abhängig davon,
welche Verarbeitung zu einem besseren Ergebnis führt.
-
Wenn
in dem von den Nutzdaten-Extraktions-Mitteln 30 extrahierten
Signal kein TFO-Strom verfügbar
ist oder der TFO-Strom stoppt, wird eine Möglichkeit vorgesehen, um den
PCM-Strom für
eine Frame-bezogene Behandlung über
den Bad-Frame-Handler 32 zu
leiten, und für
die Verarbeitung im linearen Bereich über die zweiten Verarbeitungsmittel 36.
Das Passieren eines Decodier-Blocks ist nicht erforderlich, da der
PCM-Strom keine parametrisierten Daten enthält. Es sollte jedoch vermerkt
werden, dass die lineare Verarbeitung eines G.711-PCM-Stroms die
Umwandlung von A-Law oder μ-Law
in die lineare Form erfordert und umgekehrt. Der verarbeitete PCM-Strom
wird dann wieder von dem Nutzdaten-Einfüge-Mittel 31 in
das Digitalnetz eingefügt.
-
4 veranschaulicht
schematisch eine dritte Ausführungsform
des Netzelements der Erfindung, die eine zweite Option zur Verbesserung
der Qualität der
Sprache in einem TDM-basierten Netz, das für GSM TFO benutzt wird, darstellt.
-
Bei
diesem Beispiel ist ein Nutzdaten-Extraktions-Block 40 über einen
Bad-Frame-Handler-Block 42 unmittelbar mit den ersten und
zweiten Verarbeitungsmitteln 44, 46 verbunden.
Beide Verarbeitungsmittel 44, 46 umfassen wieder
Funktionen zur Echokompensierung, zur Rauschminderung und zur Pegelregelung.
Auch die Ausgänge
der ersten und zweiten Verarbeitungsmittel 44, 46 sind
nur unmittelbar mit den Eingängen
des Nutzdaten-Einfüge-Blocks 41 verbunden.
Wieder ist ein H.248-Protokoll-Steuerungsblock 49 vorhanden.
-
Das
Netzelement der dritten Ausführungsform
arbeitet wie folgt:
Der PCM-Strom und der TFO-Strom, die von
einem Netzknoten in dem Nutzdaten-Extraktions-Block 40 eingehen,
werden durch den Nutzdaten-Extraktions-Block 40 getrennt,
wie in der Ausführungsform der 3.
Bei dieser Ausführungsform
werden jedoch beide, der TFO-Strom und der PCM-Strom, zu dem Bad-Frame-Handler-Block 42 weitergeleitet
und dort wie unter Bezugnahme auf die 2 behandelt.
-
Nach
dem Bad-Frame-Handling wird der TFO-Strom zu den ersten Verarbeitungsmitteln 44 weitergeleitet,
wo er im Parameter-Bereich
verarbeitet wird. Gleichzeitig werden die PCM-Samples zu den zweiten Verarbeitungsmitteln 46 weitergeleitet. Da
bei dieser Ausführungsform
nur die PCM-Samples
von den im linearen Bereich arbeitenden Verarbeitungsmitteln 46 verarbeitet
werden, ist ein Decodier-Block nicht erforderlich; wie bezüglich der
Ausführungsform
der 3 erwähnt,
enthält
der PCM-Strom keine parametrisierten Daten. In beiden Verarbeitungsmitteln 44, 46 werden
die anzuwendenden Funktionen gemäß einem
externen Steuerungssignal mittels des Steuerungsblocks 49 des Netzelements
ausgewählt.
-
Folglich
wird die Sprachverbesserung für beide,
für den
TFO-Strom und für den PCM-Strom, getrennt
und zur gleichen Zeit ausgeführt.
In jedem Fall werden die codierten Sprachsignale in dem TFO-Strom
nicht für
die Verarbeitung decodiert und dann wieder codiert.
-
Der
TFO-Strom und der PCM-Strom, die die Verarbeitungsmittel 44, 46 verlassen,
werden in dem Nutzdaten-Einfüge-Block 41 kombiniert
und für
weitere Übertragungen
wieder in das TDM-basierte
Netz eingefügt.
An einer anderen Stelle des Netzes kann entschieden werden, welcher
der Ströme
verwendet werden sollte, um die beste Sprachqualität zu erhalten.
-
Jede
der drei beschriebenen Ausführungsformen
des Netzelements gemäß der Erfindung
gestattet eine Verbesserung der Qualität von parametrisierten Sprach-
oder Videosignalen auf der Netzseite mit einer minimalen Verarbeitungsverzögerung.
Sie können
frei neben oder im Innern jedes bestehenden Netzelements angebracht
werden.
-
Nun
werden verschiedene Möglichkeiten
der Verarbeitung im Parameter-Bereich in den ersten Verarbeitungsmitteln 24, 34, 44 einer
der 2 bis 4 unter Bezugnahme auf die 5 bis 8 beschrieben.
-
5 zeigt
ein Blockdiagramm einer Vorrichtung zur Verstärkungsregelung, die in ersten
Verarbeitungsmitteln des Netzelements gemäß der Erfindung zur Verstärkungsregelung
im Parameter-Bereich integriert werden kann. Die Eingabeleitung
wird einerseits mit dem Eingang des Decoders 50 und andererseits
mit einem ersten Eingang eines Verstärkungsparameter-Requantisierungs-Blocks 53 verbunden.
Der Decoder 50 ist ferner unmittelbar und über einen
Sprachpegel-Schätz-Block 51 mit
einem Linear-zur-Parameter-Bereich-Abbildungs-Block 52 verbunden.
Der Ausgang des Linear-zur-Parameter-Bereich-Abbildung-Blocks 52 ist
mit einem zweiten Eingang des Verstärkungsparameter-Requantisierungs-Blocks 53 verbunden,
welcher außerdem mit
einer Ausgangsleitung verbunden ist.
-
Eingehende
codierte Sprach-Frames werden zu dem Decoder 50 weitergeleitet,
wo die codierten Sprachsignale linearisiert werden, bevor sie in den
Sprachpegel-Schätz-Block 51 eingegeben
werden. Der Sprachpegel-Schätz-Block 51 umfasst
einen internen Voice Activity Detector (VAD), der für die Anzeige
verwendet wird, ob die Pegelschätzung
auf den neuesten Stand zu bringen ist, da es wünschenswert ist, dass bei der
Sprachpegel-Schätzung
nur der Sprachpegel geschätzt
wird.
-
In
dem Sprachpegel-Schätz-Block 51 wird ein
gewünschter
Verstärkungswert
berechnet, basierend auf einem geschätzten Sprachpegel und einem vorherbestimmten,
gewünschten
Ziel-Sprachpegel. Die
gewünschte
Verstärkung
wird dem ersten Eingang für
den Linear-zur-Parameter-Bereich-Abbildungs-Block 52 eingegeben.
-
Der
Sprachpegel-Schätz-Block 51 wird
nur für
eine automatische Pegelregelung benötigt. Für den Fall, dass eine feste
Verstärkungsregelung
verwendet wird, möglicherweise
mit einer vom Nutzer einstellbaren Verstärkung, können der Decoder 50 und
der Sprachpegel-Schätz-Block 51 weggelassen werden.
-
Weitere
Eingaben zu dem Linear-zur-Parameter-Bereich-Abbildungs-Block 52 sind decodierte Verstärkungs-Parameter
von gegenwärtigen Sprach-Frames
von z.B. 20 ms oder von Sub-Frames von
z.B. 5 ms, deren decodierte Verstärkungs-Parameter unmittelbar von dem Decoder 50 kommen.
Die decodierten Verstärkungs-Parameter
sind typischerweise Anregungs-Verstärkungs-Parameter eines Code
Excited Linear Prediction (CELP) Sprach-Decoders. Diese Verstärkungs-Parameter bestehen
typischerweise aus adaptiven und fixen Codebook-Verstärkungen,
die für
die Übertragung
vektorquantisiert sind. Skalare Werte dieser Parameter können von
internen Zwischenwerten des Decoders 50 erhalten werden.
-
In
dem Linear-zur-Parameter-Bereich-Abbildungs-Block 52 wird
der lineare, gewünschte
Verstärkungswert
zu geeigneten neuen Verstärkungs-Parametern
eines Sprach-Decoders umgewandelt. Eine auf einem Codebook basierende
Abbildung wird zur Bestimmung dieser neuen Verstärkungs-Parameter für den gegenwärtigen Frame
oder Sub-Frame verwendet, um die gewünschte Verstärkung zu
erzielen. Das Codebook ist eine dreidimensionale Tabelle, bei der
die adaptive Codebook-Verstärkung, die
fixe Codebook-Verstärkung
und die linearen Verstärkungswerte
eine jeweilige Dimension bilden. Die neuen Verstärkungs-Parameterwerte werden
von der Tabelle eingelesen, sobald alle Eingabewerte für den Frame
oder für
den Sub-Frame bekannt sind. Diese Tabelle wird im Voraus in der Weise
abgestimmt, dass die Fehler zwischen den neuen Verstärkungs-Parameterwerten
und den Verstärkungs-Parameterwerten von
verstärkungsskalierten,
codierten Frames für
jeden gewünschten,
linearen Verstärkungswert
minimiert werden. Alternativ könnte
die Abbildungs-Tabelle auf die Minimierung des Fehlers zwischen
dem decodierten, re-quantisierten
Sprach-Frame und einem decodierten, verstärkungsskalierten Sprach-Frame
abgestimmt werden. Die Abstimmung erfordert mehrere Test-Sequenzen,
um alle Elemente innerhalb der Abbildungs-Tabelle abzustimmen.
-
Bei
praktischen Implementierungen könnte es
nützlich
sein, die Größe der Tabelle
zu komprimieren, entweder durch die Verwendung von Redundanzen bei
den Daten, durch Limitierung der Verstärkungswerte, oder durch die
Erhöhung
der Stufenhöhe
der Eingabewerte. Eine andere Möglichkeit
ist das Herausfinden einer mathematischen Funktion, die sich der
Abbildungs-Funktion in der Weise annähert, dass die Leistung subjektiv
akzeptabel ist.
-
Schließlich werden
die neuen Verstärkungswerte
für die Übertragung
re-quantisiert und die ursprünglichen
Verstärkungswerte
werden durch die neuen Werte in dem Verstärkungsparameter-Requantisierungs-Block 53 ersetzt.
-
6 zeigt
ein Blockdiagramm einer Vorrichtung für die Rauschunterdrückung, die
in ersten Verarbeitungsmitteln eines Netzelements gemäß der Erfindung
für die
Rauschunterdrückung
im Parameter-Bereich integriert werden kann.
-
Eine
Eingabeleitung wird wieder einerseits mit dem Eingang eines Decoders 60 und
andererseits mit einem ersten Eingang eines Verstärkungsparameter-Requantisierungs-Blocks 63 verbunden. Ein
erster Ausgang des Decoders 60 ist über einen Sprachpegel-Schätz-Block 61,
einen VAD 66, einen Rauschpegel-und-Spektrum-Schätz-Block 64 und
einen Kurzzeit-Signalpegel-und-Spektrum-Berechnungs-Block 65 mit
einem Block 67 zur Bestimmung der Rausch-Abschwächungs-Parameter
verbunden. Der Ausgang des VAD 66 ist darüber hinaus
mit einem Eingang des Sprachpegel-Schätz-Blocks 61, sowie
mit einem Eingang des Rauschpegel-und-Spektrum-Schätz-Blocks 64 verbunden.
-
Ein
erster Ausgang des Blocks 67 zur Bestimmung der Rausch-Abschwächungs-Parameter ist
mit einem ersten Eingang eines Spektrum-zur-LP (linear prediction)
Abbildungs-Blocks 68 und ein zweiter Ausgang mit einem
ersten Eingang eines Linear-zur-Parameter-Bereich-Abbildungs-Blocks 62 verbunden.
-
Ein
zweiter Ausgang des Decoders 60 ist mit einem weiteren
Eingang des Rauschpegel-und-Spektrum-Schätz-Blocks 64 und des
Kurzzeit-Signalpegel-und-Spektrum-Berechnungs-Block 65,
und zusätzlich
mit einem zweiten Eingang des Spektrum-zur-LP-Abbildungs-Blocks 68 verbunden. Ein
dritter Ausgang des Decoders 60 ist mit einem zweiten Eingang
des Linear-zur-Parameter-Bereich-Abbildungs-Blocks 62 verbunden.
-
Der
Ausgang des Linear-zur-Parameter-Bereich-Abbildungs-Blocks 62 ist
mit einem zweiten Eingang des Verstärkungs-Parameter-Re-Quantisierungs-Blocks 63 verbunden,
dessen Ausgang wiederum mit einem ersten Eingang des LP-Parameter-Re-Quantisierungs-Blocks 69 verbunden
ist. Der zweite Eingang dieses Blocks 69 ist mit dem Ausgang
des Spektrum-zur-LP-Abbildungs-Blocks 68 verbunden.
-
Schließlich ist
der LP-Parameter-Requantisierungs-Block 69 mit einer Ausgangsleitung
verbunden.
-
Der
Decoder 60, der Sprachpegel-Schätz-Block 61, der Linear-zur-Parameter-Bereich-Abbildungs-Block 62 und
der Verstärkungsparameter-Requantisierungs-Block 63 können mit
den entsprechenden Blöcken 50–53 des
Beispiels von 5 identisch oder diesen ziemlich ähnlich sein.
-
Bei
dem Beispiel von 6 kann die Rauschunterdrückung durch
Zeitbereichs- oder Frequenzbereichs-Parameter-Verarbeitung erreicht werden. Durch
die Kombinierung beider Verfahren kann offensichtlich die optimale
Leistung erzielt werden.
-
Die
Zeitbereichs-Verarbeitung basiert auf einer dynamischen Verarbeitung,
bei der Rauschanteile und Sprachsignalanteile mit einem sehr niedrigen Pegel
durch eine Verstärkungsregelungsfunktion leicht
abgeschwächt
werden, indem von den Blöcken 60–63,
die den Blöcken 50–53 der 5 entsprechen,
Gebrauch gemacht wird. Die Verstärkungsregelung
wird daher wie oben erklärt
ausgeführt,
nur dass der Block 67 für
die Weiterleitung der von dem Block 61 empfangenen Sprachpegel-Schätzung zum Linear-zur-Parameter-Bereich-Abbildungs-Block 62 benutzt
wird. Dies kann als eine erweiternde Funktion im Parameter-Bereich
verstanden werden.
-
Bei
der Frequenzbereichs-Rauschunterdrückung werden die Frequenzanteile,
die mehr Energie als die Sprachsignale haben, abgeschwächt. Herkömmlicherweise
wird ein lineares Zeitbereichs-Signal zunächst unter Verwendung einer
Fourier Transformation oder Filter-Bänken in einen Frequenzbereich umgewandelt.
Dann kann eine spektrale Subtraktion auf das Frequenzbereichs-Signal
angewendet werden. Der Umfang der Subtraktion basiert auf einer
Rausch-Schätzung,
dem Signal-zu-Stör-Abstand
und möglichen
anderen Parametern. Schließlich
wird das rausch-abgeschwächte
Signal zurück
in den Zeitbereich umgewandelt. Bei diesem Beispiel wird die Frequenzbereichs-Verarbeitung
jedoch durch Neugestaltung einer Linear Prediction (LP) Spektrum-Einhüllenden
von Sprach-Frames durchgeführt.
Dies wird im Folgenden detaillierter erläutert.
-
Zur
Erreichung einer Rauschunterdrückung mit
hoher Qualität
ist eine akkurate Rausch-Schätzung
zu modellieren. Um zwischen Sprache und Sprachpausen zu differenzieren
wird ein Sprach-Aktivitäts-Detektor 66 verwendet,
der eine Sprach-Flagge „wahr" ausgibt, wenn Sprache
erkannt wurde, und eine Sprach-Flagge „falsch", wenn eine Sprachpause erkannt wurde.
Der Sprach-Aktivitäts-Detektor 66 muss
von hoher Qualität
sein, um akkurate VAD-Entscheidungen zu erhalten, auch unter Bedingungen mit
einem geringen Signal-zu-Stör-Abstand,
ansonsten divergieren Sprach- und Rausch-Schätzungen. Grundsätzlich wird
die Sprachpegel-Schätzung
in dem Sprachpegel-Schätz-Block 61 auf
den neuesten Stand gebracht, wenn die Sprach-Flagge wahr ist, und
die Sprachpegel- und Spektrum-Schätzungen werden in dem Rauschpegel-und-Spektrum-Schätz-Block 64 auf
den neuesten Stand gebracht, wenn die Sprach-Flagge falsch ist.
-
Im
Block 64 werden Langzeit-Rauschpegel und -spektrum geschätzt. Für die Schätzung des Langzeit-Rauschspektrums
müssen
in dem Decoder 60 die Linear Prediction Coefficients (LPC)
von dem empfangenen Sprach-Frame decodiert werden. Die LP-Koeffizienten
werden häufig
von dem zur Codierung verwendeten Codierer zu Line Spectral Pairs (LSP)
umgewandelt. In diesem Fall kann man die LPC-Werte von den internen
Zwischenwerten des Decoders 60 erhalten. Da die LP-Koeffizienten nur die
spektrale Einhüllende
bestimmen, ist die Rauschpegel-Schätzung erforderlich, um die
LP-spektrale Einhüllende
zu skalieren, um eine Leistungsspektrums-Schätzung
des Rauschens zu bilden.
-
Alternativ
könnte
die LP-spektrale Einhüllende
unter Verwendung von Anregungs-Verstärkungs-Parametern des empfangenen
Frames skaliert werden. Wie bereits oben erwähnt, wird die Rausch-Schätzung nur
auf den neuesten Stand gebracht, wenn die VAD-Flagge falsch ist.
-
Ein
Kurzzeit-Signalpegel und -spektrum wird in der gleichen Weise wie
oben bei dem Kurzzeit-Signalpegel-und-spektrum-Berechnungs-Block 65 beschrieben
für den
empfangenen Frame berechnet, außer
dass für
die Pegelberechnung keine Durchschnittsbildung oder schnelle Durchschnittsbildung der
vorhergehenden Frames verwendet wird. Typischerweise werden keine
VAD-Entscheidungen verwendet.
-
Die
Hauptintelligenz für
den Algorithmus liegt in dem Block 67 zur Bestimmung der
Rausch-Abschwächungs-Parameter.
In diesem Block 67 werden die Frequenzbereichs-Rausch-Abschwächungs-Parameter
(d.h. die gewünschte
Spektrum-Gestaltung) gemäß der von
dem Block 64 empfangenen Langzeit-Rausch-Spektrum-Schätzung und gemäß des von
dem Block 65 empfangenen Kurzzeit-Signal-Spektrums ausgewählt. Entsprechend
basiert die gewünschte
Zeitbereichs-Verstärkung
auf den Langzeit-Sprachsignalen und dem Langzeit-Rauschen, und auf
den Kurzzeit-Signal-Pegeln. Außerdem
werden von dem VAD 66 empfangene VAD-Informationen und
der Langzeit-Signal- zu-Stör-Abstand,
der aus den Sprachsignal- und Rauschpegel-Schätzungen
berechnet wird, die von den Blöcken 61 und 64 erhalten
werden, als zusätzliche
Information für
den Algorithmus des Blocks 67 zur Bestimmung der Rausch-Abschwächungs-Parameter
verwendet.
-
Bei
der Spektrum-Gestaltung im Block 67 wird die Langzeit-Rausch-Spektrum-Schätzung mit dem
Kurzzeit-Signal-Spektrum verglichen. Es wird ein Ziel-Spektrum in
der Weise gestaltet, dass die Kurzzeit-Spektrum-Anteile, die dem
Langzeit-Spektrum ziemlich nahe sind, leicht abgeschwächt werden.
Andererseits bleiben die Anteile unangetastet, die deutlich über dem
Langzeit-Spektrum liegen, weil diese Anteile wahrscheinlich Sprachsignal-Informationen
enthalten. Außerdem
kann die Frequenz-Maskierung und die zeitliche Maskierung menschlicher Hörsysteme
bei der Frequenz-Gestaltung
verwendet werden. Das bedeutet, dass, wenn einige Anteile des Spektrums
innerhalb einer Hörfrequenz-Maskierungs-Kurve
liegen, für
diese Anteile keine Frequenz-Gestaltung
erforderlich ist. Bei der zeitlichen Maskierung wird für den gegenwärtigen Frame
keine Fregeuenz-Gestaltung (oder Zeitbereichs-Verarbeitung) benötigt, wenn
ein oder mehrere vorhergehende Frames einen höheren Sprachpegel enthalten
haben, welcher einen Effekt der zeitlichen Maskierung für Signale
des gegenwärtigen
Frames mit einem niedrigeren Sprachpegel einführt. Die Verwendung dieser
Regeln führt
zu einer geringeren Verzerrung der verarbeiteten Sprachsignale,
da eine geringere Gestaltung erfolgt.
-
Ferner
kann die Spektrum-Gestaltung durch die VAD-Flagge in der Weise gesteuert
werden, dass eine geringere Gestaltung angewendet wird, wenn eine
Sprachpause erkannt wurde. Die Rauschabschwächung wird dann hauptsächlich durch
die Verstärkungsverarbeitung
während
der Sprachpausen durch die Blöcke 60–63 erzielt.
Ergänzend
kann auch der Kurzzeit-Signalpegel
den Umfang der Gestaltung steuern. D.h., es erfolgt eine geringere
Gestaltung bezüglich
der Frames mit einem geringeren Pegel, da die Rauschabschwächung teilweise über die
Verstärkungsverarbeitung
abgewickelt wird. Schließlich kann
der Umfang der Spektrum-Gestaltung in der Weise von dem langzeitigen
Signal-zu-Stör-Abstand (SNR)
abhängen,
dass bei einer hohen SNR eine geringere Gestaltung angewendet wird,
um eine hohe Qualität
unter rauschfreien Sprach-Konditionen zu erhalten.
-
Sobald
die gewünschte
Spektrum-Gestaltung für
den gegenwärtigen
Frame berechnet ist, sind die ursprünglichen LP-Koeffizienten entsprechend dem
gewünschten
Spektrum umzuwandeln. Dies wird in dem Spektrum-zur-LP-Abbildungs-Block 68 durchgeführt. Die
Abbildung kann wieder als Codebook-Abbildungs realisiert werden,
indem das ursprüngliche
LPC und das gewünschte
Spektrum als Eingangsparameter verwendet werden. Alternativ könnten neue
LP-Koeffizienten unmittelbar aus dem gewünschten Spektrum berechnet
werden, indem das Spektrum zu einer LP-Spektrum-Einhüllenden umgewandelt
wird, und indem es auf diese Weise zu LP-Koeffizienten umgewandet
wird.
-
Schließlich werden
die neuen LPC-Parameter in dem LP-Parameter-Requantisierungs-Block 69 quantisiert
oder in LSP-Parameter
umgewandelt und die alten Parameter werden durch neue in den codierten
Frames ersetzt.
-
Wie
bereits erwähnt
kann eine Signal-Dynamik-Erweiterungs-Funktion zusammen mit der Spektrum-Gestaltung
benutzt werden oder sie kann sogar alleine benutzt werden. Wenn
sie alleine benutzt wird, ist nur eine leichte Erweiterung gestattet,
da sie einen Rauschmodulationseffekt verursachen kann. Bei der Erweiterung
ist es im Grunde so, dass je niedriger der Signalpegel ist, desto
mehr Abschwächung wird
angewendet. Die Erweiterungsschwelle wird in der Weise durch die
Rauschpegel-Schätzung
gesteuert, dass der die Rauschpegel-Schätzung überschreitende
Frame oder Sub-Frame nicht abgeschwächt wird. Ferner kann das VAD 66 die
Erweiterung in der Weise steuern, dass eine leicht geringere Erweiterung
immer dann verwendet wird, wenn der gegenwärtige Frame ein Sprach-Frame
ist. Dadurch kann die Abschwächung
von Sprachphonemen mit einem geringen Pegel minimiert werden.
-
Sobald
die gewünschte
lineare Verstärkung für den gegenwärtigen Frame
oder Sub-Frame gefunden ist, können
die Linear-zur-Parameter-Bereich-Abbildung und die Verstärkungsparameter-Requantisierung
in den Blöcken 62 und 63 wie
unter Bezugnahme auf die Verstärkungsregelung
beschrieben durchgeführt
werden. Als Ergebnis werden modifizierte Verstärkungs- und LPC-Parameter mit
anderen Sprachparametern über
das Übertragungsmedium übertragen.
-
7 zeigt
ein Blockdiagramm einer Vorrichtung für die Echounterdrückung, die
in einer ersten Verarbeitungsvorrichtung eines Netzwerkelements
gemäß der Erfindung
zur Echounterdrückung im
Parameter-Bereich integriert werden kann.
-
Eine
erste Eingangsleitung ist mit einem ersten Decoder 70 verbunden
und eine zweite Eingangsleitung ist mit einem zweiten Decoder 71 verbunden,
wobei beide Decoder 70, 71 wiederum mit einem
Echo-Analyse-Block 72 verbunden sind. Der Ausgang des ersten
Decoders 70 ist ferner über
einen Rausch-Schätz-Block 73,
einen Comfort-Noise-Generation-Block 74 und einen Codierer 75 mit
einer Verbindung eines Verteilers 76 verbunden. Der Verteiler 76 kann
entweder eine Verbindung zwischen dem Codierer 75 und einer
Ausgangsleitung oder zwischen der ersten Eingangsleitung und der Ausgangsleitung
bilden. Der Echo-Analyse-Block 72 besitzt einen Steuerungszugang
zu diesem Verteiler 76.
-
Um
in der Lage zu sein, bestimmen zu können, ob ein von einem nahen
Ende zu einem fernen Ende übertragenes
Signal ein Echo umfasst und um in der Lage zu sein, solch ein Echo
zu unterdrücken oder
zu kompensieren, sind Signale von beiden Übertragungsrichtungen zu analysieren.
Deshalb werden zwei Decoder 70, 71 zur Linearisierung
von Signalen von dem nahen Ende (Punkt, an dem das Echo zurück reflektiert
wird) als „send
in"-Signale, beziehungsweise
zur Linearisierung von Signalen von dem fernen Ende als „receive
in"-Signale verwendet.
Es ist einfacher und genauer, die Echo-Analyse im linearen Bereich
durchzuführen.
Im dem Echo-Analyse-Block 72 werden die Signalpegel der zwei
linearisierten Signale geschätzt.
Wenn das Pegelverhältnis
zwischen den Signalen des nahen Endes und denen des fernen Endes
geringer als ein Schwellenwert ist, wird das Signal des nahen Endes als
ein Echo angesehen und in das Signal, das als „send out"-Signal zu dem fernen Ende übertragen werden
soll, wird Comfort Noise eingefügt.
Wenn es ein akustisches Echo gibt, kann ein spezielles Filtern für die Schätzung des
Signals des fernen Endes benutzt werden, um die Double-Talk-Performance
der Echounterdrückung
zu verbessern, so wie z.B. in dem Dokument WO 9749196 beschrieben.
Um das korrekte Ergebnis von dem Signalvergleich zu bekommen muss
die Echopfadverzögerung
bekannt sein. Wenn die Verzögerung
variabel ist, kann eine Verzögerungsschätzung notwendig
sein, um den korrekten Verzögerungswert
zu bestimmen. Eine Kreuzkorrelation kann für die Verzögerungsschätzung benutzt werden.
-
In
dem Rausch-Schätz-Block 73 wird
eine genaue Rausch-Schätzung des
von dem ersten Decoder 70 empfangenen linearisierten Signals
des nahen Endes gebildet. Vorzugsweise wird das Hintergrundrauschen
sowohl im Pegel-Bereich
als auch im spektralen Bereich geschätzt. Das Schätzverfahren kann
das gleiche Verfahren sein, wie das für die Rauschunterdrückung beschriebene.
Ebenso können
andere Verfahren benutzt werden, z.B. Verfahren, die auf Filterbänken oder
auf der Fourier-Transformation beruhen.
-
Der
Comfort Noise wird dann in dem Comfort-Noise-Generation-Block 74 erzeugt,
indem von der Rausch-Schätzung
Gebrauch gemacht wird, die von dem Rausch-Schätz-Block 73 empfangen
werden. Zur Erzeugung des Comfort Noise wird ein pegelskaliertes
Weißrauschen über ein
Synthese-Filter eingegeben, das tatsächlich das äquivalente Einhüllenden-Spektrum wie der
Rausch-Schätz-Block 73 besitzt.
Daher kann das Synthese-Filter ein LP-Filter oder eine Filter-Bank
sein.
-
Schließlich wird
der erzeugte Comfort Noise von dem Codierer 75 codiert,
um einen Frame oder einen Sub-Frame zu bilden, der einen codierten Comfort-Noise-Parameter
umfasst.
-
Wenn
von dem Echo-Analyse-Block 72 für den gegenwärtigen „send in"-Frame oder -Sub-Frame
ein Echo manifestiert wurde, wird der Verteiler 76 von
dem Echo-Analyse-Block 72 umgeschaltet, um den Codierer 75 mit
der Ausgangsleitung zu verbinden, und der gegenwärtige Frame oder Sub-Frame wird mit
dem erzeugten codierten Comfort-Noise-Parameter ersetzt. Wenn kein
Echo manifestiert wird, verbindet der Verteiler 76 weiterhin
die erste Eingangsleitung mit der Ausgangsleitung oder er wird von
dem Echo-Analyse-Block 72 entsprechen umgeschaltet, sodass
der ursprüngliche
Frame oder Sub-Frame ohne ersetzt zu werden zu der Ausgangsleitung
weitergeleitet wird.
-
Durch
die Verwendung des beschriebenen Verfahrens kann Tandem-Sprach-Codierung
vermieden werden, sowohl bei Sprach-Frames als auch bei Comfort-Noise-Frames,
und es kann eine hohe Qualität
der Sprache geliefert werden.
-
Alternativ
und um Verarbeitungs- und Speicher-Ressourcen einzusparen kann der
Sprach-Codierer weggelassen werden, indem der Comfort Noise direkt
im Parameter-Bereich erzeugt wird. Bei der Parameter-Bereich-Comfort-Noise-Erzeugung
wird ein Langzeit-LP-Spektrum-Envelope eines Hintergrundrauschens
wie unter Bezugnahme auf die 6 beschrieben
gemittelt. Außerdem
wird ein Langzeit- Anregungs-Verstärkungs-Parameter nach den gleichen
Updating-Prinzipien wie für
das LP-Spektrum-Envelope-Updating
gemittelt, d.h. es wird auf den neuesten Stand gebracht, wenn die
VAD Flagge falsch ist. Typischerweise brauchen nur die festen Codebook-Verstärkungs-Werte
gemittelt werden, da der anpassungsfähige Codebook-Verstärkungs-Wert
nahe Null ist, wenn es ein rauschmäßiges Signal gibt. Da ein Comfort-Noise-Frame
oder -Sub-Frame zu dem fernen Ende übertragen werden muss, werden
die ursprünglichen
LPC- und Anregungs-Verstärkungs-Parameter
mit den gemittelten LPC und Verstärkungs-Parametern ersetzt.
Außerdem
werden die ursprünglichen
Anregungsimpulse innerhalb des Frames mit zufälligen Impulsen ersetzt, die
im Parameter-Bereich weißes
Rauschen darstellen. Wenn in der „send in"-Richtung eine diskontinuierliche Übertragung
(DTX) verwendet wird, müssen
die Anregungsimpulse nicht übertragen
werden. Stattdessen werden nur die gemittelten LPC- und Verstärkungs-Parameter
in dem Silence-Description-Frame (SID) übertragen, der für die meisten Sprach-Codecs
standardisiert ist. Bei diskontinuierlichen Übertragungen werden die zufälligen Anregungsimpulse
an dem Decoder-Ende erzeugt.
-
8 zeigt
ein Blockdiagramm einer Vorrichtung zur Echokompensierung, welches
in den ersten Verarbeitungsmitteln eines Netzelements gemäß der Erfindung
zur Echokompensierung im Parameter-Bereich integriert werden kann.
-
Eine
erste Eingangsleitung ist unmittelbar mit einem ersten Decoder 80 verbunden,
und eine zweite Eingangsleitung ist über einen FIFO-(first in first
out)Frame-Speicher 87 mit einem zweiten Decoder 81 verbunden,
wobei beide Decoder 80, 81 wiederum mit einem
anpassungsfähigen
Filter 82 verbunden sind. Das anpassungsfähige Filter 82 ist
mit einem NLP-und-Comfort-Noise-Generation-Block 84 verbunden,
und der erste Decoder ist über
einen Rausch-Schätz-Block 83 mit
einem zweiten Eingang desselben Blocks 84 verbunden. Der
Ausgang des NLP-und-Comfort-Noise-Generation-Blocks 84 ist über einen
Codierer 85 mit einem Verteiler 86 verbunden.
Der Verteiler 86 kann entweder eine Verbindung zwischen
dem Codierer 85 und der Ausgangsleitung oder zwischen der
ersten Eingangsleitung und der Ausgangsleitung bilden. Ein Ausgang
des ersten Decoders 80, des zweiten Decoders 81 und des
anpassungsfähigen
Filters 82 sind außerdem
mit Eingängen
einer Steuerlogik 88 verbunden. Die Steuerlogik 88 hat
einen Steuerungszugang zu dem anpassungsfähigen Filter 82, zu
dem NLP-und-Comfort-Noise-Generation-Block 84 und zu dem
Verteiler 86.
-
Die
vorgeschlagene Echokompensierung ist ziemlich ähnlich mit der oben beschriebenen Echounterdrückung. Das
anpassungsfähige
Filter 82 und die Steuerlogik 88 sind eingeschlossen,
um das Echosignal zu vermindern, bevor eine Rest-Echounterdrückungsfunktion
durch einen nicht linearen Prozessor (NLP) 84 angewendet
wird. Für
die lineare anpassungsfähige
Filterung sind Signale aus beiden Richtungen von den örtlichen
Decodern 80, 81 zu linearisieren. Da es zwei Sprach-Codierungen
für das zurückkommende
Echosignal gibt, reduziert die kumulierte nicht-lineare Verzerrung
die Wirksamkeit der anpassungsfähigen
Filterung in beachtlicher Weise. Daher kann es wünschenswert sein, eine nicht-lineare
Echo-Modellierung
bei der Echokompensierung einzuschließen, so wie z.B. in dem Dokument
WO 9960720 beschrieben. Außerdem
können
die durch Sprach-Codierungen in den Echo-Pfad eingefügten Verzögerungen, Übertragungen
oder andere Signalverarbeitungen durch den FIFO-Frame-Speicher-Block 87 kompensiert
werden. Folglich kann die Anzahl der Taps des anpassungsfähigen Filters 82 reduziert
werden, und es ist eine geringere Verarbeitungskapazität erforderlich.
-
Die
Funktion des Rausch-Schätz-Blocks 83 und
die des NLP-und-Comfort-Noise-Generation-Blocks 84 kann ähnlich zu
der oben beschriebenen Rauschunterdrückung sein, obwohl die Steuerung
des NLP 84 unterschiedlich sein kann, da mehr Parameter,
z.B. Echo-Pfad-Modell, erreichte Echoabschwächung, „send in"-, „receive in"-, und Rest-Echosignale, bei
der NLP-Entscheidung verwendet werden können. Dies wird innerhalb des Steuerlogik-Blocks 88 abgewickelt.
Die Ausgabe des NLP-und-Comfort-Noise-Generation-Blocks 84 wird von
dem Codierer 85 codiert.
-
Der
Verteiler 86 ist zur Umschaltung zwischen dem an dem „send in"-Port empfangenen Sprach-Frame
und der codierten Ausgabe des NLP/Comfort-Noise-Blocks vorgesehen,
d.h., dass die Ausgabe des „send
out"-Ports entweder
ein vorbeigeleiteter „send
in"-Frame (oder
Sub-Frame) oder ein echokomprimierter Frame (oder Sub-Frame) ist. Ein
Kriterium für
die Auswahl könnte
wie folgt aussehen.
-
Wenn
es keine Sprachaktivität
gibt, oder wenn der Signalpegel des fernen Endes niedrig genug ist,
werden die „send
in"-Frames vorbeigeleitet. Andernfalls
wird die Ausgabe des NLP/Comfort-Noise-Blocks 84 nach der
Codierung durch den Codierer 85 als Ausgabe ausgewählt. Daher
bleibt ein TFO-Strom unberührt,
wenn nur das nahe Ende spricht, oder wenn es in beiden Richtungen
ein Schweigen gibt. Wenn nur das ferne Ende spricht, wird codiertes
Comfort Noise eingefügt.
Wenn es eine Double-Talk-Kondition gibt, wird entweder das Comfort-Noise
oder die Ausgabe des anpassungsfähigen
Filters 82 für
das „send
out"-Signal ausgewählt. Dies
hängt von
dem Status des NLPs 84 ab und variiert typischerweise während des
Double Talks. Ein Vorteil dieses Verfahrens liegt darin, dass es
für das Signal
des nahen Endes meistens eine Tandem Free Operation gibt. In den
Momenten, wenn tandem-codierte Frames in Richtung des fernen Endes
gesendet werden, ist das Double Talk mit dem NLP-Block 84 inaktiv.
Dies ist jedoch verglichen mit der herkömmlichen Echokompensierung
subjektiv nicht mehr störend,
da das NLP-Umschaltung bereits einige Artefakte bei der Sprache
des nahen Endes einführt,
und weil die direkte akustische Maskierung und das Eigenecho des fernen
Endes die Hörbarkeit
der NLP-Artefakte während
des Double Talk vermindern.
-
Um
Verarbeitungs- und Speicherressourcen einzusparen, könnte alternativ
der Codierer weggelassen werden, indem das Comfort Noise unmittelbar im
Parameter-Bereich erzeugt wird, so wie unter Bezugnahme auf 7 beschrieben.