DE60029147T2

DE60029147T2 - Qualitätsverbesserung eines audiosignals in einem digitalen netzwerk

Info

Publication number: DE60029147T2
Application number: DE60029147T
Authority: DE
Inventors: Tommi Koistinen; Olli Kirla
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2000-12-29
Filing date: 2000-12-29
Publication date: 2007-05-31
Anticipated expiration: 2020-12-30
Also published as: EP1346553B1; CN1504042A; US20040076271A1; CN100393085C; DE60029147D1; US7539615B2; WO2002054744A1; EP1346553A1

Description

GEBIET DER ERFINDUNG
Die Erfindung betrifft ein Netzelement und ein Verfahren zur Verbesserung der Qualität von digitalisierten Analogsignalen, die in einer parametrisierten, codierten Form über ein Digitalnetz übertragen werden.
HINTERGRUND DER ERFINDUNG
Digitalnetze, wie zum Beispiel paketbasierte IP-Netze (Internet Protocol) oder TDM-basierte Netze (Time Division Multiplex), werden verwendet, um nicht nur den Signalverkehr, sondern auch um digitalisierte Analogsignale, insbesondere Audiosignale wie beispielsweise Sprach- und Videosignale, zu übertragen.
Bevor ein digitalisiertes Analogsignal von dem Digitalnetz übertragen werden kann, muss eine Umwandlung des Signals von analog zu digital durchgeführt werden. Ferner wird das Signal für gewöhnlich komprimiert, z.B. mit einem Verhältnis von 8:1 oder von 4:1, um einen Low-Bit-Rate-Zugang zu dem Kernnetz zu gestatten und für Einsparungen von Kapazitäten innerhalb des Kernnetzes selbst.
Wenn zum Beispiel Sprachsignale zwischen zwei IP-Terminals übertragen werden, werden die Sprachsignale von einem Codierer in dem Ausgangsterminal umgewandelt und komprimiert, um parametrisierte, codierte, digitalisierte Analogsignale zu bilden, und von einem Decodierer in dem Zielterminal dekomprimiert und zurückumgewandelt, und umgekehrt.
Die Qualität der dem Endnutzer an dem jeweiligen Ausgangsterminal dargebotenen Sprache hängt von einer Reihe von Faktoren ab.
Eine erste Gruppe von Faktoren betrifft das Netz und umfasst Verzögerungen, verlorene Pakete, usw., auf der Übertragungsstrecke.
Eine zweite Gruppe von Faktoren betrifft das Terminal und umfasst die Qualität des Mikrofons, der Lautsprecher, des A/D-Umwandlers, der automatischen Pegelregelung, des Echokompensators, des Rauschunterdrückers, usw. Ein weiterer das Terminal betreffender Faktor sind die Umgebungseinflüsse des Terminals, wie zum Beispiel Umgebungsgeräusche. Neben der unterschiedlichen Güte der verwendeten Leistungsmerkmale oder Dienste zur Verbesserung der Sprache, kann es einigen Terminals sogar völlig an gewissen Leistungsmerkmalen oder Diensten zur Verbesserung der Sprache fehlen, welche nützlich wären, um die Zufriedenheit des Endnutzers zu erhöhen.
Eine dritte Gruppe von Faktoren tritt auf, wenn bei einer Übertragung mehrere Netze involviert sind, z.B. wenn ein IP-Terminal mit einem PSTN (Public Switched Telephone Network) oder mit einem Mobilzugangnetz zusammenarbeitet. In so einem Fall können sich zusätzliche Qualitätsverluste aus dem Echo von PSTN-Hybriden oder von akustischem Rauschen von mobilen Terminals usw. ergeben. IP-PSTN-Gateways werden verwendet, um das Zusammenarbeiten zwischen dem IP-Netz und dem PSTN-Netz oder dem Mobilzugangnetz zu ermöglichen. Diese Gateways können Leistungsmerkmale zur Verbesserung der Qualität der Sprache, die sie übertragen, einschließen.
Einigen Gateways fehlt es jedoch an wichtigen Leistungsmerkmalen zur Verbesserung der Sprache.
Bei Digitalnetzen wird für gewöhnlich nichts getan, um die terminal- oder die netzübergangsspezifischen Faktoren auf der Netzseite zu kompensieren.
Für GSM-Netze (Global System for Mobile communication) spezifiziert die ETSI (European Telecommunication Standards Institution) TFO (Tandem Free Operation), wie mehrfache Codierungen und Decodierungen, insbesondere an Gateways und Verteilern, vermieden werden können. Bei der Befolgung des TFO-Modells schließt der übertragene TFO-Strom parametrisierte, codierte Sprachsignale ein, die im Sprach-Parameter-Bereich von einem Ende zum anderen gehen. Die Endpunkte können zwei mobile oder ein mobiles und ein IP-Terminal über ein Gateway sein. Zwei nur durch ein IP-Netz miteinander verbundene IP-Terminals involvieren von Natur aus eine TFO. Die gleichen Prinzipien gelten auch für GPRS-Netze (General Packet Radio Service) und für Netze der dritten Generation, wo die Sprachsignale die ganze Strecke über in paketbasierten Netzen verbleiben können. Beispielhafte Strecken von dem Letztgenannten sind: MS-BS-RNC-SGSN-GGSN-IP-Terminal oder MS-BS-PCU-SGSN-GGSN-IP-Terminal (MS: Mobile Station; BS: Base Station; RNC: Radio Network Controller; SGSN: Serving GPRS Support Node; GGSN: Gateway GPRS Support Node; PCU: Packet Control Unit). Bis jedoch bei allen Netzen End-zu-End TFO Verbindungen realisiert sind, müssen die Übergangsfaktoren, die die Qualität von übertragenen digitalisierten Analogsignalen beeinflussen, immer noch berücksichtigt werden. Die termialspezifischen Faktoren werden bei dem TFO-Ansatz ohnehin nicht beeinflusst.
Insgesamt würde es vorteilhaft sein, wenn Digitalnetze Mittel zur Verbesserung der Qualität von digitalisierten Analogsignalen vorsehen würden. Mehrfache Codier- und Decodiervorgänge sollten aus Qualitätsgründen jedoch vermieden werden.
Für paketbasierte Netze führt die ITU-T Spezifikation H.323 (07/2000) einen Multipoint Prozessor (MP) ein, der für Konferenzschaltungen verwendet wird. Der Multipoint Prozessor stellt durch Verteilung und/oder Mischung aus M-Audio-Eingängen N-Audio-Ausgänge her. Zum Mischen werden die Eingangs-Audio-Signale zu linearen Signalen decodiert, auf die eine lineare Kombination angewendet wird. Das sich daraus ergebende Signal wird wieder in das geeignete Audioformat codiert. Es wird vorgeschlagen, dass der Multipoint Prozessor außerdem einige der Eingangs-Signale beseitigt oder abschwächt, um das Rauschen und andere unerwünschte Signale zu reduzieren.
Das bedeutet jedoch, dass ebenso ein zusätzlicher Decodier- und Codier-Schritt eingeführt wird, was der Qualität des Audiosignals zuliebe und wegen einer geringen Verarbeitungsverzögerung vermieden werden sollte, so wie bereits oben erwähnt.
Das Dokument EP 0 910 200 A1 bezieht sich auf eine Netzabschlusseinheit, die konfiguriert ist, um Kommunikationssignale zu empfangen, die einem Datenkommunikationsnetz zugeordnet sind, das in der Lage ist, die Dienstgüte zu variierten. Die Netzabschlusseinheit umfasst mindestens ein Modul, das die empfangenen Kommunikationssignale modifizieren kann, um so die Dienstgüte des Datenkommunikationsnetzes auf einem Schwellenwert oder unterhalb eines Schwellenwertes zu halten, unabhängig von der Netzbelastung.
ZUSAMMENFASSUNG DER ERFINDUNG
Ziel der Erfindung ist die Bereitstellung eines Netzelementes und eines Verfahrens, die eine zufrieden stellende Verbesserung der Qualität von digitalisierten Analogsignalen gestattet, die auf Netzseite über ein Digitalnetz übertragen werden.
Einerseits wird dieses Ziel durch ein Netzelement zur Verbesserung der Qualität von digitalisierten Analogsignalen, die mindestens in parametrisierter, codierter Form über ein Digitalnetz übertragen werden, zu dem das Netzelement Zugang hat, erreicht, wobei das Netzelement umfasst: einen Nutzdaten-Extraktions-Block zur Extrahierung von codierten, digitalisierten Analogsignalen von dem Digitalnetz, wobei die codierten, digitalisierten Analogsignale zumindest teilweise parametrisierte, codierte, digitalisierte Analogsignale einschließen; erste Verarbeitungsmittel zur Verarbeitung der extrahierten, parametrisierten, codierten, digitalisierten Analogsignale im Parameter-Bereich, mit zur Verbesserung der Qualität der digitalisierten Analogsignale geeigneten Funktionen; zweite Verarbeitungsmittel zur Verarbeitung von zumindest einem Teil der extrahierten, codierten, digitalisierten Analogsignale im linearen Bereich, mit zur Verbesserung der Qualität der digitalisierten Analogsignale geeigneten Funktionen; einen Nutzdaten-Einfüge-Block zur Einfügung der verarbeiteten, codierten, digitalisierten Analogsignale in das Digitalnetz; und Analyse- und Selektions-Mittel zur Bestimmung der Qualitätsverbesserung der digitalisierten Analogsignale, die sich aus der Verarbeitung der extrahierten, codierten, digitalisierten Analogsignale im Parameter-Bereich und aus der Verarbeitung der extrahierten, codierten, digitalisierten Analogsignale im linearen Bereich ergeben, und zur Bewirkung, dass zumindest die codierten, digitalisierten Analogsignale, die von den Verarbeitungsmitteln verarbeitet wurden, die zu einer besseren Verbesserung führen, von dem Nutzdaten-Einfüge-Block wieder in das Digitalnetz eingefügt werden.
Andererseits wird der Gegenstand durch ein Verfahren zur Verbesserung der Qualität von digitalisierten Analogsignalen, die mindestens in parametrisierter, codierter Form über ein Digitalnetz übertragen werden, erreicht, wobei das Verfahren umfasst:

– Extrahierung von codierten, digitalisierten Analogsignalen von dem Digitalnetz, wobei die codierten, digitalisierten Analogsignale zumindest teilweise parametrisierte, codierte, digitalisierte Analogsignale einschließen;
– Bestimmung der Qualitätsverbesserung der digitalisierten Analogsignale, die von der Verarbeitung der extrahierten, codierten, digitalisierten Analogsignale im Parameter-Bereich und von der Verarbeitung der extrahierten, codierten, digitalisierten Analogsignale im linearen Bereich erwartet wird;
– Verarbeitung der extrahierten, parametrisierten, codierten, digitalisierten Analogsignale im Parameter-Bereich, zumindest dann, wenn eine höhere Qualitätsverbesserung von der Verarbeitung im Parameter-Bereich erwartet wird, mit zur Verbesserung der Qualität der digitalisierten Analogsignale geeigneten Funktionen; und
– Verarbeitung von zumindest einem Teil der extrahierten, codierten, digitalisierten Analogsignale im linearen Bereich, zumindest dann, wenn eine höhere Qualitätsverbesserung von der Verarbeitung im linearen Bereich erwartet wird, mit zur Verbesserung der Qualität der digitalisierten Analogsignale geeigneten Funktionen; und – Einfügung zumindest der verarbeiteten, codierten, digitalisierten Analogsignale in das Digitalnetz, die in dem Bereich verarbeitet wurden, in welcher von der Verarbeitung erwartet wurde, dass sie zu einer höheren Qualitätsverbesserung führt.

Durch die Einschließung einer Möglichkeit zur Verarbeitung der übertragenen, codierten, digitalisierten Analogsignale nicht nur im linearen Bereich, sondern auch im Parameter-Bereich, ermöglichen das Netzwerkelement und das Verfahren, die der Erfindung entsprechen, eine optimale Verbesserung der Qualität von digitalisierten Analogsignalen auf der Netzseite.
Die Analyse- und Selektions-Mittel des Netzes der Erfindung bestimmen, ob eine Verarbeitung entweder im linearen Bereich und/oder im Parameter-Bereich verwendet werden sollte, indem analysiert wird, ob entweder die Verarbeitung im linearen Bereich oder im Parameter-Bereich zu einer besseren Qualitätsverbesserung der digitalisierten Analogsignale führt. Ein entsprechender Schritt wird bei dem Verfahren der Erfindung vorgesehen. Wenn zum Beispiel die Parameter-Bereich-Verarbeitung für die Verbesserung der Signalqualität technisch nicht ausführbar ist, wird davon ausgegangen, dass die lineare Verarbeitung zu einer besseren Qualitätsverbesserung führt. Wenn die Verarbeitung im Parameter-Bereich möglich ist, wird die erwartete Qualitätsverbesserung für beide Arten der Verarbeitung bestimmt und die Auswahl wird auf einen Vergleich der erwarteten Verbesserungen gestützt.
Im Falle, dass von der Verarbeitung der extrahierten Signale im Parameter-Bereich erwartet wird, dass sie zu einer besseren Verbesserung der Qualität des digitalisierten Analogsignals führen, werden zumindest die im Parameter-Bereich verarbeiteten Signale wieder in das Netz eingefügt. Im Falle, dass von der Verarbeitung der extrahierten Signale im linearen Bereich erwartet wird, dass sie zu einer besseren Verbesserung der Qualität des digitalisierten Analogsignals führen, werden nur die im linearen Bereich verarbeiteten Signale wieder in das Netz eingefügt.
Im Falle, dass von der Verarbeitung im Parameter-Bereich erwartet wird, dass sie zu besseren Ergebnissen führt, sollten nur die im linearen Bereich verarbeiteten Signale ergänzend zu den im Parameter-Bereich verarbeiteten Signalen in das Netz eingefügt werden, falls die Verarbeitung im linearen Bereich zu einer höheren Verarbeitungsverzögerung führt, wegen der erforderlichen, zeitaufwändigen Vor- und Nachbehandlungen. Auf diese Weise ist es möglich, auf die nachteilige, zusätzliche, vor der Verarbeitung der parametrisierten, codierten, digitalisierten Analogsignale im linearen Bereich erforderliche, Decodierung und Codierung der extrahierten Signale zu verzichten. Keine zusätzliche Decodierung und Codierung der Signale bedeutet eine bessere Qualität der digitalisierten Analogsignale und zugleich eine geringere Verarbeitungsverzögerung. Zum Beispiel erfordern über paketbasierte Netze übertragene, parametrisierte, codierte, digitalisierte Analogsignale, sowie die in dem TFO-Strom in einem TDM-basierten Netz übertragenen, codierten, digitalisierten Analogsignale, ein Decodieren vor, und ein Codieren nach der Verarbeitung im linearen Bereich, wohingegen die in dem Pulscodemodulations-(PCM)Strom in einem TDM-basierten Netz übertragenen, codierten, digitalisierten Analogsignale für die lineare Verarbeitung nur eine Umwandlung von A-Law oder μ-Law in die lineare Form und umgekehrt erfordern.
Während die wieder in das Netz einzufügenden Signale gemäß der erwarteten Qualitätsverbesserung ausgewählt werden, kann in jedem Fall in beiden Bereichen eine Verarbeitung durchgeführt werden, falls die verarbeiteten Signale zur Bestimmung, von welcher Verarbeitung erwartet wird, dass sie zu einem besseren Ergebnis führt, zu evaluieren sind. Im Falle, dass nur die im Parameter-Bereich verarbeiteten Signale wieder in das Netz einzufügen sind, kann diese Einfügung durchgeführt werden, bevor die Verarbeitung im linearen Bereich abgeschlossen ist. Die im linearen Bereich verarbeiteten Signale werden dann benutzt, sobald sie zur Bestimmung der zukünftigen, erwarteten Qualitätsverbesserungen durch die lineare Verarbeitung bereit stehen.
Bevorzugte Ausführungsformen der Erfindungen werden aus den Unteransprüchen ersichtlich.
Die Analyse- und Selektions-Mittel des Netzes der Erfindung kann seine Entscheidung, ob eine Verarbeitung im Parameter-Bereich oder im linearen Bereich auszuführen ist, auf eine Analyse der eingehenden Parameter-Bereich-Daten stützen, wie zum Beispiel auf die Parameter für Verstärkungen. Alternativ oder ergänzend kann es seine Entscheidung auf Messungen stützen, wie zum Beispiel des Sprachpegels, des Signal-zu-Stör-Abstands und des Vorhandenseins von Echos, die nach der Decodierung im linearen Bereich durchgeführt werden. Vorzugsweise erfolgen die Messungen und die Auswahl bevor und nachdem die Eingangs-Daten im linearen Bereich und im Parameter-Bereich verarbeitet wurden. Die Auswahl des Verarbeitungs-Bereichs kann dann durch den Vergleich der Messungen mit festen Schwellenwerten erfolgen, die entweder die Verarbeitung im linearen Bereich oder die im Parameter-Bereich nahe legen. Die numerischen Werte der Schwellenwerte können abgeleitet werden aus der Durchführung von z.B. realen Hörtests mit variierenden Test-Eingangs-Daten, die in beiden Bereichen verarbeitet und bewertet werden.
Da mehrere Faktoren die Auswahl des Verarbeitungs-Bereichs beeinflussen, kann es schwierig sein, Schwellenwert-Modelle zu formulieren, die unter allen Gesprächsbedingungen zu der besten Auswahl führen. Daher wird bei einer weiteren bevorzugten Ausführungsform ein auf einem neuronalen Netz basierender Ansatz zur Auswahl des Verarbeitungs-Bereichs, von der erwartet wird, dass sie die besseren Ergebnisse liefert, verwendet. Eingehende Parameter-Bereich-Daten und Ergebnisse von den Messungen nach der Decodierung können als Eingabe für das neuronale Netz aus N Neuronen benutzt werden. Die Gewichte oder die Koeffizienten für die Neuronen können abgeleitet werden, indem das Netz mit geeigneten Test-Daten und mit Ergebnissen von realen Hörtests trainiert wird.
Die Verarbeitungsmittel zur Verarbeitung im Parameter- Bereich und die Verarbeitungsmittel zur Verarbeitung im linearen Bereich können eine Vielzahl von Funktionen einschließen. Echokompensierung, Rauschminderung und Pegelregelung sind sowohl für die Verarbeitung im Parameter-Bereich als auch im linearen Bereich mögliche Funktionen. Außerdem sind für die Verarbeitung im Parameter-Bereich zumindest die Transcodierung und die Sprachmischung als Conference Bridge mögliche Funktionen.
Für eine Verstärkungsregelung im Parameter-Bereich können zum Beispiel die Verstärkungs-Parameter der extrahierten, parametrisierten, codierten, digitalisierten Analogsignale mit einer gewünschten Verstärkung verglichen werden zur Bildung der entsprechenden neuen Verstärkungs-Parameter. Die gewünschten Verstärkungs-Parameter können voreingestellt sein, von dem Nutzer eingegeben werden oder aus den empfangenen Verstärkungs-Parametern berechnet werden. Die neuen Verstärkungs-Parameter werden dann in die extrahierten, parametrisierten, codierten, digitalisierten Analogsignale eingefügt, wodurch die ursprünglichen Verstärkungs-Parameter ersetzt werden.
Um bei der Verarbeitung im Parameter-Bereich eine Rauschminderung zu erreichen, wird eine Verarbeitung im Zeitbereich oder im Frequenzbereich durchgeführt, vorzugsweise in beiden. Im Zeitbereich werden Rauschanteile und Signalanteile mit einem niedrigen Pegel der extrahierten, parametrisierten, codierten, digitalisierten Analogsignale abgeschwächt, und die entsprechenden Verstärkungs-Parameter werden in die extrahierten, parametrisierten, codierten, digitalisierten Analogsignale eingefügt, wodurch die ursprünglichen Verstärkungs-Parameter ersetzt werden. Im Frequenzbereich werden die Frequenzanteile des Rauschens in den extrahierten, parametrisierten, codierten, digitalisierten Analogsignalen, die ungefähr die gleiche Energie wie die Rausch-Schätzung haben, abgeschwächt. Entsprechende lineare Vorhersage-Parameter werden dann in die extrahierten, parametrisierten, codierten, digitalisierten Analogsignale eingefügt, wodurch die ursprünglichen, linearen Vorhersage-Parameter ersetzt werden.
Zur Echounterdrückung im Parameter-Bereich werden parametrisierte, codierte, digitalisierte Analogsignale aus beiden Richtungen extrahiert. Die Signale können dann verglichen werden, um Echos in den ersten parametrisierten, codierten, digitalisierten Analogsignalen zu entdecken. Anteile des ersten parametrisierten, codierten, digitalisierten Analogsignals werden durch Comfort-Noise-Anteile ersetzt, falls in dem Anteil des ersten parametrisierten, codierten, digitalisierten Analogsignals ein Echo festgestellt wurde. Das Echo-Signal kann ebenso zunächst abgeschwächt werden und dann wird das Rest-Echosignal unterdrückt. Es wird vorgeschlagen, eine Möglichkeit zur Vorbeileitung der ersten parametrisierten, codierten, digitalisierten Analogsignale ohne Echokompensierung einzuschließen, falls es in der entgegengesetzten Richtung keine Signalaktivität gibt, oder falls der Signalpegel der extrahierten, parametrisierten, codierten, digitalisierten Analogsignale in der entgegengesetzten Richtung unter einem Schwellenpegel liegt.
Bei einer bevorzugten Ausführungsform der Erfindung wird ein Bad-Frame-Handler-Block in dem Netzelement eingeschlossen. Dieser Block kann mit dem Nutzdaten-Extraktions-Block und mit den Verarbeitungsmitteln zur Entdeckung von fehlenden Frames, z.B. anhand von RTP-Zahlen (Real Time Protocol), zusammenarbeiten zur Regenerierung der fehlenden Frames, z.B. durch die Verwendung von Interpolationstechniken oder durch das Kopieren von vorhergehenden Frames, und zur Neuordnung von ungeordneten Frames innerhalb eines Pufferfensters. Eine geeignete Stelle für den Bad-Frame-Handler-Block ist unmittelbar hinter dem Nutzdaten-Extraktions-Block.
Bei einer weiteren bevorzugten Ausführungsform der Erfindung umfasst das Netzelement Analyse-Mittel zur Bestimmung, ob auf die extrahierten, parametrisierten, codierten, digitalisierten Analogsignale eine Verarbeitung anzuwenden ist, und zur Auswahl der Funktionen, die auf die extrahierten, parametrisierten, codierten, digitalisierten Analogsignale im Parameter-Bereich und/oder im linearen Bereich anzuwenden sind. Diese Funktionen können in den Analyse- und Selektions-Mitteln eingeschlossen werden, die zur Bestimmung der von einer Verarbeitung im Parameter-Bereich und von einer Verarbeitung im linearen Bereich erwarteten Qualitätsverbesserung benutzt werden.
In dem Fall, dass eine Verarbeitung für nicht erforderlich erachtet wird, können die codierten, digitalisierten Analogsignale ein Verarbeitungsmittel oder beide Verarbeitungsmittel einfach passieren, ohne dass eine Verarbeitung ausgeführt wird.
Die Auswahl kann von den Analyse-Mitteln eigenständig getroffen werden, indem die empfangenen, codierten, digitalisierten Analogsignale analysiert werden, und möglicherweise indem bereits verarbeitete Signale analysiert werden. Alternativ oder ergänzend kann die Auswahl von einem externen Steuerungssignal abhängen. Selbst wenn ein externes Steuerungssignal verwendet wird und dieses keine auszuführende Verarbeitung fordert, können die Analyse-Mittel die Qualität der empfangenen, parametrisierten, codierten, digitalisierten Analogsignale evaluieren, z.B. im Hinblick auf den Sprachpegel, das Vorhandensein von Echos, den Signal-zu-Stör-Abstand, und eine oder mehrere Verarbeitungsfunktionen auswählen. Das externe Steuerungssignal kann bei dem Netzelement über einen Steuerungs-Block in dem Netzelement eingehen, welcher dem spezifizierten H.248-Protokoll entsprechen kann, und zeigt zum Beispiel an, dass es bereits einen Echokompensator auf der Verbindung gibt, sodass die empfangenen, parametrisierten, codierten, digitalisierten Analogsignale ohne eine Echokompensierung durch die Verarbeitungsmittel weitergeleitet werden können. Der Steuerungsblock kann ebenso einen direkten Zugang zu den Verarbeitungsmitteln haben, um selber die Verarbeitungsfunktionen, die ausgeführt werden sollen, auszuwählen.
Die Auswahl der am besten geeigneten Funktionen, die eingesetzt werden sollen, ist ebenso ein bevorzugtes Merkmal des Verfahrens gemäß der Erfindung.
Das involvierte Digitalnetz kann entweder ein paketbasiertes Netz, wie zum Beispiel ein IP-, UDP-(User Datagram Protocol) oder RTP-(Real Time Protocol)Netz, oder ein TDM-basiertes Netz sein. Indes kann ebenso auf jedes andere Digitalnetz zugegriffen werden, das parametrisierte, codierte, digitalisierte Analogsignale überträgt. Wenn in dieser Beschreibung auf ein IP-Netz Bezug genommen wird, schließt dies jedes IP-, UDP- oder RTP-Netz ein.
In einem paketbasierten Netz werden die digitalisierten Analogsignale nur als parametrisierte, codierte, digitalisierte Analogsignale übertragen. In einem TDM-basierten Netz, z.B. für GSM verwendet, können die digitalisierten Analogsignale als parametrisierte, codierte, digitalisierte Analogsignale in einem TFO-Strom und gleichzeitig in einem PCM-Strom (Pulse Code Modulation) als in A-Law oder in μ-Law codierte G.711-PCM-Samples übertragen werden.
Entsprechend ist in einer bevorzugten Alternative der Nutzdaten-Extraktions-Block geeignet, um parametrisierte, codierte, digitalisierte Analogsignale von einem IP-Stapel eines paketbasierten Netzes zu extrahieren, und der Nutzdaten-Einfüge-Block ist geeignet, um parametrisierte, codierte, digitalisierte Analogsignale in den besagten IP-Stapels des paketbasierten Netzes einzufügen.
Bei einer anderen bevorzugten Alternative ist der Nutzdaten-Extraktions-Block geeignet, um von den Zeitschlitzen eines TDM-basierten Netzes einen TFO-Strom, und falls gewünscht, außerdem einen PCM-Strom, zu extrahieren. In dem letzteren Fall werden die beiden Ströme in der Nutzdaten-Extraktions-Box für die weitere Verarbeitung getrennt, und der Nutzdaten-Einfüge-Block ist geeignet, um einen zugeführten TFO-Strom mit einem zugeführten PCM-Strom wieder zu kombinieren, und um den kombinierten Strom in das besagte TDM-basierte Netz einzufügen. Wenn dem Nutzdaten-Einfüge-Mittel nur ein PCM-Strom zugeführt wird, kann es jedoch auch nur diesen PCM-Strom wieder in das besagte TDM-basierte Netz einfügen.
Bei dem GSM-PCM kann der Nutzdaten-Extraktions-Block nur den TFO-Strom als Eingabe nehmen oder alternativ den TFO-Strom und den PCM-Strom, die dann in dem Nutzdaten-Extraktions-Block getrennt werden.
Ein extrahierter TFO-Strom, der wieder in das Digitalnetz eingefügt wird, wurde entweder im Parameter-Bereich oder im linearen Bereich verarbeitet, mit einem Decodieren vor und einem Codieren nach der linearen Verarbeitung. Welche Art von TFO-Strom eingefügt wird, sollte von der erreichten oder von der erreichbaren Qualitätsverbesserung des eingeschlossenen digitalisierten Analogsignals abhängen. Außerdem sollte der nach der Decodierung im linearen Bereich verarbeitete TFO-Strom, ohne vorherige Codierung, in einen PCM-Strom umgewandelt werden, der mit den ausgewählten codierten TFO-Strömen zur Einfügung in das Digitalnetz kombiniert wird. Falls jedoch kein TFO-Strom bei dem Nutzdaten-Extraktions-Mittel verfügbar ist oder falls der TFO-Strom gestoppt wird, kann der PCM-Strom extrahiert und im linearen Bereich verarbeitet werden, und selber an das Digitalnetz über die Nutzdaten-Einfüge-Mittel ausgegeben werden.
Alternativ kann der TFO-Strom im Parameter-Bereich verarbeitet werden, und der PCM-Strom, der für die lineare Verarbeitung nicht decodiert werden braucht, kann parallel im linearen Bereich verarbeitet werden. Falls der TFO-Strom nur dann verarbeitet wird, wenn von ihm angenommen wird, dass er zu einem besseren Ergebnis führt, als die Verarbeitung des PCM-Stroms, wird der TFO-Strom nicht notwendigerweise bei den Daten eingeschlossen, die wieder in das Netz eingefügt werden, wenn er nicht verarbeitet wurde.
Das Netzelement gemäß der Erfindung kann frei neben oder im Innern jedes anderen Netzelementes angebracht werden. In einem paketbasierten Netz wird das Netzelement der Erfindung vorzugsweise an gleicher Stelle wie ein Breitband-IP-Netzknoten angebracht, was zu minimalen Verarbeitungsverzögerungen führt.
Das Netzelement und das Verfahren der Erfindung können für die Verbesserung der Qualität jedes digitalisierten Analogsignals verwendet werden, das von einem Digitalnetz in parametrisierter, codierter Form übertragen wird. Es ist von besonderer Relevanz für übertragene Sprachsignale, aber auch z.B. für Videosignale.
KURZE BESCHREIBUNG DER FIGUREN
Im Folgenden wird die Erfindung unter Bezugnahme auf die Zeichnungen detaillierter erläutert, wobei
1 die Integration des Netzelements gemäß der Erfindung in ein IP-Netz zeigt;
2 eine erste Ausführungsform des Netzelements gemäß der Erfindung zeigt;
3 eine zweite Ausführungsform des Netzelements gemäß der Erfindung zeigt;
4 eine dritte Ausführungsform des Netzelements gemäß der Erfindung zeigt;
5 ein Blockdiagramm einer Ausführungsform einer Parameter-Bereich-Verstärkungsregelung zeigt;
6 ein Blockdiagramm einer Ausführungsform einer Parameter-Bereich-Rauschunterdrückung zeigt;
7 ein Blockdiagramm einer Ausführungsform einer Parameter-Bereich-Echounterdrückung zeigt;
8 ein Blockdiagramm einer Ausführungsform einer Parameter-Bereich-Echokompensierung zeigt.
DETAILLIERTE BESCHREIBUNG DER ERFINDUNG
1 zeigt die Umgebung eines Netzelements 1 gemäß der Erfindung.
Ein erstes Terminal 2 ist über ein IP-Netz mit einem zweiten Terminal 3 verbunden. Beide Terminals 2, 3 können IP-Telefone sein. An einer Stelle in dem IP-Netz gibt es einen IP-Router, der einen Breitband-IP-Netzknoten 4 bildet. Dieser Netzknoten 4 ist an gleicher Stelle wie das Netzelement 1 gemäß der Erfindung angebracht, und mit diesem verbunden.
Das Netzelement 1 arbeitet im Sprach-Parameter-Bereich und ist in der Lage, Signalverarbeitungsfunktionen für parametrisierte, codierte Sprachsignale durchzuführen. Die verfügbaren Funktionen sind Echokompensierung, Rauschminderung, Verstärkungsregelung, Conference Bridge und Bad Frame Handling. Möglichkeiten zur Durchführung einiger dieser Funktionen werden später unter Bezugnahme auf die 5 bis 8 beschrieben.
Parametrisierte, codierte Sprachsignale gehen von dem ersten Terminal 2 zu dem Netzknoten 4. Sie werden von dem Netzknoten 4 zu dem Netzelement 1 weitergeleitet, welches die geeigneten Funktionen im Sprach-Parameter-Bereich durchführt. Dann werden die verarbeiteten, parametrisierten, codierten Sprachsignale an den Netzknoten 4 zurückgesendet, welcher sie zu ihrem Bestimmungsort weiterleitet, dem zweiten Terminal 3.
2 zeigt die verschiedenen Elemente, die in einer Ausführungsform des Netzelements 1 der 1 umfasst sind.
Ein Nutzdaten-Extraktions-Block 20 und ein Nutzdaten-Einfüge-Block 21 bilden zusammen die Schnittstelle des Netzelements 1 zu dem Netzknoten 4. Innerhalb des Netzelements 1 ist der Nutzdaten-Extraktions-Block 20 über einen Bad-Frame-Handler-Block 22 mit einem Analysierer- und Selektor-Block 23 verbunden. Die beiden Ausgänge des Analysierer- und Selektor-Blocks 23 sind einerseits mit ersten Verarbeitungsmitteln 24 verbunden und andererseits über einen Sprach-Decodier-Block 25 mit zweiten Verarbeitungsmitteln 26. Jedes der Verarbeitungsmittel 24, 26 umfasst eine Funktion für die Echokompensierung, für die Rauschminderung und für die Pegelregelung. Der Ausgang der ersten Verarbeitungsmittel 24 ist mit dem Eingang eines Selektors 27 verbunden. Der Ausgang der zweiten Verarbeitungsmittel 26 ist ebenfalls mit dem Eingang des Selektors 27 verbunden, aber über einen Sprach-Codier-Block 28. Der Ausgang des Selektors 27 ist der Eingang zu dem Nutzdaten-Einfüge-Block 21. Schließlich gibt es einen Steuerungsblock 29, z.B. einen H.248-Protokoll-Steuerungsblock, der als Eingabe ein außerhalb des Netzelementes 1 erzeugtes Steuerungssignal empfängt, und dessen Ausgang mit dem Analysierer- und Selektor-Block 23 verbunden ist.
Das Netzelement 1 arbeitet wie folgt:
Der Nutzdaten-Extraktions-Block 20 extrahiert von dem IP-Stapel des Netzknotens 4 der 1 die Nutzdaten, das heißt die parametrisierten, codierten Sprachsignale. Die Sprachparameter werden von dem Bad-Frame-Handler-Block 22 überprüft. Hier werden fehlende Frames entdeckt und unter Verwendung von Interpolationstechniken regeneriert. Ferner werden ungeordnete Frames innerhalb eines Pufferfensters neu geordnet. Die verarbeiteten Signale werden dann an den Analysierer- und Selektor-Block 23 weitergeleitet.
Der Analysierer- und Selektor-Block 23 analysiert die Sprachparameter und bestimmt, ob eine Verarbeitung in einem linearen Bereich oder im Parameter-Bereich zu einem besseren Ergebnis führen würde und welche der verfügbaren Funktionen angewendet werden sollten. Wenn die Parameter-Bereich-Verarbeitung für die Sprachverbesserung technisch nicht ausführbar ist, wird die lineare Verarbeitung ausgewählt. Der Analysierer- und Selektor-Block 23 kann ebenso bestimmen, dass überhaupt keine Verarbeitung durchgeführt werden braucht. Der Analysierer- und Selektor-Block 23 empfängt außerdem über den Steuerungsblock 29 externe Informationen, die zum Beispiel anzeigen, ob es bereits einen Echokompensator auf der Verbindung gibt, sodass eine weitere Echokompensierung nicht erforderlich ist.
Wenn keine Verarbeitung oder eine Verarbeitung im Parameter-Bereich ausgewählt wurde, gibt der Analysierer- und Selektor-Block 23 die codierten Sprachsignale an die ersten Verarbeitungsmittel 24 aus, welche im Parameter-Bereich auf die parametrisierten, codierten Sprachsignale alle ausgewählten Funktionen anwenden.
Wenn eine Verarbeitung im linearen Bereich als erforderlich angenommen wurde, gibt der Analysierer- und Selektor-Block 23 die parametrisierten, codierten Sprachsignale an den Sprach-Decodier-Block 25 aus. Der Sprach-Decodier-Block 25 decodiert die codierten Sprachsignale, die für GSM FR (Full Rate) geeignet sein können, um ein lineares Signal zu bilden. Das lineare Sprachsignal wird dann in die zweiten Verarbeitungsmittel 26 eingegeben, welche im linearen Bereich auf das lineare Sprachsignal alle ausgewählten Funktionen anwendet. Nach der Verarbeitung wird das lineare Sprachsignal in den Sprach-Codier-Block 28 eingegeben, welcher das lineare Sprachsignal codiert, um wieder für das GSM FR geeignete, parametrisierte, codierte Sprachsignale zu bilden.
Der Selektor 27 empfängt die Ausgangs-Signale des Sprach-Codier-Blocks 28 und der ersten Verarbeitungsmittel 24 und wird ferner durch den Analysierer- und Selektor-Block 23 gesteuert. Daher ist der Selektor 27 in der Lage, zu bestimmen, ob die Signale von den ersten Verarbeitungsmitteln 24 oder die Signale von dem Sprach-Codier-Block 28 verarbeitete, codierte Sprachsignale ausmachen, und die jeweiligen Signale zu dem Nutzdaten-Einfüge-Block 21 weiterzuleiten. Der Selektor 27 kann ferner die Arbeit des Analysierer- und Selektor-Blocks 23 durch die Zur-Verfügung-Stellung von Informationen über die verarbeiteten Signale unterstützen.
In dem Nutzdaten-Einfüge-Block werden die parametrisierten, codierten Sprachsignale wieder als Nutzdaten in den IP-Stapel des Netzknotens 4 eingefügt, von wo sie an ihren Bestimmungsort 3 weitergeleitet werden.
Insgesamt kann eine Verbesserung der Qualität der Sprache erreicht werden, während zusätzliche Decodierungen und Codierungen nur sofern erforderlich durchgeführt werden. Daher wird eine überflüssige Verminderung der Sprachqualität vermieden und die Verarbeitungsverzögerung wird durch die Verarbeitung im Parameter-Bereich niedrig gehalten. Da das Netzelement 1 zusammen mit dem Breitband-IP-Netzknoten 4 angebracht ist, werden die Verarbeitungsverzögerungen weiter minimiert.
3 veranschaulicht schematisch eine andere Ausführungsform des Netzelements der Erfindung. Die Ausführungsform ist ähnlich der ersten Ausführungsform des Netzelements, aber es wird für die Verarbeitung von codierten Sprachparametern verwendet, die von einem Netzknoten in einem TDM-basierten Netz empfangen wurden, welches für GSM TFO verwendet wird.
Ebenso wie das Netzelement der 2 umfasst das Netzelement der 3 einen Nutzdaten-Extraktions-Block 30, einen Bad-Frame-Handler-Block 32, einen Analysierer- und Selektor-Block 33, einen Decodier-Block 35, erste und zweite Verarbeitungsmittel 34, 36, einen Codier-Block 38, einen Nutzdaten-Einfüge-Block 31 und einen H.248-Protokoll-Steuerungsblock 39. Beide Verarbeitungsmittel 34, 36 umfassen wieder Funktionen für die Echokompensierung, die Rauschminderung und die Pegelregelung. Die Elemente sind in der gleichen Art und Weise wie in 2 miteinander verbunden. Im Gegensatz zu dem Netzelement der 2 ist jedoch anstelle eines Selektor-Blocks 27 ein zweiter Analysierer- und Selektor-Block 37 zwischen dem Codier-Block 38 und dem Nutzdaten-Einfüge-Block 31 integriert. Außerdem ist der Ausgang der zweiten Verarbeitungsmittel 36 nicht nur mit dem Codier-Block 38 verbunden, sondern auch unmittelbar mit dem Nutzdaten-Einfüge-Block 31.
Das Netzelement der zweiten Ausführungsform arbeitet wie folgt:
Das von dem Netzknoten bei dem Nutzdaten-Extraktions-Block 30 eingehende Signal enthält einen G.711-PCM-Strom von 48 oder 56 kbps in den höchstwertigen Bits und GSM-TFO-codierte Sprachparameter bei 16 oder 8 kbps in den niedrigstwertigen Bits. In dem Nutzdaten-Extraktions-Block 30 wird der TFO-Strom von dem PCM-Strom getrennt. Nur der TFO-Strom wird zu dem Bad-Frame-Handler-Block 32 weitergeleitet, wo er so behandelt wird, wie für die Behandlung der parametrisierten, codierten Sprachsignale in der Ausführungsform der 2 beschrieben.
Nach dem Bad-Frame-Handling wird der TFO-Strom in den Analysierer- und Selektor-Block 33 eingegeben. Der Analysierer- und Selektor-Block 33 leitet den TFO-Strom einerseits an die ersten Verarbeitungsmittel 34 weiter, wo der Strom im Parameter-Bereich verarbeitet wird. Andererseits leitet der Analysierer- und Selektor-Block 33 den TFO-Strom an die Decodier-Mittel 35 weiter, wo eine Sprach-Decodierung durchgeführt wird, z.B. wieder eine Decodierung von GMS FR zur linearen Form. Der decodierte TFO-Strom wird dann in die zweiten Verarbeitungsmittel 36 eingegeben, wo er im linearen Bereich verarbeitet wird. Für beide Verarbeitungsmittel 34, 36 werden die anzuwendenden Funktionen in dem ersten Analysierer- und Selektor-Mittel 33 ausgewählt, gemäß einem externen Steuerungssignal, das über den Steuerungsblock 39 in das Netzelement eingeht.
Die Ausgabe des ersten Verarbeitungsmittels 34 wird in den Analysierer- und Selektor-Block 37 eingegeben. Die Ausgabe der zweiten Verarbeitungsmittel 36 wird in den Codiermitteln wieder codiert, z.B. Codierung von der linearen Form in GSM FR, und ebenso in den zweiten Analysierer- und Selektor-Block 37 eingegeben.
Der erste Analysierer- und Selektor-Block 33 und der zweite Analysierer- und Selektor-Block 37 arbeiten zusammen, um zu bestimmen, welche Verarbeitung, die im Parameter-Bereich oder die im linearen Bereich, zu einer besseren Sprachqualität führt.
Im Falle, dass bestimmt wird, dass die Parameter-Verarbeitung des TFO-Stroms zu einer besseren Sprachqualität führt, als die lineare Verarbeitung des decodierten TFO-Stroms, wird nur der von den ersten Verarbeitungsmitteln 34 kommende TFO-Strom von dem zweiten Analysierer- und Selektor-Block 37 zu den Nutzdaten-Einfüge-Mitteln 31 weitergeleitet. Im Falle, dass bestimmt wird, dass die lineare Verarbeitung des decodierten TFO-Stroms zu einer besseren Sprachqualität führt, als die Parameter-Verarbeitung des TFO-Stroms, wird nur der von dem Codier-Block 38 kommende TFO-Strom von dem zweiten Analysierer- und Selektor-Block 37 zu den Nutzdaten-Einfüge-Mitteln 31 weitergeleitet.
Beide Pfade können die ganze Zeit über in Betrieb sein, sodass ein Wechsel zwischen den verschiedenen Modi, reine lineare Verarbeitung und parallele Verarbeitung, ohne Diskontinuitäten bei den internen Zuständen der Decodier- Mittel 25 und der Codier-Mittel 28 durchgeführt werden kann.
Die Ausgabe des zweiten Verarbeitungsmittels 36 wird außerdem ohne jegliche Codierung unmittelbar an das Nutzdaten-Einfüge-Mittel 31 weitergeleitet. In den Nutzdaten-Einfüge-Mitteln 31 wird aus dem decodierten und linear verarbeiteten TFO-Strom ein PCM-Strom gebildet. Der PCM-Strom und der ausgewählte, codierte TFO-Strom werden dann kombiniert und für weitere Übertragungen wieder in das TDM-basierte Netz eingefügt.
Folglich wurde die Sprachqualität des digitalisierten Analogsignals in dem ausgehenden PCM-Strom durch lineare Verarbeitung verbessert und die Sprachqualität des digitalisierten Analogsignals in dem ausgehenden TFO-Strom wurde durch Verarbeitung im Parameter-Bereich oder im linearen Bereich verbessert, abhängig davon, welche Verarbeitung zu einem besseren Ergebnis führt.
Wenn in dem von den Nutzdaten-Extraktions-Mitteln 30 extrahierten Signal kein TFO-Strom verfügbar ist oder der TFO-Strom stoppt, wird eine Möglichkeit vorgesehen, um den PCM-Strom für eine Frame-bezogene Behandlung über den Bad-Frame-Handler 32 zu leiten, und für die Verarbeitung im linearen Bereich über die zweiten Verarbeitungsmittel 36. Das Passieren eines Decodier-Blocks ist nicht erforderlich, da der PCM-Strom keine parametrisierten Daten enthält. Es sollte jedoch vermerkt werden, dass die lineare Verarbeitung eines G.711-PCM-Stroms die Umwandlung von A-Law oder μ-Law in die lineare Form erfordert und umgekehrt. Der verarbeitete PCM-Strom wird dann wieder von dem Nutzdaten-Einfüge-Mittel 31 in das Digitalnetz eingefügt.
4 veranschaulicht schematisch eine dritte Ausführungsform des Netzelements der Erfindung, die eine zweite Option zur Verbesserung der Qualität der Sprache in einem TDM-basierten Netz, das für GSM TFO benutzt wird, darstellt.
Bei diesem Beispiel ist ein Nutzdaten-Extraktions-Block 40 über einen Bad-Frame-Handler-Block 42 unmittelbar mit den ersten und zweiten Verarbeitungsmitteln 44, 46 verbunden. Beide Verarbeitungsmittel 44, 46 umfassen wieder Funktionen zur Echokompensierung, zur Rauschminderung und zur Pegelregelung. Auch die Ausgänge der ersten und zweiten Verarbeitungsmittel 44, 46 sind nur unmittelbar mit den Eingängen des Nutzdaten-Einfüge-Blocks 41 verbunden. Wieder ist ein H.248-Protokoll-Steuerungsblock 49 vorhanden.
Das Netzelement der dritten Ausführungsform arbeitet wie folgt:
Der PCM-Strom und der TFO-Strom, die von einem Netzknoten in dem Nutzdaten-Extraktions-Block 40 eingehen, werden durch den Nutzdaten-Extraktions-Block 40 getrennt, wie in der Ausführungsform der 3. Bei dieser Ausführungsform werden jedoch beide, der TFO-Strom und der PCM-Strom, zu dem Bad-Frame-Handler-Block 42 weitergeleitet und dort wie unter Bezugnahme auf die 2 behandelt.
Nach dem Bad-Frame-Handling wird der TFO-Strom zu den ersten Verarbeitungsmitteln 44 weitergeleitet, wo er im Parameter-Bereich verarbeitet wird. Gleichzeitig werden die PCM-Samples zu den zweiten Verarbeitungsmitteln 46 weitergeleitet. Da bei dieser Ausführungsform nur die PCM-Samples von den im linearen Bereich arbeitenden Verarbeitungsmitteln 46 verarbeitet werden, ist ein Decodier-Block nicht erforderlich; wie bezüglich der Ausführungsform der 3 erwähnt, enthält der PCM-Strom keine parametrisierten Daten. In beiden Verarbeitungsmitteln 44, 46 werden die anzuwendenden Funktionen gemäß einem externen Steuerungssignal mittels des Steuerungsblocks 49 des Netzelements ausgewählt.
Folglich wird die Sprachverbesserung für beide, für den TFO-Strom und für den PCM-Strom, getrennt und zur gleichen Zeit ausgeführt. In jedem Fall werden die codierten Sprachsignale in dem TFO-Strom nicht für die Verarbeitung decodiert und dann wieder codiert.
Der TFO-Strom und der PCM-Strom, die die Verarbeitungsmittel 44, 46 verlassen, werden in dem Nutzdaten-Einfüge-Block 41 kombiniert und für weitere Übertragungen wieder in das TDM-basierte Netz eingefügt. An einer anderen Stelle des Netzes kann entschieden werden, welcher der Ströme verwendet werden sollte, um die beste Sprachqualität zu erhalten.
Jede der drei beschriebenen Ausführungsformen des Netzelements gemäß der Erfindung gestattet eine Verbesserung der Qualität von parametrisierten Sprach- oder Videosignalen auf der Netzseite mit einer minimalen Verarbeitungsverzögerung. Sie können frei neben oder im Innern jedes bestehenden Netzelements angebracht werden.
Nun werden verschiedene Möglichkeiten der Verarbeitung im Parameter-Bereich in den ersten Verarbeitungsmitteln 24, 34, 44 einer der 2 bis 4 unter Bezugnahme auf die 5 bis 8 beschrieben.
5 zeigt ein Blockdiagramm einer Vorrichtung zur Verstärkungsregelung, die in ersten Verarbeitungsmitteln des Netzelements gemäß der Erfindung zur Verstärkungsregelung im Parameter-Bereich integriert werden kann. Die Eingabeleitung wird einerseits mit dem Eingang des Decoders 50 und andererseits mit einem ersten Eingang eines Verstärkungsparameter-Requantisierungs-Blocks 53 verbunden. Der Decoder 50 ist ferner unmittelbar und über einen Sprachpegel-Schätz-Block 51 mit einem Linear-zur-Parameter-Bereich-Abbildungs-Block 52 verbunden. Der Ausgang des Linear-zur-Parameter-Bereich-Abbildung-Blocks 52 ist mit einem zweiten Eingang des Verstärkungsparameter-Requantisierungs-Blocks 53 verbunden, welcher außerdem mit einer Ausgangsleitung verbunden ist.
Eingehende codierte Sprach-Frames werden zu dem Decoder 50 weitergeleitet, wo die codierten Sprachsignale linearisiert werden, bevor sie in den Sprachpegel-Schätz-Block 51 eingegeben werden. Der Sprachpegel-Schätz-Block 51 umfasst einen internen Voice Activity Detector (VAD), der für die Anzeige verwendet wird, ob die Pegelschätzung auf den neuesten Stand zu bringen ist, da es wünschenswert ist, dass bei der Sprachpegel-Schätzung nur der Sprachpegel geschätzt wird.
In dem Sprachpegel-Schätz-Block 51 wird ein gewünschter Verstärkungswert berechnet, basierend auf einem geschätzten Sprachpegel und einem vorherbestimmten, gewünschten Ziel-Sprachpegel. Die gewünschte Verstärkung wird dem ersten Eingang für den Linear-zur-Parameter-Bereich-Abbildungs-Block 52 eingegeben.
Der Sprachpegel-Schätz-Block 51 wird nur für eine automatische Pegelregelung benötigt. Für den Fall, dass eine feste Verstärkungsregelung verwendet wird, möglicherweise mit einer vom Nutzer einstellbaren Verstärkung, können der Decoder 50 und der Sprachpegel-Schätz-Block 51 weggelassen werden.
Weitere Eingaben zu dem Linear-zur-Parameter-Bereich-Abbildungs-Block 52 sind decodierte Verstärkungs-Parameter von gegenwärtigen Sprach-Frames von z.B. 20 ms oder von Sub-Frames von z.B. 5 ms, deren decodierte Verstärkungs-Parameter unmittelbar von dem Decoder 50 kommen. Die decodierten Verstärkungs-Parameter sind typischerweise Anregungs-Verstärkungs-Parameter eines Code Excited Linear Prediction (CELP) Sprach-Decoders. Diese Verstärkungs-Parameter bestehen typischerweise aus adaptiven und fixen Codebook-Verstärkungen, die für die Übertragung vektorquantisiert sind. Skalare Werte dieser Parameter können von internen Zwischenwerten des Decoders 50 erhalten werden.
In dem Linear-zur-Parameter-Bereich-Abbildungs-Block 52 wird der lineare, gewünschte Verstärkungswert zu geeigneten neuen Verstärkungs-Parametern eines Sprach-Decoders umgewandelt. Eine auf einem Codebook basierende Abbildung wird zur Bestimmung dieser neuen Verstärkungs-Parameter für den gegenwärtigen Frame oder Sub-Frame verwendet, um die gewünschte Verstärkung zu erzielen. Das Codebook ist eine dreidimensionale Tabelle, bei der die adaptive Codebook-Verstärkung, die fixe Codebook-Verstärkung und die linearen Verstärkungswerte eine jeweilige Dimension bilden. Die neuen Verstärkungs-Parameterwerte werden von der Tabelle eingelesen, sobald alle Eingabewerte für den Frame oder für den Sub-Frame bekannt sind. Diese Tabelle wird im Voraus in der Weise abgestimmt, dass die Fehler zwischen den neuen Verstärkungs-Parameterwerten und den Verstärkungs-Parameterwerten von verstärkungsskalierten, codierten Frames für jeden gewünschten, linearen Verstärkungswert minimiert werden. Alternativ könnte die Abbildungs-Tabelle auf die Minimierung des Fehlers zwischen dem decodierten, re-quantisierten Sprach-Frame und einem decodierten, verstärkungsskalierten Sprach-Frame abgestimmt werden. Die Abstimmung erfordert mehrere Test-Sequenzen, um alle Elemente innerhalb der Abbildungs-Tabelle abzustimmen.
Bei praktischen Implementierungen könnte es nützlich sein, die Größe der Tabelle zu komprimieren, entweder durch die Verwendung von Redundanzen bei den Daten, durch Limitierung der Verstärkungswerte, oder durch die Erhöhung der Stufenhöhe der Eingabewerte. Eine andere Möglichkeit ist das Herausfinden einer mathematischen Funktion, die sich der Abbildungs-Funktion in der Weise annähert, dass die Leistung subjektiv akzeptabel ist.
Schließlich werden die neuen Verstärkungswerte für die Übertragung re-quantisiert und die ursprünglichen Verstärkungswerte werden durch die neuen Werte in dem Verstärkungsparameter-Requantisierungs-Block 53 ersetzt.
6 zeigt ein Blockdiagramm einer Vorrichtung für die Rauschunterdrückung, die in ersten Verarbeitungsmitteln eines Netzelements gemäß der Erfindung für die Rauschunterdrückung im Parameter-Bereich integriert werden kann.
Eine Eingabeleitung wird wieder einerseits mit dem Eingang eines Decoders 60 und andererseits mit einem ersten Eingang eines Verstärkungsparameter-Requantisierungs-Blocks 63 verbunden. Ein erster Ausgang des Decoders 60 ist über einen Sprachpegel-Schätz-Block 61, einen VAD 66, einen Rauschpegel-und-Spektrum-Schätz-Block 64 und einen Kurzzeit-Signalpegel-und-Spektrum-Berechnungs-Block 65 mit einem Block 67 zur Bestimmung der Rausch-Abschwächungs-Parameter verbunden. Der Ausgang des VAD 66 ist darüber hinaus mit einem Eingang des Sprachpegel-Schätz-Blocks 61, sowie mit einem Eingang des Rauschpegel-und-Spektrum-Schätz-Blocks 64 verbunden.
Ein erster Ausgang des Blocks 67 zur Bestimmung der Rausch-Abschwächungs-Parameter ist mit einem ersten Eingang eines Spektrum-zur-LP (linear prediction) Abbildungs-Blocks 68 und ein zweiter Ausgang mit einem ersten Eingang eines Linear-zur-Parameter-Bereich-Abbildungs-Blocks 62 verbunden.
Ein zweiter Ausgang des Decoders 60 ist mit einem weiteren Eingang des Rauschpegel-und-Spektrum-Schätz-Blocks 64 und des Kurzzeit-Signalpegel-und-Spektrum-Berechnungs-Block 65, und zusätzlich mit einem zweiten Eingang des Spektrum-zur-LP-Abbildungs-Blocks 68 verbunden. Ein dritter Ausgang des Decoders 60 ist mit einem zweiten Eingang des Linear-zur-Parameter-Bereich-Abbildungs-Blocks 62 verbunden.
Der Ausgang des Linear-zur-Parameter-Bereich-Abbildungs-Blocks 62 ist mit einem zweiten Eingang des Verstärkungs-Parameter-Re-Quantisierungs-Blocks 63 verbunden, dessen Ausgang wiederum mit einem ersten Eingang des LP-Parameter-Re-Quantisierungs-Blocks 69 verbunden ist. Der zweite Eingang dieses Blocks 69 ist mit dem Ausgang des Spektrum-zur-LP-Abbildungs-Blocks 68 verbunden.
Schließlich ist der LP-Parameter-Requantisierungs-Block 69 mit einer Ausgangsleitung verbunden.
Der Decoder 60, der Sprachpegel-Schätz-Block 61, der Linear-zur-Parameter-Bereich-Abbildungs-Block 62 und der Verstärkungsparameter-Requantisierungs-Block 63 können mit den entsprechenden Blöcken 50–53 des Beispiels von 5 identisch oder diesen ziemlich ähnlich sein.
Bei dem Beispiel von 6 kann die Rauschunterdrückung durch Zeitbereichs- oder Frequenzbereichs-Parameter-Verarbeitung erreicht werden. Durch die Kombinierung beider Verfahren kann offensichtlich die optimale Leistung erzielt werden.
Die Zeitbereichs-Verarbeitung basiert auf einer dynamischen Verarbeitung, bei der Rauschanteile und Sprachsignalanteile mit einem sehr niedrigen Pegel durch eine Verstärkungsregelungsfunktion leicht abgeschwächt werden, indem von den Blöcken 60–63, die den Blöcken 50–53 der 5 entsprechen, Gebrauch gemacht wird. Die Verstärkungsregelung wird daher wie oben erklärt ausgeführt, nur dass der Block 67 für die Weiterleitung der von dem Block 61 empfangenen Sprachpegel-Schätzung zum Linear-zur-Parameter-Bereich-Abbildungs-Block 62 benutzt wird. Dies kann als eine erweiternde Funktion im Parameter-Bereich verstanden werden.
Bei der Frequenzbereichs-Rauschunterdrückung werden die Frequenzanteile, die mehr Energie als die Sprachsignale haben, abgeschwächt. Herkömmlicherweise wird ein lineares Zeitbereichs-Signal zunächst unter Verwendung einer Fourier Transformation oder Filter-Bänken in einen Frequenzbereich umgewandelt. Dann kann eine spektrale Subtraktion auf das Frequenzbereichs-Signal angewendet werden. Der Umfang der Subtraktion basiert auf einer Rausch-Schätzung, dem Signal-zu-Stör-Abstand und möglichen anderen Parametern. Schließlich wird das rausch-abgeschwächte Signal zurück in den Zeitbereich umgewandelt. Bei diesem Beispiel wird die Frequenzbereichs-Verarbeitung jedoch durch Neugestaltung einer Linear Prediction (LP) Spektrum-Einhüllenden von Sprach-Frames durchgeführt. Dies wird im Folgenden detaillierter erläutert.
Zur Erreichung einer Rauschunterdrückung mit hoher Qualität ist eine akkurate Rausch-Schätzung zu modellieren. Um zwischen Sprache und Sprachpausen zu differenzieren wird ein Sprach-Aktivitäts-Detektor 66 verwendet, der eine Sprach-Flagge „wahr" ausgibt, wenn Sprache erkannt wurde, und eine Sprach-Flagge „falsch", wenn eine Sprachpause erkannt wurde. Der Sprach-Aktivitäts-Detektor 66 muss von hoher Qualität sein, um akkurate VAD-Entscheidungen zu erhalten, auch unter Bedingungen mit einem geringen Signal-zu-Stör-Abstand, ansonsten divergieren Sprach- und Rausch-Schätzungen. Grundsätzlich wird die Sprachpegel-Schätzung in dem Sprachpegel-Schätz-Block 61 auf den neuesten Stand gebracht, wenn die Sprach-Flagge wahr ist, und die Sprachpegel- und Spektrum-Schätzungen werden in dem Rauschpegel-und-Spektrum-Schätz-Block 64 auf den neuesten Stand gebracht, wenn die Sprach-Flagge falsch ist.
Im Block 64 werden Langzeit-Rauschpegel und -spektrum geschätzt. Für die Schätzung des Langzeit-Rauschspektrums müssen in dem Decoder 60 die Linear Prediction Coefficients (LPC) von dem empfangenen Sprach-Frame decodiert werden. Die LP-Koeffizienten werden häufig von dem zur Codierung verwendeten Codierer zu Line Spectral Pairs (LSP) umgewandelt. In diesem Fall kann man die LPC-Werte von den internen Zwischenwerten des Decoders 60 erhalten. Da die LP-Koeffizienten nur die spektrale Einhüllende bestimmen, ist die Rauschpegel-Schätzung erforderlich, um die LP-spektrale Einhüllende zu skalieren, um eine Leistungsspektrums-Schätzung des Rauschens zu bilden.
Alternativ könnte die LP-spektrale Einhüllende unter Verwendung von Anregungs-Verstärkungs-Parametern des empfangenen Frames skaliert werden. Wie bereits oben erwähnt, wird die Rausch-Schätzung nur auf den neuesten Stand gebracht, wenn die VAD-Flagge falsch ist.
Ein Kurzzeit-Signalpegel und -spektrum wird in der gleichen Weise wie oben bei dem Kurzzeit-Signalpegel-und-spektrum-Berechnungs-Block 65 beschrieben für den empfangenen Frame berechnet, außer dass für die Pegelberechnung keine Durchschnittsbildung oder schnelle Durchschnittsbildung der vorhergehenden Frames verwendet wird. Typischerweise werden keine VAD-Entscheidungen verwendet.
Die Hauptintelligenz für den Algorithmus liegt in dem Block 67 zur Bestimmung der Rausch-Abschwächungs-Parameter. In diesem Block 67 werden die Frequenzbereichs-Rausch-Abschwächungs-Parameter (d.h. die gewünschte Spektrum-Gestaltung) gemäß der von dem Block 64 empfangenen Langzeit-Rausch-Spektrum-Schätzung und gemäß des von dem Block 65 empfangenen Kurzzeit-Signal-Spektrums ausgewählt. Entsprechend basiert die gewünschte Zeitbereichs-Verstärkung auf den Langzeit-Sprachsignalen und dem Langzeit-Rauschen, und auf den Kurzzeit-Signal-Pegeln. Außerdem werden von dem VAD 66 empfangene VAD-Informationen und der Langzeit-Signal- zu-Stör-Abstand, der aus den Sprachsignal- und Rauschpegel-Schätzungen berechnet wird, die von den Blöcken 61 und 64 erhalten werden, als zusätzliche Information für den Algorithmus des Blocks 67 zur Bestimmung der Rausch-Abschwächungs-Parameter verwendet.
Bei der Spektrum-Gestaltung im Block 67 wird die Langzeit-Rausch-Spektrum-Schätzung mit dem Kurzzeit-Signal-Spektrum verglichen. Es wird ein Ziel-Spektrum in der Weise gestaltet, dass die Kurzzeit-Spektrum-Anteile, die dem Langzeit-Spektrum ziemlich nahe sind, leicht abgeschwächt werden. Andererseits bleiben die Anteile unangetastet, die deutlich über dem Langzeit-Spektrum liegen, weil diese Anteile wahrscheinlich Sprachsignal-Informationen enthalten. Außerdem kann die Frequenz-Maskierung und die zeitliche Maskierung menschlicher Hörsysteme bei der Frequenz-Gestaltung verwendet werden. Das bedeutet, dass, wenn einige Anteile des Spektrums innerhalb einer Hörfrequenz-Maskierungs-Kurve liegen, für diese Anteile keine Frequenz-Gestaltung erforderlich ist. Bei der zeitlichen Maskierung wird für den gegenwärtigen Frame keine Fregeuenz-Gestaltung (oder Zeitbereichs-Verarbeitung) benötigt, wenn ein oder mehrere vorhergehende Frames einen höheren Sprachpegel enthalten haben, welcher einen Effekt der zeitlichen Maskierung für Signale des gegenwärtigen Frames mit einem niedrigeren Sprachpegel einführt. Die Verwendung dieser Regeln führt zu einer geringeren Verzerrung der verarbeiteten Sprachsignale, da eine geringere Gestaltung erfolgt.
Ferner kann die Spektrum-Gestaltung durch die VAD-Flagge in der Weise gesteuert werden, dass eine geringere Gestaltung angewendet wird, wenn eine Sprachpause erkannt wurde. Die Rauschabschwächung wird dann hauptsächlich durch die Verstärkungsverarbeitung während der Sprachpausen durch die Blöcke 60–63 erzielt. Ergänzend kann auch der Kurzzeit-Signalpegel den Umfang der Gestaltung steuern. D.h., es erfolgt eine geringere Gestaltung bezüglich der Frames mit einem geringeren Pegel, da die Rauschabschwächung teilweise über die Verstärkungsverarbeitung abgewickelt wird. Schließlich kann der Umfang der Spektrum-Gestaltung in der Weise von dem langzeitigen Signal-zu-Stör-Abstand (SNR) abhängen, dass bei einer hohen SNR eine geringere Gestaltung angewendet wird, um eine hohe Qualität unter rauschfreien Sprach-Konditionen zu erhalten.
Sobald die gewünschte Spektrum-Gestaltung für den gegenwärtigen Frame berechnet ist, sind die ursprünglichen LP-Koeffizienten entsprechend dem gewünschten Spektrum umzuwandeln. Dies wird in dem Spektrum-zur-LP-Abbildungs-Block 68 durchgeführt. Die Abbildung kann wieder als Codebook-Abbildungs realisiert werden, indem das ursprüngliche LPC und das gewünschte Spektrum als Eingangsparameter verwendet werden. Alternativ könnten neue LP-Koeffizienten unmittelbar aus dem gewünschten Spektrum berechnet werden, indem das Spektrum zu einer LP-Spektrum-Einhüllenden umgewandelt wird, und indem es auf diese Weise zu LP-Koeffizienten umgewandet wird.
Schließlich werden die neuen LPC-Parameter in dem LP-Parameter-Requantisierungs-Block 69 quantisiert oder in LSP-Parameter umgewandelt und die alten Parameter werden durch neue in den codierten Frames ersetzt.
Wie bereits erwähnt kann eine Signal-Dynamik-Erweiterungs-Funktion zusammen mit der Spektrum-Gestaltung benutzt werden oder sie kann sogar alleine benutzt werden. Wenn sie alleine benutzt wird, ist nur eine leichte Erweiterung gestattet, da sie einen Rauschmodulationseffekt verursachen kann. Bei der Erweiterung ist es im Grunde so, dass je niedriger der Signalpegel ist, desto mehr Abschwächung wird angewendet. Die Erweiterungsschwelle wird in der Weise durch die Rauschpegel-Schätzung gesteuert, dass der die Rauschpegel-Schätzung überschreitende Frame oder Sub-Frame nicht abgeschwächt wird. Ferner kann das VAD 66 die Erweiterung in der Weise steuern, dass eine leicht geringere Erweiterung immer dann verwendet wird, wenn der gegenwärtige Frame ein Sprach-Frame ist. Dadurch kann die Abschwächung von Sprachphonemen mit einem geringen Pegel minimiert werden.
Sobald die gewünschte lineare Verstärkung für den gegenwärtigen Frame oder Sub-Frame gefunden ist, können die Linear-zur-Parameter-Bereich-Abbildung und die Verstärkungsparameter-Requantisierung in den Blöcken 62 und 63 wie unter Bezugnahme auf die Verstärkungsregelung beschrieben durchgeführt werden. Als Ergebnis werden modifizierte Verstärkungs- und LPC-Parameter mit anderen Sprachparametern über das Übertragungsmedium übertragen.
7 zeigt ein Blockdiagramm einer Vorrichtung für die Echounterdrückung, die in einer ersten Verarbeitungsvorrichtung eines Netzwerkelements gemäß der Erfindung zur Echounterdrückung im Parameter-Bereich integriert werden kann.
Eine erste Eingangsleitung ist mit einem ersten Decoder 70 verbunden und eine zweite Eingangsleitung ist mit einem zweiten Decoder 71 verbunden, wobei beide Decoder 70, 71 wiederum mit einem Echo-Analyse-Block 72 verbunden sind. Der Ausgang des ersten Decoders 70 ist ferner über einen Rausch-Schätz-Block 73, einen Comfort-Noise-Generation-Block 74 und einen Codierer 75 mit einer Verbindung eines Verteilers 76 verbunden. Der Verteiler 76 kann entweder eine Verbindung zwischen dem Codierer 75 und einer Ausgangsleitung oder zwischen der ersten Eingangsleitung und der Ausgangsleitung bilden. Der Echo-Analyse-Block 72 besitzt einen Steuerungszugang zu diesem Verteiler 76.
Um in der Lage zu sein, bestimmen zu können, ob ein von einem nahen Ende zu einem fernen Ende übertragenes Signal ein Echo umfasst und um in der Lage zu sein, solch ein Echo zu unterdrücken oder zu kompensieren, sind Signale von beiden Übertragungsrichtungen zu analysieren. Deshalb werden zwei Decoder 70, 71 zur Linearisierung von Signalen von dem nahen Ende (Punkt, an dem das Echo zurück reflektiert wird) als „send in"-Signale, beziehungsweise zur Linearisierung von Signalen von dem fernen Ende als „receive in"-Signale verwendet. Es ist einfacher und genauer, die Echo-Analyse im linearen Bereich durchzuführen. Im dem Echo-Analyse-Block 72 werden die Signalpegel der zwei linearisierten Signale geschätzt. Wenn das Pegelverhältnis zwischen den Signalen des nahen Endes und denen des fernen Endes geringer als ein Schwellenwert ist, wird das Signal des nahen Endes als ein Echo angesehen und in das Signal, das als „send out"-Signal zu dem fernen Ende übertragen werden soll, wird Comfort Noise eingefügt. Wenn es ein akustisches Echo gibt, kann ein spezielles Filtern für die Schätzung des Signals des fernen Endes benutzt werden, um die Double-Talk-Performance der Echounterdrückung zu verbessern, so wie z.B. in dem Dokument WO 9749196 beschrieben. Um das korrekte Ergebnis von dem Signalvergleich zu bekommen muss die Echopfadverzögerung bekannt sein. Wenn die Verzögerung variabel ist, kann eine Verzögerungsschätzung notwendig sein, um den korrekten Verzögerungswert zu bestimmen. Eine Kreuzkorrelation kann für die Verzögerungsschätzung benutzt werden.
In dem Rausch-Schätz-Block 73 wird eine genaue Rausch-Schätzung des von dem ersten Decoder 70 empfangenen linearisierten Signals des nahen Endes gebildet. Vorzugsweise wird das Hintergrundrauschen sowohl im Pegel-Bereich als auch im spektralen Bereich geschätzt. Das Schätzverfahren kann das gleiche Verfahren sein, wie das für die Rauschunterdrückung beschriebene. Ebenso können andere Verfahren benutzt werden, z.B. Verfahren, die auf Filterbänken oder auf der Fourier-Transformation beruhen.
Der Comfort Noise wird dann in dem Comfort-Noise-Generation-Block 74 erzeugt, indem von der Rausch-Schätzung Gebrauch gemacht wird, die von dem Rausch-Schätz-Block 73 empfangen werden. Zur Erzeugung des Comfort Noise wird ein pegelskaliertes Weißrauschen über ein Synthese-Filter eingegeben, das tatsächlich das äquivalente Einhüllenden-Spektrum wie der Rausch-Schätz-Block 73 besitzt. Daher kann das Synthese-Filter ein LP-Filter oder eine Filter-Bank sein.
Schließlich wird der erzeugte Comfort Noise von dem Codierer 75 codiert, um einen Frame oder einen Sub-Frame zu bilden, der einen codierten Comfort-Noise-Parameter umfasst.
Wenn von dem Echo-Analyse-Block 72 für den gegenwärtigen „send in"-Frame oder -Sub-Frame ein Echo manifestiert wurde, wird der Verteiler 76 von dem Echo-Analyse-Block 72 umgeschaltet, um den Codierer 75 mit der Ausgangsleitung zu verbinden, und der gegenwärtige Frame oder Sub-Frame wird mit dem erzeugten codierten Comfort-Noise-Parameter ersetzt. Wenn kein Echo manifestiert wird, verbindet der Verteiler 76 weiterhin die erste Eingangsleitung mit der Ausgangsleitung oder er wird von dem Echo-Analyse-Block 72 entsprechen umgeschaltet, sodass der ursprüngliche Frame oder Sub-Frame ohne ersetzt zu werden zu der Ausgangsleitung weitergeleitet wird.
Durch die Verwendung des beschriebenen Verfahrens kann Tandem-Sprach-Codierung vermieden werden, sowohl bei Sprach-Frames als auch bei Comfort-Noise-Frames, und es kann eine hohe Qualität der Sprache geliefert werden.
Alternativ und um Verarbeitungs- und Speicher-Ressourcen einzusparen kann der Sprach-Codierer weggelassen werden, indem der Comfort Noise direkt im Parameter-Bereich erzeugt wird. Bei der Parameter-Bereich-Comfort-Noise-Erzeugung wird ein Langzeit-LP-Spektrum-Envelope eines Hintergrundrauschens wie unter Bezugnahme auf die 6 beschrieben gemittelt. Außerdem wird ein Langzeit- Anregungs-Verstärkungs-Parameter nach den gleichen Updating-Prinzipien wie für das LP-Spektrum-Envelope-Updating gemittelt, d.h. es wird auf den neuesten Stand gebracht, wenn die VAD Flagge falsch ist. Typischerweise brauchen nur die festen Codebook-Verstärkungs-Werte gemittelt werden, da der anpassungsfähige Codebook-Verstärkungs-Wert nahe Null ist, wenn es ein rauschmäßiges Signal gibt. Da ein Comfort-Noise-Frame oder -Sub-Frame zu dem fernen Ende übertragen werden muss, werden die ursprünglichen LPC- und Anregungs-Verstärkungs-Parameter mit den gemittelten LPC und Verstärkungs-Parametern ersetzt. Außerdem werden die ursprünglichen Anregungsimpulse innerhalb des Frames mit zufälligen Impulsen ersetzt, die im Parameter-Bereich weißes Rauschen darstellen. Wenn in der „send in"-Richtung eine diskontinuierliche Übertragung (DTX) verwendet wird, müssen die Anregungsimpulse nicht übertragen werden. Stattdessen werden nur die gemittelten LPC- und Verstärkungs-Parameter in dem Silence-Description-Frame (SID) übertragen, der für die meisten Sprach-Codecs standardisiert ist. Bei diskontinuierlichen Übertragungen werden die zufälligen Anregungsimpulse an dem Decoder-Ende erzeugt.
8 zeigt ein Blockdiagramm einer Vorrichtung zur Echokompensierung, welches in den ersten Verarbeitungsmitteln eines Netzelements gemäß der Erfindung zur Echokompensierung im Parameter-Bereich integriert werden kann.
Eine erste Eingangsleitung ist unmittelbar mit einem ersten Decoder 80 verbunden, und eine zweite Eingangsleitung ist über einen FIFO-(first in first out)Frame-Speicher 87 mit einem zweiten Decoder 81 verbunden, wobei beide Decoder 80, 81 wiederum mit einem anpassungsfähigen Filter 82 verbunden sind. Das anpassungsfähige Filter 82 ist mit einem NLP-und-Comfort-Noise-Generation-Block 84 verbunden, und der erste Decoder ist über einen Rausch-Schätz-Block 83 mit einem zweiten Eingang desselben Blocks 84 verbunden. Der Ausgang des NLP-und-Comfort-Noise-Generation-Blocks 84 ist über einen Codierer 85 mit einem Verteiler 86 verbunden. Der Verteiler 86 kann entweder eine Verbindung zwischen dem Codierer 85 und der Ausgangsleitung oder zwischen der ersten Eingangsleitung und der Ausgangsleitung bilden. Ein Ausgang des ersten Decoders 80, des zweiten Decoders 81 und des anpassungsfähigen Filters 82 sind außerdem mit Eingängen einer Steuerlogik 88 verbunden. Die Steuerlogik 88 hat einen Steuerungszugang zu dem anpassungsfähigen Filter 82, zu dem NLP-und-Comfort-Noise-Generation-Block 84 und zu dem Verteiler 86.
Die vorgeschlagene Echokompensierung ist ziemlich ähnlich mit der oben beschriebenen Echounterdrückung. Das anpassungsfähige Filter 82 und die Steuerlogik 88 sind eingeschlossen, um das Echosignal zu vermindern, bevor eine Rest-Echounterdrückungsfunktion durch einen nicht linearen Prozessor (NLP) 84 angewendet wird. Für die lineare anpassungsfähige Filterung sind Signale aus beiden Richtungen von den örtlichen Decodern 80, 81 zu linearisieren. Da es zwei Sprach-Codierungen für das zurückkommende Echosignal gibt, reduziert die kumulierte nicht-lineare Verzerrung die Wirksamkeit der anpassungsfähigen Filterung in beachtlicher Weise. Daher kann es wünschenswert sein, eine nicht-lineare Echo-Modellierung bei der Echokompensierung einzuschließen, so wie z.B. in dem Dokument WO 9960720 beschrieben. Außerdem können die durch Sprach-Codierungen in den Echo-Pfad eingefügten Verzögerungen, Übertragungen oder andere Signalverarbeitungen durch den FIFO-Frame-Speicher-Block 87 kompensiert werden. Folglich kann die Anzahl der Taps des anpassungsfähigen Filters 82 reduziert werden, und es ist eine geringere Verarbeitungskapazität erforderlich.
Die Funktion des Rausch-Schätz-Blocks 83 und die des NLP-und-Comfort-Noise-Generation-Blocks 84 kann ähnlich zu der oben beschriebenen Rauschunterdrückung sein, obwohl die Steuerung des NLP 84 unterschiedlich sein kann, da mehr Parameter, z.B. Echo-Pfad-Modell, erreichte Echoabschwächung, „send in"-, „receive in"-, und Rest-Echosignale, bei der NLP-Entscheidung verwendet werden können. Dies wird innerhalb des Steuerlogik-Blocks 88 abgewickelt. Die Ausgabe des NLP-und-Comfort-Noise-Generation-Blocks 84 wird von dem Codierer 85 codiert.
Der Verteiler 86 ist zur Umschaltung zwischen dem an dem „send in"-Port empfangenen Sprach-Frame und der codierten Ausgabe des NLP/Comfort-Noise-Blocks vorgesehen, d.h., dass die Ausgabe des „send out"-Ports entweder ein vorbeigeleiteter „send in"-Frame (oder Sub-Frame) oder ein echokomprimierter Frame (oder Sub-Frame) ist. Ein Kriterium für die Auswahl könnte wie folgt aussehen.
Wenn es keine Sprachaktivität gibt, oder wenn der Signalpegel des fernen Endes niedrig genug ist, werden die „send in"-Frames vorbeigeleitet. Andernfalls wird die Ausgabe des NLP/Comfort-Noise-Blocks 84 nach der Codierung durch den Codierer 85 als Ausgabe ausgewählt. Daher bleibt ein TFO-Strom unberührt, wenn nur das nahe Ende spricht, oder wenn es in beiden Richtungen ein Schweigen gibt. Wenn nur das ferne Ende spricht, wird codiertes Comfort Noise eingefügt. Wenn es eine Double-Talk-Kondition gibt, wird entweder das Comfort-Noise oder die Ausgabe des anpassungsfähigen Filters 82 für das „send out"-Signal ausgewählt. Dies hängt von dem Status des NLPs 84 ab und variiert typischerweise während des Double Talks. Ein Vorteil dieses Verfahrens liegt darin, dass es für das Signal des nahen Endes meistens eine Tandem Free Operation gibt. In den Momenten, wenn tandem-codierte Frames in Richtung des fernen Endes gesendet werden, ist das Double Talk mit dem NLP-Block 84 inaktiv. Dies ist jedoch verglichen mit der herkömmlichen Echokompensierung subjektiv nicht mehr störend, da das NLP-Umschaltung bereits einige Artefakte bei der Sprache des nahen Endes einführt, und weil die direkte akustische Maskierung und das Eigenecho des fernen Endes die Hörbarkeit der NLP-Artefakte während des Double Talk vermindern.
Um Verarbeitungs- und Speicherressourcen einzusparen, könnte alternativ der Codierer weggelassen werden, indem das Comfort Noise unmittelbar im Parameter-Bereich erzeugt wird, so wie unter Bezugnahme auf 7 beschrieben.

Claims

Netzelement (1) zur Verbesserung der Qualität von digitalisierten Analogsignalen, die mindestens in parametrisierter, codierter Form über ein Digitalnetz übertragen werden, zu dem das Netzelement (1) Zugang hat, wobei das Netzelement umfasst: – ein Nutzdaten-Extraktions-Block (20, 30, 40) zur Extrahierung von codierten, digitalisierten Analogsignalen von dem Digitalnetz, wobei die codierten, digitalisierten Analogsignale zumindest teilweise parametrisierte, codierte, digitalisierte Analogsignale einschließen; – erste Verarbeitungsmittel (24, 34, 44) zur Verarbeitung der extrahierten, parametrisierten, codierten, digitalisierten Analogsignale im Parameter-Bereich, mit zur Verbesserung der Qualität der digitalisierten Analogsignale geeigneten Funktionen; – zweite Verarbeitungsmittel (26, 36, 46) zur Verarbeitung von zumindest einem Teil der extrahierten, codierten, digitalisierten Analogsignale im linearen Bereich, mit zur Verbesserung der Qualität der digitalisierten Analogsignale geeigneten Funktionen; – einen Nutzdaten-Einfüge-Block (21, 31, 41) zur Einfügung von verarbeiteten, codierten, digitalisierten Analogsignale in das Digitalnetz; und – Analyse- und Selektions-Mittel (23, 27, 33, 37) zur Bestimmung der Qualitätsverbesserung der digitalisierten Analogsignale, die sich aus der Verarbeitung der extrahierten, codierten, digitalisierten Analogsignale im Parameter-Bereich und aus der Verarbeitung der extrahierten, codierten, digitalisierten Analogsignale im linearen Bereich ergeben, und zur Bewirkung, dass zumindest die codierten, digitalisierten Analogsignale, die von den Verarbeitungsmitteln (24, 26, 34, 36) verarbeitet wurden, die zu einer besseren Verbesserung führen, von dem Nutzdaten-Einfüge-Block (21, 31, 41) wieder in das Digitalnetz eingefügt werden.
Netzelement (1) nach Anspruch 1, wobei die Funktionen zur Verarbeitung der parametrisierten, codierten, digitalisierten Analogsignale durch die ersten Verarbeitungsmittel (24, 34, 44) Echokompensierung, Rauschminderung und/oder Pegelregelung einschließen.
Netzelement (1) nach einem der vorhergehenden Ansprüche, wobei die Funktionen zur Verarbeitung der codierten, digitalisierten Analogsignale durch die zweiten Verarbeitungsmittel (26, 36, 46) Echokompensierung, Rauschminderung, Pegelregelung und/oder Sprachmischung einschließen.
Netzelement (1) nach einem der vorhergehenden Ansprüche, wobei die Analyse- und Selektions-Mittel zur Analyse der digitalisierten Analogsignale vor und nach der Verarbeitung durch die ersten und die zweiten Verarbeitungsmittel geeignet sind, zur Bestimmung der besseren Qualitätsverbesserung.
Netzelement (1) nach einem der vorhergehenden Ansprüche, wobei die Analyse- und Selektions-Mittel ein neuronales Netz zur Bestimmung der besseren Qualitätsverbesserung umfasst.
Netzelement (1) nach einem der vorhergehenden Ansprüche, gekennzeichnet durch einen Bad-Frame-Handler (22, 32, 42) zur Entdeckung von fehlenden Frames (Rahmen) und/oder von ungeordneten Frames in den extrahierten, codierten, digitalisierten Analogsignalen, und zur Regenerierung der fehlenden Frames und/oder zum Ordnen der ungeordneten Frames in den extrahierten Signalen.
Netzelement (1) nach einem der vorhergehenden Ansprüche, gekennzeichnet durch Analyse-Mittel (23, 33) zur Bestimmung, ob auf die extrahierten, parametrisierten, codierten, digitalisierten Analogsignale überhaupt eine Verarbeitung angewendet werden soll, und zur Auswahl der Funktionen, die auf die extrahierten, codierten, digitalisierten Analogsignale von dnm ersten Verarbeitungsmitteln (24, 34) und/oder von den zweiten Verarbeitungsmitteln (26, 36) anzuwenden sind, abhängig von den extrahierten Signalen und/oder einem externen Steuerungssignal.
Netzelement (1) nach einem der vorhergehenden Ansprüche, gekennzeichnet durch einen Steuerungsblock (29, 39, 49) zum Empfang eines externen Steuerungssignals und zur Steuerung der Auswahl der auf die extrahierten, codierten Signale angewendete Verarbeitung, direkt oder über Analyse-Mittel (23, 33, 37).
Netzelement (1) nach einem der vorhergehenden Ansprüche, wobei der Nutzdaten-Extraktions-Block (20) geeignet ist, um parametrisierte, codierte, digitalisierte Analogsignale von dem Internet-Protokollstapel eines paketbasierten Netzes zu extrahieren, und wobei der Nutzdaten-Einfüge-Block (21) geeignet ist, um parametrisierte, codierte, digitalisierte Analogsignale in den Internet-Protokollstapel dieses paketbasierten Netzes einzufügen.
Netzelement (1) nach Anspruch 9, wobei das Netzelement (1) ferner umfasst: – Decodier-Mittel (25) zur Decodierung dieser parametrisierten, codierten, digitalisierten Analogsignale und zur Weiterleitung dieser decodierten Signale zu den zweiten Verarbeitungsmitteln (26); – Codier-Mittel (28) zur Codierung der von dem zweiten Verarbeitungsmittel (26) verarbeiteten und ausgegebenen Signale; – erste Selektions-Mittel (23) zum Empfang der extrahierten, codierten, digitalisierten Analogsignale von dem Nutzdaten-Extraktions-Block (20) und zur Weiterleitung der extrahierten, codierten, digitalisierten Analogsignale entweder zu den ersten Verarbeitungsmitteln (24) oder über die Decodier-Mittel (25) zu den zweiten Verarbeitungsmitteln (26); – zweite Selektions-Mittel (27) zum Empfang der Ausgabe der ersten Verarbeitungsmittel (24) und der zweiten Verarbeitungsmittel (26) als Eingabe, und zur Auswahl, welche Ausgabe zu dem Einfüge-Nutzdaten-Block (21) weitergeleitet werden soll; und – Analyse-Mittel (23) zur Bestimmung, ob die extrahierten, codierten, digitalisierten Analogsignale von den ersten Verarbeitungsmitteln (24) oder von den zweiten Verarbeitungsmitteln (26) verarbeitet werden sollen, und zur entsprechenden Steuerung der ersten Selektions-Mittel (23) und der zweiten Selektions-Mittel (27).
Netzelement nach einem der Ansprüche 1 bis 8, wobei der Nutzdaten-Extraktions-Block (30, 40) geeignet ist zur Extrahierung eines Tandem-Free-Operation-Stroms und eines Pulscodemodulations-Stroms von einem Time-Division-Multiplex-basierten Netz, zur Trennung des besagten Tandem-Free-Operation-Stroms von dem besagtem Pulscodemodulations-Strom und zur Bereitstellung dieses Tandem-Free-Operation-Stroms als parametrisierte, codierte, digitalisierte Analogsignale, und wobei der Nutzdaten-Extraktions-Block (31, 41) geeignet ist zur Kombinierung eines Tandem-Free-Operation-Stroms mit einem Pulscodemodulations-Strom und zur Einfügung des kombinierten Stroms oder, wenn dem Nutzdaten-Extraktions-Block (31, 41) kein Tandem-Free-Operation-Strom bereitgestellt wird, nur eines Pulscodemodulations-Stroms in das Time-Division-Multiplex-basierte Netz.
Netzelement nach Anspruch 11, wobei das Netzelement ferner umfasst: – Decodier-Mittel (35) zur Decodierung des besagten Tandem-Free-Operation-Stroms und zur Weiterleitung der decodierten Signale zu den zweiten Verarbeitungsmitteln (36); – Codier-Mittel (38) zur Codierung der von den zweiten Verarbeitungsmitteln (36) verarbeiteten und ausgegebenen Signale; – Mittel (33) zum Empfang des Tandem-Free-Operation-Stroms von dem Nutzdaten-Extraktions-Block (30) und zur Weiterleitung des Tandem-Free-Operation-Stroms zu den ersten Verarbeitungsmitteln (34) und über die Decodier-Mittel (35) zu den zweiten Verarbeitungsmitteln (36); - Selektions-Mittel (37) zum Empfang der Ausgabe der ersten Verarbeitungsmittel (34) und der Codiermittel (38) als Eingabe, und zur Weiterleitung der Ausgabe mit der besseren Qualitätsverbesserung des digitalisierten Analogsignals zu dem Nutzdaten-Extraktions-Block (31); – Analyse-Mittel (33) zur Bestimmung, ob eine Verarbeitung in den ersten Verarbeitungsmitteln (34) oder in den zweiten Verarbeitungsmitteln (36) zu einer besseren Qualitätsverbesserung der digitalisierten Analogsignale führt, und zur entsprechenden Steuerung der Selektions-Mittel (37); und – Mittel (31) zur Bildung eines Pulscodemodulations-Stroms aus der Ausgabe der zweiten Verarbeitungsmittel (36), und zur Weiterleitung des besagten Pulscodemodulations-Stroms zu dem Nutzdaten-Extraktions-Block (31).
Netzelement nach Anspruch 12, wobei der Nutzdaten-Extraktions-Block (30, 40) zur zusätzlichen Bereitstellung des Pulscodemodulations-Stroms als nicht-parametrisierte, codierte, digitalisierte Analogsignale geeignet ist, wobei es ferner Mittel (33) umfasst zur Weiterleitung des Pulscodemodulations-Stroms zu den zweiten Verarbeitungsmitteln (36) und zur Weiterleitung der Ausgabe der zweiten Verarbeitungsmittel (36) zu dem Nutzdaten-Extraktions-Block (31), wenn kein Tandem-Free-Operation-Strom zur Verarbeitung verfügbar ist,.
Netzelement nach Anspruch 11, wobei der Nutzdaten-Extraktions-Block (30, 40) zur zusätzlichen Bereitstellung des Pulscodemodulations-Stroms als nicht-parametrisierte, codierte, digitalisierte Analogsignale geeignet ist, wobei der Tandem-Free-Operation-Strom in den ersten Verarbeitungsmitteln (44) in dem Parameter-Bereich verarbeitet wird, und der Pulscodemodulations-Strom in den zweiten Verarbeitungsmitteln (46) im linearen Bereich verarbeitet wird, und wobei zumindest der verarbeitete Pulscodemodulations-Strom zu dem Nutzdaten-Extraktions-Block (41) weitergeleitet wird.
Netzelement (1) nach einem der vorhergehenden Ansprüche, wobei die ersten Verarbeitungsmittel (24, 34, 44) zum Vergleichen der Verstärkungs-Parameter der extrahierten, parametrisierten, codierten, digitalisierten Analogsignale mit einer gewünschten Verstärkung, zur Bildung von entsprechenden neuen Verstärkungs-Parametern und zur Ersetzung der ursprünglichen Verstärkungs-Parameter durch die neuen Verstärkungs-Parameter in den extrahierten, parametrisierten, codierten, digitalisierten Analogsignalen geeignet ist.
Netzelement (1) nach Anspruch 15, wobei die ersten Verarbeitungsmittel (24, 34, 44) umfassen: – Decodier-Mittel (50) zur Linearisierung von extrahierten, parametrisierten, codierten, digitalisierten Analogsignalen und zur Bereitstellung von decodierten Verstärkungs-Parametern der digitalisierten Analogsignale; – Mittel (51) zur Schätzung des Pegels des linearisierten, codierten, digitalisierten Analogsignals und zur Bestimmung gewünschter Verstärkungswerte, basierend auf dem geschätzten Pegel des digitalisierten Analogsignals und einem gewünschten Zielpegel des digitalisierten Analogsignals; - Mittel (52) zur Bestimmung von neuen Verstärkungs- Parametern aus den decodierten Verstärkungs-Parametern des codierten, digitalisierten Analogsignals und den gewünschten Verstärkungswerten, die zur Erreichung der gewünschten Verstärkung durch eine Linear-zur-Parameter-Bereichs-Abbildung geeignet sind; und – Mittel (53) zur Re-Quantisierung der neuen Verstärkungs-Parameter und zur Ersetzung der ursprünglichen Verstärkungs-Parameter mit den neuen Parametern in dem parametrisierten, codierten, digitalisierten Analogsignal.
Netzelement (1) nach Anspruch 16, wobei die Mittel (51) zur Schätzung des Pegels des digitalisierten Analogsignals einen Sprach-Aktivitäts-Detektor umfassen, um sicherzustellen, dass bei der Signalpegelschätzung nur Sprachsignale geschätzt werden.
Netzelement (1) nach einem der vorhergehenden Ansprüche, wobei die ersten Verarbeitungsmittel (24, 34, 44) zur Abschwächung von Rauschanteilen und von Signalanteilen mit einem niedrigen Pegel der extrahierten, parametrisierten, codierten, digitalisierten Analogsignale im Zeitbereich, und zur entsprechenden Ersetzung der Verstärkungs-Parameter in den extrahierten, parametrisierten, codierten, digitalisierten Analogsignalen geeignet ist.
Netzelement (1) nach einem der vorhergehenden Ansprüche, wobei die ersten Verarbeitungsmittel (24, 34, 44) zur Abschwächung von Rauschanteilen in den extrahierten, parametrisierten, codierten, digitalisierten Analogsignalen, die ungefähr die gleiche Energie haben wie eine Rausch-Schätzung, und zur entsprechenden Ersetzung von linearen Vorhersage-Parametern in den extrahierten, parametrisierten, codierten, digitalisierten Analogsignalen geeignet ist.
Netzelement (1) nach Anspruch 19, wobei die ersten Verarbeitungsmittel (24, 34, 44) umfassen: – einen Decoder (60) zur Decodierung von linearen Vorhersage-Koeffizienten von extrahierten, codierten, digitalisierten Analogsignalen; – Mittel (64) zur Schätzung eines Langzeit-Energie-Spektrums des Rauschens der digitalisierten Analogsignale; – Mittel (65) zur Schätzung eines Kurzzeit-Energie-Spektrums des Rauschens der digitalisierten Analogsignale; – Mittel (67) zur Bestimmung eines gewünschten Spektrums, abhängig von dem Unterschied zwischen dem Langzeit-Spektrum und dem Kurzzeit-Spektrum; – Mittel (68) zur Bestimmung von neuen Vorhersage-Koeffizienten entsprechend dem gewünschten Spektrum; – Mittel (69) zur Quantisierung der neuen linearen Vorhersage-Koeffizienten-Parameter oder zu deren Umwandlung in linienspektrale Paar-Parameter und zu deren Ersetzung für die alten Parameter in dem extrahierten, parametrisierten, codierten, digitalisierten Analogsignal.
Netzelement (1) nach einem der vorhergehenden Ansprüche, wobei der Nutzdaten-Extraktions-Block (20, 30, 40) außerdem zur Extrahierung von weiteren codierten, digitalisierten Analogsignalen aus dem Digitalnetz geeignet ist, die in der, verglichen mit den extrahierten, codierten, digitalisierten Analogsignalen, entgegengesetzten Richtung übertragen werden, wobei die weiteren codierten, digitalisierten Analogsignale zumindest teilweise parametrisierte, codierte, digitalisierte Analogsignale einschließen; und wobei die ersten Verarbeitungsmittel (24, 34, 44) geeignet sind für das Vergleichen der ersten und der weiteren parametrisierten, codierten, digitalisierten Analogsignale, um in den ersten parametrisierten, codierten, digitalisierten Analogsignalen Echos zu entdecken, und für die Ersetzung von Anteilen des ersten parametrisierten, codierten, digitalisierten Analogsignals mit Comfort-Noise-Anteilen, falls ein Echo in dem Anteil des ersten parametrisierten, codierten, digitalisierten Analogsignals festgestellt wurde.
Netzelement (1) nach Anspruch 21, wobei die ersten Verarbeitungsmittel (24, 34, 44) umfassen: – einen ersten Decoder (70) zur Linearisierung von extrahierten, codierten, digitalisierten Analogsignalen aus einer ersten Richtung; – einen zweiten Decoder (71) zur Linearisierung der weiteren extrahierten, codierten, digitalisierten Analogsignalen aus einer entgegengesetzten Richtung; – einen Echo-Analyse-Block (72) zur Entdeckung eines Echos in einem Anteil des ersten extrahierten Signals; und – Mittel (72–76) zur Erzeugung von Comfort Noise und zur Ersetzung des ursprünglichen Anteils des ersten extrahierten Signals mit einem entsprechenden Comfort-Noise-Parameter, falls ein Echo entdeckt wurde.
Netzelement (1) nach einem der vorhergehenden Ansprüche, wobei der Nutzdaten-Extraktions-Block (20, 30, 40) außerdem zur Extrahierung von weiteren codierten, digitalisierten Analogsignalen von dem Digitalnetz geeignet ist, die in der, verglichen mit den extrahierten, codierten, digitalisierten Analogsignalen, entgegengesetzten Richtung übertragen wurden, wobei die weiteren codierten, digitalisierten Analogsignale zumindest teilweise parametrisierte, codierte, digitalisierte Analogsignale einschließen; und wobei die ersten Verarbeitungsmittel (24, 34, 44) geeignet sind für die Abschwächung eines Echosignals in den ersten parametrisierten, codierten, digitalisierten Analogsignalen, indem von den weiteren parametrisierten, codierten, digitalisierten Analogsignalen Gebrauch gemacht wird, und zur Unterdrückung des Rest-Echosignals.
Netzelement (1) nach Anspruch 23, wobei die ersten Verarbeitungsmittel (24, 34, 44) umfassen: – einen ersten Decoder (80) zur Linearisierung von extrahierten, codierten, digitalisierten Analogsignalen aus einer ersten Richtung; – einen zweiten Decoder (81) zur Linearisierung der weiteren extrahierten, codierten, digitalisierten Analogsignalen aus einer entgegengesetzten Richtung; – einen anpassungsfähigen Filter (82) und eine Steuerlogik (88), die von dem ersten und von dem zweiten Decoder (80, 81) linearisierte Signale empfangen, zur Abschwächung der Echosignale in dem von dem ersten Decoder (80) empfangenen, linearisierten Signal; – einen nichtlinearen Prozessor (84) für eine Rest-Echounterdrückung, basierend auf von dem anpassungsfähigen Filter (82) empfangenen Rest-Echosignalen und auf einer Rausch-Schätzung der linearisierten Signale aus der ersten Richtung; und – Mittel (83–86, 88) zur Erzeugung von Comfort Noise, basierend auf der Rest-Echounterdrückung, und zur Ersetzung des ursprünglichen Anteils des ersten extrahierten Signals mit einem entsprechenden Comfort-Noise-Parameter, falls ein Echo entdeckt wurde.
Netzelement (1) nach einem der Ansprüche 21 bis 24, wobei die Verarbeitungsmittel (24, 34, 44) geeignet sind zur Vorbeileitung der ersten parametrisierten, codierten, digitalisierten Analogsignale ohne Verarbeitung, falls es in der entgegengesetzten Richtung keine Signalaktivität gibt, oder falls der Signalpegel der extrahierten, parametrisierten, codierten, digitalisierten Analogsignale in der entgegengesetzten Richtung unter einem Schwellenpegel liegt.
Netzelement (1) nach einem der vorhergehenden Ansprüche, wobei die extrahierten, codierten, digitalisierten Analogsignale codierte Sprachsignale oder codierte Videosignale sind.
Verfahren zur Verbesserung der Qualität von digitalisierten Analogsignalen, die mindestens in parametrisierter, codierter Form über ein Digitalnetz übertragen werden, wobei das Verfahren umfasst: – Extrahierung von codierten, digitalisierten Analogsignalen von dem Digitalnetz, wobei die codierten, digitalisierten Analogsignale zumindest teilweise parametrisierte, codierte, digitalisierte Analogsignale einschließen; – Bestimmung der Qualitätsverbesserung der digitalisierten Analogsignale, die von einer Verarbeitung der extrahierten, codierten, digitalisierten Analogsignale im Parameter-Bereich und von der Verarbeitung der extrahierten, codierten, digitalisierten Analogsignale im linearen Bereich erwartet wird; – Verarbeitung der extrahierten, parametrisierten, codierten, digitalisierten Analogsignale im Parameter-Bereich, zumindest dann, wenn eine höhere Qualitätsverbesserung von der Verarbeitung im Parameter-Bereich erwartet wird, mit zur Verbesserung der Qualität der digitalisierten Analogsignale geeigneten Funktionen; – Verarbeitung von zumindest einem Teil der extrahierten, codierten, digitalisierten Analogsignale im linearen Bereich, zumindest dann, wenn eine höhere Qualitätsverbesserung von der Verarbeitung im linearen Bereich erwartet wird, mit zur Verbesserung der Qualität der digitalisierten Analogsignale geeigneten Funktionen; und – Einfügung der verarbeiteten, codierten, digitalisierten Analogsignale in das Digitalnetz, die in dem Bereich verarbeitet wurden, in welchem von der Verarbeitung erwartet wurde, dass sie zu einer höheren Qualitätsverbesserung führt.
Verfahren nach Anspruch 27, welches ferner umfasst: – Decodierung der extrahierten, parametrisierten, codierten, digitalisierten Analogsignale zur Verarbeitung im linearen Bereich; und – Codierung der verarbeiteten, decodierten Signale nach der Verarbeitung im linearen Bereich, um wieder parametrisierte, codierte, digitalisierte Analogsignale zu bilden.
Verfahren nach Anspruch 28, welches ferner umfasst: – Umwandlung der verarbeiteten, decodierten Signale, um nicht-parametrisierte, codierte, digitalisierte Analogsignale zu bilden; und – Einfügung der nicht-parametrisierten, codierten, digitalisierten Analogsignale in das Digitalnetz.
Verfahren nach Anspruch 27, wobei ein Teil der extrahierten, codierten, digitalisierten Analogsignale nicht-parametrisierte, codierte, digitalisierte Analogsignale sind, die den extrahierten, parametrisierten, codierten, digitalisierten Analogsignalen entsprechen, wobei die parametrisierten, codierten, digitalisierten Analogsignale im Parameter-Bereich verarbeitet werden, wenn von der Verarbeitung im Parameter-Bereich eine höhere Qualitätsverbesserung erwartet wird, wobei die nicht-parametrisierten, codierten, digitalisierten Analogsignale im linearen Bereich verarbeitet werden, wobei die verarbeiteten, nicht-parametrisierten, codierten, digitalisierten Analogsignale wieder in das Digitalnetz eingefügt werden, und wobei die verarbeiteten, parametrisierten, codierten, digitalisierten Analogsignale wieder in das Digitalnetz eingefügt werden, wenn von der Verarbeitung im Parameter-Bereich eine höhere Qualitätsverbesserung erwartet wird.
Verfahren nach einem der Ansprüche 27 bis 30, wobei die Qualitätsverbesserung einer Verarbeitung im linearen Bereich und im Parameter-Bereich durch die Analysierung des digitalisierten Analogsignals vor und nach der Verarbeitung im linearen Bereich und im Parameter-Bereich bestimmt wird.
Verfahren nach einem der Ansprüche 27 bis 31, wobei die Qualitätsverbesserung der Verarbeitung im linearen Bereich und im Parameter-Bereich unter Verwendung eines neuronalen Netzes bestimmt wird.
Verfahren nach einem der Ansprüche 27 bis 32, welches ferner umfasst: – Auswahl der Verarbeitungsfunktionen, die für die Verbesserung der Qualität der in Frage stehenden, digitalisierten Analogsignale geeignet sind und Ausführung nur dieser Verarbeitungsfunktionen.
Verfahren nach einem der Ansprüche 27 bis 33, wobei die Verarbeitung im Parameter-Bereich für eine Verstärkungssteuerung ein Vergleichen von Verstärkungs-Parametern der extrahierten, parametrisierten, codierten, digitalisierten Analogsignale mit einer gewünschten Verstärkung umfasst, zur Bildung von entsprechenden neuen Verstärkungs-Parameter und zur Ersetzung der ursprünglichen Verstärkungs-Parameter durch die neuen Verstärkungs-Parameter in den extrahierten, parametrisierten, codierten, digitalisierten Analogsignalen.
Verfahren nach Anspruch 34, wobei dieses umfasst: – Linearisierung von extrahierten, parametrisierten, codierten, digitalisierten Analogsignalen und Bereitstellung von decodierten Verstärkungs-Parametern der digitalisierten Analogsignale; – Schätzung des Pegels des linearisierten, codierten, digitalisierten Analogsignals und Bestimmung der gewünschten Verstärkungswerte, basierend auf dem geschätzten Signalpegel und einem gewünschten Zielsignalpegel; – Bestimmung von neuen Verstärkungs-Parametern aus den decodierten Verstärkungs-Parametern der codierten, digitalisierten Analogsignale und den gewünschten Verstärkungswerten, die zur Erreichung der gewünschten Verstärkung durch eine Linear-zur-Parameter-Bereichs-Abbildung geeignet sind; und – Re-Quantisierung der neuen Verstärkungs-Parameter und Ersetzung der ursprünglichen Verstärkungs-Parameter mit den neuen Parametern in dem parametrisierten, codierten, digitalisierten Analogsignal.
Verfahren nach einem der Ansprüche 27 bis 35, wobei die Verarbeitung im Parameter-Bereich für eine Rausch-Unterdrückung eine Abschwächung von Rauschanteilen und von Signalanteilen mit einem niedrigen Pegel der extrahierten, parametrisierten, codierten, digitalisierten Analogsignale im Zeitbereich, und eine entsprechende Ersetzung der Verstärkungs-Parameter in den extrahierten, parametrisierten, codierten, digitalisierten Analogsignalen umfasst.
Verfahren nach einem der Ansprüche 27 bis 36, wobei die Verarbeitung im Parameter-Bereich für die Rausch-Unterdrückung eine Abschwächung von Frequenzanteilen von Rauschen in den extrahierten, parametrisierten, codierten, digitalisierten Analogsignale, die ungefähr die gleiche Energie wie die Rausch-Schätzung besitzen, und eine entsprechende Ersetzung der linearen Vorhersage-Parameter in den extrahierten, parametrisierten, codierten, digitalisierten Analogsignalen umfasst.
Verfahren nach Anspruch 37, wobei dieses umfasst: – Decodierung von linearen Vorhersage-Koeffizienten von den extrahierten, codierten, digitalisierten Analogsignalen; – Schätzung eines Langzeit-Energie-Spektrums des Rauschens der digitalisierten Analogsignale; – Schätzung eines Kurzzeit-Energie-Spektrums des Rauschens der digitalisierten Analogsignale; – Bestimmung eines gewünschten Spektrums, abhängig von dem Unterschied zwischen dem Langzeit-Spektrum und dem Kurzzeit-Spektrum; – Bestimmung von neuen Vorhersage-Koeffizienten entsprechend dem gewünschten Spektrum; und – Quantisierung der neuen linearen Vorhersage-Koeffizienten-Parameter oder deren Umwandlung in linienspektrale Paar-Parameter und deren Ersetzung für die alten Parameter in dem extrahierten, parametrisierten, codierten, digitalisierten Analogsignal.
Verfahren nach einem der Ansprüche 27 bis 38, wobei die Verarbeitung im Parameter-Bereich außerdem für die Echounterdrückung eine Extrahierung weiterer parametrisierter, codierter, digitalisierter Analogsignale umfasst, die in der entgegengesetzten Richtung übertragen wurden, wobei die ersten und die weiteren parametrisierten, codierten, digitalisierten Analogsignale verglichen werden, um in den ersten parametrisierten, codierten, digitalisierten Analogsignalen Echos zu entdecken, und eine Ersetzung von Anteilen des ersten parametrisierten, codierten, digitalisierten Analogsignals mit erzeugten Anteilen mit Comfort-Noise-Parametern, falls ein Echo in dem Anteil des ersten parametrisierten, codierten, digitalisierten Analogsignal festgestellt wurde.
Verfahren nach Anspruch 39, welches eine Linearisierung der extrahierten, codierten, digitalisierten Analogsignale in der ersten und der entgegengesetzten Richtung vor deren Vergleichung umfasst.
Verfahren nach einem der Ansprüche 27 bis 40, außerdem umfassend die Extrahierung von weiteren codierten, digitalisierten Analogsignalen von dem Digitalnetz, die in der, verglichen mit den extrahierten, codierten, digitalisierten Analogsignalen, entgegengesetzten Richtung übertragen wurden, wobei die weiteren codierten, digitalisierten Analogsignale zumindest teilweise parametrisierte, codierte, digitalisierte Analogsignale einschließen; die Abschwächung des ersten Echosignals in den ersten codierten, digitalisierten Analogsignalen, indem von den weiteren parametrisierten, codierten, digitalisierten Analogsignalen Gebrauch gemacht wird, und die Unterdrückung des Rest-Echosignals.
Verfahren nach Anspruch 41, welches umfasst: die Linearisierung der extrahierten, codierten, digitalisierten Analogsignale aus beiden Richtungen, vor der Abschwächung des Echosignals; die Erzeugung von Comfort Noise, basierend auf dem Ergebnis der Unterdrückung und einem geschätzten Rauschen in dem ersten digitalisierten Analogsignal; und die Ersetzung eines Anteils des ursprünglichen ersten extrahierten Signals, bei dem ein Echo entdeckt wurde, mit einem Anteil, der ein entsprechendes Comfort-Noise-Parameter umfasst.
Verfahren nach einem der Ansprüche 39 bis 42, wobei die Verarbeitung im Parameter-Bereich eine Vorbeileitung der ersten parametrisierten, codierten, digitalisierten Analogsignale ohne Echo-Entdeckung umfasst, falls es in der entgegengesetzten Richtung keine Signalaktivität gibt, oder falls der Signalpegel der extrahierten, parametrisierten, codierten, digitalisierten Analogsignale in der entgegengesetzten Richtung unter einem Schwellenpegel liegt.