DE60310716T2

DE60310716T2 - System für die audiokodierung mit füllung von spektralen lücken

Info

Publication number: DE60310716T2
Application number: DE60310716T
Authority: DE
Inventors: Mead Michael Missouri City TRUMAN; Allen Grant San Francisco DAVIDSON; Conrad c/o Dolby Laboratories Matthew San Francisco FELLERS; Stuart c/o Dolby Laboratories Mark San Francisco VINTON; Aubrey Matthew Sugar Land WATSON; Quito c/o Dolby Laboratories Charles San Francisco ROBINSON
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2002-06-17
Filing date: 2003-05-30
Publication date: 2007-10-11
Also published as: KR20100086067A; US7337118B2; DE60310716T8; EP1736966A3; EP2209115B1; CA2735830A1; IL216069A; HK1070728A1; IL165650A0; EP2216777B1; HK1141623A1; US20090144055A1; AU2003237295A1; DE60332833D1; JP4486496B2; JP2012078866A; KR100991450B1; SG10201702049SA; KR20050010945A; CA2736046A1

Description

TECHNISCHES GEBIET
Die vorliegende Erfindung bezieht sich insgesamt auf Audiokodiersysteme und betrifft insbesondere die Verbesserung der wahrgenommenen Qualität der von Audiokodiersystemen erhaltenen Audiosignale.
EINSCHLÄGIGER STAND DER TECHNIK
Audiokodiersysteme werden benutzt, um ein Audiosignal zu einem zur Übertragung oder Speicherung geeigneten kodierten Signal zu kodieren und um anschließend das kodierte Signal zu empfangen oder rückzugewinnen und es zu dekodieren, um eine Version des ursprünglichen Audiosignals für die Wiedergabe zu erhalten. Mit perzeptuellen Audiokodiersystemen versucht man, ein Audiosignal zu einem kodierten Signal zu kodieren, welches geringere Erfordernisse hinsichtlich der Informationskapazität hat als das ursprüngliche Audiosignal, und dann anschließend das kodierte Signal zu dekodieren, um als Ausgang ein vom ursprünglichen Audiosignal nicht wahrnehmbar unterscheidbares Signal zu erhalten. Ein Beispiel eines derartigen perzeptuellen Audiokodiersystems ist im Dokument A52 (1994) des Advanced Television Standards Committee (ATSC) beschrieben, auf das als Dolby AC-3 Bezug genommen wird. Ein weiteres Beispiel ist beschrieben von Bosi et al. "ISO/IEC MPEG-2 Advanced Audio Coding." J. AES, Bd. 45 Nr. 10, Oktober 1997, SS. 789-814, auf das als Advanced Audio Coding (AAC) Bezug genommen wird. Diese beiden Kodiersysteme und viele weitere perzeptuelle Kodiersysteme wenden auf ein Audiosignal eine Analysefilterbank an, um in Gruppen von Frequenzbanden angeordnete Spektralkomponenten zu erhalten. Die Bandbreiten sind üblicherweise unterschiedlich und entsprechen den Breiten der sogenannten kritischen Banden des menschlichen Hörsystems.
Perzeptuelle Kodiersysteme können angewandt werden, um die Informationskapazitätserfordernisse eines Audiosignals zu verringern, aber dabei ein subjektives oder wahrgenommenes Maß an Tonqualität zu erhalten, so daß eine kodierte Wiedergabe des Tonsignals über einen Nachrichtenkanal mit weniger Bandbreite übermittelt oder auf einem Aufzeichnungsträger auf kleinerem Raum aufgezeichnet werden kann. Informationskapazitätserfordernisse werden durch Quantisieren der Spektralkomponenten reduziert. Durch das Quantisieren tritt Rauschen in das quantisierte Signal ein, aber perzeptuelle Audiokodiersysteme arbeiten meistens mit psychoakustischen Modellen im Bemühen darum, die Amplitude des Quantisierungsrauschens so zu steuern, daß es von Spektralkomponenten im Signal maskiert oder unhörbar gemacht wird.
Die Spektralkomponenten innerhalb einer gegebenen Bande werden häufig auf die gleiche Quantisierungsauflösung quantisiert, und es wird ein psychoakustisches Modell benutzt, um die größte minimale Quantisierungsauflösung oder den kleinsten Rauschabstand (SNR) zu bestimmen, der möglich ist, ohne ein hörbares Niveau an Quantisierungsrauschen einzuführen. Diese Technik funktioniert ganz gut für schmale Banden, aber nicht so gut für breitere Banden, wenn Informationskapazitätserfordernisse das Kodiersystem auf die Verwendung einer relativ groben Quantisierauflösung beschränken. Die größerwertigen Spektralkomponenten in einer breiten Bande werden üblicherweise auf einen Nichtnull-Wert quantisiert, der die gewünschte Auflösung hat, aber kleinerwertige Spektralkomponenten in der Bande werden auf Null quantisiert, wenn ihre Größe unter dem Mindestquantisierniveau liegt. Die Zahl der Spektralkomponenten in einer Bande, die auf Null quantisiert werden, nimmt insgesamt mit zunehmender Bandbreite zu, sie nimmt zu, wenn der Unterschied zwischen den größten und kleinsten Spektralkomponentenwerten innerhalb der Bande zunimmt, und sie nimmt zu, wenn das Mindestquantisierniveau zunimmt.
Leider kann das Vorhandensein vieler auf Null quantisierter Spektralkomponenten (quantized-to-zero - QTZ) in einem kodierten Signal die wahrgenommene Qualität des Audiosignals verschlechtern, auch wenn das resultierende Quantisierrauschen niedrig genug gehalten wird, um für unhörbar oder als durch Spektralkomponenten im Signal psychoakustisch maskiert gehalten zu werden. Für diese Verschlechterung gibt es drei Ursachen. Erste Ursache ist die Tatsache, daß das Quantisierrauschen möglicherweise deshalb nicht unhörbar ist, weil das Niveau der psychoakustischen Maskierung geringer ist als vom psychoakustischen Modell vorhergesagt, welches für die Bestimmung der Quantisierauflösung benutzt wurde, eine zweite Ursache ist die Tatsache, daß die Schaffung so vieler QTZ-Spektralkomponenten die Energie oder Leistung des dekodierten Audiosignals im Vergleich zur Energie oder Leistung des ursprünglichen Audiosignals hörbar reduzieren kann. Eine dritte Ursache ist für Kodierverfahren relevant, die mit Verzerrungs-Annulier-Filterbänken arbeiten, beispielsweise die Quadrature Mirror Filter (QMF) Transformation oder eine bestimmte modifizierte Discrete Cosine Transform (DCT) und modifizierte Inverse Discrete Cosine Transform (IDCT), die als Time-Domain Aliasing Cancellation (TDAC) Transformation bekannt ist; und die von Princen et al. beschrieben wurden in "Subband/Transform Coding Using Filter Bank Designs Based on Time Domain Aliasing Cancellation,"ICASSP 1987 Conf. Proc. Mai 1987, SS. 2161-64.
Kodiersysteme, in denen Verzerrungs-Annulier-Filterbänke, beispielsweise die QMF- oder TDAC-Transformationen angewandt werden, benutzen eine Analysefilterbank im Kodierprozeß, mit der in das kodierte Signal Verzerrungs- oder Störkomponenten eingeführt werden, aber sie benutzen im Dekodierprozeß eine Synthesefilterbank, die mindestens theoretisch die Verzerrung aufheben kann. In der Praxis kann allerdings die Fähigkeit der Synthesebank, die Verzerrung aufzuheben, signifikant beeinträchtigt sein, wenn die Werte einer oder mehrerer Spektralkomponenten im Kodierprozeß signifikant geändert wurden. Aus diesem Grund können QTZ-Spektralkomponenten die wahrgenommene Qualität eines dekodierten Audiosignals selbst dann beeinträchtigen, wenn das Quantisierungsrauschen unhörbar ist, weil Änderungen in den Werten der Spektralkomponenten die Fähigkeit der Synthesefilterbank zum Annulieren der durch die Analysefilterbank eingeführten Verzerrung beeinträchtigen können.
Mit in bekannten Kodiersystemen angewandten Techniken sind Teillösungen dieser Probleme gefunden worden. Beispielsweise haben Dolby AC-3 und AAC-Transformationskodiersysteme eine gewisse Fähigkeit, aus einem kodierten Signal ein Ausgangssignal zu erzeugen, welches den Signalpegel des ursprünglichen Audiosignals beibehält, indem für gewisse QTZ-Spektralkomponenten im Dekodierer Rauschen ersetzt wird. Bei diesen beiden Systemen bietet der Kodierer im kodierten Signal einen Leistungshinweis für ein Frequenzband, und der Dekodierer benutzt diesen Leistungshinweis, um die QTZ-Spektralkomponenten im Frequenzband durch einen entsprechenden Pegel an Rauschen zu ersetzen. Ein Dolby AC-3 Kodierer liefert eine grobe Schätzung des kurzfristigen Leistungsspektrums, welches zum Erzeugen eines angemessenen Rauschpegels benutzt werden kann. Wenn alle Spektralkomponenten einer Bande auf Null gesetzt sind, füllt der Dekodierer die Bande mit Rauschen von etwa der gleichen Leistung wie der in der groben Schätzung des kurzfristigen Leistungsspektrums angedeuteten. Beim AAC-Kodiersystem wird eine Technik mit dem Namen perzeptueller Rauschersatz (Perceptual Noise Substitution – PNS) angewandt, mit der die Leistung für eine gegebene Bande ausdrücklich übertragen wird. Ein Beispiel dieser Technik ist im Dokument DE 1950 9149 offenbart. Der Dekodierer benutzt diese Information, um der Leistung angepaßtes Rauschen hinzuzufügen. Beide Systeme fügen Rauschen nur in denjenigen Banden hinzu, die keine Nichtnull-Spektralkomponenten enthalten.
Leider dienen diese Systeme nicht dazu, Leistungsniveaus in Banden aufrechtzuerhalten, die eine Mischung aus QTZ- und Nichtnull-Spektralkomponenten enthalten. Tabelle 1 zeigt eine hypothetische Bande von Spektralkomponenten für ein ursprüngliches Audiosignal, eine 3-Bit quantisierte Darstellung jeder Spektralkomponente, die zu einem kodierten Signal zusammengefügt ist, und die entsprechenden Spektralkomponenten, die ein Dekodierer aus dem kodierten Signal erhält. Die quantisierte Bande im kodierten Signal enthält eine Kombination aus QTZ- und Nichtnull-Spektralkomponenten.
Tabelle 1
Die erste Spalte der Tabelle zeigt einen Satz unsignierter binärer Zahlen, die Spektralkomponenten im ursprünglichen Audiosignal wiedergeben, welche zu einer einzigen Bande gruppiert sind. Die zweite Spalte zeigt eine Darstellung der Spektralkomponenten, die zu drei Bits quantisiert sind. Für dieses Beispiel ist ein Teil jeder Spektralkomponente unterhalb der 3-Bit Auflösung durch Abtrennen entfernt worden. Die quantisierten Spektralkomponenten werden an den Dekodierer übermittelt und anschließend dadurch dequantisiert, daß 0 Bits angehängt werden, um die ursprüngliche Spektralkomponentenlänge wieder herzustellen. Die dequantisierten Spektralkomponenten sind in der dritten Spalte gezeigt. Da eine Mehrheit der Spektralkomponenten auf Null quantisiert wurde, enthält die Bande dequantisierter Spektralkomponenten weniger Energie als die Bande der ursprünglichen Spektralkomponenten, und diese Energie ist in wenigen Nichtnull-Spektralkomponenten konzentriert. Diese Verringerung der Energie kann die wahrgenommene Qualität des dekodierten Signals, wie schon gesagt, verschlechtern.
OFFENBARUNG DER ERFINDUNG
Es ist eine Aufgabe der vorliegenden Erfindung, die wahrgenommene Qualität der von Audiokodiersystemen erhaltenen Audiosignale dadurch zu verbessern, daß eine mit nullwertigen quantisierten Spektralkomponenten in Beziehung stehende Verschlechterung vermieden oder verringert wird.
Gemäß einem, in den unabhängigen Ansprüchen 1, 16 und 31 beschriebenen Aspekt der vorliegenden Erfindung wird Audioinformation durch das Empfangen eines Eingangssignals bereitgestellt, aus dem ein Satz von Teilbandsignalen erhalten wird, die je mehr als eine oder mehrere Spektralkomponenten besitzen, welche den Spektralgehalt eines Audiosignals wiedergeben. Innerhalb des Satzes der Teilbandsignale wird ein bestimmtes Teilbandsignal identifiziert, in dem eine oder mehrere Spektralkomponenten einen Nichtnull-Wert haben und von einem Quantisierer quantisiert sind, der ein einer Schwelle entsprechendes Mindestquantisierniveau hat, und in dem eine Vielzahl von Spektralkomponenten einen Null-Wert hat. Es werden synthetisierte Spektralkomponenten erzeugt, die jeweiligen nullwertigen Spektralkomponenten in dem betreffenden Teilbandsignal entsprechen und die in Übereinstimmung mit einer Skalierhüllkurve unterhalb oder gleich der Schwelle skaliert werden. Ein modifizierter Satz von Teilbandsignalen wird dadurch erzeugt, daß die synthetisierten Spektralkomponenten anstelle entsprechender nullwertiger Spektralkomponenten in dem betreffenden Teilbandsignal gesetzt werden, und durch Anlegen einer Synthesefilterbank an den modifizierten Satz von Teilbandsignalen wird Audioinformation erzeugt.
Gemäß einem weiteren, in den unabhängigen Ansprüchen 12, 27 und 42 beschriebenen Aspekt der vorliegenden Erfindung wird ein Ausgangssignal, vorzugsweise ein kodiertes Ausgangssignal bereitgestellt, indem ein Satz von Teilbandsignalen erzeugt wird, die je eine oder mehrere Spektralkomponenten besitzen, welche den Spektralgehalt eines Audiosignals wiedergeben, durch Quantisieren von Information, die durch Anlegen einer Analysefilterbank an Audioinformation erhalten wird. Innerhalb des Satzes der Teilbandsignale wird ein bestimmtes Teilbandsignal identifiziert, in dem eine oder mehrere Spektralkomponenten einen Nichtnull-Wert haben und von einem Quantisierer quantisiert sind, der ein einer Schwelle entsprechendes Mindestquantisierniveau hat, und in welchem eine Vielzahl von Spektralkomponenten einen Null-Wert hat. Vom Spektralgehalt des Audiosignals wird Skaliersteuerinformation abgeleitet, wobei die Skaliersteuerinformation das Skalieren synthetisierter Spektralkomponenten steuert, die synthetisiert und an die Stelle der Spektralkomponenten mit einem Null-Wert in einem Empfänger gesetzt werden sollen, der Audioinformation in Abhängigkeit von dem Ausgangssignal erzeugt. Das Ausgangssignal wird erzeugt durch Zusammenfügen der Skaliersteuerinformation und von Information, die den Satz der Teilbandsignale wiedergibt.
Die verschiedenen Merkmale der vorliegenden Erfindung und ihre bevorzugten Ausführungsbeispiele sind anhand der nachfolgenden Beschreibung und der beigefügten Zeichnungen besser verständlich, wobei in den einzelnen Figuren für gleiche Elemente gleiche Bezugszeichen verwendet sind. Der Inhalt der folgenden Beschreibung und Zeichnungen dient lediglich als Beispiel und sollte nicht als Begrenzung des Umfangs der vorliegenden, in den Ansprüchen beschriebenen Erfindung verstanden werden.
KURZBESCHREIBUNG DER ZEICHNUNGEN
Es zeigt:
1a ein schematisches Blockschaltbild eines Audiokodierers;
1b ein schematisches Blockschaltbild eines Audiodekodierers;
2a-2c graphische Darstellungen von Quantisierfunktionen;
3 eine graphische schematische Darstellung des Spektrums eines hypothetischen Audiosignals;
4 eine graphische schematische Darstellung des Spektrums eines hypothetischen Audiosignals mit einigen auf Null gesetzten Spektralkomponenten.
5 eine graphische schematische Darstellung des Spektrums eines hypothetischen Audiosignals mit synthetisierten Spektralkomponenten anstelle nullwertiger Spektralkomponenten;
6 eine graphische schematische Darstellung eines hypothetischen Frequenzganges für einen Filter in einer Analysefilterbank;
7 eine graphische schematische Darstellung einer Skalierhüllkurve, die an den in 6 gezeigten Frequenzgangabfall des Spektralstreufaktors angenähert ist;
8 eine graphische schematische Darstellung von Skalierhüllkurven, die vom Ausgang eines anpaßbaren Filters abgeleitet sind;
9 eine graphische schematische Darstellung des Spektrums eines hypothetischen Audiosignals mit synthetischen Spektralkomponenten, die durch eine Skalierhüllkurve gewichtet sind, welche an den in 6 gezeigten Frequenzgangabfall des Spektralstreufaktors angenähert ist;
10 eine graphische schematische Darstellung hypothetischer psychoakustischer Maskierschwellen;
11 eine graphische schematische Darstellung des Spektrums eines hypothetischen Audiosignals mit synthetischen Spektralkomponenten, die durch eine Skalierhüllkurve gewichtet sind, welche an psychoakustische Maskierschwellen angenähert ist;
12 eine graphische schematische Darstellung eines hypothetischen Teilbandsignals;
13 eine graphische schematische Darstellung eines hypothetischen Teilbandsignals mit einigen auf Null gesetzten Spektralkomponenten;
14 eine graphische schematische Darstellung einer hypothetischen, zeitlichen psychoakustischen Maskierschwelle;
15 eine graphische schematische Darstellung eines hypothetischen Teilbandsignals mit synthetisierten Spektralkomponenten, die durch eine Skalierhüllkurve gewichtet sind, welche an die zeitlichen psychoakustischen Maskierschwellen angenähert ist;
16 eine graphische schematische Darstellung des Spektrums eines hypothetischen Audiosignals mit durch Spektralduplikation erzeugten synthetisierten Spektralkomponenten;
17 ein schematisches Blockschaltbild einer Vorrichtung, die zur Verwirklichung verschiedener Aspekte der vorliegenden Erfindung in einem Kodierer oder einem Dekodierer verwendbar ist.
MÖGLICHKEITEN ZUM AUSFÜHREN DER ERFINDUNG
A. Überblick
Verschiedene Aspekte der vorliegenden Erfindung können in eine große Vielfalt an Signalverarbeitungsmethoden und Bausteinen, einschließlich der in 1a und 1b gezeigten eingebaut werden. Einige Aspekte können durch eine Verarbeitung ausgeführt werden, die nur in einem Dekodierverfahren oder Baustein ausgeführt wird, andere Aspekte erfordern ein zusammenwirkendes Verarbeiten, welches sowohl in Kodier- als auch Dekodierverfahren oder -bausteinen durchgeführt wird. Eine Beschreibung von Prozessen, die zur Verwirklichung dieser verschiedenen Aspekte der vorliegenden Erfindung benutzt werden können, folgt im Anschluß an einen Überblick typischer Bausteine, die für die Durchführung dieser Prozesse verwendbar sind.
1. Kodierer
1a veranschaulicht eine Verwirklichung eines Teilband-Audiokodierers, in dem eine Analysefil terbank 12 vom Weg 11 Audioinformation empfängt, die ein Audiosignal wiedergibt, und als Reaktion darauf digitale Information bereitstellt, die Frequenzteilbänder des Audiosignals wiedergibt. Die digitale Information in jedem der Frequenzteilbänder wird von einem entsprechenden Quantisierr 14, 15, 16 quantisiert und dem Kodierer 17 zugeleitet. Der Kodierer 17 erzeugt eine kodierte Wiedergabe der quantisierten Information, die an den Formatierer 18 weitergeleitet wird. Bei der speziellen, in der Figur gezeigten Verwirklichung werden die Quantisierfunktionen in den Quantisierern 14, 15, 16 in Abhängigkeit von Quantisiersteuerinformation angepaßt, die vom Modell 13 empfangen wird, welches die Quantisiersteuerinformation in Abhängigkeit von der vom Weg 11 empfangenen Audioinformation erzeugt. Der Formatierer setzt die kodierte Wiedergabe der quantisierten Information und die Quantisiersteuerinformation zu einem Ausgangssignal zusammen, welches zum Übertragen oder Speichern geeignet ist, und gibt das Ausgangssignal längs des Weges 19 weiter.
In vielen Audioanwendungen werden lineare Quantisierfunktionen q(x) benutzt, beispielsweise die 3-Bit asymmetrische Mittelstufen-Quantisierfunktion, die in 2a dargestellt ist; aber für die vorliegende Erfindung ist keine bestimmte Form der Quantisierung wichtig. Beispiele von zwei weiteren verwendbaren Funktionen q(x) sind in 2b und 2c gezeigt. Bei jedem dieser Beispiele bietet die Quantisierfunktion q(x) einen Ausgangswert gleich Null für jeden beliebigen Eingangswert x in dem Intervall vom Wert bei Punkt 30 bis zum Wert bei Punkt 31. In vielen Anwendungsfällen sind die beiden Werte an den Punkten 30 und 31 in der Größe gleich, haben aber entgegengesetztes Vorzeichen; aber, wie 2b zeigt, ist dies nicht nötig. Um die Beschreibung zu erleichtern, wird von einem Wert x, der innerhalb des Intervalls von Eingabewerten liegt, die mit einer bestimmten Quantisierfunktion q(x) auf Null (QTZ) quantisiert werden, gesagt, er sei geringer als das Mindestquantisierniveau dieser Quantisierfunktion.
In der vorliegenden Offenbarung sollen Ausdrücke wie "Kodierer" und "Kodieren" keine bestimmte Art von Informationsverarbeitung implizieren. Zum Beispiel wird Kodieren oft benutzt, um Informationskapazitätserfordernisse zu verringern. Aber diese Ausdrücke in der vorliegenden Beschreibung beziehen sich nicht notwendigerweise auf diese Art von Verarbeitung. Der Kodierer 17 kann im wesentlichen jede beliebige gewünschte Art der Verarbeitung durchführen. Bei einer bestimmten Verwirklichung wird quantisierte Information zu Gruppen skalierter Zahlen kodiert, die einen gemeinsamen Skalierfaktor haben. Im Dolby AC-3 Kodiersystem beispielsweise werden quantisierte Spektralkomponenten zu Gruppen oder Banden von Fließpunktzahlen angeordnet, wo die Zahlen in jeder Bande einen Fließpunktexponenten gemeinsam haben. Im AAC-Kodiersystem wird Entropiekodieren, beispielsweise Huffman-Kodieren angewandt. Bei einer anderen Verwirklichung ist der Kodierer 17 weggelassen, und die quantisierte Information wird unmittelbar mit dem Ausgangssignal zusammengeführt. Für die vorliegende Erfindung ist keine bestimmte Art des Kodierens wichtig.
Das Modell 13 kann im wesentlichen jede Art einer gewünschten Verarbeitung durchführen. Ein Beispiel ist ein Prozeß, der ein psychoakustisches Modell auf Audioinformation anwendet, um die psychoakustischen Maskiereffekte unterschiedlicher Spektralkomponenten in dem Audiosignal zu schätzen. Es sind viele Veränderungen möglich. So kann das Modell 13 zum Beispiel die Quantisiersteuerinformation in Abhängigkeit von der Frequenzteilbandinformation erzeugen, die am Ausgang der Analysefilterbank 12 verfügbar ist, anstatt oder zusätzlich zu der Audioinformation, die am Eingang der Filterbank verfügbar ist. Als weiteres Beispiel kann das Modell 13 weggelassen sein, und die Quantisierer 14, 15 und 16 benutzen Quantisierfunktionen, die nicht angepaßt sind. Für die vorliegende Erfindung ist kein bestimmter Modellierprozeß wichtig.
2. Dekodierer
1b zeigt eine Verwirklichung des Teilband-Audiodekodierers, in dem der Deformatierer 22 vom Weg 21 ein Eingangssignal empfängt, welches eine kodierte Darstellung quantisierter Digitalinformation übermittelt, die Frequenzteilbänder eines Audiosignals wiedergeben. Der Deformatierer 22 erhält die kodierte Darstellung vom Eingangssignal und gibt sie an den Dekodierer 23 weiter. Der Dekodierer 23 dekodiert die kodierte Darstellung zu Frequenzteilbändern quantisierter Information. Die quantisierte digitale Information in jedem der Frequenzteilbänder wird von einem jeweiligen Dequantisier 25, 26, 27 dequantisiert und einer Synthesefilterbank 28 zugeleitet, die längs des Weges 29 Audioinformation erzeugt, die ein Audiosignal wiedergibt. Bei der in der Figur gezeigten Verwirklichung werden die Dequantisierfunktionen in den Dequantisierern 25, 26, 27 in Abhängigkeit von Quantisiersteuerinformation angepaßt, die vom Modell 24 empfangen wird, das die Quantisiersteuerinformation in Abhängigkeit von Steuerinformation erzeugt, die der Deformatierer vom Ausgangssignal erhalten hat.
In dieser Offenbarung soll mit Ausdrücken wie "Dekodierer" und "Dekodieren" keine bestimmte Art von Informationsverarbeitung impliziert werden. Der Dekodierer 23 kann im wesentlichen jede Art von Verarbeitung durchführen, die benötigt oder gewünscht wird. Bei einer Verwirklichung ist dies umgekehrt zu einem vorstehend beschriebenen Kodierprozeß, wobei quantisierte Information in Gruppen von Fließpunktzahlen, die sich in Exponenten teilen, zu individuellen, quantisierten Komponenten dekodiert werden, die sich keine Exponenten teilen. Bei einer anderen Verwirklichung wird Entropiedekodierung, beispielsweise Huffman Dekodierung angewandt. Bei einer anderen Implementierung wird der Dekodierer 23 weggelassen, und die quantisierte Information wird unmittelbar vom Deformatierer 22 erhalten. Für die vorliegende Erfindung ist keine bestimmte Art des Dekodierens wichtig.
Das Modell 24 kann im wesentlichen jede beliebige, gewünschte Art der Verarbeitung durchführen. Ein Beispiel ist ein Prozeß, der ein psychoakustisches Modell auf Information anwendet, die vom Eingangssignal erhalten wird, um die psychoakustischen Maskiereffekte unterschiedlicher Spektralkomponenten in einem Audiosignal zu schätzen. Als weiteres Beispiel wird das Modell 24 weggelassen, und die Dequantisierer 25, 26, 27 können entweder Quantisierfunktionen benutzen, die nicht angepaßt sind, oder sie können Quantisierfunktionen benutzen, die in Abhängigkeit von Quantisiersteuerinformation angepaßt werden, die der Deformatierer 22 direkt vom Eingangssignal erhalten hat. Für die vorliegende Erfindung ist kein bestimmter Prozeß wichtig.
3. Filterbänke
Die in den 1a und 1b gezeigten Bausteine zeigen Komponenten für drei Frequenzteilbänder. Bei einer typischen Anwendung werden viel mehr Teilbänder benutzt, aber aus Gründen der Klarheit der Darstellung sind hier nur drei gezeigt. Im Prinzip ist für die vorliegende Erfindung keine bestimmte Anzahl wichtig.
Die Analyse- und Synthesefilterbänke können im wesentlichen auf jede beliebige, gewünschte Art und Weise verwirklicht sein, einschließlich eines großen Bereiches an digitalen Filtertechnologien, Blocktransformationen und Wavelet-Transformationen. Bei einem Audiokodiersystem mit einem Kodierer und einem Dekodierer, wie den vorstehend beschriebenen, ist die Analysefilterbank 12 durch die TDAC-modifizierte DCT verwirklicht und die Synthesefilterbank 28 durch die TDAC-modifizierte IDCT verwirklicht, die schon erwähnt wurden. Es ist allerdings im Prinzip keine bestimmte Verwirklichung wichtig.
Analysefilterbänke, die durch Blocktransformationen verwirklicht sind, teilen einen Block oder ein Intervall eines Eingangssignals in einen Satz von Transformationskoeffizienten auf, der den Spektralgehalt dieses Intervalls des Signals wiedergibt. Eine Gruppe aus einem oder mehr benachbarten Transformationskoeffizienten gibt den Spektralgehalt innerhalb eines bestimmten Frequenzteilbandes wieder, dessen Bandbreite der Anzahl Koeffizienten in der Gruppe angepaßt ist.
Analysefilterbänke, die durch irgendeine Art eines digitalen Filters verwirklicht sind, beispielsweise einen Polyphasenfilter statt von einer Blocktransformation, teilen ein Eingangssignal in einen Satz von Teilbandsignalen auf. Jedes Teilbandsignal ist eine zeitbasierte Wiedergabe des Spektralgehalts des Eingangssignals innerhalb eines bestimmten Frequenzteilbandes. Vorzugsweise wird das Teilbandsignal so dezimiert, daß jedes Teilbandsignal eine Bandbreite hat, die an die Anzahl der Abtastwerte im Teilbandsignal für eine Zeitintervalleinheit angepaßt ist.
Die folgende Beschreibung bezieht sich mehr im einzelnen auf Verwirklichungen, die von Blocktransformationen, beispielsweise der oben genannten TDAC-Transformation Gebrauch machen. In dieser Beschreibung bezieht sich der Ausdruck "Teilbandsignal" auf Gruppen aus einem oder mehr benachbarten Transformationskoeffizienten, und der Ausdruck "Spektralkomponenten" bezieht sich auf die Transformationskoeffizienten. Da Grundsätze der vorliegenden Erfindung auch auf andere Arten der Verwirklichung anwendbar sind, kann der Ausdruck "Teilbandsignal" insgesamt so verstanden werden, daß er sich auch auf ein zeitbasiertes Signal bezieht, welches den Spektralgehalt eines bestimmten Frequenzteilbandes eines Signals wiedergibt, und der Ausdruck "Spektralkomponenten" kann insgesamt so verstanden werden, daß er sich auf Abtastwerte eines zeitbasierten Teilbandsignals bezieht.
4. Implementation
Verschiedene Aspekte der vorliegenden Erfindung können auf verschiedenste Weise verwirklicht werden, einschließlich durch Software in einem Universalrechnersystem oder in irgendeiner anderen Vorrichtung, die stärker spezialisierte Bauelemente enthält, beispielsweise eine digitale Signalverarbeitungsschaltung (DSP), die mit Bauelementen ähnlich denen in einem Universalrechnersystem gekoppelt ist. 17 ist ein Blockschaltbild eines Bausteins 70, der zum Verwirklichen verschiede ner Aspekte der vorliegenden Erfindung in einem Audiokodierer oder Audiodekodierer verwendbar ist. DSP 72 stellt Rechenressourcen bereit. RAM 73 ist ein Systemdirektzugriffspeicher (RAM), den der DSP 72 für die Signalverarbeitung benutzt. ROM 74 stellt irgendeine Form dauerhafter Speicherung dar, beispielsweise einen Festwertspeicher (ROM) zum Speichern von Programmen, die zur Betätigung des Bausteins 70 nötig sind und zum Ausführen verschiedener Aspekte der vorliegenden Erfindung. Eine I/O Steuerung 75 stellt einen Schnittstellenschaltkreis zum Empfangen und Senden von Signalen über Kommunikationskanäle 76, 77 dar. In der I/O Steuerung 75 können nach Wunsch Analog/Digital-Umsetzer und Digital/Analog-Umsetzer enthalten sein, um analoge Audiosignale zu empfangen und/oder zu senden. Im gezeigten Ausführungsbeispiel sind alle hauptsächlichen Systembauelemente an einen Bus 71 angeschlossen, der mehr als einen physischen Bus darstellen kann. Aber eine Busarchitektur ist nicht erforderlich, um die vorliegende Erfindung zu verwirklichen.
In Ausführungsbeispielen, die in einem Universalrechnersystem verwirklicht sind, können zusätzliche Bauelemente als Schnittstellen zu Bauelementen, wie einer Tastatur oder einer Maus und einem Bildschirm eingeschlossen sein, und zum Steuern einer Speichervorrichtung, die einen Datenträger, beispielsweise ein Magnetband oder eine Magnetplatte oder einen optischen Träger umfaßt. Der Datenträger kann zum Aufzeichnen von Befehlsprogrammen für Betriebssysteme, Dienstprogrammen und Anwendungen benutzt werden und kann Ausführungsbeispiele von Programmen umfassen, die verschiedene Aspekte der vorliegenden Erfindung verwirklichen.
Die zum Ausführen verschiedener Aspekte der vorliegenden Erfindung erforderlichen Funktionen können von den Bauelementen durchgeführt werden, die auf verschiedenste Weise verwirklicht sind, einschließlich diskreter Logikbausteine, einer oder mehrerer anwendungsspezifischer integrierter Schaltungen und/oder programmgesteuerter Prozessoren. Die Art, in der diese Bauelemente verwirklicht sind, ist für die vorliegende Erfindung nicht wichtig.
Verwirklichungen der vorliegenden Erfindung in Software können durch eine Vielfalt an maschinenlesbaren Trägern übermittelt werden, beispielsweise als Basisband oder modulierte Nachrichtenübermittlungswege über das ganze Spektrum hinweg, einschließlich von Ultraschall bis zu Ultraviolettfrequenzen oder Datenträgern, einschließlich solcher, die Informationen mittels im wesentlichen jeder beliebigen magnetischen oder optischen Aufzeichnungstechnologie übermitteln, einschließlich Magnetband, Magnetplatte und Bildplatte. Verschiedene Aspekte können auch in verschiedenen Bauelementen des Rechnersystems 70 durch Verarbeitungsschaltkreise, wie anwendungsspezifische integrierte Schaltungen, integrierte Universalschaltungen, Mikroprozessoren, die von in verschiedenen Formen von ROM oder RAM verkörperten Programmen gesteuert werden, und anderen Techniken verwirklicht werden.
B. Dekodierer
Verschiedene Aspekte der vorliegenden Erfindung können in einem Dekodierer ausgeführt werden, die keine spezielle Verarbeitung oder Information von einem Kodierer erfordern. Diese Aspekte sind in diesem Abschnitt der Offenbarung beschrieben. Andere Aspekte, die keine spezielle Verarbeitung oder Information von einem Kodierer benötigen, sind im folgenden Abschnitt beschrieben.
1. Spektrallücken
3 ist eine graphische Darstellung des Spektrums eines Intervalls eines hypothetischen Audiosignals, das mittels eines Transformationskodiersystems kodiert werden soll. Das Spektrum 41 stellt eine Hüllkurve der Größe von Transformationskoeffizienten oder Spektralkomponenten dar. Während des Kodierprozesses werden alle Spektralkomponenten, deren Größe unterhalb der Schwelle 40 liegt, auf Null quantisiert. Wenn eine Quantisierfunktion, wie die in 2a gezeigte Funktion q(x) benutzt wird, entspricht die Schwelle 40 den Mindestquantisierniveaus 30, 31. Die Schwelle 40 ist über den gesamten Frequenzbereich aus Gründen der zweckmäßigeren Darstellung mit einem gleichmäßigen Wert gezeigt. Dies ist in vielen Kodiersystemen nicht typisch. In perzeptuellen Audiokodiersystemen, welche Spektralkomponenten innerhalb jedes Teilbandsignals quantisieren, ist beispielsweise die Schwelle 40 innerhalb jedes Frequenzteilbandes einheitlich, aber sie unterscheidet sich von Teilband zu Teilband. Bei anderen Verwirklichungen kann die Schwelle 40 auch innerhalb eines gegebenen Frequenzteilbandes variieren.
4 ist eine graphische Darstellung des Spektrums des hypothetischen Audiosignals, welches von quantisierten Spektralkomponenten wiedergegeben ist. Das Spektrum 42 stellt eine Hüllkurve der Größe von Spektralkomponenten dar, die quantisiert worden sind. Das in dieser Figur und auch in weiteren Figuren dargestellte Spektrum zeigt nicht die Auswirkungen des Quantisierens der Spektralkomponenten, deren Größen oberhalb der Schwelle 40 oder gleich dieser sind. Der Unterschied zwischen den QTZ-Spektralkomponenten im quantisierten Signal und den entsprechenden Spektralkomponenten im Ursprungssignal ist schraffiert dargestellt. Diese schraffierten Bereiche stellen "Spektrallücken" in der quantisierten Wiedergabe dar, die mit synthetisierten Spektralkomponenten gefüllt werden sollen.
Bei einer Verwirklichung der vorliegenden Erfindung empfängt ein Dekodierer ein Eingangssignal, das eine kodierte Wiedergabe quantisierter Teilbandsignale übermittelt, wie in 4 gezeigt. Der Dekodierer dekodiert die kodierte Darstellung und identifiziert jene Teilbandsignale, in denen eine oder mehrere Spektralkomponenten Nichtnull-Werte haben, und eine Vielzahl von Spektralkomponenten einen Null-Wert haben. Vorzugsweise sind die Frequenzerstreckungen aller Teilbandsignale entweder a priori dem Dekodierer bekannt, oder sie werden durch Steuerinformation im Eingangssignal definiert. Der Dekodierer erzeugt synthetisierte Spektralkomponenten, die den nullwertigen Spektralkomponenten entsprechen, mit Hilfe eines Prozesses, wie den nachfolgend beschriebenen. Die synthetisierten Komponenten werden entsprechend einer Skalierungshüllkurve skaliert, die unterhalb oder gleich der Schwelle 40 ist, und die skalierten, synthetisierten Spektralkomponenten treten an die Stelle der nullwertigen Spektralkomponenten im Teilbandsignal. Der Dekodierer braucht keine Information vom Kodierer, die ausdrücklich das Niveau der Schwelle 40 angibt, wenn die Mindestquantisierniveaus 30, 31 der zum Quantisieren der Spektralkomponenten verwendeten Quantisierfunktion q(x) bekannt ist.
2. Skalierung
Die Skalierhüllkurve kann auf verschiedene Art und Weise eingerichtet werden, von denen einige nachfolgend beschrieben werden; es können auch mehrere benutzt werden. Zum Beispiel kann eine zusammengesetzte Skalierhüllkurve abgeleitet werden, die dem Maximum aller auf verschiedene Weise erhaltenen Hüllkurven gleicht, oder durch Anwenden verschiedener Möglichkeiten zum Einrichten oberer und/oder unterer Grenzen für die Skalierhüllkurve. Die Einrichtungsmöglichkeiten können entsprechend Merkmalen des kodierten Signals angepaßt oder ausgewählt werden, und sie können als Funktion der Frequenz angepaßt oder ausgewählt werden.
a) Einheitliche Hüllkurve
Eine Möglichkeit ist für Dekodierer in Audiotransformations-Kodiersystemen und in Systemen geeignet, in denen andere Verwirklichungen einer Filterbank vorgesehen sind. Auf diese Weise wird eine einheitliche Skalierhüllkurve eingerichtet, wenn sie der Schwelle 40 entsprechend gesetzt wird. Ein Beispiel einer solchen Skalierhüllkurve ist in 5 gezeigt, wo schraffierte Bereiche die Spektrallücken veranschaulichen, die mit synthetisierten Spektralkomponenten gefüllt werden. Das Spektrum 43 gibt eine Hüllkurve der Spektralkomponenten eines Audiosignals wieder, bei dem die Spektrallücken mit synthetisierten Spektralkomponenten gefüllt sind. Die Obergrenzen der schraffierten Bereiche, die in dieser und späteren Figuren gezeigt sind, geben nicht die tatsächlichen Niveaus der synthetisierten Spektralkomponenten selbst wieder, sondern stellen lediglich eine Skalierhüllkurve für die synthetisierten Komponenten dar. Die zum Füllen von Spektrallücken verwendeten synthetisierten Komponenten haben Spektralniveaus, die nicht über die Skalierhüllkurve hinausgehen.
b) Spektralstreufaktor
Eine zweite Möglichkeit zum Einrichten einer Skalierhüllkurve ist gut geeignet für Dekodierer in Audiokodiersystemen, die mit Blocktransformationen arbeiten, aber sie basiert auf Grundsätzen, die auch auf andere Verwirklichungen von Filterbanken anwendbar sind. Hierbei wird eine nicht einheitliche Skalierhüllkurve geschaffen, die sich entsprechend Eigenschaften des Spektralstreufaktors des Frequenzganges des Prototypfilters bei einer Blocktransformation ändert.
Der in 6 gezeigte Frequenzgang 50 ist eine graphische Darstellung eines hypothetischen Frequenzganges für einen Transformationsprototypfilter, der einen Spektralstreufaktor zwischen Koeffizienten zeigt. Der Frequenzgang hat eine Hauptkeule, die normalerweise als Paßband des Prototypfilters bezeichnet wird, und eine Anzahl von der Hauptkeule benachbarten Nebenkeulen, deren Niveau für Frequenzen weiter weg von der Mitte des Paßbandes abnimmt. Die Nebenkeulen stellen Spektralenergie dar, die vom Paßband in benachbarte Frequenzbänder streut. Die Rate, mit der das Niveau dieser Nebenkeulen abnimmt, wird als Rate des Frequenzgangabfalls der Spektralstreuung bezeichnet.
Die Spektralstreucharakteristiken eines Filters legen der Spektralisolation zwischen einander benachbarten Frequenzteilbändern Grenzen auf. Wenn ein Filter eine große Menge Spektralstreuung hat, können die Spektralniveaus in einander benachbarten Teilbändern sich nicht so stark unterscheiden, wie das für Filter mit geringerem Ausmaß an Spektralstreuung möglich ist. Die in 7 gezeigte Hüllkurve 41 ist des Frequenzgangabfalls der in 6 gezeigten Spektralstreuung angenähert. Synthetisierte Spektralkomponenten können auf eine solche Hüllkurve skaliert werden, oder diese Hüllkurve kann alternativ als eine untere Grenze für eine Skalierhüllkurve dienen, die auf andere Weise abgeleitet wird.
Das in 9 gezeigte Spektrum 44 ist eine graphische Darstellung des Spektrums eines hypothetischen Audiosignals mit synthetisierten Spektralkomponenten, die entsprechend einer Hüllkurve skaliert sind, die sich des Frequenzgangabfalls der Spektralstreuung nähert. Die Skalierhüllkurve für Spektrallücken, die zu beiden Seiten von Spektralenergie begrenzt sind, ist eine Zusammensetzung aus zwei individuellen Hüllkurven, einer für jede Seite. Die Zusammensetzung ist dadurch gebildet, daß die größere der beiden individuellen Hüllkurven genommen wird.
c) Filter
Eine dritte Möglichkeit zum Einrichten einer Skalierhüllkurve ist gleichfalls gut geeignet für Dekodierer in Audiokodiersystemen, die Blocktransformationen anwenden, beruht aber gleichfalls auf Grundsätzen, die auch auf andere Verwirklichungen der Filterbank anwendbar sind. Mit dieser Einrichtungsmöglichkeit wird eine nicht einheitliche Skalierhüllkurve geschaffen, die vom Ausgang eines Frequenzbereichsfilters abgeleitet ist, der zur Transformation von Koeffizienten im Frequenzbereich angewandt wird. Der Filter kann ein Vorhersagefilter, ein Tiefpaßfilter oder im wesentlichen jede beliebige andere Art von Filter sein, der die gewünschte Skalierhüllkurve bereitstellt. Für diese Art werden normalerweise mehr Rechenressourcen benötigt als für die beiden vorstehend beschriebenen Arten erforderlich sind, aber sie erlaubt Änderungen der Skalierhüllkurve als Funktion der Frequenz.
8 ist eine graphische Darstellung von zwei Skalierhüllkurven, die vom Ausgang eines anpaßbaren Frequenzbereichsfilters abgeleitet sind. Die Skalierhüllkurve 52 könnte zum Beispiel benutzt werden, um Spektrallücken in Signalen oder Teilen von Signalen zu füllen, die eher als tonartig erachtet werden, und die Skalierhüllkurve 53 könnte zum Füllen von Spektrallücken in Signalen oder Teilen von Signalen benutzt werden, die eher als rauschartig erachtet werden. Ton- und Rauscheigenschaften eines Signals können auf verschiedenste Weise bewertet werden, von denen einige nachfolgend beschrieben werden. Als Alternative könnte die Skalierhüllkurve 52 zum Füllen von Spektrallücken niedrigerer Frequenzen benutzt werden, wo Audiosignale häufig eher tonartig sind, und die Skalierhüllkurve 53 könnte zum Füllen von Spektrallücken bei höheren Frequenzen benutzt werden, wo Audiosignale häufig eher rauschartig sind.
d) Perzeptuelles Maskieren
Eine vierte Art zum Einrichten einer Skalierhüllkurve ist auf Dekodierer in Audiokodiersystemen anwendbar, die Filterbänke mit Blocktransformationen und andere Arten von Filtern implementieren.
Mit dieser Möglichkeit wird eine nicht einheitliche Skalierhüllkurve geschaffen, die sich entsprechend geschätzter psychoakustischer Maskiereffekte ändert.
10 zeigt zwei hypothetische psychoakustische Maskierschwellen. Die Schwelle 61 stellt die psychoakustischen Maskiereffekte einer niederfrequenten Spektralkomponente 60 dar, und die Schwelle 64 stellt die psychoakustischen Maskiereffekte einer höherfrequenten Spektralkomponente 63 dar. Maskierschwellen wie diese können benutzt werden, um die Form der Skalierhüllkurve abzuleiten.
Das in 11 gezeigte Spektrum 45 ist eine graphische Darstellung des Spektrums eines hypothetischen Audiosignals mit synthetisierten Ersatzspektralkomponenten, die in Übereinstimmung mit Hüllkurven skaliert sind, welche auf psychoakustischer Maskierung beruhen. Im Fall des gezeigten Beispiels ist die Skalierhüllkurve in der Spektrallücke der niedrigsten Frequenz vom unteren Teil der Maskierschwelle 61 abgeleitet. Die Skalierhüllkurve in der mittleren Spektrallücke ist eine Zusammensetzung aus dem oberen Teil der Maskierschwelle 61 und dem unteren Teil der Maskierschwelle 64. Die Skalierhüllkurve in der Spektrallücke mit der höchsten Frequenz ist vom oberen Teil der Maskierschwelle 64 abgeleitet.
e) Tonalität
Eine fünfte Möglichkeit zum Einrichten einer Skalierhüllkurve beruht auf einer Beurteilung der Tonalität des gesamten Audiosignals oder eines Teils des Signals, beispielsweise für ein oder mehr Teilbandsignale. Tonalität kann auf verschiedene Weise beurteilt werden, einschließlich der Berechnung eines Maßes spektraler Flachheit (SFM), bei dem es sich um einen normierten Quotienten des arithmetischen Mittelwertes von Signalabtastwerten, dividiert durch den geometrischen Mittelwert der Signalabtastwerte handelt. Ein Wert in der Nähe von Eins zeigt an, daß ein Signal sehr rauschartig ist, und ein Wert in der Nähe von Null zeigt ein Signal an, das sehr tonartig ist. SFM kann unmittelbar benutzt werden, um die Skalierhüllkurve anzupassen. Wenn SFM Null ist, werden keine synthetisierten Komponenten benutzt, um eine Spektrallücke zu füllen. Ist SFM hingegen Eins, wird das maximal erlaubte Niveau synthetisierter Komponenten benutzt, die Spektrallücke zu füllen. Insgesamt kann jedoch ein Kodierer ein besseres SFM berechnen, weil er Zugang auf das gesamte ursprüngliche Audiosignal vor dem Kodieren hat. Es ist wahrscheinlich, daß ein Dekodierer kein genaues SFM berechnet, weil QTZ-Spektralkomponenten vorhanden sind.
Ein Dekodierer kann auch die Tonalität dadurch beurteilen, daß er die Anordnung oder Verteilung der nicht nullwertigen und der nullwertigen Spektralkomponenten analysiert. Bei einer Verwirklichung wird ein Signal eher tonartig als rauschartig erachtet, wenn lange Strecken von nullwertigen Spektralkomponenten zwischen wenigen großen nicht nullwertigen Komponenten verteilt sind, weil diese Anordnung eine Struktur spektraler Spitzen impliziert.
Bei noch einer weiteren Verwirklichung wendet ein Dekodierer auf ein oder mehr Teilbandsignale einen Vorhersagefilter an und bestimmt die Vorhersageverstärkung. Mit zunehmender Vorhersageverstärkung wird ein Signal für mehr tonartig gehalten.
f) Zeitliche Skalierung
12 ist eine graphische Darstellung eines hypothetischen Teilbandsignals, welches kodiert werden soll. Die Linie 46 stellt eine zeitliche Hüllkurve der Größe von Spektralkomponenten dar. Dieses Teilbandsignal kann aus einer gemeinsamen Spektralkomponente oder einem Transformationskoeffizienten in einer Folge von Blöcken zusammengesetzt sein, die von einer Analysefilterbank erhalten werden, welche durch eine Blocktransformation verwirklicht ist, oder es kann sich um ein Teilbandsignal handeln, welches von einer anderen Art von Analysefilterbank erhalten ist, die durch einen anderen digitalen Filter als eine Blocktransformation verwirklicht ist, beispielsweise einen QMF. Während des Kodierprozesses werden alle Spektralkomponenten, deren Größe unterhalb der Schwelle 40 liegt, auf Null quantisiert. Die Schwelle 40 ist wegen der zweckmäßigeren Darstellung mit einem einheitlichen Wert über das ganze Zeitintervall gezeigt. Dies ist nicht typisch für viele Kodiersysteme mit Filterbänken, die durch Blocktransformationen verwirklicht sind.
13 ist eine graphische Darstellung des hypothetischen Teilbandsignals, welches von quantisierten Spektralkomponenten wiedergegeben ist. Die Linie 47 stellt eine zeitliche Hüllkurve der Größe von Spektralkomponenten dar, die quantisiert wurden. Die in dieser Figur und auch in weiteren Figuren gezeigte Linie zeigt nicht die Auswirkungen des Quantisierens der Spektralkomponenten, deren Größen oberhalb oder gleich der Schwelle 40 sind. Der Unterschied zwischen den QTZ-Spektralkomponenten im quantisierten Signal und den entsprechenden Spektralkomponenten im ursprünglichen Signal ist schraffiert gezeigt. Der schraffierte Bereich stellt eine Spektrallücke innerhalb eines Zeitintervalls dar, die mit synthetisierten Spektralkomponenten zu füllen ist.
Bei einer Verwirklichung der vorliegenden Erfindung empfängt ein Dekodierer ein Eingangssignal, welches eine kodierte Darstellung quantisierter Teilbandsignale übermittelt, wie in 13 gezeigt. Der Dekodierer dekodiert die kodierte Wiedergabe und identifiziert jene Teilbandsignale, in denen eine Vielzahl der Spektralkomponenten einen Wert Null haben und denen Spektralkomponenten mit Nichtnull-Werten vorausgehen und/oder folgen. Der Dekodierer erzeugt mit einem Prozeß wie den nachfolgend beschriebenen synthetisierte Spektralkomponenten, die den nullwertigen Spektralkomponenten entsprechen. Die synthetisierten Komponenten werden entsprechend einer Skalierhüllkurve skaliert. Vorzugsweise erklärt die Skalierhüllkurve die zeitlichen Maskiereigenschaften des menschlichen Hörsystems.
14 zeigt eine hypothetische zeitliche psychoakustische Maskierschwelle. Die Schwelle 68 gibt die zeitlichen psychoakustischen Maskiereffekte einer Spektralkomponente wieder. Der Teil der Schwelle links von der Spektralkomponente 67 gibt vor-zeitliche Maskiereigenschaften oder das Maskieren wieder, das dem Auftreten der Spektralkomponente vorausgeht. Der Teil der Schwelle rechts von der Spektralkomponente 67 stellt nach-zeitliche Maskiereigenschaften oder Maskieren dar, welches auf das Erscheinen der Spektralkomponente folgt. Nachmaskiereffekte haben insgesamt eine Dauer, die viel länger ist als die Dauer von Vormaskiereffekten. Eine zeitliche Maskierschwelle, wie diese hier, kann zum Ableiten einer zeitlichen Gestalt der Skalierhüllkurve benutzt werden.
Die Linie 48 in 15 ist eine graphische Darstellung eines hypothetischen Teilbandsignals mit synthetisierten Ersatzspektralkomponenten, die in Übereinstimmung mit Hüllkurven skaliert sind, welche auf zeitlichen psychoakustischen Maskiereffekten beruhen. Im gezeigten Beispiel ist die Skalierhüllkurve eine Zusammensetzung aus zwei individuellen Hüllkurven. Die individuelle Hüllkurve für den niederfrequenten Teil der Spektrallücke ist vom Nachmaskierteil der Schwelle 68 abgeleitet. Die individuelle Hüllkurve für den höherfrequenten Teil der Spektrallücke ist vom Vormaskierteil der Schwelle 68 abgeleitet.
3. Erzeugen synthetisierter Komponenten
Die synthetisierten Spektralkomponenten können auf verschiedene Weise generiert werden, von denen zwei nachfolgend beschrieben werden. Es können viele Wege benutzt werden. Zum Beispiel können unterschiedliche Wege in Abhängigkeit von Eigenschaften des kodierten Signals oder als Funktion der Frequenz gewählt werden.
Auf einem ersten Weg wird ein rauschartiges Signal erzeugt. Im wesentlichen kann irgendeine einer Vielfalt von Methoden zum Erzeugen von Pseudorauschsignalen angewandt werden.
Im Fall eines zweiten Weges wird eine Technik angewandt, die als spektrale Translation oder spektrale Duplikation bezeichnet wird, mit der Spektralkomponenten aus einem oder mehr Frequenzteilbändern kopiert werden. Niederfrequente Spektralkomponenten werden üblicherweise kopiert, um Spektrallücken bei höheren Frequenzen zu füllen, denn höherfrequente Komponenten stehen oft in irgendeiner Weise in Beziehung zu niederfrequenten Komponenten. Im Prinzip können jedoch Spektralkomponenten auf höhere oder niedrigere Frequenzen kopiert werden.
Das in 16 gezeigte Spektrum 49 ist eine graphische Darstellung des Spektrums eines hypothetischen Audiosignals mit synthetisierten Spektralkomponenten, die durch spektrale Duplikation erzeugt sind. Ein Teil der spektralen Spitze ist in der Frequenz viele Male auf- und abdupliziert, um Spektrallücken bei den niedrigen bzw. mittleren Frequenzen zu füllen. Ein Abschnitt der Spektralkomponenten in der Nähe des hohen Endes des Spektrums wird in der Frequenz nach oben dupliziert, um die Spektrallücke am hohen Ende des Spektrums zu füllen. Im gezeigten Beispiel sind die duplizierten Komponenten mit einer einheitlichen Skalierhüllkurve skaliert. Im wesentlichen kann aber irgendeine Form von Skalierhüllkurve benutzt werden.
C. Kodierer
Die vorstehend beschriebenen Aspekte der vorliegenden Erfindung können in einem Dekodierer durchgeführt werden, ohne daß an bestehenden Kodierern irgendeine Abwandlung vorgenommen werden muß. Diese Aspekte können gefördert werden, wenn der Kodierer modifiziert wird, um zusätzliche Steuerinformation bereitzustellen, die sonst für den Dekodierer nicht zur Verfügung stünde. Die zusätzliche Steuerinformation kann dazu benutzt werden, die Art und Weise anzupassen, in der im Dekodierer synthetisierte Spektralkomponenten erzeugt und skaliert werden.
1. Steuerinformation
Ein Kodierer kann eine Vielfalt an Skaliersteuerinformation bereitstellen, die ein Dekodierer zum Anpassen der Skalierhüllkurve für synthetisierte Spektralkomponenten benutzen kann. Jedes der nachfolgend beschriebenen Beispiele kann für ein gesamtes Signal und/oder für Frequenzteilbänder des Signals vorgesehen werden.
Wenn ein Teilband Spektralkomponenten enthält, die deutlich unterhalb des Mindestquantisierniveaus liegen, kann ein Kodierer dem Dekodierer Information zur Verfügung stellen, die diesen Zustand anzeigt. Die Information kann eine Art von Index sein, den ein Dekodierer zum Auswählen unter zwei oder mehr Skalierniveaus benutzen kann, oder die Information kann irgendein Maß des Spektralniveaus übermitteln, beispielsweise Durchschnittsleistung oder Effektivleistung (RMS). Der Dekodierer kann die Skalierhüllkurve in Abhängigkeit von dieser Information anpassen.
Wie schon gesagt, kann ein Dekodierer die Skalierhüllkurve in Abhängigkeit von psychoakustischen Maskiereffekten anpassen, die anhand des kodierten Signals selbst geschätzt wurden. Es ist aber auch möglich, daß der Kodierer eine bessere Schätzung dieser Maskiereffekte abgibt, wenn der Kodierer Zugang zu Merkmalen des Signals hat, die durch einen Kodierprozeß verloren gehen. Das läßt sich erreichen, wenn man das Modell 13 psychoakustische Information an den Formatierer 18 liefern läßt, die ansonsten vom kodierten Signal nicht verfügbar ist. Wenn man diese Art von Information benutzt, kann der Dekodierer die Skalierhüllkurve anpassen, um die synthetisierten Spektralkomponenten in Übereinstimmung mit einem oder mehr psychoakustischen Kriterien zu gestalten.
Die Skalierhüllkurve kann auch in Abhängigkeit von einer Beurteilung der rauschartigen oder tonartigen Qualitäten eines Signals oder Teilbandsignals angepaßt werden. Diese Beurteilung kann auf verschiedene Weise entweder vom Kodierer oder vom Dekodierer durchgeführt werden. Allerdings ist ein Kodierer normalerweise für eine bessere Beurteilung geeignet. Die Ergebnisse dieser Beurteilung können mit dem kodierten Signal zusammengeführt werden. Eine Beurteilung ist das oben beschriebene SFM.
Eine Angabe des SFM kann auch von einem Dekodierer für seine Auswahl des Prozesses für das Generieren synthetisierter Spektralkomponenten benutzt werden. Bei einem SFM nahe bei Eins kann die Technik zum Erzeugen von Rauschen angewandt werden. Ist das SFM nahe bei Null, kann die Technik der spektralen Duplikation benutzt werden.
Ein Kodierer kann einen Hinweis auf Leistung für die Nichtnull und die QTZ-Spektralkomponenten, beispielsweise das Verhältnis dieser beiden Leistungen liefern. Der Dekodierer kann die Leistung der Nichtnull-Spektralkomponenten berechnen und dann dieses Verhältnis oder eine sonstige Angabe benutzen, um die Skalierhüllkurve ordnungsgemäß anzupassen.
2. Null-Spektralkoeffizienten
In der vorstehenden Beschreibung wird manchmal auf nullwertige Spektralkomponenten als QTZ (auf Null quantisierte) Komponenten Bezug genommen, weil die Quantisierung eine gemeinsame Quelle für nullwertige Komponenten in einem kodierten Signal ist. Dies ist nicht von essentieller Bedeutung. Der Wert von Spektralkomponenten in einem kodierten Signal kann im wesentlichen durch jedes beliebige Verfahren auf Null gesetzt werden. Zum Beispiel kann ein Kodierer die größte oder zwei Spektralkomponenten in jedem Teilbandsignal oberhalb einer bestimmten Frequenz identifizieren und alle anderen Spektralkomponenten in diesen Teilbandsignalen auf Null setzen. Alternativ kann ein Kodierer alle Spektralkomponenten in gewissen Teilbändern auf Null setzen, die niedriger sind als irgendeine Schwelle. Ein Dekodierer, der, wie beschrieben, verschiedene Aspekte der vorliegenden Erfindung verkörpert, kann Spektrallücken unbeachtlich des Prozesses füllen, der für deren Entstehung verantwortlich ist.

Claims

Verfahren zum Erzeugen von Audioinformation, aufweisend: Empfangen eines Eingangssignals und Erhalten eines Satzes von Teilbandsignalen von demselben, die je eine oder mehrere Spektralkomponenten haben, welche den Spektralgehalt eines Audiosignals wiedergeben; Identifizieren eines bestimmten Teilbandsignals innerhalb des Satzes der Teilbandsignale, in welchem eine oder mehrere Spektralkomponenten einen Nichtnull-Wert haben und von einem Quantisierer quantisiert sind, der ein Mindestquantisierniveau hat, das einer Schwelle entspricht, und in welchem eine Vielzahl von Spektralkomponenten einen Null-Wert hat; Erzeugen synthetisierter Spektralkomponenten, die jeweiligen nullwertigen Spektralkomponenten in dem bestimmten Teilbandsignal entsprechen und gemäß einer Skalierhüllkurve skaliert sind, die unterhalb oder gleich der Schwelle ist; Erzeugen eines modifizierten Satzes von Teilbandsignalen durch Einsetzen der synthetisierten Spektralkomponenten anstelle entsprechender nullwertiger Spektralkomponenten in dem bestimmten Teilbandsignal; und Erzeugen der Audioinformation durch Anwenden einer Synthesefilterbank auf den modifizierten Satz von Teilbandsignalen.
Verfahren nach Anspruch 1, bei dem die Skalierhüllkurve einheitlich ist.
Verfahren nach Anspruch 1 oder 2, bei dem die Synthesefilterbank durch eine Blocktransformation verwirklicht wird, die zwischen benachbarten Spektralkomponenten eine Spektralstreuung hat, und die Skalierhüllkurve sich mit einer Rate ändert, die einer Rate des Frequenzgangabfalls der Spektralstreuung der Blocktransformation im wesentlichen gleich ist.
Verfahren nach einem der Ansprüche 1 bis 3, bei dem die Synthesefilterbank durch eine Blocktransformation verwirklicht wird und das Verfahren aufweist: Anwenden eines Frequenzbereichsfilters auf eine oder mehrere Spektralkomponenten in dem Satz von Teilbandsignalen; und Ableiten der Skalierhüllkurve von einer Ausgabe des Frequenzbereichsfilters.
Verfahren nach Anspruch 4, welches das Ändern des Ansprechens des Frequenzbereichsfilters als Funktion der Frequenz aufweist.
Verfahren nach einem der Ansprüche 1 bis 5, aufweisend: Erhalten eines Maßes der Tonalität des durch den Satz von Teilbandsignalen wiedergege benen Audiosignals; und Anpassen der Skalierhüllkurve als Reaktion auf das Maß der Tonalität.
Verfahren nach Anspruch 6, mit dem das Maß der Tonalität vom Eingangssignal erhalten wird.
Verfahren nach Anspruch 6, welches das Maß der Tonalität von der Art ableitet, in der die nullwertigen Spektralkomponenten in dem bestimmten Teilbandsignal angeordnet sind.
Verfahren nach einem der Ansprüche 1 bis 8, bei dem die Synthesefilterbank durch eine Blocktransformation verwirklicht wird und das Verfahren aufweist: Erhalten einer Folge von Sätzen von Teilbandsignalen aus dem Eingangssignal; Identifizieren eines gemeinsamen Teilbandsignals in der Folge der Sätze von Teilbandsignalen, wo für jeden Satz in der Folge eine oder mehrere Spektralkomponenten einen Nichtnull-Wert und eine Vielzahl von Spektralkomponenten einen Null-Wert haben; Identifizieren einer gemeinsamen Spektralkomponente innerhalb des gemeinsamen Teilbandsignals, welche einen Nullwert in einer Vielzahl benachbarter Sätze in der Folge hat, denen ein Satz mit den gemeinsamen Spektralkomponenten, die einen Nichtnull-Wert haben, entweder vorausgeht oder nachfolgt; Skalieren der synthetisierten Spektralkomponenten, die den nullwertigen gemeinsamen Spektralkomponenten entsprechen, gemäß der Skalierhüllkurve, die sich von Satz zu Satz in der Folge in Übereinstimmung mit zeitlichen Maskiereigenschaften des menschlichen Hörsystems ändert; Erzeugen einer Folge modifizierter Sätze von Teilbandsignalen durch Einsetzen der synthetisierten Spektralkomponenten anstelle der entsprechenden nullwertigen gemeinsamen Spektralkomponenten in den Sätzen; und Erzeugen der Audioinformation durch Anwenden der Synthesefilterbank auf die Folge modifizierter Sätze von Teilbandsignalen.
Verfahren nach einem der Ansprüche 1 bis 9, bei dem die Synthesefilterbank durch eine Blocktransformation verwirklicht wird und das Verfahren die synthetisierten Spektralkomponenten durch Spektraltranslation anderer Spektralkomponenten in dem Satz von Teilbandsignalen erzeugt.
Verfahren nach einem der Ansprüche 1 bis 10, bei dem die Skalierhüllkurve sich entsprechend zeitlicher Maskiereigenschaften des menschlichen Hörsystems ändert.
Verfahren zum Erzeugen eines Ausgangssignals, aufweisend: Erzeugen eines Satzes von Teilbandsignalen, die je eine oder mehrere Spektralkomponenten haben, welche den Spektralgehalt eines Audiosignals wiedergeben, durch Quantisieren von Information, welche durch Anwenden einer Analysefilterbank auf Audioinformation erhalten wird; Identifizieren eines bestimmten Teilbandsignals innerhalb des Satzes von Teilbandsignalen, in welchem eine oder mehrere Spektralkomponenten einen Nichtnull-Wert haben und von einem Quantisierer quantisiert sind, der ein Mindestquantisierniveau hat, das einer Schwelle entspricht, und in welchem eine Vielzahl von Spektralkomponenten einen Null-Wert haben; Ableiten von Skaliersteuerinformation von dem Spektralgehalt des Audiosignals, wobei die Skaliersteuerinformation das Skalieren synthetisierter Spektralkomponenten steuert, die synthetisiert und durch die die Spektralkomponenten, die einen Null-Wert haben, in einem Empfänger ersetzt werden sollen, der Audioinformation in Abhängigkeit von dem Ausgangssignal erzeugt; und Erzeugen des Ausgangssignals durch Zusammenführen der Skaliersteuerinformation und Information, die den Satz der Teilbandsignale wiedergibt.
Verfahren nach Anspruch 12, aufweisend: Erhalten eines Maßes von Tonalität des Audiosignals, welches durch den Satz von Teilbandsignalen wiedergegeben wird; und Ableiten der Skaliersteuerinformation von dem Maß der Tonalität.
Verfahren nach Anspruch 12 oder 13, aufweisend: Erhalten einer geschätzten psychoakustischen Maskierschwelle des Audiosignals, welches durch den Satz von Teilbandsignalen wiedergegeben wird; und Ableiten der Skaliersteuerinformation von der geschätzten psychoakustischen Maskierschwelle.
Verfahren nach einem der Ansprüche 12 bis 14, aufweisend: Erhalten von zwei Spektralniveaumaßen für Teile des Audiosignals, die von den nichtnullwertigen und den nullwertigen Spektralkomponenten wiedergegeben werden; und Ableiten der Skaliersteuerinformation von den beiden Maßen der Spektralniveaus.
Vorrichtung zum Erzeugen von Audioinformation, aufweisend: einen Deformatierer, der ein Eingangssignal empfängt und von diesem einen Satz von Teilbandsignalen erhält, die je eine oder mehrere Spektralkomponenten haben, welche den Spektralgehalt eines Audiosignals wiedergeben; einen mit dem Deformatierer gekoppelten Dekodierer, der innerhalb des Satzes der Teilbandsignale ein bestimmtes Teilbandsignal identifiziert, in welchem eine oder mehrere Spektralkomponenten einen Nichtnull-Wert haben und von einem Quantisierer quantisiert sind, der ein Mindestquantisierniveau hat, das einer Schwelle entspricht, und in welchem eine Vielzahl von Spektralkomponenten einen Null-Wert haben, der synthetisierte Spektralkomponenten erzeugt, die jeweiligen nullwertigen Spektralkomponenten in dem bestimmten Teilbandsignal entsprechen und entsprechend einer Skalierhüllkurve skaliert sind, die unterhalb oder gleich der Schwelle ist, und der einen modifizierten Satz von Teilbandsignalen erzeugt, indem er die synthetisierten Spektralkomponenten anstelle entsprechender nullwertiger Spektralkomponenten in das bestimmte Teilbandsignal einsetzt; und eine mit dem Dekodierer gekoppelte Synthesefilterbank, welche die Audioinformation in Abhängigkeit von dem modifizierten Satz von Teilbandsignalen erzeugt.
Vorrichtung nach Anspruch 16, bei der die Skalierhüllkurve einheitlich ist.
Vorrichtung nach Anspruch 16 oder 17, bei der die Synthesefilterbank durch eine Blocktransformation verwirklicht ist, die zwischen benachbarten Spektralkomponenten Spektralstreuung hat, und bei der die Skalierhüllkurve sich mit einer Rate ändert, die einer Rate der Frequenzgangsenkung der Spektralstreuung der Blocktransformation im wesentlichen gleich ist.
Vorrichtung nach einem der Ansprüche 16 bis 18, bei der die Synthesefilterbank durch eine Blocktransformation verwirklicht ist und der Dekodierer einen Frequenzbereichsfilter auf eine oder mehrere Spektralkomponenten in dem Satz von Teilbandsignalen anwendet; und die Skalierhüllkurve von einer Ausgabe des Frequenzbereichsfilters ableitet.
Vorrichtung nach Anspruch 19, bei der der Dekodierer den Frequenzgang des Frequenzbereichsfilters als Funktion der Frequenz ändert.
Vorrichtung nach einem der Ansprüche 16 bis 20, bei der der Dekodierer ein Maß der Tonalität des Audiosignals erhält, welches von dem Satz von Teilbandsignalen wiedergegeben wird; und die Skalierhüllkurve in Abhängigkeit von dem Tonalitätsmaß anpaßt.
Vorrichtung nach Anspruch 21, welche das Tonalitätsmaß vom Eingangssignal erhält.
Vorrichtung nach Anspruch 21, bei der der Dekodierer das Tonalitätsmaß von der Art ableitet, in der die nullwertigen Spektralkomponenten in dem bestimmten Teilbandsignal angeordnet sind.
Vorrichtung nach einem der Ansprüche 16 bis 23, bei der die Synthesefilterbank durch eine Blocktransformation verwirklicht ist, und der Deformatierer eine Folge von Sätzen von Teilbandsignalen vom Eingangssignal erhält; der Dekodierer ein gemeinsames Teilbandsignal in der Folge der Teilbandsignalsätze identifiziert, wo für jeden Satz in der Folge eine oder mehrere Spektralkomponenten einen Nichtnull-Wert haben und eine Vielzahl von Spektralkomponenten einen Null-Wert haben, eine gemeinsame Spektralkomponente innerhalb des gemeinsamen Teilbandsignals, welche einen Nullwert hat, in einer Vielzahl benachbarter Sätze in der Folge identifiziert, denen ein Satz mit den gemeinsamen Spektralkomponenten, die einen Nichtnull-Wert haben, entweder vorausgeht oder nachfolgt, die synthetisierten Spektralkomponenten, die den nullwertigen gemeinsamen Spektralkomponenten entsprechen, gemäß der Skalierhüllkurve skaliert, die sich von Satz zu Satz in der Folge gemäß zeitlichen Maskiereigenschaften des menschlichen Hörsystems ändert; und eine Folge modifizierter Sätze von Teilbandsignalen erzeugt, indem er die synthetisierten Spektralkomponenten anstelle der entsprechenden nullwertigen gemeinsamen Spektralkomponenten in den Sätzen einsetzt; und die Synthesefilterbank die Audioinformation in Abhängigkeit von der Folge modifizierter Sätze von Teilbandsignalen erzeugt.
Vorrichtung nach einem der Ansprüche 16 bis 24, bei der die Synthesefilterbank durch eine Blocktransformation verwirklicht ist und der Dekodierer die synthetisierten Spektralkomponen ten durch Spektraltranslation anderer Spektralkomponenten in dem Satz von Teilbandsignalen erzeugt.
Vorrichtung nach einem der Ansprüche 16 bis 25, bei der die Skalierhüllkurve sich entsprechend zeitlicher Maskiereigenschaften des menschlichen Hörsystems ändert.
Vorrichtung zum Erzeugen eines Ausgangssignals, aufweisend: eine Analysefilterbank, die in Abhängigkeit von Audioinformation einen Satz von Teilbandsignalen erzeugt, die je eine oder mehrere Spektralkomponenten haben, welche den Spektralgehalt eines Audiosignals wiedergeben; mit der Analysebank gekoppelte Quantisierer, welche die Spektralkomponenten quantisieren; einen mit den Quantisierern gekoppelten Kodierer, der innerhalb des Satzes von Teilbandsignalen ein bestimmtes Teilbandsignal identifiziert, in welchem eine oder mehrere Spektralkomponenten einen Nichtnull-Wert haben und von einem Quantisierer quantisiert sind, der ein Mindestquantisierniveau hat, das einer Schwelle entspricht, und in welchem eine Vielzahl von Spektralkomponenten einen Null-Wert haben, der Skaliersteuerinformation vom Spektralgehalt des Audiosignals ableitet, wobei die Skaliersteuerinformation das Skalieren synthetisierter Spektralkomponenten steuert, die synthetisiert und anstelle der Spektralkomponenten, die einen Null-Wert haben, in einem Empfänger eingesetzt werden sollen, der Audioinformation in Abhängigkeit von dem Ausgangssignal erzeugt; und einen mit dem Kodierer gekoppelten Formatierer, der das Ausgangssignal durch das Zusammenführen der Skaliersteuerinformation und von Information, die den Satz von Teilbandsignalen wiedergibt, erzeugt.
Vorrichtung nach Anspruch 27, die ein Maß der Tonalität des Audiosignals erhält, welches von dem Satz von Teilbandsignalen wiedergegeben ist; und die Skaliersteuerinformation von dem Tonalitätsmaß ableitet.
Vorrichtung nach Anspruch 27 oder 28, die eine Modulierkomponente aufweist, welche eine geschätzte psychoakustische Maskierschwelle des von dem Teilbandsignalsatz wiedergegebenen Audiosignals erhält und die Skaliersteuerinformation von der geschätzten psychoakustischen Maskierschwelle ableitet.
Vorrichtung nach einem der Ansprüche 27 bis 29, die zwei Spektralniveaumaße für Teile des Audiosignals erhält, die von den nichtnullwertigen und den nullwertigen Spektralkomponenten wiedergegeben sind; und die Skaliersteuerinformation von den beiden Maßen der Spektralniveaus ableitet.
Träger, der ein Befehlsprogramm übermittelt und von einem Gerät zum Ausführen des Befehlsprogramms lesbar ist, um ein Verfahren zum Erzeugen von Audioinformation durchzuführen, wobei das Verfahren folgendes aufweist: Empfangen eines Eingangssignals und Erhalten eines Satzes von Teilbandsignalen von demselben, die je eine oder mehrere Spektralkomponenten haben, welche den Spektralgehalt eines Audiosignals wiedergeben; Identifizieren eines bestimmten Teilbandsignals innerhalb des Satzes der Teilbandsignale, in welchem eine oder mehrere Spektralkomponenten einen Nichtnull-Wert haben und von einem Quantisierer quantisiert sind, der ein Mindestquantisierniveau hat, das einer Schwelle entspricht, und in welchem eine Vielzahl von Spektralkomponenten einen Null-Wert hat; Erzeugen synthetisierter Spektralkomponenten, die jeweiligen nullwertigen Spektralkomponenten in dem bestimmten Teilbandsignal entsprechen und gemäß einer Skalierhüllkurve skaliert sind, die unterhalb oder gleich der Schwelle ist; Erzeugen eines modifizierten Satzes von Teilbandsignalen durch Einsetzen der synthetisierten Spektralkomponenten anstelle entsprechender nullwertiger Spektralkomponenten in dem bestimmten Teilbandsignal; und Erzeugen der Audioinformation durch Anwenden einer Synthesefilterbank auf den modifizierten Satz von Teilbandsignalen.
Träger nach Anspruch 31, bei dem die Skalierhüllkurve einheitlich ist.
Träger nach Anspruch 31 oder 32, bei dem die Synthesefilterbank durch eine Blocktransformation verwirklicht ist, die zwischen benachbarten Spektralkomponenten Spektralstreuung hat und die Skalierhüllkurve sich mit einer Rate ändert, die einer Rate des Frequenzgangabfalls der Spektralstreuung der Blocktransformation im wesentlichen gleich ist.
Träger nach einem der Ansprüche 31 bis 33, bei dem die Synthesefilterbank durch eine Blocktransformation verwirklicht ist und das Verfahren aufweist, einen Frequenzbereichsfilter auf eine oder mehrere Spektralkomponenten in dem Satz von Teilbandsignalen anzuwenden, und die Skalierhüllkurve von einer Ausgabe des Frequenzbereichsfilters abzuleiten.
Träger nach Anspruch 34, bei dem das Verfahren aufweist, den Frequenzgang des Frequenzbereichsfilters als Funktion der Frequenz zu ändern.
Träger nach einem der Ansprüche 31 bis 35, bei dem das Verfahren aufweist, ein Maß der Tonalität des Audiosignals zu erhalten, welches von dem Satz von Teilbandsignalen wiedergegeben ist; und die Skalierhüllkurve in Abhängigkeit von dem Tonalitätsmaß anzupassen.
Träger nach Anspruch 36, bei dem das Verfahren das Tonalitätsmaß vom Eingangssignal erhält.
Träger nach Anspruch 36, bei dem das Verfahren aufweist, das Maß der Tonalität von der Art abzuleiten, in der die nullwertigen Spektralkomponenten in dem bestimmten Teilbandsignal angeordnet sind.
Träger nach einem der Ansprüche 31 bis 38, bei dem die Synthesefilterbank durch eine Blocktransformation verwirklicht ist und das Verfahren aufweist: eine Folge von Sätzen von Teilbandsignalen vom Eingangssignal zu erhalten; ein gemeinsames Teilbandsignal in der Folge der Teilbandsätze zu identifizieren, wo für jeden Satz in der Folge eine oder mehrere Spektralkomponenten einen Nichtnull-Wert haben und eine Vielzahl von Spektralkomponenten einen Null-Wert haben; Identifizieren einer gemeinsamen Spektralkomponente innerhalb des gemeinsamen Teilbandsignals, die in einer Vielzahl einander benachbarter Sätze in der Folge einen Null-Wert hat, denen ein Satz mit den gemeinsamen Spektralkomponenten, die einen Nichtnull-Wert haben, entweder vorausgeht oder nachfolgt; Skalieren der synthetisierten Spektralkomponenten, die den nullwertigen gemeinsamen Spektralkomponenten entsprechen, gemäß der Skalierhüllkurve, die sich von Satz zu Satz in der Folge in Übereinstimmung mit zeitlichen Maskiereigenschaften des menschlichen Hörsystems ändert; Erzeugen einer Folge modifizierter Sätze von Teilbandsignalen durch Einsetzen der synthetisierten Spektralkomponenten anstelle der entsprechenden nullwertigen gemeinsamen Spektralkomponenten in den Sätzen; und Erzeugen der Audioinformation durch Anwenden der Synthesefilterbank auf die Folge modifizierter Sätze von Teilbandsignalen.
Träger nach einem der Ansprüche 31 bis 39, bei dem die Synthesefilterbank durch eine Blocktransformation verwirklicht ist und das Verfahren die synthetisierten Spektralkomponenten durch Spektraltranslation anderer Spektralkomponenten in dem Satz von Teilbandsignalen erzeugt.
Träger nach einem der Ansprüche 31 bis 40, bei dem die Skalierhüllkurve sich in Übereinstimmung mit zeitlichen Maskiereigenschaften des menschlichen Hörsystems ändert.
Träger, der ein Befehlsprogramm übermittelt und von einem Gerät zum Ausführen des Befehlsprogramms lesbar ist, um ein Verfahren zum Erzeugen eines Ausgangssignals durchzuführen, wobei das Verfahren aufweist: Erzeugen eines Satzes von Teilbandsignalen, die je eine oder mehrere Spektralkomponenten haben, welche den Spektralgehalt eines Audiosignals wiedergeben, durch Quantisieren von Information, welche durch Anwenden einer Analysefilterbank auf Audioinformation erhalten wird; Identifizieren eines bestimmten Teilbandsignals innerhalb des Satzes von Teilbandsignalen, in welchem eine oder mehrere Spektralkomponenten einen Nichtnull-Wert haben und von einem Quantisierer quantisiert sind, der ein Mindestquantisierniveau hat, das einer Schwelle entspricht, und in welchem eine Vielzahl von Spektralkomponenten einen Null-Wert haben; Ableiten von Skaliersteuerinformation von dem Spektralgehalt des Audiosignals, wobei die Skaliersteuerinformation das Skalieren synthetisierter Spektralkomponenten steuert, die synthetisiert und durch die die Spektralkomponenten, die einen Null-Wert haben, in einem Empfänger ersetzt werden sollen, der Audioinformation in Abhängigkeit von dem Ausgangssignal erzeugt; und Erzeugen des Ausgangssignals durch Zusammenführen der Skaliersteuerinformation und Information, die den Satz der Teilbandsignale wiedergibt.
Träger nach Anspruch 42, bei dem das Verfahren aufweist, ein Maß der Tonalität des Audiosignals zu erhalten, welches von dem Satz von Teilbandsignalen wiedergegeben ist; und die Skaliersteuerinformation von dem Tonalitätsmaß abzuleiten.
Träger nach Anspruch 42 oder 43, bei dem das Verfahren aufweist, eine geschätzte psychoakustische Maskierschwelle des von dem Satz von Teilbandsignalen wiedergegebenen Audiosignals zu erhalten; und die Skaliersteuerinformation von der geschätzten psychoakustischen Maskierschwelle abzuleiten.
Träger nach einem der Ansprüche 42 bis 44, bei dem das Verfahren aufweist, zwei Spektralniveaumaße für Teile des Audiosignals zu erhalten, die von den nicht nullwertigen und den nullwertigen Spektralkomponenten wiedergegeben sind; und die Skaliersteuerinformation von den beiden Maßen der Spektralniveaus abzuleiten.