EP1047047B1

EP1047047B1 - Verfahren und Vorrichtung zur Kodierung und Dekodierung von Audiosignalen und Aufzeichnungsträger mit Programmen dafür

Info

Publication number: EP1047047B1
Application number: EP00105923A
Authority: EP
Inventors: Naoki Nippon Telegraph/Telephone Corp. Iwakami; Takehiro Nippon Telegraph/Telephone Corp. Moriya; Akio Nippon Telegraph/Telephone Corp. Jin; Kazuaki Nippon Telegraph/Telephone Corp. Chikira; Takeshi Nippon Telegraph/Telephone Corp. Mori
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1999-03-23
Filing date: 2000-03-23
Publication date: 2005-02-02
Anticipated expiration: 2020-03-23
Also published as: EP1047047A2; DE60017825T2; US6658382B1; DE60017825D1; EP1047047A3

Claims

Audiosignalcodierverfahren zum Codieren von eingegebenen Audiosignalabtastwerten, wobei das Verfahren die folgenden Schritte umfasst:

(a) Zeit-Frequenz-Transformieren von jeder festgelegten Anzahl von eingegebenen Audiosignalabtastwerten in Frequenzbereichskoeffizienten;

(b) Aufteilen der Frequenzbereichskoeffizienten in eine einzige Sequenz von Koeffizientensegmenten, von denen jedes aus einer zusammenhängenden Sequenz von mehreren Koeffizienten besteht, und weiteres Aufteilen der Sequenz von Koeffizientensegmenten in eine Sequenz von mehreren Teilbändern, von denen jedes aus mehreren Koeffizientensegmenten besteht;

(c) Berechnen der Intensität von jedem Koeffizientensegment der Sequenz von Koeffizientensegmenten;

(d) Klassifizieren der Koeffizientensegmente in jedem Teilband in der einzigen Sequenz in eine von mehreren Gruppen entsprechend der Intensitäten der Koeffizientensegmente in dem jeweiligen Teilband, um mehrere Sequenzen von Koeffizientensegmenten zu erzeugen, und Codieren von Klassifikationsinformation, die anzeigt, zu welcher der mehreren Sequenzen jedes Koeffizientensegment gehört, und Ausgeben von codierter Klassifikationsinformation; und

(e) Codieren der mehreren Sequenzen von Koeffizientensegmenten und Ausgeben der codierten Ergebnisse als Koeffizientencode.
Verfahren nach Anspruch 1, bei dem der Schritt (e) einen Schritt des voneinander getrennten Codierens der mehreren Sequenzen von Koeffizientensegmenten und des Ausgebens derselben als jeweilige ihnen entsprechende Koeffizientencodes umfasst.
Verfahren nach Anspruch 1, bei dem der Schritt (e) die folgenden Schritte umfasst:

(e-1 ) Getrenntes Normieren der Intensitäten der mehreren Sequenzen von Koeffizientensegmenten, Codieren von Normierungsinformation und Ausgeben der codierten Normierungsinformation als einen Normierungsinformationscode in dem Schritt (d);

(e-2) Rekombinieren von Koeffizientensegmenten der normierten mehreren Sequenzen von Koeffizientensegmenten in eine einzige Sequenz von Koeffizientensegmenten der ursprünglichen Anordnung basierend auf der Klassifikationsinformation; und

(e-3) Quantisieren der rekombinierten einzigen Sequenz von Koeffizientensegmenten und Ausgeben des Quantisierungsergebnisses als den Koeffizientencode.
Verfahren nach Anspruch 2 oder 3, bei dem: die Anzahl der Gruppen zwei ist; und der Schritt (d) ein Schritt mit Folgendem ist: Für jedes Teilband Bestimmen eines Schwellenwertes in der Verteilung der Intensitäten der Koeffizientensegmente im jeweiligen Teilband; Vergleichen des Schwellenwertes mit der Intensität jedem der Koeffizientensegmente in dem jeweiligen Teilband; und Klassifizieren des Koeffizientensegments gemäß dem Vergleichsergebnis.
Verfahren nach Anspruch 4, bei dem der Schritt (d) einen Schritt mit dem Folgenden umfasst: Berechnen der Summen der Intensitäten von Koeffizientensegmenten, die für das jeweilige Teilband zu den zwei Gruppen gehören; Berechnen des Verhältnisses zwischen den Summen als einen Index der Intensitätsvariation in dem jeweiligen Teilband; und Reklassifizieren aller Koeffizientensegmente in dem jeweiligen Teilband in diejenige der beiden Gruppen, welche die niedrigere Intensität hat, wenn das Verhältnis kleiner ist als ein vorbestimmter Wert.
Verfahren nach Anspruch 2 oder 3, bei dem der Schritt (a) einen Schritt mit dem Folgenden umfasst: Glätten der Frequenzbereichskoeffizienten, indem sie mit einer spektralen Hüllkurve des eingegebenen Audiosignals über dessen gesamtes Band vornormiert werden; und Information über die spektrale Hüllkurve codiert und als ein spektraler Hüllkurvencode ausgegeben wird.
Verfahren nach Anspruch 3, bei dem der Schritt (e-1) ein Schritt mit dem Folgenden ist: Berechnen eines repräsentativen Werts der Koeffizientensegmentintensitäten in dem jeweiligen Teilband der mehreren Sequenzen von Koeffizientensegmenten; und Normieren aller Koeffizientensegmente des jeweiligen Teilbandes mit einem dem repräsentativen Wert entsprechenden Wert.
Verfahren nach Anspruch 3, bei dem der Schritt (e-1) ein Schritt mit dem Folgenden ist: getrenntes Wiederherstellen der mehreren Sequenzen von Koeffizientensegmenten über dem gesamten Band des eingegebenen Audiosignals; Berechnen eines repräsentativen Werts der Koeffizientensegmentintensitäten in dem jeweiligen Teilband; Normieren der Koeffizientensegmente des jeweiligen Teilbandes mit dem repräsentativen Wert; und jeweiliges Ausgeben der mehreren Sequenzen von Koeffizientensegmenten als geglättete Sequenz von Koeffizientensegmenten.
Verfahren nach Anspruch 7 oder 8, bei dem der Schritt (e-1) ein Schritt mit dem Folgenden ist: Berechnen des repräsentativen Werts der Koeffizientensegmentintensitäten in dem jeweiligen Teilband; Quantisieren des repräsentativen Werts; Normieren des jeweiligen Teilbandes mit dem quantisierten repräsentativen Wert; und Ausgeben von Quantisierungsinformation als Glättungsinformation.
Verfahren nach Anspruch 1, bei dem der Schritt (e) die folgenden Schritte umfasst:

(e-1) Berechnen, als Glättungsinformation, eines Wertes, der Intensitäten von Koeffizientensegmenten in dem jeweiligen Teilband in den mehreren Sequenzen von Koeffizientensegmenten repräsentiert;

(e-2) Kombinieren der Glättungsinformation der mehreren Sequenzen von Koeffizientensegmenten über dem gesamten Band des eingegebenen Audiosignals, um kombinierte Glättungsinformation zu erhalten, und Kombinieren der mehreren Sequenzen von Koeffizientensegmenten über dem gesamten Band zu einer kombinierten Sequenz;

(e-3) Normieren der Koeffizientensegmente der kombinierten Sequenz mit der kombinierten Glättungsinformation, um eine einzige geglättete Sequenz von Koeffizientensegmenten zu erhalten; und

(e-4) Codieren und Ausgeben der einzigen geglätteten Sequenz von Koeffizientensegmenten als einen Koeffizientencode.
Verfahren nach Anspruch 1, 2 oder 3, bei dem das Codieren der Klassifikationsinformation in dem Schritt (d) durch reversible Komprimierung ausgeführt wird.
Verfahren nach Anspruch 1, 2 oder 10, bei dem der Schritt (e) ein Schritt des Codierens von wenigstens einer der mehreren Sequenzen von Koeffizientensegmenten durch adaptive Bitzuweisungsquantisierung ist.
Verfahren nach Anspruch 1, 2 oder 10, bei dem der Schritt (e) ein Schritt des Skalarquantisierens und anschließenden Entropie-Codiereris von wenigstens einer der mehreren Sequenzen von Koeffizientensegmenten ist.
Verfahren nach Anspruch 1, 2 oder 10, bei dem der Schritt (e) ein Schritt des Codierens von wenigstens einer der mehreren Sequenzen von Koeffizientensegmenten durch Vektorquantisierung ist.
Verfahren nach Anspruch 1, 2 oder 10, bei dem der Schritt (e) ein Schritt des Codierens von wenigstens einer der mehreren Sequenzen von Koeffizientensegmenten durch ein Codierverfahren ist, das von demjenigen der anderen Sequenz von Koeffizientensegmenten verschieden ist.
Decodierverfahren, welches eingegebene digitale Codes, wie sie durch das Verfahren des Anspruchs 1 aus einem eingegebenen Audiosignal erzeugt werden, decodiert und Audiosignalabtastwerte ausgibt, wobei das Verfahren die folgenden Schritte umfasst:

(a) Decodieren der eingegebenen digitalen Codes in mehrere Sequenzen von Koeffizientensegmenten;

(b) Decodieren von codierter Klassifikationsinformation in den eingegebenen digitalen Codes, um Klassifikationsinformation zu erhalten, die anzeigt, zu welcher der mehreren Sequenzen jedes Koeffizientensegment gehört, Kombinieren, basierend auf der Klassifikationsinformation, der mehreren Sequenzen von Koeffizientensegmenten zu einer einzigen Sequenz von Koeffizientensegmenten, von denen jedes eine zusammenhängende Sequenz von mehreren Frequenzbereichskoeffizienten umfasst, um eine ursprüngliche einzige Sequenz von Frequenzbereichskoeffizienten zu rekonstruieren; und

(c) Transformieren der ursprünglichen einzigen Sequenz von Frequenzbereichskoeffizienten in Audiosignalabtastwerte im Zeitbereich, und Ausgeben der Audiosignalabtastwerte als ein Audiosignal.
Decodierverfahren, welches eingegebene digitale Codes, wie sie durch das Verfahren des Anspruchs 3 aus einem eingegebenen Audiosignal erzeugt werden, decodiert und Audiosignalabtastwerte ausgibt, wobei das Verfahren die folgenden Schritte umfasst:

(a) Decodieren des eingegebenen digitalen Codes in eine einzige Sequenz von Koeffizientensegmenten;

(b) Decodieren von codierter Klassifikationsinformation in den eingegebenen digitalen Codes, um Klassifikationsinformation zu erhalten, die anzeigt, zu welcher der mehreren Sequenzen jedes Koeffizientensegment gehört, und basierend auf der Klassifikationsinformation Aufteilen der einzigen Sequenz von Koeffizientensegmenten in mehreren Sequenzen von Koeffizientensegmenten;

(c) Decodieren der eingegebenen digitalen Codes, um entsprechend den mehreren Sequenzen von Koeffizientensegmenten eine Normierungsinformationssequenz zu erhalten, und basierend auf entsprechender Normierungsinformation in der Normierungsinformationssequenz Inversnormieren von jeder der mehreren Sequenzen von Koeffizientensegmenten für jedes Teilband;

(d) Umordnen der inversnormierten mehreren Sequenzen von Koeffizientensegmenten zu der ursprünglichen einzigen Sequenz von Koeffizientensegmenten, von denen jedes eine zusammenhängende Sequenz von mehreren Frequenzbereichskoeffizienten umfasst, um eine ursprüngliche einzige Sequenz von Frequenzbereichskoeffizienten zu rekonstruieren; und

(e) Transformieren der rekonstruierten ursprünglichen einzigen Sequenz von Frequenzbereichskoeffizienten im Zeitbereich und Ausgeben der resultierenden Audiosignalabtastwerte als ein Audiosignal.
Verfahren nach Anspruch 16, bei dem der Schritt (c) einen Schritt mit dem Folgenden umfasst: Decodieren der eingegebenen digitalen Codes, um eine spektrale Hüllkurve über dem gesamten Band des eingegebenen Audiosignals zu erhalten; und Inversnormieren der Frequenzbereichskoeffizienten mit der spektralen Hüllkurve.
Verfahren nach Anspruch 17, bei dem der Schritt (d) einen Schritt mit dem Folgenden umfasst: Decodieren der eingegebenen digitalen Codes, um eine spektrale Hüllkurve über dem gesamten Band des eingegebenen Audiosignals zu erhalten; und Inversnormieren der rekonstruierten ursprünglichen Einzelfrequenzbereichskoeffizienten mit der spektralen Hüllkurve, um sie als Frequenzbereichskoeffizienten zu verwenden.
Verfahren nach Anspruch 17 oder 18, bei dem der Schritt (c) ein Schritt des jeweiligen Wiederherstellens von jeder der mehreren Sequenzen von Koeffizientensegmenten über dem gesamten ursprünglichen Band des eingegebenen Audiosignals auf der Basis der Klassifikationsinformation und des Inversnormierens der wiederhergestellten Koeffizientensegmente für jedes Teilband basierend auf der Normierungsinformation ist.
Verfahren nach Anspruch 16 oder 17, bei dem das Decodieren der Klassifikationsinformation in dem Schritt (b) ein Decodieren von reversiblen komprimierten Codes ist.
Verfahren nach Anspruch 16 oder 18, bei dem der Schritt (a) ein Schritt des Decodierens von adaptiv bitzuweisungsquantisierten Codes für wenigstens eine der mehreren Sequenzen von Koeffizientensegmenten ist.
Verfahren nach Anspruch 16 oder 18, bei dem der Schritt (a) ein Schritt des Decodierens von Entropiecodes für wenigstens eine der mehreren Sequenzen von Koeffizientensegmenten ist, um skalarquantisierte Koeffizienten zu erhalten.
Verfahren nach Anspruch 16 oder 18, bei dem der Schritt (a) ein Schritt des Decodierens von vektorquantisierten Codes für wenigstens eine der mehreren Sequenzen von Koeffizientensegmenten ist.
Verfahren nach Anspruch 16 und 18, bei dem der Schritt (a) ein Schritt des Decodierens von wenigstens einer der mehreren Sequenzen von Koeffizientensegmenten durch ein Decodierverfahren ist, das von dem für die andere Sequenz verschieden ist.
Codiervorrichtung, die eingerichtet ist, um eingegebene Audiosignalabtastwerte zu empfangen und um digitale Codes auszugeben, wobei die Vorrichtung folgendes umfasst:

ein Zeit-Frequenz-Transformationsteil (11) zum Zeit-Frequenz-Transformieren von jeder festgelegten Anzahl von eingegebenen Audiosignalabtastwerten in Frequenzbereichskoeffizienten;

ein Koeffizientensegmenterzeugungsteil (12) zum Aufteilen der Frequenzbereichskoeffizienten von dem Zeit-Frequenz-Transformationsteil in eine einzige Sequenz von Koeffizientensegmenten, von denen jedes aus einer zusammenhängenden Sequenz von Koeffizienten besteht, und weiterem Aufteilen der einzigen Sequenz von Koeffizientensegmenten in eine Sequenz von mehreren Teilbändern, von denen jedes aus einer Mehrzahl von Koeffizientensegmenten besteht;

ein Segmentintensitätsberechnungsteil (3-1) zum Berechnen der Intensität von jedem Koeffizientensegment aus dem Koeffizientensegmenterzeugungsteil;

ein Koeffizientensegmentklassifizierungsteil (14) zum Aufteilen der Koeffizientensegmente in jedem Teilband in eine von mehreren Gruppen entsprechend der relativen Größe der Segmentintensität, die in dem Segmentintensitätsberechnungsteil berechnet wird, dann Klassifizieren der einzigen Sequenz von Koeffizientensegmenten, die in dem Koeffizientensegmenterzeugungsteil erzeugt wird, in mehrere Sequenzen basierend auf Klassifikationsinformation über die Gruppierung, und Codieren von Klassifikationsinformation, die anzeigt, zu welcher der mehreren Sequenzen jedes Koeffizientensegment gehört, und Ausgeben der codierten Klassifikationsinformation; und

ein Quantisierungsteil (16, 17) zum Codieren der mehreren Sequenzen von Koeffizientensegmenten und Ausgeben des codierten Ergebnisses als die digitalen Codes.
Codiervorrichtung, die eingerichtet ist, um eingegebene Audiosignalabtastwerte zu empfangen und um digitale Codes auszugeben, wobei die Vorrichtung folgendes umfasst:

ein Zeit-Frequenz-Transformationsteil (11) zum Zeit-Frequenz-Transformieren von jeder festgelegten Anzahl von eingegebenen Audiosignalabtastwerten in Frequenzbereichskoeffizienten;

ein Koeffizientensegmenterzeugungsteil (12) zum Aufteilen der Frequenzbereichskoeffizienten von dem Zeit-Frequenz-Transformationsteil in eine einzige Sequenz von Koeffizientensegmenten, von denen jedes aus einer zusammenhängenden Sequenz von Koeffizienten besteht;

ein Segmentintensitätsberechnungsteil (3-1) zum Berechnen der Intensität von jedem Koeffizientensegment von dem Koeffizientensegmenterzeugungsteil;

ein Koeffizientensegmentklassifizierungsteil (14) zum Aufteilen der Koeffizientensegmente für jedes Teilband in mehrere Gruppen entsprechend der relativen Größe der Segmentintensität, die in dem Segmentintensitätsberechnungsteil (3-1) berechnet wird, dann Klassifizieren der einzigen Sequenz von Koeffizientensegmenten, die in dem Koeffizientensegmenterzeugungsteil erzeugt wird, in mehrere Sequenzen basierend auf Klassifikationsinformation, die anzeigt, zu weicher der mehreren Sequenzen jedes Koeffizientensegment gehört, und Codieren der Klassifikationsinformation und Ausgeben eodierter Klassifikationsinformation;

ein Glättungsteil (21, 22), um für jedes Teilband die Intensität von jedem der Koeffizientensegmente, die in dem Koeffizientensegmentklassifizierungsteil in mehrere Sequenzen klassifiziert werden, zu normieren, die Normierungsinformation zu codieren und die codierte Information als einen digitalen Code auszugeben;

ein Koeffizientenkombinierteil (23) zum Rekombinieren der mehreren intensitätsnormierten Sequenzen von Koeffizientensegmenten zu der ursprünglichen einzigen Sequenz von Koeffizientensegmenten durch Verwenden der Gruppierungsinformation: und

ein Quantisierungsteil (19) zum Quantisieren der rekombinierten Koeffizientensegmente und Ausgeben der quantisierten Werte als die digitalen Codes.
Codiervorrichtung nach Anspruch 27, die weiter ein zweites Glättungsteil (29) umfasst zum Glätten der Frequenzbereichskoeffizienten von dem Zeit-Frequenz-Transformationsteil durch Normieren derselben mit einer spektralen Hüllkurve, weiche das gesamte Band des eingegebenen Audiosignals überdeckt, Codieren von spektraler Hüllkurveninformation und Ausgeben der codierten Information als einen digitalen Code.
Decodiervorrichtung, die eingerichtet ist, um eingegebene digitale Codes zu empfangen, wie sie aus einem eingegebenen Audiosignal durch die Codiervorrichtung nach Anspruch 26 erzeugt werden, und um Audiosignalabtastwerte auszugeben, wobei die Vorrichtung folgendes umfasst:

ein Inversquantisierungsteil (32, 33) zum Decodieren der eingegebenen digitalen Codes in mehrere Sequenzen von Koeffizientensegmenten:

ein Koeffizientenkombinierteil (35) zum Decodieren von codierter Klassifikationsinformation in den eingegebenen digitalen Codes, um Klassifikationsinformation zu erhalten, die anzeigt, zu welcher der mehreren Sequenzen jedes Koeffizientensegment gehört, und zum Kombinieren der mehreren Sequenzen von Koeffizientensegmenten in eine einzige Sequenz von Koeffizientensegmenten, von denen jedes eine zusammenhängende Sequenz von mehreren Koeffizienten umfasst, basierend auf der Klassifikationsinformation, um eine ursprüngliche einzige Sequenz von Frequenzbereichskoeffizienten zu rekonstruieren; und

ein Frequenz-Zeit-Transformationsteil (36) zum Frequenz-Zeit-Transformieren der rekonstruierten ursprünglichen einzigen Sequenz von Frequenzbereichskoeffizienten in den Zeitbereich und Ausgeben der resultierenden Audiosignalabtastwerte als ein Audiosignal.
Decodiervorrichtung, die eingerichtet ist, um eingegebene digitale Codes zu empfangen, wie sie aus einem eingegebenen Audiosignal durch die Codiervorrichtung des Anspruchs 27 erzeugt werden, und um Audiosignalabtastwerte auszugeben, wobei die Vorrichtung folgendes umfasst:

ein Inversquantisierungsteil (37) zum Decodieren der eingegebenen digitalen Codes in Koeffizientensegmente;

ein Koefftzientensegmentklassifizierungsteil (34, 39) zum Decodieren codierter Klassifikationsinformation in den eingegebenen digitalen Codes, um Klassifikationsinformation zu erhalten, die anzeigt, zu welcher der mehreren Sequenzen jedes Koeffizientensegment gehört, und, basierend auf der Klassifikationsinformation, Klassifizieren der Koeffizientensegmente in den mehreren Sequenzen;

ein Inversglättungsteil (41, 42) zum Decodieren der eingegebenen digitalen Codes, um Normierungsinformation der Koeffizientensegmente zu erhalten, die in die mehreren Sequenzen klassifiziert sind, und Inversnormieren der mehreren Sequenzen von Koeffizientensegmenten basierend auf der Normierungsinformation;

ein Koeffizientenkombinierteil (35) zum Kombinieren der inversnormierten mehreren Sequenzen von Koeffizientensegmenten zu einer einzigen Sequenz von Koeffizientensegmenten, von denen jedes eine zusammenhängende Sequenz von mehreren Frequenzbereichskoeffizienten umfasst, basierend auf der Klassifikationsinformation, um eine ursprüngliche einzige Sequenz der Frequenzbereichskoeffizienten zu rekonstruieren; und

ein Frequenz-Zeit-Transformationsteil (36) zum Frequenz-Zeit-Transformieren der einzigen Sequenz von Frequenzbereichskoeffizienten in den Zeitbereich und Ausgeben der resultierenden Audiosignalabtastwerte als ein Audiosignal.
Decodiervorrichtung nach Anspruch 30, die weiter ein zweites Inversglättungsteil (49) zum Decodieren der eingegebenen digitalen Codes umfasst, um eine spektrale Hüllkurve zu erhalten, die das gesamte Band des eingegebenen Audiosignals überdeckt, und zum Inversnormieren der Frequenzbereichskoeffizienten, die mit der spektralen in das Frequenz-Zeit-Transformationsteil eingegeben werden sollen.
Computerlesbares Aufzeichnungsmedium, auf dem ein Codierprogramm zum Ausführen der Schritte des Codierverfahrens gemäß einem der Ansprüche 1 bis 15 auf einem Computer aufgezeichnet ist.
Computerlesbares Aufzeichnungsmedium, auf dem ein Decodierprogramm zum Ausführen der Schritte des Decodierverfahrens gemäß einem der Ansprüche 16 bis 25 auf einem Computer aufgezeichnet ist.