DE60208426T2

DE60208426T2 - Vorrichtung zur signalkodierung, signaldekodierung und system zum verteilen von audiodaten

Info

Publication number: DE60208426T2
Application number: DE60208426T
Authority: DE
Inventors: Kosuke Nishio; Takeshi Norimatsu; Mineo Tsushima; Naoya Tanaka
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp
Priority date: 2001-11-02
Filing date: 2002-10-30
Publication date: 2006-08-24
Anticipated expiration: 2022-10-31
Also published as: CN1288622C; US20030088328A1; CN1507618A; EP1440432A1; DE60204039T2; EP1440432B1; US7283967B2; US7328160B2; CN1484822A; US7392176B2; US20030088423A1; CN1209744C; DE60208426D1; WO2003038812A1; EP1440433A1; DE60204038D1; US20030088400A1; EP1440300B1; WO2003038389A1; DE60204038T2

Description

Gebiet der Technik
Die vorliegende Erfindung bezieht sich auf eine Technologie zur Komprimierung/Kodierung und Dekomprimierung/Dekodierung von Audiosignalen, um Klang hoher Qualität wiederzugeben.
Technischer Hintergrund
In den letzten Jahren sind vielfältige Verfahren zur Audiosignal-Komprimierung/Kodierung und -Dekomprimierung/Dekodierung entwickelt worden. Das MPEG-2-Advanced Audio Coding (hiernach als „MPEG-2 AAC" oder „AAC" bezeichnet) ist ein solches Verfahren. (Siehe „IS 13818-7 (MPEG-2 Advanced Audio Coding, AAC)", geschrieben von M. Bosi und Mitautoren, April 1997).
1 ist ein Blockdiagramm, das den funktionellen Aufbau einer Kodiervorrichtung und einer Dekodiervorrichtung gemäss dem herkömmlichen AAC-Verfahren zeigt.
Die Kodiervorrichtung 1000 ist eine Vorrichtung, die auf der Grundlage des AAC-Kodierverfahrens ein eingegebenes Audiosignal komprimiert und kodiert, und enthält einen A/D-Wandler 1050, eine Audiodaten-Eingabeeinheit 1100, eine Umformungseinheit 1200, eine Quantisiereinheit 1400, eine Kodiereinheit 1500 und eine Datenstrom-Ausgabeeinheit 1900.
Der A/D-Wandler 1050 tastet ein Eingangssignal mit einer Abtastfrequenz von zum Beispiel 22,05 kHz ab und wandelt das analoge Audiosignal in eine digitale Audiodatensequenz um. Jedes Mal, wenn die Audioeingabeeinheit 1100 1024 Stichproben der Audiodatensequenz des Eingangssignals ausgelesen hat (diese 1024 Stichproben werden hiernach als ein „Frame" bezeichnet), teilt sie die Audiodatensequenz in 2048 Stichproben von Daten auf, darunter zwei Sätze von Daten mit je einer Hälfte (512) der Stichproben für den vor und nach der Frameüberlappung erhaltenen Frame.
Die Umformungseinheit 1200 führt an den Daten der 2048 Stichproben in der Zeitdomäne, die durch die Audiodaten-Eingabeeinheit 1100 aufgeteilt worden sind, eine modifizierte diskrete Kosinustransformation (MDCT: modified discrete cosine transform) zu spektralen Daten in der Frequenzdomäne aus. Die 1024 Stichproben spektraler Daten, eine Hälfte der durch die Transformation gewonnenen spektralen Daten, repräsentieren die Wiedergabebandbreite von 11,025 kHz oder weniger und werden in eine Mehrzahl von Gruppen aufgeteilt. Jede der Gruppen ist so angesetzt, dass sie eine oder mehrere Stichproben der spektralen Daten enthält. Jede der Gruppen stimuliert auch ein kritisches Band des menschlichen Gehörs und wird ein „Skalenfaktorband" genannt.
Die Quantisiereinheit 1400 quantisiert die spektralen Daten im Skalenfaktorband, die von der Umformungseinheit 1200 erzeugt worden sind, zu einer vorbestimmten Anzahl von Bits, indem für jedes Skalenfaktorband ein Normalisierungsfaktor verwendet wird. Dieser Normalisierungsfaktor wird als „Skalenfaktor" bezeichnet. Ferner wird das Ergebnis der Quantisierung eines jeden spektralen Datenwertes mit jedem Skalenfaktor ein „quantisierter Wert" genannt. Die Kodiereinheit 1500 kodiert die durch die Quantisiereinheit 1400 quantisierten Daten, d.h. jeden Skalenfaktor, sowie die unter Verwendung des Skalenfaktors quantisierten spektralen Daten in Übereinstimmung mit der Huffman-Kodierung.
Die Datenstrom-Ausgabeeinheit 1900 wandelt das von der Kodiereinheit 1500 erzeugte kodierende Signal in ein AAC-Bitstromformat um und gibt es aus. Der von der Kodiervorrichtung 1000 ausgegebene Bitstrom wird über ein Übertragungs- oder Aufzeichnungsmedium an die Kodiervorrichtung 2000 übertragen.
Die Kodiervorrichtung 2000 ist eine Vorrichtung, die den durch die Kodiervorrichtung 1000 kodierten Bitstrom dekodiert, und enthält eine Datenstrom-Eingabeeinheit 2100, eine Dekodiereinheit 2200, eine Entquantisiereinheit 2300, eine Rückumformungseinheit 2800, eine Audiodaten-Ausgabeeinheit 2900 und einen D/A-Wandler 2950.
Die Datenstrom-Eingabeeinheit 2100 empfängt den durch die Kodiervorrichtung 1000 kodierten Bitstrom über ein Übertragungsmedium oder über ein Aufzeichnungsmedium und liest das kodierte Signal aus dem empfangenen Bitstrom aus. Die Dekodiereinheit 2200 dekodiert dann das Huffinankodierte Signal, um quantisierte Daten zu erzeugen.
Die Entquantisiereinheit 2300 entquantisiert die durch die Dekodiereinheit 2200 dekodierten, quantisierten Daten unter Verwendung eines Skalenfaktors. Die Rückumformungseinheit 2800 führt eine inverse modifizierte diskrete Kosinustransformation (IMDCT: inverse modified discrete cosine transform) an den 1024 Stichproben spektraler Daten in der Frequenzdomäne, die von der Entquantisiereinheit 2300 erzeugt wurden, zu Audiodaten von 1024 Stichproben in der Zeitdomäne aus. Die Audiodaten-Ausgabeeinheit 2900 kombiniert die Audiodaten von 1024 Stichproben in der Zeitdomäne, die von der Rückumformungseinheit 2800 erzeugt worden sind, sequentiell und gibt die Audiodatensätze von 1024 Stichproben in der zeitlichen Reihenfolge einzeln nacheinander aus. Der D/A-Wandler 2950 wandelt die digitalen Audiodaten bei einer Abtastfrequenz von 22,05 kHz in das analoge Audiosignal um.
In der oben erwähnten Kodiervorrichtung 1000 und Dekodiervorrichtung 2000 gemäss herkömmlicher AAC-Norm können alle Stichprobendaten zu einem Bit oder weniger komprimiert werden. Ausserdem kann das Audiosignal in einer verhältnismässig hohen Qualität wiedergegeben werden, da die spektralen Daten von 1024 Stichproben im unteren Frequenzband, das eine Wiedergabebandbreite von 11,025 kHz oder weniger repräsentiert, nämlich die Hälfte der Abtastfrequenz, mit einer höheren Priorität für das Hören kodiert worden sind.
In der Kodiervorrichtung 1000 und Dekodiervorrichtung 2000 gemäss dem herkömmlichen AAC-Verfahren (verwandte Technik 1) enthalten die zu kodierenden spektralen Daten aber keine Daten der Bandbreite oberhalb von 11,025 kHz, da die Abtastfrequenz 22,05 kHz beträgt. Daher besteht das Problem, dass die Forderung, höhere Klangqualität einschliesslich der Bandbreite oberhalb von 11,025 kHz zu hören, nicht erfüllt werden kann.
Um dieses Problem zu lösen, wird in Betracht gezogen, die an den A/D-Wandler 1050 der Kodiervorrichtung 1000 und an den D/A-Wandler 2950 der Dekodiervorrichtung 2000 in 1 angelegte Abtastfrequenz auf den doppelten Wert von 22,05 kHz, d.h. auf 44,1 kHz zu erhöhen (verwandte Technik 2).
Wenn die Abtastfrequenz 44,1 kHz beträgt, können die spektralen Daten von 512 Stichproben im höheren Frequenzband oberhalb von 11,025 kHz kodiert werden, während das Komprimierungsverhältnis beibehalten wird, aber die spektralen Daten im tieferen Frequenzband mit einer höheren Priorität für das Gehör werden auf die Hälfte verringert, nämlich auf 512 Stichproben. In anderen Worten stehen die Abtastfrequenz und die Anzahl spektraler Daten bei der tieferen Frequenz in einer Abtauschbeziehung, und beide können nicht gleichzeitig erhöht werden. Daher tritt ein anderes Problem auf, indem sich die Klangqualität als Ganzes verschlechtert.
Probleme dieser Art treten in den Kodiervorrichtungen und den Dekodiervorrichtungen anderer Verfahren (zum Beispiel MP3, AC3 usw.) auf.
Die vorliegende Erfindung ist dafür ausgelegt, die oben erwähnten Probleme zu lösen, und das Ziel der vorliegenden Erfindung besteht darin, eine Kodiervorrichtung und eine Dekodiervorrichtung zur Verfügung zu stellen, die eine Wiedergabe von Klang hoher Qualität realisieren können, ohne die Datenmenge nach der Kodierung wesentlich zu erhöhen.
Das Dokument von Alan McCree, „Ein 14-kb/s-Breitband-Sprachkodierer mit einem paramagnetischen Hochbandmodell", 2000 IEEE International Conference on Acoustics, Speech, and Signal Processing, Proceedings (Cat. No. OOCH37100), 5. bis 9. Juni 2000, XP010504932 Istanbul, Türkei, offenbart einen Sprachkodierer, der ein Splitband- (Teilband-) verfahren verwendet, wo die bei 16 kHz abgetasteten Eingangssignale in zwei gleiche Frequenzbänder unterteilt werden, wobei ein Schmalband-CELP-Kodierer hoher Qualität für das untere Band, d.h. 0 bis 4 kHz, verwendet wird, während ein einfaches parametrisches Kodierschema für das obere Band, d.h. 4 bis 8 kHz, verwendet wird, wobei jedes Frequenzband auf eine 8-kHz-Abtastrate dezimiert wird.
Offenbarung der Erfindung
Um das oben genannte Ziel zu erreichen, ist die Kodiervorrichtung gemäss vorliegender Erfindung eine Kodiervorrichtung, die Audiodaten kodiert, und enthält: eine Teilungseinheit, die so betrieben werden kann, dass eine Audiodatensequenz in eine festgelegte Anzahl zusammenhängender Audiodaten aufgeteilt wird; eine Umformungseinheit, die so betrieben werden kann, dass die aufgeteilten Audiodaten zu spektralen Daten in einer Frequenzdomäne umgeformt werden; eine Trennungseinheit, die so betrieben werden kann, dass die durch die Umformungseinheit gewonnenen spektralen Daten in spektrale Daten im tieferen Frequenzband von f1 Hz und darunter und in spektrale Daten in einem höheren Frequenzband von über f1 Hz aufgetrennt werden; eine Kodiereinheit für das tiefere Frequenzband, die so betrieben werden kann, dass die aufgetrennten spektralen Daten im tieferen Frequenzband quantisiert und die quantisierten
Daten kodiert werden; eine Einheit zur Erzeugung von Teilinformation, die so betrieben werden kann, dass aus den aufgetrennten spektralen Daten im höheren Frequenzband Teilinformation erzeugt wird, die ein Merkmal eines Frequenzspektrums im höheren Frequenzband anzeigt; eine Kodiereinheit für das höhere Frequenzband, die so betrieben werden kann, dass die erzeugte Teilinformation kodiert wird; und eine Ausgabeeinheit, die so betrieben werden kann, dass ein durch die Kodiereinheit für das tiefere Frequenzband gewonnener Kode und ein durch die Kodiereinheit für das höhere Frequenzband gewonnener Kode integriert werden und der integrierte Kode ausgegeben wird, wobei f1 die Hälfte oder weniger als die Hälfte einer Abtastfrequenz f2 ist, mit der die Audiodatensequenz erzeugt worden ist.
In der Kodiervorrichtung gemäss vorliegender Erfindung gibt die Umformungseinheit von den durch die Teilungseinheit aufgeteilten Audiodaten eine Menge von spektralen Daten im tieferen Frequenzband von f1 und darunter aus, gleichzeitig gibt sie die spektralen Daten im höheren Frequenzband oberhalb von f1 aus. Die durch die Trennungseinheit aufgetrennten spektralen Daten im tieferen Frequenzband werden quantisiert und kodiert, und die spektralen Daten im höheren Frequenzband werden zu Teilinformation kodiert, die die Eigenschaften des höheren Frequenzbandes darstellt. Die Kodiereinheit für das höhere Frequenzband kodiert die erzeugte Teilinformation. Daher kann das Audiosignal im höheren Frequenzband kodiert werden, um Klang hoher Qualität wiederzugeben, während das Audiosignal im tieferen Frequenzband in gleicher Weise wie Heruntertastung (Downsampling) kodiert werden kann, ohne die gesamte Datenmenge wesentlich zu erhöhen.
Hier ist f1 durch f2/4 gegeben, und die Umformungseinheit kann die Audiodaten zu spektralen Daten von 0 bis 2 × f1 Hz umformen, während die Trennungseinheit die spektralen Daten von 0 bis 2 × f1 Hz in die spektralen Daten im tieferen Frequenzband von f1 Hz und darunter sowie in die spektralen Daten im höheren Frequenzband von über f1 bis 2 × f1 Hz auftrennen kann. Entweder bestehen die spektralen Daten im tieferen Frequenzband von f1 und darunter aus n Stichproben spektraler Daten, die Teilungseinheit kann die Audiodatensequenz in eine Anzahl von Audiodaten teilen, die zur Erzeugung von 2 × n Stichproben spektraler Daten erforderlich sind, die Umformungseinheit kann die aufgeteilten Audiodaten in 2 × n Stichproben spektraler Daten umformen, und die Trennungseinheit kann die 2 × n Stichproben der spektralen Daten in n Stichproben der spektralen Daten im tieferen Frequenzband und n Stichproben der spektralen Daten im höheren Frequenzband auftrennen. Oder die Teilungseinheit kann die Audiodatensequenz in 2 × n Stichproben spektraler Daten, die aus n Stichproben von Audiodaten bestehen, die einem Frame als der Kodiereinheit entsprechen, sowie in zwei Sätze von n/2 Stichproben von Audiodaten in den beiden Nachbarframes vor und nach dem Frame aufteilen, und die Umformungseinheit kann an den aufgeteilten 2 × n Stichproben der Audiodaten MDCT zu einem Spektrum von 0 bis 2 × f1 Hz ausführen, das aus 2 x n Stichproben der spektralen Daten besteht.
Weiter ist die Dekodiervorrichtung gemäss vorliegender Erfindung eine Dekodiervorrichtung, die über ein Aufzeichnungsmedium oder ein Übertragungsmedium eingegebene, kodierte Daten dekodiert, und enthält: eine Auswähleinheit, die so betrieben werden kann, dass in den kodierten Daten enthaltene kodierte Daten des tieferen Frequenzbandes und kodierte Daten des höheren Frequenzbandes ausgewählt werden; eine Entquantisiereinheit für das tiefere Frequenzband, die so betrieben werden kann, dass die durch die Auswähleinheit ausgewählten, kodierten Daten des tieferen Frequenzbandes dekodiert und entquantisiert werden und dabei spektrale Daten in einem tieferen Frequenzband von f1 und darunter ausgegeben werden; eine Dekodiereinheit für Teilinformation, die so betrieben werden kann, dass von der Auswähleineit ausgewählte, kodierte Daten des höheren Frequenzbandes dekodiert werden und dabei Teilinformation erzeugt wird, die ein Merkmal der spektralen Daten in einem höheren Frequenzband anzeigt; eine Entquantisiereinheit für das höhere Frequenzband, die so betrieben werden kann, dass die spektralen Daten im höheren Frequenzband auf der Basis der durch die Dekodiereinheit für Teilinformation erzeugten Teilinformation ausgegeben werden; eine Integrationseinheit, die so betrieben werden kann, dass die durch die Entquantisiereinheit für das tiefere Frequenzband ausgegebenen spektralen Daten im tieferen Frequenzband und die durch die Entquantisiereinheit für das höhere Frequenzband ausgegebenen spektralen Daten im höheren Frequenzband integriert werden; eine Rückumformungseinheit, die so betrieben werden kann, dass die durch die Integrationseinheit integrierten spektralen Daten zu Audiodaten in einer Zeitdomäne rückverwandelt werden; eine Audiodaten-Ausgabeeinheit, die so betrieben werden kann, dass die durch die Rückumformungseinheit rückverwandelten Audiodaten auf einer Zeitreihenbasis ausgegeben werden.
In der Dekodiervorrichtung gemäss vorliegender Erfindung wählt die Auswähleinheit von den kodierten Eingangsdaten die kodierten Daten des tieferen Frequenzbandes und die kodierten Daten des höheren Frequenzbandes aus, und die Entquantisiereinheit für das tiefere Frequenzband gibt spektrale Daten im tieferen Frequenzband von f1 und darunter aus. Die Dekodiereinheit für Teilinformation dekodiert die Teilinformation, und die Entquantisiereinheit für das höhere Frequenzband gibt die spektralen Daten im höheren Frequenzband auf der Grundlage der Teilinformation aus. Daher kann eine viel grössere Datenmenge als die herkömmliche mit einer sehr kleinen Datenmenge dekodiert werden, die fast die gleiche wie die herkömmliche ist, und das Audiosignal kann dekodiert werden, um Klang hoher Qualität wiederzugeben.
Man bemerke, dass die vorliegende Erfindung natürlich als ein Kommunikationssystem realisiert werden kann, das die oben erwähnten Kodier- und Dekodiervorrichtungen enthält, als ein Kodierverfahren, als ein Dekodierverfahren sowie als ein Kommunikationsverfahren, deren Schritte in den charakteristischen Einheiten der oben erwähnten Kodiervorrichtung und Dekodiervorrichtung und des oben erwähnten Kommunikationssystems ausgeführt werden, als ein Kodierprogramm und ein Dekodierprogramm, durch das eine CPU veranlasst werden kann, als die charakteristischen Einheiten der oben erwähnten Kodiervorrichtung und Dekodiervorrichtung und des oben erwähnten Kommunikationssystems oder der Schritte darin zu funktionieren, oder als ein computer-lesbares Aufzeichnungsmedium, in dem diese Programme aufgezeichnet sind.
Kurze Beschreibung der Zeichnungen
Diese und weitere Ziele, Vorteile und Merkmale der Erfindung werden aus der folgenden Beschreibung hervorgehen, wenn in Verbindung mit den beigefügten Zeichnungen betrachtet, die eine konkrete Ausführungsform der Erfindung veranschaulichen. In den Zeichnungen ist:
1 ein Blockdiagramm, das eine Struktur der Kodiervorrichtung und der Dekodiervorrichtung gemäss dem herkömmlichen AAC-Verfahren zeigt.
2 ist ein Blockdiagramm, das eine funktionelle Struktur des Broadcastsystems gemäss vorliegender Ausführungsform zeigt.
3A und 3B sind Diagramme, die eine Zustandsänderung eines Audiosignals zeigen, das in der in 2 gezeigten Kodiervorrichtung verarbeitet wird.
4 ist ein Ablaufdiagramm, das eine Operation in der Verarbeitung zur Skalenfaktorbestimmung zeigt, die durch die in 2 gezeigte erste Quantisiereinheit ausgeführt wird.
5 ist ein Ablaufdiagramm, das eine weitere Operation in der Verarbeitung zur Skalenfaktorbestimmung zeigt, die durch die in 2 gezeigte erste Quantisiereinheit verarbeitet wird.
6 zeigt eine spektrale Wellenform, die ein konkretes Beispiel der Teilinformation (Skalenfaktor) zeigt, die durch die in 2 gezeigte zweite Quantisiereinheit erzeugt wird.
7 ist ein Ablaufdiagramm, das eine Operation in der Verarbeitung zur Berechnung von Teilinformation (Skalenfaktor) zeigt, die durch die in 2 gezeigte zweite Quantisiereinheit ausgeführt wird.
8A bis 8C sind Diagramme, die Bereiche von Bitströmen zeigen, in denen Teilinformation durch die in 2 gezeigte Datenstrom-Ausgabeeinheit gespeichert wird.
9A und 9B sind Diagramme, die weitere Beispiele von Bereichen von Bitströmen zeigen, in denen Teilinformation durch die in 2 gezeigte Datenstrom-Ausgabeeinheit gespeichert wird.
10A und 10B zeigen den Vergleich der Verarbeitung zwischen der in 2 gezeigten Kodiervorrichtung und der verwandten Technik 1.
11A und 11B zeigen den Vergleich der Verarbeitung zwischen der in 2 gezeigten Kodiervorrichtung und der verwandten Technik 2.
12 zeigt den Vergleich der spektralen Daten und Eigenschaften zwischen der in 2 gezeigten Kodiervorrichtung und der verwandten Technik 1 und 2.
13 ist ein Ablaufdiagramm, das die Prozedur zeigt, mit der die in 2 gezeigte zweite Entquantisiereinheit 1024 spektrale Daten im tieferen Frequenzband in der Vorwärtsrichtung ins höhere Frequenzband kopiert.
14 ist ein Ablaufdiagramm, das die Prozedur zeigt, mit der die in 2 gezeigte zweite Entquantisiereinheit 1024 spektrale Daten im tieferen Frequenzband in der umgekehrten Richtung der Frequenzachse ins höhere Frequenzband kopiert.
15 zeigt eine spektrale Wellenform, die ein konkretes Beispiel für weitere Teilinformation (quantisierter Wert) zeigt, die durch die in 2 gezeigte zweite Quantisiereinheit erzeugt wird.
16 ist ein Ablaufdiagramm, das eine Operation in der Verarbeitung zur Berechnung weiterer Teilinformation (quantisierter Wert) zeigt, die durch die in 2 gezeigte zweite Quantisiereinheit ausgeführt wird.
17 zeigt eine spektrale Wellenform, die ein konkretes Beispiel für weitere Teilinformation (Positionsinformation) zeigt, die durch die in 2 gezeigte zweite Quantisiereinheit erzeugt wird.
18 ist ein Ablaufdiagramm, das eine Operation in der Verarbeitung zur Berechnung weiterer Teilinformation (Positionsinformation) zeigt, die durch die in 2 gezeigte zweite Quantisiereinheit ausgeführt wird.
19 zeigt eine spektrale Wellenform, die ein konkretes Beispiel für weitere Teilinformation (Vorzeicheninformation) zeigt, die durch die in 2 gezeigte zweite Quantisiereinheit erzeugt wird.
20 ist ein Ablaufdiagramm, das eine Operation in der Verarbeitung zur Berechnung weiterer Teilinformation (Vorzeicheninformation) zeigt, die durch die in 2 gezeigte zweite Quantisiereinheit ausgeführt wird.
21A und 21b zeigen spektrale Wellenformen, die ein Beispiel zeigen, wie die weitere Teilinformation (Kopierinformation) erzeugt werden kann, die durch die in 2 gezeigte zweite Quantisiereinheit erzeugt wird.
22 ist ein Ablaufdiagramm, das eine Operation in der Verarbeitung zur Berechnung weiterer Teilinformation (Kopierinformation) zeigt, die durch die in 2 gezeigte zweite Quantisiereinheit ausgeführt wird.
23 zeigt eine spektrale Wellenform, die das zweite Beispiel zeigt, wie die weitere Teilinformation (Kopierinformation) erzeugt werden kann, die durch die in 2 gezeigte zweite Quantisiereinheit erzeugt wird.
24 ist ein Ablaufdiagramm, das eine Operation in der Verarbeitung zur Berechnung der weiteren Teilinformation (Kopierinformation) zeigt, die durch die in 2 gezeigte zweite Quantisiereinheit ausgeführt wird.
Beste Methode, die Erfindung auszuführen
Der Fall, in dem die Ausführungsform der vorliegenden Erfindung auf ein Broadcastsystem als System für die Verteilung von Audiodaten angewendet wird, wird unter Bezugnahme auf die Figuren erklärt.
2 ist ein Blockdiagramm, das die funktionelle Struktur des Broadcastsystems gemäss vorliegender Erfindung zeigt.
Das in 2 gezeigte Broadcastsystem 1 gemäss der vorliegenden Ausführungsform ist in einer Broadcaststation untergebracht und enthält eine Kodiervorrichtung 300, die ein eingegebenes Audiosignal kodiert, sowie eine Dekodiervorrichtung 400, die das durch die Kodiervorrichtung 300 kodierte Bitstrom-Audiosignal dekodiert.
(Kodiervorrichtung 300)
Bei Empfang eines Audiosignals kodiert die Kodiervorrichtung 300 das Audiosignal. Sie enthält einen A/D-Wandler 305, eine Audiodaten-Eingabeeinheit 310, eine Umformungseinheit 320, eine Datentrennungseinheit 330, eine erste und eine zweite Quantisiereinheit 340, 345, eine erste und eine zweite Kodiereinheit 350, 355 sowie eine Datenstrom-Ausgabeeinheit 390.
Der A/D-Wandler 305 tastet das eingegebene Audiosignal bei einer Abtastfrequenz von 44,1 kHz ab, einer Frequenz, die doppelt so hoch wie in der verwandten Technik 1 ist, wandelt das analoge Audiosignal in die digitalen Audiodaten (von zum Beispiel 16 Bits) um und erzeugt eine Audiodatensequenz in der Zeitdomäne.
Bei einer Abtastfrequenz (ungefähr 45,4 ms) des Empfangs der durch den A/D-Wandler 305 erzeugten Audiodatensequenz von 2048 Stichproben (zwei Frames), d.h. einer doppelt so langsamen Abtastfrequenz wie üblich, teilt die Audiodaten-Eingabeeinheit 310 die Audiodatensequenz jeweils in eine Audiodatensequenz von zusammenhängenden 2048 Stichproben und zwei Sätze von je 1024 Stichproben auf, die vor und nach den 1024 überlappten Stichproben gewonnen wurden, d.h. doppelt so viele (4096 Stichproben) wie die übliche Anzahl von Stichproben. Die Audiodaten-Eingabeeinheit 310 enthält einen Zähler 311 zur Erfassung der Teilungszeitfolge für den Empfang von jeweils 2048 Stichproben sowie einen FIFO-Puffer 312 zur vorübergehenden Speicherung der Audiodatensequenz von 4096 Stichproben.
Die Umformungseinheit 320 formt diese Audio-Stichprobendaten von 4096 Stichproben zweier Frames in der Zeitdomäne, die durch die Audiodaten-Eingabeeinheit 310 aufgeteilt worden sind, zu spektralen Daten in der Frequenzdomäne um. Die Umformungseinheit 320 enthält eine MDCT 321, die die Audiodaten von 4096 Stichproben in der Zeitdomäne zu 4096 Stichproben spektraler Daten in der Frequenzdomäne umwandelt, sowie eine Gruppiereinheit 322, die die spektralen Daten für jedes Skalenfaktorband gruppiert.
Genauer wandelt die MDCT 321 die aus 4096 Stichproben in der Zeitdomäne bestehenden Stichprobendaten zu spektralen Daten um, die ebenfalls 4096 Stichproben enthalten (16 Bits). Die Stichproben dieser spektralen Daten sind symmetrisch angeordnet, daher ist von ihnen nur eine Hälfte (d.h. 2048 Stichproben) zu kodieren, während die andere Hälfte verworfen wird.
Wenn die Strukturen des A/D-Wandlers 305, der Audiodaten-Eingabeeinheit 310 und der Umformungseinheit 320 in der Kodiervorrichtung 300, wie sie oben beschrieben wurden, mit den entsprechenden Einheiten in der Kodiervorrichtung 1000 der verwandten Technik 1 verglichen werden, unterscheidet sich die vorliegende Ausführungsform von der verwandten Technik 1 wesentlich dadurch, dass die Abtastfrequenz im A/D-Wandler 305 verdoppelt ist (44,1 kHz), die Teilungslänge in der Audiodaten-Eingangseinheit 310 verdoppelt ist (4096 Stichproben) und die Kodiereinheit in der MDCT 321 der Umformungseinheit 320 verdoppelt ist (4096 Stichproben).
Wenn die vorliegende Ausführungsform mit der verwandten Technik 2 verglichen wird, unterscheidet sich erstere ebenfalls wesentlich von letzterer dadurch, dass die Teilungslänge in der Audiodaten-Eingabeeinheit 310 verdoppelt ist (4096 Stichproben) und die Kodiereinheit in der MDCT 321 der Umformungseinheit 320 verdoppelt ist (4096 Stichproben), obwohl die Abtastfrequenz im A/D-Wandler 305 die gleiche ist.
Im Ergebnis gibt die Umformungseinheit 320 die 1024 Stichproben spektraler Daten, die zum tieferen Frequenzband von 11,025 kHz oder weniger gehören (hiernach als „spektrale Daten im tieferen Frequenzband" bezeichnet), und die 1024 Stichproben spektraler Daten, die zum höheren Frequenzband oberhalb von 11,025 kHz gehören („spektrale Daten im höheren Frequenzband"), aus, also insgesamt 2048 Stichproben spektraler Daten.
Die Gruppiereinheit 322 der Umformungseinheit 320 gruppiert die zu kodierenden spektralen Daten von 2048 Stichproben in eine Mehrzahl von Skalenfaktorbändern, deren jedes spektrale Daten enthält, die aus mindestens einer Stichprobe bestehen (oder, praktisch betrachtet, Stichproben, deren Gesamtzahl ein Vielfaches von vier ist).
Gemäss AAC wird die Anzahl von Stichproben spektraler Daten, die in jedem Skalenfaktorband enthalten sind, in Übereinstimmung mit seinen Frequenzen definiert. Ein Skalenfaktorband eines tieferen Frequenzbandes wird eng durch weniger spektrale Daten begrenzt, während ein Skalenfaktorband eines höheren Frequenzbandes breit durch mehr spektrale Daten begrenzt wird. In AAC wird die Anzahl von Skalenfaktorbändern, die spektralen Daten von einem Frame entsprechen, auch in Übereinstimmung mit Abtastfrequenzen definiert. Wenn die Abtastfrequenz zum Beispiel 44,1 kHz beträgt, enthält jeder Frame 49 Skalenfaktorbänder, und die 49 Skalenfaktorbänder enthalten spektrale Daten von 1024 Stichproben. Andererseits wird in AAC nicht speziell definiert, welches Skalenfaktorband unter diesen Skalenfaktorbändern zu übertragen ist, und das am meisten erwünschte Skalenfaktorband, das in Übereinstimmung mit der Übertragungsgeschwindigkeit des Übertragungskanals ausgewählt wird, kann übertragen werden. Wenn die Übertragungsgeschwindigkeit zum Beispiel 96 kbps beträgt, können nur die 40 Skalenfaktorbänder (640 Stichproben) in einem tieferen Frequenzband in einem Frame selektiv übertragen werden.
In der vorliegenden Ausführungsform werden andererseits die spektralen Daten in zwei Frames (1024 spektrale Daten im tieferen bzw. im höheren Frequenzband) von der MDCT 321 bei einer Abtastfrequenz (ungefähr 45,4 ms) ausgegeben, die doppelt so schnell wie die herkömmliche ist. Wenn daher die Übertragungsgeschwindigkeit eines Übertragungskanals 96 kbps beträgt, verbleibt, selbst wenn von den beiden Frames alle Skalenfaktorbänder im tieferen Frequenzband (1024 Stichproben) übertragen werden sollen, genügend Übertragungskapazität im Übertragungskanal, verglichen mit der Übertragung von zwei Frames (640 × 2 = 1280 Stichproben) gemäss herkömmlicher AAC. Daher wird die vorliegende Ausführungsform unter der Annahme erklärt werden, dass die Gruppiereinheit 322 die umgeformten spektralen Daten in Skalenfaktorbänder gruppiert, deren Begrenzung und Anzahl eindeutig definiert sind.
Die Datentrennungseinheit 330 trennt die 2048 Stichproben spektraler Daten, die von der Umformungseinheit 320 ausgegeben wurden, in 1024 spektrale Daten im tieferen Frequenzband und 1024 spektrale Daten im höheren Frequenzband auf. Die Datentrennungseinheit 330 gibt die abgetrennten 1024 spektralen Daten im tieferen Frequenzband an die erste Quantisiereinheit 340 und die 1024 spektralen Daten im höheren Frequenzband an die zweite Quantisiereinheit 345 aus.
Die erste Quantisiereinheit 340 bestimmt einen Skalenfaktor für jedes Skalenfaktorband im tieferen Frequenzband für die aus der Datentrennungseinheit 330 übertragenen spektralen Daten, quantisiert das Spektrum im Skalenfaktorband mit dem ermittelten Skalenfaktor und gibt den quantisierten Wert, der ein Quantisierungsergebnis ist, den ermittelten ersten Skalenfaktor sowie die Differenz zwischen dem ersten und jedem der darauffolgenden Skalenfaktoren an die erste Kodiereinheit 350 aus. Die erste Quantisiereinheit 340 enthält eine Skalenfaktor-Berechnungseinheit 341. Die Skalenfaktor-Berechnungseinheit 341 berechnet einen Normalisierungsfaktor (Skalenfaktor, acht Bits) so, dass die spektralen Daten in jedem Skalenfaktor innerhalb einer im Voraus festgelegten Anzahl von Bits liegen, quantisiert jedes Spektrum im Skalenfaktorband unter Verwendung des berechneten Skalenfaktors und berechnet dann die Differenz zwischen diesem Skalenfaktor und dem ersten Skalenfaktor.
Die erste Kodiereinheit 350 kodiert die durch die erste Quantisiereinheit 340 quantisierten Daten, den Skalenfaktor für jedes Skalenfaktorband usw. in ein im Voraus festgelegtes Datenstromformat und enthält eine Huffman-Kodiertabelle 351 zur weiteren Komprimierung aller quantisierten Daten, jedes Skalenfaktors usw. Konkreter kodiert die erste Kodiereinheit 350 alle quantisierten Daten, jeden Skalenfaktor usw. unter Verwendung der Huffman-Kodiertabelle 351 so, dass diese mit einer niedrigen Bitrate übertragen werden können.
Die zweite Quantisiereinheit 345 berechnet die Teilinformation auf der Basis der spektralen Daten, die von der Datentrennungseinheit 330 ausgegeben wurden, in der Bandbreite, die durch die erste Quantisiereinheit 340 nicht quantisiert worden ist, d.h. im höheren Frequenzband oberhalb von 11,025 kHz, und gibt sie aus. Die zweite Quantisiereinheit 345 enthält eine Einheit 346 zur Erzeugung von Teilinformation, um die Teilinformation zu erzeugen.
Teilinformation ist vereinfachte Information, die auf der Basis der spektralen Daten im höheren Frequenzband berechnet wird und mit einer geringen Datenmenge die Eigenschaften der spektralen Daten im höheren Frequenzband kurz und bündig anzeigt. In anderen Worten ist es Information, die aus den Daten, die durch Umformung der über eine bestimmte Zeitdauer hinweg empfangenen Audiodaten gewonnen wurden, die Eigenschaften der spektralen Daten im höheren Frequenzband anzeigt. Konkreter ist die Teilinformation ein Skalenfaktor für jedes Skalenfaktorband im höheren Frequenzband, der den quantisierten Wert von „1" der absolut maximalen spektralen Daten (der spektralen Daten, deren Absolutwert maximal ist) ableitet, sowie sein quantisierter Wert.
Die zweite Kodiereinheit 355 kodiert die Teilinformation, die durch die zweite Quantisiereinheit 345 ausgegeben wurde, in ein im Voraus festgelegtes Datenstromformat und gibt die kodierte Information als zweite kodierte Information aus. Die zweite Kodiereinheit 355 enthält eine Huffman-Kodiertabelle 356 für die Kodierung der Teilinformation.
Die Datenstrom-Ausgabeeinheit 390 fügt dem obigen, von der ersten Kodiereinheit 350 ausgegebenen ersten kodierten Signal Headerdaten und weitere notwendige Teilinformation hinzu und formt es wie üblich zu einem MPEG-2 AAC-Bitstrom um. Die Datenstrom-Ausgabeeinheit 390 zeichnet ferner das von der zweiten Kodiereinheit 355 ausgegebene zweite kodierte Signal in Bereichen des obigen Bitstromes auf, die von einer herkömmlichen Dekodiervorrichtung ignoriert werden oder für die keine Operation definiert ist. Konkreter speichert die Datenstrom-Ausgabeeinheit 390 das von der zweiten Kodiereinheit 355 ausgegebene kodierte Signal in Füll-Element, Datenstromelement usw. des MPEG-2 AAC-kodierten Bitstromes.
Was die Information betrifft, die die Abtastfrequenz des Bitstromes anzeigt, die in den Headerdaten gespeichert ist, so wird ein Wert der halben Abtastfrequenz der Audiodaten gespeichert. In anderen Worten wird die Information von 22,05 kHz, der Hälfte des aktuellen Wertes, gespeichert, wenn die Abtastfrequenz der Audiodaten 44,1 kHz beträgt. Die Information, die die tatsächliche Abtastfrequenz von 44,1 kHz anzeigt, wird in einem Bereich oder dergleichen gespeichert, wo die obige Teilinformation gespeichert ist.
Der von der Kodiervorrichtung 300 ausgegebene Bitstrom wird über ein Übertragungsmedium unter Verwendung einer Radiowelle, eines optischen Kabels, eines Blinklichts, eines Metalldrahts usw. wie dem Internet an die Dekodiervorrichtung 400 übertragen.
Wie oben beschrieben, trennt die Kodiervorrichtung 300, wenn sie die von der Umformungseinheit 320 in der Frequenzdomäne gewonnenen spektralen Daten quantisiert und kodiert, diese Daten in die spektralen Daten (1024 Stichproben) im tieferen Frequenzband und die spektralen Daten (1024 Stichproben) im höheren Frequenzband, quantisiert und kodiert die spektralen Daten im tieferen Frequenzband mit dem herkömmlichen Verfahren, quantisiert und kodiert die spektralen Daten im höheren Frequenzband mit einem anderen Verfahren (erzeugt die Teilinformation und kodiert die Teilinformation), baut den kodierten Bitstrom im höheren Frequenzband in den im tieferen Frequenzband ein und gibt ihn aus. Die Kodiervorrichtung 300 unterscheidet sich wesentlich von der herkömmlichen Kodiervorrichtung 1000, die die spektralen Daten als Ganzes mit dem gleichen Verfahren quantisiert und kodiert.
Im Ergebnis kann das Audiosignal so kodiert werden, dass Klang hoher Qualität wiedergegeben wird, ohne dass die Datengesamtmenge wesentlich erhöht wird.
Da ferner die Information, dass die Abtastfrequenz 22,05 kHz beträgt, im Header gespeichert ist, ergibt es sich, dass der durch die Kodiervorrichtung 300 der vorliegenden Ausführungsform erzeugte Bitstrom auch durch die herkömmliche Dekodiervorrichtung 2000 dekodiert werden kann.
(Dekodiervorrichtung 400)
Die Dekodiervorrichtung 400 der vorliegenden Ausführungsform ist eine Vorrichtung, die ein Audiosignal in der Zeitdomäne wiedergibt (Wiedergabefrequenz von 22,05 kHz oder weniger), indem sie die Verarbeitung des von der Kodiervorrichtung 300 ausgegebenen Bitstromes in ungefähr der umgekehrten Weise wie die Verarbeitung durch die Kodiervorrichtung 300 ausführt. Die Dekodiervorrichtung 400 enthält eine Datenstrom-Eingabeeinheit 410, eine erste und eine zweite Dekodiereinheit 420, 425, eine erste und eine zweite Entquantisiereinheit 430, 435, eine Integrationseinheit 440 für die entquantisierten Daten, eine Rückumformungseinheit 480, eine Audiodaten-Ausgabeeinheit 490 und einen D/A-Wandler 495.
Bei Empfang des durch die Kodiervorrichtung 300 kodierten Bitstromes über ein Übertragungsmedium wählt die Datenstrom-Eingabeeinheit 410 ein erstes kodiertes Signal, das in einem Bereich gespeichert ist, der von einer herkömmlichen Dekodiervorrichtung verwendet wird, sowie ein zweites kodiertes Signal, das in einem Bereich gespeichert ist, der von der herkömmlichen Dekodiervorrichtung ignoriert wird oder für den keine Operation definiert ist, und gibt sie zur ersten Dekodiereinheit 420 bzw. zur zweiten Dekodiereinheit 425 aus.
Die erste Dekodiereinheit 420 empfängt das von der Datenstrom-Eingabeeinheit 410 ausgegebene erste kodierte Signal und dekodiert es dann, damit es als quantisierte Daten wiedergegeben wird, und sie enthält eine Huffman-Dekodiertabelle 421.
Die erste Entquantisiereinheit 430 entquantisiert die durch die erste Dekodiereinheit 420 dekodierten, quantisierten Daten und gibt die spektralen Daten aus, und sie enthält eine Verarbeitungseinheit 431 für die Entquantisierung der quantisierten Daten auf der Basis einer Formel. Hier beträgt die Anzahl von Stichproben der durch die erste Entquantisiereinheit 430 ausgegebenen spektralen Daten 1024, und sie stellen die Wiedergabebandbreite von 11,025 kHz oder weniger dar.
Die zweite Dekodiereinheit 425 empfängt das von der Datenstrom-Eingabeeinheit 410 ausgegebene zweite kodierte Signal und dekodiert die Teilinformation, und sie enthält eine Huffman-Dekodiertabelle.
Die zweite Entquantisiereinheit 435 erzeugt spektrale Daten im höheren Frequenzband, und sie enthält eine Einheit 436 für die Erzeugung spektraler Daten. Hier beträgt die Anzahl von Stichproben der durch die zweite Entquantisiereinheit 435 ausgegebenen spektralen Daten 1024, und sie stellen die Wiedergabebandbreite oberhalb von 11,025 kHz dar.
Die Einheit 436 für die Erzeugung spektraler Daten erzeugt auf der Basis der von der ersten Entquantisiereinheit 430 ausgegebenen spektralen Daten Rauschen nach einer Prozedur, die im Voraus festgelegt wurde, formt das Rauschen auf der Basis der von der zweiten Dekodiereinheit 425 ausgegebenen Teilinformation und gibt die spektralen Daten im höheren Frequenzband aus. Dieses Rauschen enthält weisses Rauschen, rosa Rauschen sowie eine Kopie eines Teiles oder der Gesamtheit der spektralen Daten im tieferen Frequenzband.
Konkreter kopiert die Einheit 436 für die Erzeugung spektraler Daten im Voraus die von der ersten Entquantisiereinheit 430 ausgegebenen spektralen Daten im tieferen Frequenzband ins höhere Frequenzband und rekonstruiert dann die Spektren im höheren Frequenzband durch Multiplizieren aller spektralen Daten innerhalb des Skalenfaktorbandes mit dem Verhältnis zwischen dem absoluten Maximalwert der in jedes Band im höheren Frequenzband kopierten spektralen Daten und dem Wert, der durch Entquantisieren des quantisierten Wertes von „1" erhalten wird, indem als ein Koeffizient der Skalenfaktorwert verwendet wird, der dem in der Teilinformation beschriebenen Band entspricht.
Die Einheit 440 für die Integration der entquantisierten Daten integriert die von der ersten Entquantisiereinheit 430 ausgegebenen spektralen Daten und die von der zweiten Entquantisiereinheit 435 ausgegebenen spektralen Daten. Hier beträgt die Anzahl von Stichproben der durch die Integrationseinheit 440 für entquantisierte Daten ausgegebenen spektralen Daten 2048, und sie stellen die Wiedergabebandbreite von 0 bis 22,05 kHz dar.
Wie oben beschrieben, trennt die Dekodiervorrichtung 400 den durch die Kodiervorrichtung 300 kodierten Bitstrom in das erste kodierte Signal (im tieferen Frequenzband), das in einem Bereich gespeichert wird, der von einer herkömmlichen Dekodiervorrichtung verwendet wird, und das zweite kodierte Signal (im höheren Frequenzband), das in einem Bereich gespeichert wird, der von einer herkömmlichen Dekodiervorrichtung ignoriert wird oder für den keine Operation definiert ist, dekodiert und entquantisiert nur das erste kodierte Signal (im tieferen Frequenzband) mit dem gleichen Verfahren wie dem herkömmlichen, dekodiert und entquantisiert das zweite kodierte Signal (im höheren Frequenzband) mit einem Verfahren, das sich vom herkömmlichen Verfahren unterscheidet, integriert die spektralen Daten im höheren und tieferen Frequenzband und gibt die integrierten Daten aus. In diesem Punkt unterscheidet sich die Dekodiervorrichtung 400 wesentlich von der Dekodiervorrichtung 2000 der verwandten Technik 1 und 2, die den Bitstrom über alle Bandbreiten mit dem gleichen Verfahren dekodiert und entquantisiert.
Im Ergebnis kann eine viel grössere Menge an Information als die herkömmliche aus einer kleinen Menge an Information dekodiert werden, die etwa die gleiche wie die herkömmliche ist, und daher kann das Audiosignal dekodiert werden, um Klang hoher Qualität wiederzugeben.
Die Rückumformungseinheit 480 führt an den spektralen Daten in der Frequenzdomäne, die von der Integrationseinheit 440 für entquantisierte Daten ausgegeben worden sind, IMDCT zu Audiodaten von 2048 Stichproben (zwei Frames) in der Zeitdomäne aus.
Die Audiodaten-Ausgabeeinheit 490 kombiniert Sätze von Audiodaten von 2048 Stichproben in der Zeitdomäne, die durch die Rückumwandlungseinheit 480 gewonnen worden waren, miteinander und gibt sie einzeln nacheinander auf einer Zeitreihenbasis aus.
Der D/A-Wandler 495 wandelt die digitalen Audiodaten bei einer Abtastfrequenz von 44,1 kHz zum analogen Audiosignal um.
Wie oben erwähnt, unterscheidet sich die Dekodiervorrichtung 400 von der Dekodiervorrichtung 2000 der verwandten Technik 1 wesentlich dadurch, dass die Rückumformungseinheit in der Rückumformungseinheit 480 verdoppelt ist (2048 Stichproben), die Framelänge in der Audiodaten-Ausgabeeinheit 490 verdoppelt ist (2048 Stichproben) und die Abtastfrequenz im D/A-Wandler 495 verdoppelt ist (44,1 kHz).
Im Ergebnis wird ein Audiosignal ausgegeben, das auf der Basis der spektralen Daten (von 1024 Stichproben) im tieferen Frequenzband von 11,024 kHz oder darunter sowie der spektralen Daten (von 1024 Stichproben) im höheren Frequenzband Klang hoher Qualität in grosser Bandbreite (0 bis 22,05 kHz) wiedergibt.
Wie oben beschrieben, kann in Übereinstimmung mit der funktionellen Struktur der vorliegenden Ausführungsform ein Audiosignal für die Wiedergabe von Klang hoher Qualität dekodiert werden, indem die Daten im tieferen Frequenzband mit dem herkömmlichen Verfahren und die Daten im höheren Frequenzband auf der Basis etwa der gleichen Menge an Information wie im herkömmlichen Verfahren mit einer extrem kleinen Menge an Information dekodiert werden
Ferner sind in der Kodiervorrichtung 300 und in der Dekodiervorrichtung 400 der vorliegenden Ausführungsform lediglich die Datentrennungseinheit 330, die zweite Quantisiereinheit 345 und die zweite Kodiereinheit 355 zur herkömmlichen Kodiervorrichtung 1000 hinzugefügt worden, und lediglich die zweite Dekodiereinheit 425, die zweite Entquantisiereinheit 435 und die Integrationseinheit 440 für die entquantisierenden Daten sind zur herkömmlichen Dekodiervorrichtung 2000 hinzugefügt worden. Daher ergibt es sich, dass die Kodiervorrichtung 300 und die Dekodiervorrichtung 400 der vorliegenden Ausführungsform realisiert werden können, ohne dass die herkömmliche Kodiervorrichtung 1000 und die herkömmliche Dekodiervorrichtung 2000 wesentlich verändert werden.
Ferner ergibt es sich, dass der durch die Kodiervorrichtung 300 der vorliegenden Ausführungsform erzeugte Bitstrom auch durch die herkömmliche Dekodiervorrichtung 2000 dekodiert werden kann.
Als Nächstes wird die durch jede Einheit der Kodiervorrichtung 300 im Broadcastsystem 1 ausgeführte Kodierverarbeitung detailliert erklärt.
3A und 3B sind Diagramme, die eine Zustandsänderung eines Audiosignals zeigen, das in der Audiodaten-Eingabeeinheit 310 und der Umformungseinheit 320 der in 2 gezeigten Kodiervorrichtung 300 verarbeitet wird. Insbesondere zeigt 3A eine Wellenform der 2048 Stichprobendaten in der Zeitdomäne, die durch die in 2 gezeigte Audiodaten-Eingabevorrichtung 310 aufgeteilt worden sind, während 3B eine Wellenform der spektralen Daten in der Frequenzdomäne zeigt, die erzeugt worden sind, nachdem die Stichprobendaten in der Zeitdomäne durch die MDCT 321 der in 2 gezeigten Umformungseinheit 320 umgeformt worden waren. Es sei bemerkt, dass die Stichprobendaten und die spektralen Daten in 3A und 3B als analoge Wellenformen gezeigt werden, obwohl beide in Wirklichkeit digitale Signale sind. Das gleiche gilt für die folgenden Diagramme, in denen Wellenformen gezeigt werden.
Die Audiodaten-Eingabeeinheit 310 empfängt bei einer Abtastfrequenz von 44,1 kHz abgetastete Audiodaten. Von diesem digitalen Audiosignal ausgehend teilt die Audiodaten-Eingabeeinheit 310 die Audiodaten in jeweils aufeinanderfolgende 2048 Stichproben, darunter zwei Sätze von je 1024 Stichproben, die vor und nach den überlappenden 2048 Stichproben erhalten wurden, und gibt sie an die Umformungseinheit 320 aus.
Die Umformungseinheit 320 führt MDCT an den Daten von insgesamt 4096 Stichproben aus. Die Wellenform der gemäss MDCT erzeugten spektralen Daten ist symmetrisch angeordnet, und daher wird nur eine Hälfte der spektralen Daten, 2048 Stichproben entsprechend, ausgegeben, wie in 3B gezeigt.
In 3B zeigt die senkrechte Achse die Werte von spektralen Frequenzdaten an, d.h. die Menge (Grösse) der Frequenzkomponenten der Audiodaten, dargestellt als Spannungswerte für die 2048 Stichproben in 3A an 2048 Punkten, entsprechend der Anzahl von Stichproben. Da die in die Kodiervorrichtung 300 eingegebenen Audiosignale bei einer Abtastfrequenz von 44,1 kHz A/D-gewandelt werden, beträgt die Wiedergabebandbreite der spektralen Daten 22,05 kHz. Da des Weiteren die durch die MDCT 321 erzeugten Spektren negative Werte annehmen können, wie in 3B gezeigt, müssen die positiven und negativen Vorzeichen der durch die MDCT 321 erzeugten Spektren ebenfalls kodiert werden, wenn die Spektren kodiert werden. In der folgenden Erklärung wird die Information, die die positiven und negativen Vorzeichen der spektralen Daten anzeigt, „Vorzeicheninformation" genannt.
Die von der Umformungseinheit 320 ausgegebenen spektralen Daten und Vorzeicheninformation werden durch die Datentrennungseinheit 330 in diejenigen im tieferen Frequenzband von 0 bis 11,025 kHz und diejenigen im höheren Frequenzband oberhalb von 11,025 kHz getrennt, die spektralen Daten und die Vorzeicheninformation im tieferen Frequenzband werden an die erste Quantisiereinheit 340 ausgegeben, die im höheren Frequenzband werden an die zweite Quantisiereinheit 345 ausgegeben.
4 ist ein Ablaufdiagramm, das eine Operation in der Verarbeitung zur Skalenfaktorbestimmung zeigt, die durch die in 2 gezeigte erste Quantisiereinheit 340 ausgeführt wird.
Die erste Quantisiereinheit 340 bestimmt zuerst einen Skalenfaktor, der allen Skalenfaktorbändern gemein ist, als einen Anfangswert des Skalenfaktors (S91), quantisiert alle spektralen Daten im tieferen Frequenzband, die als Audiodaten eines Frames (1024 Stichproben) übertragen werden sollen, unter Verwendung des festgelegten Skalenfaktors, berechnet die Differenzen zwischen den Skalenfaktoren vor und nach der Skalenfaktorberechnung und Huffman-kodiert die Differenzen, den ersten Skalenfaktor und die quantisierten Werte der spektralen Daten (S92). Es sei bemerkt, dass die Quantisierung und Kodierung hier nur für eine Zählung der Bits vorgenommen werden. Daher werden nur Daten quantisiert und kodiert, und Information wie ein Header wird nicht hinzugefügt, um die Verarbeitung zu vereinfachen.
Als Nächstes urteilt die erste Quantisiereinheit 340, ob die Anzahl von Bits der Huffman-kodierten Daten eine im Voraus festgelegte Anzahl von Bits überschreitet oder nicht (S93), und dekrementiert den Anfangswert des Skalenfaktors, wenn sie sie überschreitet (S101). Dann quantisiert und Huffman-kodiert die erste Quantisiereinheit 340 die gleichen spektralen Daten im tieferen Frequenzband nochmals unter Verwendung des dekrementierten Skalenfaktorwertes (S92), urteilt, ob die Anzahl von Bits der Huffmankodierten Daten im tieferen Frequenzband für einen Frame die im Voraus festgelegte Anzahl von Bits überschreitet oder nicht (S93), und wiederholt diese Verarbeitung, bis sie die im Voraus festgelegte Anzahl von Bits erreicht oder unterschreitet.
Wenn die Anzahl von Bits der kodierten Daten im tieferen Frequenzband die im Voraus festgelegte Anzahl nicht überschreitet, wiederholt die erste Quantisiereinheit 340 die folgende Verarbeitung für jedes Skalenfaktorband und bestimmt den Skalenfaktor jedes Skalenfaktorbandes (S94). Zuerst entquantisiert sie jeden quantisierten Wert im Skalenfaktorband (S95), berechnet die Differenzen der Absolutwerte zwischen den entquantisierten Werten und den entsprechenden ursprünglichen spektralen Datenwerten und summiert sie (S96). Ferner urteilt sie, ob die Summe der berechneten Differenzen ein Wert innerhalb annehmbarer Grenzen ist oder nicht (S97), und wenn sie innerhalb annehmbarer Grenzen liegt, wiederholt sie die obige Verarbeitung für das nächste Skalenfaktorband (S94 bis S98).
Wenn sie aber die annehmbaren Grenzen überschreitet, inkrementiert die erste Quantisiereinheit 340 den Skalenfaktorwert und quantisiert die spektralen Daten dieses Skalenfaktorbandes (S100), entquantisiert den quantisierten Wert (S95) und summiert die Differenzen der Absolutwerte der entquantisierten Werte und der entsprechenden spektralen Datenwerte (S96). Des Weiteren urteilt die erste Quantisiereinheit 340, ob die Summe der Differenzen innerhalb annehmbarer Grenzen liegt oder nicht (S97), und wenn sie die Grenzen überschreitet, inkrementiert sie den Skalenfaktor, bis sie einen Wert innerhalb der Grenzen annimmt (S100), und wiederholt die obige Verarbeitung (S95 bis S97 und S100).
Wenn die erste Quantisiereinheit 340 für alle Skalenfaktorbänder die Skalenfaktoren bestimmt hat, durch die die Summe der Differenzen der Absolutwerte zwischen den entquantisierten quantisierten Werten in den Skalenfaktoren und den entsprechenden ursprünglichen spektralen Datenwerten innerhalb annehmbarer Grenzen gelang (S98), quantisiert sie die spektralen Daten im tieferen Frequenzband für einen Frame nochmals unter Verwendung des gefundenen Skalenfaktors, Huffman-kodiert die Differenz jedes Skalenfaktors, den ersten Skalenfaktor und den quantisierten Wert dieser spektralen Daten und urteilt, ob die Anzahl von Bits der kodierten Daten im tieferen Frequenzband eine im Voraus festgelegte Anzahl von Bits überschreitet oder nicht (S99). Wenn die Anzahl von Bits der kodierten Daten im tieferen Frequenzband die im Voraus festgelegte überschreitet, dekrementiert die erste Quantisiereinheit 340 den Anfangswert des Skalenfaktors, bis sie die im Voraus festgelegte Anzahl erreicht oder unterschreitet (S101), und wiederholt dann die Verarbeitung zur Bestimmung des Skalenfaktors in jedem Skalenfaktorband (S94 bis S98). Wenn die Anzahl von Bits der kodierten Daten im tieferen Frequenzband die im Voraus festgelegte Anzahl nicht überschreitet (S99), bestimmt sie den Wert jedes Skalenfaktors, der dann der Skalenfaktor jedes Skalenfaktorbandes ist.
Die erste Quantisiereinheit 340 quantisiert die spektralen Daten im tieferen Frequenzband unter Verwendung des wie oben bestimmten Skalenfaktors und gibt den quantisierten Wert, den ersten Skalenfaktor und die Differenzen zwischen dem festgestellten ersten Skalenfaktor und den folgenden Skalenfaktoren sowie die von der Datentrennungseinheit 330 empfangene Vorzeicheninformation an die erste Kodiereinheit 350 aus.
Es sei bemerkt, dass die Frage, ob die Summe der Differenzen der Absolutwerte zwischen den entquantisierten quantisierten Werten in den Skalenfaktorbändern und den ursprünglichen spektralen Datenwerten innerhalb annehmbarer Grenzen liegt oder nicht, auf der Basis der Daten des psychoakustischen Modells usw. beurteilt wird.
Im obigen Fall wird auch ein verhältnismässig hoher Wert als Anfangswert des Skalenfaktors angesetzt, und wenn die Anzahl von Bits der Huffman-kodierten Daten im tieferen Frequenzband eine im Voraus festgelegte Anzahl von Bits überschreitet, wird der Anfangswert des Skalenfaktors dekrementiert, um so den Skalenfaktor zu bestimmen, aber der Skalenfaktor braucht nicht immer auf diese Weise bestimmt zu werden. Zum Beispiel kann ein niedrigerer Wert im Voraus als Anfangswert des Skalenfaktors angesetzt werden, und der Anfangswert kann allmählich inkrementiert werden. Der Skalenfaktor jedes Skalenfaktorbandes kann auch bestimmt werden, indem der Anfangswert des Skalenfaktors verwendet wird, der angesetzt wurde, gerade ehe die Gesamtzahl von Bits der kodierten Daten im tieferen Frequenzband erstmals eine im Voraus festgelegte Anzahl von Bits überschreitet.
Des Weiteren wird in der vorliegenden Ausführungsform der Skalenfaktor jedes Skalenfaktorbandes so bestimmt, dass die Gesamtzahl von Bits der kodierten Daten im tieferen Frequenzband für einen Frame die im Voraus festgelegte Anzahl nicht überschreitet, aber der Skalenfaktor braucht nicht immer auf diese Weise bestimmt zu werden. Zum Beispiel kann der Skalenfaktor so bestimmt werden, dass kein quantisierter Wert im Skalenfaktorband die im Voraus festgelegte Anzahl von Bits in jedem Skalenfaktorband überschreitet. Die Arbeitsweise der ersten Quantisiereinheit 340 bei dieser Verarbeitung wird hiernach unter Bezugnahme auf 5 erklärt. 5 ist ein Ablaufdiagramm, das eine Operation in einer weiteren Verarbeitung zur Skalenfaktorbestimmung durch die in 2 gezeigte erste Quantisiereinheit 340 zeigt.
Die erste Quantisiereinheit 340 berechnet die zu kodierenden Skalenfaktoren für alle Skalenfaktorbänder im tieferen Frequenzband mit der folgenden Prozedur (S1). Ferner berechnet die erste Quantisiereinheit 340 die Skalenfaktoren für alle spektralen Daten in jedem Skalenfaktorband mit der folgenden Prozedur (S2).
Zuerst quantisiert die erste Quantisiereinheit 340 die spektralen Daten mit einem im Voraus festgelegten Skalenfaktorwert auf der Basis einer Formel (S3) und urteilt, ob der quantisierte Wert eine im Voraus festgelegte Anzahl von Bits überschreitet, die für die Angabe des quantisierten Wertes vorgegeben wird, zum Beispiel vier Bits (S4).
Wenn im Ergebnis der Beurteilung der quantisierte Wert vier Bits überschreitet, passt die erste Quantisiereinheit 340 den Skalenfaktorwert an (S8) und quantisiert die gleichen spektralen Daten mit dem angepassten Skalenfaktorwert (S3). Die erste Quantisiereinheit 340 urteilt, ob der gewonnene quantisierte Wert vier Bits überschreitet oder nicht (S4), und wiederholt die Anpassung des Skalenfaktors (S8) und die Quantisierung des angepassten Skalenfaktors (S3), bis der quantisierte Wert der spektralen Daten vier Bits erreicht oder unterschreitet.
Wenn im Ergebnis der Beurteilung der quantisierte Wert vier Bits oder weniger beträgt, quantisiert sie die nächsten spektralen Daten mit dem vorher bestimmten Skalenfaktorwert (S3).
Wenn die quantisierten Werte aller spektralen Daten in einem Skalenfaktorband vier Bits oder weniger geworden sind (S5), bestimmt die erste Quantisiereinheit 340 dann diesen Skalenfaktor als Skalenfaktor für das Skalenfaktorband (S6).
Nach Bestimmung der Skalenfaktoren aller Skalenfaktorbänder (S7) beendet die erste Quantisiereinheit 340 die Verarbeitung.
Gemäss der obigen Verarbeitung werden die betreffenden Skalenfaktoren für alle zu kodierenden Skalenfaktorbänder im tieferen Frequenzband bestimmt. Die erste Quantisiereinheit 340 quantisiert die spektralen Daten im tieferen Frequenzband unter Verwendung des wie oben bestimmten Skalenfaktors und gibt den quantisierten Wert von vier Bits, der das quantisierte Ergebnis ist, den ersten Skalenfaktor von acht Bits und die Differenzen zwischen dem ersten Skalenfaktor und den folgenden Skalenfaktoren sowie die von der Datentrennungseinheit 330 empfangene Vorzeicheninformation an die erste Kodiereinheit 132 aus.
Dann wird der quantisierte Wert, der Skalenfaktor und weitere, von der ersten Kodiereinheit 350 ausgegebene Daten Huffman-kodiert und wie im Falle des Downsamplings als das erste kodierte Signal an die Datenstrom-Ausgabeeinheit 390 ausgegeben.
Andererseits erzeugt die zweite Quantisiereinheit 345 die Teilinformation auf der Basis der spektralen Daten im höheren Frequenzband usw.
6 zeigt eine spektrale Wellenform, die ein konkretes Beispiel für die Teilinformation (Skalenfaktor) zeigt, die durch die in 2 gezeigte zweite Quantisiereinheit 345 erzeugt wird. 7 ist ein Ablaufdiagramm, das eine Operation in der Verarbeitung zur Berechnung der Teilinformation (Skalenfaktor) zeigt, die durch die in 2 gezeigte zweite Quantisiereinheit 345 ausgeführt wird.
In 6 zeigen auf der Frequenzachse im tieferen Frequenzband angedeutete Begrenzer diejenigen Skalenfaktorbänder, die in der vorliegenden Ausführungsform bestimmt wurden. Ferner zeigen auf der Frequenzachse im höheren Frequenzband durch eine gestrichelte Linie angedeutete Begrenzer diejenigen Skalenfaktorbänder im höheren Frequenzband, die in der vorliegenden Ausführungsform bestimmt wurden. Das gleiche gilt für nachfolgende Wellenformen.
Unter den von der Umformungseinheit 320 ausgegebenen spektralen Daten wird die Wiedergabebandbreite im tieferen Frequenzband von 11,025 kHz oder darunter, die in 6 mit einer Wellenform als durchgezogene Linie angedeutet wird, zur ersten Quantisiereinheit 340 ausgegeben und wie üblich quantisiert. Andererseits wird die Wiedergabebandbreite im höheren Frequenzband oberhalb von 11,025 kHz bis 22.05 kHz, die in 6 mit einer Wellenform als gestrichelte Linie angedeutet wird, durch Teilinformation (Skalenfaktor) dargestellt, die durch die zweite Quantisiereinheit 345 berechnet wird.
Die Prozedur für die Berechnung von Teilinformation (Skalenfaktor) durch die zweite Quantisiereinheit 345 wird hiernach in Übereinstimmung mit dem Ablaufdiagramm in 7 erklärt, wobei ein konkretes Beispiel aus 6 verwendet wird.
Die zweite Quantisiereinheit 345 berechnet den optimalen Skalenfaktor für die Ableitung des quantisierten Wertes von „1" für das absolute Maximum der spektralen Daten in jedem Skalenfaktorband für jedes Skalenfaktorband im höheren Frequenzband, das die Wiedergabebandbreite oberhalb von 11,025 kHz bis 22,05 kHz besitzt, gemäss folgender Prozedur (S11).
Die zweite Quantisiereinheit 345 gibt das absolute Maximum der spektralen Daten (Peak) im ersten Skalenfaktorband im höheren Frequenzband an, das die Wiedergabebandbreite oberhalb von 11,025 kHz besitzt (S12). Im Beispiel der 6 bedeutet den im ersten Skalenfaktorband angegebenen Peak, und der Wert des Peaks beträgt „256".
Nach der gleichen Prozedur wie der im Ablaufdiagramm von 5 gezeigten berechnet die zweite Quantisiereinheit 345 den Skalenfaktorwert „sf" für die Ableitung des von einer Quantisierformel erhaltenen quantisierten Wertes von „1 ", indem der Peakwert von „256" und der Anfangswert des Skalenfaktors in der Formel zugeordnet werden (S13). In diesem Fall wird zum Beispiel sf = 24 berechnet („sf" ist der Skalenfaktorwert für die Ableitung des quantisierten Wertes von „1" für den Peakwert von „256").
Nach Berechnung des Skalenfaktorwertes von sf = 24 für die Ableitung des quantisierten Peakwertes von „1" für das erste Skalenfaktorband (S14) gibt die zweite Quantisiereinheit 345 den Peak der spektralen Daten des nächsten Skalenfaktorbandes an (S12), und wenn zum Beispiel die angegebenen Peakposition ➁ ist und der Wert „312" beträgt, dann berechnet sie den Skalenfaktorwert für die Ableitung des quantisierten Wertes von „1" für den Peakwert von „312", nämlich sf = 32 (S13).
In gleicher Weise berechnet zum Beispiel die zweite Quantisiereinheit 345 den Skalenfaktorwert des dritten Skalenfaktorbandes im höheren Frequenzband für die Ableitung des quantisierten Wertes von „1" für den Wert von „288" für den Peak ➂, sf = 26, sowie den des vierten Skalenfaktorbandes für die Ableitung des quantisierten Wertes von „1" für den Wert von „203" für den Peak ➃, sf = 18.
Bei dieser Berechnung des Skalenfaktors für jedes Skalenfaktorband im höheren Frequenzband für die Ableitung des quantisierten Wertes von „1" für den Peakwert (S14) gibt die zweite Quantisiereinheit 345 den Skalenfaktor jedes Skalenfaktorbandes, der durch Berechnung gewonnen wurde, als Teilinformation für das höhere Frequenzband an die zweite Kodiereinheit 355 aus und beendet die Verarbeitung.
Die Teilinformation (Skalenfaktor) wird wie oben erwähnt durch die zweite Quantisiereinheit 345 erzeugt. Wenn dieser in 1024 Stichproben von spektralen Daten dargestellte Teilinformationswert (Skalenfaktor) für jedes Skalenfaktorband (in diesem Falle vier Bändern) im höheren Frequenzband in Zahlenwerten von 0 bis 255 dargestellt wird, kann er durch acht Bits dargestellt werden. Wenn die Differenzen der betreffenden Skalenfaktoren Huffman-kodiert werden, ist es auch wahrscheinlich, dass die Datenmenge weiter verringert werden kann. Wenn andererseits die 1024 Stichproben von spektralen Daten im höheren Frequenzband mit dem herkömmlichen Verfahren quantisiert und Huffman-kodiert werden, wie für das tiefere Frequenzband geschehen, wird vorausgesagt, dass die Datenmenge wenigstens 300 Bits wird. Daher zeigt diese Teilinformation jeweils nur einen Skalenfaktor für jedes Skalenfaktorband im höheren Frequenzband an, aber es ist offensichtlich, dass die Datenmenge gegenüber einer Quantisierung im höheren Frequenzband mit dem herkömmlichen Verfahren wesentlich verringert ist.
Dieser Skalenfaktor liefert ferner einen Wert, der dem Peakwert (Absolutwert) in jedem Skalenfaktorband ungefähr proportional ist, deshalb kann man sagen, dass die spektralen Daten von 1024 Stichproben im höheren Frequenzband durch Annahme eines festgelegten Wertes oder die spektralen Daten, die erhalten werden, wenn eine Kopie eines Teiles oder aller spektralen Daten im tieferen Frequenzband mit Skalenfaktoren multipliziert werden, grob die spektralen Daten rekonstruieren, die auf der Basis der eingegebenen Audiosignale erhalten werden. Die spektralen Daten können des Weiteren genauer rekonstruiert werden, wenn alle spektralen Daten im Band mit dem Verhältnis zwischen dem absoluten Maximalwert der in das Band kopierten spektralen Daten und dem Wert, der durch Entquantisierung des quantisierten Wertes von „1" unter Verwendung des diesem Band entsprechenden Skalenfaktors als eines Koeffizienten für jedes Skalenfaktorband erhalten wurde, multipliziert werden. Darüber hinaus kann der Unterschied der Wellenform im höheren Frequenzband visuell nicht so deutlich identifiziert werden wie im tieferen Frequenzband, so dass die oben gewonnene Teilinformation als Information bezüglich der Wellenform im höheren Frequenzband genügt.
In der vorliegenden Ausführungsform wird der Skalenfaktor so berechnet, dass der quantisierte Wert der spektralen Daten in jedem Skalenfaktorband im höheren Frequenzband „1" wird, aber es braucht nicht immer „1" zu sein, sondern kann ein anderer Wert sein.
Die durch die zweite Quantisiereinheit 345 erzeugte Teilinformation wird durch die zweite Kodiereinheit 355 Huffman-kodiert und durch die Datenstrom-Ausgabeeinheit 390 als das zweite kodierte Signal in einem Bereich des Bitstromes gespeichert, der in der herkömmlichen Dekodiervorrichtung ignoriert wird oder für den keine Operation definiert ist.
8A bis 8C sind Diagramme, die Bereiche in Bitströmen zeigen, in denen Teilinformation durch die in 2 gezeigte Datenstrom-Ausgabeeinheit 390 gespeichert wird. In diesen Figuren ist die die Spektren im höheren Frequenzband anzeigende Teilinformation kodiert und dann als ein zweites kodiertes Signal in einem Bereich gespeichert, wo sie nicht als ein kodiertes Audiosignal im Bitstrom erkannt wird.
In 8A ist ein schraffierter Teil ein Bereich, der Füll-Element genannt wird und mit „0" gefüllt wird, um eine gleichförmige Datenlänge des Bitstroms zu erhalten. Selbst wenn die Teilinformation, die das Spektrum im höheren Frequenzband anzeigt, d.h. das zweite kodierte Signal, in diesem Bereich gespeichtert ist, wird sie in der herkömmlichen Dekodiervorrichtung 2000 nicht als ein kodiertes Signal erkannt, das dekodiert werden sollte, und ignoriert.
In 8B ist ein schraffierter Teil zum Beispiel ein Bereich, der Datenstromelement (DSE) genannt wird. Dieser Bereich steht in Erwartung einer künftigen Erweiterung für MPEG-2 AAC zur Verfügung, und in MPEG-2 AAC wird nur seine physische Struktur definiert. Wie beim Füll-Element wird in der herkömmlichen Dekodiervorrichtung 2000 die Teilinformation, die die Spektren im höheren Frequenzband anzeigt, selbst wenn sie in diesem Bereich gespeichert ist, ignoriert, oder als Reaktion auf die gelesene Information erfolgen keine Operationen, da keine Operation definiert wird, die durch die herkömmliche Dekodiervorrichtung 2000 ausgeführt werden sollte.
In der obigen Erklärung wird das zweite kodierte Signal in einem im MPEG-2 AAC-Bitstrom enthaltenen Bereich gespeichert, der von der herkömmlichen Dekodiervorrichtung 2000 ignoriert wird. Das zweite kodierte Signal kann aber in einen im Voraus festgelegten Bereich innerhalb der Headerdaten oder in einen im Voraus festgelegten Bereich innerhalb des ersten kodierten Signals oder auch sowohl in den Header als auch in das erste kodierte Signal integriert werden. Es ist nicht erforderlich, zsammenhängende Bereiche im Header oder im ersten kodierten Signal zu reservieren, um das zweite kodierte Signal im Bitstrom zu speichern. Zum Beispiel kann das zweite kodierte Signal diskret zwischen die Headerdaten und die erste kodierte Information integriert werden, wie in 8C gezeigt.
9A und 9B sind Diagramme, die weitere Beispiele von Bereichen von Bitströmen zeigen, in denen die Teilinformation durch die in 2 gezeigte Datenstrom-Ausgabeeinheit 390 gespeichert wird. 9A zeigt einen Strom 1, in dem nur das erste kodierte Signal zusammenhängend in jedem Frame gespeichert ist. 9B zeigt einen Strom 2, in dem nur das zweite kodierte Signal, d.h. die kodierte Teilinformation, dem Strom 1 entsprechend zusammenhängend in jedem Frame gespeichert ist.
Die Datenstrom-Ausgabeeinheit 390 kann das zweite kodierte Signal im Strom 2 speichern, der sich gänzlich vom Strom 1 unterscheidet, in dem das erste kodierte Signal gespeichert ist. Strom 1 und Strom 2 sind Bitströme, die zum Beispiel über verschiedene Kanäle übertragen werden.
Da, wie oben erwähnt, das tiefere Frequenzband, das die Grunddaten des eingegebenen Audiosignals anzeigt, übertragen oder im Voraus gespeichert wird, indem das erste und zweite kodierte Signal in völlig verschiedenen Bitströmen übertragen werden, ergibt es sich, dass die Information für das höhere Frequenzband später hinzugefügt werden kann, wenn erforderlich.
In dem in den 8A, 8B und den 9A, 9B gezeigten Format wird die Information, die 22,05 kHz anzeigt, was die Hälfte der tatsächlichen Abtastfrequenz ist, in der Information gespeichert, die die Abtastfrequenz für den Bitstrom anzeigt, die im Header gespeichert werden soll. Daher kann selbst die Dekodiervorrichtung 2000 der verwandten Technik 1 den Bitstrom im Frequenzband von 0 bis 11,025 kHz dekodieren und ihn wie im Falle eines Downsamplings wiedergeben.
Die Unterschiede zwischen dem Verfahren der Kodiervorrichtung 300 gemäss der Ausführungsform der vorliegenden Erfindung und dem Verfahren der Kodiervorrichtung 1000 der verwandten Technik 1 werden jetzt unter Bezugnahme auf 10A und 10B erklärt. 10A und 10B zeigen einen Vergleich zwischen dem Verfahren der vorliegenden Ausführungsform und dem Verfahren der verwandten Technik 1. Konkret zeigt 10A das Verfahren der vorliegenden Ausführungsform, während 10B das Verfahren der verwandten Technik 1 zeigt.
Gemäss dem Verfahren der vorliegenden Ausführungsform wird bei einer Abtastfrequenz von 44,1 kHz eine Audiodatensequenz alle 22,7 μs erfasst, und die Daten von insgesamt 4096 Stichproben, d.h. 2048 in einem zu kodierenden Frame enthaltene Stichproben und zwei Sätze von je 1024 Stichproben vor und nach dem Frame, werden aufgeteilt und der MDCT unterworfen, dann werden 2048 Stichproben spektraler Daten erfasst. Die Wiedergabebandbreite dieser spektralen Daten beträgt 22,05 kHz. Diese 2048 Stichproben spektraler Daten werden in die spektralen Daten (1024 Stichproben) im tieferen Frequenzband und die spektralen Daten (1024 Stichproben) im höheren Frequenzband getrennt, wobei 11,025 kHz als Grenze dient. Die spektralen Daten (von 1024 Stichproben) im tieferen Frequenzband werden wie üblich quantisiert und kodiert, und das erste kodierte Signal wird in hoher Qualität und bei einer niedrigen Bitrate als Downsampling erfasst. Die 1024 Stichproben spektraler Daten im höheren Frequenzbereich werden ebenfalls erfasst. Wenn diese Daten wie üblich quantisiert und kodiert werden, kann eine niedrige Bitrate nicht realisiert werden. Im Verfahren der vorliegenden Ausführungsform wird dementsprechend auf der Basis der 1024 Stichproben spektraler Daten im höheren Frequenzband die Teilinformation erzeugt, und das zweite kodierte Signal wird erfasst, indem nur die Teilinformation kodiert wird. Daher kann ein Audiosignal kodiert werden, um Klang hoher Qualität wiederzugenben, ohne dass die Gesamtmenge an Information wesentlich erhöht wird.
Andererseits wird im Downsampling-Verfahren der verwandten Technik 1 bei einer Abtastfrequenz von 22,05 kHz eine Audiodatensequenz alle 45 μs erfasst, die Daten von insgesamt 2048 Stichproben, nämlich 1024 in einem zu kodierenden Frame enthaltene Stichproben sowie zwei Sätze von je 512 Stichproben vor und nach dem Frame, werden aufgeteilt und der MDCT unterworfen, dann werden 1024 Stichproben spektraler Daten erfasst. Die Wiedergabebandbreite dieser spektralen Daten beträgt 11,025 kHz. Diese 1024 Stichproben spektraler Daten werden wie üblich quantisiert und kodiert. Daher kann ein kodiertes Signal hoher Qualität in der Bandbreite von 11,025 kHz oder darunter erfasst werden, aber das kodierte Signal im höheren Frequenzband oberhalb von 11,025 kHz kann nicht erfasst werden, da im höheren Frequenzband keine spektralen Daten vorhanden sind.
Als Nächstes werden die Unterschiede zwischen dem Verfahren der Kodiervorrichtung 300 der vorliegenden Ausführungsform und dem Verfahren der Kodiervorrichtung der verwandten Technik 2 unter Bezugnahme auf 11A und 11B erklärt.
11A und 11B zeigen einen Vergleich zwischen dem Verfahren der vorliegenden Ausführungsform und dem Verfahren der verwandten Technik 2. Genauer zeigt 11A das Verfahren der vorliegenden Ausführungsform, während 11B das Verfahren der verwandten Technik 2 zeigt. Da das Verfahren der vorliegenden Ausführungsform oben erklärt worden ist, wird seine Erklärung weggelassen.
Im Abtastverfahren der verwandten Technik 2 wird bei einer Abtastfrequenz von 44,1 kHz eine Audiodatensequenz alle 22,7 μs erfasst, die Daten von insgesamt 2048 Stichproben, nämlich 1024 in einem zu kodierenden Frame enthaltene Stichproben sowie zwei Sätze von je 512 Stichproben vor und nach dem Frame werden aufgeteilt und der MDCT unterworfen, dann werden 1024 Stichproben spektraler Daten erfasst. Die Wiedergabebandbreite dieser spektralen Daten beträgt 22,05 kHz. Diese 1024 Stichproben spektraler Daten werden wie üblich quantisiert und kodiert. In anderen Worten werden in jeweils der halben Länge der Zeit der vorliegenden Ausführungsform (22,7 ms) 1024 Stichproben von spektralen Daten (512 im tieferen Frequenzband von 11,025 kHz oder darunter und 512 im höheren Frequenzband oberhalb von 11,025 kHz) erfasst.
Hier sei angenommen, dass in der Kodiervorrichtung 1000 der verwandten Technik 2 die Teilinformation aus den spektralen Daten im höheren Frequenzband oberhalb von 11,025 kHz erzeugt wird, wie im gleichen Fall der Ausführungsform der vorliegenden Erfindung. Wenn in diesem Fall die Anzahl von Bits, die alle etwa 22,7 ms in der Quantisierung verwendet werden kann, „n" beträgt und die Anzahl von Bits, die als Teilinformation verwendet werden kann, „ml" beträgt, so müssen 512 Stichproben im tieferen Frequenzband (0 bis 11,025 kHz) mit (n – m1) Bits quantisiert werden. Wenn andererseits in der vorliegenden Ausführungsform die Anzahl von Bits, die alle etwa 45,4 ms in der Quantisierung verwendet werden kann, „ 2 × n" beträgt und die Anzahl von Bits, die als Teilinformation verwendet werden kann, „m2" beträgt, können 1024 Stichproben im tieferen Frequenzband (0 bis 11,025 kHz) mit (2 × n – m2) Bits quantisiert werden.
Übrigens ist allgemein bekannt, dass gemäss AAC ein hoher Kodierwirkungsgrad nur erreicht werden kann, wenn mindestens eine bestimmte Anzahl von Stichproben erhalten wird. Die 512 Stichproben in der verwandten Technik 2 erreichen den Schwellenwert nicht, während die 1024 Stichproben in der vorliegenden Ausführungsform den Schwellenwert genügend übersteigen.
Dementsprechend kann ein höherer Kodierwirkungsgrad erreicht werden, wenn 1024 Stichproben gemäss vorliegender Ausführungsform mit (2 × n – m2) Bits quantisiert werden, als wenn 512 Stichproben gemäss der verwandten Technik 2 mit (n – m1) Bits quantisiert werden. Ferner kann „m2" grösser sein (m2 > 2 × m1), da in der vorliegenden Ausführungsform ein höherer Kodierwirkungsgrad erreicht werden kann, wodurch die Klangqualität im höheren Frequenzband verbessert werden kann.
12 zeigt einen Vergleich zwischen den spektralen Daten und Eigenschaften im Kodierverfahren der vorliegenden Ausführungsform und denen in der verwandten Technik 1 und 2.
In der vorliegenden Ausführungsform beträgt die Abtastfrequenz 44,1 kHz, die Framelänge 2048 Stichproben. Daher werden 1024 Stichproben spektraler Daten im tieferen Frequenzband von 0 bis 11,025 kHz und die Teilinformation auf der Basis _von 1024 spektralen Daten im höheren Frequenzband erfasst. Im Ergebnis ist die Bandbreite ungefähr die gleiche wie die der verwandten Technik 2, aber sie ist grösser als die der verwandten Technik 1. Auch ist die Klangqualität im tieferen Frequenzband von 0 bis 11,025 kHz die gleiche wie in der verwandten Technik 1, aber im höheren Frequenzband oberhalb von 11,025 kHz ist sie insgesamt höher als in der verwandten Technik 1, da es die Teilinformation gibt. Ausserdem ist die Klangqualität in der vorliegenden Ausführungsform im höheren Frequenzband oberhalb von 11,025 kHz bis 22,05 kHz wegen der Teilinformation ungefähr die gleiche wie die der verwandten Technik 2, aber im tieferen Frequenzband von 0 bis 11,025 kHz ist sie höher, weil die Anzahl spektraler Daten verdoppelt ist. Daher ist die Klangqualität in der vorliegenden Ausführungsform insgesamt höher.
Andererseits beträgt in der verwandten Technik 1 die Abtastfrequenz 22,05 kHz, die Framelänge 1024 Stichproben. Im tieferen Frequenzband von 0 bis 11,025 kHz werden 1024 Stichproben spektraler Daten erfasst. Im Ergebnis ist die Bandbreite der verwandten Technik 1 geringer, sie beträgt die Hälfte derjenigen der vorliegenden Ausführungsform. Daher ist im tieferen Frequenzband von 0 bis 11,025 kHz die Klangqualität die gleiche wie die der vorliegenden Ausführungsform, aber im höheren Frequenzband oberhalb von 11,025 kHz bis 22,05 kHz ist sie niedriger als die der vorliegenden Ausführungsform, da es dort keine spektralen Daten gibt. Daher ist die Klangqualität in der verwandten Technik 1 insgesamt niedriger.
Ferner beträgt in der verwandten Technik 2 die Abtastfrequenz 44,1 kHz, die Framelänge 1024 Stichproben. Über das gesamte Frequenzband von 0 bis 22,05 kHz hinweg werden 1024 Stichproben spektraler Daten erfasst. Im Ergebnis ist die Bandbreite der verwandten Technik 2 die gleiche wie die der vorliegenden Ausführungsform, aber die Klangqualität im tieferen Frequenzband von 0 bis 11,025 kHz ist verringert und niedriger als die der vorliegenden Ausführungsform, weil die Anzahl der spektralen Daten um die Hälfte kleiner ist, obwohl sie im höheren Frequenzband oberhalb von 11,025 kHz bis 22,05 kHz höher als in der vorliegenden Ausführungsform ist, da die spektralen Daten kodiert werden. Daher ist die Klangqualität in der verwandten Technik 2 insgesamt niedriger.
Daher kann gemäss der vorliegenden Ausführungsform ein Audiosignal kodiert werden, um eine hohe Klangqualität wiederzugeben, ohne wie früher die Datengesamtmenge wesentlich zu erhöhen, indem die Daten im tieferen Frequenzband wie üblich kodiert werden und die Daten im höheren Frequenzband mit einer sehr geringen Menge an Information kodiert werden.
Als Nächstes wird die Kodierverarbeitung in jeder Einheit der Dekodiervorrichtung 400 im Broadcastsystem 1 detailliert erklärt werden.
Das erste kodierte Signal, das von der Datenstrom-Eingabeeinheit 410 ausgegeben wird, wird durch die erste Dekodiereinheit 420 zu quantisierten Daten usw. dekodiert und durch die erste Entquantisiereinheit 430 zu spektralen Daten im tieferen Frequenzband kodiert. Andererseits wird das zweite dekodierte Signal, das von der Datenstrom-Eingabeeinheit 410 ausgegeben wird, durch die zweite Dekodiereinheit 425 zur Teilinformation dekodiert. Die zweite Entquantisiereinheit 435 erzeugt auf der Basis der Teilinformation die spektralen Daten im höheren Frequenzband. Die Verarbeitung in der zweiten Entquantisiereinheit 435 wird detailliert erklärt.
13 ist ein Ablaufdiagramm, das eine Prozedur zeigt, mit der die in 2 gezeigte zweite Entquantisiereinheit 435 ein Spektrum von 1024 Stichproben im tieferen Frequenzband in Vorwärtsrichtung ins höhere Frequenzband kopiert. Die spektralen Daten im tieferen Frequenzband werden kopiert, wenn die spektralen Daten im höheren Frequenzband erzeugt werden.
In 13 zeigt inv_spec1[i] einen Wert des i-ten Spektrums unter den Ausgangsdaten der ersten Entquantisiereinheit 430 an, während inv_spec2[j] einen Wert des j-ten Spektrums unter den Eingangsdaten der zweiten Entquantisiereinheit 435 anzeigt.
Zuerst setzt die zweite Entquantisiereinheit 435 den Anfangswert eines Zählers i und eines Zähler j, die die spektralen Daten zählen, auf „0", um die spektralen Daten vom 0-ten bis zum 1023-sten Wert in der gleichen Richtung einzugeben (S71). Als Nächstes überprüft die zweite Entquantisiereinheit 435, ob der Wert des Zählers i kleiner als „1024" ist oder nicht (S72). Wenn der Wert des Zählers i kleiner als „1024" ist, dann gibt die zweite Entquantisiereinheit 435 den i-ten (in diesem Falle den 0-ten) spektralen Datenwert im tieferen Frequenzband der ersten Entquantisiereinheit 430 als den j-ten (in diesem Falle den 0-ten) spektralen Datenwert im höheren Frequenzband der zweiten Entquantisiereinheit 435 ein (S73). Dann inkrementiert die zweite Entquantisiereinheit 435 die Werte der Zähler i und j um „1" (S74) und prüft, ob der Wert des Zählers i weniger als „1024" beträgt oder nicht.
Die zweite Entquantisiereinheit 435 wiederholt die obige Verarbeitung, solange der Wert des Zählers i kleiner als „1024" ist, und beendet die Verarbeitung, wenn der Wert „1024" erreicht oder überschritten hat.
Im Ergebnis werden alle spektralen Daten vom 0-ten bis zum 1023-sten Wert im tieferen Frequenzband, die das Ergebnis der Entquantisierung durch die erste Entquantisiereinheit 430 sind, so wie sie sind, als spektrale Daten in das höhere Frequenzband der zweiten Entquantisiereinheit 435 kopiert.
Die Amplitude der spektralen Daten, die gemäss der durch die zweite Dekodiereinheit 425 dekodierten Teilinformation kopiert wurden, d.h. der Skalenfaktorwert für die Ableitung des Peakwertes von „1 ", wird angepasst, und die angepassten spektralen Daten werden als diejenigen im höheren Frequenzband ausgegeben. Die Amplitude wird angepasst, indem alle spektralen Daten im Band mit einem Verhältnis zwischen dem absoluten Maximalwert der in das Band kopierten spektralen Daten und dem Wert, der durch Entquantisierung des quantisierten Wertes von „1" unter Verwendung des diesem Band entsprechenden Skalenfaktorwertes als eines Koeffizienten gewonnen wurde, für jedes Skalenfaktorband multipliziert werden. Hier beträgt die maximale Anzahl von Stichproben der spektralen Daten, die durch die zweite Entquantisiereinheit 435 ausgegeben werden, 1024, und sie repräsentieren die Wiedergabebandbreite von 11,025 kHz.
Die Prozedur, die verwendet wird, um die 1024 spektralen Daten im tieferen Frequenzband ins höhere Frequenzband zu kopieren, ist in Vorwärtsrichtung der Frequenzachse in 13, aber sie können auch in der umgekehrten Richtung kopiert werden, wie in 14 gezeigt.
14 ist ein Ablaufdiagramm, das eine Prozedur zeigt, mit der die in 2 gezeigte zweite Entquantisiereinheit 435 ein Spektrum von 1024 im tieferen Frequenzband in der umgekehrten Richtung der Frequenzachse ins höhere Frequenzband kopiert. Wie im Falle der 13 zeigt inv_spec1[i] in 14 den i-ten spektralen Datenwert unter den Ausgangsdaten der ersten Entquantisiereinheit 430, während inv_spec2[j] den j-ten spektralen Datenwert unter den Eingangsdaten der zweiten Entquantisiereinheit 435 anzeigt.
Zuerst setzt die zweite Entquantisiereinheit 435 den Anfangswert eines Zählers i auf „0" und den Wert eines Zählers j auf „1023", wobei diese Zähler die spektralen Daten zählen, um die Spektren vom 0-ten bis zum 1023-sten Wert in der umgekehrten Richtung einzugeben (S81). Als Nächstes prüft die zweite Entquantisiereinheit 435, ob der Wert des Zählers i kleiner als „1024" ist oder nicht (S82). Wenn der Wert des Zählers i kleiner als „1024" ist, dann gibt die zweite Entquantisiereinheit 435 den i-ten (in diesem Falle den 0-ten) spektralen Datenwert im tieferen Frequenzband der ersten Entquantisiereinheit 430 als den j-ten (in diesem Falle den 1023-sten) spektralen Datenwert im höheren Frequenzband der zweiten Entquantisiereinheit 435 ein (S83). Dann inkrementiert die zweite Entquantisiereinheit 435 den Wert des Zählers i um „1" und dekrementiert den Wert des Zählers j um „1" (S84), und prüft, ob der Wert des Zählers i kleiner als „1024" ist oder nicht (S82).
Die zweite Entquantisiereinheit 435 wiederholt die obige Verarbeitung, solange der Wert des Zählers i kleiner als „1024" ist, und beendet die Verarbeitung, wenn der Wert „1024" erreicht oder übersteigt.
Im Ergebnis werden alle spektralen Daten vom 0-ten bis zum 1023-sten Wert im tieferen Frequenzband, die die Ergebnisse der Entquantisierung durch die erste Entquantisiereinheit 430 sind, in umgekehrter Richtung als spektrale Daten vom 1023-sten bis zum 0-ten Wert ins höhere Frequenzband der zweiten Entquantisiereinheit 435 kopiert.
Wie oben wird die Amplitude der spektralen Daten, die gemäss der durch die zweite Dekodiereinheit 425 dekodierten Teilinformation kopiert wurden, d.h. der Skalenfaktorwert für die Ableitung des Peakwertes von „1", angepasst, und die angepassten spektralen Daten werden als diejenigen im höheren Frequenzband ausgegeben. Die Amplitude wird angepasst, indem alle spektralen Daten im Band mit einem Verhältnis zwischen dem absoluten Maximalwert der in das Band kopierten spektralen Daten und dem Wert, der durch Entquantisierung des quantisierten Wertes von „1" unter Verwendung des diesem Band entsprechenden Skalenfaktorwertes als eines Koeffizienten gewonnen wurde, für jedes Skalenfaktorband multipliziert werden. Hier beträgt die maximale Anzahl von Stichproben der spektralen Daten, die durch die zweite Entquantisiereinheit 435 ausgegeben werden, 1024, und sie entsprechen der Wiedergabebandbreite oberhalb von 11,025 kHz.
In der vorliegenden Ausführungsform kopiert die zweite Entquantisiereinheit 435 alle spektralen im tieferen Frequenzband ins höhere Frequenzband, aber sie kann auch nur einen Teil von ihnen kopieren.
Beispiele für die Prozeduren, mit denen das höhere Frequenzband und das tiefere Frequenzband auf einmal kopiert werden, werden unter Bezugnahme auf 13 und 14 beschrieben. Ein Teil von ihnen kann aber nach der in 13 gezeigten Prozedur kopiert werden, ein anderer Teil von ihnen kann mit der in 14 gezeigten Prozedur kopiert werden.
Ferner können ein Teil von ihnen oder alle kopiert werden, indem ihre positiven und negativen Vorzeichen umgekehrt werden.
Diese Kopierprozeduren können im Voraus festgelegt oder je nach den Daten im tieferen Frequenzband verändert werden, sie können auch als Teilinformation übertragen werden.
In der vorliegenden Ausführungsform werden die spektralen Daten im tieferen Frequenzband als diejenigen im höheren Frequenzband kopiert, aber die vorliegende Erfindung ist nicht darauf beschränkt, und die spektralen Daten im höheren Frequenzband können auch von der zweiten kodierten Information allein erzeugt werden.
Was die Erzeugung von Rauschen in der zweiten Entquantisiereinheit 435 in der vorliegenden Ausführungsform betrifft, wo wurde der Fall beschrieben, wo hauptsächlich von der ersten Entquantisiereinheit 430 gewonnene spektrale Daten kopiert werden. Die vorliegende Erfindung ist aber nicht darauf beschränkt, sondern spektrale Daten, weisses Rauschen, rosa Rauschen usw., die in jedem Skalenfaktorband im höheren Frequenzband einen bestimmten Wert besitzen, können auf ihre eigene Weise oder in Übereinstimmung mit der Teilinformation in der zweiten Entquantisiereinheit 435 erzeugt werden.
Die von der zweiten Entquantisiereinheit 435 ausgegebenen 1024 Stichproben spektraler Daten werden in der Integrationseinheit 440 für entquantisierte Daten mit den von der ersten Entquantisiereinheit 430 ausgegebenen 1024 spektralen Daten integriert, der IMDCT zu Audiodaten in der Zeitdomäne unterworfen, bei einer Abtastfrequenz von 44,1 kHz D/A-umgewandelt, und dann wird das Audiosignal mit der Wiedergabebandbreite von 0 bis 22,05 kHz wiedergegeben.
Wie oben beschrieben, werden gemäss vorliegender Erfindung die ersten 1024 Stichproben unter den spektralen Daten von 2048 Stichproben wie üblich unter Verwendung von MDCT und IMDCT kodiert, und zwar mit einer Umformungslänge, die doppelt so lang wie die herkömmliche ist, während die 1024 Stichproben der zweiten Hälfte mit einer kleineren Menge an Information als der herkömmlichen kodiert werden, und beide spektralen Daten werden für die Dekodierung integriert.
Da die Menge an Information, die für die Kodierung der 1024 Stichproben der zweiten Hälfte der spektralen Daten erforderlich ist, verringert werden kann, kann die Menge an Information, die für die Kodierung der 1024 Stichproben der ersten Hälfte der spektralen Daten erforderlich ist, erhöht werden, und daher können die spektralen Daten über eine grosse Bandbreite kodiert werden, während die Genauigkeit der Wiedergabe der ursprünglichen Signale im tieferen Frequenzband verbessert ist.
Der durch die Kodiervorrichtung der vorliegenden Ausführungsform erzeugte Bitstrom kann auch mit der herkömmlichen Dekodiervorrichtung dekodiert werden.
Als Nächstes werden Varianten der Teilinformation und deren Dekodierung erklärt.
15 zeigt eine spektrale Wellenform, die ein konkretes Beispiel für weitere Teilinformation (quantisierter Wert) zeigt, die durch die in 2 gezeigte zweite Quantisiereinheit 345 erzeugt wird. 16 ist ein Ablaufdiagramm, das eine Operation in der Verarbeitung zur Berechnung weiterer Teilinformation (quantisierter Wert) zeigt, die durch die in 2 gezeigte zweite Quantisiereinheit 435 ausgeführt wird.
Die zweite Quantisiereinheit 345 legt im Voraus einen Skalenfaktorwert von zum Beispiel „18" fest, der allen Skalenfaktorbändern im höheren Frequenzband, die eine Wiedergabebandbreite oberhalb von 11,025 kHz bis 22,05 kHz besitzen, gemein ist, und berechnet unter Verwendung dieses Skalenfaktors von „18" den quantisierten Wert des absoluten Maximums der spektralen Daten (Peak) in jedem Skalenfaktorband (S21).
Die zweite Quantisiereinheit 345 gibt das absolute Maximum der spektralen Daten (Peak) im ersten Skalenfaktorband im höheren Frequenzband an, das die Wiedergabebandbreite oberhalb von 11,025 kHz besitzt (S22). Im Beispiel der 15 bedeutet ➀ den im ersten Skalenfaktorband angegebenen Peak, und der Wert des Peaks beträgt dann „256".
Die zweite Quantisiereinheit 345 berechnet den quantisierten Wert, indem sie den im Voraus festgelegten gemeinsamen Skalenfaktorwert von „18" und den Peakwert von „256" auf eine Formel für die Berechnung des quantisierten Wertes anwendet (S23). Wenn zum Beispiel der Peakwert von „256" mit dem Skalenfaktorwert von „18" quantisiert wird, dann wird ein quantisierter Wert von „6" berechnet.
Wenn der quantisierte Wert von „6" des Peakwertes von „256" für das erste Skalenfaktorband berechnet worden ist (S24), dann gibt die zweite Quantisiereinheit 345 den Peak der spektralen Daten im nächsten Skalenfaktorband an (S22). Wenn zum Beispiel die angegebene Peakposition ➁ und der Peakwert „312" sind, dann berechnet sie zum Beispiel den quantisierten Wert von „10" für den Peakwert „312" mit dem Skalenfaktorwert von „18" (S23).
In gleicher Weise berechnet die zweite Quantisiereinheit 345 den quantisierten Wert von „9" für den Wert von „288" des Peaks ➂ mit dem Skalenfaktorwert von „18" für das dritte Skalenfaktorband im höheren Frequenzband, und sie berechnet den quantisierten Wert von „5" für den Wert „203" des Peaks ➃ mit dem Skalenfaktorwert von „18" für das vierte Skalenfaktorband.
Wenn die quantisierten Werte der Peakwerte für alle Skalenfaktorbänder im höheren Frequenzband mit dem festgelegten Skalenfaktor von „18" berechnet worden sind (S24), dann gibt die zweite Quantisiereinheit 345 den quantisierten Wert jedes Skalenfaktorbandes, der durch Berechnung gewonnen wurde, als Teilinformation für das höhere Frequenzband an die zweite Kodiereinheit 355 aus und beendet die Verarbeitung.
Wie oben beschrieben, erzeugt die zweite Quantisiereinheit 345 die Teilinformation (den quantisierten Wert). Diese Teilinformation repräsentiert die vier Skalenfaktorbänder im höheren Frequenzband, die in 1024 Stichproben von spektralen Daten dargestellt sind, als quantisierte Werte von je vier Bits, während die oben erwähnte Teilinformation (Skalenfaktor) die vier Skalenfaktorbänder im höheren Frequenzband als spektrale Daten von je acht Bits repräsentiert. Daher ist die Datenmenge im höheren Frequenzband im Falle des quantisierten Wertes viel stärker verringert. Dieser quantisierte Wert repräsentiert auch grob die Amplitude des Peakwertes (Absolutwert) jedes Skalenfaktorbandes, und man kann sagen, dass die 1024 Stichproben spektraler Daten im höheren Frequenzband durch Annahme eines festgelegten Wertes oder die spektralen Daten, die erhalten werden, wenn eine Kopie eines Teiles oder aller spektralen Daten im tieferen Frequenzband mit dem quantisierten Wert multipliziert werden, grob die spektralen Daten rekonstruieren, die auf der Basis der eingegebenen Audiosignale erhalten werden. Die spektralen Daten können des Weiteren genauer rekonstruiert werden, wenn alle spektralen Daten im Band mit dem Verhältnis zwischen dem absoluten Maximalwert der in das Band kopierten spektralen Daten und dem Wert, der durch Entquantisierung des diesem Band entsprechenden quantisierten Wertes als eines Koeffizienten für jedes Skalenfaktorband erhalten wird, multipliziert werden.
In der vorliegenden Ausführungsform wird der Skalenfaktorwert, der dem als zweite kodierte Information zu übertragenden quantisierten Wert entspricht, im Voraus festgelegt, aber der optimale Skalenfaktorwert kann berechnet und zur zweiten kodierten Information hinzugefügt übertragen werden. Wenn zum Beispiel ein Skalenfaktor gewählt wird, um den Maximalwert von „7" für den quantisierten Wert abzuleiten, beträgt die Anzahl von Bits, die den quantisierten Wert anzeigen, nur drei, so dass die Menge an Information, die erforderlich ist, um den quantisierten Wert zu übertragen, viel stärker vermindert ist.
17 zeigt eine spektrale Wellenform, die ein konkretes Beispiel für weitere Teilinformation (Positionsinformation) zeigt, die durch die in 2 gezeigte zweite Quantisiereinheit 345 erzeugt wird. 18 ist ein Ablaufdiagramm, das eine Operation in der Verarbeitung zur Berechnung weiterer Teilinformation (Positionsinformation) zeigt, die durch die in 2 gezeigte zweite Quantisiereinheit 345 ausgeführt wird.
Die zweite Quantisiereinheit 345 gibt die Position des absoluten Maximums der spektralen Daten in jedem Skalenfaktorband im höheren Frequenzband, das die Wiedergabebandbreite oberhalb von 11,025 kHz bis 22,05 kHz besitzt, gemäss folgender Prozedur an (S31).
Die zweite Quantisiereinheit 345 gibt das absolute Maximum der spektralen Daten (Peak) im ersten Skalenfaktorband im höheren Frequenzband, das die Wiedergabebandbreite oberhalb von 11,025 kHz besitzt, an (S32). Im Beispiel von 17 deutet ➀ den im ersten Skalenfaktorband angegebenen Peak und den 22-sten spektralen Datenwert relativ zum ersten Wert dieses Skalenfaktorbandes an. Die zweite Quantisiereinheit 345 hält die angegebene Peakposition als „der 22-ste spektrale Datenwert relativ zum ersten Wert des Skalenfaktorbandes" fest (S33).
Wenn die Peakposition für das erste Skalenfaktorband angegeben und festgehalten worden ist (S34), gibt die zweite Quantisiereinheit 345 den Peak der spektralen Daten im nächsten Skalenfaktorband an (S32). Zum Beispiel befindet sich der angegebene Peak bei ➁ und beim 60-sten spektralen Datenwert relativ zum ersten Wert des Skalenfaktorbandes. Die zweite Quantisiereinheit 345 hält die angegebene Peakposition als „der 60-ste spektrale Datenwert relativ zum ersten Wert des Skalenfaktorbandes" fest (S33).
In der gleichen Weise gibt die zweite Quantisiereinheit 345 die Position des Peaks ➂ im dritten Skalenfaktorband im höheren Frequenzband an und hält sie als „der erste spektrale Datenwert des Skalenfaktorbandes" fest; und sie gibt die Position des Peaks ➃ im vierten Skalenfaktorband an und hält sie als „der 25-ste spektrale Datenwert relativ zum ersten Wert des Skalenfaktorbandes" fest.
Wenn die Peakpositionen für alle Skalenfaktorbänder im höheren Frequenzband angegeben und festgehalten worden sind (S34), gibt die zweite Quantisiereinheit 345 die festgehaltenen Peakpositionen der Skalenfaktorbänder als Teilinformation für das höhere Frequenzband an die zweite Kodiereinheit 355 aus und beendet die Verarbeitung.
Wie oben beschrieben, erzeugt die zweite Quantisiereinheit 345 die Teilinformation (Positionsinformation). Diese Teilinformation (Positionsinformation) repräsentiert die vier Skalenfaktorbänder im höheren Frequenzband, das in 1024 Stichproben spektraler Daten dargestellt wird, als Positionsinformation von je sechs Bits.
In diesem Falle kopiert die zweite Entquantisiereinheit 435 in der Dekodiervorrichtung 400 einen Teil der 1024 Stichproben spektraler Daten im tieferen Frequenzband oder alle diese in Übereinstimmung mit der von der zweiten Dekodiereinheit 425 eingegebenen Teilinformation (Positionsinformation) als die 1024 Stichproben von Stichprobendaten in das höhere Frequenzband. Die spektralen Daten im tieferen Frequenzband werden kopiert, indem auf der Basis der Peakinformation der spektralen Daten in einem oder mehreren Skalenfaktorbändern ähnliche Daten aus den spektralen Daten herausgezogen werden, die von der ersten Entquantisiereinheit 430 ausgegeben wurden, und alle oder ein Teil von ihnen kopiert werden. Die zweite Entquantisiereinheit 435 passt die Amplitude der kopierten spektralen Daten auch an, sofern erforderlich. Die Amplitude wird angepasst, indem alle spektralen Daten mit einem im Voraus festgelegten Koeffizienten von zum Beispiel „0,5" multipliziert werden. Dieser Koeffizient kann ein fester Wert oder für jede Bandbreite oder jedes Skalenfaktorband ein anderer Wert sein, er kann auch je nach den von der ersten Entquantisiereinheit 430 ausgegebenen spektralen Daten verändert werden.
In der vorliegenden Ausführungsform wird ein im Voraus festgelegter Koeffizient verwendet, aber dieser Koeffizientenwert kann als Teilinformation zur zweiten kodierten Information hinzugefügt werden. Entweder kann der Skalenfaktorwert als ein Koeffizient zur zweiten kodierten Information hinzugefügt werden, oder der quantisierte Wert des Peaks im Skalenfaktorband kann als ein Koeffizient zur zweiten kodierten Information hinzugefügt werden. Das Verfahren der Amplitudenanpassung ist nicht auf das oben erwähnte beschränkt, und ein anderes Verfahren kann verwendet werden.
In der vorliegenden Ausführungsform sind nur die Positionsinformation oder nur die Positionsinformation und die Koeffizienteninformation kodiert worden, aber die vorliegende Erfindung ist nicht darauf beschränkt. Ein Skalenfaktor, ein quantisierter Wert, Vorzeicheninformation eines Spektrums, ein Verfahren zur Rauscherzeugung und andere können kodiert werden. Auch eine Kombination von zwei oder mehr von diesen kann kodiert werden.
Ausserdem werden in der vorliegenden Ausführungsform die spektralen Daten im tieferen Frequenzband als spektrale Daten der höheren Frequenzdaten kopiert. Die vorliegende Erfindung ist darauf aber nicht beschränkt, und die spektralen Daten im höheren Frequenzband können lediglich aus der zweiten kodierten Information erzeugt werden.
19 zeigt eine spektrale Wellenform, die ein konkretes Beispiel für weitere Teilinformation (Vorzeicheninformation) zeigt, die durch die in 2 gezeigte zweite Quantisiereinheit 345 erzeugt wird. 20 ist ein Ablaufdiagramm, das eine Operation in der Verarbeitung zur Berechnung weiterer Teilinformation (Vorzeicheninformation) zeigt, die durch die in 2 gezeigte zweite Quantisiereinheit 345 ausgeführt wird.,
Die zweite Quantisiereinheit 345 gibt die Vorzeicheninformation der spektralen Daten an einer im Voraus bestimmten Position, zum Beispiel in der Mitte jedes Skalenfaktorbandes im höheren Frequenzband, das eine Wiedergabebandbreite oberhalb von 11,025 kHz bis 22,05 kHz besitzt, gemäss der folgenden Prozedur an (S41).
Die zweite Quantisiereinheit 345 prüft die Vorzeicheninformation der spektralen Daten in der Mitte des ersten Skalenfaktorbandes im höheren Frequenzband, das die Wiedergabebandbreite oberhalb von 11,025 kHz besitzt (S42), und hält den Wert fest. Zum Beispiel ist das Vorzeichen der spektralen Daten in der Mitte des ersten Skalenfaktorbandes „+". Die zweite Quantisiereinheit 345 stellt dieses Vorzeichen „+" als einen Wert „1" von einem Bit dar und hält ihn fest. Wenn das Vorzeichen „-" ist, stellt es die zweite Quantisiereinheit 345 als „0" dar und hält es fest.
Wenn die Vorzeicheninformation der spektralen Daten in der Mitte des ersten Skalenfaktorbandes festgehalten worden ist (S43), prüft die zweite Quantisiereinheit 345 das Vorzeichen der spektralen Daten in der Mitte des nächsten Skalenfaktorbandes (S42). Zum Beispiel ist das Vorzeichen „+", und die zweite Quantisiereinheit 345 hält „1" als die Vorzeicheninformation der spektralen Daten in der Mitte des zweiten Skalenfaktorbandes fest.
In gleicher Weise prüft die zweite Quantisiereinheit 345 das Vorzeichen „+" der spektralen Daten in der Mitte des dritten Skalenfaktorbandes im höheren Frequenzband und hält die Vorzeicheninformation „1" fest. Die zweite Quantisiereinheit 345 prüft weiter das Vorzeichen „+" der spektralen Daten in der Mitte des vierten Skalenfaktorbandes und hält die Vorzeicheninformation „1" fest.
Wenn die Vorzeicheninformation der spektralen Daten an den Positionen in der Mitte aller Skalenfaktorbänder im höheren Frequenzband festgehalten worden ist (S43), gibt die zweite Quantisiereinheit 345 die festgehaltene Vorzeicheninformation der Skalenfaktorbänder als Teilinformation für das höhere Frequenzband an die zweite Kodiereinheit 355 aus und beendet die Verarbeitung.
Wie oben beschrieben erzeugt die zweite Quantisiereinheit 345 die Teilinformation (Vorzeicheninformation). Diese Teilinformation (Vorzeicheninformation) repräsentiert die vier Skalenfaktorbänder im höheren Frequenzband, das durch 1024 Stichproben spektraler Daten dargestellt wird, als Vorzeicheninformation von einem Bit, und daher kann das Spektrum im höheren Frequenzband mit einer sehr kurzen Datenlänge dargestellt werden.
In diesem Falle kopiert die zweite Entquantisiereinheit 435 in der Dekodiervorrichtung 400 einen Teil der spektralen Daten von 1024 Stichproben im tieferen Frequenzband oder alle diese Daten als das Spektrum im höheren Frequenzband und bestimmt das Vorzeichen der spektralen Daten an einer im Voraus festgelegten Position in Übereinstimmung mit der von der zweiten Dekodiereinheit 425 eingegebenen Vorzeicheninformation.
Die Vorzeicheninformation, die das Vorzeichen an den Positionen in der Mitte jedes Skalenfaktorbandes im höheren Frequenzband angibt, wird als Teilinformation (Vorzeicheninformation) verwendet. Die vorliegende Erfindung ist aber nicht auf die Position in der Mitte des Skalenfaktorbandes beschränkt, und jede Peakposition, der erste spektrale Datenwert jedes Skalenfaktorbandes oder andere im Voraus festgelegte Positionen können verwendet werden.
In der vorliegenden Ausführungsform wird die Position der spektralen Daten, die dem zu übertragenden Vorzeichen (der Vorzeicheninformation) entsprechen, im Voraus festgelegt, aber sie kann je nach dem Ausgangssignal der ersten Entquantisiereinheit 430 verändert werden, oder die Positionsinformation, die die Position der Vorzeicheninformation jedes Skalenfaktorbandes anzeigt, kann zur zweiten kodierten Information hinzugefügt und übertragen werden.
Ferner passt die zweite Entquantisiereinheit 435 die Amplitude der kopierten spektralen Daten an, wenn erforderlich. Die Amplitude wird angepasst, indem alle spektralen Daten mit einem im Voraus festgelegten Koeffizienten von zum Beispiel „0,5" multipliziert werden.
Der Koeffizient kann ein fester Wert oder für jede Bandbreite oder jedes Skalenfaktorband ein anderer Wert sein, er kann auch je nach den von der ersten Entquantisiereinheit 430 ausgegebenen spektralen Daten verändert werden. Das Verfahren der Amplitudenanpassung ist nicht darauf beschränkt, und jedes andere Verfahren kann verwendet werden.
In der vorliegenden Ausführungsform wird ein im Voraus festgelegter Koeffizient verwendet, aber dieser Koeffizientenwert kann als Teilinformation zur zweiten kodierten Information hinzugefügt werden. Entweder kann der Skalenfaktorwert als ein Koeffizient zur zweiten kodierten Information hinzugefügt werden, oder ein quantisierter Wert kann als ein Koeffizient zur zweiten kodierten Information hinzugefügt werden.
In der vorliegenden Ausführungsform werden nur die Vorzeicheninformation, nur die Vorzeicheninformation und die Koeffizienteninformation oder nur die Vorzeicheninformation und die Positionsinformation kodiert, aber die vorliegende Erfindung ist darauf nicht beschränkt. Ein quantisierter Wert, ein Skalenfaktor, Positionsinformation eines charakteristischen Spektrums, ein Rauscherzeugungsverfahren oder andere können kodiert werden. Auch eine Kombination von zwei oder mehr von diesen kann kodiert werden.
Ausserdem werden in der vorliegenden Ausführungsform die spektralen Daten im tieferen Frequenzband als die spektralen Daten der höheren Frequenzdaten kopiert. Die vorliegende Erfindung ist aber nicht darauf beschränkt, und die spektralen Daten im höheren Frequenzband können lediglich aus der zweiten kodierten Information erzeugt werden.
In der vorliegenden Ausführungsform wird das Vorzeichen „+" als ein Wert „1" von einem Bit dargestellt, und das Vorzeichen „-" wird als „0" dargestellt. Die vorliegende Erfindung ist aber nicht auf diese Darstellung des Vorzeichens in der Teilinformation (Vorzeicheninformation) beschränkt, und jeder andere Wert kann verwendet werden.
21A und 21b zeigen spektrale Wellenformen, die Beispiele zeigen, wie die weitere Teilinformation (Kopierinformation) erzeugt werden kann, die durch die in 2 gezeigte zweite Quantisiereinheit 345 erzeugt wird. 21A zeigt eine spektrale Wellenform im ersten Skalenfaktorband im höheren Frequenzband. 21B zeigt Beispiele von spektralen Wellenformen im tieferen Frequenzband, die mit Teilinformation (Kopierinformation) angegeben werden. 22 ist ein Ablaufdiagramm, das eine Operation in der Verarbeitung zur Berechnung weiterer Teilinformation (Kopierinformation) zeigt, die durch die in 2 gezeigte zweite Quantisiereinheit 345 ausgeführt wird.
Für jedes Skalenfaktorband im höheren Frequenzband, das die Wiedergabebandbreite oberhalb von 11,025 bis 22,05 kHz besitzt, gibt die zweite Quantisiereinheit 345 die Nummer N des Skalenfaktorbandes im tieferen Frequenzband gemäss der folgenden Prozedur an (S51). Das Skalenfaktorband Nr. N im tieferen Frequenzband wird angegeben, weil der Wert der Peakposition dieses Bandes am nächsten zur Peakposition „n" des Skalenfaktorbandes im höheren Frequenzband liegt (dem „n"-ten Datenwert relativ zum ersten des Skalenfaktorbandes).
Die zweite Quantisiereinheit 345 gibt die Position „n" des absoluten Maximums der spektralen Daten (Peak) im ersten Skalenfaktorband im höheren Frequenzband an, das die Wiedergabebandbreite oberhalb von 11,025 kHz besitzt (S52). Wie in 21A zu sehen, zeigt ➀ den angegebenen Peak „n" an, und der spektrale Datenwert an dieser Position ist gegeben durch n = 22.
Die zweite Quantisiereinheit 345 zeigt die Peakpositionen aller Spektren (sowohl positive als auch negative Spektren einschliessend) im tieferen Frequenzband an, das die Wiedergabebandbreite von 11,025 kHz oder weniger besitzt (S53).
Als Nächstes sucht die zweite Quantisiereinheit 345 für jeden angegebenen Peak im tieferen Frequenzband nach dem Skalenfaktorband, dessen Peakposition relative zu seinem ersten am nächsten bei „n" liegt, und gibt die Nummer N dieses Skalenfaktorbandes, die Richtung der Suche sowie die Vorzeicheninformation für den Peak an (S54).
Konkret sucht die zweite Quantisiereinheit 345 für jeden angegebenen Peak (positiv wie negativ) im tieferen Frequenzband von niedrigen Frequenzen beginnend sequentiell nach dem ersten Skalenfaktorband, dessen Peakposition am nächsten bei „n" liegt. Es gibt zwei Suchrichtungen: 1) eine Suche vom Peak in der Richtung auf tiefere Frequenzen, 2) eine Suche vom Peak in der Richtung auf höhere Frequenzen. Was die Peaks im tieferen Frequenzband betrifft, deren positive und negative Vorzeichen gegenüber denen im höheren Frequenzband vertauscht sind, so gibt es ebenfalls zwei Suchrichtungen: 3) eine Suche vom Peak in der Richtung auf tiefere Frequenzen, und 4) eine Suche vom Peak in der Richtung auf höhere Frequenzen.
Im Falle der Suchrichtungen (2) und (4) sind die Peakposition im höheren Frequenzband und die Peakposition im tieferen Frequenzband seitenverkehrt (in der Richtung der Frequenzachse), wie in 21B gezeigt, wenn die spektrale Wellenform im tieferen Frequenzband auf der Basis von Peakinformation kopiert wird. Daher ist es notwendig, Information über die Suchrichtung beizufügen (vorwärts und umgekehrt), wenn zum Beispiel (1) und (3) die Vorwärts- Suchrichtung und (2) und (4) die Rückwärts-Suchrichtung sind. Im Falle der Suchrichtungen (3) und (4) sind ferner in der Peakposition im höheren Frequenzband und der Peakposition im tieferen Frequenzband ebenfalls oben und unten vertauscht (in Richtung der senkrechten Achse), wie in 21B gezeigt. Daher ist es erforderlich, Information beizufügen, die anzeigt, ob die positiven und negativen Vorzeichen der Peakwerte des höheren und tieferen Frequenzbandes vertauscht worden sind oder nicht.
Die zweite Quantisiereinheit 345 sucht in vier Richtungen, nämlich in den Suchrichtungen (1) und (2), wenn der im tieferen Frequenzband angegebene Peakwert positiv ist, und in den Suchrichtungen (3) und (4), wenn der Peakwert negativ ist, und gibt dann die Nummer des Skalenfaktorbandes an, dessen Peakposition unter den Suchergebnissen am nächsten bei „n" liegt. In diesem Falle wird ein bestimmter Wert von zum Beispiel „5" im Voraus als Toleranz des Unterschiedes zwischen „n" und der tatsächlichen Peakposition festgelegt, die zweite Quantisiereinheit 345 wählt das Skalenfaktorband, dessen Peakposition unter den vier Arten von Suchergebnissen am nächsten bei „n" liegt, und gibt die Nummer N dieses Skalenfaktorbandes an. Zusätzlich gibt sie die Vorzeicheninformation an, die anzeigt, ob die Vorzeichen der Peakwerte im höheren Frequenzband und im tieferen Frequenzband vertauscht worden sind oder nicht, sowie auch die Information, die die Suchrichtung anzeigt (vorwärts oder rückwärts).
Zum Beispiel wird in der Suchrichtung (1) mit einer Toleranz von „1" gegenüber der Peakposition für das Spektrum im tieferen Frequenzband die Nummer N = 3 für das Skalenfaktorband angegeben, wie in 21B (1) gezeigt. In ähnlicher Weise werden in den Suchrichtungen (2), (3) und (4) mit Toleranzen von „5", „4" und „ 2" gegenüber den Peakpositionen für die Spektren im tieferen Frequenzband die Nummern N = 18, N = 12 und N = 10 für die Skalenfaktorbänder angegeben, wie in 21B (2), (3) und (4) gezeigt. Die zweite Quantisiereinheit 345 wählt die Nummer N = 3 des Skalenfaktorbandes, dessen Peakposition mit einer Toleranz von „1" gegenüber der Peakposition unter den vier angegebenen Nummern von Skalenfaktorbändern am nächsten bei „n" liegt. Zusätzlich erzeugt sie die Vorzeicheninformation „1", die das Vorzeichen „+" des Peaks im tieferen Frequenzband anzeigt, sowie die Suchrichtungsinformation „1", die eine Suche in der Richtung zu tieferen Frequenzen anzeigt. Wenn in diesem Fall das Vorzeichen des Peaks „-" ist, dann ist die Vorzeicheninformation „0", und wenn die Suche in der Richtung zu höheren Frequenzen gemacht wurde, dann ist die Suchrichtungsinformation „0".
Wenn das Skalenfaktorband Nummer N = 3, die Vorzeicheninformation „1" und die Suchrichtungsinformation „1" für das erste Skalenfaktorband im höheren Frequenzband angegeben worden sind (S55), dann gibt die zweite Quantisiereinheit 345 die Nummer N, die Vorzeicheninformation und die Suchrichtungsinformation des nächsten Skalenfaktorbandes in der gleichen Weise wie oben an.
Auf diese Weise [...] die Nummer N, die Vorzeicheninformation und die Suchrichtungsinformation für jedes Skalenfaktorband im tieferen Frequenzband, dessen Peakposition relativ zu seinem ersten am nächsten bei der Peakposition „n" relativ zum ersten des Skalenfaktorbandes im höheren Frequenzband liegt (S55). Dann gibt die zweite Quantisiereinheit 345 die angegebene Nummer N, die Vorzeicheninformation und die Suchrichtungsinformation für das Skalenfaktorband im tieferen Frequenzband entsprechend jedem Skalenfaktorband im höheren Frequenzband als Teilinformation (Kopierinformation) für das höhere Frequenzband an die zweite Kodiereinheit 355 aus und beendet die Verarbeitung.
Wenn in diesem Falle das erste kodierte Signal in Übereinstimmung mit der herkömmlichen Prozedur in der Dekodiervorrichtung 400 dekodiert wird, dann können die spektralen Daten von 1024 Stichproben auf der Seite tieferer Frequenzen erhalten werden. Die zweite Entquantisiereinheit 435 kopiert einen Teil der spektralen Daten, die den Skalenfaktorbandnummern entsprechen, die von der zweiten Dekodiereinheit 425 ausgegeben wurden, oder alle diese Daten als die Spektren in das höhere Frequenzband. Die zweite Entquantisiereinheit 435 passt die Amplitude der kopierten spektralen Daten an, wenn erforderlich. Die Amplitude wird angepasst, indem jedes Spektrum mit einem im Voraus festgelegten Koeffizienten von zum Beispiel 0,5 multipliziert wird.
Dieser Koeffizient kann ein fester Wert oder für jedes Skalenfaktorband ein anderer Wert oder aber ein Wert sein, der von den durch die erste Entquantisiereinheit 430 ausgegebenen spektralen Daten abhängt.
In der vorliegenden Ausführungsform wird ein im Voraus festgelegter Koeffizient verwendet, aber dieser Koeffizientenwert kann auch als Teilinformation zur zweiten kodierten Information hinzugefügt werden. Der Skalenfaktorwert kann auch als ein Koeffizient zur zweiten kodierten Information hinzugefügt werden, oder der quantisierte Wert kann als ein Koeffizient zur zweiten kodierten Information hinzugefügt werden. Auch ist das Verfahren der Amplitudenanpassung nicht auf das obige beschränkt, und jedes andere Verfahren kann verwendet werden.
In der vorliegenden Ausführungsform werden die Vorzeicheninformation und die Suchrichtungsinformation sowie die Nummer N des Skalenfaktorbandes als Teilinformation (Kopierinformation) für das höhere Frequenzband herausgezogen. Die Vorzeicheninformation und die Suchrichtungsinformation können aber je nach der Menge an übertragbarer Information für das höhere Frequenzband weggelassen werden. Ferner wird die Vorzeicheninformation als „1" dargestellt, wenn das Vorzeichen des Peaks im tieferen Frequenzband „+" ist, und sie wird als „0" dargestellt, wenn das Vorzeichen „-" ist. Die Suchrichtungsinformation wird als „1" dargestellt, wenn die Suche vom Peak aus in der Richtung zu tieferen Frequenzen erfolgt, und sie wird als „0" dargestellt, wenn die Suche vom Peak aus in der Richtung zu höheren Frequenzen erfolgt. Das Vorzeichen des Peaks im tieferen Frequenzband in der Vorzeicheninformation und die Suchrichtung in der Suchrichtungsinformation sind aber darauf nicht beschränkt, und sie können als andere Werte dargestellt werden.
Ferner wird in der vorliegenden Ausführungsform nach dem ersten unter den Skalenfaktorbändern im tieferen Frequenzband gesucht, dessen angegebene Peakposition relativ zum ersten Peak am nächsten bei „n" liegt. Die vorliegende Erfindung ist aber nicht darauf beschränkt, und es kann nach dem Peak gesucht werden, dessen Position relativ zum ersten jedes Skalenfaktorbandes im tieferen Frequenzband am nächsten bei „n" liegt.
23 zeigt eine spektrale Wellenform, die das zweite Beispiel zeigt, wie die weitere Teilinformation (Kopierinformation) erzeugt werden kann, die durch die in 2 gezeigte zweite Quantisiereinheit 345 erzeugt wird. 24 ist ein Ablaufdiagramm, das eine Operation in der Verarbeitung zur Berechnung der weiteren Teilinformation (Kopierinformation) zeigt, die durch die in 2 gezeigte zweite Quantisiereinheit 345 ausgeführt wird.
Für jedes Skalenfaktorband im höheren Frequenzband, das eine Wiedergabebandbreite oberhalb von 11,025 bis 22,05 kHz besitzt, gibt die zweite Quantisiereinheit 345 die Nummer N des Skalenfaktorbandes im tieferen Frequenzband an, dessen Differenz (Energiedifferenz) gegenüber allen Spektren im Skalenfaktorband im höheren Frequenzband minimal ist, und zwar gemäss der folgenden Prozedur (S61). In diesem Fall ist die Anzahl von spektralen Daten im tieferen Frequenzband gleich der Anzahl von spektralen Daten im höheren Frequenzband, und die Nummer N des angegebenen Skalenfaktorbandes zeigt die Nummer des ersten dieses Skalenfaktorbandes an.
Für alle Skalenfaktorbänder im tieferen Frequenzband (S62) berechnet die zweite Quantisiereinheit 345 von den ersten Daten des Skalenfaktorbandes im tieferen Frequenzband aus die Differenz zwischen den Spektren im höheren Frequenzband und denen im tieferen Frequenzband, das in der Frequenzbandbreite die gleiche Anzahl von spektralen Daten umfasst wie das Skalenfaktorband im höheren Frequenzband (S63). Wenn zum Beispiel in der in 23 gezeigten Wellenform das erste Skalenfaktorband des höheren Frequenzbandes 48 Stichproben spektraler Daten umfasst, dann berechnet die zweite Quantisiereinheit 345 sequentiell vom ersten Datenwert des Skalenfaktorbandes mit der Nummer N = 1 im tieferen Frequenzband aus die Differenzen der 48 spektralen Daten zwischen dem höheren Frequenzband und dem tieferen Frequenzband.
Wenn die zweite Quantisiereinheit 345 die Differenz der Spektren zwischen dem höheren Frequenzband und dem tieferen Frequenzband berechnet hat (S65), dann hält sie diesen Wert fest und berechnet dann für das nächste Skalenfaktorband vom ersten des nächsten Skalenfaktorbandes im tieferen Frequenzband aus die Differenz der Spektren zwischen dem höheren Frequenzband und dem tieferen Frequenzband, das in der Frequenzbandbreite die gleiche Anzahl von spektralen Daten umfasst wie das Skalenfaktorband im höheren Frequenzband (S64). Wenn zum Beispiel die Differenz der Spektren vom ersten des Skalenfaktorbandes mit der Nummer N = 1 aus in einer Breite von 48 Stichproben spektraler Daten im tieferen Frequenzband berechnet worden ist, dann hält die zweite Quantisiereinheit 345 den Wert der berechneten Differenz fest und berechnet weiter die Differenz der Spektren vom ersten des Skalenfaktorbandes mit der Nummer N = 2 aus in einer Breite von 48 Stichproben spektraler Daten im tieferen Frequenzband. In der gleichen Weise berechnet die zweite Quantisiereinheit 345 die Differenz der Spektren durch sequentielle Summierung der Differenzen von 48 spektralen Daten zwischen dem höheren Frequenzband und dem tieferen Frequenzband für alle Skalenfaktorbänder in den tieferen Frequenzbändern mit den Nummer N = 3, 4, ... 28 (dem letzten Skalenfaktorband im tieferen Frequenzband).
Für alle Skalenfaktorbänder im tieferen Frequenzband berechnet die zweite Quantisiereinheit 345 vom ersten des Skalenfaktorbandes im tieferen Frequenzband aus die Differenzen der Spektren zwischen dem höheren Frequenzband und dem tieferen Frequenzband, das in der Breite der gleichen Anzahl von spektralen Daten umfasst wie die im höheren Frequenzband (S64). Dann gibt die zweite Quantisiereinheit 345 die Nummer N des Skalenfaktorbandes an, in dem die berechnete Differenz minimal ist (S65). Zum Beispiel wird in der in 23 gezeigten spektralen Wellenform das Skalenfaktorband mit der Nummer N = 8 im tieferen Frequenzband angegeben. In dieser Figur wird angezeigt, dass die Differenzen zwischen den spektralen Daten im tieferen Frequenzband in schraffierten Teilen und die spektralen Daten im höheren Frequenzband in schraffierten Teilen minimal sind, und die Energiedifferenz zwischen den Spektren ist minimal. In anderen Worten, wenn 48 Stichproben von spektralen Daten vom ersten des Skalenfaktorbandes mit der Nummer N = 8 aus in das erste Skalenfaktorband im höheren Frequenzband oberhalb von 11,025 kHz kopiert werden, werden sie zu einer Wellenform im höheren Frequenzbereich, die in 23 durch eine Linie aus alternierenden langen und kurzen Strichen angedeutet wird, und daher kann die Energie im entsprechenden Skalenfaktorband im höheren Frequenzband dem ursprünglichen Spektrum genähert dargestellt werden.
Wenn die zweite Quantisiereinheit 345 die Nummer N des Skalenfaktorbandes im tieferen Frequenzband angegeben hat, dessen Differenz gegenüber dem Spektrum des Skalenfaktorbandes im höheren Frequenzband minimal ist, hält es die angegebene Nummer N des Skalenfaktorbandes fest und gibt dann die Nummer N des Skalenfaktorbandes im tieferen Frequenzband an, die dem nächsten Skalenfaktorband im höheren Frequenzband entspricht (S66). Die zweite Quantisiereinheit 345 wiederholt diese Verarbeitung sequentiell, und wenn sie alle Nummern N der Skalenfaktorbänder im tieferen Frequenzband angegeben hat, deren Differenzen gegenüber den Spektren im höheren Frequenband minimal sind, gibt sie die festgehaltenen Nummern N des Skalenfaktorbandes im tieferen Frequenzbereich als Teilinformation (Kopierinformation) für das höhere Frequenzband an die zweite Kodiereinheit 355 aus und beendet die Verarbeitung.
In der vorliegenden Ausführungsform sind das Verfahren für das Kopieren der Spektren im tieferen Frequenzband in der Dekodiervorrichtung 400 und das Verfahren für die Anpassung ihrer Amplituden die gleichen wie im Fall der Teilinformation (Kopierinformation), der unter Bezugnahme auf 21 und 22 beschrieben worden war.
Im Ablaufdiagramm der 24 werden die Energiedifferenzen von spektralen Daten des gleichen Vorzeichens zwischen dem höheren Frequenzband und dem tieferen Frequenzband in der gleichen Richtung der Frequenzachse berechnet. Die Kodiervorrichtung der vorliegenden Erfindung ist aber darauf nicht beschränkt, und sie können mit irgendeiner der folgenden drei Verfahren berechnet werden, wie unter Verwendung der 21 und 22 beschrieben: ➀ wie für die spektralen Daaten im höheren Frequenzband, die das gleiche Vorzeichen haben und sequentiell in der Richtung vom tieferen Frequenzband zum höheren Frequenzband ausgewählt werden, wird die gleiche Anzahl von spektralen Daten im tieferen Frequenzband sequentiell vom ersten des Skalenfaktorbandes im tieferen Frequenzband in der Richtung vom höheren Frequenzband zum tieferen Frequenzband ausgewählt (in der umgekehrten Richtung auf der Frequenzachse), und die Differenzen der Spektren werden berechnet; ➁ die Vorzeichen der Spektren im tieferen Frequenzband werden umgekehrt (mit Minus multipliziert) und in der gleichen Richtung auf der Frequenzachse berechnet; und ➂ die Vorzeichen der Spektren im tieferen Frequenzband werden umgekehrt (mit Minus multipliziert) und in der umgekehrten Richtung auf der Frequenzachse berechnet. Nachdem Berechnungen der Energiedifferenzen mit allen vier Verfahren erfolgt sind, kann die Nummer N des Skalenfaktorbandes im tieferen Frequenzband, das das Spektrum enthält, dessen Energiedifferenz minimal ist, ebenfalls als Teilinformatoin dienen. In diesem Falle wird die Information, die die Beziehung zwischen den Vorzeichen der Spektren des höheren und tieferen Frequenzbandes anzeigt, und die Information, die die Kopierrichtung auf der Frequenzachse anzeigt, für jedes Skalenfaktorband in die Teilinformation eingefügt, um das Spektrum im tieferen Frequenzband, dessen Energiedifferenz minimal ist, genau in das höhere Frequenzband zu kopieren. Die Information, die die Beziehung zwischen den Vorzeichen der Spektren des höheren und tieferen Frequenzbandes anzeigt, wird durch ein Bit dargestellt, zum Beispiel „1" für die Differenz der Spektren mit dem gleichen Vorzeichen und „0" für die Differenz der Spektren mit umgekehrtem Vorzeichen.
Die Information, die die Richtung des Kopierens des Spektrums im tieferen Frequenzband in das höhere Frequenzband auf der Frequenzachse anzeigt, wird ebenfalls durch ein Bit dargestellt, zum Beispiel „1" für die Vorwärts-Kopierrichtung, das heisst, die Vorwärtsrichtung bei der Auswahl der spektralen Daten im höheren und tieferen Frequenzband, und „0" für die umgekehrte Kopierrichtung, das heisst, die umgekehrte Richtung bei der Auswahl der spektralen Daten im höheren und tieferen Frequenzband.
Oben wurde der Fall erklärt, wo das Audiodaten-Verteilsystem gemäss der vorliegenden Ausführungsform auf das Broadcastsystem angewendet wird. Es kann aber auf ein Audiodaten-Verteilsystem angewendet werden, das Audiodaten als einen Bitstrom von einem Server über ein Übertragungsmedium wie das Internet zu einem Endgerät verteilt. Es kann auch auf ein Audiodaten-Verteilsystem angewendet werden, das den von der Kodiervorrichtung 300 ausgegebenen Bitstrom einmal in einem Aufzeichnungsmedium wie einer optischen Platte einschliesslich CD und DVD, einem Halbleiter oder einer Festplatte aufzeichnet und ihn dann über dieses Aufzeichnungsmedium in der Dekodiervorrichtung 400 wiedergibt.
In der vorliegenden Ausführungsform wird die Verarbeitung mit langen Blöcken ausgeführt, aber sie kann auch mit kurzen Blöcken ausgeführt werden. Unter Verwendung von kurzen Blöcken kann die gleiche Verarbeitung ausgeführt werden wie unter Verwendung von langen Blöcken.
In der Kodierverarbeitung können Werkzeuge wie Gain Control (Verstärkungskontrolle), TNS (Temporal Noise Shaping: zeitliche Rauschformung), ein psychoakustisches Modell, M/S Stereo, Intensity Stereo und Prediction (Vorhersage), eine Änderung der Blockgrösse, ein Bitreservoir usw. verwendet werden.
In der vorliegenden Ausführungsform wird die Teilinformation auf der Basis von spektralen Daten im höheren Frequenzband erzeugt, die durch die Datentrennungseinheit 330 abgetrennt worden sind. Die Teilinformation kann aber auch als spektrale Daten im höheren Frequenzband auf der Basis des Wertes erzeugt werden, der durch Entquantisieren des Ausgangssignals der ersten Quantisiereinheit 340 erhalten wird.
In der vorliegenden Ausführungsform werden ein Skalenfaktor für die Ableitung eines quantisierten Wertes von „1" für die spektralen Daten in jedem Skalenfaktorband im höheren Frequenzband, der quantisierte Wert, Positionsinformation eines charakteristischen Spektrums, Vorzeicheninformation, die das positive oder negative Vorzeichen des Spektrums anzeigt, usw. als Teilinformation verwendet. Eine Kombination von zwei oder mehr als zwei von diesen kann aber die Teilinformation darstellen. In diesem Falle ist es besonders wirkungsvoll, wenn eine Kombination aus Skalenfaktor und einem Koeffizienten, der eine Verstärkung, eine Position des absoluten Maximums der spektralen Daten usw. anzeigt, in der Teilinformation kodiert wird. Ferner wird in der vorliegenden Ausführungsform eine Teilinformation für jedes Skalenfaktorband als das zweite kodierte Signal kodiert, aber eine Teilinformation kann für zwei oder mehr als zwei Skalenfaktorbänder kodiert werden, oder zwei oder mehr als zwei Teilinformationen können für ein Skalenfaktorband kodiert werden. Ausserdem kann die Teilinformation in der vorliegenden Ausführungsform für jeden Kanal kodiert werden, oder eine Teilinformation kann für zwei oder mehr als zwei Kanäle kodiert werden.
In der vorliegenden Ausführungsform enthält die Kodiervorrichtung 300 zwei Quantisiereinheiten und zwei Kodiereinheiten. Die vorliegende Erfindung ist aber nicht darauf beschränkt, sondern kann drei oder mehr als drei Quantisiereinheiten bzw. Kodiereinheiten enthalten.
In der vorliegenden Ausführungsform enthält die Dekodiervorrichtung 400 zwei Dekodiereinheiten und zwei Entquantisiereinheiten. Die vorliegende Erfindung ist aber nicht darauf beschränkt, sondern kann drei oder mehr als drei Dekodiereinheiten bzw. Entquantisiereinheiten enthalten.
Die oben erwähnte Verarbeitung kann durch Software wie auch durch Hardware realisiert werden, und die vorliegende Erfindung kann so konfiguriert werden, dass ein Teil der Verarbeitung durch Hardware und die weitere Verarbeitung durch Software realisiert wird.
In der vorliegenden Ausführungsform wird eine Abtastfrequenz von 44,1 kHz verwendet, aber andere Abtastfrequenzen wie 32 kHz oder 48 kHz können verwendet werden. Auch kann die Grenzfrequenz für die Trennung der spektralen Daten durch die Datentrennungseinheit 330 zu irgendeiner anderen Frequenz als 11,025 kHz verändert werden.
Des Weiteren wird in der vorliegenden Ausführungsform die Verarbeitung in Übereinstimmung mit MPEG-2 AAC durchgeführt. Die gleiche Verarbeitung kann aber in einer Kodiervorrichtung, einer Dekodiervorrichtung usw. in Übereinstimmung mit anderen Verfahren (zum Beispiel MP3, AC3 usw.) durchgeführt werden.
Des Weiteren kann die Kodiervorrichtung gemäss vorliegender Erfindung wie folgt strukturiert werden.
Die Kodiervorrichtung gemäss der vorliegenden Erfindung ist eine Kodiervorrichtung, die Audiodaten kodiert, und kann enthalten: eine Teilungseinheit, die so betrieben werden kann, dass aus der erzeugten Audiodatensequenz eine Audiodatensequenz in m2 Stichproben (mehr als eine verlangte Anzahl von Stichproben m1) zusammenhängender Audiodaten aufgeteilt wird; eine Umformungseinheit, die so betrieben werden kann, dass die durch die Teilungseinheit aufgeteilten Audiodaten in spektrale Daten in der Frequenzdomäne umgeformt werden; eine Trennungseinheit, die so betrieben werden kann, dass m2 Stichproben der durch die Umformungseinheit gewonnenen spektralen Daten in m1 Stichproben spektraler Daten im tieferen Frequenzband und (m2 – m1) Stichproben spektraler Daten im höheren Frequenzband getrennt werden; eine Kodiereinheit für das tiefere Frequenzband, die so betrieben werden kann, dass die abgetrennten spektralen Daten im tieferen Frequenzband quantisiert und die quantisierten Daten kodiert werden; eine Einheit zur Erzeugung von Teilinformation, die so betrieben werden kann, dass aus den abgetrennten spektralen Daten im höheren Frequenzband Teilinformation erzeugt wird, die ein Merkmal des Freqenzspektrums im höheren Frequenzband anzeigt; eine Kodiereinheit für das höhere Frequenzband, die so betrieben werden kann, dass die erzeugte Teilinformation kodiert wird; und eine Ausgabeeinheit, die so betrieben werden kann, dass der durch die Kodiereinheit für das tiefere Frequenzband gewonnene Kode und der durch die Kodiereinheit für das höhere Frequenzband gewonnene Kode integriert werden und das integrierte Vorzeichen ausgegeben wird.
In diesem Fall kann die Einheit für die Erzeugung von Teilinformation so strukturiert sein, dass sie für die spektralen Daten, die in eine Mehrzahl von Gruppen aufgetrennt sind, einen Normalisierungsfaktor für die Ableitung eines festen Wertes berechnet, der ein Wert ist, der durch Quantisierung von spektralen Peakdaten in jeder Gruppe im höheren Frequenzband gewonnen wird, und den berechneten Normalisierungsfaktor als Teilinformation erzeugt.
Ferner kann die Einheit für die Erzeugung von Teilinformation so strukturiert sein, dass sie für die spektralen Daten, die in eine Mehrzahl von Gruppen aufgetrennt sind, unter Verwendung des Normalisierungsfaktors, der allen Gruppen gemein ist, die spektralen Peakdaten in jeder Gruppe im höheren Frequenzband quantisiert und den quantisierten Wert als die Teilinformation erzeugt.
Ferner kann die Einheit für die Erzeugung von Teilinformation so strukturiert sein, dass sie für die spektralen Daten, die in eine Mehrzahl von Gruppen aufgetrennt sind, eine Frequenzposition der spektralen Peakdaten in jeder Gruppe im höheren Frequenzband als die Teilinformation erzeugt.
Die spektralen Daten sind auch ein MDCT-Koeffizient, und die Einheit für die Erzeugung von Teilinformation kann so strukturiert sein, dass sie für die spektralen Daten, die in eine Mehrzahl von Gruppen aufgetrennt sind, ein Vorzeichen erzeugt, das die positive bzw. negative Eigenschaft der spektralen Daten an einer im Voraus festgelegten Frequenzposition im höheren Frequenzband als die Teilinformation anzeigt.
Des Weiteren kann die Einheit für die Erzeugung von Teilinformation so strukturiert sein, dass sie für die spektralen Daten, die in eine Mehrzahl von Gruppen aufgetrennt sind, als die Teilinformation ein Spektrum im tieferen Frequenzband angibt, das dem Spektrum in jeder Gruppe im höheren Frequenzband am nächsten ist. In diesem Falle kann die Einheit für die Erzeugung von Teilinformation so strukturiert sein, dass sie ein Spektrum im tieferen Frequenzband angibt, in dem die Differenz zwischen der Entfernung auf der Frequenzachse vom Begrenzer der Gruppe im höheren Frequenzband zum Peak des Spektrums in dieser Gruppe und der Entfernung auf der Frequenzachse vom Begrenzer der Gruppe im tieferen Frequenzband zum Peak des Spektrums in dieser Gruppe minimal ist. Die Einheit für die Erzeugung von Teilinformation kann ferner so strukturiert sein, dass sie ein Spektrum im tieferen Frequenzband angibt, für das der Energiedifferenzwert, der in der gleichen Frequenzbandbreite wie das Spektrum in der Gruppe des höheren Frequenzbandes erhalten wird, minimal ist. Ferner ist die Information, die das Spektrum im tieferen Frequenzband angibt, eine Nummer, die die Gruppe des angegebenen Spektrums im tieferen Frequenzband angibt.
Ferner kann die Einheit für die Erzeugung von Teilinformation so strukturiert sein, dass sie als die Teilinformation einen im Voraus festgelegten Koeffizienten erzeugt, der die Verstärkung der Amplitude des Spektrums im höheren Frequenzband angibt.
Die Ausgabeeinheit kann ferner auch eine Datenstrom-Ausgabeeinheit enthalten, die so betrieben werden kann, dass sie die durch die Kodiereinheit des tieferen Frequenzbandes kodierten Daten in einen kodierten Audiostrom umformt, der in einem im Voraus festgelegten Format definiert ist, die durch die Kodiereinheit des höheren Frequenzbandes kodierten Daten in einem Bereich im kodierten Audiostrom speichert, dessen Verwendung nicht unter dem Kodierprotokoll eingeschränkt ist, und die gespeicherten Daten ausgibt. In diesem Falle kann die Datenstrom-Ausgabeeinheit so strukturiert sein, dass sie Information schreibt, die f1 Hz als eine Abtastfrequenz anzeigt.
Des Weiteren kann die Ausgabeeinheit noch eine zweite Datenstrom-Augabeeinheit enthalten, die so betrieben werden kann, dass sie die durch die Kodiereinheit des tieferen Frequenzbandes kodierten Daten in einen kodierten Audiostrom umformt, der in einem im Voraus festgelegten Format definiert ist, die durch die Kodiereinheit des höheren Frequenzbandes kodierten Daten in einem Datenstrom speichert, der sich vom kodierten Audiostrom unterscheidet, und die gespeicherten Daten ausgibt.
Es sei bemerkt, dass die vorliegende Erfindung natürlich realisiert werden kann als ein Kommunikationssystem, das die Kodiervorrichtung und die Dekodiervorrichtung der oben erwähnten Variante einschliesst, als ein Kodierverfahren oder als ein Kommunikationsverfahren, indem die in der oben erwähnten Kodiervorrichtung und in dem oben erwähnten Kommunikationssystem enthaltenen, charakteristischen Einheiten veranlasst werden, als die Schritte zu funktionieren, als ein Kodierprogramm, um eine CPU zu veranlassen, die charakteristischen Einheiten oder Schritte der oben erwähnten Kodiervorrichtung auszuführen, oder als ein computer-lesbares Aufzeichnungsmedium, auf dem dieses Programm aufgezeichnet ist.
Industrielle Anwendbarkeit
Die Kodiervorrichtung gemäss der vorliegenden Erfindung ist zur Verwendung als ein Verteilsystem für die Verteilung von Inhalten wie Musik in einem Datenstrom oder über ein Aufzeichnungsmedium geeignet.

Claims

Kodiervorrichtung (300), die Audiodaten kodiert und umfasst: eine Teilungseinheit (310), so betreibbar, dass eine Audiodatensequenz in eine festgelegte Anzahl zusammenhängender Audiodaten geteilt wird; eine Umformungseinheit (320), so betreibbar, dass die geteilten Audiodaten in spektrale Daten in einer Frequenzdomäne umgeformt werden; eine Trennungseinheit (330), so betreibbar, dass die durch die Umformungseinheit (320) gewonnenen spektralen Daten in spektrale Daten in einem tieferen Frequenzband von f1 Hz und darunter und spektrale Daten in einem höheren Frequenzband oberhalb f1 Hz getrennt werden; eine Kodiereinheit (340, 350) für das tiefere Frequenzband, so betreibbar, dass die getrennten spektralen Daten im tieferen Frequenzband quantisiert und die quantisierten Daten kodiert werden; eine Einheit (346) zur Erzeugung von Teilinformation, so betreibbar, dass Teilinformation erzeugt wird, die ein Merkmal eines Frequenzspektrums im höheren Frequenzband von den getrennten spektralen Daten im höheren Frequenzband anzeigt; eine Kodiereinheit (355) für das höhere Frequenzband, so betreibbar, dass die erzeugte Teilinformation kodiert wird; und eine Ausgabeeinheit (390), so betreibbar, dass ein durch die Kodiereinheit (340, 350) für das tiefere Frequenzband gewonnener Kode und ein durch die Kodiereinheit (355) für das höhere Frequenzband gewonnener Kode integriert werden und der integrierte Kode ausgegeben wird, worin f1 die Hälfte oder weniger als die Hälfte einer Abtastfrequenz f2 ist, mit der die Audiodatensequenz erzeugt worden ist, dadurch gekennzeichnet, dass die Einheit (346) zur Erzeugung von Teilinformation Information erzeugt, die als Teilinformation für die spektralen Daten, die in eine Mehrzahl von Gruppen aufgetrennt worden sind, ein Spektrum im tieferen Frequenzband bezeichnet, das für das Spektrum in jeder Gruppe im höheren Frequenzband die beste Näherung darstellt.
Kodiervorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass die Einheit (346) zur Erzeugung von Teilinformation ein Spektrum im tieferen Frequenzband bezeichnet, bei dem der Unterschied zwischen 1) der Entfernung in der Frequenzdomäne von einem Begrenzer jeder Gruppe im höheren Frequenzband zu einem Peak des Spektrums in dieser Gruppe und 2) der Entfernung in der Frequenzdomäne von einem Begrenzer jeder Gruppe im tieferen Frequenzband zu einem Peak des Spektrums in dieser Gruppe ein Minimum darstellt.
Kodiervorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass die Einheit zur Erzeugung von Teilinformation ein Spektrum im tieferen Frequenzband bezeichnet, dessen differentieller Energiewert, der bei einer gleichen Frequenzbandbreite gewonnen wurde wie der des Spektrums in der Gruppe im höheren Frequenzband, ein Minimum darstellt.
Kodiervorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass die das Spektrum im tieferen Frequenzband bezeichnende Information eine Zahl ist, die die Gruppe des bezeichneten Spektrums im tieferen Frequenzband bezeichnet.
Dekodiervorrichtung (400), die über ein Aufzeichnungsmedium oder ein Übertragungsmedium eingegebene, kodierte Daten dekodiert und umfasst: eine Auswähleinheit (410), so betreibbar, dass in den kodierten Daten enthaltene kodierte Daten des tieferen Frequenzbandes und kodierte Daten des höheren Frequenzbandes ausgewählt werden; eine Entquantisiereinheit (420, 430) für das tiefere Frequenzband, so betreibbar, dass die durch die Auswähleinheit (410) ausgewählten, kodierten Daten des tieferen Frequenzbandes dekodiert und entquantisiert werden und dadurch spektrale Daten in einem tieferen Frequenzband von f1 Hz und darunter ausgegeben werden; eine Dekodiereinheit (425) für Teilinformation, so betreibbar, dass die durch die Auswähleinheit (410) ausgewählten, kodierten Daten des höheren Frequenzbandes dekodiert werden und dadurch Teilinformation erzeugt wird, die ein Merkmal der spektralen Daten in einem höheren Frequenzband anzeigt; eine Entquantisiereinheit (435) für das höhere Frequenzband, so betreibbar, dass auf der Grundlage der durch die Dekodiereinheit (425) für Teilinformation erzeugten Teilinformation die spektralen Daten im höheren Frequenzband ausgegeben werden; eine Integrationseinheit (440), so betreibbar, dass die durch die Entquantisiereinheit (430) für das tiefere Frequenzband ausgegebenen spektralen Daten im tieferen Frequenzband und die durch die Entquantisiereinheit (435) für das höhere Frequenzband ausgegebenen spektralen Daten im höheren Frequenzband integriert werden; eine Rückumformungseinheit (480), so betreibbar, dass die durch die Integrationseinheit (440) integrierten spektralen Daten zu Audiodaten in einer Zeitdomäne zurück umgeformt werden; und eine Audiodaten-Ausgabeeinheit (490), so betreibbar, das die Audiodaten, die von der Rückumformungseinheit (480) zurück umgeformt worden sind, auf einer Zeitreihen-Basis ausgegeben werden, dadurch gekennzeichnet, dass die Teilinformation Information ist, die für die spektralen Daten, die in eine Mehrzahl von Gruppen aufgetrennt worden sind, ein Spektrum im tieferen Frequenzband bezeichnet, das für das Spektrum in jeder Gruppe im höheren Frequenzband die beste Näherung darstellt, und dass die Entquantisiereinheit (435) für das höhere Frequenzband auf der Grundlage der Teilinformation in jeder dieser Gruppen im höheren Frequenzband ein vorbestimmtes Rauschen erzeugt und die spektralen Daten im höheren Frequenzband erzeugt, indem das erzeugte Rauschen zu diesen spektralen Daten hinzugefügt wird.
Audiodatenverteilsystem für die Verteilung von Audiodaten, das über ein Aufzeichnungsmedium oder ein Übertragungmedium bei einer niedrigen Bitrate Audiodaten verteilt, die zu einem Bitstrom komprimiert und kodiert worden sind, wobei das System die Kodiervorrichtung (300) nach Anspruch 1 und die Dekodiervorrichtung (400) nach Anspruch 5 umfasst.
Kodierverfahren zur Kodierung von Audiodaten, umfassend: einen Teilungsschritt zur Teilung einer Audiodatensequenz in eine festgelegte Anzahl zusammenhängender Audiodaten; einen Umformungsschritt zur Umformung der geteilten Audiodaten in spektrale Daten in einer Frequenzdomäne; einen Trennungsschritt zur Trennung der durch den Umformungsschritt gewonnenen spektralen Daten in spektrale Daten im tieferen Frequenzband von f1 Hz und darunter und spektrale Daten in einem höheren Frequenzband oberhalb f1 Hz; einen Kodierschritt für das tiefere Frequenzband zur Quantisierung der getrennten spektralen Daten im tieferen Frequenzband und zur Kodierung der quantisierten Daten; einen Schritt zur Erzeugung von Teilinformation, durch den Teilinformation erzeugt wird, die ein Merkmal eines Frequenzspektrums im höheren Frequenzband von den getrennten spektralen Daten im höheren Frequenzband anzeigt; einen Kodierschritt für das höhere Frequenzband, durch den die erzeugte Teilinformation kodiert wird; und einen Ausgabeschritt, durch den ein durch den Kodierschritt für das tiefere Frequenzband gewonnener Kode und ein durch den Kodierschritt für das höhere Frequenzband gewonnener Kode integriert werden und der integrierte Kode ausgegeben wird, worin die Frequenz f1 die Hälfte oder weniger als die Hälfte einer Abtastfrequenz f2 ist, mit der die Audiodatensequenz erzeugt worden ist, dadurch gekennzeichnet, dass im Schritt zur Erzeugung von Teilinformation Information erzeugt wird, die als Teilinformation für die spektralen Daten, die in eine Mehrzahl von Gruppen aufgetrennt worden sind, ein Spektrum im tieferen Frequenzband bezeichnet, das für das Spektrum in jeder Gruppe im höheren Frequenzband die beste Näherung darstellt.
Dekodierverfahren zur Dekodierung kodierter Daten, die über ein Aufzeichnungsmedium oder ein Übertragungsmedium eingegeben worden sind, umfassend: einen Auswählschritt zur Auswahl von in den kodierten Daten enthaltenen kodierten Daten des tieferen Frequenzbandes und kodierten Daten des höheren Frequenzbandes; einen Entquantisierschritt für das tiefere Frequenzband, durch den die durch den Auswählschritt ausgewählten, kodierten Daten des tieferen Frequenzbandes dekodiert und entquantisiert werden und dadurch spektrale Daten in einem tieferen Frequenzband von f1 Hz und darunter ausgegeben werden; einen Dekodierschritt für Teilinformation, durch den die durch den Auswählschritt ausgewählten, kodierten Daten des höheren Frequenzbandes dekodiert werden und dadurch Teilinformation erzeugt wird, die ein Merkmal der spektralen Daten in einem höheren Frequenzband anzeigt; einen Entquantisierschritt für das höhere Frequenzband, durch den auf der Grundlage der durch den Dekodierschritt für Teilinformation erzeugten Teilinformation die spektralen Daten im höheren Frequenzband ausgegeben werden; einen Integrationsschritt zur Integration der durch den Entquantisierschritt für das tiefere Frequenzband ausgegebenen spektralen Daten im tieferen Frequenzband und der durch den Entquantisierschritt für das höhere Frequenzband ausgegebenen spektralen Daten im höheren Frequenzband; einen Rückumformungsschritt zur Rückumformung der im Integrationsschritt integrierten spektralen Daten zu Audiodaten in einer Zeitdomäne; und einen Audiodaten-Ausgabeschritt, um Audiodaten, die im Rückumformungsschritt zurück umgeformt worden sind, auf einer Zeitreihen-Basis auszugeben, dadurch gekennzeichnet, dass die Teilinformation Information ist, die für die spektralen Daten, die in eine Mehrzahl von Gruppen aufgetrennt worden sind, ein Spektrum im tieferen Frequenzband bezeichnet, das für das Spektrum in jeder Gruppe im höheren Frequenzband die beste Näherung darstellt, und dass im Entquantisierschritt für das höhere Frequenzband auf der Grundlage der Teilinformation in jeder dieser Gruppen im höheren Frequenzband ein vorbestimmtes Rauschen erzeugt wird und die spektralen Daten im höheren Frequenzband erzeugt werden, indem das erzeugte Rauschen zu diesen spektralen Daten hinzugefügt wird.
Computerprogrammprodukt, das bei Ablauf in einem Computer den Computer in die Lage versetzt, die Schritte des Kodierverfahrens nach Anspruch 7 auszuführen.
Computerprogrammprodukt, das bei Ablauf in einem Computer den Computer in die Lage versetzt, die Schritte des Dekodierverfahrens nach Anspruch 8 auszuführen.
Computer-lesbares Aufzeichnungsmedium, in dem das Computerprogrammprodukt nach Anspruch 9 aufgezeichnet ist.
Computer-lesbares Aufzeichnungsmedium, in dem das Computerprogrammprodukt nach Anspruch 10 aufgezeichnet ist.