-
Gebiet der
Technik
-
Die
vorliegende Erfindung bezieht sich auf eine Technologie zur Komprimierung/Kodierung
und Dekomprimierung/Dekodierung von Audiosignalen, um Klang hoher
Qualität
wiederzugeben.
-
Technischer Hintergrund
-
In
den letzten Jahren sind vielfältige
Verfahren zur Audiosignal-Komprimierung/Kodierung und -Dekomprimierung/Dekodierung
entwickelt worden. Das MPEG-2-Advanced
Audio Coding (hiernach als „MPEG-2
AAC" oder „AAC" bezeichnet) ist
ein solches Verfahren. (Siehe „IS
13818-7 (MPEG-2 Advanced Audio Coding, AAC)", geschrieben von M. Bosi und Mitautoren,
April 1997).
-
1 ist
ein Blockdiagramm, das den funktionellen Aufbau einer Kodiervorrichtung
und einer Dekodiervorrichtung gemäss dem herkömmlichen AAC-Verfahren zeigt.
-
Die
Kodiervorrichtung 1000 ist eine Vorrichtung, die auf der
Grundlage des AAC-Kodierverfahrens
ein eingegebenes Audiosignal komprimiert und kodiert, und enthält einen
A/D-Wandler 1050, eine Audiodaten-Eingabeeinheit 1100,
eine Umformungseinheit 1200, eine Quantisiereinheit 1400,
eine Kodiereinheit 1500 und eine Datenstrom-Ausgabeeinheit 1900.
-
Der
A/D-Wandler 1050 tastet ein Eingangssignal mit einer Abtastfrequenz
von zum Beispiel 22,05 kHz ab und wandelt das analoge Audiosignal
in eine digitale Audiodatensequenz um. Jedes Mal, wenn die Audioeingabeeinheit 1100 1024
Stichproben der Audiodatensequenz des Eingangssignals ausgelesen hat
(diese 1024 Stichproben werden hiernach als ein „Frame" bezeichnet), teilt sie die Audiodatensequenz in
2048 Stichproben von Daten auf, darunter zwei Sätze von Daten mit je einer
Hälfte
(512) der Stichproben für
den vor und nach der Frameüberlappung erhaltenen
Frame.
-
Die
Umformungseinheit 1200 führt an den Daten der 2048 Stichproben
in der Zeitdomäne,
die durch die Audiodaten-Eingabeeinheit 1100 aufgeteilt worden
sind, eine modifizierte diskrete Kosinustransformation (MDCT: modified
discrete cosine transform) zu spektralen Daten in der Frequenzdomäne aus.
Die 1024 Stichproben spektraler Daten, eine Hälfte der durch die Transformation
gewonnenen spektralen Daten, repräsentieren die Wiedergabebandbreite
von 11,025 kHz oder weniger und werden in eine Mehrzahl von Gruppen
aufgeteilt. Jede der Gruppen ist so angesetzt, dass sie eine oder
mehrere Stichproben der spektralen Daten enthält. Jede der Gruppen stimuliert
auch ein kritisches Band des menschlichen Gehörs und wird ein „Skalenfaktorband" genannt.
-
Die
Quantisiereinheit 1400 quantisiert die spektralen Daten
im Skalenfaktorband, die von der Umformungseinheit 1200 erzeugt
worden sind, zu einer vorbestimmten Anzahl von Bits, indem für jedes Skalenfaktorband
ein Normalisierungsfaktor verwendet wird. Dieser Normalisierungsfaktor
wird als „Skalenfaktor" bezeichnet. Ferner
wird das Ergebnis der Quantisierung eines jeden spektralen Datenwertes mit
jedem Skalenfaktor ein „quantisierter
Wert" genannt. Die
Kodiereinheit 1500 kodiert die durch die Quantisiereinheit 1400 quantisierten
Daten, d.h. jeden Skalenfaktor, sowie die unter Verwendung des Skalenfaktors
quantisierten spektralen Daten in Übereinstimmung mit der Huffman-Kodierung.
-
Die
Datenstrom-Ausgabeeinheit 1900 wandelt das von der Kodiereinheit 1500 erzeugte
kodierende Signal in ein AAC-Bitstromformat um und gibt es aus.
Der von der Kodiervorrichtung 1000 ausgegebene Bitstrom
wird über
ein Übertragungs-
oder Aufzeichnungsmedium an die Kodiervorrichtung 2000 übertragen.
-
Die
Kodiervorrichtung 2000 ist eine Vorrichtung, die den durch
die Kodiervorrichtung 1000 kodierten Bitstrom dekodiert,
und enthält
eine Datenstrom-Eingabeeinheit 2100, eine Dekodiereinheit 2200,
eine Entquantisiereinheit 2300, eine Rückumformungseinheit 2800,
eine Audiodaten-Ausgabeeinheit 2900 und einen D/A-Wandler 2950.
-
Die
Datenstrom-Eingabeeinheit 2100 empfängt den durch die Kodiervorrichtung 1000 kodierten Bitstrom über ein Übertragungsmedium
oder über
ein Aufzeichnungsmedium und liest das kodierte Signal aus dem empfangenen
Bitstrom aus. Die Dekodiereinheit 2200 dekodiert dann das
Huffinankodierte Signal, um quantisierte Daten zu erzeugen.
-
Die
Entquantisiereinheit 2300 entquantisiert die durch die
Dekodiereinheit 2200 dekodierten, quantisierten Daten unter
Verwendung eines Skalenfaktors. Die Rückumformungseinheit 2800 führt eine inverse
modifizierte diskrete Kosinustransformation (IMDCT: inverse modified
discrete cosine transform) an den 1024 Stichproben spektraler Daten
in der Frequenzdomäne,
die von der Entquantisiereinheit 2300 erzeugt wurden, zu
Audiodaten von 1024 Stichproben in der Zeitdomäne aus. Die Audiodaten-Ausgabeeinheit 2900 kombiniert
die Audiodaten von 1024 Stichproben in der Zeitdomäne, die
von der Rückumformungseinheit 2800 erzeugt
worden sind, sequentiell und gibt die Audiodatensätze von
1024 Stichproben in der zeitlichen Reihenfolge einzeln nacheinander
aus. Der D/A-Wandler 2950 wandelt die digitalen Audiodaten
bei einer Abtastfrequenz von 22,05 kHz in das analoge Audiosignal
um.
-
In
der oben erwähnten
Kodiervorrichtung 1000 und Dekodiervorrichtung 2000 gemäss herkömmlicher
AAC-Norm können
alle Stichprobendaten zu einem Bit oder weniger komprimiert werden. Ausserdem
kann das Audiosignal in einer verhältnismässig hohen Qualität wiedergegeben
werden, da die spektralen Daten von 1024 Stichproben im unteren
Frequenzband, das eine Wiedergabebandbreite von 11,025 kHz oder
weniger repräsentiert,
nämlich die
Hälfte
der Abtastfrequenz, mit einer höheren
Priorität
für das
Hören kodiert
worden sind.
-
In
der Kodiervorrichtung 1000 und Dekodiervorrichtung 2000 gemäss dem herkömmlichen AAC-Verfahren
(verwandte Technik 1) enthalten die zu kodierenden spektralen Daten
aber keine Daten der Bandbreite oberhalb von 11,025 kHz, da die
Abtastfrequenz 22,05 kHz beträgt.
Daher besteht das Problem, dass die Forderung, höhere Klangqualität einschliesslich
der Bandbreite oberhalb von 11,025 kHz zu hören, nicht erfüllt werden
kann.
-
Um
dieses Problem zu lösen,
wird in Betracht gezogen, die an den A/D-Wandler 1050 der Kodiervorrichtung 1000 und
an den D/A-Wandler 2950 der Dekodiervorrichtung 2000 in 1 angelegte
Abtastfrequenz auf den doppelten Wert von 22,05 kHz, d.h. auf 44,1
kHz zu erhöhen
(verwandte Technik 2).
-
Wenn
die Abtastfrequenz 44,1 kHz beträgt, können die
spektralen Daten von 512 Stichproben im höheren Frequenzband oberhalb
von 11,025 kHz kodiert werden, während
das Komprimierungsverhältnis
beibehalten wird, aber die spektralen Daten im tieferen Frequenzband
mit einer höheren
Priorität
für das
Gehör werden
auf die Hälfte
verringert, nämlich auf
512 Stichproben. In anderen Worten stehen die Abtastfrequenz und
die Anzahl spektraler Daten bei der tieferen Frequenz in einer Abtauschbeziehung, und
beide können
nicht gleichzeitig erhöht
werden. Daher tritt ein anderes Problem auf, indem sich die Klangqualität als Ganzes
verschlechtert.
-
Probleme
dieser Art treten in den Kodiervorrichtungen und den Dekodiervorrichtungen
anderer Verfahren (zum Beispiel MP3, AC3 usw.) auf.
-
Die
vorliegende Erfindung ist dafür
ausgelegt, die oben erwähnten
Probleme zu lösen,
und das Ziel der vorliegenden Erfindung besteht darin, eine Kodiervorrichtung
und eine Dekodiervorrichtung zur Verfügung zu stellen, die eine Wiedergabe
von Klang hoher Qualität
realisieren können,
ohne die Datenmenge nach der Kodierung wesentlich zu erhöhen.
-
Das
Dokument von Alan McCree, „Ein 14-kb/s-Breitband-Sprachkodierer
mit einem paramagnetischen Hochbandmodell", 2000 IEEE International Conference
on Acoustics, Speech, and Signal Processing, Proceedings (Cat. No.
OOCH37100), 5. bis 9. Juni 2000, XP010504932 Istanbul, Türkei, offenbart
einen Sprachkodierer, der ein Splitband- (Teilband-) verfahren verwendet,
wo die bei 16 kHz abgetasteten Eingangssignale in zwei gleiche Frequenzbänder unterteilt
werden, wobei ein Schmalband-CELP-Kodierer hoher Qualität für das untere Band,
d.h. 0 bis 4 kHz, verwendet wird, während ein einfaches parametrisches
Kodierschema für
das obere Band, d.h. 4 bis 8 kHz, verwendet wird, wobei jedes Frequenzband
auf eine 8-kHz-Abtastrate dezimiert wird.
-
Offenbarung der Erfindung
-
Um
das oben genannte Ziel zu erreichen, ist die Kodiervorrichtung gemäss vorliegender
Erfindung eine Kodiervorrichtung, die Audiodaten kodiert, und enthält: eine
Teilungseinheit, die so betrieben werden kann, dass eine Audiodatensequenz
in eine festgelegte Anzahl zusammenhängender Audiodaten aufgeteilt
wird; eine Umformungseinheit, die so betrieben werden kann, dass
die aufgeteilten Audiodaten zu spektralen Daten in einer Frequenzdomäne umgeformt
werden; eine Trennungseinheit, die so betrieben werden kann, dass
die durch die Umformungseinheit gewonnenen spektralen Daten in spektrale
Daten im tieferen Frequenzband von f1 Hz und darunter und in spektrale
Daten in einem höheren Frequenzband
von über
f1 Hz aufgetrennt werden; eine Kodiereinheit für das tiefere Frequenzband,
die so betrieben werden kann, dass die aufgetrennten spektralen
Daten im tieferen Frequenzband quantisiert und die quantisierten
-
Daten
kodiert werden; eine Einheit zur Erzeugung von Teilinformation,
die so betrieben werden kann, dass aus den aufgetrennten spektralen Daten
im höheren
Frequenzband Teilinformation erzeugt wird, die ein Merkmal eines
Frequenzspektrums im höheren
Frequenzband anzeigt; eine Kodiereinheit für das höhere Frequenzband, die so betrieben
werden kann, dass die erzeugte Teilinformation kodiert wird; und
eine Ausgabeeinheit, die so betrieben werden kann, dass ein durch
die Kodiereinheit für
das tiefere Frequenzband gewonnener Kode und ein durch die Kodiereinheit
für das
höhere
Frequenzband gewonnener Kode integriert werden und der integrierte
Kode ausgegeben wird, wobei f1 die Hälfte oder weniger als die Hälfte einer
Abtastfrequenz f2 ist, mit der die Audiodatensequenz erzeugt worden
ist.
-
In
der Kodiervorrichtung gemäss
vorliegender Erfindung gibt die Umformungseinheit von den durch
die Teilungseinheit aufgeteilten Audiodaten eine Menge von spektralen
Daten im tieferen Frequenzband von f1 und darunter aus, gleichzeitig
gibt sie die spektralen Daten im höheren Frequenzband oberhalb
von f1 aus. Die durch die Trennungseinheit aufgetrennten spektralen
Daten im tieferen Frequenzband werden quantisiert und kodiert, und
die spektralen Daten im höheren
Frequenzband werden zu Teilinformation kodiert, die die Eigenschaften
des höheren
Frequenzbandes darstellt. Die Kodiereinheit für das höhere Frequenzband kodiert die
erzeugte Teilinformation. Daher kann das Audiosignal im höheren Frequenzband
kodiert werden, um Klang hoher Qualität wiederzugeben, während das
Audiosignal im tieferen Frequenzband in gleicher Weise wie Heruntertastung
(Downsampling) kodiert werden kann, ohne die gesamte Datenmenge
wesentlich zu erhöhen.
-
Hier
ist f1 durch f2/4 gegeben, und die Umformungseinheit kann die Audiodaten
zu spektralen Daten von 0 bis 2 × f1 Hz umformen, während die Trennungseinheit
die spektralen Daten von 0 bis 2 × f1 Hz in die spektralen Daten
im tieferen Frequenzband von f1 Hz und darunter sowie in die spektralen Daten
im höheren
Frequenzband von über
f1 bis 2 × f1
Hz auftrennen kann. Entweder bestehen die spektralen Daten im tieferen
Frequenzband von f1 und darunter aus n Stichproben spektraler Daten,
die Teilungseinheit kann die Audiodatensequenz in eine Anzahl von
Audiodaten teilen, die zur Erzeugung von 2 × n Stichproben spektraler
Daten erforderlich sind, die Umformungseinheit kann die aufgeteilten
Audiodaten in 2 × n
Stichproben spektraler Daten umformen, und die Trennungseinheit
kann die 2 × n
Stichproben der spektralen Daten in n Stichproben der spektralen
Daten im tieferen Frequenzband und n Stichproben der spektralen
Daten im höheren
Frequenzband auftrennen. Oder die Teilungseinheit kann die Audiodatensequenz
in 2 × n
Stichproben spektraler Daten, die aus n Stichproben von Audiodaten
bestehen, die einem Frame als der Kodiereinheit entsprechen, sowie
in zwei Sätze
von n/2 Stichproben von Audiodaten in den beiden Nachbarframes vor
und nach dem Frame aufteilen, und die Umformungseinheit kann an
den aufgeteilten 2 × n
Stichproben der Audiodaten MDCT zu einem Spektrum von 0 bis 2 × f1 Hz
ausführen,
das aus 2 x n Stichproben der spektralen Daten besteht.
-
Weiter
ist die Dekodiervorrichtung gemäss vorliegender
Erfindung eine Dekodiervorrichtung, die über ein Aufzeichnungsmedium
oder ein Übertragungsmedium
eingegebene, kodierte Daten dekodiert, und enthält: eine Auswähleinheit,
die so betrieben werden kann, dass in den kodierten Daten enthaltene
kodierte Daten des tieferen Frequenzbandes und kodierte Daten des
höheren
Frequenzbandes ausgewählt
werden; eine Entquantisiereinheit für das tiefere Frequenzband,
die so betrieben werden kann, dass die durch die Auswähleinheit
ausgewählten,
kodierten Daten des tieferen Frequenzbandes dekodiert und entquantisiert
werden und dabei spektrale Daten in einem tieferen Frequenzband
von f1 und darunter ausgegeben werden; eine Dekodiereinheit für Teilinformation,
die so betrieben werden kann, dass von der Auswähleineit ausgewählte, kodierte Daten
des höheren
Frequenzbandes dekodiert werden und dabei Teilinformation erzeugt
wird, die ein Merkmal der spektralen Daten in einem höheren Frequenzband
anzeigt; eine Entquantisiereinheit für das höhere Frequenzband, die so betrieben
werden kann, dass die spektralen Daten im höheren Frequenzband auf der
Basis der durch die Dekodiereinheit für Teilinformation erzeugten
Teilinformation ausgegeben werden; eine Integrationseinheit, die
so betrieben werden kann, dass die durch die Entquantisiereinheit
für das
tiefere Frequenzband ausgegebenen spektralen Daten im tieferen Frequenzband
und die durch die Entquantisiereinheit für das höhere Frequenzband ausgegebenen
spektralen Daten im höheren
Frequenzband integriert werden; eine Rückumformungseinheit, die so
betrieben werden kann, dass die durch die Integrationseinheit integrierten spektralen
Daten zu Audiodaten in einer Zeitdomäne rückverwandelt werden; eine Audiodaten-Ausgabeeinheit,
die so betrieben werden kann, dass die durch die Rückumformungseinheit
rückverwandelten
Audiodaten auf einer Zeitreihenbasis ausgegeben werden.
-
In
der Dekodiervorrichtung gemäss
vorliegender Erfindung wählt
die Auswähleinheit
von den kodierten Eingangsdaten die kodierten Daten des tieferen
Frequenzbandes und die kodierten Daten des höheren Frequenzbandes aus, und
die Entquantisiereinheit für
das tiefere Frequenzband gibt spektrale Daten im tieferen Frequenzband
von f1 und darunter aus. Die Dekodiereinheit für Teilinformation dekodiert
die Teilinformation, und die Entquantisiereinheit für das höhere Frequenzband
gibt die spektralen Daten im höheren
Frequenzband auf der Grundlage der Teilinformation aus. Daher kann
eine viel grössere Datenmenge
als die herkömmliche
mit einer sehr kleinen Datenmenge dekodiert werden, die fast die gleiche
wie die herkömmliche
ist, und das Audiosignal kann dekodiert werden, um Klang hoher Qualität wiederzugeben.
-
Man
bemerke, dass die vorliegende Erfindung natürlich als ein Kommunikationssystem
realisiert werden kann, das die oben erwähnten Kodier- und Dekodiervorrichtungen
enthält,
als ein Kodierverfahren, als ein Dekodierverfahren sowie als ein Kommunikationsverfahren,
deren Schritte in den charakteristischen Einheiten der oben erwähnten Kodiervorrichtung
und Dekodiervorrichtung und des oben erwähnten Kommunikationssystems
ausgeführt
werden, als ein Kodierprogramm und ein Dekodierprogramm, durch das
eine CPU veranlasst werden kann, als die charakteristischen Einheiten
der oben erwähnten
Kodiervorrichtung und Dekodiervorrichtung und des oben erwähnten Kommunikationssystems
oder der Schritte darin zu funktionieren, oder als ein computer-lesbares
Aufzeichnungsmedium, in dem diese Programme aufgezeichnet sind.
-
Kurze Beschreibung
der Zeichnungen
-
Diese
und weitere Ziele, Vorteile und Merkmale der Erfindung werden aus
der folgenden Beschreibung hervorgehen, wenn in Verbindung mit den
beigefügten
Zeichnungen betrachtet, die eine konkrete Ausführungsform der Erfindung veranschaulichen.
In den Zeichnungen ist:
-
1 ein
Blockdiagramm, das eine Struktur der Kodiervorrichtung und der Dekodiervorrichtung gemäss dem herkömmlichen
AAC-Verfahren zeigt.
-
2 ist
ein Blockdiagramm, das eine funktionelle Struktur des Broadcastsystems
gemäss
vorliegender Ausführungsform
zeigt.
-
3A und 3B sind
Diagramme, die eine Zustandsänderung
eines Audiosignals zeigen, das in der in 2 gezeigten
Kodiervorrichtung verarbeitet wird.
-
4 ist
ein Ablaufdiagramm, das eine Operation in der Verarbeitung zur Skalenfaktorbestimmung
zeigt, die durch die in 2 gezeigte erste Quantisiereinheit
ausgeführt
wird.
-
5 ist
ein Ablaufdiagramm, das eine weitere Operation in der Verarbeitung
zur Skalenfaktorbestimmung zeigt, die durch die in 2 gezeigte erste
Quantisiereinheit verarbeitet wird.
-
6 zeigt
eine spektrale Wellenform, die ein konkretes Beispiel der Teilinformation
(Skalenfaktor) zeigt, die durch die in 2 gezeigte
zweite Quantisiereinheit erzeugt wird.
-
7 ist
ein Ablaufdiagramm, das eine Operation in der Verarbeitung zur Berechnung
von Teilinformation (Skalenfaktor) zeigt, die durch die in 2 gezeigte
zweite Quantisiereinheit ausgeführt
wird.
-
8A bis 8C sind
Diagramme, die Bereiche von Bitströmen zeigen, in denen Teilinformation
durch die in 2 gezeigte Datenstrom-Ausgabeeinheit
gespeichert wird.
-
9A und 9B sind
Diagramme, die weitere Beispiele von Bereichen von Bitströmen zeigen,
in denen Teilinformation durch die in 2 gezeigte
Datenstrom-Ausgabeeinheit
gespeichert wird.
-
10A und 10B zeigen
den Vergleich der Verarbeitung zwischen der in 2 gezeigten Kodiervorrichtung
und der verwandten Technik 1.
-
11A und 11B zeigen
den Vergleich der Verarbeitung zwischen der in 2 gezeigten Kodiervorrichtung
und der verwandten Technik 2.
-
12 zeigt
den Vergleich der spektralen Daten und Eigenschaften zwischen der
in 2 gezeigten Kodiervorrichtung und der verwandten
Technik 1 und 2.
-
13 ist
ein Ablaufdiagramm, das die Prozedur zeigt, mit der die in 2 gezeigte
zweite Entquantisiereinheit 1024 spektrale Daten im tieferen Frequenzband
in der Vorwärtsrichtung
ins höhere Frequenzband
kopiert.
-
14 ist
ein Ablaufdiagramm, das die Prozedur zeigt, mit der die in 2 gezeigte
zweite Entquantisiereinheit 1024 spektrale Daten im tieferen Frequenzband
in der umgekehrten Richtung der Frequenzachse ins höhere Frequenzband
kopiert.
-
15 zeigt
eine spektrale Wellenform, die ein konkretes Beispiel für weitere
Teilinformation (quantisierter Wert) zeigt, die durch die in 2 gezeigte
zweite Quantisiereinheit erzeugt wird.
-
16 ist
ein Ablaufdiagramm, das eine Operation in der Verarbeitung zur Berechnung
weiterer Teilinformation (quantisierter Wert) zeigt, die durch die
in 2 gezeigte zweite Quantisiereinheit ausgeführt wird.
-
17 zeigt
eine spektrale Wellenform, die ein konkretes Beispiel für weitere
Teilinformation (Positionsinformation) zeigt, die durch die in 2 gezeigte
zweite Quantisiereinheit erzeugt wird.
-
18 ist
ein Ablaufdiagramm, das eine Operation in der Verarbeitung zur Berechnung
weiterer Teilinformation (Positionsinformation) zeigt, die durch
die in 2 gezeigte zweite Quantisiereinheit ausgeführt wird.
-
19 zeigt
eine spektrale Wellenform, die ein konkretes Beispiel für weitere
Teilinformation (Vorzeicheninformation) zeigt, die durch die in 2 gezeigte
zweite Quantisiereinheit erzeugt wird.
-
20 ist
ein Ablaufdiagramm, das eine Operation in der Verarbeitung zur Berechnung
weiterer Teilinformation (Vorzeicheninformation) zeigt, die durch
die in 2 gezeigte zweite Quantisiereinheit ausgeführt wird.
-
21A und 21b zeigen
spektrale Wellenformen, die ein Beispiel zeigen, wie die weitere Teilinformation
(Kopierinformation) erzeugt werden kann, die durch die in 2 gezeigte
zweite Quantisiereinheit erzeugt wird.
-
22 ist
ein Ablaufdiagramm, das eine Operation in der Verarbeitung zur Berechnung
weiterer Teilinformation (Kopierinformation) zeigt, die durch die
in 2 gezeigte zweite Quantisiereinheit ausgeführt wird.
-
23 zeigt
eine spektrale Wellenform, die das zweite Beispiel zeigt, wie die
weitere Teilinformation (Kopierinformation) erzeugt werden kann,
die durch die in 2 gezeigte zweite Quantisiereinheit erzeugt
wird.
-
24 ist
ein Ablaufdiagramm, das eine Operation in der Verarbeitung zur Berechnung
der weiteren Teilinformation (Kopierinformation) zeigt, die durch
die in 2 gezeigte zweite Quantisiereinheit ausgeführt wird.
-
Beste Methode, die Erfindung
auszuführen
-
Der
Fall, in dem die Ausführungsform
der vorliegenden Erfindung auf ein Broadcastsystem als System für die Verteilung
von Audiodaten angewendet wird, wird unter Bezugnahme auf die Figuren
erklärt.
-
2 ist
ein Blockdiagramm, das die funktionelle Struktur des Broadcastsystems
gemäss
vorliegender Erfindung zeigt.
-
Das
in 2 gezeigte Broadcastsystem 1 gemäss der vorliegenden
Ausführungsform
ist in einer Broadcaststation untergebracht und enthält eine Kodiervorrichtung 300,
die ein eingegebenes Audiosignal kodiert, sowie eine Dekodiervorrichtung 400, die
das durch die Kodiervorrichtung 300 kodierte Bitstrom-Audiosignal
dekodiert.
-
(Kodiervorrichtung 300)
-
Bei
Empfang eines Audiosignals kodiert die Kodiervorrichtung 300 das
Audiosignal. Sie enthält einen
A/D-Wandler 305, eine Audiodaten-Eingabeeinheit 310,
eine Umformungseinheit 320, eine Datentrennungseinheit 330,
eine erste und eine zweite Quantisiereinheit 340, 345,
eine erste und eine zweite Kodiereinheit 350, 355 sowie
eine Datenstrom-Ausgabeeinheit 390.
-
Der
A/D-Wandler 305 tastet das eingegebene Audiosignal bei
einer Abtastfrequenz von 44,1 kHz ab, einer Frequenz, die doppelt
so hoch wie in der verwandten Technik 1 ist, wandelt das analoge Audiosignal
in die digitalen Audiodaten (von zum Beispiel 16 Bits) um und erzeugt
eine Audiodatensequenz in der Zeitdomäne.
-
Bei
einer Abtastfrequenz (ungefähr
45,4 ms) des Empfangs der durch den A/D-Wandler 305 erzeugten Audiodatensequenz
von 2048 Stichproben (zwei Frames), d.h. einer doppelt so langsamen
Abtastfrequenz wie üblich,
teilt die Audiodaten-Eingabeeinheit 310 die Audiodatensequenz
jeweils in eine Audiodatensequenz von zusammenhängenden 2048 Stichproben und
zwei Sätze
von je 1024 Stichproben auf, die vor und nach den 1024 überlappten
Stichproben gewonnen wurden, d.h. doppelt so viele (4096 Stichproben)
wie die übliche
Anzahl von Stichproben. Die Audiodaten-Eingabeeinheit 310 enthält einen Zähler 311 zur
Erfassung der Teilungszeitfolge für den Empfang von jeweils 2048
Stichproben sowie einen FIFO-Puffer 312 zur vorübergehenden
Speicherung der Audiodatensequenz von 4096 Stichproben.
-
Die
Umformungseinheit 320 formt diese Audio-Stichprobendaten
von 4096 Stichproben zweier Frames in der Zeitdomäne, die
durch die Audiodaten-Eingabeeinheit 310 aufgeteilt worden
sind, zu spektralen Daten in der Frequenzdomäne um. Die Umformungseinheit 320 enthält eine
MDCT 321, die die Audiodaten von 4096 Stichproben in der
Zeitdomäne
zu 4096 Stichproben spektraler Daten in der Frequenzdomäne umwandelt,
sowie eine Gruppiereinheit 322, die die spektralen Daten
für jedes
Skalenfaktorband gruppiert.
-
Genauer
wandelt die MDCT 321 die aus 4096 Stichproben in der Zeitdomäne bestehenden Stichprobendaten
zu spektralen Daten um, die ebenfalls 4096 Stichproben enthalten
(16 Bits). Die Stichproben dieser spektralen Daten sind symmetrisch angeordnet,
daher ist von ihnen nur eine Hälfte
(d.h. 2048 Stichproben) zu kodieren, während die andere Hälfte verworfen
wird.
-
Wenn
die Strukturen des A/D-Wandlers 305, der Audiodaten-Eingabeeinheit 310 und
der Umformungseinheit 320 in der Kodiervorrichtung 300,
wie sie oben beschrieben wurden, mit den entsprechenden Einheiten
in der Kodiervorrichtung 1000 der verwandten Technik 1
verglichen werden, unterscheidet sich die vorliegende Ausführungsform
von der verwandten Technik 1 wesentlich dadurch, dass die Abtastfrequenz
im A/D-Wandler 305 verdoppelt ist (44,1 kHz), die Teilungslänge in der
Audiodaten-Eingangseinheit 310 verdoppelt ist (4096 Stichproben)
und die Kodiereinheit in der MDCT 321 der Umformungseinheit 320 verdoppelt
ist (4096 Stichproben).
-
Wenn
die vorliegende Ausführungsform
mit der verwandten Technik 2 verglichen wird, unterscheidet sich
erstere ebenfalls wesentlich von letzterer dadurch, dass die Teilungslänge in der
Audiodaten-Eingabeeinheit 310 verdoppelt ist (4096 Stichproben)
und die Kodiereinheit in der MDCT 321 der Umformungseinheit 320 verdoppelt
ist (4096 Stichproben), obwohl die Abtastfrequenz im A/D-Wandler 305 die
gleiche ist.
-
Im
Ergebnis gibt die Umformungseinheit 320 die 1024 Stichproben
spektraler Daten, die zum tieferen Frequenzband von 11,025 kHz oder
weniger gehören
(hiernach als „spektrale
Daten im tieferen Frequenzband" bezeichnet),
und die 1024 Stichproben spektraler Daten, die zum höheren Frequenzband oberhalb
von 11,025 kHz gehören
(„spektrale
Daten im höheren
Frequenzband"),
aus, also insgesamt 2048 Stichproben spektraler Daten.
-
Die
Gruppiereinheit 322 der Umformungseinheit 320 gruppiert
die zu kodierenden spektralen Daten von 2048 Stichproben in eine
Mehrzahl von Skalenfaktorbändern,
deren jedes spektrale Daten enthält,
die aus mindestens einer Stichprobe bestehen (oder, praktisch betrachtet,
Stichproben, deren Gesamtzahl ein Vielfaches von vier ist).
-
Gemäss AAC wird
die Anzahl von Stichproben spektraler Daten, die in jedem Skalenfaktorband enthalten
sind, in Übereinstimmung
mit seinen Frequenzen definiert. Ein Skalenfaktorband eines tieferen
Frequenzbandes wird eng durch weniger spektrale Daten begrenzt,
während
ein Skalenfaktorband eines höheren
Frequenzbandes breit durch mehr spektrale Daten begrenzt wird. In
AAC wird die Anzahl von Skalenfaktorbändern, die spektralen Daten von
einem Frame entsprechen, auch in Übereinstimmung mit Abtastfrequenzen
definiert. Wenn die Abtastfrequenz zum Beispiel 44,1 kHz beträgt, enthält jeder
Frame 49 Skalenfaktorbänder,
und die 49 Skalenfaktorbänder
enthalten spektrale Daten von 1024 Stichproben. Andererseits wird
in AAC nicht speziell definiert, welches Skalenfaktorband unter
diesen Skalenfaktorbändern
zu übertragen
ist, und das am meisten erwünschte
Skalenfaktorband, das in Übereinstimmung
mit der Übertragungsgeschwindigkeit des Übertragungskanals
ausgewählt
wird, kann übertragen
werden. Wenn die Übertragungsgeschwindigkeit
zum Beispiel 96 kbps beträgt,
können nur
die 40 Skalenfaktorbänder
(640 Stichproben) in einem tieferen Frequenzband in einem Frame
selektiv übertragen
werden.
-
In
der vorliegenden Ausführungsform
werden andererseits die spektralen Daten in zwei Frames (1024 spektrale
Daten im tieferen bzw. im höheren
Frequenzband) von der MDCT 321 bei einer Abtastfrequenz
(ungefähr
45,4 ms) ausgegeben, die doppelt so schnell wie die herkömmliche
ist. Wenn daher die Übertragungsgeschwindigkeit
eines Übertragungskanals
96 kbps beträgt,
verbleibt, selbst wenn von den beiden Frames alle Skalenfaktorbänder im
tieferen Frequenzband (1024 Stichproben) übertragen werden sollen, genügend Übertragungskapazität im Übertragungskanal,
verglichen mit der Übertragung
von zwei Frames (640 × 2
= 1280 Stichproben) gemäss
herkömmlicher
AAC. Daher wird die vorliegende Ausführungsform unter der Annahme
erklärt
werden, dass die Gruppiereinheit 322 die umgeformten spektralen
Daten in Skalenfaktorbänder gruppiert,
deren Begrenzung und Anzahl eindeutig definiert sind.
-
Die
Datentrennungseinheit 330 trennt die 2048 Stichproben spektraler
Daten, die von der Umformungseinheit 320 ausgegeben wurden,
in 1024 spektrale Daten im tieferen Frequenzband und 1024 spektrale
Daten im höheren
Frequenzband auf. Die Datentrennungseinheit 330 gibt die
abgetrennten 1024 spektralen Daten im tieferen Frequenzband an die
erste Quantisiereinheit 340 und die 1024 spektralen Daten
im höheren
Frequenzband an die zweite Quantisiereinheit 345 aus.
-
Die
erste Quantisiereinheit 340 bestimmt einen Skalenfaktor
für jedes
Skalenfaktorband im tieferen Frequenzband für die aus der Datentrennungseinheit 330 übertragenen
spektralen Daten, quantisiert das Spektrum im Skalenfaktorband mit
dem ermittelten Skalenfaktor und gibt den quantisierten Wert, der
ein Quantisierungsergebnis ist, den ermittelten ersten Skalenfaktor
sowie die Differenz zwischen dem ersten und jedem der darauffolgenden Skalenfaktoren
an die erste Kodiereinheit 350 aus. Die erste Quantisiereinheit 340 enthält eine
Skalenfaktor-Berechnungseinheit 341. Die Skalenfaktor-Berechnungseinheit 341 berechnet
einen Normalisierungsfaktor (Skalenfaktor, acht Bits) so, dass die spektralen
Daten in jedem Skalenfaktor innerhalb einer im Voraus festgelegten
Anzahl von Bits liegen, quantisiert jedes Spektrum im Skalenfaktorband
unter Verwendung des berechneten Skalenfaktors und berechnet dann
die Differenz zwischen diesem Skalenfaktor und dem ersten Skalenfaktor.
-
Die
erste Kodiereinheit 350 kodiert die durch die erste Quantisiereinheit 340 quantisierten
Daten, den Skalenfaktor für
jedes Skalenfaktorband usw. in ein im Voraus festgelegtes Datenstromformat
und enthält
eine Huffman-Kodiertabelle 351 zur weiteren Komprimierung
aller quantisierten Daten, jedes Skalenfaktors usw. Konkreter kodiert
die erste Kodiereinheit 350 alle quantisierten Daten, jeden
Skalenfaktor usw. unter Verwendung der Huffman-Kodiertabelle 351 so,
dass diese mit einer niedrigen Bitrate übertragen werden können.
-
Die
zweite Quantisiereinheit 345 berechnet die Teilinformation
auf der Basis der spektralen Daten, die von der Datentrennungseinheit 330 ausgegeben
wurden, in der Bandbreite, die durch die erste Quantisiereinheit 340 nicht
quantisiert worden ist, d.h. im höheren Frequenzband oberhalb
von 11,025 kHz, und gibt sie aus. Die zweite Quantisiereinheit 345 enthält eine
Einheit 346 zur Erzeugung von Teilinformation, um die Teilinformation
zu erzeugen.
-
Teilinformation
ist vereinfachte Information, die auf der Basis der spektralen Daten
im höheren Frequenzband
berechnet wird und mit einer geringen Datenmenge die Eigenschaften
der spektralen Daten im höheren
Frequenzband kurz und bündig
anzeigt. In anderen Worten ist es Information, die aus den Daten,
die durch Umformung der über
eine bestimmte Zeitdauer hinweg empfangenen Audiodaten gewonnen
wurden, die Eigenschaften der spektralen Daten im höheren Frequenzband
anzeigt. Konkreter ist die Teilinformation ein Skalenfaktor für jedes Skalenfaktorband
im höheren
Frequenzband, der den quantisierten Wert von „1" der absolut maximalen spektralen Daten
(der spektralen Daten, deren Absolutwert maximal ist) ableitet,
sowie sein quantisierter Wert.
-
Die
zweite Kodiereinheit 355 kodiert die Teilinformation, die
durch die zweite Quantisiereinheit 345 ausgegeben wurde,
in ein im Voraus festgelegtes Datenstromformat und gibt die kodierte
Information als zweite kodierte Information aus. Die zweite Kodiereinheit 355 enthält eine
Huffman-Kodiertabelle 356 für die Kodierung der Teilinformation.
-
Die
Datenstrom-Ausgabeeinheit 390 fügt dem obigen, von der ersten
Kodiereinheit 350 ausgegebenen ersten kodierten Signal
Headerdaten und weitere notwendige Teilinformation hinzu und formt es
wie üblich
zu einem MPEG-2 AAC-Bitstrom um. Die Datenstrom-Ausgabeeinheit 390 zeichnet
ferner das von der zweiten Kodiereinheit 355 ausgegebene zweite
kodierte Signal in Bereichen des obigen Bitstromes auf, die von
einer herkömmlichen
Dekodiervorrichtung ignoriert werden oder für die keine Operation definiert
ist. Konkreter speichert die Datenstrom-Ausgabeeinheit 390 das
von der zweiten Kodiereinheit 355 ausgegebene kodierte
Signal in Füll-Element,
Datenstromelement usw. des MPEG-2 AAC-kodierten Bitstromes.
-
Was
die Information betrifft, die die Abtastfrequenz des Bitstromes
anzeigt, die in den Headerdaten gespeichert ist, so wird ein Wert
der halben Abtastfrequenz der Audiodaten gespeichert. In anderen Worten
wird die Information von 22,05 kHz, der Hälfte des aktuellen Wertes,
gespeichert, wenn die Abtastfrequenz der Audiodaten 44,1 kHz beträgt. Die
Information, die die tatsächliche
Abtastfrequenz von 44,1 kHz anzeigt, wird in einem Bereich oder
dergleichen gespeichert, wo die obige Teilinformation gespeichert ist.
-
Der
von der Kodiervorrichtung 300 ausgegebene Bitstrom wird über ein Übertragungsmedium unter
Verwendung einer Radiowelle, eines optischen Kabels, eines Blinklichts,
eines Metalldrahts usw. wie dem Internet an die Dekodiervorrichtung 400 übertragen.
-
Wie
oben beschrieben, trennt die Kodiervorrichtung 300, wenn
sie die von der Umformungseinheit 320 in der Frequenzdomäne gewonnenen
spektralen Daten quantisiert und kodiert, diese Daten in die spektralen
Daten (1024 Stichproben) im tieferen Frequenzband und die spektralen
Daten (1024 Stichproben) im höheren
Frequenzband, quantisiert und kodiert die spektralen Daten im tieferen
Frequenzband mit dem herkömmlichen
Verfahren, quantisiert und kodiert die spektralen Daten im höheren Frequenzband
mit einem anderen Verfahren (erzeugt die Teilinformation und kodiert
die Teilinformation), baut den kodierten Bitstrom im höheren Frequenzband
in den im tieferen Frequenzband ein und gibt ihn aus. Die Kodiervorrichtung 300 unterscheidet sich
wesentlich von der herkömmlichen
Kodiervorrichtung 1000, die die spektralen Daten als Ganzes mit
dem gleichen Verfahren quantisiert und kodiert.
-
Im
Ergebnis kann das Audiosignal so kodiert werden, dass Klang hoher
Qualität
wiedergegeben wird, ohne dass die Datengesamtmenge wesentlich erhöht wird.
-
Da
ferner die Information, dass die Abtastfrequenz 22,05 kHz beträgt, im Header
gespeichert ist, ergibt es sich, dass der durch die Kodiervorrichtung 300 der
vorliegenden Ausführungsform
erzeugte Bitstrom auch durch die herkömmliche Dekodiervorrichtung 2000 dekodiert
werden kann.
-
(Dekodiervorrichtung 400)
-
Die
Dekodiervorrichtung 400 der vorliegenden Ausführungsform
ist eine Vorrichtung, die ein Audiosignal in der Zeitdomäne wiedergibt
(Wiedergabefrequenz von 22,05 kHz oder weniger), indem sie die Verarbeitung
des von der Kodiervorrichtung 300 ausgegebenen Bitstromes
in ungefähr
der umgekehrten Weise wie die Verarbeitung durch die Kodiervorrichtung 300 ausführt. Die
Dekodiervorrichtung 400 enthält eine Datenstrom-Eingabeeinheit 410,
eine erste und eine zweite Dekodiereinheit 420, 425,
eine erste und eine zweite Entquantisiereinheit 430, 435,
eine Integrationseinheit 440 für die entquantisierten Daten,
eine Rückumformungseinheit 480,
eine Audiodaten-Ausgabeeinheit 490 und einen D/A-Wandler 495.
-
Bei
Empfang des durch die Kodiervorrichtung 300 kodierten Bitstromes über ein Übertragungsmedium
wählt die
Datenstrom-Eingabeeinheit 410 ein erstes kodiertes Signal,
das in einem Bereich gespeichert ist, der von einer herkömmlichen
Dekodiervorrichtung verwendet wird, sowie ein zweites kodiertes
Signal, das in einem Bereich gespeichert ist, der von der herkömmlichen
Dekodiervorrichtung ignoriert wird oder für den keine Operation definiert
ist, und gibt sie zur ersten Dekodiereinheit 420 bzw. zur zweiten
Dekodiereinheit 425 aus.
-
Die
erste Dekodiereinheit 420 empfängt das von der Datenstrom-Eingabeeinheit 410 ausgegebene
erste kodierte Signal und dekodiert es dann, damit es als quantisierte
Daten wiedergegeben wird, und sie enthält eine Huffman-Dekodiertabelle 421.
-
Die
erste Entquantisiereinheit 430 entquantisiert die durch
die erste Dekodiereinheit 420 dekodierten, quantisierten
Daten und gibt die spektralen Daten aus, und sie enthält eine
Verarbeitungseinheit 431 für die Entquantisierung der
quantisierten Daten auf der Basis einer Formel. Hier beträgt die Anzahl von
Stichproben der durch die erste Entquantisiereinheit 430 ausgegebenen
spektralen Daten 1024, und sie stellen die Wiedergabebandbreite
von 11,025 kHz oder weniger dar.
-
Die
zweite Dekodiereinheit 425 empfängt das von der Datenstrom-Eingabeeinheit 410 ausgegebene
zweite kodierte Signal und dekodiert die Teilinformation, und sie
enthält
eine Huffman-Dekodiertabelle.
-
Die
zweite Entquantisiereinheit 435 erzeugt spektrale Daten
im höheren
Frequenzband, und sie enthält
eine Einheit 436 für
die Erzeugung spektraler Daten. Hier beträgt die Anzahl von Stichproben
der durch die zweite Entquantisiereinheit 435 ausgegebenen
spektralen Daten 1024, und sie stellen die Wiedergabebandbreite
oberhalb von 11,025 kHz dar.
-
Die
Einheit 436 für
die Erzeugung spektraler Daten erzeugt auf der Basis der von der
ersten Entquantisiereinheit 430 ausgegebenen spektralen
Daten Rauschen nach einer Prozedur, die im Voraus festgelegt wurde,
formt das Rauschen auf der Basis der von der zweiten Dekodiereinheit 425 ausgegebenen
Teilinformation und gibt die spektralen Daten im höheren Frequenzband
aus. Dieses Rauschen enthält
weisses Rauschen, rosa Rauschen sowie eine Kopie eines Teiles oder
der Gesamtheit der spektralen Daten im tieferen Frequenzband.
-
Konkreter
kopiert die Einheit 436 für die Erzeugung spektraler
Daten im Voraus die von der ersten Entquantisiereinheit 430 ausgegebenen
spektralen Daten im tieferen Frequenzband ins höhere Frequenzband und rekonstruiert
dann die Spektren im höheren
Frequenzband durch Multiplizieren aller spektralen Daten innerhalb
des Skalenfaktorbandes mit dem Verhältnis zwischen dem absoluten
Maximalwert der in jedes Band im höheren Frequenzband kopierten
spektralen Daten und dem Wert, der durch Entquantisieren des quantisierten
Wertes von „1" erhalten wird, indem
als ein Koeffizient der Skalenfaktorwert verwendet wird, der dem
in der Teilinformation beschriebenen Band entspricht.
-
Die
Einheit 440 für
die Integration der entquantisierten Daten integriert die von der
ersten Entquantisiereinheit 430 ausgegebenen spektralen
Daten und die von der zweiten Entquantisiereinheit 435 ausgegebenen
spektralen Daten. Hier beträgt
die Anzahl von Stichproben der durch die Integrationseinheit 440 für entquantisierte
Daten ausgegebenen spektralen Daten 2048, und sie stellen die Wiedergabebandbreite
von 0 bis 22,05 kHz dar.
-
Wie
oben beschrieben, trennt die Dekodiervorrichtung 400 den
durch die Kodiervorrichtung 300 kodierten Bitstrom in das
erste kodierte Signal (im tieferen Frequenzband), das in einem Bereich
gespeichert wird, der von einer herkömmlichen Dekodiervorrichtung
verwendet wird, und das zweite kodierte Signal (im höheren Frequenzband),
das in einem Bereich gespeichert wird, der von einer herkömmlichen Dekodiervorrichtung
ignoriert wird oder für
den keine Operation definiert ist, dekodiert und entquantisiert nur
das erste kodierte Signal (im tieferen Frequenzband) mit dem gleichen
Verfahren wie dem herkömmlichen,
dekodiert und entquantisiert das zweite kodierte Signal (im höheren Frequenzband)
mit einem Verfahren, das sich vom herkömmlichen Verfahren unterscheidet,
integriert die spektralen Daten im höheren und tieferen Frequenzband
und gibt die integrierten Daten aus. In diesem Punkt unterscheidet sich
die Dekodiervorrichtung 400 wesentlich von der Dekodiervorrichtung 2000 der
verwandten Technik 1 und 2, die den Bitstrom über alle Bandbreiten mit dem
gleichen Verfahren dekodiert und entquantisiert.
-
Im
Ergebnis kann eine viel grössere
Menge an Information als die herkömmliche aus einer kleinen Menge
an Information dekodiert werden, die etwa die gleiche wie die herkömmliche
ist, und daher kann das Audiosignal dekodiert werden, um Klang hoher
Qualität
wiederzugeben.
-
Die
Rückumformungseinheit 480 führt an den
spektralen Daten in der Frequenzdomäne, die von der Integrationseinheit 440 für entquantisierte Daten
ausgegeben worden sind, IMDCT zu Audiodaten von 2048 Stichproben
(zwei Frames) in der Zeitdomäne
aus.
-
Die
Audiodaten-Ausgabeeinheit 490 kombiniert Sätze von
Audiodaten von 2048 Stichproben in der Zeitdomäne, die durch die Rückumwandlungseinheit 480 gewonnen
worden waren, miteinander und gibt sie einzeln nacheinander auf
einer Zeitreihenbasis aus.
-
Der
D/A-Wandler 495 wandelt die digitalen Audiodaten bei einer Abtastfrequenz
von 44,1 kHz zum analogen Audiosignal um.
-
Wie
oben erwähnt,
unterscheidet sich die Dekodiervorrichtung 400 von der
Dekodiervorrichtung 2000 der verwandten Technik 1 wesentlich
dadurch, dass die Rückumformungseinheit
in der Rückumformungseinheit 480 verdoppelt
ist (2048 Stichproben), die Framelänge in der Audiodaten-Ausgabeeinheit 490 verdoppelt
ist (2048 Stichproben) und die Abtastfrequenz im D/A-Wandler 495
verdoppelt ist (44,1 kHz).
-
Im
Ergebnis wird ein Audiosignal ausgegeben, das auf der Basis der
spektralen Daten (von 1024 Stichproben) im tieferen Frequenzband
von 11,024 kHz oder darunter sowie der spektralen Daten (von 1024
Stichproben) im höheren
Frequenzband Klang hoher Qualität
in grosser Bandbreite (0 bis 22,05 kHz) wiedergibt.
-
Wie
oben beschrieben, kann in Übereinstimmung
mit der funktionellen Struktur der vorliegenden Ausführungsform
ein Audiosignal für
die Wiedergabe von Klang hoher Qualität dekodiert werden, indem die
Daten im tieferen Frequenzband mit dem herkömmlichen Verfahren und die
Daten im höheren Frequenzband
auf der Basis etwa der gleichen Menge an Information wie im herkömmlichen
Verfahren mit einer extrem kleinen Menge an Information dekodiert
werden
-
Ferner
sind in der Kodiervorrichtung 300 und in der Dekodiervorrichtung 400 der
vorliegenden Ausführungsform
lediglich die Datentrennungseinheit 330, die zweite Quantisiereinheit 345 und
die zweite Kodiereinheit 355 zur herkömmlichen Kodiervorrichtung 1000 hinzugefügt worden,
und lediglich die zweite Dekodiereinheit 425, die zweite
Entquantisiereinheit 435 und die Integrationseinheit 440 für die entquantisierenden
Daten sind zur herkömmlichen Dekodiervorrichtung 2000 hinzugefügt worden.
Daher ergibt es sich, dass die Kodiervorrichtung 300 und
die Dekodiervorrichtung 400 der vorliegenden Ausführungsform
realisiert werden können,
ohne dass die herkömmliche
Kodiervorrichtung 1000 und die herkömmliche Dekodiervorrichtung 2000 wesentlich
verändert
werden.
-
Ferner
ergibt es sich, dass der durch die Kodiervorrichtung 300 der
vorliegenden Ausführungsform
erzeugte Bitstrom auch durch die herkömmliche Dekodiervorrichtung 2000 dekodiert
werden kann.
-
Als
Nächstes
wird die durch jede Einheit der Kodiervorrichtung 300 im
Broadcastsystem 1 ausgeführte Kodierverarbeitung detailliert
erklärt.
-
3A und 3B sind
Diagramme, die eine Zustandsänderung
eines Audiosignals zeigen, das in der Audiodaten-Eingabeeinheit 310 und
der Umformungseinheit 320 der in 2 gezeigten
Kodiervorrichtung 300 verarbeitet wird. Insbesondere zeigt 3A eine
Wellenform der 2048 Stichprobendaten in der Zeitdomäne, die
durch die in 2 gezeigte Audiodaten-Eingabevorrichtung 310 aufgeteilt worden
sind, während 3B eine
Wellenform der spektralen Daten in der Frequenzdomäne zeigt,
die erzeugt worden sind, nachdem die Stichprobendaten in der Zeitdomäne durch
die MDCT 321 der in 2 gezeigten
Umformungseinheit 320 umgeformt worden waren. Es sei bemerkt,
dass die Stichprobendaten und die spektralen Daten in 3A und 3B als
analoge Wellenformen gezeigt werden, obwohl beide in Wirklichkeit
digitale Signale sind. Das gleiche gilt für die folgenden Diagramme,
in denen Wellenformen gezeigt werden.
-
Die
Audiodaten-Eingabeeinheit 310 empfängt bei einer Abtastfrequenz
von 44,1 kHz abgetastete Audiodaten. Von diesem digitalen Audiosignal ausgehend
teilt die Audiodaten-Eingabeeinheit 310 die Audiodaten
in jeweils aufeinanderfolgende 2048 Stichproben, darunter zwei Sätze von
je 1024 Stichproben, die vor und nach den überlappenden 2048 Stichproben
erhalten wurden, und gibt sie an die Umformungseinheit 320 aus.
-
Die
Umformungseinheit 320 führt
MDCT an den Daten von insgesamt 4096 Stichproben aus. Die Wellenform
der gemäss
MDCT erzeugten spektralen Daten ist symmetrisch angeordnet, und
daher wird nur eine Hälfte
der spektralen Daten, 2048 Stichproben entsprechend, ausgegeben,
wie in 3B gezeigt.
-
In 3B zeigt
die senkrechte Achse die Werte von spektralen Frequenzdaten an,
d.h. die Menge (Grösse)
der Frequenzkomponenten der Audiodaten, dargestellt als Spannungswerte
für die 2048
Stichproben in 3A an 2048 Punkten, entsprechend
der Anzahl von Stichproben. Da die in die Kodiervorrichtung 300 eingegebenen
Audiosignale bei einer Abtastfrequenz von 44,1 kHz A/D-gewandelt
werden, beträgt
die Wiedergabebandbreite der spektralen Daten 22,05 kHz. Da des
Weiteren die durch die MDCT 321 erzeugten Spektren negative Werte
annehmen können,
wie in 3B gezeigt, müssen die
positiven und negativen Vorzeichen der durch die MDCT 321 erzeugten
Spektren ebenfalls kodiert werden, wenn die Spektren kodiert werden.
In der folgenden Erklärung
wird die Information, die die positiven und negativen Vorzeichen
der spektralen Daten anzeigt, „Vorzeicheninformation" genannt.
-
Die
von der Umformungseinheit 320 ausgegebenen spektralen Daten
und Vorzeicheninformation werden durch die Datentrennungseinheit 330 in diejenigen
im tieferen Frequenzband von 0 bis 11,025 kHz und diejenigen im
höheren
Frequenzband oberhalb von 11,025 kHz getrennt, die spektralen Daten
und die Vorzeicheninformation im tieferen Frequenzband werden an
die erste Quantisiereinheit 340 ausgegeben, die im höheren Frequenzband
werden an die zweite Quantisiereinheit 345 ausgegeben.
-
4 ist
ein Ablaufdiagramm, das eine Operation in der Verarbeitung zur Skalenfaktorbestimmung
zeigt, die durch die in 2 gezeigte erste Quantisiereinheit 340 ausgeführt wird.
-
Die
erste Quantisiereinheit 340 bestimmt zuerst einen Skalenfaktor,
der allen Skalenfaktorbändern
gemein ist, als einen Anfangswert des Skalenfaktors (S91), quantisiert
alle spektralen Daten im tieferen Frequenzband, die als Audiodaten
eines Frames (1024 Stichproben) übertragen
werden sollen, unter Verwendung des festgelegten Skalenfaktors, berechnet
die Differenzen zwischen den Skalenfaktoren vor und nach der Skalenfaktorberechnung
und Huffman-kodiert die Differenzen, den ersten Skalenfaktor und
die quantisierten Werte der spektralen Daten (S92). Es sei bemerkt,
dass die Quantisierung und Kodierung hier nur für eine Zählung der Bits vorgenommen
werden. Daher werden nur Daten quantisiert und kodiert, und Information
wie ein Header wird nicht hinzugefügt, um die Verarbeitung zu
vereinfachen.
-
Als
Nächstes
urteilt die erste Quantisiereinheit 340, ob die Anzahl
von Bits der Huffman-kodierten Daten eine im Voraus festgelegte
Anzahl von Bits überschreitet
oder nicht (S93), und dekrementiert den Anfangswert des Skalenfaktors,
wenn sie sie überschreitet
(S101). Dann quantisiert und Huffman-kodiert die erste Quantisiereinheit 340 die
gleichen spektralen Daten im tieferen Frequenzband nochmals unter
Verwendung des dekrementierten Skalenfaktorwertes (S92), urteilt,
ob die Anzahl von Bits der Huffmankodierten Daten im tieferen Frequenzband
für einen
Frame die im Voraus festgelegte Anzahl von Bits überschreitet oder nicht (S93),
und wiederholt diese Verarbeitung, bis sie die im Voraus festgelegte
Anzahl von Bits erreicht oder unterschreitet.
-
Wenn
die Anzahl von Bits der kodierten Daten im tieferen Frequenzband
die im Voraus festgelegte Anzahl nicht überschreitet, wiederholt die
erste Quantisiereinheit 340 die folgende Verarbeitung für jedes
Skalenfaktorband und bestimmt den Skalenfaktor jedes Skalenfaktorbandes
(S94). Zuerst entquantisiert sie jeden quantisierten Wert im Skalenfaktorband
(S95), berechnet die Differenzen der Absolutwerte zwischen den entquantisierten
Werten und den entsprechenden ursprünglichen spektralen Datenwerten
und summiert sie (S96). Ferner urteilt sie, ob die Summe der berechneten
Differenzen ein Wert innerhalb annehmbarer Grenzen ist oder nicht
(S97), und wenn sie innerhalb annehmbarer Grenzen liegt, wiederholt
sie die obige Verarbeitung für
das nächste Skalenfaktorband
(S94 bis S98).
-
Wenn
sie aber die annehmbaren Grenzen überschreitet, inkrementiert
die erste Quantisiereinheit 340 den Skalenfaktorwert und
quantisiert die spektralen Daten dieses Skalenfaktorbandes (S100), entquantisiert
den quantisierten Wert (S95) und summiert die Differenzen der Absolutwerte
der entquantisierten Werte und der entsprechenden spektralen Datenwerte
(S96). Des Weiteren urteilt die erste Quantisiereinheit 340,
ob die Summe der Differenzen innerhalb annehmbarer Grenzen liegt
oder nicht (S97), und wenn sie die Grenzen überschreitet, inkrementiert
sie den Skalenfaktor, bis sie einen Wert innerhalb der Grenzen annimmt
(S100), und wiederholt die obige Verarbeitung (S95 bis S97 und S100).
-
Wenn
die erste Quantisiereinheit 340 für alle Skalenfaktorbänder die
Skalenfaktoren bestimmt hat, durch die die Summe der Differenzen
der Absolutwerte zwischen den entquantisierten quantisierten Werten
in den Skalenfaktoren und den entsprechenden ursprünglichen
spektralen Datenwerten innerhalb annehmbarer Grenzen gelang (S98),
quantisiert sie die spektralen Daten im tieferen Frequenzband für einen
Frame nochmals unter Verwendung des gefundenen Skalenfaktors, Huffman-kodiert
die Differenz jedes Skalenfaktors, den ersten Skalenfaktor und den
quantisierten Wert dieser spektralen Daten und urteilt, ob die Anzahl
von Bits der kodierten Daten im tieferen Frequenzband eine im Voraus
festgelegte Anzahl von Bits überschreitet
oder nicht (S99). Wenn die Anzahl von Bits der kodierten Daten im
tieferen Frequenzband die im Voraus festgelegte überschreitet, dekrementiert
die erste Quantisiereinheit 340 den Anfangswert des Skalenfaktors,
bis sie die im Voraus festgelegte Anzahl erreicht oder unterschreitet
(S101), und wiederholt dann die Verarbeitung zur Bestimmung des
Skalenfaktors in jedem Skalenfaktorband (S94 bis S98). Wenn die
Anzahl von Bits der kodierten Daten im tieferen Frequenzband die
im Voraus festgelegte Anzahl nicht überschreitet (S99), bestimmt
sie den Wert jedes Skalenfaktors, der dann der Skalenfaktor jedes
Skalenfaktorbandes ist.
-
Die
erste Quantisiereinheit 340 quantisiert die spektralen
Daten im tieferen Frequenzband unter Verwendung des wie oben bestimmten
Skalenfaktors und gibt den quantisierten Wert, den ersten Skalenfaktor
und die Differenzen zwischen dem festgestellten ersten Skalenfaktor
und den folgenden Skalenfaktoren sowie die von der Datentrennungseinheit 330 empfangene
Vorzeicheninformation an die erste Kodiereinheit 350 aus.
-
Es
sei bemerkt, dass die Frage, ob die Summe der Differenzen der Absolutwerte
zwischen den entquantisierten quantisierten Werten in den Skalenfaktorbändern und
den ursprünglichen
spektralen Datenwerten innerhalb annehmbarer Grenzen liegt oder
nicht, auf der Basis der Daten des psychoakustischen Modells usw.
beurteilt wird.
-
Im
obigen Fall wird auch ein verhältnismässig hoher
Wert als Anfangswert des Skalenfaktors angesetzt, und wenn die Anzahl
von Bits der Huffman-kodierten Daten im tieferen Frequenzband eine im
Voraus festgelegte Anzahl von Bits überschreitet, wird der Anfangswert
des Skalenfaktors dekrementiert, um so den Skalenfaktor zu bestimmen,
aber der Skalenfaktor braucht nicht immer auf diese Weise bestimmt
zu werden. Zum Beispiel kann ein niedrigerer Wert im Voraus als
Anfangswert des Skalenfaktors angesetzt werden, und der Anfangswert
kann allmählich
inkrementiert werden. Der Skalenfaktor jedes Skalenfaktorbandes
kann auch bestimmt werden, indem der Anfangswert des Skalenfaktors
verwendet wird, der angesetzt wurde, gerade ehe die Gesamtzahl von
Bits der kodierten Daten im tieferen Frequenzband erstmals eine
im Voraus festgelegte Anzahl von Bits überschreitet.
-
Des
Weiteren wird in der vorliegenden Ausführungsform der Skalenfaktor
jedes Skalenfaktorbandes so bestimmt, dass die Gesamtzahl von Bits der
kodierten Daten im tieferen Frequenzband für einen Frame die im Voraus
festgelegte Anzahl nicht überschreitet,
aber der Skalenfaktor braucht nicht immer auf diese Weise bestimmt
zu werden. Zum Beispiel kann der Skalenfaktor so bestimmt werden, dass
kein quantisierter Wert im Skalenfaktorband die im Voraus festgelegte
Anzahl von Bits in jedem Skalenfaktorband überschreitet. Die Arbeitsweise
der ersten Quantisiereinheit 340 bei dieser Verarbeitung wird
hiernach unter Bezugnahme auf 5 erklärt. 5 ist
ein Ablaufdiagramm, das eine Operation in einer weiteren Verarbeitung
zur Skalenfaktorbestimmung durch die in 2 gezeigte
erste Quantisiereinheit 340 zeigt.
-
Die
erste Quantisiereinheit 340 berechnet die zu kodierenden
Skalenfaktoren für
alle Skalenfaktorbänder
im tieferen Frequenzband mit der folgenden Prozedur (S1). Ferner
berechnet die erste Quantisiereinheit 340 die Skalenfaktoren
für alle spektralen
Daten in jedem Skalenfaktorband mit der folgenden Prozedur (S2).
-
Zuerst
quantisiert die erste Quantisiereinheit 340 die spektralen
Daten mit einem im Voraus festgelegten Skalenfaktorwert auf der
Basis einer Formel (S3) und urteilt, ob der quantisierte Wert eine
im Voraus festgelegte Anzahl von Bits überschreitet, die für die Angabe
des quantisierten Wertes vorgegeben wird, zum Beispiel vier Bits
(S4).
-
Wenn
im Ergebnis der Beurteilung der quantisierte Wert vier Bits überschreitet,
passt die erste Quantisiereinheit 340 den Skalenfaktorwert
an (S8) und quantisiert die gleichen spektralen Daten mit dem angepassten
Skalenfaktorwert (S3). Die erste Quantisiereinheit 340 urteilt,
ob der gewonnene quantisierte Wert vier Bits überschreitet oder nicht (S4),
und wiederholt die Anpassung des Skalenfaktors (S8) und die Quantisierung
des angepassten Skalenfaktors (S3), bis der quantisierte Wert der spektralen
Daten vier Bits erreicht oder unterschreitet.
-
Wenn
im Ergebnis der Beurteilung der quantisierte Wert vier Bits oder
weniger beträgt,
quantisiert sie die nächsten
spektralen Daten mit dem vorher bestimmten Skalenfaktorwert (S3).
-
Wenn
die quantisierten Werte aller spektralen Daten in einem Skalenfaktorband
vier Bits oder weniger geworden sind (S5), bestimmt die erste Quantisiereinheit 340 dann
diesen Skalenfaktor als Skalenfaktor für das Skalenfaktorband (S6).
-
Nach
Bestimmung der Skalenfaktoren aller Skalenfaktorbänder (S7)
beendet die erste Quantisiereinheit 340 die Verarbeitung.
-
Gemäss der obigen
Verarbeitung werden die betreffenden Skalenfaktoren für alle zu
kodierenden Skalenfaktorbänder
im tieferen Frequenzband bestimmt. Die erste Quantisiereinheit 340 quantisiert die
spektralen Daten im tieferen Frequenzband unter Verwendung des wie
oben bestimmten Skalenfaktors und gibt den quantisierten Wert von
vier Bits, der das quantisierte Ergebnis ist, den ersten Skalenfaktor von
acht Bits und die Differenzen zwischen dem ersten Skalenfaktor und
den folgenden Skalenfaktoren sowie die von der Datentrennungseinheit 330 empfangene
Vorzeicheninformation an die erste Kodiereinheit 132 aus.
-
Dann
wird der quantisierte Wert, der Skalenfaktor und weitere, von der
ersten Kodiereinheit 350 ausgegebene Daten Huffman-kodiert
und wie im Falle des Downsamplings als das erste kodierte Signal an
die Datenstrom-Ausgabeeinheit 390 ausgegeben.
-
Andererseits
erzeugt die zweite Quantisiereinheit 345 die Teilinformation
auf der Basis der spektralen Daten im höheren Frequenzband usw.
-
6 zeigt
eine spektrale Wellenform, die ein konkretes Beispiel für die Teilinformation
(Skalenfaktor) zeigt, die durch die in 2 gezeigte
zweite Quantisiereinheit 345 erzeugt wird. 7 ist
ein Ablaufdiagramm, das eine Operation in der Verarbeitung zur Berechnung
der Teilinformation (Skalenfaktor) zeigt, die durch die in 2 gezeigte
zweite Quantisiereinheit 345 ausgeführt wird.
-
In 6 zeigen
auf der Frequenzachse im tieferen Frequenzband angedeutete Begrenzer
diejenigen Skalenfaktorbänder,
die in der vorliegenden Ausführungsform
bestimmt wurden. Ferner zeigen auf der Frequenzachse im höheren Frequenzband durch
eine gestrichelte Linie angedeutete Begrenzer diejenigen Skalenfaktorbänder im
höheren
Frequenzband, die in der vorliegenden Ausführungsform bestimmt wurden.
Das gleiche gilt für
nachfolgende Wellenformen.
-
Unter
den von der Umformungseinheit 320 ausgegebenen spektralen
Daten wird die Wiedergabebandbreite im tieferen Frequenzband von
11,025 kHz oder darunter, die in 6 mit einer
Wellenform als durchgezogene Linie angedeutet wird, zur ersten Quantisiereinheit 340 ausgegeben
und wie üblich quantisiert.
Andererseits wird die Wiedergabebandbreite im höheren Frequenzband oberhalb
von 11,025 kHz bis 22.05 kHz, die in 6 mit einer
Wellenform als gestrichelte Linie angedeutet wird, durch Teilinformation
(Skalenfaktor) dargestellt, die durch die zweite Quantisiereinheit 345 berechnet
wird.
-
Die
Prozedur für
die Berechnung von Teilinformation (Skalenfaktor) durch die zweite
Quantisiereinheit 345 wird hiernach in Übereinstimmung mit dem Ablaufdiagramm
in 7 erklärt,
wobei ein konkretes Beispiel aus 6 verwendet
wird.
-
Die
zweite Quantisiereinheit 345 berechnet den optimalen Skalenfaktor
für die
Ableitung des quantisierten Wertes von „1" für
das absolute Maximum der spektralen Daten in jedem Skalenfaktorband
für jedes
Skalenfaktorband im höheren
Frequenzband, das die Wiedergabebandbreite oberhalb von 11,025 kHz
bis 22,05 kHz besitzt, gemäss
folgender Prozedur (S11).
-
Die
zweite Quantisiereinheit 345 gibt das absolute Maximum
der spektralen Daten (Peak) im ersten Skalenfaktorband im höheren Frequenzband
an, das die Wiedergabebandbreite oberhalb von 11,025 kHz besitzt
(S12). Im Beispiel der 6 bedeutet den im ersten Skalenfaktorband
angegebenen Peak, und der Wert des Peaks beträgt „256".
-
Nach
der gleichen Prozedur wie der im Ablaufdiagramm von 5 gezeigten
berechnet die zweite Quantisiereinheit 345 den Skalenfaktorwert „sf" für die Ableitung
des von einer Quantisierformel erhaltenen quantisierten Wertes von „1 ", indem der Peakwert
von „256" und der Anfangswert
des Skalenfaktors in der Formel zugeordnet werden (S13). In diesem
Fall wird zum Beispiel sf = 24 berechnet („sf" ist der Skalenfaktorwert für die Ableitung
des quantisierten Wertes von „1" für den Peakwert
von „256").
-
Nach
Berechnung des Skalenfaktorwertes von sf = 24 für die Ableitung des quantisierten
Peakwertes von „1" für das erste
Skalenfaktorband (S14) gibt die zweite Quantisiereinheit 345 den
Peak der spektralen Daten des nächsten
Skalenfaktorbandes an (S12), und wenn zum Beispiel die angegebenen Peakposition ➁ ist
und der Wert „312" beträgt, dann berechnet
sie den Skalenfaktorwert für
die Ableitung des quantisierten Wertes von „1" für
den Peakwert von „312", nämlich sf
= 32 (S13).
-
In
gleicher Weise berechnet zum Beispiel die zweite Quantisiereinheit 345 den
Skalenfaktorwert des dritten Skalenfaktorbandes im höheren Frequenzband
für die
Ableitung des quantisierten Wertes von „1" für
den Wert von „288" für den Peak ➂,
sf = 26, sowie den des vierten Skalenfaktorbandes für die Ableitung
des quantisierten Wertes von „1" für den Wert
von „203" für den Peak ➃,
sf = 18.
-
Bei
dieser Berechnung des Skalenfaktors für jedes Skalenfaktorband im
höheren
Frequenzband für
die Ableitung des quantisierten Wertes von „1" für den
Peakwert (S14) gibt die zweite Quantisiereinheit 345 den
Skalenfaktor jedes Skalenfaktorbandes, der durch Berechnung gewonnen
wurde, als Teilinformation für
das höhere
Frequenzband an die zweite Kodiereinheit 355 aus und beendet
die Verarbeitung.
-
Die
Teilinformation (Skalenfaktor) wird wie oben erwähnt durch die zweite Quantisiereinheit 345 erzeugt.
Wenn dieser in 1024 Stichproben von spektralen Daten dargestellte
Teilinformationswert (Skalenfaktor) für jedes Skalenfaktorband (in
diesem Falle vier Bändern)
im höheren
Frequenzband in Zahlenwerten von 0 bis 255 dargestellt wird, kann
er durch acht Bits dargestellt werden. Wenn die Differenzen der
betreffenden Skalenfaktoren Huffman-kodiert werden, ist es auch
wahrscheinlich, dass die Datenmenge weiter verringert werden kann.
Wenn andererseits die 1024 Stichproben von spektralen Daten im höheren Frequenzband
mit dem herkömmlichen
Verfahren quantisiert und Huffman-kodiert werden, wie für das tiefere
Frequenzband geschehen, wird vorausgesagt, dass die Datenmenge wenigstens
300 Bits wird. Daher zeigt diese Teilinformation jeweils nur einen
Skalenfaktor für
jedes Skalenfaktorband im höheren
Frequenzband an, aber es ist offensichtlich, dass die Datenmenge
gegenüber
einer Quantisierung im höheren
Frequenzband mit dem herkömmlichen
Verfahren wesentlich verringert ist.
-
Dieser
Skalenfaktor liefert ferner einen Wert, der dem Peakwert (Absolutwert)
in jedem Skalenfaktorband ungefähr
proportional ist, deshalb kann man sagen, dass die spektralen Daten
von 1024 Stichproben im höheren
Frequenzband durch Annahme eines festgelegten Wertes oder die spektralen
Daten, die erhalten werden, wenn eine Kopie eines Teiles oder aller
spektralen Daten im tieferen Frequenzband mit Skalenfaktoren multipliziert
werden, grob die spektralen Daten rekonstruieren, die auf der Basis
der eingegebenen Audiosignale erhalten werden. Die spektralen Daten
können
des Weiteren genauer rekonstruiert werden, wenn alle spektralen
Daten im Band mit dem Verhältnis
zwischen dem absoluten Maximalwert der in das Band kopierten spektralen Daten
und dem Wert, der durch Entquantisierung des quantisierten Wertes
von „1" unter Verwendung
des diesem Band entsprechenden Skalenfaktors als eines Koeffizienten
für jedes
Skalenfaktorband erhalten wurde, multipliziert werden. Darüber hinaus
kann der Unterschied der Wellenform im höheren Frequenzband visuell
nicht so deutlich identifiziert werden wie im tieferen Frequenzband,
so dass die oben gewonnene Teilinformation als Information bezüglich der
Wellenform im höheren
Frequenzband genügt.
-
In
der vorliegenden Ausführungsform
wird der Skalenfaktor so berechnet, dass der quantisierte Wert der
spektralen Daten in jedem Skalenfaktorband im höheren Frequenzband „1" wird, aber es braucht
nicht immer „1" zu sein, sondern
kann ein anderer Wert sein.
-
Die
durch die zweite Quantisiereinheit 345 erzeugte Teilinformation
wird durch die zweite Kodiereinheit 355 Huffman-kodiert
und durch die Datenstrom-Ausgabeeinheit 390 als das zweite
kodierte Signal in einem Bereich des Bitstromes gespeichert, der
in der herkömmlichen
Dekodiervorrichtung ignoriert wird oder für den keine Operation definiert
ist.
-
8A bis 8C sind
Diagramme, die Bereiche in Bitströmen zeigen, in denen Teilinformation durch
die in 2 gezeigte Datenstrom-Ausgabeeinheit 390 gespeichert
wird. In diesen Figuren ist die die Spektren im höheren Frequenzband
anzeigende Teilinformation kodiert und dann als ein zweites kodiertes
Signal in einem Bereich gespeichert, wo sie nicht als ein kodiertes
Audiosignal im Bitstrom erkannt wird.
-
In 8A ist
ein schraffierter Teil ein Bereich, der Füll-Element genannt wird und
mit „0" gefüllt wird,
um eine gleichförmige
Datenlänge
des Bitstroms zu erhalten. Selbst wenn die Teilinformation, die
das Spektrum im höheren
Frequenzband anzeigt, d.h. das zweite kodierte Signal, in diesem
Bereich gespeichtert ist, wird sie in der herkömmlichen Dekodiervorrichtung 2000 nicht
als ein kodiertes Signal erkannt, das dekodiert werden sollte, und
ignoriert.
-
In 8B ist
ein schraffierter Teil zum Beispiel ein Bereich, der Datenstromelement
(DSE) genannt wird. Dieser Bereich steht in Erwartung einer künftigen
Erweiterung für
MPEG-2 AAC zur Verfügung,
und in MPEG-2 AAC wird nur seine physische Struktur definiert. Wie
beim Füll-Element
wird in der herkömmlichen
Dekodiervorrichtung 2000 die Teilinformation, die die Spektren
im höheren
Frequenzband anzeigt, selbst wenn sie in diesem Bereich gespeichert
ist, ignoriert, oder als Reaktion auf die gelesene Information erfolgen
keine Operationen, da keine Operation definiert wird, die durch
die herkömmliche
Dekodiervorrichtung 2000 ausgeführt werden sollte.
-
In
der obigen Erklärung
wird das zweite kodierte Signal in einem im MPEG-2 AAC-Bitstrom
enthaltenen Bereich gespeichert, der von der herkömmlichen
Dekodiervorrichtung 2000 ignoriert wird. Das zweite kodierte
Signal kann aber in einen im Voraus festgelegten Bereich innerhalb
der Headerdaten oder in einen im Voraus festgelegten Bereich innerhalb des
ersten kodierten Signals oder auch sowohl in den Header als auch
in das erste kodierte Signal integriert werden. Es ist nicht erforderlich,
zsammenhängende Bereiche
im Header oder im ersten kodierten Signal zu reservieren, um das
zweite kodierte Signal im Bitstrom zu speichern. Zum Beispiel kann
das zweite kodierte Signal diskret zwischen die Headerdaten und
die erste kodierte Information integriert werden, wie in 8C gezeigt.
-
9A und 9B sind
Diagramme, die weitere Beispiele von Bereichen von Bitströmen zeigen,
in denen die Teilinformation durch die in 2 gezeigte
Datenstrom-Ausgabeeinheit 390 gespeichert
wird. 9A zeigt einen Strom 1, in dem
nur das erste kodierte Signal zusammenhängend in jedem Frame gespeichert
ist. 9B zeigt einen Strom 2, in dem nur das zweite
kodierte Signal, d.h. die kodierte Teilinformation, dem Strom 1
entsprechend zusammenhängend
in jedem Frame gespeichert ist.
-
Die
Datenstrom-Ausgabeeinheit 390 kann das zweite kodierte
Signal im Strom 2 speichern, der sich gänzlich vom Strom 1 unterscheidet,
in dem das erste kodierte Signal gespeichert ist. Strom 1 und Strom
2 sind Bitströme,
die zum Beispiel über
verschiedene Kanäle übertragen
werden.
-
Da,
wie oben erwähnt,
das tiefere Frequenzband, das die Grunddaten des eingegebenen Audiosignals
anzeigt, übertragen
oder im Voraus gespeichert wird, indem das erste und zweite kodierte
Signal in völlig
verschiedenen Bitströmen übertragen werden,
ergibt es sich, dass die Information für das höhere Frequenzband später hinzugefügt werden kann,
wenn erforderlich.
-
In
dem in den 8A, 8B und
den 9A, 9B gezeigten Format wird die
Information, die 22,05 kHz anzeigt, was die Hälfte der tatsächlichen
Abtastfrequenz ist, in der Information gespeichert, die die Abtastfrequenz
für den
Bitstrom anzeigt, die im Header gespeichert werden soll. Daher kann
selbst die Dekodiervorrichtung 2000 der verwandten Technik
1 den Bitstrom im Frequenzband von 0 bis 11,025 kHz dekodieren und
ihn wie im Falle eines Downsamplings wiedergeben.
-
Die
Unterschiede zwischen dem Verfahren der Kodiervorrichtung 300 gemäss der Ausführungsform
der vorliegenden Erfindung und dem Verfahren der Kodiervorrichtung 1000 der
verwandten Technik 1 werden jetzt unter Bezugnahme auf 10A und 10B erklärt. 10A und 10B zeigen
einen Vergleich zwischen dem Verfahren der vorliegenden Ausführungsform
und dem Verfahren der verwandten Technik 1. Konkret zeigt 10A das Verfahren der vorliegenden Ausführungsform,
während 10B das Verfahren der verwandten Technik 1 zeigt.
-
Gemäss dem Verfahren
der vorliegenden Ausführungsform
wird bei einer Abtastfrequenz von 44,1 kHz eine Audiodatensequenz
alle 22,7 μs
erfasst, und die Daten von insgesamt 4096 Stichproben, d.h. 2048
in einem zu kodierenden Frame enthaltene Stichproben und zwei Sätze von
je 1024 Stichproben vor und nach dem Frame, werden aufgeteilt und
der MDCT unterworfen, dann werden 2048 Stichproben spektraler Daten
erfasst. Die Wiedergabebandbreite dieser spektralen Daten beträgt 22,05 kHz.
Diese 2048 Stichproben spektraler Daten werden in die spektralen
Daten (1024 Stichproben) im tieferen Frequenzband und die spektralen
Daten (1024 Stichproben) im höheren
Frequenzband getrennt, wobei 11,025 kHz als Grenze dient. Die spektralen
Daten (von 1024 Stichproben) im tieferen Frequenzband werden wie üblich quantisiert
und kodiert, und das erste kodierte Signal wird in hoher Qualität und bei
einer niedrigen Bitrate als Downsampling erfasst. Die 1024 Stichproben
spektraler Daten im höheren
Frequenzbereich werden ebenfalls erfasst. Wenn diese Daten wie üblich quantisiert
und kodiert werden, kann eine niedrige Bitrate nicht realisiert werden.
Im Verfahren der vorliegenden Ausführungsform wird dementsprechend
auf der Basis der 1024 Stichproben spektraler Daten im höheren Frequenzband
die Teilinformation erzeugt, und das zweite kodierte Signal wird
erfasst, indem nur die Teilinformation kodiert wird. Daher kann
ein Audiosignal kodiert werden, um Klang hoher Qualität wiederzugenben, ohne
dass die Gesamtmenge an Information wesentlich erhöht wird.
-
Andererseits
wird im Downsampling-Verfahren der verwandten Technik 1 bei einer
Abtastfrequenz von 22,05 kHz eine Audiodatensequenz alle 45 μs erfasst,
die Daten von insgesamt 2048 Stichproben, nämlich 1024 in einem zu kodierenden
Frame enthaltene Stichproben sowie zwei Sätze von je 512 Stichproben
vor und nach dem Frame, werden aufgeteilt und der MDCT unterworfen,
dann werden 1024 Stichproben spektraler Daten erfasst. Die Wiedergabebandbreite
dieser spektralen Daten beträgt 11,025
kHz. Diese 1024 Stichproben spektraler Daten werden wie üblich quantisiert
und kodiert. Daher kann ein kodiertes Signal hoher Qualität in der
Bandbreite von 11,025 kHz oder darunter erfasst werden, aber das
kodierte Signal im höheren
Frequenzband oberhalb von 11,025 kHz kann nicht erfasst werden, da
im höheren
Frequenzband keine spektralen Daten vorhanden sind.
-
Als
Nächstes
werden die Unterschiede zwischen dem Verfahren der Kodiervorrichtung 300 der vorliegenden
Ausführungsform
und dem Verfahren der Kodiervorrichtung der verwandten Technik 2
unter Bezugnahme auf 11A und 11B erklärt.
-
11A und 11B zeigen
einen Vergleich zwischen dem Verfahren der vorliegenden Ausführungsform
und dem Verfahren der verwandten Technik 2. Genauer zeigt 11A das Verfahren der vorliegenden Ausführungsform,
während 11B das Verfahren der verwandten Technik 2 zeigt.
Da das Verfahren der vorliegenden Ausführungsform oben erklärt worden
ist, wird seine Erklärung
weggelassen.
-
Im
Abtastverfahren der verwandten Technik 2 wird bei einer Abtastfrequenz
von 44,1 kHz eine Audiodatensequenz alle 22,7 μs erfasst, die Daten von insgesamt
2048 Stichproben, nämlich
1024 in einem zu kodierenden Frame enthaltene Stichproben sowie
zwei Sätze
von je 512 Stichproben vor und nach dem Frame werden aufgeteilt
und der MDCT unterworfen, dann werden 1024 Stichproben spektraler
Daten erfasst. Die Wiedergabebandbreite dieser spektralen Daten
beträgt
22,05 kHz. Diese 1024 Stichproben spektraler Daten werden wie üblich quantisiert
und kodiert. In anderen Worten werden in jeweils der halben Länge der
Zeit der vorliegenden Ausführungsform
(22,7 ms) 1024 Stichproben von spektralen Daten (512 im tieferen
Frequenzband von 11,025 kHz oder darunter und 512 im höheren Frequenzband
oberhalb von 11,025 kHz) erfasst.
-
Hier
sei angenommen, dass in der Kodiervorrichtung 1000 der
verwandten Technik 2 die Teilinformation aus den spektralen Daten
im höheren
Frequenzband oberhalb von 11,025 kHz erzeugt wird, wie im gleichen
Fall der Ausführungsform
der vorliegenden Erfindung. Wenn in diesem Fall die Anzahl von Bits,
die alle etwa 22,7 ms in der Quantisierung verwendet werden kann, „n" beträgt und die
Anzahl von Bits, die als Teilinformation verwendet werden kann, „ml" beträgt, so müssen 512
Stichproben im tieferen Frequenzband (0 bis 11,025 kHz) mit (n – m1) Bits
quantisiert werden. Wenn andererseits in der vorliegenden Ausführungsform
die Anzahl von Bits, die alle etwa 45,4 ms in der Quantisierung
verwendet werden kann, „ 2 × n" beträgt und die
Anzahl von Bits, die als Teilinformation verwendet werden kann, „m2" beträgt, können 1024
Stichproben im tieferen Frequenzband (0 bis 11,025 kHz) mit (2 × n – m2) Bits quantisiert
werden.
-
Übrigens
ist allgemein bekannt, dass gemäss
AAC ein hoher Kodierwirkungsgrad nur erreicht werden kann, wenn
mindestens eine bestimmte Anzahl von Stichproben erhalten wird.
Die 512 Stichproben in der verwandten Technik 2 erreichen den Schwellenwert
nicht, während
die 1024 Stichproben in der vorliegenden Ausführungsform den Schwellenwert
genügend übersteigen.
-
Dementsprechend
kann ein höherer
Kodierwirkungsgrad erreicht werden, wenn 1024 Stichproben gemäss vorliegender
Ausführungsform
mit (2 × n – m2) Bits
quantisiert werden, als wenn 512 Stichproben gemäss der verwandten Technik 2
mit (n – m1) Bits
quantisiert werden. Ferner kann „m2" grösser sein
(m2 > 2 × m1), da
in der vorliegenden Ausführungsform
ein höherer
Kodierwirkungsgrad erreicht werden kann, wodurch die Klangqualität im höheren Frequenzband
verbessert werden kann.
-
12 zeigt
einen Vergleich zwischen den spektralen Daten und Eigenschaften
im Kodierverfahren der vorliegenden Ausführungsform und denen in der
verwandten Technik 1 und 2.
-
In
der vorliegenden Ausführungsform
beträgt die
Abtastfrequenz 44,1 kHz, die Framelänge 2048 Stichproben. Daher
werden 1024 Stichproben spektraler Daten im tieferen Frequenzband
von 0 bis 11,025 kHz und die Teilinformation auf der Basis von 1024 spektralen Daten im höheren Frequenzband
erfasst. Im Ergebnis ist die Bandbreite ungefähr die gleiche wie die der
verwandten Technik 2, aber sie ist grösser als die der verwandten
Technik 1. Auch ist die Klangqualität im tieferen Frequenzband
von 0 bis 11,025 kHz die gleiche wie in der verwandten Technik 1,
aber im höheren
Frequenzband oberhalb von 11,025 kHz ist sie insgesamt höher als
in der verwandten Technik 1, da es die Teilinformation gibt. Ausserdem
ist die Klangqualität
in der vorliegenden Ausführungsform
im höheren
Frequenzband oberhalb von 11,025 kHz bis 22,05 kHz wegen der Teilinformation
ungefähr
die gleiche wie die der verwandten Technik 2, aber im tieferen Frequenzband
von 0 bis 11,025 kHz ist sie höher,
weil die Anzahl spektraler Daten verdoppelt ist. Daher ist die Klangqualität in der
vorliegenden Ausführungsform insgesamt
höher.
-
Andererseits
beträgt
in der verwandten Technik 1 die Abtastfrequenz 22,05 kHz, die Framelänge 1024
Stichproben. Im tieferen Frequenzband von 0 bis 11,025 kHz werden
1024 Stichproben spektraler Daten erfasst. Im Ergebnis ist die Bandbreite
der verwandten Technik 1 geringer, sie beträgt die Hälfte derjenigen der vorliegenden
Ausführungsform.
Daher ist im tieferen Frequenzband von 0 bis 11,025 kHz die Klangqualität die gleiche
wie die der vorliegenden Ausführungsform,
aber im höheren
Frequenzband oberhalb von 11,025 kHz bis 22,05 kHz ist sie niedriger
als die der vorliegenden Ausführungsform,
da es dort keine spektralen Daten gibt. Daher ist die Klangqualität in der
verwandten Technik 1 insgesamt niedriger.
-
Ferner
beträgt
in der verwandten Technik 2 die Abtastfrequenz 44,1 kHz, die Framelänge 1024 Stichproben. Über das
gesamte Frequenzband von 0 bis 22,05 kHz hinweg werden 1024 Stichproben spektraler
Daten erfasst. Im Ergebnis ist die Bandbreite der verwandten Technik
2 die gleiche wie die der vorliegenden Ausführungsform, aber die Klangqualität im tieferen
Frequenzband von 0 bis 11,025 kHz ist verringert und niedriger als
die der vorliegenden Ausführungsform,
weil die Anzahl der spektralen Daten um die Hälfte kleiner ist, obwohl sie
im höheren
Frequenzband oberhalb von 11,025 kHz bis 22,05 kHz höher als
in der vorliegenden Ausführungsform
ist, da die spektralen Daten kodiert werden. Daher ist die Klangqualität in der
verwandten Technik 2 insgesamt niedriger.
-
Daher
kann gemäss
der vorliegenden Ausführungsform
ein Audiosignal kodiert werden, um eine hohe Klangqualität wiederzugeben,
ohne wie früher
die Datengesamtmenge wesentlich zu erhöhen, indem die Daten im tieferen
Frequenzband wie üblich
kodiert werden und die Daten im höheren Frequenzband mit einer
sehr geringen Menge an Information kodiert werden.
-
Als
Nächstes
wird die Kodierverarbeitung in jeder Einheit der Dekodiervorrichtung 400 im
Broadcastsystem 1 detailliert erklärt werden.
-
Das
erste kodierte Signal, das von der Datenstrom-Eingabeeinheit 410 ausgegeben
wird, wird durch die erste Dekodiereinheit 420 zu quantisierten Daten
usw. dekodiert und durch die erste Entquantisiereinheit 430 zu
spektralen Daten im tieferen Frequenzband kodiert. Andererseits
wird das zweite dekodierte Signal, das von der Datenstrom-Eingabeeinheit 410 ausgegeben
wird, durch die zweite Dekodiereinheit 425 zur Teilinformation
dekodiert. Die zweite Entquantisiereinheit 435 erzeugt
auf der Basis der Teilinformation die spektralen Daten im höheren Frequenzband.
Die Verarbeitung in der zweiten Entquantisiereinheit 435 wird
detailliert erklärt.
-
13 ist
ein Ablaufdiagramm, das eine Prozedur zeigt, mit der die in 2 gezeigte
zweite Entquantisiereinheit 435 ein Spektrum von 1024 Stichproben
im tieferen Frequenzband in Vorwärtsrichtung
ins höhere
Frequenzband kopiert. Die spektralen Daten im tieferen Frequenzband
werden kopiert, wenn die spektralen Daten im höheren Frequenzband erzeugt
werden.
-
In 13 zeigt
inv_spec1[i] einen Wert des i-ten Spektrums unter den Ausgangsdaten
der ersten Entquantisiereinheit 430 an, während inv_spec2[j]
einen Wert des j-ten
Spektrums unter den Eingangsdaten der zweiten Entquantisiereinheit 435 anzeigt.
-
Zuerst
setzt die zweite Entquantisiereinheit 435 den Anfangswert
eines Zählers
i und eines Zähler
j, die die spektralen Daten zählen,
auf „0", um die spektralen
Daten vom 0-ten bis zum 1023-sten Wert in der gleichen Richtung
einzugeben (S71). Als Nächstes überprüft die zweite
Entquantisiereinheit 435, ob der Wert des Zählers i
kleiner als „1024" ist oder nicht (S72).
Wenn der Wert des Zählers
i kleiner als „1024" ist, dann gibt die
zweite Entquantisiereinheit 435 den i-ten (in diesem Falle
den 0-ten) spektralen Datenwert im tieferen Frequenzband der ersten Entquantisiereinheit 430 als
den j-ten (in diesem Falle den 0-ten) spektralen Datenwert im höheren Frequenzband
der zweiten Entquantisiereinheit 435 ein (S73). Dann inkrementiert
die zweite Entquantisiereinheit 435 die Werte der Zähler i und
j um „1" (S74) und prüft, ob der
Wert des Zählers
i weniger als „1024" beträgt oder
nicht.
-
Die
zweite Entquantisiereinheit 435 wiederholt die obige Verarbeitung,
solange der Wert des Zählers
i kleiner als „1024" ist, und beendet
die Verarbeitung, wenn der Wert „1024" erreicht oder überschritten hat.
-
Im
Ergebnis werden alle spektralen Daten vom 0-ten bis zum 1023-sten
Wert im tieferen Frequenzband, die das Ergebnis der Entquantisierung durch
die erste Entquantisiereinheit 430 sind, so wie sie sind,
als spektrale Daten in das höhere
Frequenzband der zweiten Entquantisiereinheit 435 kopiert.
-
Die
Amplitude der spektralen Daten, die gemäss der durch die zweite Dekodiereinheit 425 dekodierten
Teilinformation kopiert wurden, d.h. der Skalenfaktorwert für die Ableitung
des Peakwertes von „1 ", wird angepasst,
und die angepassten spektralen Daten werden als diejenigen im höheren Frequenzband
ausgegeben. Die Amplitude wird angepasst, indem alle spektralen
Daten im Band mit einem Verhältnis
zwischen dem absoluten Maximalwert der in das Band kopierten spektralen
Daten und dem Wert, der durch Entquantisierung des quantisierten
Wertes von „1" unter Verwendung
des diesem Band entsprechenden Skalenfaktorwertes als eines Koeffizienten gewonnen
wurde, für
jedes Skalenfaktorband multipliziert werden. Hier beträgt die maximale
Anzahl von Stichproben der spektralen Daten, die durch die zweite
Entquantisiereinheit 435 ausgegeben werden, 1024, und sie
repräsentieren
die Wiedergabebandbreite von 11,025 kHz.
-
Die
Prozedur, die verwendet wird, um die 1024 spektralen Daten im tieferen
Frequenzband ins höhere
Frequenzband zu kopieren, ist in Vorwärtsrichtung der Frequenzachse
in 13, aber sie können
auch in der umgekehrten Richtung kopiert werden, wie in 14 gezeigt.
-
14 ist
ein Ablaufdiagramm, das eine Prozedur zeigt, mit der die in 2 gezeigte
zweite Entquantisiereinheit 435 ein Spektrum von 1024 im tieferen
Frequenzband in der umgekehrten Richtung der Frequenzachse ins höhere Frequenzband
kopiert. Wie im Falle der 13 zeigt
inv_spec1[i] in 14 den i-ten spektralen Datenwert
unter den Ausgangsdaten der ersten Entquantisiereinheit 430, während inv_spec2[j]
den j-ten spektralen Datenwert unter den Eingangsdaten der zweiten
Entquantisiereinheit 435 anzeigt.
-
Zuerst
setzt die zweite Entquantisiereinheit 435 den Anfangswert eines
Zählers
i auf „0" und den Wert eines
Zählers
j auf „1023", wobei diese Zähler die
spektralen Daten zählen,
um die Spektren vom 0-ten bis zum 1023-sten Wert in der umgekehrten Richtung
einzugeben (S81). Als Nächstes
prüft die zweite
Entquantisiereinheit 435, ob der Wert des Zählers i
kleiner als „1024" ist oder nicht (S82).
Wenn der Wert des Zählers
i kleiner als „1024" ist, dann gibt die
zweite Entquantisiereinheit 435 den i-ten (in diesem Falle
den 0-ten) spektralen Datenwert im tieferen Frequenzband der ersten
Entquantisiereinheit 430 als den j-ten (in diesem Falle
den 1023-sten) spektralen Datenwert im höheren Frequenzband der zweiten
Entquantisiereinheit 435 ein (S83). Dann inkrementiert
die zweite Entquantisiereinheit 435 den Wert des Zählers i
um „1" und dekrementiert
den Wert des Zählers
j um „1" (S84), und prüft, ob der Wert
des Zählers
i kleiner als „1024" ist oder nicht (S82).
-
Die
zweite Entquantisiereinheit 435 wiederholt die obige Verarbeitung,
solange der Wert des Zählers
i kleiner als „1024" ist, und beendet
die Verarbeitung, wenn der Wert „1024" erreicht oder übersteigt.
-
Im
Ergebnis werden alle spektralen Daten vom 0-ten bis zum 1023-sten
Wert im tieferen Frequenzband, die die Ergebnisse der Entquantisierung durch
die erste Entquantisiereinheit 430 sind, in umgekehrter
Richtung als spektrale Daten vom 1023-sten bis zum 0-ten Wert ins
höhere
Frequenzband der zweiten Entquantisiereinheit 435 kopiert.
-
Wie
oben wird die Amplitude der spektralen Daten, die gemäss der durch
die zweite Dekodiereinheit 425 dekodierten Teilinformation
kopiert wurden, d.h. der Skalenfaktorwert für die Ableitung des Peakwertes
von „1", angepasst, und
die angepassten spektralen Daten werden als diejenigen im höheren Frequenzband
ausgegeben. Die Amplitude wird angepasst, indem alle spektralen
Daten im Band mit einem Verhältnis
zwischen dem absoluten Maximalwert der in das Band kopierten spektralen
Daten und dem Wert, der durch Entquantisierung des quantisierten
Wertes von „1" unter Verwendung
des diesem Band entsprechenden Skalenfaktorwertes als eines Koeffizienten
gewonnen wurde, für
jedes Skalenfaktorband multipliziert werden. Hier beträgt die maximale
Anzahl von Stichproben der spektralen Daten, die durch die zweite Entquantisiereinheit 435 ausgegeben
werden, 1024, und sie entsprechen der Wiedergabebandbreite oberhalb
von 11,025 kHz.
-
In
der vorliegenden Ausführungsform
kopiert die zweite Entquantisiereinheit 435 alle spektralen
im tieferen Frequenzband ins höhere
Frequenzband, aber sie kann auch nur einen Teil von ihnen kopieren.
-
Beispiele
für die
Prozeduren, mit denen das höhere
Frequenzband und das tiefere Frequenzband auf einmal kopiert werden,
werden unter Bezugnahme auf 13 und 14 beschrieben.
Ein Teil von ihnen kann aber nach der in 13 gezeigten
Prozedur kopiert werden, ein anderer Teil von ihnen kann mit der
in 14 gezeigten Prozedur kopiert werden.
-
Ferner
können
ein Teil von ihnen oder alle kopiert werden, indem ihre positiven
und negativen Vorzeichen umgekehrt werden.
-
Diese
Kopierprozeduren können
im Voraus festgelegt oder je nach den Daten im tieferen Frequenzband
verändert
werden, sie können
auch als Teilinformation übertragen
werden.
-
In
der vorliegenden Ausführungsform
werden die spektralen Daten im tieferen Frequenzband als diejenigen
im höheren
Frequenzband kopiert, aber die vorliegende Erfindung ist nicht darauf
beschränkt,
und die spektralen Daten im höheren
Frequenzband können
auch von der zweiten kodierten Information allein erzeugt werden.
-
Was
die Erzeugung von Rauschen in der zweiten Entquantisiereinheit 435 in
der vorliegenden Ausführungsform
betrifft, wo wurde der Fall beschrieben, wo hauptsächlich von
der ersten Entquantisiereinheit 430 gewonnene spektrale
Daten kopiert werden. Die vorliegende Erfindung ist aber nicht darauf beschränkt, sondern
spektrale Daten, weisses Rauschen, rosa Rauschen usw., die in jedem
Skalenfaktorband im höheren
Frequenzband einen bestimmten Wert besitzen, können auf ihre eigene Weise
oder in Übereinstimmung
mit der Teilinformation in der zweiten Entquantisiereinheit 435 erzeugt
werden.
-
Die
von der zweiten Entquantisiereinheit 435 ausgegebenen 1024
Stichproben spektraler Daten werden in der Integrationseinheit 440 für entquantisierte
Daten mit den von der ersten Entquantisiereinheit 430 ausgegebenen
1024 spektralen Daten integriert, der IMDCT zu Audiodaten in der
Zeitdomäne unterworfen,
bei einer Abtastfrequenz von 44,1 kHz D/A-umgewandelt, und dann wird das Audiosignal mit
der Wiedergabebandbreite von 0 bis 22,05 kHz wiedergegeben.
-
Wie
oben beschrieben, werden gemäss
vorliegender Erfindung die ersten 1024 Stichproben unter den spektralen
Daten von 2048 Stichproben wie üblich
unter Verwendung von MDCT und IMDCT kodiert, und zwar mit einer
Umformungslänge,
die doppelt so lang wie die herkömmliche
ist, während
die 1024 Stichproben der zweiten Hälfte mit einer kleineren Menge
an Information als der herkömmlichen
kodiert werden, und beide spektralen Daten werden für die Dekodierung
integriert.
-
Da
die Menge an Information, die für
die Kodierung der 1024 Stichproben der zweiten Hälfte der spektralen Daten erforderlich
ist, verringert werden kann, kann die Menge an Information, die
für die
Kodierung der 1024 Stichproben der ersten Hälfte der spektralen Daten erforderlich
ist, erhöht
werden, und daher können
die spektralen Daten über
eine grosse Bandbreite kodiert werden, während die Genauigkeit der Wiedergabe
der ursprünglichen
Signale im tieferen Frequenzband verbessert ist.
-
Der
durch die Kodiervorrichtung der vorliegenden Ausführungsform
erzeugte Bitstrom kann auch mit der herkömmlichen Dekodiervorrichtung
dekodiert werden.
-
Als
Nächstes
werden Varianten der Teilinformation und deren Dekodierung erklärt.
-
15 zeigt
eine spektrale Wellenform, die ein konkretes Beispiel für weitere
Teilinformation (quantisierter Wert) zeigt, die durch die in 2 gezeigte
zweite Quantisiereinheit 345 erzeugt wird. 16 ist
ein Ablaufdiagramm, das eine Operation in der Verarbeitung zur Berechnung
weiterer Teilinformation (quantisierter Wert) zeigt, die durch die
in 2 gezeigte zweite Quantisiereinheit 435 ausgeführt wird.
-
Die
zweite Quantisiereinheit 345 legt im Voraus einen Skalenfaktorwert
von zum Beispiel „18" fest, der allen
Skalenfaktorbändern
im höheren
Frequenzband, die eine Wiedergabebandbreite oberhalb von 11,025
kHz bis 22,05 kHz besitzen, gemein ist, und berechnet unter Verwendung
dieses Skalenfaktors von „18" den quantisierten
Wert des absoluten Maximums der spektralen Daten (Peak) in jedem Skalenfaktorband
(S21).
-
Die
zweite Quantisiereinheit 345 gibt das absolute Maximum
der spektralen Daten (Peak) im ersten Skalenfaktorband im höheren Frequenzband
an, das die Wiedergabebandbreite oberhalb von 11,025 kHz besitzt
(S22). Im Beispiel der 15 bedeutet ➀ den im
ersten Skalenfaktorband angegebenen Peak, und der Wert des Peaks
beträgt
dann „256".
-
Die
zweite Quantisiereinheit 345 berechnet den quantisierten
Wert, indem sie den im Voraus festgelegten gemeinsamen Skalenfaktorwert
von „18" und den Peakwert
von „256" auf eine Formel
für die Berechnung
des quantisierten Wertes anwendet (S23). Wenn zum Beispiel der Peakwert
von „256" mit dem Skalenfaktorwert
von „18" quantisiert wird, dann
wird ein quantisierter Wert von „6" berechnet.
-
Wenn
der quantisierte Wert von „6" des Peakwertes von „256" für das erste
Skalenfaktorband berechnet worden ist (S24), dann gibt die zweite Quantisiereinheit 345 den
Peak der spektralen Daten im nächsten
Skalenfaktorband an (S22). Wenn zum Beispiel die angegebene Peakposition ➁ und
der Peakwert „312" sind, dann berechnet
sie zum Beispiel den quantisierten Wert von „10" für
den Peakwert „312" mit dem Skalenfaktorwert
von „18" (S23).
-
In
gleicher Weise berechnet die zweite Quantisiereinheit 345 den
quantisierten Wert von „9" für den Wert
von „288" des Peaks ➂ mit
dem Skalenfaktorwert von „18" für das dritte
Skalenfaktorband im höheren
Frequenzband, und sie berechnet den quantisierten Wert von „5" für den Wert „203" des Peaks ➃ mit
dem Skalenfaktorwert von „18" für das vierte
Skalenfaktorband.
-
Wenn
die quantisierten Werte der Peakwerte für alle Skalenfaktorbänder im
höheren
Frequenzband mit dem festgelegten Skalenfaktor von „18" berechnet worden
sind (S24), dann gibt die zweite Quantisiereinheit 345 den
quantisierten Wert jedes Skalenfaktorbandes, der durch Berechnung
gewonnen wurde, als Teilinformation für das höhere Frequenzband an die zweite
Kodiereinheit 355 aus und beendet die Verarbeitung.
-
Wie
oben beschrieben, erzeugt die zweite Quantisiereinheit 345 die
Teilinformation (den quantisierten Wert). Diese Teilinformation
repräsentiert
die vier Skalenfaktorbänder
im höheren
Frequenzband, die in 1024 Stichproben von spektralen Daten dargestellt
sind, als quantisierte Werte von je vier Bits, während die oben erwähnte Teilinformation
(Skalenfaktor) die vier Skalenfaktorbänder im höheren Frequenzband als spektrale
Daten von je acht Bits repräsentiert.
Daher ist die Datenmenge im höheren
Frequenzband im Falle des quantisierten Wertes viel stärker verringert.
Dieser quantisierte Wert repräsentiert
auch grob die Amplitude des Peakwertes (Absolutwert) jedes Skalenfaktorbandes,
und man kann sagen, dass die 1024 Stichproben spektraler Daten im höheren Frequenzband
durch Annahme eines festgelegten Wertes oder die spektralen Daten,
die erhalten werden, wenn eine Kopie eines Teiles oder aller spektralen
Daten im tieferen Frequenzband mit dem quantisierten Wert multipliziert
werden, grob die spektralen Daten rekonstruieren, die auf der Basis der
eingegebenen Audiosignale erhalten werden. Die spektralen Daten
können
des Weiteren genauer rekonstruiert werden, wenn alle spektralen
Daten im Band mit dem Verhältnis
zwischen dem absoluten Maximalwert der in das Band kopierten spektralen Daten
und dem Wert, der durch Entquantisierung des diesem Band entsprechenden
quantisierten Wertes als eines Koeffizienten für jedes Skalenfaktorband erhalten
wird, multipliziert werden.
-
In
der vorliegenden Ausführungsform
wird der Skalenfaktorwert, der dem als zweite kodierte Information
zu übertragenden
quantisierten Wert entspricht, im Voraus festgelegt, aber der optimale
Skalenfaktorwert kann berechnet und zur zweiten kodierten Information
hinzugefügt übertragen
werden. Wenn zum Beispiel ein Skalenfaktor gewählt wird, um den Maximalwert
von „7" für den quantisierten Wert
abzuleiten, beträgt
die Anzahl von Bits, die den quantisierten Wert anzeigen, nur drei,
so dass die Menge an Information, die erforderlich ist, um den quantisierten
Wert zu übertragen,
viel stärker
vermindert ist.
-
17 zeigt
eine spektrale Wellenform, die ein konkretes Beispiel für weitere
Teilinformation (Positionsinformation) zeigt, die durch die in 2 gezeigte
zweite Quantisiereinheit 345 erzeugt wird. 18 ist
ein Ablaufdiagramm, das eine Operation in der Verarbeitung zur Berechnung
weiterer Teilinformation (Positionsinformation) zeigt, die durch
die in 2 gezeigte zweite Quantisiereinheit 345 ausgeführt wird.
-
Die
zweite Quantisiereinheit 345 gibt die Position des absoluten
Maximums der spektralen Daten in jedem Skalenfaktorband im höheren Frequenzband,
das die Wiedergabebandbreite oberhalb von 11,025 kHz bis 22,05 kHz
besitzt, gemäss
folgender Prozedur an (S31).
-
Die
zweite Quantisiereinheit 345 gibt das absolute Maximum
der spektralen Daten (Peak) im ersten Skalenfaktorband im höheren Frequenzband, das
die Wiedergabebandbreite oberhalb von 11,025 kHz besitzt, an (S32).
Im Beispiel von 17 deutet ➀ den im
ersten Skalenfaktorband angegebenen Peak und den 22-sten spektralen
Datenwert relativ zum ersten Wert dieses Skalenfaktorbandes an.
Die zweite Quantisiereinheit 345 hält die angegebene Peakposition
als „der
22-ste spektrale Datenwert relativ zum ersten Wert des Skalenfaktorbandes" fest (S33).
-
Wenn
die Peakposition für
das erste Skalenfaktorband angegeben und festgehalten worden ist (S34),
gibt die zweite Quantisiereinheit 345 den Peak der spektralen
Daten im nächsten
Skalenfaktorband an (S32). Zum Beispiel befindet sich der angegebene Peak
bei ➁ und beim 60-sten spektralen Datenwert relativ zum
ersten Wert des Skalenfaktorbandes. Die zweite Quantisiereinheit 345 hält die angegebene Peakposition
als „der
60-ste spektrale Datenwert relativ zum ersten Wert des Skalenfaktorbandes" fest (S33).
-
In
der gleichen Weise gibt die zweite Quantisiereinheit 345 die
Position des Peaks ➂ im dritten Skalenfaktorband im höheren Frequenzband
an und hält
sie als „der
erste spektrale Datenwert des Skalenfaktorbandes" fest; und sie gibt die Position des Peaks ➃ im
vierten Skalenfaktorband an und hält sie als „der 25-ste spektrale Datenwert
relativ zum ersten Wert des Skalenfaktorbandes" fest.
-
Wenn
die Peakpositionen für
alle Skalenfaktorbänder
im höheren
Frequenzband angegeben und festgehalten worden sind (S34), gibt
die zweite Quantisiereinheit 345 die festgehaltenen Peakpositionen
der Skalenfaktorbänder
als Teilinformation für das
höhere
Frequenzband an die zweite Kodiereinheit 355 aus und beendet
die Verarbeitung.
-
Wie
oben beschrieben, erzeugt die zweite Quantisiereinheit 345 die
Teilinformation (Positionsinformation). Diese Teilinformation (Positionsinformation)
repräsentiert
die vier Skalenfaktorbänder
im höheren
Frequenzband, das in 1024 Stichproben spektraler Daten dargestellt
wird, als Positionsinformation von je sechs Bits.
-
In
diesem Falle kopiert die zweite Entquantisiereinheit 435 in
der Dekodiervorrichtung 400 einen Teil der 1024 Stichproben
spektraler Daten im tieferen Frequenzband oder alle diese in Übereinstimmung
mit der von der zweiten Dekodiereinheit 425 eingegebenen
Teilinformation (Positionsinformation) als die 1024 Stichproben
von Stichprobendaten in das höhere
Frequenzband. Die spektralen Daten im tieferen Frequenzband werden
kopiert, indem auf der Basis der Peakinformation der spektralen
Daten in einem oder mehreren Skalenfaktorbändern ähnliche Daten aus den spektralen
Daten herausgezogen werden, die von der ersten Entquantisiereinheit 430 ausgegeben
wurden, und alle oder ein Teil von ihnen kopiert werden. Die zweite
Entquantisiereinheit 435 passt die Amplitude der kopierten
spektralen Daten auch an, sofern erforderlich. Die Amplitude wird
angepasst, indem alle spektralen Daten mit einem im Voraus festgelegten
Koeffizienten von zum Beispiel „0,5" multipliziert werden. Dieser Koeffizient
kann ein fester Wert oder für
jede Bandbreite oder jedes Skalenfaktorband ein anderer Wert sein,
er kann auch je nach den von der ersten Entquantisiereinheit 430 ausgegebenen
spektralen Daten verändert
werden.
-
In
der vorliegenden Ausführungsform
wird ein im Voraus festgelegter Koeffizient verwendet, aber dieser
Koeffizientenwert kann als Teilinformation zur zweiten kodierten
Information hinzugefügt werden.
Entweder kann der Skalenfaktorwert als ein Koeffizient zur zweiten
kodierten Information hinzugefügt
werden, oder der quantisierte Wert des Peaks im Skalenfaktorband
kann als ein Koeffizient zur zweiten kodierten Information hinzugefügt werden. Das
Verfahren der Amplitudenanpassung ist nicht auf das oben erwähnte beschränkt, und
ein anderes Verfahren kann verwendet werden.
-
In
der vorliegenden Ausführungsform
sind nur die Positionsinformation oder nur die Positionsinformation
und die Koeffizienteninformation kodiert worden, aber die vorliegende
Erfindung ist nicht darauf beschränkt. Ein Skalenfaktor, ein
quantisierter Wert, Vorzeicheninformation eines Spektrums, ein Verfahren
zur Rauscherzeugung und andere können kodiert
werden. Auch eine Kombination von zwei oder mehr von diesen kann
kodiert werden.
-
Ausserdem
werden in der vorliegenden Ausführungsform
die spektralen Daten im tieferen Frequenzband als spektrale Daten
der höheren
Frequenzdaten kopiert. Die vorliegende Erfindung ist darauf aber
nicht beschränkt,
und die spektralen Daten im höheren
Frequenzband können
lediglich aus der zweiten kodierten Information erzeugt werden.
-
19 zeigt
eine spektrale Wellenform, die ein konkretes Beispiel für weitere
Teilinformation (Vorzeicheninformation) zeigt, die durch die in 2 gezeigte
zweite Quantisiereinheit 345 erzeugt wird. 20 ist
ein Ablaufdiagramm, das eine Operation in der Verarbeitung zur Berechnung
weiterer Teilinformation (Vorzeicheninformation) zeigt, die durch
die in 2 gezeigte zweite Quantisiereinheit 345 ausgeführt wird.,
-
Die
zweite Quantisiereinheit 345 gibt die Vorzeicheninformation
der spektralen Daten an einer im Voraus bestimmten Position, zum
Beispiel in der Mitte jedes Skalenfaktorbandes im höheren Frequenzband,
das eine Wiedergabebandbreite oberhalb von 11,025 kHz bis 22,05
kHz besitzt, gemäss
der folgenden Prozedur an (S41).
-
Die
zweite Quantisiereinheit 345 prüft die Vorzeicheninformation
der spektralen Daten in der Mitte des ersten Skalenfaktorbandes
im höheren
Frequenzband, das die Wiedergabebandbreite oberhalb von 11,025 kHz
besitzt (S42), und hält
den Wert fest. Zum Beispiel ist das Vorzeichen der spektralen Daten in
der Mitte des ersten Skalenfaktorbandes „+". Die zweite Quantisiereinheit 345 stellt
dieses Vorzeichen „+" als einen Wert „1" von einem Bit dar
und hält
ihn fest. Wenn das Vorzeichen „-" ist, stellt es die
zweite Quantisiereinheit 345 als „0" dar und hält es fest.
-
Wenn
die Vorzeicheninformation der spektralen Daten in der Mitte des
ersten Skalenfaktorbandes festgehalten worden ist (S43), prüft die zweite Quantisiereinheit 345 das
Vorzeichen der spektralen Daten in der Mitte des nächsten Skalenfaktorbandes (S42).
Zum Beispiel ist das Vorzeichen „+", und die zweite Quantisiereinheit 345 hält „1" als die Vorzeicheninformation
der spektralen Daten in der Mitte des zweiten Skalenfaktorbandes
fest.
-
In
gleicher Weise prüft
die zweite Quantisiereinheit 345 das Vorzeichen „+" der spektralen Daten in
der Mitte des dritten Skalenfaktorbandes im höheren Frequenzband und hält die Vorzeicheninformation „1" fest. Die zweite
Quantisiereinheit 345 prüft weiter das Vorzeichen „+" der spektralen Daten
in der Mitte des vierten Skalenfaktorbandes und hält die Vorzeicheninformation „1" fest.
-
Wenn
die Vorzeicheninformation der spektralen Daten an den Positionen
in der Mitte aller Skalenfaktorbänder
im höheren
Frequenzband festgehalten worden ist (S43), gibt die zweite Quantisiereinheit 345 die
festgehaltene Vorzeicheninformation der Skalenfaktorbänder als
Teilinformation für
das höhere
Frequenzband an die zweite Kodiereinheit 355 aus und beendet
die Verarbeitung.
-
Wie
oben beschrieben erzeugt die zweite Quantisiereinheit 345 die
Teilinformation (Vorzeicheninformation). Diese Teilinformation (Vorzeicheninformation)
repräsentiert
die vier Skalenfaktorbänder
im höheren
Frequenzband, das durch 1024 Stichproben spektraler Daten dargestellt
wird, als Vorzeicheninformation von einem Bit, und daher kann das Spektrum
im höheren
Frequenzband mit einer sehr kurzen Datenlänge dargestellt werden.
-
In
diesem Falle kopiert die zweite Entquantisiereinheit 435 in
der Dekodiervorrichtung 400 einen Teil der spektralen Daten
von 1024 Stichproben im tieferen Frequenzband oder alle diese Daten
als das Spektrum im höheren
Frequenzband und bestimmt das Vorzeichen der spektralen Daten an
einer im Voraus festgelegten Position in Übereinstimmung mit der von
der zweiten Dekodiereinheit 425 eingegebenen Vorzeicheninformation.
-
Die
Vorzeicheninformation, die das Vorzeichen an den Positionen in der
Mitte jedes Skalenfaktorbandes im höheren Frequenzband angibt,
wird als Teilinformation (Vorzeicheninformation) verwendet. Die
vorliegende Erfindung ist aber nicht auf die Position in der Mitte
des Skalenfaktorbandes beschränkt, und
jede Peakposition, der erste spektrale Datenwert jedes Skalenfaktorbandes
oder andere im Voraus festgelegte Positionen können verwendet werden.
-
In
der vorliegenden Ausführungsform
wird die Position der spektralen Daten, die dem zu übertragenden
Vorzeichen (der Vorzeicheninformation) entsprechen, im Voraus festgelegt,
aber sie kann je nach dem Ausgangssignal der ersten Entquantisiereinheit 430 verändert werden,
oder die Positionsinformation, die die Position der Vorzeicheninformation jedes
Skalenfaktorbandes anzeigt, kann zur zweiten kodierten Information
hinzugefügt
und übertragen werden.
-
Ferner
passt die zweite Entquantisiereinheit 435 die Amplitude
der kopierten spektralen Daten an, wenn erforderlich. Die Amplitude
wird angepasst, indem alle spektralen Daten mit einem im Voraus
festgelegten Koeffizienten von zum Beispiel „0,5" multipliziert werden.
-
Der
Koeffizient kann ein fester Wert oder für jede Bandbreite oder jedes
Skalenfaktorband ein anderer Wert sein, er kann auch je nach den
von der ersten Entquantisiereinheit 430 ausgegebenen spektralen
Daten verändert
werden. Das Verfahren der Amplitudenanpassung ist nicht darauf beschränkt, und
jedes andere Verfahren kann verwendet werden.
-
In
der vorliegenden Ausführungsform
wird ein im Voraus festgelegter Koeffizient verwendet, aber dieser
Koeffizientenwert kann als Teilinformation zur zweiten kodierten
Information hinzugefügt werden.
Entweder kann der Skalenfaktorwert als ein Koeffizient zur zweiten
kodierten Information hinzugefügt
werden, oder ein quantisierter Wert kann als ein Koeffizient zur
zweiten kodierten Information hinzugefügt werden.
-
In
der vorliegenden Ausführungsform
werden nur die Vorzeicheninformation, nur die Vorzeicheninformation
und die Koeffizienteninformation oder nur die Vorzeicheninformation
und die Positionsinformation kodiert, aber die vorliegende Erfindung
ist darauf nicht beschränkt.
Ein quantisierter Wert, ein Skalenfaktor, Positionsinformation eines charakteristischen
Spektrums, ein Rauscherzeugungsverfahren oder andere können kodiert
werden. Auch eine Kombination von zwei oder mehr von diesen kann
kodiert werden.
-
Ausserdem
werden in der vorliegenden Ausführungsform
die spektralen Daten im tieferen Frequenzband als die spektralen
Daten der höheren
Frequenzdaten kopiert. Die vorliegende Erfindung ist aber nicht
darauf beschränkt,
und die spektralen Daten im höheren
Frequenzband können
lediglich aus der zweiten kodierten Information erzeugt werden.
-
In
der vorliegenden Ausführungsform
wird das Vorzeichen „+" als ein Wert „1" von einem Bit dargestellt,
und das Vorzeichen „-" wird als „0" dargestellt. Die
vorliegende Erfindung ist aber nicht auf diese Darstellung des Vorzeichens
in der Teilinformation (Vorzeicheninformation) beschränkt, und
jeder andere Wert kann verwendet werden.
-
21A und 21b zeigen
spektrale Wellenformen, die Beispiele zeigen, wie die weitere Teilinformation
(Kopierinformation) erzeugt werden kann, die durch die in 2 gezeigte
zweite Quantisiereinheit 345 erzeugt wird. 21A zeigt eine spektrale Wellenform im ersten
Skalenfaktorband im höheren
Frequenzband. 21B zeigt Beispiele von spektralen
Wellenformen im tieferen Frequenzband, die mit Teilinformation (Kopierinformation)
angegeben werden. 22 ist ein Ablaufdiagramm, das
eine Operation in der Verarbeitung zur Berechnung weiterer Teilinformation
(Kopierinformation) zeigt, die durch die in 2 gezeigte
zweite Quantisiereinheit 345 ausgeführt wird.
-
Für jedes
Skalenfaktorband im höheren
Frequenzband, das die Wiedergabebandbreite oberhalb von 11,025 bis
22,05 kHz besitzt, gibt die zweite Quantisiereinheit 345 die
Nummer N des Skalenfaktorbandes im tieferen Frequenzband gemäss der folgenden
Prozedur an (S51). Das Skalenfaktorband Nr. N im tieferen Frequenzband
wird angegeben, weil der Wert der Peakposition dieses Bandes am
nächsten
zur Peakposition „n" des Skalenfaktorbandes
im höheren
Frequenzband liegt (dem „n"-ten Datenwert relativ
zum ersten des Skalenfaktorbandes).
-
Die
zweite Quantisiereinheit 345 gibt die Position „n" des absoluten Maximums
der spektralen Daten (Peak) im ersten Skalenfaktorband im höheren Frequenzband
an, das die Wiedergabebandbreite oberhalb von 11,025 kHz besitzt
(S52). Wie in 21A zu sehen, zeigt ➀ den
angegebenen Peak „n" an, und der spektrale
Datenwert an dieser Position ist gegeben durch n = 22.
-
Die
zweite Quantisiereinheit 345 zeigt die Peakpositionen aller
Spektren (sowohl positive als auch negative Spektren einschliessend)
im tieferen Frequenzband an, das die Wiedergabebandbreite von 11,025
kHz oder weniger besitzt (S53).
-
Als
Nächstes
sucht die zweite Quantisiereinheit 345 für jeden
angegebenen Peak im tieferen Frequenzband nach dem Skalenfaktorband,
dessen Peakposition relative zu seinem ersten am nächsten bei „n" liegt, und gibt
die Nummer N dieses Skalenfaktorbandes, die Richtung der Suche sowie
die Vorzeicheninformation für
den Peak an (S54).
-
Konkret
sucht die zweite Quantisiereinheit 345 für jeden
angegebenen Peak (positiv wie negativ) im tieferen Frequenzband
von niedrigen Frequenzen beginnend sequentiell nach dem ersten Skalenfaktorband,
dessen Peakposition am nächsten
bei „n" liegt. Es gibt zwei
Suchrichtungen: 1) eine Suche vom Peak in der Richtung auf tiefere
Frequenzen, 2) eine Suche vom Peak in der Richtung auf höhere Frequenzen.
Was die Peaks im tieferen Frequenzband betrifft, deren positive
und negative Vorzeichen gegenüber
denen im höheren
Frequenzband vertauscht sind, so gibt es ebenfalls zwei Suchrichtungen:
3) eine Suche vom Peak in der Richtung auf tiefere Frequenzen, und
4) eine Suche vom Peak in der Richtung auf höhere Frequenzen.
-
Im
Falle der Suchrichtungen (2) und (4) sind die Peakposition im höheren Frequenzband
und die Peakposition im tieferen Frequenzband seitenverkehrt (in
der Richtung der Frequenzachse), wie in 21B gezeigt,
wenn die spektrale Wellenform im tieferen Frequenzband auf der Basis
von Peakinformation kopiert wird. Daher ist es notwendig, Information über die
Suchrichtung beizufügen
(vorwärts
und umgekehrt), wenn zum Beispiel (1) und (3) die Vorwärts- Suchrichtung und
(2) und (4) die Rückwärts-Suchrichtung
sind. Im Falle der Suchrichtungen (3) und (4) sind ferner in der
Peakposition im höheren
Frequenzband und der Peakposition im tieferen Frequenzband ebenfalls
oben und unten vertauscht (in Richtung der senkrechten Achse), wie
in 21B gezeigt. Daher ist es erforderlich, Information
beizufügen,
die anzeigt, ob die positiven und negativen Vorzeichen der Peakwerte
des höheren
und tieferen Frequenzbandes vertauscht worden sind oder nicht.
-
Die
zweite Quantisiereinheit 345 sucht in vier Richtungen,
nämlich
in den Suchrichtungen (1) und (2), wenn der im tieferen Frequenzband
angegebene Peakwert positiv ist, und in den Suchrichtungen (3) und
(4), wenn der Peakwert negativ ist, und gibt dann die Nummer des
Skalenfaktorbandes an, dessen Peakposition unter den Suchergebnissen
am nächsten
bei „n" liegt. In diesem
Falle wird ein bestimmter Wert von zum Beispiel „5" im Voraus als Toleranz des Unterschiedes
zwischen „n" und der tatsächlichen Peakposition
festgelegt, die zweite Quantisiereinheit 345 wählt das
Skalenfaktorband, dessen Peakposition unter den vier Arten von Suchergebnissen
am nächsten
bei „n" liegt, und gibt
die Nummer N dieses Skalenfaktorbandes an. Zusätzlich gibt sie die Vorzeicheninformation
an, die anzeigt, ob die Vorzeichen der Peakwerte im höheren Frequenzband
und im tieferen Frequenzband vertauscht worden sind oder nicht,
sowie auch die Information, die die Suchrichtung anzeigt (vorwärts oder
rückwärts).
-
Zum
Beispiel wird in der Suchrichtung (1) mit einer Toleranz von „1" gegenüber der
Peakposition für
das Spektrum im tieferen Frequenzband die Nummer N = 3 für das Skalenfaktorband
angegeben, wie in 21B (1) gezeigt. In ähnlicher
Weise werden in den Suchrichtungen (2), (3) und (4) mit Toleranzen von „5", „4" und „ 2" gegenüber den
Peakpositionen für
die Spektren im tieferen Frequenzband die Nummern N = 18, N = 12
und N = 10 für
die Skalenfaktorbänder
angegeben, wie in 21B (2), (3) und (4) gezeigt.
Die zweite Quantisiereinheit 345 wählt die Nummer N = 3 des Skalenfaktorbandes,
dessen Peakposition mit einer Toleranz von „1" gegenüber der Peakposition unter
den vier angegebenen Nummern von Skalenfaktorbändern am nächsten bei „n" liegt. Zusätzlich erzeugt sie die Vorzeicheninformation „1", die das Vorzeichen „+" des Peaks im tieferen Frequenzband
anzeigt, sowie die Suchrichtungsinformation „1", die eine Suche in der Richtung zu
tieferen Frequenzen anzeigt. Wenn in diesem Fall das Vorzeichen
des Peaks „-" ist, dann ist die
Vorzeicheninformation „0", und wenn die Suche
in der Richtung zu höheren
Frequenzen gemacht wurde, dann ist die Suchrichtungsinformation „0".
-
Wenn
das Skalenfaktorband Nummer N = 3, die Vorzeicheninformation „1" und die Suchrichtungsinformation „1" für das erste
Skalenfaktorband im höheren
Frequenzband angegeben worden sind (S55), dann gibt die zweite Quantisiereinheit 345 die
Nummer N, die Vorzeicheninformation und die Suchrichtungsinformation
des nächsten
Skalenfaktorbandes in der gleichen Weise wie oben an.
-
Auf
diese Weise [...] die Nummer N, die Vorzeicheninformation und die
Suchrichtungsinformation für
jedes Skalenfaktorband im tieferen Frequenzband, dessen Peakposition
relativ zu seinem ersten am nächsten
bei der Peakposition „n" relativ zum ersten
des Skalenfaktorbandes im höheren
Frequenzband liegt (S55). Dann gibt die zweite Quantisiereinheit 345 die
angegebene Nummer N, die Vorzeicheninformation und die Suchrichtungsinformation
für das Skalenfaktorband
im tieferen Frequenzband entsprechend jedem Skalenfaktorband im
höheren
Frequenzband als Teilinformation (Kopierinformation) für das höhere Frequenzband
an die zweite Kodiereinheit 355 aus und beendet die Verarbeitung.
-
Wenn
in diesem Falle das erste kodierte Signal in Übereinstimmung mit der herkömmlichen
Prozedur in der Dekodiervorrichtung 400 dekodiert wird, dann
können
die spektralen Daten von 1024 Stichproben auf der Seite tieferer
Frequenzen erhalten werden. Die zweite Entquantisiereinheit 435 kopiert einen
Teil der spektralen Daten, die den Skalenfaktorbandnummern entsprechen,
die von der zweiten Dekodiereinheit 425 ausgegeben wurden,
oder alle diese Daten als die Spektren in das höhere Frequenzband. Die zweite
Entquantisiereinheit 435 passt die Amplitude der kopierten
spektralen Daten an, wenn erforderlich. Die Amplitude wird angepasst, indem
jedes Spektrum mit einem im Voraus festgelegten Koeffizienten von
zum Beispiel 0,5 multipliziert wird.
-
Dieser
Koeffizient kann ein fester Wert oder für jedes Skalenfaktorband ein
anderer Wert oder aber ein Wert sein, der von den durch die erste
Entquantisiereinheit 430 ausgegebenen spektralen Daten
abhängt.
-
In
der vorliegenden Ausführungsform
wird ein im Voraus festgelegter Koeffizient verwendet, aber dieser
Koeffizientenwert kann auch als Teilinformation zur zweiten kodierten
Information hinzugefügt werden.
Der Skalenfaktorwert kann auch als ein Koeffizient zur zweiten kodierten
Information hinzugefügt
werden, oder der quantisierte Wert kann als ein Koeffizient zur
zweiten kodierten Information hinzugefügt werden. Auch ist das Verfahren
der Amplitudenanpassung nicht auf das obige beschränkt, und jedes
andere Verfahren kann verwendet werden.
-
In
der vorliegenden Ausführungsform
werden die Vorzeicheninformation und die Suchrichtungsinformation
sowie die Nummer N des Skalenfaktorbandes als Teilinformation (Kopierinformation) für das höhere Frequenzband
herausgezogen. Die Vorzeicheninformation und die Suchrichtungsinformation
können
aber je nach der Menge an übertragbarer
Information für
das höhere
Frequenzband weggelassen werden. Ferner wird die Vorzeicheninformation
als „1" dargestellt, wenn
das Vorzeichen des Peaks im tieferen Frequenzband „+" ist, und sie wird als „0" dargestellt, wenn
das Vorzeichen „-" ist. Die Suchrichtungsinformation
wird als „1" dargestellt, wenn
die Suche vom Peak aus in der Richtung zu tieferen Frequenzen erfolgt,
und sie wird als „0" dargestellt, wenn
die Suche vom Peak aus in der Richtung zu höheren Frequenzen erfolgt. Das
Vorzeichen des Peaks im tieferen Frequenzband in der Vorzeicheninformation
und die Suchrichtung in der Suchrichtungsinformation sind aber darauf
nicht beschränkt,
und sie können
als andere Werte dargestellt werden.
-
Ferner
wird in der vorliegenden Ausführungsform
nach dem ersten unter den Skalenfaktorbändern im tieferen Frequenzband
gesucht, dessen angegebene Peakposition relativ zum ersten Peak am
nächsten
bei „n" liegt. Die vorliegende Erfindung ist
aber nicht darauf beschränkt,
und es kann nach dem Peak gesucht werden, dessen Position relativ zum
ersten jedes Skalenfaktorbandes im tieferen Frequenzband am nächsten bei „n" liegt.
-
23 zeigt
eine spektrale Wellenform, die das zweite Beispiel zeigt, wie die
weitere Teilinformation (Kopierinformation) erzeugt werden kann,
die durch die in 2 gezeigte zweite Quantisiereinheit 345 erzeugt
wird. 24 ist ein Ablaufdiagramm, das eine
Operation in der Verarbeitung zur Berechnung der weiteren Teilinformation
(Kopierinformation) zeigt, die durch die in 2 gezeigte
zweite Quantisiereinheit 345 ausgeführt wird.
-
Für jedes
Skalenfaktorband im höheren
Frequenzband, das eine Wiedergabebandbreite oberhalb von 11,025
bis 22,05 kHz besitzt, gibt die zweite Quantisiereinheit 345 die
Nummer N des Skalenfaktorbandes im tieferen Frequenzband an, dessen
Differenz (Energiedifferenz) gegenüber allen Spektren im Skalenfaktorband
im höheren
Frequenzband minimal ist, und zwar gemäss der folgenden Prozedur (S61).
In diesem Fall ist die Anzahl von spektralen Daten im tieferen Frequenzband
gleich der Anzahl von spektralen Daten im höheren Frequenzband, und die
Nummer N des angegebenen Skalenfaktorbandes zeigt die Nummer des
ersten dieses Skalenfaktorbandes an.
-
Für alle Skalenfaktorbänder im
tieferen Frequenzband (S62) berechnet die zweite Quantisiereinheit 345 von
den ersten Daten des Skalenfaktorbandes im tieferen Frequenzband
aus die Differenz zwischen den Spektren im höheren Frequenzband und denen
im tieferen Frequenzband, das in der Frequenzbandbreite die gleiche
Anzahl von spektralen Daten umfasst wie das Skalenfaktorband im
höheren Frequenzband
(S63). Wenn zum Beispiel in der in 23 gezeigten
Wellenform das erste Skalenfaktorband des höheren Frequenzbandes 48 Stichproben
spektraler Daten umfasst, dann berechnet die zweite Quantisiereinheit 345 sequentiell
vom ersten Datenwert des Skalenfaktorbandes mit der Nummer N = 1
im tieferen Frequenzband aus die Differenzen der 48 spektralen Daten
zwischen dem höheren
Frequenzband und dem tieferen Frequenzband.
-
Wenn
die zweite Quantisiereinheit 345 die Differenz der Spektren
zwischen dem höheren
Frequenzband und dem tieferen Frequenzband berechnet hat (S65),
dann hält
sie diesen Wert fest und berechnet dann für das nächste Skalenfaktorband vom ersten
des nächsten
Skalenfaktorbandes im tieferen Frequenzband aus die Differenz der
Spektren zwischen dem höheren
Frequenzband und dem tieferen Frequenzband, das in der Frequenzbandbreite
die gleiche Anzahl von spektralen Daten umfasst wie das Skalenfaktorband
im höheren
Frequenzband (S64). Wenn zum Beispiel die Differenz der Spektren
vom ersten des Skalenfaktorbandes mit der Nummer N = 1 aus in einer
Breite von 48 Stichproben spektraler Daten im tieferen Frequenzband
berechnet worden ist, dann hält
die zweite Quantisiereinheit 345 den Wert der berechneten
Differenz fest und berechnet weiter die Differenz der Spektren vom
ersten des Skalenfaktorbandes mit der Nummer N = 2 aus in einer
Breite von 48 Stichproben spektraler Daten im tieferen Frequenzband.
In der gleichen Weise berechnet die zweite Quantisiereinheit 345 die
Differenz der Spektren durch sequentielle Summierung der Differenzen
von 48 spektralen Daten zwischen dem höheren Frequenzband und dem
tieferen Frequenzband für
alle Skalenfaktorbänder
in den tieferen Frequenzbändern
mit den Nummer N = 3, 4, ... 28 (dem letzten Skalenfaktorband im
tieferen Frequenzband).
-
Für alle Skalenfaktorbänder im
tieferen Frequenzband berechnet die zweite Quantisiereinheit 345
vom ersten des Skalenfaktorbandes im tieferen Frequenzband aus die
Differenzen der Spektren zwischen dem höheren Frequenzband und dem
tieferen Frequenzband, das in der Breite der gleichen Anzahl von
spektralen Daten umfasst wie die im höheren Frequenzband (S64). Dann
gibt die zweite Quantisiereinheit 345 die Nummer N des
Skalenfaktorbandes an, in dem die berechnete Differenz minimal ist (S65).
Zum Beispiel wird in der in 23 gezeigten spektralen
Wellenform das Skalenfaktorband mit der Nummer N = 8 im tieferen
Frequenzband angegeben. In dieser Figur wird angezeigt, dass die
Differenzen zwischen den spektralen Daten im tieferen Frequenzband
in schraffierten Teilen und die spektralen Daten im höheren Frequenzband
in schraffierten Teilen minimal sind, und die Energiedifferenz zwischen den
Spektren ist minimal. In anderen Worten, wenn 48 Stichproben von
spektralen Daten vom ersten des Skalenfaktorbandes mit der Nummer
N = 8 aus in das erste Skalenfaktorband im höheren Frequenzband oberhalb
von 11,025 kHz kopiert werden, werden sie zu einer Wellenform im
höheren
Frequenzbereich, die in 23 durch
eine Linie aus alternierenden langen und kurzen Strichen angedeutet
wird, und daher kann die Energie im entsprechenden Skalenfaktorband
im höheren
Frequenzband dem ursprünglichen Spektrum
genähert
dargestellt werden.
-
Wenn
die zweite Quantisiereinheit 345 die Nummer N des Skalenfaktorbandes
im tieferen Frequenzband angegeben hat, dessen Differenz gegenüber dem
Spektrum des Skalenfaktorbandes im höheren Frequenzband minimal
ist, hält
es die angegebene Nummer N des Skalenfaktorbandes fest und gibt
dann die Nummer N des Skalenfaktorbandes im tieferen Frequenzband
an, die dem nächsten
Skalenfaktorband im höheren
Frequenzband entspricht (S66). Die zweite Quantisiereinheit 345 wiederholt diese
Verarbeitung sequentiell, und wenn sie alle Nummern N der Skalenfaktorbänder im
tieferen Frequenzband angegeben hat, deren Differenzen gegenüber den
Spektren im höheren
Frequenband minimal sind, gibt sie die festgehaltenen Nummern N des
Skalenfaktorbandes im tieferen Frequenzbereich als Teilinformation
(Kopierinformation) für
das höhere Frequenzband
an die zweite Kodiereinheit 355 aus und beendet die Verarbeitung.
-
In
der vorliegenden Ausführungsform
sind das Verfahren für
das Kopieren der Spektren im tieferen Frequenzband in der Dekodiervorrichtung 400 und
das Verfahren für
die Anpassung ihrer Amplituden die gleichen wie im Fall der Teilinformation
(Kopierinformation), der unter Bezugnahme auf 21 und 22 beschrieben
worden war.
-
Im
Ablaufdiagramm der 24 werden die Energiedifferenzen
von spektralen Daten des gleichen Vorzeichens zwischen dem höheren Frequenzband
und dem tieferen Frequenzband in der gleichen Richtung der Frequenzachse
berechnet. Die Kodiervorrichtung der vorliegenden Erfindung ist
aber darauf nicht beschränkt,
und sie können
mit irgendeiner der folgenden drei Verfahren berechnet werden, wie unter
Verwendung der 21 und 22 beschrieben: ➀ wie
für die
spektralen Daaten im höheren
Frequenzband, die das gleiche Vorzeichen haben und sequentiell in
der Richtung vom tieferen Frequenzband zum höheren Frequenzband ausgewählt werden,
wird die gleiche Anzahl von spektralen Daten im tieferen Frequenzband
sequentiell vom ersten des Skalenfaktorbandes im tieferen Frequenzband
in der Richtung vom höheren
Frequenzband zum tieferen Frequenzband ausgewählt (in der umgekehrten Richtung
auf der Frequenzachse), und die Differenzen der Spektren werden
berechnet; ➁ die Vorzeichen der Spektren im tieferen Frequenzband
werden umgekehrt (mit Minus multipliziert) und in der gleichen Richtung
auf der Frequenzachse berechnet; und ➂ die Vorzeichen der
Spektren im tieferen Frequenzband werden umgekehrt (mit Minus multipliziert)
und in der umgekehrten Richtung auf der Frequenzachse berechnet.
Nachdem Berechnungen der Energiedifferenzen mit allen vier Verfahren
erfolgt sind, kann die Nummer N des Skalenfaktorbandes im tieferen
Frequenzband, das das Spektrum enthält, dessen Energiedifferenz
minimal ist, ebenfalls als Teilinformatoin dienen. In diesem Falle
wird die Information, die die Beziehung zwischen den Vorzeichen der
Spektren des höheren
und tieferen Frequenzbandes anzeigt, und die Information, die die
Kopierrichtung auf der Frequenzachse anzeigt, für jedes Skalenfaktorband in
die Teilinformation eingefügt,
um das Spektrum im tieferen Frequenzband, dessen Energiedifferenz
minimal ist, genau in das höhere
Frequenzband zu kopieren. Die Information, die die Beziehung zwischen
den Vorzeichen der Spektren des höheren und tieferen Frequenzbandes
anzeigt, wird durch ein Bit dargestellt, zum Beispiel „1" für die Differenz
der Spektren mit dem gleichen Vorzeichen und „0" für
die Differenz der Spektren mit umgekehrtem Vorzeichen.
-
Die
Information, die die Richtung des Kopierens des Spektrums im tieferen
Frequenzband in das höhere
Frequenzband auf der Frequenzachse anzeigt, wird ebenfalls durch
ein Bit dargestellt, zum Beispiel „1" für
die Vorwärts-Kopierrichtung,
das heisst, die Vorwärtsrichtung
bei der Auswahl der spektralen Daten im höheren und tieferen Frequenzband,
und „0" für die umgekehrte
Kopierrichtung, das heisst, die umgekehrte Richtung bei der Auswahl
der spektralen Daten im höheren
und tieferen Frequenzband.
-
Oben
wurde der Fall erklärt,
wo das Audiodaten-Verteilsystem gemäss der vorliegenden Ausführungsform
auf das Broadcastsystem angewendet wird. Es kann aber auf ein Audiodaten-Verteilsystem angewendet
werden, das Audiodaten als einen Bitstrom von einem Server über ein Übertragungsmedium
wie das Internet zu einem Endgerät
verteilt. Es kann auch auf ein Audiodaten-Verteilsystem angewendet
werden, das den von der Kodiervorrichtung 300 ausgegebenen
Bitstrom einmal in einem Aufzeichnungsmedium wie einer optischen
Platte einschliesslich CD und DVD, einem Halbleiter oder einer Festplatte
aufzeichnet und ihn dann über
dieses Aufzeichnungsmedium in der Dekodiervorrichtung 400 wiedergibt.
-
In
der vorliegenden Ausführungsform
wird die Verarbeitung mit langen Blöcken ausgeführt, aber sie kann auch mit
kurzen Blöcken
ausgeführt
werden. Unter Verwendung von kurzen Blöcken kann die gleiche Verarbeitung
ausgeführt
werden wie unter Verwendung von langen Blöcken.
-
In
der Kodierverarbeitung können
Werkzeuge wie Gain Control (Verstärkungskontrolle), TNS (Temporal
Noise Shaping: zeitliche Rauschformung), ein psychoakustisches Modell,
M/S Stereo, Intensity Stereo und Prediction (Vorhersage), eine Änderung der
Blockgrösse,
ein Bitreservoir usw. verwendet werden.
-
In
der vorliegenden Ausführungsform
wird die Teilinformation auf der Basis von spektralen Daten im höheren Frequenzband
erzeugt, die durch die Datentrennungseinheit 330 abgetrennt
worden sind. Die Teilinformation kann aber auch als spektrale Daten
im höheren
Frequenzband auf der Basis des Wertes erzeugt werden, der durch
Entquantisieren des Ausgangssignals der ersten Quantisiereinheit 340 erhalten
wird.
-
In
der vorliegenden Ausführungsform
werden ein Skalenfaktor für
die Ableitung eines quantisierten Wertes von „1" für
die spektralen Daten in jedem Skalenfaktorband im höheren Frequenzband, der
quantisierte Wert, Positionsinformation eines charakteristischen
Spektrums, Vorzeicheninformation, die das positive oder negative
Vorzeichen des Spektrums anzeigt, usw. als Teilinformation verwendet.
Eine Kombination von zwei oder mehr als zwei von diesen kann aber
die Teilinformation darstellen. In diesem Falle ist es besonders
wirkungsvoll, wenn eine Kombination aus Skalenfaktor und einem Koeffizienten,
der eine Verstärkung,
eine Position des absoluten Maximums der spektralen Daten usw. anzeigt,
in der Teilinformation kodiert wird. Ferner wird in der vorliegenden
Ausführungsform
eine Teilinformation für
jedes Skalenfaktorband als das zweite kodierte Signal kodiert, aber
eine Teilinformation kann für
zwei oder mehr als zwei Skalenfaktorbänder kodiert werden, oder zwei
oder mehr als zwei Teilinformationen können für ein Skalenfaktorband kodiert werden.
Ausserdem kann die Teilinformation in der vorliegenden Ausführungsform
für jeden
Kanal kodiert werden, oder eine Teilinformation kann für zwei oder
mehr als zwei Kanäle
kodiert werden.
-
In
der vorliegenden Ausführungsform
enthält die
Kodiervorrichtung 300 zwei Quantisiereinheiten und zwei
Kodiereinheiten. Die vorliegende Erfindung ist aber nicht darauf
beschränkt,
sondern kann drei oder mehr als drei Quantisiereinheiten bzw. Kodiereinheiten
enthalten.
-
In
der vorliegenden Ausführungsform
enthält die
Dekodiervorrichtung 400 zwei Dekodiereinheiten und zwei
Entquantisiereinheiten. Die vorliegende Erfindung ist aber nicht
darauf beschränkt,
sondern kann drei oder mehr als drei Dekodiereinheiten bzw. Entquantisiereinheiten
enthalten.
-
Die
oben erwähnte
Verarbeitung kann durch Software wie auch durch Hardware realisiert
werden, und die vorliegende Erfindung kann so konfiguriert werden,
dass ein Teil der Verarbeitung durch Hardware und die weitere Verarbeitung
durch Software realisiert wird.
-
In
der vorliegenden Ausführungsform
wird eine Abtastfrequenz von 44,1 kHz verwendet, aber andere Abtastfrequenzen
wie 32 kHz oder 48 kHz können
verwendet werden. Auch kann die Grenzfrequenz für die Trennung der spektralen
Daten durch die Datentrennungseinheit 330 zu irgendeiner
anderen Frequenz als 11,025 kHz verändert werden.
-
Des
Weiteren wird in der vorliegenden Ausführungsform die Verarbeitung
in Übereinstimmung mit
MPEG-2 AAC durchgeführt.
Die gleiche Verarbeitung kann aber in einer Kodiervorrichtung, einer
Dekodiervorrichtung usw. in Übereinstimmung
mit anderen Verfahren (zum Beispiel MP3, AC3 usw.) durchgeführt werden.
-
Des
Weiteren kann die Kodiervorrichtung gemäss vorliegender Erfindung wie
folgt strukturiert werden.
-
Die
Kodiervorrichtung gemäss
der vorliegenden Erfindung ist eine Kodiervorrichtung, die Audiodaten
kodiert, und kann enthalten: eine Teilungseinheit, die so betrieben
werden kann, dass aus der erzeugten Audiodatensequenz eine Audiodatensequenz
in m2 Stichproben (mehr als eine verlangte Anzahl von Stichproben
m1) zusammenhängender Audiodaten
aufgeteilt wird; eine Umformungseinheit, die so betrieben werden
kann, dass die durch die Teilungseinheit aufgeteilten Audiodaten
in spektrale Daten in der Frequenzdomäne umgeformt werden; eine Trennungseinheit,
die so betrieben werden kann, dass m2 Stichproben der durch die
Umformungseinheit gewonnenen spektralen Daten in m1 Stichproben
spektraler Daten im tieferen Frequenzband und (m2 – m1) Stichproben
spektraler Daten im höheren Frequenzband
getrennt werden; eine Kodiereinheit für das tiefere Frequenzband,
die so betrieben werden kann, dass die abgetrennten spektralen Daten
im tieferen Frequenzband quantisiert und die quantisierten Daten
kodiert werden; eine Einheit zur Erzeugung von Teilinformation,
die so betrieben werden kann, dass aus den abgetrennten spektralen
Daten im höheren
Frequenzband Teilinformation erzeugt wird, die ein Merkmal des Freqenzspektrums
im höheren Frequenzband
anzeigt; eine Kodiereinheit für
das höhere
Frequenzband, die so betrieben werden kann, dass die erzeugte Teilinformation
kodiert wird; und eine Ausgabeeinheit, die so betrieben werden kann, dass
der durch die Kodiereinheit für
das tiefere Frequenzband gewonnene Kode und der durch die Kodiereinheit
für das
höhere
Frequenzband gewonnene Kode integriert werden und das integrierte
Vorzeichen ausgegeben wird.
-
In
diesem Fall kann die Einheit für
die Erzeugung von Teilinformation so strukturiert sein, dass sie für die spektralen
Daten, die in eine Mehrzahl von Gruppen aufgetrennt sind, einen
Normalisierungsfaktor für
die Ableitung eines festen Wertes berechnet, der ein Wert ist, der
durch Quantisierung von spektralen Peakdaten in jeder Gruppe im
höheren
Frequenzband gewonnen wird, und den berechneten Normalisierungsfaktor
als Teilinformation erzeugt.
-
Ferner
kann die Einheit für
die Erzeugung von Teilinformation so strukturiert sein, dass sie
für die
spektralen Daten, die in eine Mehrzahl von Gruppen aufgetrennt sind,
unter Verwendung des Normalisierungsfaktors, der allen Gruppen gemein
ist, die spektralen Peakdaten in jeder Gruppe im höheren Frequenzband
quantisiert und den quantisierten Wert als die Teilinformation erzeugt.
-
Ferner
kann die Einheit für
die Erzeugung von Teilinformation so strukturiert sein, dass sie
für die
spektralen Daten, die in eine Mehrzahl von Gruppen aufgetrennt sind,
eine Frequenzposition der spektralen Peakdaten in jeder Gruppe im
höheren Frequenzband
als die Teilinformation erzeugt.
-
Die
spektralen Daten sind auch ein MDCT-Koeffizient, und die Einheit
für die
Erzeugung von Teilinformation kann so strukturiert sein, dass sie für die spektralen
Daten, die in eine Mehrzahl von Gruppen aufgetrennt sind, ein Vorzeichen
erzeugt, das die positive bzw. negative Eigenschaft der spektralen
Daten an einer im Voraus festgelegten Frequenzposition im höheren Frequenzband
als die Teilinformation anzeigt.
-
Des
Weiteren kann die Einheit für
die Erzeugung von Teilinformation so strukturiert sein, dass sie für die spektralen
Daten, die in eine Mehrzahl von Gruppen aufgetrennt sind, als die
Teilinformation ein Spektrum im tieferen Frequenzband angibt, das
dem Spektrum in jeder Gruppe im höheren Frequenzband am nächsten ist.
In diesem Falle kann die Einheit für die Erzeugung von Teilinformation
so strukturiert sein, dass sie ein Spektrum im tieferen Frequenzband
angibt, in dem die Differenz zwischen der Entfernung auf der Frequenzachse
vom Begrenzer der Gruppe im höheren
Frequenzband zum Peak des Spektrums in dieser Gruppe und der Entfernung
auf der Frequenzachse vom Begrenzer der Gruppe im tieferen Frequenzband
zum Peak des Spektrums in dieser Gruppe minimal ist. Die Einheit
für die
Erzeugung von Teilinformation kann ferner so strukturiert sein,
dass sie ein Spektrum im tieferen Frequenzband angibt, für das der Energiedifferenzwert,
der in der gleichen Frequenzbandbreite wie das Spektrum in der Gruppe
des höheren
Frequenzbandes erhalten wird, minimal ist. Ferner ist die Information,
die das Spektrum im tieferen Frequenzband angibt, eine Nummer, die
die Gruppe des angegebenen Spektrums im tieferen Frequenzband angibt.
-
Ferner
kann die Einheit für
die Erzeugung von Teilinformation so strukturiert sein, dass sie
als die Teilinformation einen im Voraus festgelegten Koeffizienten
erzeugt, der die Verstärkung
der Amplitude des Spektrums im höheren
Frequenzband angibt.
-
Die
Ausgabeeinheit kann ferner auch eine Datenstrom-Ausgabeeinheit enthalten,
die so betrieben werden kann, dass sie die durch die Kodiereinheit
des tieferen Frequenzbandes kodierten Daten in einen kodierten Audiostrom
umformt, der in einem im Voraus festgelegten Format definiert ist,
die durch die Kodiereinheit des höheren Frequenzbandes kodierten
Daten in einem Bereich im kodierten Audiostrom speichert, dessen
Verwendung nicht unter dem Kodierprotokoll eingeschränkt ist,
und die gespeicherten Daten ausgibt. In diesem Falle kann die Datenstrom-Ausgabeeinheit
so strukturiert sein, dass sie Information schreibt, die f1 Hz als
eine Abtastfrequenz anzeigt.
-
Des
Weiteren kann die Ausgabeeinheit noch eine zweite Datenstrom-Augabeeinheit
enthalten, die so betrieben werden kann, dass sie die durch die
Kodiereinheit des tieferen Frequenzbandes kodierten Daten in einen
kodierten Audiostrom umformt, der in einem im Voraus festgelegten
Format definiert ist, die durch die Kodiereinheit des höheren Frequenzbandes
kodierten Daten in einem Datenstrom speichert, der sich vom kodierten
Audiostrom unterscheidet, und die gespeicherten Daten ausgibt.
-
Es
sei bemerkt, dass die vorliegende Erfindung natürlich realisiert werden kann
als ein Kommunikationssystem, das die Kodiervorrichtung und die Dekodiervorrichtung
der oben erwähnten
Variante einschliesst, als ein Kodierverfahren oder als ein Kommunikationsverfahren,
indem die in der oben erwähnten
Kodiervorrichtung und in dem oben erwähnten Kommunikationssystem
enthaltenen, charakteristischen Einheiten veranlasst werden, als
die Schritte zu funktionieren, als ein Kodierprogramm, um eine CPU
zu veranlassen, die charakteristischen Einheiten oder Schritte der
oben erwähnten
Kodiervorrichtung auszuführen,
oder als ein computer-lesbares Aufzeichnungsmedium, auf dem dieses
Programm aufgezeichnet ist.
-
Industrielle Anwendbarkeit
-
Die
Kodiervorrichtung gemäss
der vorliegenden Erfindung ist zur Verwendung als ein Verteilsystem
für die
Verteilung von Inhalten wie Musik in einem Datenstrom oder über ein
Aufzeichnungsmedium geeignet.