DE69015105T2 - Kompressionseinrichtung für transformiertes, digitales Audiosignal mit adaptiver Quantisierung auf Grund eines psycho-akustischen Kriteriums. - Google Patents

Kompressionseinrichtung für transformiertes, digitales Audiosignal mit adaptiver Quantisierung auf Grund eines psycho-akustischen Kriteriums.

Info

Publication number
DE69015105T2
DE69015105T2 DE69015105T DE69015105T DE69015105T2 DE 69015105 T2 DE69015105 T2 DE 69015105T2 DE 69015105 T DE69015105 T DE 69015105T DE 69015105 T DE69015105 T DE 69015105T DE 69015105 T2 DE69015105 T2 DE 69015105T2
Authority
DE
Germany
Prior art keywords
coding
signal
spectral
criterion
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69015105T
Other languages
English (en)
Other versions
DE69015105D1 (de
Inventor
Yannick Mahieux
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of DE69015105D1 publication Critical patent/DE69015105D1/de
Application granted granted Critical
Publication of DE69015105T2 publication Critical patent/DE69015105T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/665Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

  • Das Verfahren betrifft den Bereich der Kompression audiodigitaler Signale. Die Erfindung findet insbesondere bei der Übertragung von Audiosignalen über digitale Kanäle sowie bei digitalen Speichermitteln für Audiosignale Anwendung.
  • Genauer betrifft die Erfindung ein Bitzuordnungsverfahren, das eine adaptive Quantifizierung eines audiodigitalen Signals ermöglicht, nachdem das Signal im Frequenzbereich umgewandelt und in Frequenzbänder aufgeteilt wurde.
  • Die Erfindung kann beispielsweise für direkte Satellitenübertragungssysteme angewandt werden, wie diejenigen, die im Rahmen des europäischen DAB-Projektes (Digital Audio Broadcasting/Audiodigitaler Rundfunk) entwickelt werden oder auch für RNIS-Sendesysteme und High-Fi Verteilung. Sie ist ebenfalls auf Datenspeicher wie beispielsweise Digitalplatten anwendbar.
  • Audiodigitale Signale haben viele Vorteile gegenüber analogen Signalen, insbesondere bezüglich der Treue der Klangwiedergabe, des Erhalts der Ausgangsqualität und der Anwendungsflexibilität. Der Durchsatz, der sich bei der Digitalisierung von Audiosignalen ergibt, ist jedoch beträchtlich, insbesondere bei hochqualitativen Signalen, deren Bandbreite größer als 15 kHz ist.
  • Es ist in diesem Falle unerläßlich, Verfahren zur Durchsatzverringerung heranzuziehen.
  • Die allgemein bekannten und verbreiteten Verfahren basieren auf mathematische Transformationsalgorithmen des audiodigitalen Quellsignals. Transformierten-Kodierungsverfahren wurden in großem Umfang im Bereich der Bild- oder Wortsignale angewandt. Seit kurzer Zeit werden sie auch auf Audiosignale, insbesondere für Musik, angewandt.
  • In vorhandenen Kodiergeräten, die solche Verfahren anwenden, wird das Signal zunächst in Zeitblöcke zerlegt und dann einer Zeit/Frequenz- Umwandlung unterworfen. Es sind tatsächlich die Koeffizienten der umgewandelten Blöcke, die kodiert und gesendet werden. Im Decoder wird durch ein umgekehrtes Transformationsverfahren das dekodierte und rekonstruierte Signal wiedergegeben.
  • Durch Anwendung der mathematischen Transformation wird die Energie des Quellsignals auf die wichtigsten Koeffizienten konzentriert, wodurch eine Durchsatzverringerung bei gleichzeitiger Kontrolle und Minimierung der Verschlechterung der Klangqualität ermöglicht wird, insbesondere durch selektive Eliminierung gewisser transformierter Koeffizienten. In der Tat begünstigt das Arbeiten im Bereich der Frequenzen die Berücksichtigung von psycho-auditiven Merkmalen und Wahrnehmungseigenschaften, die hauptsächlich mit der spektralen Natur des Klangs zusammenhängen. Das Berücksichtigen psycho-auditiver Kriterien basiert bei den meisten existierenden Verfahren auf der ZWICKER-Analyse ("Psychoakustik"; Verlag Masson 1981), die auf dem Begriff der Maskierung der nicht hörbaren Spektralkomponenten aufbaut.
  • Bekannte und nach diesen Prinzipien realisierte Verfahren unterscheiden sich untereinander durch gewisse vorweggenommene Begriffe:
  • - ob eine Hilfsinformation der Hauptinformation transformiert wird oder nicht;
  • - ob Verfahren, die die Auswirkungen von Sendestörungen ausgleichen, angewandt werden oder nicht;
  • - die Verfahren zur Berücksichtigung psycho-auditiver Kriterien für die Durchsatzverringerung und der Ort ihrer Anwendung in der Kette der Signalkodierung, bzw. -dekodierung;
  • - die Kodierungsmodalitäten für die Kompression der Hauptinformationen und gegebenenfalls der gesendeten Hilfsinformationen.
  • So wird ein erstes bekanntes Verfahren dieser Art in der von den Anmeldern dieses Patents vorgelegten französischen Patentanmeldung FR 89 06 194, "Verfahren und Kodierungsinstallation von Audiosignalen", beschrieben. Dabei werden nacheinander das Audiosignal in Abtastungsblöcke zerlegt, die Zeit-Frequenz-Transformation und eine vorhersagende und adaptive Kodierung der bedeutendsten Koeffizienten eines jeden Blocks durchgeführt, wobei der stationäre Zustand des Signals angewandt wird. Bei dieser Vorrichtung wird die Hilfsinformation bei den Übergangsblöcken gesendet, die das Berücksichtigen einer Korrelation zwischen den Blöcken unmöglich macht. Unter allen anderen Umständen dient diese Hilfsinformation lediglich der Steuerung des Bitzuordnungsmoduls, das den Quantifikator des Hauptsignals speist. Diese Vorrichtung ermöglicht eine Durchsatzverringerung. Sie verursacht jedoch im Falle eines auftretenden Fehlers eine kettenartige Verschlechterung der Wiederherstellung der empfangenen Blöcke, weil sich dieser Fehler auf den nächsten Block fortpflanzt und so weiter, über die Rückführung zur Erstellung der Hilfsinformation, welche die Bitzuordnungsvorrichtung und den Quantifizierer des Decoders steuert.
  • Es sind ebenfalls Verfahren bekannt, bei denen eine Hilfsinformation für jeden Block durch adaptive Kodierung gesendet wird. Eine solche Vorrichtung ist beispielsweise im Artikel von BOCHOW "Multiprocessor Implementation of an ATC Audio Code" (Multiprozessoreinführung eines Audiocoders/-decoders mit adaptiver Transformationskodierung) (Dokumentation des ICASSP 1989 Kongresses, Glasgow). Ein Nachteil dieses Verfahrens besteht darin, daß die kontinuierliche Kodierung der Hilfsinformation einen hohen Durchsatz erfordert, was sich zu Lasten des der Hauptinformation zugeordneten Durchsatzes auswirkt.
  • Das Dokument von JOHNSTON "Transforming Code of Audio Signals Using Perceptual Noise Criteria" (Kodierung von Signalen durch Transformation unter Verwendung psycho-auditiver Kriterien) (IEEE Journal on Selected Areas in Communication, Vol. 6, Nr. 2, Februar 1988, S. 314 - 323) stellt eine Vorrichtung zur Durchsatzverringerung durch adaptive Quantifizierung vor, welche Maskierungsschwellen gemäß der ZWICKER- Analyse in Form eines Vorhersagealgorithmus auf der Ebene des Quantifikators des Hauptsignals anwendet. Zweck dieses Algorithmus ist die Minimierung des Verhältnisses Rauschen/Maskierungsschwellwert. Die Information wird kontinuierlich übertragen, wie bei der BOCHOW-Vorrichtung. Andererseits besitzt diese Vorrichtung eine Kodierung mit variabler Länge oder HUFFMAN-Kodierung am Quantifikatorausgang, deren Realisierung ziemlich kompliziert ist.
  • Die Erfindung hat insbesondere den Zweck, die Nachteile dieser bekannten Verfahren auszuräumen.
  • Genauer gesagt besteht der Zweck der Erfindung in der Bereitstellung eines Verfahrens zur Kompression eines audiodigitalen Signals durch Anwendung einer Zuordnungsvorrichtung der Bits, die für die Übertragung oder das Speichern des Signals verfügbar sind und adaptive Quantifizierungsmittel des Signals steuern, um eine nennenswerte Durchsatzverringerung zu ermöglichen bei maximaler Erhaltung der Qualität des Ausgangssignals.
  • Zweck der Erfindung ist ebenfalls die Bereitstellung eines Bitzuordnungsverfahrens, dessen Funktionsprinzip psycho-auditive Kriterien berücksichtigt.
  • Ein weiterer Zweck der Erfindung ist das Minimieren der kettenweise Verschlechterung bei der Wiederherstellung des Signals, wenn eine Störung im Übertragungskanal auftritt, die Fehler oder Interferenzen verursacht.
  • Ein zusätzlicher Zweck einer vorteilhaften Ausführung der Erfindung besteht in der Bereitstellung eines Prinzips für die gemeinsame Übertragung von Hauptinformationen und von Hilfsinformationen durch Optimierung des Durchsatzes der Hilfsinformationen und danach der Hauptinformationen.
  • Zweck der Erfindung ist es ebenfalls, die Anwendung einer festen Bitzahl für das Kodieren eines jeden Informationsblocks zu ermöglichen.
  • Diese Zwecke sowie andere, die im Nachhinein ersichtlich werden, sind mit Hilfe einer Vorrichtung zu erzielen, wie in Anspruch 1 definiert.
  • Diese Eliminierung von Spektralkomponenten für die Aufbereitung der Hilfsinformation ermöglicht eine a priori Optimierung des Quantisierungsvorgangs.
  • Vorteilhafterweise verfügt das Verfahren (in bekannter Weise) über Mittel zur Berechnung der Maskierungsschwelle von Spektralkomponenten gemäß eines psycho-auditiven Kriteriums, um die Bitzuordnung in jedem der Bänder zu optimieren.
  • Bevorzugterweise funktioniert das psycho-auditive Kriterium gemäß dem psycho-auditiven Maskierungskriterium nach ZWICKER.
  • Gemäß einer wichtigen Eigenschaft der Erfindung umfassen die Quantifizierungsmittel mindestens zwei verschiedene Quantifikatoren sowie Mittel für die selektive Zuordnung eines dieser Quantifikatoren zu jedem der Spektralbänder des umgewandelten Signals als Funktion der Anzahl der Komponenten, die nach Eliminierung der maskierten Koeffizienten in dem Band erhalten bleiben.
  • Bei einer bevorzugten Ausführung der Erfindung verfügt das Verfahren über Mittel zur Minimierung des Verhältnisses Quantifizierungsrauschen/Maskierungsschwelle in jedem der Bänder.
  • Bevorzugterweise wird das Quantifizierungsrauschen als Funktion von mindestens einer der drei Informationen festgestellt, die der Gruppe angehören, welche folgendes umfaßt:
  • - den typischen Abstand der Spektralkomponenten, die im Band nicht eliminiert wurden;
  • - einen Leistungsfaktor des für das Band ausgewählten Quantifikators;
  • - eine Information für die spektrale Ausbreitung des Bandes.
  • Gemäß einer weiteren Erfindungseigenschaft wird die von den Mitteln zur vorherigen Eliminierung von Spektralkomponenten bereitgestellte Information durch Kodierungsmittel der Sequenzlängen zum Kodieren der Indizes der maskierten Spektralkomponenten ausgearbeitet.
  • Bevorzugterweise verwenden die Mittel für die Kodierung der Sequenzlängen einen Code variabler Länge vom Typ des HUFFMAN Codes.
  • Gemäß einer vorteilhaften Ausführung, erzeugen die Mittel für die Kodierung der Sequenzlängen ein spezifisches Codewort für das Kodieren der Frequenzbänder, für welche alle Komponenten eliminiert wurden.
  • Vorteilhafterweise werden die Mittel zum Kodieren der Sequenzlängen durch Auswahlmittel aktiviert, als Funktion einer durch die Kodierung erbrachten Durchsatzerhöhungsinformation.
  • Gemäß einer weiteren wichtigen Eigenschaft der Erfindung arbeitet das Verfahren mit Kodierungsmitteln der ersten Hilfsinformationen zusammen, die der Spektrumbeschreibung entsprechen.
  • So ist es möglich, Hilfsinformationen ohne nennenswerte Störungen des Hauptinformationsdurchsatzes dauernd zu übertragen.
  • Bevorzugterweise umfassen diese Kodierungsmittel Mittel zur vorhersagenden Kodierung.
  • So werden für die Hauptinformation die Gefahren einer kettenweise Verschlechterung unterdrückt. Dies kann erfindungsgemäß nur für die Hilfsinformation geschehen.
  • Vorteilhafterweise umfassen die vorhersagenden Kodierungsmittel solche, die der Gruppe angehören, welche die Mittel zur logarithmischen Konversion, die Mittel zur differentiellen MIC-Kodierung und die Kodierungsmittel über Codes variabler Länge vom Typ der HUFFMAN-Codes umfaßt.
  • Bevorzugterweise umfassen die Kodierungsmittel ebenfalls Mittel zur Kodierung ohne Interblock-Speicher, wobei die vorhersagenden Kodierungsmittel und die speicherlosen Kodierungsmittel gemäß eines vorher festgelegten Kriteriums ausgewählt werden.
  • Vorteilhafterweise ist dieses vorgegebene Kriterium ein Kriterium für geringen Durchsatz und/oder ein Kriterium zur Minimierung des Übertragungsfehlers.
  • Gemäß einer vorteilhaften Erfindungseigenschaft wird mindestens eine der Informationen, die der Gruppe angehören, welche die, der Beschreibung des Spektrums entsprechenden Hilfsinformation, die Information, die von den Mitteln zur Eliminierung nicht hörbarer Komponenten erzeugt werden und eine Information zur Spektralausbreitung umfaßt, zusammen mit jedem der Hauptinformationsblöcke übertragen oder gespeichert.
  • Gemäß einer weiteren Erfindungseigenschaft wird das umgewandelte Digitalsignal durch Mittel zur Kodierung durch Umwandlung erzeugt, die eine Transformierte vom Typ der geänderten diskreten Cosinustransformierten nach PRINCEN und BRADLEY anwenden.
  • Vorteilhafterweise verfügen die Transformationskodierungsmittel über abgeschwächte Fensteranordnungsmittel des zeitlichen Signals, welches eine Symmetrie im transformierten Signal erscheinen läßt.
  • Bevorzugterweise verwenden die Fensteranordnungsmittel ein Fenster, das durch:
  • F(n) = 2.sin(π(n+0,5)/N) n = 0,...,N-1
  • definiert ist,
  • wobei N die Zahl der Spalten des Fensters ist
  • Weitere Eigenschaften und Vorteile der Erfindung werden beim Lesen der folgenden Beschreibung einer bevorzugten Ausführung der Erfindung ersichtlich, die als Beispiel und nicht einschränkend angegeben wird sowie der beigefügten Zeichnungen, wobei:
  • Figur 1 die zusammenfassende Übersicht einer Kodiervorrichtung audiodigitaler Signale darstellt, mit einer Vorrichtung zum Zuordnen von Bits gemäß der Erfindung;
  • Figur 2 das Funktionsschema des Moduls zur Eliminierung der gekennzeichneten Spektrallinien darstellt;
  • Figur 3 das detaillierte Funktionsschema des Moduls zur Berechnung und Kodierung der Hilfsinformation darstellt;
  • Figur 4 das Funktionsschema des Moduls zur vorhersagenden Kodierung der Hilfsinformation darstellt;
  • Figur 5 ein Schema zur Veranschaulichung des Eliminierungsprinzips der maskierten Spektrallinien gemäß der ZWICKER-Analyse darstellt;
  • Figur 6 das Funktionsschema des Moduls zur Auswahl eines Quantifikators unter mehreren darstellt;
  • Figur 7 das Funktionsschema der Vorrichtung für die Zuordnung von Bits zu jedem Band darstellt.
  • Die Vorrichtung der Figur 1 erlaubt das Kodieren audionumerischer Daten gemäß dem Erfindungsverfahren. Das Eingangssignal x(n) 10, das bei einer Frequenz von 32 kHz oder höher abgetastet wird, wird dem Transformationsmodul 11 zugeführt. Die Abtastfrequenz entspricht der für Hi-Fi-Klang angewandten.
  • Bei einer bevorzugten Ausführung des Transformationsmoduls 11 wird bevorzugterweise die durch PRINCEN und BRADLEY ausgearbeitete Transformierte angewandt ("Adaptative Transform Coding incorporating Time Domain Aliasing Cancellation" (Adaptive Transformationskodierung durch Annullierung im Bereich zeitlicher Ereignisse aufgrund des Spektralrückzugs), in Speech Communication, Dezember 1987), auch geänderte diskrete Cosinustransformierte (TCDM) genannt. Diese Transformierte entspricht der Projektion auf eine Cosinusbasis. Die Koeffizienten der Transformierten sind definiert durch:
  • wobei:
  • N : Größe des transformierten Blocks,
  • n&sub0; = N/4 + ½ : Verschiebungsterm,
  • h(n): Wichtungsfenster der Blöcke,
  • m: Zahl des transformierten Blocks.
  • Ihr Hauptvorteil liegt darin, daß sie die Anwendung leistungsfähiger Wichtungsfenster h(n) in der Spektralebene ermöglicht, wodurch eine ausgezeichnete Trennung der transformierten Kanäle erzielt wird. Dadurch ist die Energiekonzentration stärker als mit der diskreten Fourier-Transformierten (TDF), die mit einem rechteckigen Fenster zusammenhängt.
  • Vor der Transformierung wird demnach der Block von zeitlich abgetasteten Elementen durch ein Fenster h(n) gewichtet. Es wird ein "abgeschwächtes" Fenster verwendet, zum Beispiel ein sinusförmiges Fenster, definiert durch h(n) = 2 sin(π(n+0,5)/N), wobei n von 0 bis N-1 variiert und N die Zahl der abgetasteten Elemente je Zeitblock ist. Die angewandte TCDM funktioniert in perfekter Synergie mit dieser Art von abgeschwächtem Fenster, da es diese Fensterart ermöglicht, nach Transformation, N/2 unabhängige Koeffizienten zu erhalten, wobei die anderen N/2 Koeffizienten bis auf das Vorzeichen identisch sind. Ein rechteckiges Fenster würde im Gegenteil eine spektrale Verbreitung gegenüber dem Ursprungssignal bewirken. Da andererseits seine Verwirklichung eine Überlappung der Blöcke erfordert, die 50 % der Größe der Blöcke umfaßt, ist die Zahl der transformierten Koeffizienten identisch zur Zahl der ursprünglichen Muster des mit jedem Block zu übertragenden Quellsignals. Diese Überlappung zwischen den Blöcken ist erforderlich, um die einwandfreie Wiederherstellung des Signals zu gewährleisten.
  • Die Koeffizienten y(k), die aus dem Transformationsmodul 11 kommen, werden danach den Eingängen der verschiedenen Kodierungsmodule 13, 14, 15, 16, 17 zugeführt.
  • Ein erster Block 14 führt zuerst die Eliminierung der nicht hörbaren Spektralkomponenten im umgewandelten Signal 12 durch.
  • Dieses Eliminierungsverfahren basiert zum Beispiel auf der ZWICKER- Analyse, wie weiter unten detailliert erläutert. Diese Analyse ermöglicht das Erkennen maskierter Spektrallinien, die nicht hörbaren Frequenzen entsprechen, in einem Audiosignal. Transformiertenkoeffizienten, die nicht hörbaren Komponenten entsprechen, werden nicht übertragen.
  • Da sich die TCDM durch eine gute Frequenztrennung hervorhebt, kann die Zahl eliminierter Spektrallinien beachtlich sein. Daraus ergibt sich eine bedeutende Reduzierung der Zahl der Werte, die zu übertragen sind. Da andererseits diese nicht übertragenen Koeffizienten im allgemeinen schwach sind, können die für die übertragenen Koeffizienten verwendeten Quantifikatoren entsprechend optimiert werden.
  • Das Modul zur Eliminierung der maskierten Spektrallinien 14 wird weiter unten im Zusammenhang mit Figur 2 genauer beschrieben.
  • Die beibehaltenen Spektrallinien, die am Ausgang des Moduls 14 erscheinen, bilden die Eingabe für das Modul 15, welches die Hilfsinformation berechnet und kodiert. Die durch das Modul 15 erzeugte Hilfsinformation wird durch Frequenzbänder ungleicher Breite berechnet und kann nach zwei verschiedenen Modalitäten berechnet werden. Wenn das Signal stationär ist, findet die Kodierung im Verhältnis zu den vorhergehenden Blöcken statt (Berücksichtigung des gegenseitigen Verhältnisses zwischen den Rastern), sonst handelt es sich beim laufenden Block um einen Übergangsblock und die Kodierung findet statt, ohne Berücksichtigung der Speicherfähigkeit zwischen den Blöcken.
  • Diese Kodiermittel werden im Nachfolgenden genauer beschrieben, und zwar im Zusammenhang mit Figur 3.
  • Die Ausgänge des Moduls 14 für die Eliminierung der maskierten Spektrallinien und des Moduls 15 für die Berechnung und die Kodierung der Hilfsinformation speisen das Modul 16 für die Zuordnung der Bits, die den Quantifikator 17 steuern. Der Ausgang des Blocks 16 für die Bitzuordnung liefert eine Information 18 über die Anzahl der Bits R, die für den Ausdruck eines jeden Koeffizienten y(k) des umgewandelten Signals 12 zur Verfügung stehen. Diese Bitzuordnung ist dynamisch: sie variiert von einem Block zum nächsten. Sie ist außerdem so ausgelegt, daß sie das Quantifizierungsrauschen maskiert.
  • An den Eingang des Bitzuordnungsmoduls 16 werden ebenfalls die Werte der spektralen Ausbreitungsfunktion gegeben, welche durch Frequenzbänder gemessen wird, die von einem Modul für die Berechnung und die Kodierung der Spektralausbreitung über die Koeffizienten eines umgewandelten Signals 12 bereitgestellt werden.
  • Die Funktionsweise des Bitzuordnungsmoduls 16 wird weiter unten erläutert.
  • Zuletzt erfolgt im Modul 17 die Quantifizierung der Koeffizienten y(k) des Signals 12 gemäß der Information 18 der Zahl R von zugeordneten Bits. Außerdem und gemäß eines wichtigen Erfindungsmerkmals, ermöglichen die Information 19, die am Ausgang des Coders 15 für die Hilfsinformation vorliegt sowie die aus dem Modul 14 kommende Information zur Eliminierung der maskierten Spektrallinien, die Auswahl eines Quantifikators unter mehreren verfügbaren Quantifikatoren für den laufenden Block, wie weiter unten gezeigt.
  • Die Dekodierung erfolgt vollkommen symmetrisch zur Kodierung.
  • Figur 2 stellt das Funktionsschema des Moduls 14 für die Eliminierung der maskierten Spektrallinien dar.
  • Die Funktion dieses Moduls besteht in der Diskriminierung der aufgrund der Maskierung nicht hörbaren Spektrallinien, um sicherzustellen, daß nur die für die Wahrnehmung nützlichen Daten übertragen werden.
  • Dieses Verfahren ist besonders vorteilhaft für Töne mit breitem Spektrum, die viele Obertöne umfassen. In diesem Falle ist eine bedeutende Zahl von Koeffizienten maskiert. Dies ist genau die Art von Signal, die aufgrund der zu übertragenden Datenmenge einen stärkeren Durchsatz erfordert.
  • Die Vorrichtung umfaßt ein Modul für die Erfassung der maskierten Spektrallinien. Diese Erfassung betrifft das reelle Spektrum und wird nur im Coder durchgeführt. Sie beruft sich auf die Frequenzmaskierungskurven nach der ZWICKER-Analyse. Wie in Figur 5 veranschaulicht wird es deutlich, daß für jede übertragene Spektrallinie 51, die Spektrallinien, die sich unterhalb einer Linie 52 von -25 dB je kritisches Band vor der Spektrallinie und unterhalb einer Linie 53 von -10 dB je kritisches Band nach der Spektrallinie befinden, nicht hörbar sind. Diese zwei Neigungen entsprechen jeweils der vorausgehenden und der nachgehenden Frequenzmaskierung.
  • Das Spektrum wird in 24 kritische Bänder B&sub1;, B&sub2;, B&sub3; unterteilt und mit dem Ohrenübertragungsfaktor a&sub0; für jeden der Bänder multipliziert.
  • Die Berechnung der Maskierungsschwelle wird aufgeteilt in "innerhalb des kritischen Bandes" und "zwischen den kritischen Bändern".
  • Die bandinterne Maskierung entspricht dem gesamten Maskierungseffekt aller Spektrallinien 51&sub1;, 51&sub2; innerhalb des selben Bandes B&sub2;. Die Berechnung der bandinternen Maskierungsschwelle erfolgt durch Addieren der Beiträge aller Koeffizienten y(k) des transformierten Signals.
  • Betrachtet man das kritische Band j, mit bb(j) als untere Grenze und bh(j) als obere Grenze, so ist der Beitrag des Koeffizienten y(k) zur bandinternen Maskierungsschwelle Sin(i) gegeben durch:
  • sink (i) =θ(y(k)².a&sub0;(j))
  • mit bb(j)≤i≤k-3 et k+3≤i≤bh(j)
  • wobei O eine konstante Verschiebung entsprechend -30 dB ist.
  • Wie man sieht wird die Maskierungsschwelle der 4 nächstliegenden Koeffizienten nicht von den Koeffizienten y(k) beeinflußt. Diese Vorsichtsmaßnahme ist erforderlich, um unpassende Nulleinstellungen zu vermeiden, die um die Scheitelpunkte der Spektren vorkommen können.
  • Zuletzt erhält man die bandinterne Maskierungsschwelle durch Summierung der sink(i):
  • Die Maskierung zwischen den Bändern ergibt sich durch das Berücksichtigen des Maskierungseffektes der benachbarten Bänder in jedem Band B&sub2;. In der Tat wird nur die nachträgliche Maskierung (die der Bänder 51&sub3; des Bandes B3) bei der Berechnung der Maskierungsschwelle zwischen den Bändern berücksichtigt. Die vorhergehende Maskierung (Band B&sub1;) ist zu schwach, um die Zahl der in jedem Block maskierten Spektrallinien merklich zu verringern (-25 dB je kritischen Band statt -10 dB).
  • Der Beitrag soutj(i) eines jeden kritischen Bandes j für die Maskierung der nachfolgenden Bänder (i> j) wird berechnet durch:
  • Der Wert der gesamten Maskierung zwischen den Bändern ist für das kritische Band i:
  • Zuletzt wird die Endmaskierungsschwelle für den Koeffizienten y(i) des kritischen Bandes j durch Summierung ermittelt:
  • s(i) = sin(i) + sout(j)
  • Die Energie des Koeffizienten y(i), multipliziert mit dem Übertragungsfaktor a&sub0;(j), wird dann mit der so definierten Maskierungsschwelle verglichen. Ist a&sub0;(j) y²(i)< s(i), so gilt der Koeffizient y(i) als maskiert.
  • Diese Funktion wird durch das Untermodul 21 in Figur 2 wahrgenommen. In dieser Figur werden die Hauptuntermodule im Detail dargestellt, die das Modul 14 für die Eliminierung der maskierten Spektrallinien der Figur 1 zusammenstellen.
  • Vorteilhafterweise folgt der Erfassung der maskierten Spektrallinien im Untermodul 14 eine Kodierung der Indizes der maskierten Spektrallinien, die vom Block 20 verwirklicht wird. Diese Kodierung, die erforderlich ist, um den Decoder die Nummern der maskierten Koeffizienten mitzuteilen, benutzt beispielsweise die Kodierungstechnik der Folgenlängen ("Run Length Coding").
  • Sei Im(k) ein Bit, das 1 ist, wenn der Koeffizient y(k) maskiert ist. Die Reihe der {Im(k), k=0,...,N/2} weist mehr oder weniger lange ununterbrochene Folgen von 0 und 1 auf, die im Untermodul 22 gebildet werden. Die Länge der Folgen ist es, die mit Hilfe eines Codes mit variabler Länge 23 übertragen wird. Folgen viele Spektrallinien gleichen Zustands ohne Diskontinuität aufeinander, so kann der Durchsatz, der dieser Hilfsinformation zugeordnet werden muß, gering sein.
  • Die Kodierung variabler Länge des Untermoduls 23 wird vorteilhafterweise durch ein HUFFMANN-Code sichergestellt, das aus einer experimentellen Wahrscheinlichkeitsdichte berechnet wurde.
  • Die Kodierung der Folgen beginnt erst bei der ersten maskierten Spektrallinie. Deren Nummer wird über 9 Bits gesendet.
  • Im Coder besteht das "Run Length Coding" lediglich in der Suche aller Folgen von 0 und 1, denen das entsprechende Huffmann-Codewort zugeordnet wird.
  • Die Länge der Folgen ist auf Maximalwerte begrenzt: 64 Koeffizienten für Folgen von 0 und 128 Koeffizienten für Folgen von 1. Werden diese Grenzen überschritten, so wird eine Folge der Länge null und mit umgekehrtem Zustand übertragen. Dieser Folge der Länge null ist ein Huffmann-Codewort zugeordnet, das ebenfalls (außerhalb der Linie) nach dem Vorkommen der Folge berechnet wird.
  • Nach Empfang der Nummer der ersten maskierten Spektrallinie ist es ausreichend, im Decoder die Huffmann-Codes zu dekodieren. Die Folgen verschiedener Längen von 0 und 1 ermöglichen die exakte Wiederherstellung der Reihe {Im(k)}.
  • Wenn die Folgen von 0 und 1 sehr zerstückelt sind, so kann der Durchsatz an Hilfsinformationen groß sein. Für eine geringe Zahl maskierter Spektrallinien kann der Gewinn der Nichtübertragung null oder gar negativ sein. Es ist dann angebracht, diese Nichtübertragung zu unterlassen oder sie zumindest auf gewisse Frequenzbereiche zu beschränken.
  • Dafür muß die mittlere Bitzahl je Koeffizient in den 2 Fällen berechnet werden:
  • - Übertragung aller Koeffizienten:
  • R&sub1;(k) = (R&sub0; - Rifs)/(N/2)
  • wobei R&sub0; die Gesamtzahl von Bits je Block ist,
  • Rifs die Zahl von Bits ist, die für die Übertragung der Hilfsinformation für die Beschreibung des Spektrums benötigt wird. In der Tat ist Rifs der Wert des vorherigen Blocks.
  • - Nichtübertragung der durch Anwendung der Folgenlängenkodierung maskierten Spektrall inien:
  • R&sub2;(k) = (R&sub0;-Rifs-Rim)(N/2-Nrm)
  • wobei Rim der Hilfsdurchsatz zum Kodieren der Folgenlängen ist,
  • Nrm die Zahl der maskierten Spektrallinien ist.
  • Die Nichtübertragung der maskierten Spektrallinien erfolgt für das gesamte betrachtete Band, wenn das Untermodul 24 für die Test- und Durchsatzberechnung feststellt, daß
  • Rim < Nrm.(2(R&sub0;-Rifs)/N)
  • ist.
  • Wird diese Bedingung nicht eingehalten, so wird der Test in 4 Frequenzunterbändern gleicher Breite des betrachteten Bandes durchgeführt. Bei der Suche nach den Folgen von 0 und 1 werden die "örtlichen" Werte Rim(l) und Nrm(l) (l = 1,...,4) berechnet.
  • Wenn Rim(l) < Nrm(l) (2(R&sub0; - Rifs)/N), d. h., der Zugewinn an Bits ist für das Unterband l der betrachteten Frequenz positiv, so wird der "Run Length Code" auf die Koeffizienten dieses Unterbands l angewandt.
  • Ansonsten werden alle Koeffizienten dieses Bandes als nicht maskiert angesehen, und der Indizes des ersten auf den Wert 0 gezwungenen Koeffizienten wird dementsprechend geändert.
  • Das Untermodul 25 für die Validierung der Kodierung steuert das Untermodul 23 für die variable Längenkodierung, abhängig davon, ob die Kodierung erforderlich ist oder nicht.
  • Der mittlere Hilfsdurchsatz liegt in der Größenordnung von 0,8 Bits je maskierter Spektrallinie. Dieser niedrige Wert beweist, daß die Kodierung der Folgenlängen sich günstig auswirkt.
  • Figur 3 stellt das detaillierte Funktionsschema des Moduls 15 für die Berechnung und die Kodierung der Hilfsinformation dar.
  • Die Übertragung einer Hilfsinformation ist für die Berechnung der Bitzuordnung und für die Quantifizierung der Koeffizienten erforderlich. Diese Hilfsinformation 19 ist in der Tat ein mehr oder weniger genauer Deskriptor des Signalspektrums.
  • In der beschriebenen Ausführung wird der Spektrumsdeskriptor in einem Untermodul 31 nach ungleich breiten Frequenzbändern berechnet. Das Spektrum ist zum Beispiel in 50 Frequenzgruppen unterteilt.
  • Die Grenzen dieser Bänder, bsib(j) und bsih(j), halten die Grenzen der kritischen Bänder ein. Die schmalsten Bänder (j = 1,...,14) haben die gleiche Breite wie die entsprechenden kritischen Bänder. Die anderen Bänder haben zunehmende Breiten, wobei das letzte Band (j = 50) eine Breite von 562,5 Hz erreicht (d. h. 18 Koeffizienten).
  • Der verwendete Spektrumsdeskriptor (j) gleicht dem typischen Abstand der nicht maskierten Spektrallinien in jedem dieser Bänder:
  • Nsi(j) ist die Anzahl nicht maskierter Koeffizienten im Band j.
  • Die Originalität dieser Informationskodierung gemäß der Erfindung besteht in der Berücksichtigung der existierenden Korrelation zwischen den aufeinanderfolgenden Transformiertenblocks mittels einer vorhersagenden Kodierung. So kann der Coder alle Signalkorrelationen (kurz- und längerfristig) nutzen.
  • Die Kodierung der Hilfsinformation wird üblicherweise ohne Berücksichtigung der Wahrnehmungseigenschaften durchgeführt, im Unterschied zur Quantifizierung der Koeffizienten. Es ist aber empfehlenswert, so viele Bits wie möglich für den Durchsatz des Hauptsignals 101 zu reservieren und daher den Durchsatz der Hilfsinformation 19 zu reduzieren.
  • Eine direkte Kodierung der Komponenten des Spektrumsdeskriptors (m,j) (m ist die Blocknummer) erfordert einen hohen Durchsatz. Da allgemein die Signale stark stationär sind, ist der Spektrumsdeskriptor von einem Block zum folgenden sehr korreliert.
  • Der direkteste Weg, um diesen stationären Zustand zu nutzen, ist die Durchführung einer vorhersagenden Kodierung 32. Aufgrund der großen Spektraldynamik ist die Anwendung der Vorhersage auf (m,j) in dB ausgedrückt vorzuziehen. In der Tat weist das Verhältnis (m,j)/ (m-1,j) eher einen starken Gewinn an Vorhersage auf, als die Differenz (m,j) - (m-1,j).
  • Wie in der Figur 4 dargestellt, umfaßt diese vorhersagende Kodierung einen Konversionsoperator 41 über einer logarithmischen Skala, gefolgt vom MIC-Differentialcode und von einer Kodierungsvorrichtung 43 mit variabler Länge.
  • Die Vorhersage wird durch einen Prediktor 44 der Ordnung 1 verwirklicht. Der Vorhers agekoeffizient a&sub1; kann einen Wert zwischen 0,95 und 1 annehmen. An den Eingang dieses Prediktors 44 wird der quantifizierte vorausgegangene Wert log( '(m,j)) gelegt.
  • Der Vorhersagefehler
  • e(m,j) = log( (m,j)) - a&sub1;.log( '(m-1,j))
  • mit j = 1,...,50
  • wird durch einen gleichmäßigen Quantifikator 45 quantifiziert, der beispielsweise 32 Ebenen für eine Dynamik von [-2,2] hat.
  • Da das Signal über lange Zeiträume stationär ist, ist die Wahrscheinlichkeitsdichte der Codewörter am Ausgang des Quantifikators 45 sehr konzentriert. Demnach werden diese Codewörter einer variablen Längenkodierung 43 (HUFFMAN-Kodierung) unterworfen, welche die Verringerung der Übertragungsrate der Spektrumsdeskriptoren auf etwa 2,5 Bits je Wert '(m,j) ermöglicht.
  • Den Wert log( '(m,j)) erhält man durch das Summieren 46 des von einem umgekehrten Quantifikators 47 gelieferten Wertes, der dem beim Dekodieren erhaltenen Wert entspricht, mit dem aus dem Prediktor 44 kommenden, vorhergehenden Wert.
  • Ist ein Frequenzband vollkommen maskiert (Nsi(j)=0), so ist die Übertragung eines Codeworts für das Band j nicht erforderlich. In der Tat ist in diesem Fall der Wert von '(m,j) dem Decoder durch die Information bezüglich der maskierten Spektrallinien bekannt.
  • Um jedoch zu verhindern, daß sich ein Sendefehler bei den Bits I(m,k) auf die Werte '(m,j) überträgt, wird eine Redundanz absichtlich in die Kodierung eingeführt: wenn Nsi=0, so wird ein spezifisches Codewort gesendet, welches als Funktion seines Auftretens berechnet wird, wie die anderen Codemodalitäten.
  • Ist demnach das Band nicht mehr vollständig maskiert, so betrifft die Vorhersage den letzten gesendeten Wert '(m-p,j), der nicht null ist.
  • Bei Spektralübergängen (nicht stationärer Signalzustand) gilt dieses Quantifizierungsverfahren nicht mehr, weil es einen zu hohen Durchsatz erfordert, um dieselbe Quantifizierungsgenauigkeit zu gewährleisten. Es muß dann eine Kodierung ohne Speicherung von (m,j) angewandt werden, die im Untermodul 34 ausgeführt wird.
  • Diese zweite Kodierung 34 ist der vorhergehenden ähnlich. Die Vorhersage erfolgt über die Frequenzen statt über die aufeinanderfolgenden Transformiertenblöcken. Der Vorhersagefehler wird mit Hilfe des folgenden Ausdrucks berechnet:
  • e(m,j) = log( (m,j)) - log( '(m,j-1))
  • Dabei wird e(m,j) durch einen gleichmäßigen Quantifikator kodiert, der zum Beispiel eine Dynamik von 100 dB und 50 Quantifizierungsniveaus hat. Die Ausgangscodewörter unterliegen ebenfalls einer HUFFMAN-Kodierung.
  • Der erste Wert '(m,l) wird getrennt gesendet.
  • Ein Modul 33 für die Auswahl der Kodierungsart wählt die beste Kodierung nach der Zahl der verbrauchten Bits. Wenn der für die Kodierung zwischen den Rastern erforderliche Durchsatz einen im voraus festgelegten Schwellwert überschreitet, so wird die zweite Kodierungsart 34 verwendet. Diese Wahl wird an den Decoder mit Hilfe eines Entscheidungsbits 35 gesendet.
  • Für die Auswahl der Kodierungsart ist es ebenfalls möglich, ein anderes Kriterium als das der Durchsatzminimierung zu berücksichtigen. Man kann beispielsweise so einwirken, daß der Effekt der Sendefehler minimiert wird.
  • Der Prediktor 44 der Figur 4 ist ein selbst rückschreitender Prediktor der Ordnung 1 (AR(1)) mit einem Vorhersagekoeffizienten, der sehr nahe bei 1 liegt. Es besteht daher die Gefahr einer unkontrollierten Fortpflanzung der Effekte von Sendefehlern. Da die Hilfsinformation von hoher Wichtigkeit ist, u. a. für die Bitzuordnung, muß die Kodierung zwischen den Rastern erneut initialisiert werden. Dazu wird für alle Blöcke, deren Rang ein Vielfaches von 16 ist, die Kodierung ohne Speicher zwischen den Blöcken angewandt, auch wenn das Signal stationär ist.
  • Die Koeffizienten y(k) 12 werden mit Hilfe ungleichmäßiger adaptiver Quantifikatoren kodiert. Die Anpassung wird durch den Deskriptor des quantifizierten Spektrums '(m,j) verwirklicht, wobei j die Nummer des Bandes ist, dem y(k) angehört.
  • Jeder Wert '(m,j) stellt eine variable Zahl Nsi(j) von Koeffizienten y(k) dar, die nicht null sind wegen der variablen Frequenzbandbreiten und der Vorrichtung zur Erfassung der maskierten Spektrallinien. Die Leistungen der Quantifikatoren variieren in Abhängigkeit der Zahl der zu quantifizierenden Koeffizienten Nsi(j).
  • Nach der Erfindung und zum Optimieren des Kodierungssystems, sind mehrere Quantifikatorensätze als Funktion von Nsi(j) verfügbar. Figur 6 stellt das Funktionsschema des Auswahlmoduls für den anzuwendenden Quantifikator dar.
  • So stehen beispielsweise in der folgenden Konfiguration 5 Quantifikatorensätze 61&sub1; bis 61&sub5; zur Verfügung. Ein Modul 62 zum Testen auf dem Wert Nsi(j) steuert ein Auswahlmodul 63 nach den folgenden Kriterien:
  • - der erste Satz für die Bänder mit einem Koeffizienten, der nicht null ist: Nsi(j) = 1;
  • - der zweite Satz für: Nsi(j) = 2;
  • - der dritte Satz für: 6 > Nsi(j) > 2;
  • - der vierte Satz für: 10 > Nsi(j) > 5;
  • - der fünfte Satz für: Nsi(j) > 9.
  • In jedem Falle wurden optimale Quantifikatoren für eine Anzahl von Bits, die zum Beispiel zwischen 1 und 6 variiert, berechnet. Eine zweite Auswahlvorrichtung 64 erlaubt die Wahl des optimalen Quantifikators aus jedem Quantifikatorsatz 65&sub1; bis 65&sub6;, abhängig von der Bitanzahl R 18. So erfolgt die Optimierung der Quantifikatorenwahl als Funktion der Zahl der zu quantifizierenden Koeffizienten und der Zahl der durch das entsprechende Modul zugeordneten Bits.
  • Figur 7 stellt die Zuordnungsvorrichtung der Bits zu jedem Band nach der Erfindung dar.
  • Die Bitzuordnung ist konzipiert, um die spektrale Gestaltung des Rauschens nach Wahrnehmungskriterien durchzuführen. Sie minimiert das Verhältnis Rauschen/Maskierungsschwelle. Diese Prozedur erfolgt im Coder und im Decoder und basiert auf dem vorher übertragenen Spektrumsdeskriptor.
  • Die Bitzuordnung umfaßt ein Modul 71 für die Berechnung der Maskierungsschwelle S(k) - wobei diese Berechnung ähnlich ist wie die zur Erfassung der maskierten Spektrallinien - und ein Modul 72 für die Quantifizierung des Verhältnisses &alpha;(k) &beta;(k) ²(k)/S(k), vergleichbar mit dem von Yannick MAHIEUX im Artikel Transform Coding of Audio Signals Using Correlation between successive Transform Blocks" (Kodierung durch Umwandlung von Audiosignalen unter Anwendung der Korrelation zwischen den aufeinanderfolgenden transformierten Blöcken)(Dokumentation der ICASSP-Tagung, 1989, Glasgow) beschriebenen.
  • ²(k) ist das Quadrat des Spektrumsdeskriptors, ausgeweitet auf alle Koeffizienten y(k) des Bandes. Es handelt sich dabei um das wesentliche Element des zu quantifizierenden Verhältnisses. Da die Koeffizienten mit verschiedenen Quantifikatorensätzen (nach Nsi(j)) kodiert werden, ist es erforderlich, die relativen Leistungen eines jeden Quantifikatorensatzes in die Bitzuordnung einzufügen, gemäß dem Werk von JAYANT und NOLL "Digital Coding of Waveforms"(Digitale Kodierung von Wellenformen)(1984; Prentice Hall Signal Processing Series).
  • Die Funktion &alpha;(k) gleicht dem Leistungsfaktor des für den Koeffizienten y(k) anzuwendenden Quantifikators. Eine Tabelle 73 umfaßt beispielsweise 5 Werte von &alpha;(k), die vorher berechnet wurden. Diese Tabelle wird durch die Zahl der Koeffizienten, die nicht gleich null sind, adressiert. Die Berücksichtigung der reellen Leistungen der Quantifikatorensätze ermöglicht eine sehr merkliche Verbesserung der Kodierungsqualität.
  • Das Modul 74 für die Berechnung der Funktion &beta;(k) berücksichtigt wiederum die spektrale Ausbreitungsfunktion &gamma;, auch nach JAYANT und NOLL. Diese Funktion gibt an, ob das Spektrum betroffen ist oder nicht und wird im Coder durch den Ausdruck berechnet:
  • Für die Bitzuordnung wird &gamma; in 4 gleich breiten Frequenzbändern berechnet. Diese 4 Werte werden an den Decoder mit Hilfe eines gleichmäßigen Quantifikators über 6 Bits gesendet.
  • In jedem dieser 4 Frequenzbänder wird die Funktion &beta;(k) nach dem Wert von &gamma; über eine nicht lineare Funktion berechnet. Die Rolle von &beta;(k) besteht darin, die Bitzuordnung dazu zu zwingen, den Spektrumsabschnitten, die Scheitelpunkte umfassen, eine größere Bitzahl zuzuordnen. In der Tat müssen die Koeffizienten y(k), die den im Signal enthaltenen reinen Klängen entsprechen, genauer kodiert werden, wobei die Maskierungsschwelle einen niedrigeren Pegel im Verhältnis zum Signalpegel hat, als dies bei einem Rauschspektrum der Fall wäre.
  • Die explizite Erfassung der nicht hörbaren Spektralkomponenten sowie die Verwendung der Korrelation zwischen den Blöcken ermöglichen die Durchsatzverringerung eines hochqualitativen Signals, dessen ursprüngliche Abtastungsfrequenz höher als 32 kHz ist, auf einen Wert in der Größenordnung von 64 Bits/s, wobei vom Standpunkt des hörbaren Ergebnisses, die Qualität des Ausgangssignals erhalten bleibt.

Claims (19)

1. Verfahren für die Kompression eines audiodigitalen Signals (10), das über einen Kanal mit begrenztem Durchsatz gesendet und/oder auf einem digitalen Datenträger gespeichert werden soll, welches folgendes umfaßt
- Mittel (11) zum Umwandeln des audiodigitalen Signals (10) in ein umgewandeltes digitales Signal (12), das eine Vielfalt von Spektralkomponenten enthält, die über einem Satz nebeneinanderliegender Frequenzbänder verteilt sind, welche das gesamte Spektrum des umgewandelten Signals abdecken;
- Quantifizierungsmittel (17) der Spektralkomponenten, die ein Hauptsignal ergeben;
- Mittel (15) zur Feststellung einer Beschreibung (19) des Spektrums des umgewandelten Signals (12), die ein erstes Hilfssignal bilden; und
- Mittel (16) für die Zuordnung von Bits, die die Quantifizierungsmittel (127) dadurch steuern, daß sie jedem der Frequenzbänder eine Zahl (18) spezifischer Bits für die Quantifizierung der Spektralkomponenten des Frequenzbandes zuordnen, insbesondere ausgehend von einer psycho-auditiven Analyse (71) der Beschreibung des Spektrums,
dadurch gekennzeichnet, daß es zusätzlich über Mittel (14) zur vorherigen Eliminierung von Spektralkomponenten des umgewandelten Signals in Abhängigkeit eines psycho-auditiven Kriteriums verfügt, welches ein zweites Hilfssignal erzeugt, das repräsentativ für die eliminierten Spektralkomponenten ist, die entsprechend gespeichert wurden, wobei das zweite Hilfssignal die Bitzuordnungsmittel (16) derart informiert, daß die Zahl (18) von Bits die Zahl der Spektralkomponenten berücksichtigt, die in jedem der Frequenzbänder gespeichert wird, um die Bitzuordnung zu optimieren,
wobei das erste und zweite Hilfssignal zusammen mit dem Hauptsignal gesendet und/oder gespeichert wird, um dessen Dekompression zu ermöglichen.
2. Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, daß das zweite Hilfssignal durch Kodierungsmittel (22, 23) für die Länge der Folgen kodiert wird, welche die Indizes der maskierten Spektralkomponenten kodieren, die entsprechend gespeichert sind, wobei ein erster Binärwert den gespeicherten Spektralkomponenten zugeordnet wird.
3. Verfahren gemäß irgendeinem der Ansprüche 1 und 2, dadurch gekennzeichnet, daß es (in bekannter Weise) über Mittel (21) zur Berechnung der Maskierungsschwelle von Spektralkomponenten gemäß eines psycho-auditiven Kriteriums enthält, um die Zuordnung (16; 72) der Bits in jedem der Bänder zu optimieren.
4. Verfahren gemäß irgendeinem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß das psycho-auditive Kriterium gemäß dem psycho-auditiven Maskierungskriterium nach ZWICKER funktioniert.
5. Verfahren gemäß irgendeinem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß die Quantifizierungsmittel (17, 61&sub1; bis 61&sub6;) mindestens zwei verschiedene Quantifikatoren (61&sub1; bis 61&sub6;) umfassen, sowie Mittel (63) zur selektiven Zuordnung eines der Quantifikatoren zu jedem der Spektralbänder des umgewandelten Signals als Funktion des zweiten Hilfssignals, das die Zahl der im Band gespeicherten Komponenten nach der Eliminierung der maskierten Koeffizienten angibt.
6. Verfahren gemäß irgendeinem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß es über Mittel (72) zur Minimierung eines Verhältnisses Quantifizierungsrauschen/Maskierungsschwelle in jedem der Bänder verfügt.
7. Verfahren gemäß Anspruch 6,
dadurch gekennzeichnet, daß das Quantifizierungsrauschen als Funktion von mindestens einer der drei Informationen festgestellt wird, die der Gruppe angehören, welche folgendes umfaßt:
- der typische Abstand der Spektralkomponenten, die im Band nicht eliminiert wurden;
- einen Leistungsfaktor des für das Band ausgewählten Quantifikators;
- eine Information für die spektrale Ausbreitung des Bandes.
8. Verfahren gemäß Anspruch 2, dadurch gekennzeichnet, daß die Mittel (23) für die Kodierung der Sequenzlängen einen Code variabler Länge vom Typ des HUFFMAN Codes anwenden.
9. Verfahren gemäß einem der Ansprüche 2 und 8, dadurch gekennzeichnet, daß die Mittel (23) für die Kodierung der Sequenzlängen ein für das Kodieren der Frequenzbänder spezifisches Codewort erzeugen, für welche alle die Komponenten eliminiert wurden.
10. Verfahren gemäß irgendeinem der Ansprüche 2, 8 und 9, dadurch gekennzeichnet, daß die Mittel (23) zum Kodieren der Sequenzlängen durch Auswahlmittel (25) aktiviert werden, als Funktion einer Durchsatzerhöhungsinformation, welche durch die Kodierung erbracht wird.
11. Verfahren gemäß irgendeinem der Ansprüche 1 bis 10, dadurch gekennzeichnet, daß es mit Kodierungsmitteln (15; 32, 34) des ersten Hilfssignals zusammenarbeitet, das der Spektrumbeschreibung entspricht.
12. Verfahren gemäß Anspruch 11, dadurch gekennzeichnet, daß die Kodierungsmittel (15) über Mittel (32) für die vorhersagende Kodierung verfügen.
13. Verfahren gemäß Anspruch 12, dadurch gekennzeichnet, daß die vorhersagenden Kodierungsmittel (32) Mittel umfassen, die der Gruppe angehören, welche die Mittel (41) zur logarithmischen Konversion, die Mittel (44) zur differentiellen MIC- Kodierung und die Kodierungsmittel (43) über Codes variabler Länge vom Typ der HUFFMAN-Codes umfassen.
14. Verfahren gemäß irgendeinem der Ansprüche 12 und 13, dadurch gekennzeichnet, daß die Kodierungsmittel (15) auch Mittel (34) zur Kodierung ohne Interblock-Speicher umfassen, wobei die vorhersagenden Kodierungsmittel (32) und die speicherlosen Kodierungsmittel (34) gemäß eines vorher festgelegten Kriteriums ausgewählt werden.
15. Verfahren nach Anspruch 14, dadurch gekennzeichnet, daß das vorgegebene Kriterium ein Kriterium für geringen Durchsatz und/oder ein Kriterium zur Minimierung des Übertragungsfehlers ist.
16. Verfahren gemäß irgendeinem der Ansprüche 1 bis 15, dadurch gekennzeichnet, daß mindestens eine der Informationen, die der Gruppe angehören, welche die, der Beschreibung des Spektrums entsprechenden Hilfsinformation (19), die Information, die von den Mitteln zur Eliminierung nicht hörbarer Komponenten erzeugt werden und eine Information zur Spektralausbreitung umfaßt, zusammen mit jedem der Hauptinformationsblöcke übertragen oder gespeichert wird.
17. Verfahren gemäß irgendeinem der Ansprüche 1 bis 16, dadurch gekennzeichnet, daß das umgewandelte Digitalsignal (12) durch Mittel (11) zur Kodierung durch Umwandlung erzeugt wird, die eine Transformierte vom Typ der geänderten diskreten Cosinustransformierten nach PRINCEN und BRADLEY anwenden.
18. Verfahren gemäß Anspruch 17, dadurch gekennzeichnet, daß die Transformationskodierungsmittel (11) über abgeschwächte Fensteranordnungsmittel des zeitlichen Signals verfügen, welches eine Symmetrie im transformierten Signal erscheinen läßt.
19. Verfahren gemäß Anspruch 18,
dadurch gekennzeichnet, daß die Fensteranordnungsmittel ein Fenster anwenden, das durch:
F(n) = 2sin(&pi;(n+0,5)/N) n = 0,...,N-1 definiert ist,
wobei N die Zahl der Spalten des Fensters ist.
DE69015105T 1989-10-13 1990-10-12 Kompressionseinrichtung für transformiertes, digitales Audiosignal mit adaptiver Quantisierung auf Grund eines psycho-akustischen Kriteriums. Expired - Lifetime DE69015105T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR8913649A FR2653280B1 (fr) 1989-10-13 1989-10-13 Dispositif d'allocation de bits pour signal audio-numerique transforme, a quantification adaptative sur critere psycho-auditif.

Publications (2)

Publication Number Publication Date
DE69015105D1 DE69015105D1 (de) 1995-01-26
DE69015105T2 true DE69015105T2 (de) 1995-07-20

Family

ID=9386536

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69015105T Expired - Lifetime DE69015105T2 (de) 1989-10-13 1990-10-12 Kompressionseinrichtung für transformiertes, digitales Audiosignal mit adaptiver Quantisierung auf Grund eines psycho-akustischen Kriteriums.

Country Status (4)

Country Link
EP (1) EP0423050B1 (de)
JP (1) JP3168578B2 (de)
DE (1) DE69015105T2 (de)
FR (1) FR2653280B1 (de)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5115240A (en) * 1989-09-26 1992-05-19 Sony Corporation Method and apparatus for encoding voice signals divided into a plurality of frequency bands
JP3134455B2 (ja) * 1992-01-29 2001-02-13 ソニー株式会社 高能率符号化装置及び方法
DE69322529T2 (de) * 1992-02-05 1999-04-29 Sony Corp Plattenabspielgerät und Plattenaufzeichnungsgerät
FR2687871B1 (fr) * 1992-02-25 1995-07-07 France Telecom Procede et dispositif de filtrage pour la reduction des preechos d'un signal audio-numerique.
JP3153933B2 (ja) * 1992-06-16 2001-04-09 ソニー株式会社 データ符号化装置及び方法並びにデータ復号化装置及び方法
JP3127600B2 (ja) * 1992-09-11 2001-01-29 ソニー株式会社 ディジタル信号復号化装置及び方法
JP3343962B2 (ja) * 1992-11-11 2002-11-11 ソニー株式会社 高能率符号化方法及び装置
JP3186292B2 (ja) * 1993-02-02 2001-07-11 ソニー株式会社 高能率符号化方法及び装置
JP3186307B2 (ja) * 1993-03-09 2001-07-11 ソニー株式会社 圧縮データ記録装置及び方法
JP3123290B2 (ja) * 1993-03-09 2001-01-09 ソニー株式会社 圧縮データ記録装置及び方法、圧縮データ再生方法、記録媒体
US5581654A (en) * 1993-05-25 1996-12-03 Sony Corporation Method and apparatus for information encoding and decoding
US5608713A (en) * 1994-02-09 1997-03-04 Sony Corporation Bit allocation of digital audio signal blocks by non-linear processing
JP3186412B2 (ja) * 1994-04-01 2001-07-11 ソニー株式会社 情報符号化方法、情報復号化方法、及び情報伝送方法
JP3250376B2 (ja) * 1994-06-13 2002-01-28 ソニー株式会社 情報符号化方法及び装置並びに情報復号化方法及び装置
JP3277699B2 (ja) * 1994-06-13 2002-04-22 ソニー株式会社 信号符号化方法及び装置並びに信号復号化方法及び装置
JP3277705B2 (ja) 1994-07-27 2002-04-22 ソニー株式会社 情報符号化装置及び方法、並びに情報復号化装置及び方法
JP3341474B2 (ja) * 1994-07-28 2002-11-05 ソニー株式会社 情報符号化方法及び復号化方法、情報符号化装置及び復号化装置、並びに情報記録媒体
JP3557674B2 (ja) * 1994-12-15 2004-08-25 ソニー株式会社 高能率符号化方法及び装置
JP3318825B2 (ja) * 1996-08-20 2002-08-26 ソニー株式会社 デジタル信号符号化処理方法、デジタル信号符号化処理装置、デジタル信号記録方法、デジタル信号記録装置、記録媒体、デジタル信号伝送方法及びデジタル信号伝送装置
GB2321577B (en) * 1997-01-27 2001-08-01 British Broadcasting Corp Audio compression

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3276651D1 (en) * 1982-11-26 1987-07-30 Ibm Speech signal coding method and apparatus
EP0338040A1 (de) * 1987-09-30 1989-10-25 Deutsche Thomson-Brandt GmbH Verfahren zur übertragung eines audiosignals

Also Published As

Publication number Publication date
DE69015105D1 (de) 1995-01-26
EP0423050A1 (de) 1991-04-17
FR2653280A1 (fr) 1991-04-19
JPH03167927A (ja) 1991-07-19
JP3168578B2 (ja) 2001-05-21
EP0423050B1 (de) 1994-12-14
FR2653280B1 (fr) 1992-01-10

Similar Documents

Publication Publication Date Title
DE69015105T2 (de) Kompressionseinrichtung für transformiertes, digitales Audiosignal mit adaptiver Quantisierung auf Grund eines psycho-akustischen Kriteriums.
DE69333786T2 (de) Verfahren zum Kodieren und Dekodieren von Audiodaten
DE69015613T2 (de) Transformationscodierer, -decodierer und -codierer/decodierer mit kurzer zeitverzögerung für audio-anwendungen hoher qualität.
DE69401514T2 (de) Vom rechenaufwand her effiziente adaptive bitzuteilung für kodierverfahren und kodiereinrichtung
EP0931386B1 (de) Verfahren zum signalisieren einer rauschsubstitution beim codieren eines audiosignals
DE60214027T2 (de) Kodiervorrichtung und dekodiervorrichtung
DE19811039B4 (de) Verfahren und Vorrichtungen zum Codieren und Decodieren von Audiosignalen
DE4320990B4 (de) Verfahren zur Redundanzreduktion
EP0193143B1 (de) Verfahren zur Übertragung eines Audiosignals
EP0954909B1 (de) Verfahren zum codieren eines audiosignals
DE69107841T2 (de) Transformationskodierer und -dekodierer mit adaptiver blocklänge, adaptiver transformation und adaptivem fenster für hochwertige tonsignale.
DE19747132C2 (de) Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms
DE60310716T2 (de) System für die audiokodierung mit füllung von spektralen lücken
DE60225276T2 (de) Codierungsvorrichtung und -verfahren, decodierungsvorrichtung und -verfahren und programm
DE69026278T2 (de) Adaptiv Bitzuordnung für Audio-Koder und Dekoder
EP0290581B1 (de) Verfahren zum übertragen digitalisierter tonsignale
DE69401512T2 (de) Hybride adaptive bitzuteilung für audiokoder und -dekoder
DE69930848T2 (de) Skalierbarer audiokodierer und dekodierer
EP0414838B2 (de) Verfahren zur übertragung eines signals
DE69017074T2 (de) Verfahren und Einrichtung zur Codierung von Audio-Signalen.
DE69826529T2 (de) Schnelle datenrahmen-optimierung in einem audio-kodierer
EP0611516B1 (de) Verfahren zur reduzierung von daten bei der übertragung und/oder speicherung digitaler signale mehrerer abhängiger kanäle
DE69106580T2 (de) Codieranordnung mit einem Unterbandcoder und Sender mit der Codieranordnung.
EP0464534B1 (de) Transformationskodierer mit adaptiver Fensterfunktion
DE10310785A1 (de) Verfahren und Architektur einer digitalen Codierung zum Übertragen und Packen von Audiosignalen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition