DE19906512C2

DE19906512C2 - Verfahren zum unbemerkten Übertragen und/oder Speichern von Zusatzinformationen innerhalb eines Signals, insbesondere Audiosignals

Info

Publication number: DE19906512C2
Application number: DE1999106512
Authority: DE
Inventors: Frank Kurth
Original assignee: Individual
Current assignee: Individual
Priority date: 1999-02-17
Filing date: 1999-02-17
Publication date: 2001-01-25
Anticipated expiration: 2019-02-18
Also published as: DE19906512A1

Description

Die Erfindung betrifft ein Verfahren zum unbemerkten Über tragen und/oder Speichern von Zusatzinformationen inner halb eines Signals, insbesondere Audiosignals entsprechend dem Oberbegriff des Anspruchs 1.

Begriffe

Die Begrifflichkeiten innerhalb der Beschreibung der Erfindung legen sich wie folgt fest. Digitale Audiosignale sind eine Repräsentation akustischer Signale als Folge diskreter zeitlicher Abtastwerte. Eine solche Repräsentation findet z. B. auf CDs, DAT-Geräten oder Digitalrechnern Anwendung. Charakteristisch ist eine bestimmte Abtastrate, z. B. 32000, 44100 oder 48000 Hz, sowie eine bestimmte Quantisierungsgenauigkeit, z. B. 12 oder 16 Bit. Hierbei gibt die Abtastrate die Anzahl diskreter Werte pro Sekunde und die Quantisierungs genauigkeit die Anzahl verwendeter Bits pro Abtastwert an. Der Oberbegriff des Anspruch 1 umfaßt die Verwendung der Komponenten eines Audiocodierverfahrens. Ein typisches solches Audiocodierverfahren ist durch den Standard ISO 11172-3 gegeben. Aufgabe von Verfahren nach ISO 11172-3 ist die Darstellung eines digitalen Audiosignals in einer codierten, datenreduzierten Form sowie die Rückgewinnung des digitalen Audiosignals hieraus. Die datenreduzierte Form besteht aus digitalen Codewörtern zur Darstellung des eigentlichen Signalinhalts, sowie aus Steuerinformationen zur decoderseitigen Bestimmung der Art der Datenreduktion und Ermöglichung der Rekonstruktion eines digitalen Audio signals.

Charakteristisch für solche Audiocodierverfahren ist die Überführung oder Transformation digitaler Audiosignale in eine Teilband- oder Spektralkomponentenrepräsentation bzw. eine entsprechende Rücküberführung oder Rücktransformation aus dieser heraus. Die Werte der Teilband- oder Spektral komponenten werden als im digitalen Audiosignal enthaltene Frequenzen oder Frequenzbänder interpretiert. Die Begriffe Teilband- und Spektralkomponenten finden im folgenden an allen Stellen eine synonyme Anwendung, an denen nur von Teilbandkomponenten gesprochen wird. Die Datenreduktion wird auf den Teilbandsignalen, üblicherweise durch den Vorgang der Quantisierung, durchgeführt. Dabei werden die Teilbandwerte durch Codewörter dargestellt, die charakteristischerweise mit weniger Bits als die Teil bandwerte repräsentiert werden. Die Datenreduktion kann weitere Schritte umfassen. Dazu gehört z. B. die Bildung von Skalenfaktoren, die durch Ausnutzung ähnlicher Amplitudenwerte innerhalb des Teilbandsignals eine kompakte Darstellung bestehend aus einem die Größenordnung der Amplituden beschreibenden Codewort, sowie mehreren den Inhalt der Teilbandwerte beschreibenden Codewörtern, erlaubt. Die übrigen verwendeten Begrifflichkeiten ergeben sich aus dem Standard ISO 11172-3.

Stand der Technik

Verfahren zur unbemerkten Übertragung von Zusatz information innerhalb anderer Datensätze sind auch als Steganographieverfahren bekannt. Diese finden besonders in der Bildverarbeitung Anwendung. Zahlreiche Grundverfahren des Standes der Technik ersetzen im wesentlichen die niederwertigsten Bits eines Datensatzes durch Bits der einzubettenden Zusatzinformation. Verfahren, die das Ziel verfolgen, die Zusatzinformation innerhalb eines daten reduzierten Signals abzulegen, betten die Zusatz information häufig nach psychovisuellen oder psycho akustischen Gesichtspunkten in den Code der daten reduzierten Werte ein.

Ein Verfahren zum unbemerkten Übertragen und/oder Speichern von Zusatzinformation innerhalb eines codierten datenreduzierten Audiosignals unter Ausnutzung psycho akustischer Gesichtspunkte ist aus DE 44 30 864 A1 bekannt. Entsprechende Verfahren speichern die Zusatz information in den niederwertigen Bits der daten reduzierten Codewörter an den Stellen, an denen den reduzierten Codewörtern mehr Bits zur Verfügung stehen, als für eine Codierung, die frei von subjektiven Beeinträchtigungen ist, laut psychoakustischem Modell nötig ist. Als Variante kann sowohl durch die Entwendung zusätzlicher niederwertiger Bits, mit einer möglichen subjektiven Verschlechterung der Tonqualität, als auch, durch eine Erhöhung der Bitrate des Codes, bei Beibehaltung der durch den Coder produzierten Teile der datenreduzierten Codeworte, eine Erhöhung der Datenrate für die Zusatzinformation erreicht werden. In einem Ausführungsbeispiel für den letzteren Fall wird die Länge der binären Codeworte durch Anfügen der zusätzlich eingefügten Bits an den Stellen, die vom Decoder als niederwertigste Bits aufgefaßt werden, erhöht. Ein Decoder der keine Kenntnis von der Zusatzinformation hat, decodiert das verlängerte Codewort. Erweitert man dieses Verfahren um die Decodierung eines gegebenen Datenstroms zu einem zeitlichen Audiosignal, erhält man ein Verfahren zum Übertragen von Zusatzinformationen innerhalb von Audiosignalen.

Verfahren aus der Bildverarbeitung, deren Aufgabe die Einbettung eines digitalen Wasserzeichens in ein gegebenes Bild ist, sind von der Aufgabenstellung her verwandt, unterscheiden sich aufgrund der stark unterschiedlichen Eigenschaften zwischen Bild- und Audiosignalen jedoch erheblich vom erfindungsgemäßen Verfahren und werden daher hier nicht weiter berücksichtigt.

Nachteile des Standes der Technik

Die bekannten Verfahren, die mittels direkter Manipulation niederwertiger Bits zeitlicher Signale arbeiten, bringen schon bei sehr kleinen Anzahlen veränderter Bits pro Code wort bzw. bei einer sehr kleinen Einbettungsbitbreite erhebliche Qualitätsverluste mit sich. Somit ist die Einbettung bei Kenntnis des Originalsignals perzeptuell erkennbar. Weiterhin sind die auf diese Weise eingebetteten Zusatzinformationen leicht und ohne weitere Hilfsmittel aus dem Audiosignal ablesbar. Verfahren, die Signale in Teilbänder transformieren, dort die nieder wertigen Bits der Teilbandwerte ohne deren gezielte Auswahl manipulieren und danach ein zeitliches Signal rekonstruieren, schaffen zwar Abhilfe gegen die leichte Ablesbarkeit der eingebetteten Zusatzinformation, liefern aber schon bei geringen verwendeten Bitbreiten unerwünschte Qualitätseinbußen beim zeitlichen Audio signal.

Das Verfahren nach DE 44 30 864 A1 bettet die Zusatz informationen in den datenreduzierten Code ein, allerdings erlaubt eine Erweiterung durch einen nachgeschalteten Decoder wie oben beschrieben, ebendiese Zusatz informationen in das zeitliche Audiosignal einzubetten. Besonders bei geringen erlaubten Bitraten des daten reduzierten Codes ist jedoch zu erwarten, daß die Menge der übertragbaren Zusatzinformationen pro Datenblock nur klein sein wird. Weiterhin liefert die in den Ausführungs beispielen zu DE 44 30 864 A1 angewandte Technik der Erweiterung der Codewörter um niederwertige Bits bei zahl reichen Quantisierungs- bzw. Dequantisierungsarten einen Rekonstruktionsfehler, der im allgemeinen über dem Rekonstruktionsfehler, der bei Verwendung der nicht erweiterten Codewörter auftritt, entsteht, liegt. Daher kann bei diesem Verfahren das induzierte Rauschens die Maskierungsschwelle übersteigen und somit Qualitäts einbußen des zeitlichen Audiosignals verursachen.

Aufgabe der Erfindung

Die Aufgabe des erfindungsgemäßen Verfahrens besteht demgegenüber in der direkten Einbettung der Zusatz informationen in die decodierten und rückquantisierten Subbandsignale nach psychoakustischen Gesichtspunkten mit dem Ziel, daß die Einbettung bei einer Wiedergabe des zeitlichen Audiosignals nicht wahrnehmbar ist. Eine Variante des Verfahrens hat die Aufgabe, die Zusatz informationen so in die Teilbandsignale einzubetten, daß der durch die Quantisierung induzierte Rekonstruktions fehler durch die Einbettung nicht vergrößert wird. Eine weitere Aufgabe der Erfindung ist die möglichst optimale Ausnutzung der nach psychoakustischen Gesichtspunkten zur Verfügung stehenden Kapazität für die einzubettenden Zu satzinformationen. Eine weitere Aufgabe betrifft die Codierung und Einbettung der Zusatzinformation derart, daß ein entsprechender Coder bzw. Decoder diese wieder rekonstruieren kann. Dies ermöglicht die Übermittlung der Zusatzinformation an einen Empfänger. Eine weitere Auf gabe des erfindungsgemäßen Verfahrens besteht in der Robustheit des verwendeten Codes gegenüber arithmetischen Fehlern des Transformations-Rücktransformationspaares, wie sie z. B. bei der im Standard ISO 11172-3 verwendeten Teilbandtransformation auftreten.

Lösung der Aufgabe

Die Aufgabe wird durch die kennzeichnenden Merkmale eines Verfahrens nach Anspruch 1 gelöst. Vorteilhafte Weiter bildungen und Ausgestaltungen des erfindungsgemäßen Ver fahrens ergeben sich aus den Unteransprüchen.

Beschreibung des Verfahrens

Die Erfindung macht sich Eigenschaften von Verfahren nach dem Oberbegriff des Anspruchs 1 zu Nutze. Audiosignale werden in aufeinanderfolgenden oder sich untereinander überlappenden Blöcken zeitlich zusammenhängender Signal werte, z. B. unter Verwendung von gefensterten Fourier transformationen, Cosinustransformationen und/oder Fil terbänken, in Teilbandsignale zerlegt. Mit Hilfe von Be rechnungsvorschriften, insbesondere psychoakustischer Modelle werden die Parameter zur Datenreduktion so fest gelegt, daß, oft unter der Bedingung der Einhaltung der maximal für einen Datenblock verfügbaren Bitrate, das durch die Datenreduktion verursachte Rauschen die Maskie rungsschwelle, die festlegt, ob gewisse Spektralkomponen ten hörbar sind, nicht überschreitet. Zu den Parametern der Datenreduktion gehören bei den meisten Verfahren die Art der Quantisierung, der dafür pro Block zur Verfügung gestellte Platz in Form der Bitbreite eines Codewortes pro Teilblock, sowie Skalenfaktoren. Bei der Quantisie rung werden Signalwerte eines zusammenhängenden Amplitu denbereichs auf ein Codewort abgebildet. Der Decoder bil det bei der Rückquantisierung dieses Codewort auf einen Repräsentanten innerhalb des initialen Amplitudenbereichs ab. Zur Reduzierung des maximalen Rekonstruktionsfehlers auf die Hälfte der Intervallgröße wird für solch einen Repräsentanten ein Wert in der Mitte des Intervalls ge wählt. Da bei der Rückquantisierung kein Codewort auf die anderen Werte innerhalb des Amplitudenbereichs abgebildet wird, können diese zum Transport der Zusatzinformationen verwendet werden. Die Aufgabe der Einbettung der Zusatzinformationen wird durch gezielte Abbildung auf be stimmte Repäsentanten innerhalb des Amplitudenbereichs gelöst. Dabei gibt das Codewort den Rückquantisierungs repräsentanten und die einzubettende Zusatzinformation die Position innerhalb des Amplitudenbereichs des Reprä sentanten an.

In einer ersten Ausprägung des Verfahrens wird diese Rep räsentantenauswahl durch direktes Ersetzen der nieder wertigen Bits durch Teile des einzubettenden Codes durch geführt. Diese Methode führt bei vielen Quantisierungs- bzw. Rückquantisierungsarten im allgemeinen zu einem höheren als dem maximal durch diese Quantisierung norma lerweise verursachten Quantisierungsfehler. Bei manchen Anwendungen ist dieser Fehler jedoch akzeptabel.

In einer Variante des Verfahrens wird encoderseitig zu jedem für das Verfahren relevanten Teilbandwert ein Ten denzbit in den Code integriert, das angibt, ob dieser Teilbandwert größergleich dem zur Rekonstruktion verwen deten Repräsentanten ist, oder kleiner. Die für die Ein bettung des Codes zur Verfügung stehenden Werte des Amplitudenbereichs werden in solche größer oder gleich dem zur Rekonstruktion verwendeten Repräsentanten und solche kleiner diesem Repräsentanten eingeteilt. Zeigt das über tragene Tendenzbit, daß der ursprüngliche Teilbandwert größergleich dem zur Rekonstruktion verwendeten Repräsentanten war, wird einer der Amplitudenwerte größer gleich diesem Repräsentanten als Codierung der Zusatz informationen verwendet, ansonsten einer der Amplituden werte kleiner dem des Repräsentanten. Dies kann durch Addition bzw. Subtraktion der Binärdarstellung des Codes und des Repräsentanten realisiert werden. Auf diese Art und Weise wird der ursprüngliche Rekonstruktionsfehler durch die Einbettung nicht vergrößert.

Der Einbettung der Zusatzinformationen schließt sich die Rücktransformation des bearbeiteten Blockes, mit Zusammen setzung der resultierenden zeitlichen Datenblöcke zu einem zeitlichen Audiosignal, an.

Die Rückgewinnung der eingebetteten Zusatzinformationen kann blockweise nach Durchführung der, zur obigen Rück transformation gehörigen, Umkehrtransformation durch geführt werden. Unter der Annahme der Invertierbarkeit oder Umkehrbarkeit der Transformation, kann ein entsprechender Decoder aus den resultierenden Teilband signalen die vom Einbettungsmechanismus ausgewählten Amplitudenwerte ablesen und unter Verwendung der bekannten zur Rekonstruktion verwendeten Repräsentanten die Zusatzinformation extrahieren.

Es werden vorteilhafte Varianten und Erweiterungen des beschriebenen Verfahrens angegeben. Da in Decoderstufen meist nicht die Parameter des psychoakustischen Modells, sondern nur die zur Decodierung benötigten Parameter zur Verfügung stehen, ist es vorteilhaft, den für die Einbettung zur Verfügung stehenden Platz für die verschiedenen Gebiete der Teilbänder oder Frequenzregionen aus den Decodierparametern zu berechnen. Dabei kann die Quantisierungsauflösung in Verbindung mit der Quantisierungsart zur Errechnung der maximal einbettbaren Codegröße der Zusatzinformation verwendet werden. Bei Benutzung von Skalenfaktoren ist die obige maximalen Codegröße um den, durch die Skalierungsfaktoren bei der Rekonstruktion erzielten, Genauigkeitsgewinn zu reduzieren.

In der Praxis vorkommende Transformations- und Rück transformationsverfahren liefern in der Regel Arithmetik- oder Rekonstruktionsfehler innerhalb des bearbeiteten Datenstroms. Zur Vermeidung einer Beeinträchtigung des eingebetteten Codes ist es zweckmäßig, obiges Tendenzbit-Verfahren unter Verwendung von Redundanz durch zuführen. Weiterhin ist es zweckmäßig, bei Verfahren, die die oben beschriebene direkte Biteinbettung verwenden, die Codewörter der Zusatzinformationen jeweils mittels eines Codes gegen Arithmetik- oder Transformationsfehler zu sichern.

Zwecks Decodierbarkeit der eingebetteten Zusatz informationen seitens eines dafür vorgesehenen Coders, ist es von Vorteil, den eingebetteten Code mit charakteristischen Merkmalen oder Marken zu versehen, die auf die zur Einbettung verwendeten Teilbandwerte verweisen, sowie Bitbreite und Position des Codes innerhalb dieser Teilbandwerte enthalten. Da beliebige Signale Eingabe eines solchen Coders sein können und somit Fehldecodierungen möglich sind, sollte eine eingebettete Marke von einer Qualität sein, die eine Entscheidung über einen vorhandenen Code mit einer hohen Erfolgs wahrscheinlichkeit erlaubt.

Möglich ist weiterhin eine Kaskadierung der Schritte

- Einbettung der Zusatzinformation,
- Umkehrtransformation.

Dies kann z. B. bei Verfahren wie ISO 11172-3, Layer III, von Vorteil sein, die eine Kaskade zweier verschiedener Transformationen zur Spektralkomponentenzerlegung verwenden. Zur Rückgewinnung der eingebetteten Zusatz information ist hier die entsprechend umgekehrte Reihen folge der Transformations-Decodierstufen zu verwenden.

Vorteile der Erfindung

Die Vorteile des Verfahrens liegen einerseits in der großen Kapazität an übertragbarer Zusatzinformation, wie sie aus der Ausnutzung der vergröberten Darstellung der rückquantisierten Teilbandwerte resultiert. Wird weiterhin beim verwendeten Audiocodec die geforderte Bitrate erniedrigt, sinkt z. B. bei Verfahren nach DE 44 03 864 A1 im allgemeinen die Bitkapazität, wohingegen beim erfindungsgemäßen Verfahren, unter der realistischen Annahme einer induzierten gröberen Quantisierung, die Bit kapazität ansteigt. Vorteilhaft ist weiterhin, daß Verfahren nach Unteransprüchen 2 und 6 gewährleisten, daß der ursprüngliche, durch die Datenreduktion und Rekonstruktion entstandene Rekonstruktionsfehler nicht überschritten wird. Somit wird die durch das gewählte psychoakustische Modell gewährleistete Qualität des rekonstruierten Audiosignals im Gegensatz zu Verfahren nach dem Stand der Technik nicht verschlechtert, sondern in der durch die Datenreduktion induzierten Qualität belassen.

Das Verfahren verändert weiterhin bei Audiocodecs mit den Merkmalen nach dem Oberbegriff des Anspruchs 1 nicht den encoderseitig erzeugten datenreduzierten Code und benötigt lediglich die Kenntnis über die Art der Datenreduktion (Quantisierungsart, Skalenfaktoren u. ä.) und die dabei verwendeten Einstellungen. Daher ist das Verfahren einfach auf eine Vielzahl verschiedener solcher Codecs anzupassen. Bei dem Standard ISO 11172-3 liefern beispielsweise die dem Decoder zur Rückgewinnung des zeitlichen Audiosignals übermittelten Steuerinformationen bereits alle zur Einbettung der Zusatzinformation benötigten Parameter. Daraus folgt weiterhin, daß bei dem Verfahren der Einbettung sowohl zeitliche Audiosignale als auch daten reduzierter Code als Eingabe dienen können. Dies gilt jedoch bei Verfahren nach den Unteransprüchen 2 und 6 nur, wenn in den datenreduzierten Code als Zusatzinformation die benötigten Tendenzinformationen eingefügt wurden.

Vorteilhaft ist außerdem, daß sowohl eine Wiedergabe und Verwendung auf herkömmlichen digitalen Medien als auch die. Decodierung der eingebetteten Zusatzinformationen durch einen entsprechenden Coder bzw. Decoder möglich ist.

Anwendungsgebiete

Das erfindungsgemäße Verfahren findet als universelle Methode zur versteckten Übermittlung von Zusatz informationen in herkömmlichen digitalen Audiosignalen zahlreiche Anwendungen, insbesondere als speziell auf Audiosignal ausgerichtetes Steganographieverfahren. Als Anwendungsbeispiel ist die Verschlüsselung von Texten, Noten, Instrumentierung oder anderen inhaltsbasierten Merkmalen innerhalb des Audiodatenstroms denkbar. Diese Informationen können z. B. auf, mit dem erfindungsgemäßen Verfahren konformen Decodern ausgestatteten, CD-Spielern verwendet werden. Dies kann etwa zur simultanen Ausgabe von akustischen und textuellen Informationen zu Musik stücken, die Gesangsstimmen enthalten, genutzt werden. Bei nicht mit einem solchen Zusatzdecoder ausgestatteten Wiedergabemedien entstehen in diesem Falle keine Beeinträchtigungen der Tonqualität.

Weiterhin liegt die Anwendung auf Systemen, die naturgemäß psychoakustische Transformations oder Teilbandcoder verwenden, nahe. Dies können z. B. Audiodatenbanken sein, die heutzutage häufig datenreduzierte Archivierungsformen für Audiomaterial verwenden. Wird beispielsweise ein Musikstück aus der Datenbank eines Audio-on-Demand Anbieter extrahiert, decodiert und auf CD an einen Kunden geschickt, so können Zusatzinformationen wie Versandtag, Vertreiber, Käufer oder sogar Copyrightrechte unbemerkt eingebettet werden.

Die Verwendung eines geheimgehaltenen Transformations verfahrens in Verbindung mit einem gegen leichte Signal veränderungen robusten Codec für die eingebettete Information erlaubt hier einen recht effektiven Schutz gegen Decodierung und/oder Entfernung der Copyright information durch Unbefugte.

Ausführungsbeispiele

Die Erfindung wird nachfolgend anhand der Zeichnung näher erläutert. Es zeigen:

Abb. 1 Blockschaltbild eines konventionellen Codecs,

Abb. 2 Blockschaltbild eines Codecs zur Einbettung mit dem Bitersetzungsverfahren,

Abb. 3 Blockschaltbild eines Codecs zur Einbettung mit dem Tendenzbitverfahren,

Abb. 4 Illustration des Bitersetzungsverfahrens,

Abb. 5 Illustration des Tendenzbitverfahrens, und

Abb. 6 Blockschaltbild eines Decoders zur Rückgewinnung der eingebetteten Zusatzinformationen.

Einleitung

Wer kennt sie nicht, die Audiocassettenaufnahme der Tonbandkopie der Langspielplatte, die zwar schon einige deutliche Qualitätseinbußen gegenüber dem Original aufzuweisen hat, aber dennoch ein recht zufrieden stellendes Hörerlebnis liefert - zumindest bis die Cassettenrecorderanlage im Pkw mit der Zeit physikalische Abnutzungen bemerkbar macht oder sogar selbst produziert. Spätestens seit dem Beginn des digitalen Zeitalters sollten solche "analogen" Probleme der Vergangenheit angehören. So sollte man denken. Jedoch treten ähnlich Generationseffekte auch im Zusammenhang mit digitalen audiovisuellen Aufnahmen auf. Bei Mobilkommunikation mit geringer Bandbreite kann zum Beispiel die Hintereinander schaltung (Tandeming) mehrerer verschiedener Codier- Decodiert-Stufen (CoDecs) zu einer signifikanten Verschlechterung der Qualität des zu übertragenden Audio signals führen. Die Notwendigkeit solcher CoDecs erwächst aus der Forderung an eine deutliche Reduzierung der Daten rate (Kompression), Gewährleistung einer Fehlerkorrektur gegenüber Übertragungsfehlern sowie einer möglichen Daten formatwandlung zwischen verschiedenen Netzen.

Ein weiteres Szenario, welches fortschreitend an Bedeutung gewinnt, liefert die Archivierung von großen Datenmengen in digitalen (Musik-)Bibliotheken. Das vorgestellte Verfahren ist daher insbesondere für die Aufwendung bei Audiodaten gedacht, funktioniert aber selbstverständlich auch bei anderen Daten, z. B. Videodaten. Aufgrund des massiven Datenaufkommens, wie z. B. bei der digitalen Archivierung von Radioproduktionen, liegt es nahe, die anfallenden Daten in ein platzsparendes Format umzuwandeln. Diese Anforderung leisten die im nächsten Abschnitt beschriebenen psychoakustischen Kompressions verfahren mit Datenreduktionsraten von bis zu 1 : 12 bei HiFi-Aufnahmen und perzeptuell transparenter Qualität (keine hörbaren Qualitätsunterschiede). Da die Original daten bei solch hohen Kompressionsraten nicht mehr aus dem Code reproduzierbar sind - die dekomprimierten Daten stimmen nur noch perzeptuell mit dem Original überein - handelt es sich hier um verlustbehaftete Verfahren. Eine wiederholte Anwendung des Kompressionsverfahrens auf die dekomprimierten Daten (Daten der ersten Generation) arbeitet somit auf den verfälschten Originaldaten. Versuche zeigen, daß bei hohen Kompressionsraten schon nach sehr wenigen Wiederholungen der Komprimierung und. Dekomprimierung die erzeugten Audiodaten der n-ten Generation eine im Vergleich zum Original perzeptuell unzumutbare Qualität ausweisen.

Aufgaben einer Musikbibliothek, z. B. in Verbindung mit Audioeditier- und Schnittsystemen, bestehen in Retrieval und Weitergabe sowie in Verarbeitung (z. B. Abmischen mehrerer Audiostücke) und wiederholter Speicherung der Audiodaten. Geschieht die Weitergabe unkomprimiert (z. B. via CD oder DAT), erhält der Empfänger Daten erster Generation, die mit den oben beschriebenen Problemen behaftet sind. Werden mehrere dekomprimierte Datensätze zusammengemischt oder auch nur editiert, so wird zur erneuten Speicherung in der Musikbibliothek wiederum nur auf Daten der ersten Generation gearbeitet. Zur sinnvollen Verwendbarkeit einer solchen digitalen Musikbibliothek ist somit ein Verfahren zur Vermeidung solcher Generations effekte notwendig.

Psychoakustische Verfahren mit hohen Kompressionsraten

Die höchsten Kompressionsraten bei Erhalt perzeptueller Transparenz erreichen momentan Codierer, die Eigenschaften der menschlichen auditiven Wahrnehmung ausnutzen. Dabei werden wesentliche Resultate der Psychoakustik verwendet, wobei sog. Maskierungseffekte einen Schwerpunkt bilden. Grob geht es hierbei um das Phänomen der Verdeckung bestimmter Signalkomponenten durch andere. Hierbei unter scheidet man Zeit- und Frequenzverdeckung. Zeitverdeckung bedeutet, daß in der zeitlichen Abfolge zweier Signale eines der Signale das andere als unhörbar erscheinen lassen kann. Hierbei tritt der Effekt der Vorwärtsverdeckung (ein Signal verdeckt das Nachfolgende) auf einem größeren Zeitintervall auf als der Effekt der Rückwärtsverdeckung (ein Signal verdeckt das Vorhergehende). Frequenzverdeckung läßt sich auf der Spektral- oder Fourieranalyse eines Signals auf einem (relativ kurzen) Zeitintervall beschreiben. Hierbei werden alle Ereignisse als gleichzeitig auftretend interpretiert. Durch Experimente ist zu belegen, daß das Frequenzspektrum in Teilbänder zerlegt werden kann, so daß innerhalb dieser Teilbänder starke Signalanteile schwächere übertönen. Ein psychoakustischer Coder führt zur Ausnutzung der Maskierungseffekte eine Kurzzeitfourieranalyse des Signals durch und berechnet hieraus die Maskierungsparameter eines psychoakustischen Modells. Das Signal wird außerdem, häufig durch eine Subbandtransformation, in Subband signale, die den oben erwähnten Teilbändern entsprechen, zerlegt. Im wesentlichen bestimmen nun die Maskierungs parameter, wie groß die Reduktion der Datenrate pro Subband sein darf, ohne daß wahrnehmbare Störgeräusche entstehen.

Die Datenreduktion wird im wesentlichen durch eine veränderte, vergröbernde Quantisierung der digitalen Subbandsignale geleistet. Die hierbei verlorengegangenen Daten sind bei der Dekomprimierung nicht mehr rekonstruierbar. Somit wird das Signal erster Generation gegenüber dem Original verändert und eine erneute Berechnung des psychoakustischen Modells auf dem veränderten Signal liefert i. a. einen unterschiedlichen Parametersatz. Diese Parameterveränderung stellt bei CoDecs dieser Art einen wesentlichen Grund für die Generationseffekte dar.

Was leistet das vorgeschlagene Verfahren

Das hier vorgestellte Verfahren stellt einen Lösungs vorschlag dar, der für psychoakustische Kompressions verfahren eine beliebige Wiederholung von Kompression und Dekompression zuläßt, somit beliebig viele Generationen erlaubt, und dabei die perzeptuelle Qualität der ersten Generation erhält. Genauer ist die Erstellung von Kopien weiterer Generationen bei der Wahl geeigneter Coder parameter theoretisch verlustfrei, praktisch von der Qualität der Genauigkeit der verwendeten Rechner arithmetik. Das Verfahren arbeitet bezüglich der benötigten Zusatzinformationen in situ, d. h., es werden keine zusätzlichen Datenformate benötigt. Die vom Decoder erzeugten (PCM) Audiodaten können auf jedem herkömmlichen digitalen Medium gespeichert und davon sowohl mit Standardmedien wiedergegeben werden, als auch mit einem dem vorgeschlagenen Verfahren konformen Encoder im obigen Sinne verlustfrei komprimiert werden.

Zwei grundlegende Ideen

Das Verfahren basiert im wesentlichen auf zwei Grundideen, aus denen sich zwei fundamentale Teilalgorithmen ableiten. Am Anfang steht die Erkenntnis, daß die oben beschriebenen Subbandcodierer zwei Arten von Daten erzeugen, die grob quantisierten Subbandsignale (den eigentlichen Code) und die entsprechenden Seiteninformationen. Die Seiten information besteht z. B. aus Information über Quantisierungsstufen, -art oder verwendete Subbänder. Durch die Seiteninformation (im folgenden auch als Steuer information oder Codierparameter bezeichnet) kann sowohl der Decodierer aus dem Code ein entsprechendes Ausgabe signal rekonstruieren, als auch der codierer aus den subbandtransformierten Signalen den Code. Letzteres zusammen mit der Annahme einer invertierbaren ("verlust freien") Subbandtransformation führt zur Einsicht, daß es im Prinzip ausreichend ist, nur einmalig die Seiten information mit Hilfe des psychoakustischen Modells zu berechnen und bei allen folgenden Generationen die originale Seiteninformation zu verwenden. Bei einer verlustfreien Transformation gewährleistet dies bei allen nachfolgenden Generationen die Rekonstruktion des Signals erster Generation.

Probleme erwachsen aus der Aufgabe, die Seiteninformation zusätzlich zu den dekomprimierten Signaldaten zu verwalten. Dies führt ad hoc zu

- ≧ 2 Dateien für eine Audiodatei (eigentliche PCM-Daten und Seiteninformation),
- einem neuen Datenformat zur Speicherung der Seiten information,
- dem Problem, daß die Seiteninformation nicht ohne weiteres über Standardmedien (z. B. CD oder DAT) transportiert werden kann,
- einem erhöhten Datenaufkommen.

Die erste Grundidee liefert ein Verfahren, das PCM-Daten und Seiteninformation in eine Datei codiert (Hybridcode). Diese Datei ist sowohl als Audiodatei verwendbar und auf Standardmedien ohne wahrnehmbaren Qualitätsverlust wieder zugeben, als auch von einem entsprechenden Codierer so entschlüsselbar, daß die gesamte Seiteninformation rekonstruiert werden kann. Das wichtigste Prinzip hierbei ist die Verwendung der psychoakustischen Parameter in einer Weise, die die Kombination von PCM-Code und Seiten information ohne Qualitätsverlust erlaubt. Grob beschrei ben die Maskierungsparameter, in welche Subbänder die Seiteninformationen codiert werden können.

Die Codierung in die Subbandsignale, die als "gezielte Dequantisierung" beschrieben werden kann und die in der Signalverarbeitung einer Art Aufmodulierung auf ein Trä gersignal entspricht, verwendet die zweite Grundidee. Diese Idee führt zu einem Algorithmus, der unter Verwen dung einer geringen Mehrinformation die gezielte Dequan tisierung so erlaubt, daß die Anforderungen des psycho akustischen Models eingehalten werden. Dies garantiert, daß der Hybridcode perzeptuell mindestens die Qualität einer entsprechenden Audiodatei erster Generation, die ohne Anwendung des Verfahrens erstellt wurde, besitzt. Der Preis hierfür ist die geringfügig größere Seitenin formation, die eine leicht vergrößerte komprimierte Datei liefert.

Eigenheiten der in der Zeichnung dargestellten Codecs und Teilbänder sind:

- Die verwendete Transformation ist eine Teilband transformation (keine Spektraltransformation).
- Das Eingangssignal ist monophon.
- Die Datenreduktion findet nur in Form einer Quanti sierung statt.
- Die Anzahl der Teilbänder ist größer als drei.
- Die Anzahl der Bits pro Teilbandwert beträgt zwölf.
- Die Anzahl der Teilbandwerte pro Teilband und Signal block beträgt acht.
Die dargestellte Quantisierung in Abb. 4 bildet einen zwölf Bit Teilbandwert auf ein vier Bit Code wort ab.
- Die Teilbandwerte sind binär codiert, und das nieder wertigste Bit ist in der Abbildung rechts dargestellt.
- Die funktionalen Einheiten 4, 6, 13 und 16 werden einzeln betrachtet (Diese können je nach Anwendungs beispiel innerhalb einer einzigen funktionalen Einheit realisiert werden. Insbesondere können, falls der erzeugte datenreduzierte Code 12 nicht separat verwendet werden soll, die Einheiten 6, 12 und 13 wegfallen. Somit werden die Daten 5 und 14, sowie 11 und 15, sowie 22 und 23 identifiziert.)

Eigenheiten des in Abb. 5 dargestellten Tendenz bitverfahrens sind:

- Der Amplitudenbereich des betrachteten Teilbandwerts ist 0, 1, 2, . . ., 9.
- Die Anzahl der gewählten Codeworte ist zwei.
- Die Unterteilung des Amplitudenbereichs ist linear.
- Die Rückquantisierung erfolgt auf den Mittelpunkt des dem jeweiligen Codewort zugeordneten Intervalls.

Abb. 1 zeigt einen konventionellen Audiocodec. Das zeitliche Audiosignal 1 wird blockweise von der Filterbank 2 in Teilbänder 3 zerlegt und dem Quantisierer 4 zugeführt. Das zeitliche Audiosignal 1 wird weiterhin blocksynchron einer psychoakustischen Analyse 7 unter zogen. Die durch diese Analyse errechneten Parameter 8 bestimmen in Kombination mit einer, vorher bestimmten, geforderten Bitrate die Bitzuteilung 9. Aus der Bitzuteilung errechnen sich Quantisierungsparameter 10 unter deren Verwendung die Teilbandwerte 3 vom Quantisierer 4 in datenreduzierte Teilbandwerte 5 über führt werden. Diese Codewörter 5 werden zusammen mit den zur Rückquantisierung benötigten Quantisierungsparametern 11 einem Multiplexer 6 zugeführt, der diese wie auch immer zur weiteren Übertragung codiert, und überträgt 12.

Decoderseitig decodiert ein Demultiplexer 13 die Code wörter 14 und die zur Rückquantisierung benötigten Quantisierungsparameter 15 und führt diese der Rück quantisierungsstufe 16 zu. Nach erfolgter Rück quantisierung werden die Teilbandwerte 17 der Rekonstruktionsfilterbank 18 zugeführt und in einen Block des zeitlichen Ausgabesignals 19 transformiert.

Abb. 2 zeigt einen Audiocodec zur Einbettung von Zusatzinformationen mit dem Bitersetzungsverfahren. Das zeitliche Audiosignal 1 wird blockweise von der Filterbank 2 in Teilbänder 3 zerlegt und dem Quantisierer 4 zugeführt. Das zeitliche Audiosignal 1 wird weiterhin blocksynchron einer psychoakustischen Analyse 7 unter zogen. Die durch diese Analyse errechneten Parameter 8 bestimmen in Kombination mit einer, vorher bestimmten, geforderten Bitrate die Bitzuteilung 9. Aus der Bitzuteilung errechnen sich Quantisierungsparameter 10 unter deren Verwendung die Teilbandwerte 3 vom Quantisierer 4 in datenreduzierte Teilbandwerte 5 über führt werden. Diese Codewörter 5 werden zusammen mit den zur Rückquantisierung benötigten Quantisierungsparametern 11 einem Multiplexer 6 zugeführt, der diese wie auch immer zur weiteren Übertragung codiert und überträgt 12. Decoderseitig decodiert ein Demultiplexer 13 die Code wörter 14 und die zur Rückquantisierung benötigten Quantisierungsparameter 15. Der Demultiplexer 13 führt die Codewörter 14 dem Rückquantisierer. 16 sowie die Quantisierungsparameter 15 dem Rückquantisierer 16 und dem Einbettungsmodul 20 zu. Nach erfolgter Rückquantisierung werden die Teilbandwerte 17 dem Einbettungsmodul 20 zugeführt. Mit Hilfe der Quantisierungsparameter 15 bestimmt das Einbettungsmodul 20 Parameter für die Einbettung nach der Bitersetzungsmethode und führt die Einbettung der Zusatzinformationen 25 durch. Die resultierenden Teilbandsignale 21 werden der Rekonstruktionsfilterbank 18 zugeführt und in einen Block des zeitlichen Ausgabesignals 19 transformiert.

Abb. 3 zeigt einen Audiocodec zur Einbettung von Zusatzinformationen mit dem Tendenzbitverfahren. Das zeit liche Audiosignal 1 wird blockweise von der Filterbank 2 in Teilbänder 3 zerlegt und dem Quantisierer 4 zugeführt. Das zeitliche Audiosignal 1 wird weiterhin blocksynchron einer psychoakustischen Analyse 7 unterzogen. Die durch diese Analyse errechneten Parameter 8 bestimmen in Kombination mit einer, vorher bestimmten, geforderten Bitrate die Bitzuteilung 9. Aus der Bitzuteilung errechnen sich Quantisierungsparameter 10 unter deren Verwendung die Teilbandwerte 3 vom Quantisierer 4 in datenreduzierte Teilbandwerte 5 überführt werden. Zusätzlich errechnet der Quantisierer 4 bei der Datenreduktion die Tendenzbit-Information der relevanten Teilbandwerte. Zur Bestimmung relevanter Teilbandwerte errechnet der Quantisierer 4 die Anzahl der zur Einbettung der Zusatz information 25 benötigten Teilbandwerte and wählt anschließend Teilbandwerte aus. Die Codewörter 5 werden zusammen mit den zur Rückquantisierung benötigten Quantisierungsparametern 11 sowie der Tendenz bitinformation 22 einem Multiplexer 6 zugeführt, der diese wie auch immer zur weiteren Übertragung codiert und über trägt 12. Decoderseitig decodiert ein Demultiplexer 13 die Codewörter 14 und die zur Rückquantisierung benötigten Quantisierungsparameter 15. Der Demultiplexer führt die Codewörter 14 dem Rückquantisierer 16, die Tendenz bitinformation 23 dem Einbettungsmodul 20, sowie die Quantisierungsparmeter 15 dem Rückquantisierer 16 und dem Einbettungsmodul 20 zu. Nach erfolgter Rückquantisierung werden die Teilbandwerte 17 dem Einbettungsmodul zugeführt. Mit Hilfe der Quantisierungsparameter 15 und der Tendenzbitinformation 23 bestimmt das Einbettungsmodul 20 Parameter für die Einbettung nach der Tendenzbitmethode und führt die Einbettung der Zusatzinformationen 25 durch. Die resultierenden Teilbandsignale werden der Rekonstruktionsfilterbank 18 zugeführt und in einen Block des zeitlichen Ausgabesignals 19 transformiert.

Abb. 4 zeigt ein Beispiel für das Bitersetzungs verfahren. Aus dem ersten Teilband T1 der abgebildeten Teilbänder 1 eines Blocks wird der sechste Teilbandwert betrachtet. Die Quantisierung bildet den zwölf-Bit Teil bandwert 2 auf ein vier-Bit Codewort 3 ab. Die Rück quantisiserung 4 bildet den Code 3 auf einen zwölf-Bit Teilbandwert ab. Die Einbettung nach dem Bitersetzungs verfahren ersetzt die acht niederwertigen Bits von 4 durch Bits der Zusatzinformationen (a1, . . ., a8). Der Teilbandwert mit eingebettetem Code 5 wird an die entsprechende Stelle der rückzutransformierenden Teilbänder 6 eingefügt.

Abb. 5 zeigt ein Beispiel für das Tendenzbitverfahren für einen Teilbandwert. Die zu übertragende Zusatz information Z sei durch einen der Werte 0, 1, oder 2 gegeben. Die zugrunde liegende Quantisierung ist in den Schritten A bis E gegeben. Das exemplarische Amplituden intervall A von 0 bis 9 ist in die Intervalle A1 von 0 bis 4 und A2 von 5 bis 9 eingeteilt. Werte aus dem Intervall A1 werden auf das Codewort C1 und Werte aus dem Intervall A2 auf das Codewort C2 abgebildet (B und C). Die Rekonstruktion D bildet das Codewort C1 auf den Wert 2 und das Codewort C2 auf den Wert 7 ab. Ein Quantisierer entsprechend 4 aus Abb. 3 bildet das Tendenzbit T für einen, nach der Vorschrift (A-C) in das Codewort Ci quantisierten, Teilbandwert gemäß Tabelle 1. Die Rück quantisierungsstufe bestimmt aus dem Codewort, der Zusatzinformation Z und dem Tendenzbit T einen rück quantisierten Wert unter Einhaltung der dazu möglichen Werte aus Tabelle 2. Eine dazu anwendbare Vorschrift ist die Addition der Zusatzinformation Z zu dem nach C-E rück quantisierten Wert von Ci, falls T = 1, sowie die Subtraktion der Zusatzinformation Z von dem nach C-E rück quantisierten Wert von Ci, falls T = 0. Die möglichen Rekonstruktionsstufen nach Tabelle 2 folgen, aus der Forderung, daß der maximale Quantisierungsfehler wie er durch A-E entsteht, auch unter Verwendung des Tendenz bitverfahrens vom Betrag kleiner als zwei sein soll.

Abb. 6 zeigt ein Blockschaltbild eines Decoders zur Rückgewinnung der eingebetteten Zusatzinformationen. Das zeitliche Audiosignal 1 wird blockweise von der Filterbank 2 in Teilbänder 3 transformiert. Ein Detektor 4 prüft unter Einbeziehung der verwendeten Einbettungsart und Kenntnis aller möglichen Bit- oder Codebreiten, ob eine Markierung eines eingebetteten Codes vorliegt. Falls dies der Fall ist, werden Teilbandsignale 5 und Position der Zusatzinformation an eine Extraktionsstufe 6 übergeben, die die Teilbandwerte 7 rekonstruiert und die Zusatz informationen 8 extrahiert. Ist die verwendete Filterbank nicht translationsinvariant, so kann der Detektor 4 gegebenenfalls eine Translation des zeitlichen Audio signals 1 steuern 9, und eine Wiederholung der Schritte betreffend der Komponenten 2, 3, 4 und 9 herbeiführen.

Claims

1. Verfahren zum Übertragen und/oder Speichern von Zu satzinformationen innerhalb eines Signals, insbeson dere Audiosignals, bei dem für mindestens einen Block des Signals

- die Parameter einer Berechnungsvorschrift zur Verfügung stehen,
- eine Teilband- oder Spektraltransformation des Signals zur Erzeugung eines transformierten Sig nals mit einer Auflösung durchgeführt wird,
- aufgrund der Parameter eine Datenreduktion durch Quantisierung durchgeführt wird,
- eine Umkehrung der Datenreduktion durch Rück quantisierung durchgeführt wird,
- und eine Rücktransformation durchgeführt wird,

dadurch gekennzeichnet,

- daß in mindestens einem Teilband, einer Unter menge eines Teilbands oder einer Untermenge von Spektralkomponenten der rückquantisierten Daten die Zusatzinformation an Stellen eingebettet wird, die infolge der vorherigen Quantisie rungsschritte in einer Auflösung repräsentiert sind, die gröber ist als die Auflösung des trans formierten Signals.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß mit Hilfe einer aus dem Originalsignal gewonnenen Tendenzinformation die Einbettung der Zusatzinforma tion in die Signalwerte durch Addition oder Subtrak tion so durchgeführt wird, daß der ursprüngliche Quantisierungsfehler nicht überschritten wird.

3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Zusatzinformation durch Ersetzen der nieder wertigen Bits entsprechend der Quantisierungsvergrö berung eingebettet wird.

4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß die eingebettete Zusatzinformation mit einem feh lerkorrigierenden Code versehen wird.

5. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß die eingebettete Zusatzinforma tion mit einem arithmetischen Code versehen wird.

6. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die Zusatzinformation redundant oder mit einem fehlerkorrigierenden Code versehen eingebettet wird.

7. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, daß Kaskaden von zwei oder mehreren Einbettungs- und Rücktransformationsschritten vorge sehen sind.

8. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, daß die Position, die Größe oder die Bitbreite der eingebetteten Zusatzinformation durch Codierung individueller Blöcke der Zusatzinformation markiert wird.

9. Verfahren nach einem der Ansprüche 1 bis 8, dadurch gekennzeichnet, daß die Position, die Größe oder die Bitbreite der eingebetteten Zusatzinformation separat in Form eines Inhaltsverzeichnisses in bestimmte Teilbänder oder Untermengen von Spektralkomponenten eingebettet wird.

10. Verfahren nach einem der Ansprüche 1 bis 9, dadurch gekennzeichnet, daß zwischen Quantisierung und De quantisierung eine Speicherung und/oder weitere Ve rarbeitungs-, Codierungs- und Übertragungsschritte des quellencodierten und datenreduzierten Datenstroms durchgeführt wird.

11. Verfahren nach einem der Ansprüche 1 bis 10, dadurch gekennzeichnet, daß die Schritte der Quantisierung und Dequantisierung innerhalb einer Funktionseinheit ausgeführt werden.

12. Verfahren nach einem der Ansprüche 1 bis 11, dadurch gekennzeichnet, daß zusätzlich zur Quantisierung Ska lenfaktoren zur Datenreduktion verwendet werden.

13. Verfahren nach einem der Ansprüche 1 bis 12, dadurch gekennzeichnet, dass die Berechnungsvorschrift ein psychoakustisches Modell ist.