DE19735675C2

DE19735675C2 - Verfahren zum Verschleiern von Fehlern in einem Audiodatenstrom

Info

Publication number: DE19735675C2
Application number: DE19735675A
Authority: DE
Inventors: Wolfgang Schildbach; Juergen Herre; Martin Sieler; Karl-Heinz Brandenburg; Heinz Gerhaeuser
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 1997-04-23
Filing date: 1997-08-18
Publication date: 2002-12-12
Anticipated expiration: 2017-08-19
Also published as: DE19735675A1; DE59800301D1

Description

Die vorliegende Erfindung bezieht sich auf Audiocodierver fahren und insbesondere auf Fehlerverschleierungstechniken beim Codieren von Audiosignalen.

Das sogenannte "Internet Radio Broadcasting", d. h. das Übertragen eines Radioprogramms live über das Internet, er fordert es, Tausende von Echtzeitverbindungen zwischen einem Sender und Empfängerprogrammen, die sich beispielsweise in einem Personalcomputer eines Internetteilnehmers befinden, aufzubauen.

Das derzeit am häufigsten verbreitete Internet-Protokoll http stellt eine fehlerfreie Übertragung sicher, dasselbe besitzt jedoch keine Echtzeiteigenschaften. Dieses Protokoll bedingt eine zur Anzahl der empfangenen Stationen proportio nale Netzlast beim Sender. Somit ist die Anzahl der gleich zeitigen Hörer je nach Datenrate des codierten Signals typi scherweise auf wenige Hundert begrenzt, was für "Rundfunkan wendungen", d. h. Anwendungen, bei denen Radio- oder Fern sehsignale übertragen werden sollen, sicher nicht ausreicht.

Neue Protokolle zur Übertragung von Daten über das Internet, wie z. B. rtp (rtp = realtime transmission protocol = Echt zeitübertragungsprotokoll), umgehen diesen Flaschenhals, in dem sie im Gegensatz zu dem Protokoll http Fehler in der Übertragung zulassen.

Dadurch stellt sich für den Empfänger das Problem, wie er mit fehlerhaften Übertragungsdaten umgehen soll. Wie wird beispielsweise das Fehlen von Teilen eines Multimedia- oder Audiodatenstroms überbrückt?

Zur Fehlerbehandlung sind im Stand der Technik einige Ver fahren bereits bekannt. Beim Verfahren des Stummschaltens, welches die einfachste Art der Fehlerverschleierung ist, wird die Wiedergabe abgeschaltet, solange Daten fehlen oder fehlerhaft sind. Die fehlenden Daten werden durch ein Null signal ersetzt. Aufgrund psychoakustischer Effekte wird die ses plötzliche Abfallen und Ansteigen der Signalenergie als sehr unangenehm empfunden. Ein Stummschaltverfahren ist bei spielsweise in Detlef Wiese: "Error Concealment Strategies for Digital Audio Broadcasting", 92. AES Convention, Wien 1992, Preprint 3264, und in Detlef Wiese: "Anwendung von Fehlerverschleierungstechniken für digitalen Hörrundfunk (DAB)", 9. ITG-Fachtagung "Hörrundfunk", Mannheim 2/92, beschrieben.

Ein weiteres bekanntes Verfahren ist das Verfahren der Da tenwiederholung. Fällt ein Datenstrom aus, wird ein Teil der zuletzt gesendeten Daten in einer Schleife wiederholt. Bei blockorientierten Verfahren, welche die Mehrheit bekannter Audiocodierverfahren sind, würden also beispielsweise der oder die zuletzt empfangenen Blöcke wiederholt. Ein derarti ges Verfahren ist aus den bereits zitierten Literaturstellen bekannt.

Dieses Verfahren führt jedoch zu störenden Artefakten: Wer den nur kurze Teile des Audiosignals wiederholt, so klingt das repetierte Signal - unabhängig vom Originalsignal - ma schinenartig mit einer Grundfrequenz bei der Wiederholfre quenz. Werden längere Teile wiederholt, entstehen "Echo effekte", die ebenfalls als störend empfunden werden.

Ein weiteres Verfahren, das Verfahren der Dateninterpola tion, baut auf der Wahrscheinlichkeit, daß bei Übertragung eines Datenstroms mit relativ hoher Verzögerung bereits wie der gültige Audiodaten vorliegen, wenn eine Fehlerlücke des Audiodatensignals verschleiert werden muß. Es kann eine In terpolation verwendet werden, um Daten in der Lücke zu gene rieren, wie es in Laurent Filliat, Mario Rossi, Joseph Maisano, "Error Correction by Interpolation in Digital Audio", 92. AES Convention, Wien 1992, Preprint 3281, beschrieben ist.

Ein Nachteil dieses Verfahrens besteht beispielsweise darin, daß die Verzögerung in vielen Fällen nicht hinnehmbar ist, insbesondere, wenn an Telefonieanwendungen gedacht wird.

Bei blockorientierten Transformationscodierern/Decodierern kann die Signalenergie pro Spektrallinie von einem Block auf den nächsten vorhergesagt oder "prädiziert" werden. Dieses bekannte Verfahren (Jürgen Herre: "Fehlerverschleierung bei spektral codierten Audiosignalen", Dissertation, Universität Erlangen-Nürnberg, Erlangen 1995) führt zwar zu einer guten Fehlerverschleierung, es ist jedoch ein relativ hoher Re chenaufwand vonnöten, der derzeit eine Echtzeitdecodierung eines empfangenen Multimedia- oder Audiodatensignals unmög lich macht.

In der Technik ist es ebenfalls bekannt, die Redundanz im Datenstrom zu erhöhen. Es ist möglich, in einen Audiodaten strom bereits beim Codierer oder Sender einen zweiten Daten strom einzufügen, der dasselbe Signal (bei eventuell niedri gerer Datenrate und entsprechend niedrigerer Qualität) über trägt. Versetzt man diesen zweiten Datenstrom zeitlich ge genüber dem ersteren, so ist es wahrscheinlich, daß zu jedem Zeitpunkt wenigstens aus einem der beiden Ströme gültige Da ten empfangen werden. Somit kann der Ausfall eines Signals durch das andere Signal überbrückt werden. Dieses Verfahren liefert bei fehlerhaftem Hauptsignal eine informationstreue Wiedergabe, die jedoch üblicherweise eine schlechtere Quali tät haben wird.

Wie auch das vorhergehende Verfahren erhöht dieses Verfahren die Verzögerung zwischen Sender und Empfänger, weshalb die gleichen Nachteile wie bei der Dateninterpolation vorhanden sind. Weiterhin wird die Datenrate erhöht, da ja ein zweites gewissermaßen identisches Signal übertragen wird, was insbesondere bei kleinen Datenraten oder verfügbaren Übertra gungsbandbreiten nicht akzeptabel sein kann.

Bei der Übertragung eines Stereosignals existiert ein weite res Verfahren, um Fehler in der Übertragung zu verschleiern. Bei dem Verfahren der Links/Rechts-Ersetzung kann der ge störte oder ausgefallene Kanal durch den jeweils anderen Ka nal ersetzt werden, wie es in Detlef Wiese: "Error Conceal ment Strategies for Digital Audio Broadcasting", 92. AES Convention, Wien 1992, Preprint 3264, Detlef Wiese: "Anwen dung von Fehlerverschleierungstechniken für digitalen Hör rundfunk (DAB)", 9. ITG-Fachtagung "Hörrundfunk", Mannheim 2/92, und Jürgen Herre: "Fehlerverschleierung bei spektral codierten Audiosignalen", Dissertation, Universität Erlan gen-Nürnberg, Erlangen 1995, beschrieben ist. Im allgemeinen werden jedoch die Daten für beide Kanäle gleichzeitig über tragen und daher auch gleichzeitig gestört. Andernfalls han delt es sich hier um einen Spezialfall zum Verfahren der Er höhung der Redundanz im Datenstrom. Dieses Verfahren kann ferner nur dann angewendet werden, wenn der linke und der rechte Kanal unabhängig voneinander decodierbar sind. Es ist jedoch beispielsweise bei den sogenannten "Joint Stereo"- Modi, die durch den Standard-MPEG Layer-3 definiert sind, nicht möglich.

Die Aufgabe der vorliegenden Erfindung besteht darin, ein Verfahren zum Verschleiern von Fehlern in einem Audiodaten strom zu schaffen, das eine effektive und möglichst nicht hörbare Fehlerverschleierung erreicht.

Diese Aufgabe wird durch ein Verfahren gemäß Anspruch 1 ge löst.

Das Verfahren zum Verschleiern von Fehlern in einem Audio datenstrom gemäß der vorliegenden Erfindung umfaßt folgende Schritte:
Erfassen des Auftretens eines Fehlers in einem Audiodatenstrom, wobei Audiodaten vor Auftreten des Fehlers intakte Audiodaten sind;
Berechnen einer spektralen Energie in einer Untergruppe der intakten Audiodaten;
Bilden einer Vorlage für Ersatzdaten aufgrund der für die Untergruppe der intakten Audiodaten berechneten spektralen Energie; und
Erzeugen der Ersatzdaten für fehlerhafte oder nicht vorhan dene Audiodaten, die der Untergruppe entsprechen, aufgrund der Vorlage.

Eine Untergruppe im Sinne dieser Anmeldung umfaßt jeweils mehrere aufeinanderfolgende Frequenzlinien. Der Frequenz bereich wird also in aufeinanderfolgende Untergruppen einge teilt, wobei jede Untergruppe aufeinanderfolgende Frequenz linien hat. Vorzugsweise können die Untergruppen den aus der Psychoakustik bekannten Frequenzgruppen entsprechen. Es kann jedoch auch eine von den Frequenzgruppen abweichende Eintei lung für die Untergruppen gewählt werden, wie es weiter hin ten beschrieben ist.

Wie es aus der späteren detaillierten Beschreibung offen sichtlich wird, löst dieses Verfahren im Stand der Technik vorhandene Nachteile, da es weder eine erhöhte Verzögerung noch eine Erhöhung der Datenrate, d. h. eine Änderung der Quellencodierung erfordert, noch die unangenehme Zeit- und Frequenzstruktur eines einfach repetierten Signalabschnitts aufweist. Im Gegensatz beispielsweise zum Verfahren der spektralen Prädiktion, das bereits umrissen wurde, liefert das erfindungsgemäße Verfahren eine gehörangepaßte Rausch substitution. Ausgegangen wird von einer Frequenzdarstellung eines zeitlichen Audiosignals, welche auf viele für Fachleu te bekannten Arten und Weisen erhalten werden kann. Wie es von Zwicker und Fastl in "Psychoacoustics, Facts and Mo dels", 1990, dargelegt wurde, kann das Spektrum eines Signals in sogenannte Frequenzgruppen gruppiert werden. Dies führt zu einer Skalierung der Frequenzachse in Bark, welche gehörrelevante Eigenschaften berücksichtigt, und zwar im Gegensatz zu einer üblichen Skalierung der Frequenzachse in Hertz. Ein Bark ist die Frequenzdifferenz zwischen benach barten Frequenzgruppen. Eine Frequenzgruppe ist, wie es von Zwicker definiert wurde, die maximale Bandbreite, innerhalb der die Intensitäten einzelner Töne durch das menschliche Ohr summiert werden, um Hörschwellen zu bilden.

Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, daß es für eine Fehlerverschleierung ausreicht, ein "gut" spektral geformtes Zufallssignal zu erzeugen. "Gut" bedeutet in diesem Zusammenhang, daß die spektralen Energien in Fre quenzgruppen des Zufallssignals mit den spektralen Energien der intakten Audiodaten vor Auftreten des Fehlers überein stimmen bzw. von denselben hergeleitet sind.

Bevor auf verschiedene Ausführungsbeispiele der vorliegenden Erfindung eingegangen wird, werden weitere Begriffe, die für das Verständnis der Erfindung wesentlich sind, kurz erläu tert.

Wenn in dieser Anmeldung von einer "spektralen Energie" ei ner Frequenzlinie die Rede ist, so wird darunter das Be tragsquadrat dieser beispielsweise durch eine Fourier-Trans formation errechneten Spektralkomponente verstanden. Wenn dagegen von der "spektralen Energie" einer Untergruppe ge sprochen wird, so wird darunter die Summe der quadrierten Beträge der Spektralkomponenten in dieser Untergruppe ver standen, welche beispielsweise durch eine Fourier-Trans formation errechnet worden sind. Wichtig ist jedoch, anzu merken, daß der Ausdruck "spektrale Energie" nicht völlig streng verwendet wird. Wird beispielsweise das Verfahren der vorliegenden Erfindung in einem Codierer ausgeführt, der nach MPEG Layer-3 arbeitet, so läuft das Verfahren auf der Basis von MDCT-Linien (MDCT = modifizierte diskrete Cosinus Transformation) ab. Die dort verwendete modifizierte diskrete Cosinus Transformation, welche eine Überlappung und Fen sterung beinhaltet, ist jedoch im strengen Sinne nicht ener gieerhaltend. Das bedeutet, daß es keinen einfachen Weg gibt, aus MDCT-Spektren die Energie pro Frequenzlinie im Sinne beispielsweise einer Fourier-Transformation zu finden. Umgekehrt ist es bei Kenntnis dieser Energie nicht ohne wei teres möglich, ein MDCT-Spektrum zu erzeugen, das die ge forderte Energie enthält. Der Ausdruck "spektrale Energie" bezieht sich also sowohl auf die energieerhaltende Fourier- Transformation als auch auf die "nicht"-energieerhaltende modifizierte diskrete Cosinus Transformation oder auf ähnli che nicht-energieerhaltende Transformationsverfahren, welche bekannt sind. Die Nützlichkeit des Verfahrens gemäß der vor liegenden Erfindung hängt allerdings auch nicht von einer genauen Energieerhaltung ab, da das Verfahren zum Verschlei ern von Fehlern in einem Audiodatenstrom gerade nicht eine exakte Wiederherstellung der Ursprungsdaten, welche im all gemeinen nicht möglich ist, sondern eben eine Abschätzung von Ersatzdaten betrifft, die bewirken, daß ein aufgetrete ner Fehler möglichst unhörbar und damit verschleiert wird.

Weiterhin wird in dieser Anmeldung öfters von Audiodaten vor Auftreten des Fehlers oder von intakten Audiodaten gespro chen. Es sei angemerkt, daß sich diese Ausdrücke nicht auf den eigentlichen Empfangsprozeß beispielsweise eines vom In ternet lesenden Programmes bezieht. Bei manchen Internet- Protokollen können sequentiell abgeschickte Datenpakete in anderer Reihenfolge ankommen. Wird also von Audiodaten vor Auftreten eines Fehlers gesprochen, so wird damit nicht auf die Echtzeit Bezug genommen, sondern auf die durch den Au diodatenstrom vorgegebene Reihenfolge. Weiterhin sei ange merkt, daß Audiodaten vor Auftreten eines Fehlers selbstver ständlich zu einem noch früheren Zeitpunkt ebenfalls fehler haft bzw. nicht vorhanden gewesen sein könnten. Wenn jedoch in einem Audiodatenstrom ein Fehler erfaßt wird, so bedeutet dies, daß auf jeden Fall vor Auftreten des Fehlers intakte Audiodaten vorhanden gewesen sind. Dies bedeutet also nicht, daß das Verfahren der vorliegenden Erfindung lediglich den allerersten Fehler in einem Audiodatenstrom behandeln kann.

Wie bereits erwähnt wurde, wird in dieser Anmeldung das un erwartete Nichtvorhandensein von Audiodaten ebenfalls wie das Vorhandensein von fehlerhaften, d. h. teilweise zerstör ten, Audiodaten als Fehler bezeichnet. Wenn also fehlerhafte Audiodaten durch Ersatzdaten ersetzt werden, so bedeutet dies, daß entweder teilweise zerstörte Audiodaten durch Er satzdaten ersetzt werden, oder daß an der Stelle, an der un erwarteterweise keine Audiodaten vorhanden sind, Ersatzdaten eingesetzt werden.

Wenn ferner in dieser Anmeldung davon gesprochen wird, daß aufgrund von intakten Audiodaten spektrale Energien berech net werden, so soll dies nicht bedeuten, daß die gesamten intakten Audiodaten zwischen dem aktuellen und dem letzten Fehler verwendet werden. Stattdessen ist die Menge der in takten Audiodaten, die den Audiodatenstrom vor Auftreten des Fehlers darstellen, von dem einzelnen Anwendungsfall abhän gig. Bei Ausführungsbeispielen der vorliegenden Erfindung, welche blockbasierend arbeiten, kann die Menge der intakten Audiodaten beispielsweise nur Audiodaten des letzten Blocks oder mehrerer letzter Blöcke umfassen. Ferner müssen nicht unbedingt alle intakten Audiodaten beispielsweise eines Blocks verwendet werden, sondern lediglich beispielsweise Audiodaten, die Informationen über Energien pro Untergruppe aufweisen. Eine Stärke des Verfahrens der vorliegenden Erfindung besteht ja gerade darin, daß nicht unbedingt alle Frequenzlinien gespeichert und im Fehlerfall prädiziert wer den müssen. Je mehr Audiodaten jedoch zum Bilden einer Vor lage für Ersatzdaten verwendet werden, um so präziser können Ersatzdaten aus der spektralen Vorlage erzeugt werden, um einen Fehler besser zu verschleiern.

Im nachfolgenden wird das erfindungsgemäße Verfahren anhand eines Audiocodierverfahrens, das spektral codierte Audio daten erzeugt und überträgt, beispielhaft dargestellt. Die meisten modernen Audiocodierverfahren, wie z. B. MPEG Layer 1-3, MPEG AAC, Dolby AC-3, PAC, liefern spektral codierte Audiodaten, welche von einem entsprechenden Decodierer emp fangen, decodiert und wieder in den Zeitbereich umgesetzt werden.

Wie es allgemein bekannt ist, wird ein zu codierendes ana loges Signal mit einer geeigneten Abtastfrequenz, wie z. B. 44,1 kHz, abgetastet, um ein diskretes Zeitsignal zu erhal ten. Ein solches diskretes Zeitsignal kann nun mittels einer geeigneten Fensterfunktion gefenstert werden, um Blöcke mit einer bestimmten Anzahl von einzelnen zeitdiskreten Signal werten zu erhalten, welche insbesondere zu den Rändern der Blöcke hin durch die Fensterfunktion gewichtet sind, wie es in der Nachrichtentechnik allgemein bekannt ist. Ein Block mit mittels einer Fensterfunktion gewichteten zeitdiskreten Signalen wird nun mittels eines geeigneten Transformations verfahrens vom Zeitbereich in den Frequenzbereich transfor miert. Geeignete Transformationsverfahren können eine schnelle Fouriertransformation (FFT), ein Filterbankverfah ren oder eine modifizierte diskrete Cosinustransformation (MDCT) sein. Ein Block von zeitdiskreten Signalen liegt nach der Transformation als ein Block von Frequenzlinien vor. Der Block von Frequenzlinien oder das Frequenzspektrum des Blocks von zeitdiskreten Signalwerten kann nun quantisiert werden. Unter Berücksichtigung psychoakustischer Gesichts punkte ist es unter bestimmten Voraussetzungen möglich, eine durch die Quantisierung eingeführte Quantisierungsstörung derart zu gestalten, daß sie nicht hörbar ist, d. h. daß sie unter der Hörschwelle des menschlichen Gehörs liegt.

Bei modernen Audiocodierverfahren werden die nun in quanti sierter Form vorliegenden Spektrallinien einer Redundanzre duktion, beispielsweise mittels einer Huffman-Codierung, un terzogen und zusammen mit zur Decodierung notwendigen Sei teninformationen in einen Audiodatenstrom gepackt, der nun zur Übertragung zu einem Empfänger bereitsteht.

An dieser Stelle sei angemerkt, daß der Ausdruck "Audiodatenstrom" in dieser Anmeldung nicht nur wie vorher beschrie ben erzeugte Audiodatenströme erfaßt, sondern jegliche Form von Audiodaten, seien sie codiert oder uncodiert. So ist es für die vorliegende Erfindung nicht erforderlich, daß der Audiodatenstrom in gleichlange Blöcke oder überhaupt in Blöcke eingeteilt ist. Liegt der Audiodatenstrom jedoch spektral codiert in Blockform vor, so kann das erfindungsge mäße Verfahren mit geringstem Aufwand implementiert werden. Liegt der Audiodatenstrom in einer anderen Form vor, so kön nen die Audiodaten mittels bekannter Schritte und Verfahren aufbereitet werden, um das erfindungsgemäße Verfahren durch zuführen.

Das Verfahren gemäß der vorliegenden Erfindung weist somit vier Schritte auf. Der erste Schritt besteht darin, das Auf treten eines Fehlers in einem Audiodatenstrom zu erfassen, der zweite Schritt und der dritte Schritt bestehen darin, eine spektrale Energie einer Untergruppe in den Audiodaten zu berechnen, die den Audiodatenstrom vor Auftreten des Fehlers darstellen, d. h. in den intakten Audiodaten, und dann eine Vorlage für Ersatzdaten aufgrund der für die Untergruppe der intakten Audiodaten berechneten spektralen Energien zu bilden. Der letzte Schritt besteht dann darin, Ersatzdaten für fehlerhafte oder nicht vorhandene Audiodaten aufgrund der Vorlage für die Untergruppe, für die die Vorla ge gebildet ist, zu erzeugen.

Der erste Schritt besteht also im Erfassen des Auftretens eines Fehlers. Fällt der Eingangsdatenstrom weg oder weist er Fehler auf, welche mittels geeigneter Einrichtungen bei spielsweise zum Überprüfen einer Prüfsumme oder ähnlichem in einem codierten Audiosignal erfaßt werden können, kann bei spielsweise ein bestimmter Anteil der Daten vor Auftreten dieses Fehlers z. B. in einem Ringpuffer gespeichert werden.

Das Verfahren gemäß der vorliegenden Erfindung berechnet nun für jede Untergruppe die spektrale Energie. Während die bekannte Variante zur linienweisen Prädiktion typischerweise das 20- bis 30-fache an Speicher und Rechenoperationen im Vergleich zum Verfahren der vorliegenden Erfindung (wenn die Untergruppen den Frequenzgruppen entsprechen) benötigt, kann die spektrale Energie für jede Untergruppe gemäß der vorlie genden Erfindung effizient und sparsam berechnet werden. Es sei jedoch dennoch darauf hingewiesen, daß der genannte Speicher- und Rechenoperationsaufwand lediglich bezüglich der Fehlerverschleierung gilt. Die Gesamtkomplexität (Spei cher oder Rechenzeit) beispielsweise eines kompletten MPEG- Layer-3-Decodierers nimmt in der Regel nicht wesentlich zu. Wird dagegen eine linienweise Prädiktion eingesetzt, so wird der Gesamtrechenaufwand des Codierers/Decodierers sehr wohl signifikant ansteigen.

Die spektrale Energie pro Untergruppe berechnet sich als Summe der Betragsquadrate der in der Untergruppe enthaltenen Spektralkomponenten. Die spektrale Energie pro Untergruppe entspricht also der Summe der quadrierten Linien in dieser Untergruppe. Dies gilt sowohl bei der Verwendung einer MDCT als auch bei der Verwendung einer FFT für die Zeit-Fre quenz-Transformation, um zeitdiskrete Audiosignale in den Frequenzbereich zu transformieren, wie es bei modernen Co dierern üblich ist. An dieser Stelle sei jedoch auf die vor her gemachten Anmerkungen hingewiesen, daß die MDCT im Ge gensatz zur Fourier-Transformation nicht exakt energieerhal tend ist.

Die spektrale Energie einer Untergruppe ist somit die Grund lage dafür, eine Vorlage für Ersatzdaten zu bilden. Die Er satzdaten sollen ein "spektral-durchschnittliches" Spektrum im Sinne der Kurzzeitstatistik aufweisen. "Spektral-durch schnittlich" bedeutet, daß ein Teil eines solchen Signals, wenn er nach dem Verfahren der vorliegenden Erfindung er setzt wird, nicht besonders auffallen wird, d. h. daß die Ersetzung verschleiert ist.

Aus Einfachheitsgründen findet die nachfolgende Darstellung der vorliegenden Erfindung anhand eines blockorientierten Verfahrens dar, wie es bei den meisten modernen Audiocodie rern der Fall ist. Es sei jedoch darauf hingewiesen, daß die vorliegende Erfindung nicht auf ein blockorientiertes Ver fahren begrenzt ist. Voraussetzung für das Verfahren ist, daß Informationen über die spektrale Zusammensetzung des Si gnales erhalten werden können, um aus denselben die spektra le Energie pro Untergruppe zu berechnen. (Dies ist naturge mäß bei blockorientierten Transformationscodecs besonders einfach.)

Zur Ermittlung der Vorlage, d. h. der Kurzzeitstatistik, für Ersatzdaten werden in der Vergangenheit empfangene (intakte) Daten verwendet. Prinzipiell würde es auch möglich sein, nach Einfügen einer Verzögerung in den Signalpfad "zukünfti ge" Daten nach einem Fehler zu verwenden und eine Interpola tion durchzuführen. Der Nachteil dabei besteht jedoch in der bereits erwähnten Verzögerung. Das Verfahren der vorliegen den Erfindung wendet jedoch keine Interpolation sondern eine Prädiktion an. Von Prädiktion kann gesprochen werden, da das Ergebnis dieser Operation immer ein zeitlich später liegen den Spektrum ist, das aus zeitlich früheren Daten abgeleitet wird. Es werden also immer Audiodaten vor Auftreten eines Fehlers, d. h. intakte Audiodaten, verwendet, um im Falle eines auftretenden Fehlers künstlich erzeugte Ersatzdaten statt fehlerhafter Daten bzw. statt nicht vorhandener Daten einzufügen, um den Fehler zu verschleiern. Trotzdem sei da rauf hingewiesen, daß der Ausdruck "Prädiktion" in der Li teratur meist enger ausgelegt wird. Das Bilden einer Vorlage für Ersatzdaten aufgrund der für die Untergruppe der intak ten Audiodaten berechneten spektralen Energie kann mehr oder weniger aufwendig und damit auch mehr oder weniger genau gestaltet sein.

Für die nachfolgend dargelegten einzelnen Verfahren seien zuerst folgende Konventionen festgelegt. So bedeutet X_i das Kurzzeitspektrum, d. h. den Vektor aus Kurzzeitspektralkom ponenten, eines Blocks i. E_i(f) stellt die spektrale Energie einer Untergruppe der Mittenfrequenz f im Block i dar. Dabei sei festgehalten, daß i = 0 den zu prädizierenden Block, d. h. den Block von Ersatzdaten darstellt, während negative i die gespeicherten Blöcke der intakten Audiodaten darstellen, und N der Anzahl der gespeicherten Blöcke entspricht. E_V(f) möge für die durch die Vorlage in der Untergruppe der Mit tenfrequenz f geforderte Energie stehen.

Aufsteigend sortiert nach der Komplexität zur Berechnung kommen folgende Verfahren zum Bilden einer Vorlage für Er satzdaten in Frage:

1. Die spektralen Energien pro Untergruppe des zuletzt emp fangenen Blocks werden direkt als Vorlage für den feh lenden Block verwendet. Dies kommt in folgender Glei chung zum Ausdruck:
E_V = E_-1
2. Die Vorlage entsteht als lineare Kombination von Poten zen der spektralen Energien entsprechender Untergruppen vergangener Blöcke:
a_i sind konstante Koeffizienten zur linearen Kombina tion, während b_i Exponenten zur Gewichtung der einzelnen spektralen Energien sind. Der hier wiederum einfachste Fall ist die Mittelung, welche sich durch folgende Koef fizientenwerte darstellen läßt:
a_i = 1/N und b_i = 1.
3. Die Vorlage für Ersatzdaten kann auch durch Medianbil dung über vergangene Energien erhalten werden. Dies sei durch folgende Gleichung dargestellt:
E_V(f) = median {E_i(f), i = -1 . . . -N}
Bei der Medianbildung könnte alternativ auch das klein ste, das zweitkleinste, . . . ., das zweitgrößte oder das größte Element aus den E_i(f) verwendet werden.
4. Die Vorlage für die Ersatzdaten aufgrund der für die Untergruppe der intakten Audiodaten berechneten spek tralen Energie kann jedoch auch mittels einer linearen adaptiven Prädiktion berechnet werden. Dies entspricht der im zweiten Fall dargelegten Gleichung, welche jedoch nun zeitabhängige Koeffizienten a_i(t) haben muß. Für diesen Fall können auch in der Zukunft liegende Energien berechnet werden. Eine lineare adaptive Prädiktion zum Bilden der Vorlage für Ersatzdaten ist dann besonders vorteilhaft, wenn mehr als ein Block Daten im Datenstrom fehlen bzw. ersetzt werden müssen.

An dieser Stelle sei angemerkt, daß die vorstehende Liste zum Berechnen einer Vorlage für Ersatzdaten keinen Anspruch auf Vollständigkeit erhebt. Wichtig ist nur, daß die Vorlage für die Ersatzdaten einer Untergruppe aus spektralen Ener gien einer bestimmten Anzahl von vorausgehenden entsprechen den Untergruppen intakter Audiodaten erhalten wird.

Nachdem nun eine Vorlage für Ersatzdaten aufgrund der für die Untergruppe der intakten Audiodaten berechneten spek tralen Energie gebildet worden ist, besteht schließlich der letzte Schritt des Verfahrens darin, eben die Ersatzdaten zu erzeugen, die anstelle von fehlerhaften oder nicht vorhande nen Audiodaten in den Audiodatenstrom eingesetzt bzw. sub stituiert werden sollen.

Es sollen Ersatzdaten erzeugt werden, die die gleiche spek trale Energie pro Untergruppe wie die Vorlage für die Er satzdaten aufweisen sollen. Das grundsätzliche Verfahren besteht also darin, fehlerhafte bzw. nicht vorhandene Audio daten, welche letztendlich Spektralkomponenten sein werden, durch künstlich erzeugte Spektralkomponenten zu ersetzen. Die Randbedingung ist also, daß die künstlich erzeugten Spektralkomponenten in einer Untergruppe zusammen dieselbe spektrale Energie aufweisen, die durch die Vorlage gegeben ist. Dafür existieren verschiedene Möglichkeiten. Es können beispielsweise alle Spektralwerte in einer Untergruppe gleichgesetzt werden, wobei die Größe der Spektralwerte oder Frequenzlinien dadurch gegeben ist, daß die spektrale Ener gie derselben der entsprechenden spektralen Energie der Vor lage entspricht.

Eine weitere Möglichkeit könnte darin bestehen, von vorne herein eine bestimmte Gewichtung festzulegen, welche darin bestehen könnte, Spektralwerte am Rand einer Untergruppe eher zu dämpfen und Spektralwerte in der Mitte einer Unter gruppe hervorzuheben. Die entsprechenden Spektralwerte zu sammen müssen jedoch dieselbe spektrale Energie wie eine entsprechende Untergruppe der Vorlage haben.

Das bevorzugte Verfahren zum Erzeugen von Ersatzdaten be steht jedoch darin, alle Spektralkomponenten innerhalb einer Untergruppe auf gleichverteilte Zufallswerte X(f) zwischen -1 und +1 zu setzen, und nachträglich eine Skalierung bzw. Normierung durchzuführen, bei der das eben erzeugte Signal im Pegel so angehoben/abgeschwächt wird, daß es innerhalb jeder Untergruppe die durch die Vorlage geforderte spektrale Energie besitzt.

Hierzu muß nach der Erzeugung des Zufallssignals X jede Li nie X(f), welche per Definition einen Wert von zwischen -1 und +1 haben wird, innerhalb der entsprechenden Untergruppe mit folgendem Quotienten, der auch als Normierungsfaktor α bezeichnet wird, multipliziert werden:

E_V(f_k) stellt hier die spektrale Energie in der Vorlage in nerhalb einer Untergruppe k der Mittenfrequenz f_k dar. E_V(f_k) stellt also die Vorlage für die Untergruppe k mit der Mittenfrequenz f_k dar.

Zur Vereinfachung der vorherigen Vorschrift, um auf die Sum mation im Nenner verzichten zu können, kann auch ein Zu fallssignal erzeugt werden, welches zwischen +P und -P gleichverteilte Werte enthält, wobei P folgendem Wert genü gen muß:

Die Energie dieses Signals liegt dann mit hoher Wahrschein lichkeit nahe bei der geforderten Energie E_V(f_k). Dies gilt sicherlich bei Untergruppen, die eine größere (etwa 10) An zahl von Frequenzlinien enthalten. Dies liegt daran, daß das Quadratmittel aus gleichverteilten Werten zwischen -1 und +1 gleich 1/3 ist.

Die nun erzeugten Ersatzdaten bzw. Spektralkomponenten für die Untergruppe werden von einem Decodierer genauso verar beitet wie fehlerfreie Daten bzw. Spektralwerte. Aufgrund der Tatsache, daß nun die spektralen Energien der Untergrup pen in den künstlich erzeugten Daten den spektralen Energien der Untergruppen im letzten intakten Block entsprechen oder aus den spektralen Energien von Untergruppen mehrerer vor ausgehender Blöcke abgeleitet sind, wird der Block mit künstlich erzeugten Ersatzdaten bzw. die Blöcke mit künst lich erzeugten Ersatzdaten bei einigermaßen gleichverteilter Signalstatistik des Audiosignals unhörbar sein. Ein Fehler wird also verschleiert sein.

Bei dem erfindungsgemäßen Verfahren zum Verschleiern von Fehlern in einem Audiodatenstrom können jedoch instationäre Signale problematisch sein, da dann als Basis der Substitu tion möglicherweise ein Block mit für das Signal atypischer Statistik verwendet wird. Um zu verhindern, daß ein Block mit atypischer Statistik, auf den unmittelbar ein fehlerhaf ter Block folgt, das Bilden einer Vorlage für Ersatzdaten für den fehlerhaften Block dominiert, wodurch hörbare Fehler eingeführt werden könnten, kann es günstig sein, nicht nur den letzten intakten Block, sondern mehrere zuletzt vor handene intakte Blöcke zu speichern und dann für eine eben genannte Prädiktion zu verwenden, um eine Vorlage für Er satzdaten zu erhalten, die die größere Tendenz des Signal verlaufs bzw. der Signalstatistik und nicht nur die Stati stik bzw. den Verlauf eines Blocks berücksichtigt.

Enthält das ungestörte oder intakte Signal oder der unge störte oder intakte Audiodatenstrom eine prominente oder herausragende Spektralkomponente, die nahe am Rand einer Untergruppe liegt, so wird ein durch das eben beschriebene Verfahren erzeugtes innerhalb der Untergruppe gleichver teiltes ("weisses") Rauschen mit einer anderen Tonhöhe, nämlich der Mittenfrequenz der Untergruppe, empfunden. Um diesen Effekt zu vermeiden, sollten die Untergruppen in Frequenzbereichen, in denen das Ohr auf solche Tonhöhen schwankungen empfindlich ist, schmal gewählt werden, even tuell nur eine Frequenzlinie breit. Im letzten Fall verein facht sich das Verfahren, da - statt mit dem Betragsquadrat der Spektralkomponente der Vorlage zu rechnen - direkt die Spektralkomponente der Vorlage mit einer aus (+1, -1) zufäl lig gewählten Zahl multipliziert werden kann.

Claims

1. Verfahren zum Verschleiern von Fehlern in einem Audio datenstrom, wobei der Audiodatenstrom aufeinanderfol gende Blöcke von Spektralwerten aufweist, wobei jeder Block von Spektralwerten das Spektrum eines Teils des dem Audiodatenstrom zugrundeliegenden zeitlichen Audio signals bildet, wobei die Spektralwerte eines Blocks in Untergruppen von Spektralwerten gruppiert sind, wobei eine Untergruppe eine Mehrzahl von Spektralwerten auf weist, und wobei die Gruppierung in Untergruppen für die aufeinanderfolgenden Blöcke jeweils gleiche Fre quenzbereiche umfaßt, mit folgenden Schritten:
Erfassen des Auftretens eines Fehlers in einem Block von Spektralwerten, der eine fehlerhafte Untergruppe aufweist, wobei Spektralwerte in einem Block, der dem fehlerhaften Block vorausgeht, intakte Spektralwerte sind;
Berechnen einer spektralen Energie der Untergruppe des Blocks von intakten Spektralwerten, die der fehlerhaf ten Untergruppe entspricht;
Bilden einer Vorlage für Ersatzspektralwerte für die fehlerhafte Untergruppe, wobei die Vorlage gleich der berechneten spektralen Energie der Untergruppe der in takten Spektralwerte ist oder aus derselben hergeleitet ist; und
Erzeugen von Ersatzspektralwerten für die fehlerhafte Untergruppe, derart, daß die spektrale Energie der er zeugten Ersatzspektralwerte in der fehlerhaften Unter gruppe der durch die Vorlage für die fehlerhafte Unter gruppe vorgegebenen spektralen Energie im wesentlichen entspricht.

2. Verfahren nach Anspruch 1,
bei dem bei Auftreten eines fehlerhaften Blocks die spektralen Energien für jede Untergruppe des letzten intakten Blocks berechnet werden; und
bei dem die Ersatzspektralwerte für jede Untergruppe des fehlerhaften Blocks die spektralen Energien der entsprechenden Untergruppen des letzten intakten Blocks aufweisen.

3. Verfahren nach Anspruch 1,
bei dem bei Auftreten eines fehlerhaften Blocks die spektralen Energien für entsprechende Untergruppen von zumindest zwei vorausgehenden intakten Blöcken berech net werden; und
bei dem die Vorlage für die Ersatzspektralwerte für je de Untergruppe des fehlerhaften Blocks mittels Prädik tion aus den entsprechenden Untergruppen der zumindest zwei vorausgehenden intakten Blöcke ermittelt wird.

4. Verfahren nach Anspruch 2 oder 3, bei dem die Vorlage für eine Untergruppe durch eine gewichtete lineare Kom bination aus Potenzen der spektralen Energien entspre chender Untergruppen der vorausgehenden intakten Blöcke gebildet wird.

5. Verfahren nach Anspruch 2 oder 3, bei dem die Vorlage für eine Untergruppe durch eine Mittelung über die spektralen Energien entsprechender Untergruppen der vorausgehenden intakten Blöcke gebildet wird.

6. Verfahren nach Anspruch 2 oder 3, bei dem die Vorlage für eine Untergruppe durch Medianbildung über die spek tralen Energien entsprechender Untergruppen der voraus gehenden intakten Blöcke gebildet wird.

7. Verfahren nach Anspruch 2 oder 3, bei dem die Vorlage für eine Untergruppe durch eine lineare adaptive Prä diktion über die spektralen Energien entsprechender Un tergruppen der vorausgehenden intakten Blöcke gebildet wird.

8. Verfahren nach einem der vorhergehenden Ansprüche, bei dem der Schritt des Erzeugens von Ersatzspektralwerten folgende Schritte aufweist:
Einstellen von Spektralwerten innerhalb der fehlerhaf ten Untergruppe auf gleichverteilte Zufallswerte zwi schen -1 und +1; und
Skalieren der eingestellten Spektralwerte, derart, daß die spektrale Energie der eingestellten Spektralwerte der fehlerhaften Untergruppe gleich der Vorlage für die Ersatzspektralwerte ist, um die Ersatzspektralwerte zu erhalten.

9. Verfahren nach einem der vorhergehenden Ansprüche, bei dem vor dem Erfassen des Auftretens eines Fehlers in einem Audiodatenstrom folgende Schritte ausgeführt wer den:
Empfangen des Audiodatenstroms; und
Speichern zumindest der zeitlich zuletzt empfangenen Daten des Audiodatenstroms in der Reihenfolge, die durch den Audiodatenstrom vorgegeben ist.