DE19515805C2

DE19515805C2 - Verfahren zur Datenreduktion eines digitalisierten Tonsignals

Info

Publication number: DE19515805C2
Application number: DE1995115805
Authority: DE
Inventors: Soeren Nielsen; Susanne Ritscher
Original assignee: Institut fuer Rundfunktechnik GmbH
Current assignee: Institut fuer Rundfunktechnik GmbH
Priority date: 1995-04-29
Filing date: 1995-04-29
Publication date: 1997-08-07
Anticipated expiration: 2015-04-30
Also published as: DE19515805A1

Description

Zur Datenreduktion digitalisierter Tonsignale ist es bekannt (DE 36 39 753 C2), bei der Quellencodierung das digitalisierte Tonsignal durch eine Filterung im Zeitbereich in eine Anzahl von Teilbändern aufzuspalten und die einzelnen Teilbandsignale nach psycho-akustischen Gesichtspunkten neu zu quantisieren. Hierzu wird die Quantisierung durch ein Gehörmodell gesteuert, welches durch die Verdeckungseigenschaften (Mithörschwelle, Ruhehörschwelle) des menschlichen Gehörs bestimmt wird. Anstelle einer Filterung des digitalisierten Tonsignals im Zeitbereich läßt sich auch eine Transformation der Abtastwerte in die Frequenzebene vornehmen; die entstehenden Spektralanteile werden ebenso wie die Teilbandsignale nach psychoakustischen Gesichtspunkten neu quantisiert (EP 0251 028 B1).

Bei den bekannten Datenreduktionsverfahren tritt das Problem auf, daß bei der Quellencodierung die Eigenschaften des menschlichen Gehörs bei der Wiedergabe des quellencodierten Tonsignals berücksichtigt werden. Die Tonwahrnehmung des menschlichen Gehörs ist jedoch von einer Reihe von Parametern abhängig, welche bislang bei der Quellencodierung nicht ausreichend berücksichtigt wurden. Insbesondere ändern sich viele Eigenschaften des menschlichen Gehörs mit dem Schalldruck. Die wahrgenommene Lautheit ist vom Schalldruck jedoch nicht linear abhängig, sondern ändert sich in Abhängigkeit von der Frequenzlage des gehörten Schalls. Ferner stellt die Ruhehörschwelle (d. h., die untere Grenze für den Schalldruckpegel, unterhalb welcher ein Schall vom Gehör nicht wahrnehmbar ist) eine Nichtlinearität infolge der sprunghaften Wahrnehmungsänderung bei Über- oder Unterschreitung der Ruhehörschwelle dar. Schließlich stellt auch die pegelabhängige Form der Mithörschwelle (d. h., die Wahrnehmungsgrenze von einem schwächerem Signal bei zeitgleicher oder zeitnaher Anwesenheit eines stärkeren Signals (Maskierer) gleicher oder benachbarter Frequenz) eine weitere Nichtliniarität wegen der nicht-linearen Verdeckungsänderungen bei unterschiedlichen Maskiererpegeln dar.

Bei der bisher praktizierten Quellencodierung geht man davon aus, daß ein bestimmter elektrischer Signalpegel einem exakt festgelegten akustischen Schalldruckpegel auf der Wiedergabeseite entspricht. Bei der Lautstärkeregelung des Wiedergabesystems ändert sich infolge der erläuterten Nichtlinearitäten zwischen Schalldruckpegel und Wahrnehmung der Lautheitseindruck des Menschen in nicht linearer Weise. Dieses Phänomen hat für datenreduzierte Tonsignale unerwünschte Folgen. Bei der psychoakustischen Datenreduktion wird nämlich festgestellt, wie weit die Auflösung eines Spektralanteils des Nutzsignals bei einer angenommenen Wiedergabelautstärke verringert werden kann, damit das dadurch verursachte Quantisierungsrauschen gerade noch unterhalb der Mithör- oder Ruhehörschwelle liegt. Mit dieser festgestellten Minimalauflösung wird dann der betreffende Spektralanteil codiert. Durch ungünstige Lautstärkeregelung auf der Wiedergabeseite kann das als unhörbar angenommene Quantisierungsrauschen hörbar werden, was die Wiedergabequalität der datenreduzierten Tonsignale verringert.

Eine weitere Verschlechterung der Wiedergabequalität kann sich ergeben, wenn Signalanteile, die bei der Codierung als unhörbar (irrelevant) angenommen und deshalb im datenreduzierten Signal weggelassen wurden, infolge geänderter Wieder gabelautstärke wahrnehmbar wären; ihr Fehlen wird als Klangverfälschung bemerkt. Andererseits kann es vorkommen, daß bei der Codierung Signalanteile als hörbar angenommen und daher in dem datenreduzierten Signal codiert wurden, welche bei entsprechender Wiedergabelautstärke unhörbar sind. Die nutzlose Codierung dieser unhörbaren Signalanteile beansprucht eine unnötige Datenkapazität in dem Übertragungskanal, welche besser nutzbar wäre, beispielsweise für die im Zeit multiplex übertragenen Zusatzdienste oder für eine bessere Auflösung anderer Signalanteile. Gleiches gilt, wenn die bei der Codierung vorgenommene Hörbar keitsschwelle für das Quantisierungsrauschen im Wiedergabefall höher ist, so daß eine unnötig gute Quantisierung vorgenommen wurde.

Die Aufgabe der Erfindung besteht darin, die Codierung bezüglich der Daten reduktion und der Wiedergabequalität zu optimieren.

Diese Aufgabe wird erfindungsgemäß durch die kennzeichnenden Merkmale des Patentanspruchs 1 gelöst.

Vorteilhafte Ausgestaltungen und Weiterbildungen des erfindungsgemäßen Verfahrens ergeben sich aus den Unteransprüchen.

Die Erfindung wird im folgenden anhand eines in den Zeichnungen veran schaulichten Ausführungsbeispiels näher erläutert. Es zeigt

Fig. 1 ein Blockschaltbild eines aus Encoder und Decoder bestehenden Systems zur Datenreduktion nach dem erfindungsgemäßen Verfahren;

Fig. 2 ein Zeitdiagramm eines Signalpegelverlaufs, bestehend aus einem lauten Anfangsabschnitt, einer Pause und einem leiseren Endabschnitt;

Fig. 3 ein Zeitdiagramm für eine angenommene maximale Abhörlautstärke mit einer vom Hörer vorgenommenen sprunghaften Änderung der Lautstärkeeinstellung, und

Fig. 4 eine Kurvenschar für die im Block "Gehörmodell" von Fig. 1 verwendete Abbildungsfunktion zwischen der elektrischen und akustischen Signalebene.

Bei dem in Fig. 1 gezeigten Blockschaltbild eines Systems zur Datenreduktion umfaßt der Encoder den Funktionsblock 10 "Datenreduktion" mit der Unterfunktion "Quantisierung", den Funktionsblock 20 "Erfassung der Langzeit- Signalparameter" und den Funktionsblock 30 "Modell des Gehörs". Dem Encoder wird eine digitalisiertes Tonsignal 11 zugeführt, welches an die Eingänge der Funktionsblöcke 10, 20 und 30 gleichzeitig gelangt. Aus dem Tonsignal 11 ermittelt der Funktionsblock 20 den durchschnittlichen Pegel über einen statistisch ausreichend langen Zeitabschnitt. Der so gebildete Langzeit-Signalparameter wird dem Block 30 als Eingangssignal 31 zugeführt, wo er in einem anhand von Fig. 4 noch näher erläuterten Gehörmodell verarbeitet wird. Der Funktionsblock 30 "Gehörmodell" erzeugt in Abhängigkeit von dem digitalisierten Tonsignal 11 und dem Langzeit-Signalparameter 31 ein Steuersignal 32, mit welchem die Quantisierung der digitalisierten Tonsignale 11 in dem Block 10 gesteuert wird.

Das encodierte Signal 12 am Ausgang des Funktionsblocks 10 wird über eine Strecke 40 (drahtlose oder drahtgebundene Übertragungsstrecke einschließlich Satelliten-Übertragungsstrecke oder Speichermedium) dem Decoder 50 zugeführt, welcher die encoderseitig reduzierten Daten zu einem ausgangsseitigen Tonsignal 51 rekonstruiert.

Die Arbeitsweise der Funktionsblöcke 10 "Datenreduktion, Quantisierung" und 50 "Datenrekonstruktion" ist beispielsweise aus den eingangs genannten Druckschriften DE 36 39 753 C2 (Teilband-Codierverfahren) oder EP 0 251 028 B1 (Transformations-Codierverfahren) bekannt. Auf den Inhalt dieser Druckschriften wird ausdrücklich Bezug genommen.

Ausgangspunkt der Überlegungen der Erfindung ist eine Abschätzung des Hörerverhaltens bei Auftreten bestimmter Signalcharakteristika. Das Hörerverhalten besteht darin, den Lautstärkesteller des Wiedergabegerätes auf "lauter" oder "leiser" zu stellen. Mit Hilfe dieser Vorhersage des Hörerverhaltens wird das Gehörmodell (Block 30) derart variiert, daß die Quantisierung im Funktionsblock 10 an die vorhergesagte Wiedergabesituation angepaßt wird. Infolge dieser Anpassung lassen sich die eingangs beschriebenen Nachteile aufgrund der Annahme einer bestimmten, invarianten Wiedergabesituation vermeiden.

Zur Eingrenzung und technischen Nutzbarmachung im Sinne einer Vorhersage des Hörerverhaltens werden vorzugsweise folgende Signalcharakteristika betrachtet:

a) Der durchschnittliche Pegel des digitalisierten Tonsignals über einen statistisch ausreichend langen Zeitabschnitt ("Langzeitpegel")

oder

b) typische Besonderheiten im Frequenzspektrum des digitalisierten Tonsignals,

oder

c) die Signaldynamik des digitalisierten Tonsignals, vorzugsweise repräsentiert durch die Skalenfaktoren, welche bei der Datenreduktion des digitalisierten Tonsignals ohnehin erzeugt und zusammen mit den Abtastwerten übertragen bzw. gespeichert werden.

Die Verwendung des Langzeitpegels ist in dem Beispiel nach Fig. 1 verwirklicht, und zwar durch den Funktionsblock 20. Dabei wird angenommen, daß bei hohem Signalpegel über einen längeren Zeitraum von beispielsweise 5 Sekunden der Hörer die Wiedergabelautstarke (Abhörpegel) reduziert, weil er den hohen Signalpegel als störend empfindet. Umgekehrt wird bei geringem Signalpegel über einen längeren Zeitraum von beispielsweise 5 Sekunden der Hörer den Abhörpegel anheben, da er glaubt, "zu wenig" oder "nichts mehr" zu hören. Entsprechend diesem angenommenen Hörerverhalten stellt das Ausgangssignal ("Langzeitpegel") des Funktionsblocks 20 einen Parameter für die Variation des Gehörmodells zur Adaption der Quantisierung dar.

Alternativ zum Langzeitpegel können als Parameter für die Variation des Gehörmodells 30 auch typische Besonderheiten im Frequenzspektrum oder die Signaldynamik vorgesehen werden. Treten beispielsweise im Frequenzspektrum dominierende tonale Komponenten im mittleren Frequenzbereich (zwischen 1 kHz und 6 kHz) auf, die üblicherweise als besonders störend empfunden werden, so wird der Hörer aller Wahrscheinlichkeit nach den Abhörpegel absenken. Bei etwa gleichmäßiger Verteilung der Spektrallinien ist dagegen zu erwarten, daß der Hörer den Abhörpegel anhebt. Besonders deutlich dürfte dies bei Dominanz von Spektrallinien im unteren Frequenzbereich (kleiner als 1 kHz) sein, da in diesem Frequenzbereich die Empfindlichkeit des menschlichen Gehörs geringer ist.

Die Signaldynamik beschreibt den Unterschied zwischen dem leisesten und dem lautesten Ton eines Schallereignisses. Bei großer Signaldynamik wird der Hörer unabhängig vom Langzeitpegel aller Wahrscheinlichkeit nach einen mittelgroßen Abhörpegel wählen. Bei kleiner Signaldynamik und großem Langzeitpegel wird der Hörer den Abhörpegel absenken, dagegen bei kleiner Signaldynamik und kleinem Langzeitpegel den Abhörpegel anheben.

Zum Verständnis des Gehörmodells (Block 30 in Fig. 1) ist in Fig. 2 der elektrische Kurzzeitpegel eines Tonsignals dargestellt, welches einen lauten Anfangsabschnitt mit durchschnittlichem Pegelwert um -20 dB, eine Pause zwischen den Zeitpunkten t0 und t1 und einen leiseren Endabschnitt mit durchschnittlichem Pegelwert um -55 dB aufweist. Entsprechend diesem Pegelverlauf wird eine Voraussage über eine angenommene Änderung der Lautstärkeeinstellung seitens des Hörers erstellt. Der Verlauf des vorausgesagten maximalen Schalldruckpegels ist in Fig. 3 als durchgezogene Kurve dargestellt. Der tatsächliche Verlauf der Lautstärkeeinstellung, die zum Zeitpunkt t1 sprunghaft vom Hörer geändert wird, ist in Fig. 3 als gestrichelte Kurve wiedergegeben.

In dem Diagramm nach Fig. 4 ist der Schalldruckpegel im Gehörmodell in Abhängigkeit vom elektrischen Kurzzeitpegel (Fig. 2) aufgetragen. Bei Vollaussteuerung ergeben sich die oberen und unteren maximalen Schalldruckpegel gemäß Fig. 3 (106 dB bezogen auf 20 µPa bzw. 76 dB bezogen auf 20 µPa). Die drei in Fig. 4 gezeigten Kurven verlaufen über den Aussteuerbereich des Kurzzeitsignalpegels, der im Beispiel von Fig. 2 zwischen -10 dB und -90 dB liegt. Als Scharparameter A, B, C der Kurven gemäß Fig. 4 dient der angenommene maximale Abhörpegel, der bei dem Beispiel gemäß Fig. 3 zwischen den Werten 76 dB und 106 dB verändert wird. Alle drei Kurven in Fig. 4 verlaufen linear und parallel zueinander, da für die elektrisch-akustische Abbildung davon ausgegangen wird, daß sich das Wiedergabesystem (beispielsweise Lautsprecher) linear verhält. Die im elektrischen Kurzzeitpegel (Fig. 2) auftretenden Signalschwankungen bilden sich in Schwankungen des Schalldruckpegels ab, wobei die für die Abbildung jeweils gültige Scharkurve A, B oder C gemäß Fig. 4 von dem angenommenen maximalen Abhörpegel abhängt.

Bei dem Gehörmodell 30 werden die Quantisierungsparameter (Quantisierungs steuersignal 32) mit relativ kleinen Zeitabständen geändert, typisch 40 mal pro Sekunde, um damit schnellen Signaländerungen folgen zu können. Die Grundlage für die Einstellung der Quantisierungsparameter ist eine Kurzzeitsignalanalyse. Hierzu wird im Gehörmodell 30 der elektrische Signalpegel in einen Kurzzeit- Schalldruckpegel umgerechnet. Durch die Kurzzeit-Signalanalyse wird die Wahrnehmbarkeit verschiedener Signalanteile bei der Wiedergabe in Abhängigkeit von Ruhe- und Mithörschwellen berücksichtigt. Die wichtigste Analyse ist eine Spektralanalyse, da der größte Teil der Datenreduktion auf der spektralen Verdeckung basiert. Zusätzliche Analysemöglichkeiten sind z. B. Transientanalyse und Korrelationsanalyse.

Eine wesentliche Grundlage für die Analyse der Verdeckungseffekte ist die angenommene Wiedergabelautstärke. In den Fig. 3 und 4 wird die Widergabelautstärke, die einem voll ausgesteuertem Tonsignal entspricht, angegeben. Diese angenommene Wiedergabelautstärke wird mit dem erfindungsgemäßen Verfahren aus Langzeit-Signalparametern (Eingangsignal 31; Fig. 1) gewonnen.

Für die Kurzzeit-Signalanalyse im Gehörmodell 30 wird der elektrische Signalpegel in einen Kurzzeit-Schalldruckpegel umgerechnet.

Das erfindungsgemäße Verfahren ermöglicht aufgrund der Vorhersage der Wiedergabelautsärke eine Optimierung der Datenreduktion sowohl im Hinblick auf den Reduktionsgrad als auch die Wiedergabequalität.

Claims

1. Verfahren zur Datenreduktion eines digitalisierten Tonsignals, bei dem die Quantisierung durch ein psychoakustisches Gehörmodell gesteuert wird, dadurch gekennzeichnet, daß das Gehörmodell in Abhängigkeit von Signal parametern des digitalisierten Tonsignals variiert wird, derart, daß eine Adaption der Quantisierung an eine angenommene Wiedergabesituation erfolgt.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß als bestimmen der Signalparameter der durchschnittliche Pegel des digitalisierten Tonsignals über einen statistisch ausreichend langen Zeitabschnitt verwendet wird.

3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß als bestimmen der Signalparameter das Frequenzspektrum des Signals verwendet wird.

4. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß als bestimmen der Signalparameter die sich aus Skalenfaktoren ergebene Signaldynamik verwendet wird.