DE19515805C2 - Verfahren zur Datenreduktion eines digitalisierten Tonsignals - Google Patents

Verfahren zur Datenreduktion eines digitalisierten Tonsignals

Info

Publication number
DE19515805C2
DE19515805C2 DE1995115805 DE19515805A DE19515805C2 DE 19515805 C2 DE19515805 C2 DE 19515805C2 DE 1995115805 DE1995115805 DE 1995115805 DE 19515805 A DE19515805 A DE 19515805A DE 19515805 C2 DE19515805 C2 DE 19515805C2
Authority
DE
Germany
Prior art keywords
signal
level
digitized audio
audio signal
quantization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE1995115805
Other languages
English (en)
Other versions
DE19515805A1 (de
Inventor
Soeren Nielsen
Susanne Ritscher
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institut fuer Rundfunktechnik GmbH
Original Assignee
Institut fuer Rundfunktechnik GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institut fuer Rundfunktechnik GmbH filed Critical Institut fuer Rundfunktechnik GmbH
Priority to DE1995115805 priority Critical patent/DE19515805C2/de
Publication of DE19515805A1 publication Critical patent/DE19515805A1/de
Application granted granted Critical
Publication of DE19515805C2 publication Critical patent/DE19515805C2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/665Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

Zur Datenreduktion digitalisierter Tonsignale ist es bekannt (DE 36 39 753 C2), bei der Quellencodierung das digitalisierte Tonsignal durch eine Filterung im Zeitbereich in eine Anzahl von Teilbändern aufzuspalten und die einzelnen Teilbandsignale nach psycho-akustischen Gesichtspunkten neu zu quantisieren. Hierzu wird die Quantisierung durch ein Gehörmodell gesteuert, welches durch die Verdeckungseigenschaften (Mithörschwelle, Ruhehörschwelle) des menschlichen Gehörs bestimmt wird. Anstelle einer Filterung des digitalisierten Tonsignals im Zeitbereich läßt sich auch eine Transformation der Abtastwerte in die Frequenzebene vornehmen; die entstehenden Spektralanteile werden ebenso wie die Teilbandsignale nach psychoakustischen Gesichtspunkten neu quantisiert (EP 0251 028 B1).
Bei den bekannten Datenreduktionsverfahren tritt das Problem auf, daß bei der Quellencodierung die Eigenschaften des menschlichen Gehörs bei der Wiedergabe des quellencodierten Tonsignals berücksichtigt werden. Die Tonwahrnehmung des menschlichen Gehörs ist jedoch von einer Reihe von Parametern abhängig, welche bislang bei der Quellencodierung nicht ausreichend berücksichtigt wurden. Insbesondere ändern sich viele Eigenschaften des menschlichen Gehörs mit dem Schalldruck. Die wahrgenommene Lautheit ist vom Schalldruck jedoch nicht linear abhängig, sondern ändert sich in Abhängigkeit von der Frequenzlage des gehörten Schalls. Ferner stellt die Ruhehörschwelle (d. h., die untere Grenze für den Schalldruckpegel, unterhalb welcher ein Schall vom Gehör nicht wahrnehmbar ist) eine Nichtlinearität infolge der sprunghaften Wahrnehmungsänderung bei Über- oder Unterschreitung der Ruhehörschwelle dar. Schließlich stellt auch die pegelabhängige Form der Mithörschwelle (d. h., die Wahrnehmungsgrenze von einem schwächerem Signal bei zeitgleicher oder zeitnaher Anwesenheit eines stärkeren Signals (Maskierer) gleicher oder benachbarter Frequenz) eine weitere Nichtliniarität wegen der nicht-linearen Verdeckungsänderungen bei unterschiedlichen Maskiererpegeln dar.
Bei der bisher praktizierten Quellencodierung geht man davon aus, daß ein bestimmter elektrischer Signalpegel einem exakt festgelegten akustischen Schalldruckpegel auf der Wiedergabeseite entspricht. Bei der Lautstärkeregelung des Wiedergabesystems ändert sich infolge der erläuterten Nichtlinearitäten zwischen Schalldruckpegel und Wahrnehmung der Lautheitseindruck des Menschen in nicht­ linearer Weise. Dieses Phänomen hat für datenreduzierte Tonsignale unerwünschte Folgen. Bei der psychoakustischen Datenreduktion wird nämlich festgestellt, wie weit die Auflösung eines Spektralanteils des Nutzsignals bei einer angenommenen Wiedergabelautstärke verringert werden kann, damit das dadurch verursachte Quantisierungsrauschen gerade noch unterhalb der Mithör- oder Ruhehörschwelle liegt. Mit dieser festgestellten Minimalauflösung wird dann der betreffende Spektralanteil codiert. Durch ungünstige Lautstärkeregelung auf der Wiedergabeseite kann das als unhörbar angenommene Quantisierungsrauschen hörbar werden, was die Wiedergabequalität der datenreduzierten Tonsignale verringert.
Eine weitere Verschlechterung der Wiedergabequalität kann sich ergeben, wenn Signalanteile, die bei der Codierung als unhörbar (irrelevant) angenommen und deshalb im datenreduzierten Signal weggelassen wurden, infolge geänderter Wieder­ gabelautstärke wahrnehmbar wären; ihr Fehlen wird als Klangverfälschung bemerkt. Andererseits kann es vorkommen, daß bei der Codierung Signalanteile als hörbar angenommen und daher in dem datenreduzierten Signal codiert wurden, welche bei entsprechender Wiedergabelautstärke unhörbar sind. Die nutzlose Codierung dieser unhörbaren Signalanteile beansprucht eine unnötige Datenkapazität in dem Übertragungskanal, welche besser nutzbar wäre, beispielsweise für die im Zeit­ multiplex übertragenen Zusatzdienste oder für eine bessere Auflösung anderer Signalanteile. Gleiches gilt, wenn die bei der Codierung vorgenommene Hörbar­ keitsschwelle für das Quantisierungsrauschen im Wiedergabefall höher ist, so daß eine unnötig gute Quantisierung vorgenommen wurde.
Die Aufgabe der Erfindung besteht darin, die Codierung bezüglich der Daten­ reduktion und der Wiedergabequalität zu optimieren.
Diese Aufgabe wird erfindungsgemäß durch die kennzeichnenden Merkmale des Patentanspruchs 1 gelöst.
Vorteilhafte Ausgestaltungen und Weiterbildungen des erfindungsgemäßen Verfahrens ergeben sich aus den Unteransprüchen.
Die Erfindung wird im folgenden anhand eines in den Zeichnungen veran­ schaulichten Ausführungsbeispiels näher erläutert. Es zeigt
Fig. 1 ein Blockschaltbild eines aus Encoder und Decoder bestehenden Systems zur Datenreduktion nach dem erfindungsgemäßen Verfahren;
Fig. 2 ein Zeitdiagramm eines Signalpegelverlaufs, bestehend aus einem lauten Anfangsabschnitt, einer Pause und einem leiseren Endabschnitt;
Fig. 3 ein Zeitdiagramm für eine angenommene maximale Abhörlautstärke mit einer vom Hörer vorgenommenen sprunghaften Änderung der Lautstärkeeinstellung, und
Fig. 4 eine Kurvenschar für die im Block "Gehörmodell" von Fig. 1 verwendete Abbildungsfunktion zwischen der elektrischen und akustischen Signalebene.
Bei dem in Fig. 1 gezeigten Blockschaltbild eines Systems zur Datenreduktion umfaßt der Encoder den Funktionsblock 10 "Datenreduktion" mit der Unterfunktion "Quantisierung", den Funktionsblock 20 "Erfassung der Langzeit- Signalparameter" und den Funktionsblock 30 "Modell des Gehörs". Dem Encoder wird eine digitalisiertes Tonsignal 11 zugeführt, welches an die Eingänge der Funktionsblöcke 10, 20 und 30 gleichzeitig gelangt. Aus dem Tonsignal 11 ermittelt der Funktionsblock 20 den durchschnittlichen Pegel über einen statistisch ausreichend langen Zeitabschnitt. Der so gebildete Langzeit-Signalparameter wird dem Block 30 als Eingangssignal 31 zugeführt, wo er in einem anhand von Fig. 4 noch näher erläuterten Gehörmodell verarbeitet wird. Der Funktionsblock 30 "Gehörmodell" erzeugt in Abhängigkeit von dem digitalisierten Tonsignal 11 und dem Langzeit-Signalparameter 31 ein Steuersignal 32, mit welchem die Quantisierung der digitalisierten Tonsignale 11 in dem Block 10 gesteuert wird.
Das encodierte Signal 12 am Ausgang des Funktionsblocks 10 wird über eine Strecke 40 (drahtlose oder drahtgebundene Übertragungsstrecke einschließlich Satelliten-Übertragungsstrecke oder Speichermedium) dem Decoder 50 zugeführt, welcher die encoderseitig reduzierten Daten zu einem ausgangsseitigen Tonsignal 51 rekonstruiert.
Die Arbeitsweise der Funktionsblöcke 10 "Datenreduktion, Quantisierung" und 50 "Datenrekonstruktion" ist beispielsweise aus den eingangs genannten Druckschriften DE 36 39 753 C2 (Teilband-Codierverfahren) oder EP 0 251 028 B1 (Transformations-Codierverfahren) bekannt. Auf den Inhalt dieser Druckschriften wird ausdrücklich Bezug genommen.
Ausgangspunkt der Überlegungen der Erfindung ist eine Abschätzung des Hörerverhaltens bei Auftreten bestimmter Signalcharakteristika. Das Hörerverhalten besteht darin, den Lautstärkesteller des Wiedergabegerätes auf "lauter" oder "leiser" zu stellen. Mit Hilfe dieser Vorhersage des Hörerverhaltens wird das Gehörmodell (Block 30) derart variiert, daß die Quantisierung im Funktionsblock 10 an die vorhergesagte Wiedergabesituation angepaßt wird. Infolge dieser Anpassung lassen sich die eingangs beschriebenen Nachteile aufgrund der Annahme einer bestimmten, invarianten Wiedergabesituation vermeiden.
Zur Eingrenzung und technischen Nutzbarmachung im Sinne einer Vorhersage des Hörerverhaltens werden vorzugsweise folgende Signalcharakteristika betrachtet:
  • a) Der durchschnittliche Pegel des digitalisierten Tonsignals über einen statistisch ausreichend langen Zeitabschnitt ("Langzeitpegel")
oder
  • b) typische Besonderheiten im Frequenzspektrum des digitalisierten Tonsignals,
oder
  • c) die Signaldynamik des digitalisierten Tonsignals, vorzugsweise repräsentiert durch die Skalenfaktoren, welche bei der Datenreduktion des digitalisierten Tonsignals ohnehin erzeugt und zusammen mit den Abtastwerten übertragen bzw. gespeichert werden.
Die Verwendung des Langzeitpegels ist in dem Beispiel nach Fig. 1 verwirklicht, und zwar durch den Funktionsblock 20. Dabei wird angenommen, daß bei hohem Signalpegel über einen längeren Zeitraum von beispielsweise 5 Sekunden der Hörer die Wiedergabelautstarke (Abhörpegel) reduziert, weil er den hohen Signalpegel als störend empfindet. Umgekehrt wird bei geringem Signalpegel über einen längeren Zeitraum von beispielsweise 5 Sekunden der Hörer den Abhörpegel anheben, da er glaubt, "zu wenig" oder "nichts mehr" zu hören. Entsprechend diesem angenommenen Hörerverhalten stellt das Ausgangssignal ("Langzeitpegel") des Funktionsblocks 20 einen Parameter für die Variation des Gehörmodells zur Adaption der Quantisierung dar.
Alternativ zum Langzeitpegel können als Parameter für die Variation des Gehörmodells 30 auch typische Besonderheiten im Frequenzspektrum oder die Signaldynamik vorgesehen werden. Treten beispielsweise im Frequenzspektrum dominierende tonale Komponenten im mittleren Frequenzbereich (zwischen 1 kHz und 6 kHz) auf, die üblicherweise als besonders störend empfunden werden, so wird der Hörer aller Wahrscheinlichkeit nach den Abhörpegel absenken. Bei etwa gleichmäßiger Verteilung der Spektrallinien ist dagegen zu erwarten, daß der Hörer den Abhörpegel anhebt. Besonders deutlich dürfte dies bei Dominanz von Spektrallinien im unteren Frequenzbereich (kleiner als 1 kHz) sein, da in diesem Frequenzbereich die Empfindlichkeit des menschlichen Gehörs geringer ist.
Die Signaldynamik beschreibt den Unterschied zwischen dem leisesten und dem lautesten Ton eines Schallereignisses. Bei großer Signaldynamik wird der Hörer unabhängig vom Langzeitpegel aller Wahrscheinlichkeit nach einen mittelgroßen Abhörpegel wählen. Bei kleiner Signaldynamik und großem Langzeitpegel wird der Hörer den Abhörpegel absenken, dagegen bei kleiner Signaldynamik und kleinem Langzeitpegel den Abhörpegel anheben.
Zum Verständnis des Gehörmodells (Block 30 in Fig. 1) ist in Fig. 2 der elektrische Kurzzeitpegel eines Tonsignals dargestellt, welches einen lauten Anfangsabschnitt mit durchschnittlichem Pegelwert um -20 dB, eine Pause zwischen den Zeitpunkten t0 und t1 und einen leiseren Endabschnitt mit durchschnittlichem Pegelwert um -55 dB aufweist. Entsprechend diesem Pegelverlauf wird eine Voraussage über eine angenommene Änderung der Lautstärkeeinstellung seitens des Hörers erstellt. Der Verlauf des vorausgesagten maximalen Schalldruckpegels ist in Fig. 3 als durchgezogene Kurve dargestellt. Der tatsächliche Verlauf der Lautstärkeeinstellung, die zum Zeitpunkt t1 sprunghaft vom Hörer geändert wird, ist in Fig. 3 als gestrichelte Kurve wiedergegeben.
In dem Diagramm nach Fig. 4 ist der Schalldruckpegel im Gehörmodell in Abhängigkeit vom elektrischen Kurzzeitpegel (Fig. 2) aufgetragen. Bei Vollaussteuerung ergeben sich die oberen und unteren maximalen Schalldruckpegel gemäß Fig. 3 (106 dB bezogen auf 20 µPa bzw. 76 dB bezogen auf 20 µPa). Die drei in Fig. 4 gezeigten Kurven verlaufen über den Aussteuerbereich des Kurzzeitsignalpegels, der im Beispiel von Fig. 2 zwischen -10 dB und -90 dB liegt. Als Scharparameter A, B, C der Kurven gemäß Fig. 4 dient der angenommene maximale Abhörpegel, der bei dem Beispiel gemäß Fig. 3 zwischen den Werten 76 dB und 106 dB verändert wird. Alle drei Kurven in Fig. 4 verlaufen linear und parallel zueinander, da für die elektrisch-akustische Abbildung davon ausgegangen wird, daß sich das Wiedergabesystem (beispielsweise Lautsprecher) linear verhält. Die im elektrischen Kurzzeitpegel (Fig. 2) auftretenden Signalschwankungen bilden sich in Schwankungen des Schalldruckpegels ab, wobei die für die Abbildung jeweils gültige Scharkurve A, B oder C gemäß Fig. 4 von dem angenommenen maximalen Abhörpegel abhängt.
Bei dem Gehörmodell 30 werden die Quantisierungsparameter (Quantisierungs­ steuersignal 32) mit relativ kleinen Zeitabständen geändert, typisch 40 mal pro Sekunde, um damit schnellen Signaländerungen folgen zu können. Die Grundlage für die Einstellung der Quantisierungsparameter ist eine Kurzzeitsignalanalyse. Hierzu wird im Gehörmodell 30 der elektrische Signalpegel in einen Kurzzeit- Schalldruckpegel umgerechnet. Durch die Kurzzeit-Signalanalyse wird die Wahrnehmbarkeit verschiedener Signalanteile bei der Wiedergabe in Abhängigkeit von Ruhe- und Mithörschwellen berücksichtigt. Die wichtigste Analyse ist eine Spektralanalyse, da der größte Teil der Datenreduktion auf der spektralen Verdeckung basiert. Zusätzliche Analysemöglichkeiten sind z. B. Transientanalyse und Korrelationsanalyse.
Eine wesentliche Grundlage für die Analyse der Verdeckungseffekte ist die angenommene Wiedergabelautstärke. In den Fig. 3 und 4 wird die Widergabelautstärke, die einem voll ausgesteuertem Tonsignal entspricht, angegeben. Diese angenommene Wiedergabelautstärke wird mit dem erfindungsgemäßen Verfahren aus Langzeit-Signalparametern (Eingangsignal 31; Fig. 1) gewonnen.
Für die Kurzzeit-Signalanalyse im Gehörmodell 30 wird der elektrische Signalpegel in einen Kurzzeit-Schalldruckpegel umgerechnet.
Das erfindungsgemäße Verfahren ermöglicht aufgrund der Vorhersage der Wiedergabelautsärke eine Optimierung der Datenreduktion sowohl im Hinblick auf den Reduktionsgrad als auch die Wiedergabequalität.

Claims (4)

1. Verfahren zur Datenreduktion eines digitalisierten Tonsignals, bei dem die Quantisierung durch ein psychoakustisches Gehörmodell gesteuert wird, dadurch gekennzeichnet, daß das Gehörmodell in Abhängigkeit von Signal­ parametern des digitalisierten Tonsignals variiert wird, derart, daß eine Adaption der Quantisierung an eine angenommene Wiedergabesituation erfolgt.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß als bestimmen­ der Signalparameter der durchschnittliche Pegel des digitalisierten Tonsignals über einen statistisch ausreichend langen Zeitabschnitt verwendet wird.
3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß als bestimmen­ der Signalparameter das Frequenzspektrum des Signals verwendet wird.
4. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß als bestimmen­ der Signalparameter die sich aus Skalenfaktoren ergebene Signaldynamik verwendet wird.
DE1995115805 1995-04-29 1995-04-29 Verfahren zur Datenreduktion eines digitalisierten Tonsignals Expired - Lifetime DE19515805C2 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE1995115805 DE19515805C2 (de) 1995-04-29 1995-04-29 Verfahren zur Datenreduktion eines digitalisierten Tonsignals

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE1995115805 DE19515805C2 (de) 1995-04-29 1995-04-29 Verfahren zur Datenreduktion eines digitalisierten Tonsignals

Publications (2)

Publication Number Publication Date
DE19515805A1 DE19515805A1 (de) 1996-10-31
DE19515805C2 true DE19515805C2 (de) 1997-08-07

Family

ID=7760695

Family Applications (1)

Application Number Title Priority Date Filing Date
DE1995115805 Expired - Lifetime DE19515805C2 (de) 1995-04-29 1995-04-29 Verfahren zur Datenreduktion eines digitalisierten Tonsignals

Country Status (1)

Country Link
DE (1) DE19515805C2 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19758629B4 (de) * 1996-12-17 2005-01-13 Nec Corp. Tragbares Funkgerät mit Datenkomprimierungs- und Datensendefunktion und zugehörige Steuerverfahren

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2792853B2 (ja) * 1986-06-27 1998-09-03 トムソン コンシューマー エレクトロニクス セイルズ ゲゼルシャフト ミット ベシュレンクテル ハフツング オーディオ信号の伝送方法及び装置
DE3639753A1 (de) * 1986-11-21 1988-06-01 Inst Rundfunktechnik Gmbh Verfahren zum uebertragen digitalisierter tonsignale

Also Published As

Publication number Publication date
DE19515805A1 (de) 1996-10-31

Similar Documents

Publication Publication Date Title
DE3639753C2 (de)
DE69233094T2 (de) Verfahren und Anordnung zur Datenkompression bei welchem Quantisierungsbits einem Block in einem gegenwärtigen Rahmen in Abhängigkeit eines Blocks in einem vergangenen Rahmen zugeteilt werden
DE60103424T2 (de) Verbessern der leistung von kodierungssystemen, die hochfrequenz-rekonstruktionsverfahren verwenden
DE60110679T2 (de) Wahrnehmungs-Codierung von Audiosignalen unter Verwendung von getrennter Irrelevanzreduktion und Redundanzreduktion
DE60222813T2 (de) Hörgerät und methode für das erhöhen von redeverständlichkeit
DE60214599T2 (de) Skalierbare audiokodierung
EP1687808B1 (de) Audiocodierung
EP0193143B1 (de) Verfahren zur Übertragung eines Audiosignals
EP0251028B1 (de) Verfahren zur Übertragung eines Audiosignales
EP1697929B1 (de) Verfahren und vorrichtung zum quantisieren eines informationssignals
DE69932861T2 (de) Verfahren zur kodierung eines audiosignals mit einem qualitätswert für bit-zuordnung
WO2001043503A2 (de) Verfahren und vorrichtung zum verarbeiten eines stereoaudiosignals
EP3110173A1 (de) Verfahren zur kompression der dynamik in einem audio-signal
DE69217590T2 (de) Verfahren und Einrichtung zur Kodierung eines digitalen Audiosignals
DE3440613C1 (de) Verfahren zum digitalen Übertragen eines Rundfunk-Programmsignals
EP1697928B1 (de) Audiokodierung
DE68927927T2 (de) Kodierung von Audiosignalen unter Berücksichtigung der Wahrnehmbarkeit
DE19515805C2 (de) Verfahren zur Datenreduktion eines digitalisierten Tonsignals
EP1351550B1 (de) Verfahren zur Anpassung einer Signalverstärkung in einem Hörgerät sowie ein Hörgerät
EP0503536B1 (de) Verfahren zur Optimiertung der Anpassung von Hörgeräten
EP1405302A1 (de) Verfahren zur störverdeckung bei digitaler audiosignalübertragung
EP0905918A2 (de) Verfahren und Vorrichtung zum Kodieren von Audiosignalen
DE69021986T2 (de) Verfahren zur Kodierung eines Audiosignals unter Verwendung einer Orthogonaltransformation.
EP1748677A2 (de) Hörvorrichtung und Verfahren zur Einstellung einer Verstärkungskennlinie
DE102017216972B4 (de) Verfahren und Vorrichtung zur rechnergestützten Verarbeitung von Audiosignalen

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
D2 Grant after examination
8364 No opposition during term of opposition
R071 Expiry of right
R071 Expiry of right