DE19515805C2 - Verfahren zur Datenreduktion eines digitalisierten Tonsignals - Google Patents
Verfahren zur Datenreduktion eines digitalisierten TonsignalsInfo
- Publication number
- DE19515805C2 DE19515805C2 DE1995115805 DE19515805A DE19515805C2 DE 19515805 C2 DE19515805 C2 DE 19515805C2 DE 1995115805 DE1995115805 DE 1995115805 DE 19515805 A DE19515805 A DE 19515805A DE 19515805 C2 DE19515805 C2 DE 19515805C2
- Authority
- DE
- Germany
- Prior art keywords
- signal
- level
- digitized audio
- audio signal
- quantization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/66—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
- H04B1/665—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
Zur Datenreduktion digitalisierter Tonsignale ist es bekannt (DE 36 39 753 C2), bei
der Quellencodierung das digitalisierte Tonsignal durch eine Filterung im
Zeitbereich in eine Anzahl von Teilbändern aufzuspalten und die einzelnen
Teilbandsignale nach psycho-akustischen Gesichtspunkten neu zu quantisieren.
Hierzu wird die Quantisierung durch ein Gehörmodell gesteuert, welches durch die
Verdeckungseigenschaften (Mithörschwelle, Ruhehörschwelle) des menschlichen
Gehörs bestimmt wird. Anstelle einer Filterung des digitalisierten Tonsignals im
Zeitbereich läßt sich auch eine Transformation der Abtastwerte in die Frequenzebene
vornehmen; die entstehenden Spektralanteile werden ebenso wie die Teilbandsignale
nach psychoakustischen Gesichtspunkten neu quantisiert (EP 0251 028 B1).
Bei den bekannten Datenreduktionsverfahren tritt das Problem auf, daß bei der
Quellencodierung die Eigenschaften des menschlichen Gehörs bei der Wiedergabe
des quellencodierten Tonsignals berücksichtigt werden. Die Tonwahrnehmung des
menschlichen Gehörs ist jedoch von einer Reihe von Parametern abhängig, welche
bislang bei der Quellencodierung nicht ausreichend berücksichtigt wurden.
Insbesondere ändern sich viele Eigenschaften des menschlichen Gehörs mit dem
Schalldruck. Die wahrgenommene Lautheit ist vom Schalldruck jedoch nicht linear
abhängig, sondern ändert sich in Abhängigkeit von der Frequenzlage des gehörten
Schalls. Ferner stellt die Ruhehörschwelle (d. h., die untere Grenze für den
Schalldruckpegel, unterhalb welcher ein Schall vom Gehör nicht wahrnehmbar ist)
eine Nichtlinearität infolge der sprunghaften Wahrnehmungsänderung bei Über- oder
Unterschreitung der Ruhehörschwelle dar. Schließlich stellt auch die pegelabhängige
Form der Mithörschwelle (d. h., die Wahrnehmungsgrenze von einem schwächerem
Signal bei zeitgleicher oder zeitnaher Anwesenheit eines stärkeren Signals
(Maskierer) gleicher oder benachbarter Frequenz) eine weitere Nichtliniarität wegen
der nicht-linearen Verdeckungsänderungen bei unterschiedlichen Maskiererpegeln
dar.
Bei der bisher praktizierten Quellencodierung geht man davon aus, daß ein
bestimmter elektrischer Signalpegel einem exakt festgelegten akustischen
Schalldruckpegel auf der Wiedergabeseite entspricht. Bei der Lautstärkeregelung des
Wiedergabesystems ändert sich infolge der erläuterten Nichtlinearitäten zwischen
Schalldruckpegel und Wahrnehmung der Lautheitseindruck des Menschen in nicht
linearer Weise. Dieses Phänomen hat für datenreduzierte Tonsignale unerwünschte
Folgen. Bei der psychoakustischen Datenreduktion wird nämlich festgestellt, wie
weit die Auflösung eines Spektralanteils des Nutzsignals bei einer angenommenen
Wiedergabelautstärke verringert werden kann, damit das dadurch verursachte
Quantisierungsrauschen gerade noch unterhalb der Mithör- oder Ruhehörschwelle
liegt. Mit dieser festgestellten Minimalauflösung wird dann der betreffende
Spektralanteil codiert. Durch ungünstige Lautstärkeregelung auf der Wiedergabeseite
kann das als unhörbar angenommene Quantisierungsrauschen hörbar werden, was
die Wiedergabequalität der datenreduzierten Tonsignale verringert.
Eine weitere Verschlechterung der Wiedergabequalität kann sich ergeben, wenn
Signalanteile, die bei der Codierung als unhörbar (irrelevant) angenommen und
deshalb im datenreduzierten Signal weggelassen wurden, infolge geänderter Wieder
gabelautstärke wahrnehmbar wären; ihr Fehlen wird als Klangverfälschung bemerkt.
Andererseits kann es vorkommen, daß bei der Codierung Signalanteile als hörbar
angenommen und daher in dem datenreduzierten Signal codiert wurden, welche bei
entsprechender Wiedergabelautstärke unhörbar sind. Die nutzlose Codierung dieser
unhörbaren Signalanteile beansprucht eine unnötige Datenkapazität in dem
Übertragungskanal, welche besser nutzbar wäre, beispielsweise für die im Zeit
multiplex übertragenen Zusatzdienste oder für eine bessere Auflösung anderer
Signalanteile. Gleiches gilt, wenn die bei der Codierung vorgenommene Hörbar
keitsschwelle für das Quantisierungsrauschen im Wiedergabefall höher ist, so daß
eine unnötig gute Quantisierung vorgenommen wurde.
Die Aufgabe der Erfindung besteht darin, die Codierung bezüglich der Daten
reduktion und der Wiedergabequalität zu optimieren.
Diese Aufgabe wird erfindungsgemäß durch die kennzeichnenden Merkmale des
Patentanspruchs 1 gelöst.
Vorteilhafte Ausgestaltungen und Weiterbildungen des erfindungsgemäßen
Verfahrens ergeben sich aus den Unteransprüchen.
Die Erfindung wird im folgenden anhand eines in den Zeichnungen veran
schaulichten Ausführungsbeispiels näher erläutert. Es zeigt
Fig. 1 ein Blockschaltbild eines aus Encoder und Decoder bestehenden
Systems zur Datenreduktion nach dem erfindungsgemäßen Verfahren;
Fig. 2 ein Zeitdiagramm eines Signalpegelverlaufs, bestehend aus einem
lauten Anfangsabschnitt, einer Pause und einem leiseren
Endabschnitt;
Fig. 3 ein Zeitdiagramm für eine angenommene maximale Abhörlautstärke
mit einer vom Hörer vorgenommenen sprunghaften Änderung der
Lautstärkeeinstellung, und
Fig. 4 eine Kurvenschar für die im Block "Gehörmodell" von Fig. 1
verwendete Abbildungsfunktion zwischen der elektrischen und
akustischen Signalebene.
Bei dem in Fig. 1 gezeigten Blockschaltbild eines Systems zur Datenreduktion
umfaßt der Encoder den Funktionsblock 10 "Datenreduktion" mit der
Unterfunktion "Quantisierung", den Funktionsblock 20 "Erfassung der Langzeit-
Signalparameter" und den Funktionsblock 30 "Modell des Gehörs". Dem Encoder
wird eine digitalisiertes Tonsignal 11 zugeführt, welches an die Eingänge der
Funktionsblöcke 10, 20 und 30 gleichzeitig gelangt. Aus dem Tonsignal 11 ermittelt
der Funktionsblock 20 den durchschnittlichen Pegel über einen statistisch
ausreichend langen Zeitabschnitt. Der so gebildete Langzeit-Signalparameter wird
dem Block 30 als Eingangssignal 31 zugeführt, wo er in einem anhand von Fig. 4
noch näher erläuterten Gehörmodell verarbeitet wird. Der Funktionsblock 30
"Gehörmodell" erzeugt in Abhängigkeit von dem digitalisierten Tonsignal 11 und
dem Langzeit-Signalparameter 31 ein Steuersignal 32, mit welchem die
Quantisierung der digitalisierten Tonsignale 11 in dem Block 10 gesteuert wird.
Das encodierte Signal 12 am Ausgang des Funktionsblocks 10 wird über eine
Strecke 40 (drahtlose oder drahtgebundene Übertragungsstrecke einschließlich
Satelliten-Übertragungsstrecke oder Speichermedium) dem Decoder 50 zugeführt,
welcher die encoderseitig reduzierten Daten zu einem ausgangsseitigen Tonsignal 51
rekonstruiert.
Die Arbeitsweise der Funktionsblöcke 10 "Datenreduktion, Quantisierung" und 50
"Datenrekonstruktion" ist beispielsweise aus den eingangs genannten Druckschriften
DE 36 39 753 C2 (Teilband-Codierverfahren) oder EP 0 251 028 B1
(Transformations-Codierverfahren) bekannt. Auf den Inhalt dieser Druckschriften
wird ausdrücklich Bezug genommen.
Ausgangspunkt der Überlegungen der Erfindung ist eine Abschätzung des
Hörerverhaltens bei Auftreten bestimmter Signalcharakteristika. Das Hörerverhalten
besteht darin, den Lautstärkesteller des Wiedergabegerätes auf "lauter" oder "leiser"
zu stellen. Mit Hilfe dieser Vorhersage des Hörerverhaltens wird das Gehörmodell
(Block 30) derart variiert, daß die Quantisierung im Funktionsblock 10 an die
vorhergesagte Wiedergabesituation angepaßt wird. Infolge dieser Anpassung lassen
sich die eingangs beschriebenen Nachteile aufgrund der Annahme einer bestimmten,
invarianten Wiedergabesituation vermeiden.
Zur Eingrenzung und technischen Nutzbarmachung im Sinne einer Vorhersage des
Hörerverhaltens werden vorzugsweise folgende Signalcharakteristika betrachtet:
- a) Der durchschnittliche Pegel des digitalisierten Tonsignals über einen statistisch ausreichend langen Zeitabschnitt ("Langzeitpegel")
oder
- b) typische Besonderheiten im Frequenzspektrum des digitalisierten Tonsignals,
oder
- c) die Signaldynamik des digitalisierten Tonsignals, vorzugsweise repräsentiert durch die Skalenfaktoren, welche bei der Datenreduktion des digitalisierten Tonsignals ohnehin erzeugt und zusammen mit den Abtastwerten übertragen bzw. gespeichert werden.
Die Verwendung des Langzeitpegels ist in dem Beispiel nach Fig. 1 verwirklicht,
und zwar durch den Funktionsblock 20. Dabei wird angenommen, daß bei hohem
Signalpegel über einen längeren Zeitraum von beispielsweise 5 Sekunden der Hörer
die Wiedergabelautstarke (Abhörpegel) reduziert, weil er den hohen Signalpegel als
störend empfindet. Umgekehrt wird bei geringem Signalpegel über einen längeren
Zeitraum von beispielsweise 5 Sekunden der Hörer den Abhörpegel anheben, da er
glaubt, "zu wenig" oder "nichts mehr" zu hören. Entsprechend diesem
angenommenen Hörerverhalten stellt das Ausgangssignal ("Langzeitpegel") des
Funktionsblocks 20 einen Parameter für die Variation des Gehörmodells zur
Adaption der Quantisierung dar.
Alternativ zum Langzeitpegel können als Parameter für die Variation des
Gehörmodells 30 auch typische Besonderheiten im Frequenzspektrum oder die
Signaldynamik vorgesehen werden. Treten beispielsweise im Frequenzspektrum
dominierende tonale Komponenten im mittleren Frequenzbereich (zwischen 1 kHz
und 6 kHz) auf, die üblicherweise als besonders störend empfunden werden, so wird
der Hörer aller Wahrscheinlichkeit nach den Abhörpegel absenken. Bei etwa
gleichmäßiger Verteilung der Spektrallinien ist dagegen zu erwarten, daß der Hörer
den Abhörpegel anhebt. Besonders deutlich dürfte dies bei Dominanz von
Spektrallinien im unteren Frequenzbereich (kleiner als 1 kHz) sein, da in diesem
Frequenzbereich die Empfindlichkeit des menschlichen Gehörs geringer ist.
Die Signaldynamik beschreibt den Unterschied zwischen dem leisesten und dem
lautesten Ton eines Schallereignisses. Bei großer Signaldynamik wird der Hörer
unabhängig vom Langzeitpegel aller Wahrscheinlichkeit nach einen mittelgroßen
Abhörpegel wählen. Bei kleiner Signaldynamik und großem Langzeitpegel wird der
Hörer den Abhörpegel absenken, dagegen bei kleiner Signaldynamik und kleinem
Langzeitpegel den Abhörpegel anheben.
Zum Verständnis des Gehörmodells (Block 30 in Fig. 1) ist in Fig. 2 der elektrische
Kurzzeitpegel eines Tonsignals dargestellt, welches einen lauten Anfangsabschnitt
mit durchschnittlichem Pegelwert um -20 dB, eine Pause zwischen den Zeitpunkten
t0 und t1 und einen leiseren Endabschnitt mit durchschnittlichem Pegelwert um -55
dB aufweist. Entsprechend diesem Pegelverlauf wird eine Voraussage über eine
angenommene Änderung der Lautstärkeeinstellung seitens des Hörers erstellt. Der
Verlauf des vorausgesagten maximalen Schalldruckpegels ist in Fig. 3 als
durchgezogene Kurve dargestellt. Der tatsächliche Verlauf der Lautstärkeeinstellung,
die zum Zeitpunkt t1 sprunghaft vom Hörer geändert wird, ist in Fig. 3 als
gestrichelte Kurve wiedergegeben.
In dem Diagramm nach Fig. 4 ist der Schalldruckpegel im Gehörmodell in
Abhängigkeit vom elektrischen Kurzzeitpegel (Fig. 2) aufgetragen. Bei
Vollaussteuerung ergeben sich die oberen und unteren maximalen Schalldruckpegel
gemäß Fig. 3 (106 dB bezogen auf 20 µPa bzw. 76 dB bezogen auf 20 µPa). Die
drei in Fig. 4 gezeigten Kurven verlaufen über den Aussteuerbereich des
Kurzzeitsignalpegels, der im Beispiel von Fig. 2 zwischen -10 dB und -90 dB liegt.
Als Scharparameter A, B, C der Kurven gemäß Fig. 4 dient der angenommene
maximale Abhörpegel, der bei dem Beispiel gemäß Fig. 3 zwischen den Werten 76
dB und 106 dB verändert wird. Alle drei Kurven in Fig. 4 verlaufen linear und
parallel zueinander, da für die elektrisch-akustische Abbildung davon ausgegangen
wird, daß sich das Wiedergabesystem (beispielsweise Lautsprecher) linear verhält.
Die im elektrischen Kurzzeitpegel (Fig. 2) auftretenden Signalschwankungen bilden
sich in Schwankungen des Schalldruckpegels ab, wobei die für die Abbildung
jeweils gültige Scharkurve A, B oder C gemäß Fig. 4 von dem angenommenen
maximalen Abhörpegel abhängt.
Bei dem Gehörmodell 30 werden die Quantisierungsparameter (Quantisierungs
steuersignal 32) mit relativ kleinen Zeitabständen geändert, typisch 40 mal pro
Sekunde, um damit schnellen Signaländerungen folgen zu können. Die Grundlage
für die Einstellung der Quantisierungsparameter ist eine Kurzzeitsignalanalyse.
Hierzu wird im Gehörmodell 30 der elektrische Signalpegel in einen Kurzzeit-
Schalldruckpegel umgerechnet. Durch die Kurzzeit-Signalanalyse wird die
Wahrnehmbarkeit verschiedener Signalanteile bei der Wiedergabe in Abhängigkeit
von Ruhe- und Mithörschwellen berücksichtigt. Die wichtigste Analyse ist eine
Spektralanalyse, da der größte Teil der Datenreduktion auf der spektralen
Verdeckung basiert. Zusätzliche Analysemöglichkeiten sind z. B. Transientanalyse
und Korrelationsanalyse.
Eine wesentliche Grundlage für die Analyse der Verdeckungseffekte ist die
angenommene Wiedergabelautstärke. In den Fig. 3 und 4 wird die
Widergabelautstärke, die einem voll ausgesteuertem Tonsignal entspricht,
angegeben. Diese angenommene Wiedergabelautstärke wird mit dem
erfindungsgemäßen Verfahren aus Langzeit-Signalparametern (Eingangsignal 31;
Fig. 1) gewonnen.
Für die Kurzzeit-Signalanalyse im Gehörmodell 30 wird der elektrische Signalpegel
in einen Kurzzeit-Schalldruckpegel umgerechnet.
Das erfindungsgemäße Verfahren ermöglicht aufgrund der Vorhersage der
Wiedergabelautsärke eine Optimierung der Datenreduktion sowohl im Hinblick auf
den Reduktionsgrad als auch die Wiedergabequalität.
Claims (4)
1. Verfahren zur Datenreduktion eines digitalisierten Tonsignals, bei dem die
Quantisierung durch ein psychoakustisches Gehörmodell gesteuert wird,
dadurch gekennzeichnet, daß das Gehörmodell in Abhängigkeit von Signal
parametern des digitalisierten Tonsignals variiert wird, derart, daß eine
Adaption der Quantisierung an eine angenommene Wiedergabesituation
erfolgt.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß als bestimmen
der Signalparameter der durchschnittliche Pegel des digitalisierten Tonsignals
über einen statistisch ausreichend langen Zeitabschnitt verwendet wird.
3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß als bestimmen
der Signalparameter das Frequenzspektrum des Signals verwendet wird.
4. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß als bestimmen
der Signalparameter die sich aus Skalenfaktoren ergebene Signaldynamik
verwendet wird.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE1995115805 DE19515805C2 (de) | 1995-04-29 | 1995-04-29 | Verfahren zur Datenreduktion eines digitalisierten Tonsignals |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE1995115805 DE19515805C2 (de) | 1995-04-29 | 1995-04-29 | Verfahren zur Datenreduktion eines digitalisierten Tonsignals |
Publications (2)
Publication Number | Publication Date |
---|---|
DE19515805A1 DE19515805A1 (de) | 1996-10-31 |
DE19515805C2 true DE19515805C2 (de) | 1997-08-07 |
Family
ID=7760695
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE1995115805 Expired - Lifetime DE19515805C2 (de) | 1995-04-29 | 1995-04-29 | Verfahren zur Datenreduktion eines digitalisierten Tonsignals |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE19515805C2 (de) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19758629B4 (de) * | 1996-12-17 | 2005-01-13 | Nec Corp. | Tragbares Funkgerät mit Datenkomprimierungs- und Datensendefunktion und zugehörige Steuerverfahren |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2792853B2 (ja) * | 1986-06-27 | 1998-09-03 | トムソン コンシューマー エレクトロニクス セイルズ ゲゼルシャフト ミット ベシュレンクテル ハフツング | オーディオ信号の伝送方法及び装置 |
DE3639753A1 (de) * | 1986-11-21 | 1988-06-01 | Inst Rundfunktechnik Gmbh | Verfahren zum uebertragen digitalisierter tonsignale |
-
1995
- 1995-04-29 DE DE1995115805 patent/DE19515805C2/de not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
DE19515805A1 (de) | 1996-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3639753C2 (de) | ||
DE69233094T2 (de) | Verfahren und Anordnung zur Datenkompression bei welchem Quantisierungsbits einem Block in einem gegenwärtigen Rahmen in Abhängigkeit eines Blocks in einem vergangenen Rahmen zugeteilt werden | |
DE60103424T2 (de) | Verbessern der leistung von kodierungssystemen, die hochfrequenz-rekonstruktionsverfahren verwenden | |
DE60110679T2 (de) | Wahrnehmungs-Codierung von Audiosignalen unter Verwendung von getrennter Irrelevanzreduktion und Redundanzreduktion | |
DE60222813T2 (de) | Hörgerät und methode für das erhöhen von redeverständlichkeit | |
DE60214599T2 (de) | Skalierbare audiokodierung | |
EP1687808B1 (de) | Audiocodierung | |
EP0193143B1 (de) | Verfahren zur Übertragung eines Audiosignals | |
EP0251028B1 (de) | Verfahren zur Übertragung eines Audiosignales | |
EP1697929B1 (de) | Verfahren und vorrichtung zum quantisieren eines informationssignals | |
DE69932861T2 (de) | Verfahren zur kodierung eines audiosignals mit einem qualitätswert für bit-zuordnung | |
WO2001043503A2 (de) | Verfahren und vorrichtung zum verarbeiten eines stereoaudiosignals | |
EP3110173A1 (de) | Verfahren zur kompression der dynamik in einem audio-signal | |
DE69217590T2 (de) | Verfahren und Einrichtung zur Kodierung eines digitalen Audiosignals | |
DE3440613C1 (de) | Verfahren zum digitalen Übertragen eines Rundfunk-Programmsignals | |
EP1697928B1 (de) | Audiokodierung | |
DE68927927T2 (de) | Kodierung von Audiosignalen unter Berücksichtigung der Wahrnehmbarkeit | |
DE19515805C2 (de) | Verfahren zur Datenreduktion eines digitalisierten Tonsignals | |
EP1351550B1 (de) | Verfahren zur Anpassung einer Signalverstärkung in einem Hörgerät sowie ein Hörgerät | |
EP0503536B1 (de) | Verfahren zur Optimiertung der Anpassung von Hörgeräten | |
EP1405302A1 (de) | Verfahren zur störverdeckung bei digitaler audiosignalübertragung | |
EP0905918A2 (de) | Verfahren und Vorrichtung zum Kodieren von Audiosignalen | |
DE69021986T2 (de) | Verfahren zur Kodierung eines Audiosignals unter Verwendung einer Orthogonaltransformation. | |
EP1748677A2 (de) | Hörvorrichtung und Verfahren zur Einstellung einer Verstärkungskennlinie | |
DE102017216972B4 (de) | Verfahren und Vorrichtung zur rechnergestützten Verarbeitung von Audiosignalen |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
R071 | Expiry of right | ||
R071 | Expiry of right |