-
Anpassung an die Hörschwellen Diese Forderung führt bei den bekannten
PCM-Systemen zu unnötig hohen Informationsflüssen, weil der »Breitband-PCM-Kanal«
grundsätzlich nicht vollständig an den »frequenzgruppenbreit codierten Kanal« des
Gehörs anpaßbar ist: Breitband-PCM-Systeme erzeugen ein breitbandiges Quantisierungsrauschen,
dessen
Spektrum sich zur stark frequenzabhängigen Empfindlichkeit
des Gehörs ungunstig verhält. Dies wird anhand von Fig. 1 veranschaulicht, wo der
Frequenzverlauf der Ruhehörschwelle sowie einer Mithörschwelle des Gehörs eingetragen
sind.
-
Der schraffierte Bereich in Fig. 1 unterhalb der Ruhehörschwelle
entspricht dem gerade nicht wahrnehmbaren Schalldruckpegel. Das Spektrum des Leerkanalrauschens
einer PCM-Strecke darf also den Frequenzverlauf der Ruhehörschwelle aufweisen, um
unhörbar zu sein. Im Bereich hoher und tiefer Frequenzen darf die Energie des Leerkanalrauschens
entsprechend höher sein als im Frequenzbereich 2... kHz.
-
Dagegen erzeugen Breitband-PCM-Strecken näherungsweise ein weißes
Leerkanalrauschen. Die Rauschleistung der Breitband-PCM-Strecke muß daher im gesamten
Frequenzbereich so klein gehalten werden, daß die Ruhehörschwelle auch im empfindlichen
Frequenzbereich 2... 5 kHz nicht überschritten wird.
-
Eine PCM-Strecke, deren Leerkanalrauschen weiß ist, überträgt somit
einen irrelevanten Informationsfluß. Er ergibt sich aus der schraffierten Fläche
unterhalb der Ruhehörschwelle und beträgt etwa 64 kbit/s. Der Informationsfluß einer
PCM-Strecke läßt sich also ohne Qualitätsverlust um 64 kbit/s reduzieren, wenn das
Spektrum des Leerkanalrauschens durch geeignete Codierung dem Verlauf der Ruhehörschwelle
angepaßt wird.
-
Weiterhin ist eine breitbandige digitale Kompandierung nicht optimal
bezüglich der Verdeckungseigenschaften des menschlichen Gehörs. Beispiele digitaler
Kompandierungsprinzipien sind: - Anwendung nichtlinearer Quantisierungsskalen, Momentanwertkompandierung;
- Anwendung mehrerer linearer Quantisierungsskalen mit unterschiedlicher Stufenhöhe
und Übertragung des Skalenfaktors. Blockkompandierung (ein Skalenfaktor je Abtastwerte-Block,
z. B. 32 samples).
-
Gegenüber linearer Quantisierung erzielen bekannte Verfahren eine
Reduktion des Informationsflusses von etwa 100...150 kbit/s, je nach Kompandierungsgrad.
Dafür wird aber für hohe Signalpegel eine höhere Rauschleistung in Kaufgenommen
(»Kompandierungsrauschen«), d. h., das Quantisierungsrauschen des leeren Kanals
steigt bei höheren Signalpegeln. Die mit höheren Signalpegeln verbundenen Verdeckungseffekte
durch das Gehör reichen jedoch für kritische Programmarten nicht aus. Alle bisher
vorgeschlagenen digitalen Kompandierungsverfahren (z. B. 14 auf 11 oder 14 auf 10)
erzeugen ein u. U. deutlich wahrnehmbares Kompandierungsrauschen (»Rauschfahne«),
und zwar auch bei Einsatz weitgehender Pre-Deemphasis (z. B. entsprechend CCITT
Rec. J 17).
-
Breitbandige digitale Kompandierungen erzielen ohne Qualitätsverlust
nur eine geringe Bitratenreduzierung, weil das breitbandige Kompandierungsrauschen
die Mithörschwelle des Gehörs sehr leicht überschreiten kann.
-
Fig. 1 zeigt die Mithörschwelle beispielsweise bei Übertragung eines
Schmalbandrauschens (fm = 800 Hz), und Wiedergabe mit 50 dB Schalldruck: die Empfindlichkeit
des Ohres ist im Frequenzbereich oberhalb 2 kHz kaum geringer als ohne Maskierer.
Das gilt sogar für Tiefpaßrauschen, fgr = 800 Hz. Eine im Bereich 2... 5 kHz mangelhafte
Verdeckung des Kompandierungsrauschens durch das Nutzsignal schränkt den möglichen
Kompandierungsgrad stark ein. Damit ergeben sich aus den Mithörschwellenkurven des
Gehörs weitere Möglichkeiten zur Reduktion des Informationsflusses: indem man das
Spektrum des Kompandierungsrauschens durch geeignete Codierung dem Verlauf der Mithörschwellenkurven
anpaßt, läßt sich der Kompandierungsgrad ohne Qualitätsverlust erheblich steigern.
Dabei läßt sich in gleicher Weise wie bei der Ruhehörschwellenanpassung die erzielbare
Einsparung an Kanalkapazität aus der Fläche unterhalb derjeweils wirksamen Mithörschwellenkurve
ableiten.
-
Hörschwellenanpassung durch frequenzabhängige Quantisierung Die Hörschwellen
lassen sich auffassen als die - frequenzabhängigen - Pegel eines gehörinternen Rauschens.
-
Wie in einem PCM-Kanal kann dabei ein Ruherauschen (Leerkanalrauschen)
unterschieden werden vom signalabhängigen Rauschen. Die optimale Anpassung eines
Tonübertragungskanals an das Gehör wäre daher die Nachbildung der gehörinternen
Codierung, was nicht realisierbar ist. Es müssen vielmehr »künstliche«, nachrichtentechnisch
realisierbare Codierungen benutzt werden, die das Rauschverhalten des Gehörs im
Sine einer minimalen Kanalkapazität nutzen können. Dies können Codierungen im Frequenz-
oder Zeitbereich sein, feste oder adaptive Codierungen mit oder ohne »Gedächtnis«:
sie können nur optimal sein, wenn das Rauschspektrum den Hörschwellen entspricht.
-
Hinsichtlich der entsprechenden Nutzung der Mithörschwellen ist zu
beachten, daß das Gehör die Mithörschwellen inerhalb begrenzter Frequenzbänder (Frequenzgruppen)
bildet. Die Zerlegung des Frequenzspektrums in Frequenzbänder führt offenbar auf
die Verläufe der Mithörschwellenkurven. Nimmt man an, daß im Gehör ein signalabhängiges
»Codierungsrauschen« auftritt, so läßt sich der Verlauf der Mithörschwellenkurve
im Prinzip durch die frequenzgruppenbreite Bandbegrenzung des Codierungsrauschens
erklären. Dabei läßt sich der gegenüber den Frequenzgruppenfiltern flachere Verlauf
der Flanken, besonders der oberen Flanken bei hohen Pegeln, durch »Ubersprechen«
in die Nachbarfrequenzgruppen erklären.
-
Hieraus läßt sich das Konzept einer optimalen Codierung ableiten:
Das Codierungsrauschen eines Kanals kann optimal durch das Nutzsignal verdeckt werden,
wenn die Codierung nicht breitbandig, sondern frequenzgruppenbreit erfolgt. Insbesondere
kann innerhalb jedes (beliebig schmalen) Bandpasses die Codierung beliebig genau
an das Rauschverhalten des Gehörs angepaßt werden.
-
Die vorgenannten Erfindungsprinzipien sollen nunmehr anhand von PCM-Strecken
betrachtet werden.
-
Obwohl das Quantisierungsrauschen in einer PCM-Strecke ein sehr flaches
Frequenzspektrum aufweist, kann durch Bandpaß-spezifische Quantisierung bzw. Kompandierung
die Rauschanpassung erfolgen. Wie noch gezeigt werden soll, erweist sich diese sogenannte
»Bandpaß-PCM« als wirkungsvoll für die Berücksichtigung sowohl der Ruhehörschwelle
als auch der Mithörschwelle. Nimmt man an, daß die Ruhehörschwelle sich durch
die
Wirkung eines internen »Ruherauschens« ergibt, so kann durch entsprechend unterschiedliche
Dimensionierung der Quantisierungen innerhalb der bandpaßbegrenzten PCM-Kanäle das
Leerkanalrauschen der PCM-Strecke optimal an das Ruherauschen des Gehörs angepaßt
werden, Nimmt man ebenso an, daß sich die Mithörschwelle durch die Wirkung eines
internen »Codierungsrauschens« ergibt, so kann durch entsprechend unterschiedliche
Dimensionierung der Kompandierung innerhalb der bandpaßbegrenzten PCM-Kanäle das
Kompandierungsrauschen der PCM-Strecke optimal an das Codierungsrauschen des Gehörs
angepaßt werden.
-
Da die Steilheiten der Ruhehörschwellenkurven wesentlich kleiner
sind als die Steilheiten der Mithörschwellenkurven, ist die erforderliche Breite
der Bandpässe bestimmt durch die Verdeckung des Kompandierungsrauschens. Die Verdeckung
des Leerkanalrauschens ist weniger kritisch. Optimal sind offenbar frequenzgruppenbreite
Bandpässe, die das Kompandierungsrauschen im hohen Maße verdecken, und die deshalb
hohe Kompandierungsgrade ermöglichen. Dies ist eine Frage des technischen Aufwandes.
-
Anpassung an die Amplitudenstatistik Um den Aussteuerungsbereich
einer PCM-Strecke auch bei hohen Frequenzen vollständig zu nutzen, benutzt man Pre/Deemphasen,
die entsprechend der Amplitudenstatistik besonders im Bereich hoher Frequenzen wirksam
sind. Die gebräuchlichen Pre-Deemphasen vermindern die Wahrnehmbarkeit des Quantisierungsrauschens,
indem sie den Rauschpegel im Bereich hoher Frequenzen herabsetzen.
-
Langzeit-Spektrum In Fig 2 sind die Verhältnisse an zwei Beispielen
dargestellt.Eingetragen sind die Ruhehörschwelle, dazu das Spektrum von weißem Rauschen
(W.R), das gerade noch unterschwellig ist, sowie die resultierenden Spektren nach
Bewertung durch die »50 >«- bzw. J17-Pre/Deemphasis«. Die Pre-Deemphasen vermindern
den Rauschpegel im Bereich der hohen Frequenzen und verschieben dadurch-den Rauschpegel,
der gerade noch verdeckt ist, um die Differenz dL, wobei AL der Ruhehörschwellenabstand
ist. Für die 50 Fs-Pre/Deemphasis ist ALso = -4 dB, für die J17-Pre/Deemphasis ist
vlLJ7 = -12 dB, woraus sich Einsparungen von 21 kbit/s (50 taS) bzw. 64 kbit/s (J17)
ergeben.
-
Man erkennt anhand von Fig. 2, daß die Höhe der möglichen Einsparungen
an Kanalkapazität in Breitband-PCM-Systemen allein durch das Maß der Vorverzerrung
im 3 kHz-Bereich bestimmt ist. Allein der empfindliche Bereich des Gehörs in diesem
Frequenzbereich ist entscheidend dafür, ob das Quantisierungsrauschen über- oder
unterschwellig ist.
-
Im Prinzip ergibt sich aber gerade im Bereich der hohen Frequenzen
die größtmögliche Vorverzerrung.
-
Besonders am Beispiel 50 !ls-Pre/Deemphasis wird deutlich, daß die
Vorverzerrung bei Breitband-PCM nicht optimal zur Einsparung an Kanalkapazität genutzt
wird. Im Vergleich zur frequenzunabhängigen Clippgrenze der PCM-Strecke ist rechnerisch
eine Bitraten-Reduktion von 41 kbit/s möglich, wenn die Clippgrenze den Verlauf
der 50 is-Deemphasis aufweist. Diese Reduktion ist durch Frequenzaufteilung technisch
durch beispielsweise acht terzbreite Bandpässe im oberen Frequenzbereich erreichbar.
-
Offenbar kann die in Bandpaß-PCM-Systemen mögliche frequenzabhängige
Quantisierung nicht nur zum Zwecke der Rauschanpassung vorteilhaft genutzt werden,
sondern auch für die Anpassung des Kanals an die Amplitudenstatistik. Bandpaß-PCM-Systeme
können die Amplitudenstatistik effektiver nutzen als Breitband-PCM-Systeme.
-
Für die Beantwortung der Frage, welcher Clippgrenzen-Frequenzverlauf
tolerierbar ist, ist folgendes zu beachten: Wie neuere amplitudenstatistische Untersuchungen
zeigen, können bei moderner Musik insbesondere bei elektronischer Musik und impulshaften
Klängen, die 50 ps-Grenzkurve und sogar die 25 Fs-Grenzkurve zu kurzzeitigen Übersteuerungen
führen, wenn ein Aussteuerungsmesser nach ARD-Pflichtenheft 3/6 benutzt wird.
-
Bei Breitband-PCM-Systemen entstehen durch das Clipping kurzzeitige
starke, nichtlineare Verzerrungen, die mit ausreichender Aussteuerungsreserve, also
auf Kosten einer Verringerung des Rauschabstandes, vermieden werden. Aus diesem
Grunde erscheint eine Herabsetzung der Clippgrenze entsprechend der J 17-Kurve in
Breitband-PCM-Systemen kaum sinnvoll. Indessen sind die Nachteile einer (weitgehenden)
Pre/Deemphasis in Bandpaß-PCM-Systemen geringer: Infolge der Bandpaßbegrenzung werden
die Klirrprodukte, die durch Clipping kurzzeitig auftreten, zum Teil unterdrückt
und wesentlich besser verdeckt. Die Clipping-Geräusche werden - abhängig von der
Dimensionierung der Bandpässe - mehr oder weniger stark gemildert. Besonders in
schmalbandigen Bandpässen treten deutlich geringere Aussteuerungsprobleme auf so
daß im Bereich hoher Frequenzen die Clippgrenze wirkungsvoll herabgesetzt werden
darf. Bereits oktav-breite Bandpässe unterdrücken praktisch alle harmonischen Verzerrungsprodukte,
die durch Clipping auftreten.
-
Kurzzeit-Spektrum Darüber hinaus besteht die Möglichkeit, das Prinzip
»variable Preemphasis« anzuwenden, Eine adaptive Emphasis kann die Aussteuerungsprobleme
weiter reduzieren, wenn Pre- und Deemphasis durch Übertragung der Steuergröße invers
zueinander arbeiten. Der dafür erforderliche Informationsfluß ist gering.
-
Im Gegensatz zu Breitband-PCM-Systemen kann in Bandpaß-PCM-Systemen
diese frequenzabhängige, kurzzeitige Anpassung sehr einfach erfolgen. Der momentan
wirksame Frequenzverlauf der Preemphasis muß nicht
durch Kurzzeit-Spektralanalyse
ermittelt und durch entsprechende variable Filter eingestellt werden, sondern es
erfolgt eine einfache komplementäre Verstärkungsregelungin jedem Kanal der Bandpaß-PCM-Strecke.
-
Dabei ist von Vorteil, daß die für die Hörschwellenanpassung optimierte
Bandpaß-Aufteilung auch eine günstige Bandpaß-Aufteilung in Hinblick auf Amplitudenstatistik-Anpassung
darstellt.
-
Eine derartige adaptive komplementäre Kanalverstärkung, die abhängig
vom Pegel des Nutzsignals arbeitet, kann beispielsweise in der Weise ausgelegt sein,
daß nur im Fall sehr hoher Nutzsignalpegel im Coder eine relativ hohe Kanalverstärkung
zurückgeregelt wird (Limiter-Kennlinie). In diesem Fall ergibt sich die Rauschunterdrückung
aus der Pegelanhebung im Coder und der komplementären Pegelabsenkung im Decoder;
sie reduziert sich im Fall der Ubersteuerung entsprechend der Limiter-Kennlinie.
-
Die adaptive komplementäre Kanalverstärkung kann aber auch in der
Weise ausgelegt sein, daß im Fall niedriger und mittlerer Nutzsignalpegel im Coder
die Kanalverstärkung hochgeregelt wird (Dynamikkompressor-Kennlinie). In diesem
Fall ergibt sich durch die komplementäre Kanalverstärkung im Decoder für niedrige
und mittlere Pegel ein Kompandergewinn entsprechend der Kompressor-Kennlinie.
-
Bei Anwendung von adaptiven komplementären Verstärkungen in den Kanälen
der Bandpaß-PCM-Strecke zeigt sich ein weiterer Vorteil der Bandpaß-PCM gegenüber
Breitband-PCM, weil sich die bekannten Kennlinien (Limiter, Kompressor, Gleitkomma)
günstig an das Kurzzeit-Spektrum anpassen lassen. Die statischen und dynamischen
Kennwerte der Kanalverstärkungen lassen sich dadurch auf einfachem Wege so optimieren,
daß gegenüber Breitbandsystemen eine wesentlich höhere Rauschverminderung möglich
ist.
-
Prinzipieller Aufbau der Bandpaß-PCM In F i g. 3 ist ein prinzipieller
Aufbau der Bandpaß-PCM dargestellt. Die Frequenzumsetzung und Bandpaßfilterung geschieht
zur besseren Verständlichkeit analog. Schaltungstechnisch sind diverse digital arbeitende
sogenannte »Transmultiplexer« realisiert, die Frequenzmultiplexsignale (FDM) umsetzen
in Zeitmultiplexsignale (TDM) und umgekehrt. Man sieht leicht ein, daß ein breitbandiges
Analogsignal der Breite B im Prinzip als Frequenzmultiplexsignal der Breite B =
> zu Bj aufgefaßt werden kann. Einige Verfahren werden beispielsweise in der
Zeitschrift »The Bell System Technical Journal« Oktober 1976, Seiten 1069 bis 1085
und Mai-Juni 1977, Seiten 747 bis 770 sowie in der Dissertation »Dimensionierung
von digitalen TDM-FDM-Transmultiplexern nach der Polyphasenmethode«, ETH Zürich
1979 diskutiert und beschrieben.
-
Anhand des prinzipiellen Aufbaus in Fig. 3 wird nachstehend erläutert,
wie durch Wahl der Frequenzbandaufteilung (Anzahl Mittenfrequenz und Breite der
Bandpässe) sowie durch Auslegung der Quantisierung die Verringerung der Übertragungs-Bitrate
ohne Verschlechterung der Signalqualität erreicht werden kann.
-
Nach der Bandpaß-Aufteilung werden alle höher gelegenen Kanäle frequenzumgesetzt,
so daß in der nachfolgenden PCM-Umsetzung die Abtastfrequenz1 > 2 Bi ausreicht.
Der Netto-Informationsfluß 17DM des Zeitmultiplex-Signals ist im Prinzip nicht größer
als der Netto-Informationsfluß IEDM des Frequenzmultiplex-Signals, er reduziert
sich mit Verkleinerung der Rauschabstände in den einzelnen Kanälen, die nach Maßgabe
der Hörschwellenkurven des Gehörs möglich sind.
-
Auf der Decoderseite wird das TDM-Signal invers zur Coderseite zurücktransponiert.
Infolge der Bandpässe an den Kanalausgängen wird das Quantisierungsrauschen jedes
Kanals bandpaßbegrenzt. Wenn die Quantisierung in allen Kanälen gleich ist, ergibt
sich am Ausgang des Decoders das übliche (breitbandige) Rauschen einer Breitband-PCM-Strecke.
Wird in einem der Kanäle die Auflösung beispielsweise verringert, so erhöht sich
dementsprechend die Rauschleistung der Bandpaß-PCM-Strecke bei den Spektralanteilen,
die im Durchlaßbereich dieses Kanals liegen.
-
Anpassung des Leerkanalrauschens an die Ruhehörschwelle Fig. 4 zeigt
die Ruhehörschwelle im Terzdiagramm. Die schraffierte Fläche stellt das ausnutzbare
Spektrum dar. Zur Übertragung dieses Spektrums ist eine Kanalkapazität von etwa
60 kbit/s erforderlich (Grenzfrequenz 15 kHz). Der wesentliche Teil dieser Kapazität
resultiert aus dem hochfrequenten Anteil des Spektrums. Das wird deutlich in der
Darstellung in Fig. 5. Aufgetragen ist die mögliche Einsparung an Kanalkapazitätje
Terz, berechnet nach der Beziehung CiGewinn = 1 Biaai 3 Bi: Bandbreite des Bandpasses
i mit Mittenfrequenzfj aq/: Verringerung des Rauschabstandes (dB) im Bandpaß i Der
tieffrequente Anteil liefert keinen nennenswerten Beitrag (wegen der geringen Bandbreite
Bi dieser Terzen). Allein mit den letzten drei Terzen 8, 10, 12,5 kHz einschließlich
1/4 der 16 kHz-Terz kann eine Einsparung von 48 kbit/s erzielt werden, das sind
80% der möglichen Gesamteinsparung. Dieser Betrag ergibt sich ebenso, wenn die letzte
Oktave des gesamten Spektrums, nämlich 7,5... 15 kHz zugrundegelegt wird: es ist
mit B1, = 7,5 kHz und aqi', = 19 dB (vgl. Ruhehörschwelle) Cc ii, = 48 kbit/s.
-
Als technisch sinnvolle Möglichkeit der Einsparung durch Anpassung
des Leerkanalrauschens an die Ruhehörschwelle bietet sich also eine Halbierung des
Frequenzbandes an. Diese Lösung nutzt 80% der möglichen Einsparung und erfordert
für die Abtastung nur eine gemeinsame Abtastfrequenz vonf = 16 kHz. Auf diesem Wege
können damit 48 kbit/s ohne Qualitätsverlust eingespart werden.
-
Eine gemeinsame Abtastfrequenz für alle Kanäle der Bandpaß-PCM bietet
technische Vorteile besonders bei der Wort- und Blocksynchronisation.
-
Anpassung des Kompandierungsrauschens an die Mithörschwelle Nachstehend
wird erläutert, weshalb allein durch Wahl der Breite Bi des Bandpasses i der Rauschabstand
a festgelegt wird, der erforderlich ist, um vollständige Verdeckung zu erreichen.
-
Die Verdeckungskurven sind, wenn sie statt über der Frequenz über
der Barkskala aufgetragen werden, unabhängig von der Tonheit z. Oberhalb etwa 500
Hz ist z # lgf, d. h. auch bei hohen Frequenzen können wir etwa die gleichen Kurvenverläufe
annehmen wie bei mittleren Frequenzen, vgl. Fig. 1. Die Verdeckungswirkung eines
Maskierers verhält sich oberhalb 500 Hz in 1. Näherung unabhängig von der Frequenzlage
des Maskierers.
-
Weiterhin ist festzustellen, daß die sehr steilen unteren Flanken
der Mithörschwellen darüber hinaus unabhängig sind vom Schallpegel des Maskierers
(oberhalb 500 Hz), die Steilheit beträgt konstant etwa 80... 90 dB/Okt.
-
Um die Verdeckung eines bandpaßbegrenzten Kompandierungsrauschens
abschätzen zu können, sei das worst-case-Beispiel entsprechend Bild 6 angenommen.
Dargestellt ist die Mithörschwellenkurve für fM = 1 kHz, Schalldruckpegel L ,T,
= 60 dB. Beträgt die obere Grenzfrequenz des Bandpaßfilters fo = 1 kHz, dann liegt
die untere Grenzfrequenz des Kompandierungsrauschens bei fu = fo - Bi. In der Skizze
ist B, terzbreit angenommen, hier muß der Pegel des Kompandierungsrauschens etwa
25 dB unter dem Maskiererpegel liegen (»kritischer Rauschabstand« für terzbreites
Rauschen).
-
Rechnerisch ergibt sich der kritische Rauschabstand aqi aus der Steilheit
der unteren Flanke der Mithörschwellenkurve sowie aus der maximalen Höhe der Mithörschwellenkurve.
Legt man die »Mithörschwellen eines Tones, verdeckt durch Schmalbandrauschen« zugrunde,
so beträgt die Steilheit der unteren Flanke fürfrn = 1 kHz 85 dB/Okt. und das Maximum
L - L Tlaxst 5 dB (vgl. Bild 6). Damit ergibt sich für den kritischen Rauschabstand
fov fui: obere und untere Grenzfrequenz des Bandpasses i Die Beziehung ist in erster
Näherung unabhängig von der Frequenz und vom Schalldruck. Das trifft nicht mehr
zu, wenn die Mithörschwellenkurven für maskierende Sinustöne zugrunde gelegt werden:
Die Steilheit der unteren Flanke beträgt ca. 30 dB/Okt. für LM = 30dB und ca. 110dB/Okt.
für LM= 90 dB; außerdem ist L .u - L Tniax 11 dB. Jedoch ergeben sich aus der oben
angegebenen Beziehung erst bei Sinuspegeln LM> 60 dB etwas zu kleinere Werte
für den kritischen Rauschabstand aqi.
-
Diese Darstellung basiert auf dem theoretisch ungünstigsten Fall.
In der Praxis liegen die Verhältnisse aus zwei Gründen günstiger.
-
1. Die Übertragung einer einzelnen Linie genau an der oberen Grenzfrequenzfoj
des Bandpasses kommt praktisch nicht vor. Würde sich die Linie etwa in der Mitte
des Durchlaßbereichs befinden, so würde der kritische Rauschabstand bereits halbiert
werden.
-
2. Die vollkommen rauschfreie Übertragung einer einzelnen Linie und
Wiedergabe mit Schalldruckpegeln >60 dB ist selbst für elektronische Musik kaum
relevant.
-
Für die worst-case-Abschätzung soll deshalb der kritische Rauschabstand
angenommen werden mit
Diesem Wert steht bei qj Quantisierungsstufen ein Rauschabstand
gegenüber. Mit Gleichung (3) und (4) läßt sich die für die Verdeckung des Kompandierungsrauschens
erforderliche Bitrate direkt bestimmen.
1dl=33,2 lg(foi)+0,52 [bit] |
fui sample |
Für die Abschätzung wird angenommen:
idi=32ig(;)+1 [ simple 1 (6) |
Daraus ergibt sich beispielsweise folgende Wertetabelle: Tabelle
1: Bandbreite Bj: 1 Terz 2 Terzen 3 Terzen krit. Rauschabstand aqj: 25 dB 45 dB
65 dB Für Verdeckung erf.Idqi 4,1 bit 7,4 bit 10,6 bit sample sample sample sarnple
sample Man erkennt die günstige Wirkung eines schmalen Bandpasses, damit aber auch
die ungünstigen Verhältnisse bei Breitband-Kompandierung. Wenn die Bandbreiten größer
als 4 Terzen sind, verdeckt die Mithörschwelle nicht mehr das Kompandierungsrauschen,
sondern sie reduziert lediglich die Störwirkung.
-
An dieser Stelle sei bereits auf einen günstig wirkenden Sachverhalt
hingewiesen. Man kann in der Praxis davon ausgehen, daß die spektralen Anteile im
Bereich hoher Frequenzen, beispielsweise ab etwa 7,5 kHz, nur als Oberton- oder
Geräuschanteil eines Gesamtklanges auftreten. Selbst elektronische Musikinstrumente
erzeugen kaum Klänge mit nur hochfrequenten Anteilen. Deshalb wird im Bereich hoher
Frequenzen die Verdeckung des Kompandierungsrauschens im Bandpaß i vorwiegend durch
Nutzsignalanteile im Bandpaß 1 - 1 erfolgen. Da die oberen Flanken der Mithörschwellen
wesentlich flacher verlaufen, ist die für Verdeckung erforderliche Bitrate im Bereich
hoher Frequenzen praktisch kleiner als nach Abschätzung entsprechend Gleichung (6).
-
Im Hinblick auf eine günstige Anpassung des Bandpaß-PCM-Kanals an
den Ohrkanal soll festgehalten werden: - Die für Verdeckung erforderliche Bitrate
ist praktisch nur von der Bandpaßbreite abhängig, dagegen praktisch nicht von der
Bandpaß-Mittenfrequenz und der Abhörlautstärke.
-
- Ein Bandpaß-PCM-System, das den kritischen Rauschabstand einhält,
erzeugt auch bei hohen Abhörpegeln kein hörbares Kompandierungsrauschen.
-
- Ein Bandpaß-PCM-System, das den kritischen Rauschabstand unterschreitet,
kann ein hörbares Kompandierungsrauschen erzeugen, wenn das Kompandierungsrauschen
über der Ruhehörschwelle liegt.
-
Liegt der kritische Rauschpegel unterhalb der Ruhehörschwelle, so
verdeckt die Ruhehörschwelle. In diesem Fall ist entweder der Kompandierungsgrad
unnötig hoch oder der Bandpaß unnötig schmal. Für die Dimensionierung der Bandpaß-PCM
ist also im Prinzip die maximale Abhörlautstärke von Bedeutung.
-
Anpassung des Bandpaß-PCM-Kanals an den Ohrkanal Für die Bestimmung
einer günstigen Anpassung des Bandpaß-PCM-Kanals an den Ohrkanal wird das »Signal-Rauschverhältnis
des Ohrkanals« in Abhängigkeit vom Frequenzbereich festgestellt und in den bekannten
S/N-Diagrammen dargestellt. Dazu ist die Abhörlautstärke festzulegen. Es wird angenommen,
daß bei Vollaussteuerung der PCM-Strecke der Schalldruckpegel 90 dB beträgt. DerNominalpegelS0
= o dB der PCM-Strecke ergibt also einen Nominalschalldruckpegel von L 50 = 90 dB.
Weiter wird angenommen, daß derheadroom 10 dB groß ist.
-
Mit Blick auf den Frequenzverlauf der Ruhehörschwelle wird die Anpassung
für drei »typische« Mittenfrequenzen ermittelt:f,,l = 0,8 kHz,f"2 = 3,2 kHz,f",3
= 10 kHz. Fig. 7 zeigt die angenommenen Verhältnisse in der Hörfläche. Eingetragen
sind auch die Mithörschwellen für Vollaussteuerung sowie die kritischen Rauschabstände
für eine, zwei und drei Terzen (1T, 2T, 3T), vgl. Tabelle 1.
-
Man sieht, daß der kritische Rauschabstand bei geringerem Schalldruckpegel,
also bei geringerer Aussteuerung der PCM-Strecke, unterhalb derRuhehörschwelle liegen
kann. Beispielsweise ist der erforderliche Rauschabstand eines 10-kHz-Tones nicht
mehr gleich dem kritischen Rauschabstand (aqio kf(,)3T = 65 dB, wenn der Pegel des
10-kHz-Tones kleiner wird als 10 dB unter Vollaussteuerung: hier wirkt schon die
Ruhehörschwelle »verdeckend«. Wird der Pegel weiter reduziert, so darf der Rauschabstand
im 3-Terz-breiten Bandpaß proportional mit dem Signalpegel Fallen.
-
Dieser Verlauf des Rauschabstandes des Gehörs ist der Verlauf des
erforderlichen Rauschabstandes des PCM-Kanals. Er kann, wie üblich, in einem S/N-Diagramm
dargestellt werden, und aus der Beziehung Nominalschalldruckpegel/Nominalpegel ergeben
sich direkt die Anforderungen an den bandpaßbegrenzten Kanal bezüglich Leerkanalrauschen
und Kompandierungsrauschen.
-
Im Diagramm Fig. 8 sind die 450-Geraden eingetragen, die sich aus
Nominalschalldruckpegel und Ruhehörschwelle ergeben, sie sind frequenzabhängig.
Weiterhin sind die kritischen Rauschabstände für die Bandpaßbreiten 1T, 2T und 3T
(1, 2 und 3 Terzen) eingetragen, die sich aus der Mithörschwelle ergeben; sie sind
frequenzunabhängig. Die Kurven beschreiben exakt den »Rauschabstand des Gehörs«
(SS r (d. h., den Abstand eines Tones von der Hörschwelle im Bereich eines Bandpasses):
Im Bereich kleiner Schalldruckpegel L s wächst der Abstand zur (Ruhe)-Hörschwelle
des bandpaßbegrenzten Rauschens proportional mit Ls an. Im Bereich hoher Schalldruckpegel
L s (abhängig von der Bandpaßbreite) bleibt der Abstand des bandpaßbegrenzten Rauschens
von der (Mit)-Hörschwelle konstant.
-
Ein derartiger (S/N)-Verlauf kennzeichnet bekanntlich auch PCM-Strecken
mit nichtlinearer, insbesondere logarithmischer Quantisierung (z. B. 13-Segment-Kompanderkennlinie):
Im Bereich kleiner Signalpegel S
wächst der Abstand (S/N)PCM proportional
mit S an; im Bereich hoher Signalpegel bleibt (S/N)P(M in erster Näherung konstant.
-
Die optimale Quantisierung für den Bandpaß i der Bandpaß-PCM-Strecke
läßt sich demnach unmittelbar den (SAV),r-Verläufen entnehmen. Fig. 8 macht zunächst
wichtige Zusammenhänge deutlich: 1. Die Lage der waagerechten Geraden kennzeichnet
den maximal erforderlichen Rauschabstand (SSV)pc,ç.
-
Er hängt allein von der Bandbreite des Bandpaß-Kanals ab: Es gilt
entsprechend Gleichung (3):
2. Der maximal erforderliche Rauschabstand, und damit die erforderliche Anzahl der
Bits je sample, ist unabhängig vom Nominalschalldruckpegel Also.
-
3. Die Lage der 45Geraden kennzeichnet den Leerkanalrauschpegel, der
an der Ruhehörschwelle liegt. Der Leerkanalrauschpegel verhält sich zur Höhe des
Nominalschalldruckpegels Lso umgekehrt proportional.
-
4. Der Knickpunkt der Geraden kennzeichnet den Kompandergewinn bzw.
den Kompandierungsgrad. Er hängt ab von der Bandbreite des Kanals i (1T, 2T oder
3T) und vom Nominalschalldruckpegel Lso.
-
Der Informationsfluß eines Bandpaß-PCM-Signals ist demnach ausschließlich
durch die Breite und Anzahl der Bandpaß-Kanäle bestimmt. Er ist für B; < 4T unabhängig
vom Nominalschalldruckpegel.
-
Die Höhe des Nominalschalldruckpegels ist allein begrenzt durch die
Wahrnehmbarkeit des Leerkanalrauschens im Kanal 1. Das Leerkanalrauschen vermindert
sich proportional der Erhöhung des Kompandierungsgrades. Durch Dimensionierung der
Kompanderkennlinie wird also die maximale Abhörlautstärke festgelegt, die gerade
noch Rauschfreiheit gewährleistet.
-
Beispiel 1 (vgl. Bild 8) Gewählt: Lso = 90 dB, B1=3T Dann ist: (5ffl)PcM
max = 65 dB, entsprechend 10,6 bit sample Daraus resultieren Kompandergewinne Ki
sowie Kompandierungsgrade Gj: fmx = 0,8 kHz: Kl = 31 dB G1=5,2bit fm2 = 3,2 kHz
: K2 = 39 dB G2 = 6,5 bit fm3 = 10 kHz: K3 = 20 dB G3 = 3,3 bit Damit liegen die
optimalen Quantisierungen für die 3 oktavbreiten Kanäle der Bandpaß-PCM-Strecke
fest: fm, = 0,8 kHz: 15,7 auf 10,6 bit/sample fm2 = 3,2 kHz: 17,0 auf 10,6 bit/sample
fm3 = 10 kHz:13,8 auf 10,6 bit/sample Diese Bandpaß-Kanäle sind bis zu Spitzenschalldruckpegeln
von Ls = 100 dB rauschfrei.
-
Würde man eine entsprechende Oktavband-PCM-Strecke aufbauen (8 Oktav-Bandpässe),
so würde der resultierende Informationsfluß I = # fsi . 10,6 bit = 340 kbit/s betragen.
Gegenüber einer 16-bit-linear-PCM-Strecke (deren Systemdynamik 6 dB kleiner ist)
bedeutet das eine Einsparung von 172 kbit/s (35%). Wollte man den für 16-bit-linear
erforderlichen Informationsfluß halbieren (ca. 250 kbit/s), so müßte die Oktavbreite
der Bandpässe um den Faktor 0,74 reduziert werden. Für die Erhaltung der Systemdynamik
wären dann die Kompandierungsgrade um den Faktor 1,34 zu erhöhen.
-
Doch der spezifische Gewinn je bit Einsparung ist nur bei hohen Frequenzen
groß. Deshalb ist es günstiger, im oberen Frequenzbereich wenige schmale Bandpässe
vorzusehen, als im gesamten Frequenzbereich breitere Bandpässe. Bei gleichem Gewinn
ist der technische Aufwand dann geringer. Erforderlich ist allerdings eine höhere
Kompandierung.
-
Beispiel 2 Gewählt: Lso = 90 dB Bj = 1,5T (7,5 ... 10,7 und 10,7
... 15 kHz)
Dann ist: (S»z)PCM;I,1a,.= 35 dB, entsprechend 5,7 bit
sample Hieraus ergibt sich ein Informationsfluß von 348 kbit/s; die Einsparung gegenüber
16-bit-linear beträgt 164 kbit/s. Dies wird erreicht durch Einteilung des Frequenzbandes
in die drei Bänder 0,04... 7,5/7,5 . . . 10,7/ 10,7... 15 kHz. Das untere Band arbeitet
16-bit-linear. Gegenüber Beispiel 1 erreicht man also mit drei Bändern praktisch
den gleichen Informationsfluß. Diese und weitere Dimensionierungsbeispiele sind
in Tabelle 2 zusammengestellt: Tabelle 2 .lj Beispiel i f"; foj bit iErz ktiz sample
kblt/s kbit/s
0,04 0,12 15,9 2,6 |
2 0,12 0,25 10,6 2,7 |
3 0,2 0,5 10,6 5,3 |
4 0,5 0,9 10,6 10,6 |
5 0,9 1,9 10,6 21,2 |
6 1,9 3,8 10,6 42,5 |
7 3,8 7,5 10,6 84,9 |
8 7,5 15,0 10,6 169,9 |
2 1 0,04 7,5 16,0 255,6 |
2 7,5 10,7 5,9 40,5 348,3 |
3 10,7 15,0 5,7 52,2 |
3 1 0,04 5,4 16,0 184,0 |
2 5,4 7,5 5,6 24,9 3016 |
3 7,5 10,7 5,9 40,5 |
4 10,7 15,0 5,7 52,2 |
4 1 0,04 5,0 16,0 170,4 |
2 5,0 10,0 10,6 113,2 354,2 |
3 10,0 15,0 6,6 70,6 |
5 1 0,04 3,8 16,0 129,5 |
2 3,8 7,5 10,6 84,9 384,3 |
3 7,5 15,0 10,6 169,9 |
6 1 0,04 6,0 16,0 204,5 |
2 6,0 9,0 6,6 42,4 350,4 |
3 9,0 15,0 8,1 103,5 |
7 1 0,04 6,2 16,0 211,3 |
2 6,2 7,7 4,1 12,8 |
3 7,7 9,6 4,1 15,5 286,8 |
4 9,6 12,0 4,1 21,0 |
5 12,0 15,0 4,1 26,2 |
Die resultierenden Informationsflüsse v li sind allein durch Anpassung der PCM-Strecke
an die Mithörschwelle erreichbar. Man erkennt, daß bereits die Aufteilung in drei
Frequenzbänder gegenüber 16-bit-linear eine Einsparung von etwa 150 kbit/s bewirken
kann (Beispiele 2, 4, 6), und daß die Wahl der Grenzfrequenzen der drei Bandpässe
nicht allein nach Maßgabe der Mithörschwelle festgelegt ist.
-
Anpassung des Bandpaß-PCM-Kanals an die Amplitudenstatistik Deshalb
ergibt sich im Hinblick auf die Anpassung an die Amplitudenstatistik ein Dimensionierungsspielraum.
Die damit erreichbare zusätzliche Einsparung wird anhand der statischen J17-Pre/Deemphasiskurve
erläutert; sie liegt entsprechend höher bei Einsatz einer adaptiven Anpassung an
das Kurzzeit-Spektrum durch adaptive, komplementäre Verstärkung.
-
Fig. 9 zeigt ein Ausführungsbeispiel füi die statische Anpassung
an das Langzeit-Spektrum. Dargestellt ist die J17-Kurve (gestrichelte Linie), im
Vergleich dazu die Ruhehörschwelle. Im Frequenzbereich 0,5 ... 6 kHz (Bandpaß i
= 1) ist der Frequenzverlauf der Pre/Deemphasis genau der Ruhehörschwelle angepaßt
(»Ruhehörschwellen-Emphasis«). Im Bereich 6... 9 kHz (Bandpaß i = 2) erfolgt eine
komplementäre Verstärkung von 12 dB, im Bereich 9... 15 kHz (Bandpaß i = 3) von
18 dB. Insgesamt wird der Aussteuerungsbereich dieser Bandpaß-PCM-Strecke im Frequenzbereich
1... 9 kHz um ca. 6 dB geringer eingeschränkt als im Fall der J17-Pre/Deemphasis
bei Breitband-PCM-Strecken.
-
Dennoch ist die resultierende Informationsfluß-Einsparung noch um
12,8 kbit/s größer: Bandpaß 1: Der Ruhehörschwellen-Abstand beträgt 12 dB. Mit2
bit/sample und einer Abtastfrequenz (0,04... 6 kHz) fs = 12,8 kHz reduziert sich
die Übertragungsrate um 25,6 kbit/s.
-
Bandpaß 2: Die Dämpfung des Rauschpegels beträgt 12 dB. Mit 2 bit/sample
undfs = 6,4 kHz redu-(6... 9 kHz) ziert sich die Übertragungsrate um 12,8 kbit/s.
-
Bandpaß 3: Die Dämpfung des Rauschpegels beträgt 18 dB. Mit 3 bit/sampleundfs
= 12,8 kHz redu-(9... 15 kHz) ziert sich die Übertragungsrate um 38,4 kbit/s.
-
Dies sind insgesamt 76,8 kbit/s. Damit beträgt bei dieser Bandpaß-PCM-Strecke
(Beispiel 6 in Tabelle 2) der Netto-Informationsfluß 274 kbit/s. Im Vergleich zu
einer entsprechenden Breitband-PCM-Strecke (Quantisierung 16 auf 14, J17-Pre/Deemphasis)
die einen Netto-Informationsfluß von 447 kbit/s übertragen muß, lassen sich durch
die Aufteilung in nur drei Bandpässe bereits 173 kbit/s einsparen. Dabei ist imVergleich
zur J17-Pre/ Deemphasis die Einschränkung des Aussteuerungsbereiches im Frequenzbereich
1 9 kHz um ca. 6 dB geringer, und die Tonqualität der beiden PCM-Systeme ist gleichwertig.
Darüber hinaus bewirken die Bandpaß-Begrenzungen, daß die Verzerrungsprodukte, die
durch Clipping bei Ubersteuerung auftreten, im Frequenzbereich 6... 15 kHz praktisch
vollkommen unterdrückt werden. Kurzzeitige Übersteuerungen, die durch die Einschränkung
des Aussteuerungsbereiches entsprechend Fig. 9 auftreten können, stören aus diesem
Grunde und infolge der Verdeckung praktisch nicht. Im Gegensatz zur Breitband-PCM-Strecke
macht deshalb die Nutzung der Langzeit-Amplitudenstatistik keine erhöhte Aussteuerungsreserve
erforderlich.
-
Fig. 10 zeigt ein Ausführungsbeispiel für eine zusätzliche dynamische
Anpassung an das Kurzzeit-Spektrum.
-
Dargestellt ist eine oktavbreite Frequenzband-Aufteilung entsprechend
Beispiel 1 in Tabelle 2. Der zu übertragende Informationsfluß dieser Bandpaß-PCM-Strecke
beträgt ohne Nutzung der Amplituden-Statistik 340 kbit/s. Allein durch Einfügung
von statischen komplementären Vorverstärkungen in den Bandpässen i = 7 und i = 8
von 6 bzw. 18 dB (schraffierte Bereiche und Clippgrenzenverlauf in Fig. 10) würde
sich eine Einsparung von 8,0 kbiUs + 48,0 kbit/s = 56,0 kbit/s ergeben (Nutzung
derLangzeit-Amplitudenstatistik). Sieht man darüber hinaus eine adaptive komplementäre
Vorverstärkung mit 12 dB-Limiter-Kannlinie injedem der Bandpässe i = 5 bisi = 8
vor(punktierteBereiche inFig. 10), so reduziert sich derInformationsfluß auf223,4
kbit/s: Tabelle 3 #Ii Beispiel i f11 f0 bit l;i kHz Ez sample IcblUs kbit/s
la 1 0,04 0,12 15,9 2,6 |
2 0,12 0,25 10,6 2,7 |
3 0,25 0,5 10,6 5,3 |
4 0,5 0,9 10,6 10,6 223,4 |
5 0,9 1,9 8,6 17,2 |
6 1,9 3,8 8,6 34,5 |
7 3,8 7,5 7,6 60,9 |
8 7,5 15,0 5,6 89,6 |
Diese Bandpaß-PCM-Strecke hat folgende Eigenschaften: 1) Übersteuerungen (Überschreitung
der Clippgrenze) im Frequenzbereich 0,1... 15 kHz führen nicht zu störenden Geräuschen
durch nichtlineare Verzerrungsprodukte, sondern zu weit geringer störenden kurzzeitigen
Klangverfärbungen durch lineare Verzerrungen. Ubersteuerungen sind unkritischer
als bei analogen Übertragungsstrecken.
-
2) Die Absenkung der Clippgrenze um 6 dB im Frequenzbereich 3,8 .
. . 7,5 kHz und um 18 dB im Bereich 7,5... 15 kHz (vgl. F i g. 10) vermindert deshalb
auch bei kritischem Programm nicht die Aussteuerbarkeit der Strecke. Die Aussteuerungsreserve
läßt sich sogar problemlos reduzieren.
-
3) Kompandierungsrauschen ist auch bei größten Abhörpegeln nicht wahrnehmbar.
Allein für reine Töne mit f> 1,9 kHz, deren Pegel größer sind als -12 dB (bezogen
auf die Clippgrenze) ist theoretisch eine Überschreitung der Mithörschwelle durch
das Kompandierungsrauschen möglich.
-
4) Wenn durch entsprechende digitale Kompandierungen in allen acht
Bandpässen die in Tabelle 3 vorgesehenen Bitraten (bit/sample) für die Ubertragung
eingehalten werden, so ist das Kompandierungsrauschen in der gesamten Bandbreite
0,04... 15 kHz - unabhängig vom Kompandierungsgrad - unterschwellig. Deshalb kann
ohne hörbare Verluste eine beliebig hohe Dynamik übertragen werden. Die maximale
Dynamik ist somit nur durch die Systemdynamik der A/D-D/A-Wandler begrenzt.
-
5) Infolge der Bandpaß-Begrenzungen und der komplementären Verstärkungen
treten Störungen durch Bitfehler bei der Übertragung wesentlich seltener und schwächer
auf als entsprechende Knackstörungen oder Störgeräusche bei Breitband-PCM-Ub Breitband-PCM-Übertragung.
-
Insgesamt ergeben sich für dieses Ausführungsbeispiel der erfindungsgemäßen
Bandpaß-PCM-Strecke gegenüber einer entsprechenden Breitband-PCM-Strecke folgende
Vorteile: - Die Übertragungs-Bitrate für das Bandpaß-PCM-codierte AF-Signal beträgt
etwa 230 kbit/s.
-
- Die maximale Dynamik ist nur durch die Auflösung der A/D-D/A-Wandler
begrenzt.
-
- Das Kompandierungsrauschen ist unabhängig vom Abhörpegel nicht wahrnehmbar.
-
- Die Strecke ist unempfindlicher gegenüber Ubersteuerungen als analoge
Strecken.
-
- Die Strecke ist unempfindlich gegenüber Bitfehlern.
-
- Leerseite -