DE60209888T2 - Kodieren eines audiosignals - Google Patents

Kodieren eines audiosignals Download PDF

Info

Publication number
DE60209888T2
DE60209888T2 DE60209888T DE60209888T DE60209888T2 DE 60209888 T2 DE60209888 T2 DE 60209888T2 DE 60209888 T DE60209888 T DE 60209888T DE 60209888 T DE60209888 T DE 60209888T DE 60209888 T2 DE60209888 T2 DE 60209888T2
Authority
DE
Germany
Prior art keywords
signal
noise
encoded
parameter
frequency band
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE60209888T
Other languages
English (en)
Other versions
DE60209888D1 (de
Inventor
Rakesh Taori
L. Steven VAN DE PAR
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Application granted granted Critical
Publication of DE60209888D1 publication Critical patent/DE60209888D1/de
Publication of DE60209888T2 publication Critical patent/DE60209888T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Description

  • Die Erfindung betrifft das Kodieren eines Audiosignals.
  • Nach dem Stand der Technik wurden viele Sprach- und Musikkodierverfahren beschrieben. Unter den bekannten Verfahren zum Audiokodieren gibt es transformationsbasierte Audiokodiersysteme, welche eine adaptive Bitzuteilung einsetzen. Bei derartigen adaptiven Bitzuteilungssystemen variiert die Bandbreite, welche kodiert werden kann, bei gegebenem verfügbaren Bitbudget gemäß dem Spektralaufbau der verschiedenen Segmente in dem Audiosignal für alle gegebenen Audiodatenblöcke. Mit Audiodatenblock ist ein bestimmter aufeinanderfolgender Audioblock gemeint, wie beispielsweise ein Audioblock von 24 ms. Da es nicht möglich ist, einen einzigen Wert für die kodierte Bandbreite zu finden, welcher für alle Audiodatenblöcke in Bezug auf die Audioqualität bei einer gegebenen Bitrate optimal ist, tritt von Datenblock zu Datenblock ein Umschalten der Bandbreite auf. Bedauerlicherweise kann ein Umschalten der kodierten Bandbreite oft störende Artefakte einführen.
  • Bei manchen aktuellen Schemata wird die volle Audiobandbreite (hier mit 22,04 kHz entsprechend einer Abtastrate von 44,1 kHz angenommen) bei hohen Bitraten kodiert und rekonstruiert. Wenn jedoch bei geringeren Bitraten ein Versuch unternommen wird, die volle Bandbreite zu kodieren, wird die Verzerrung dann gesteigert. An einem gewissen Punkt wird es ratsam, die Audiobandbreite um einen bestimmten Betrag zu reduzieren und Bits neu zuzuordnen, um diese reduzierte Bandbreite auf eine genauere Weise zu kodieren und dadurch, wenngleich über einen begrenzten Frequenzbereich hinweg, die Artefakte zu reduzieren. Bei MPEG-1-Layer-3-Kodierern (MP3-Kodierern) wird beispielsweise die Bandbreite halbiert (auf ungefähr 11 kHz), wenn die gewünschte Bitrate auf 32 kB/s gesenkt wird. Auch AAC weist eine Einrichtung zum Vermindern der Bandbreite auf, wenn Bitraten zunehmend reduziert werden. Dies wird unter Verwendung von geschichteten Kodieransätzen erzielt, wodurch die Schichten, welche die höheren Frequenzen darstellen, zuerst fallengelassen werden. Ein Reduzieren der Signalbandbreite ist deshalb eine gewöhnlich bei Wellenformkodieren eingesetzte Lösung.
  • WO 97/31 367 (AT&T Corp.) offenbart einen Sprachkodierer unter Verwendung von LPC (linearer prädiktiver Kodierung) und einem zusätzlichen Tonhöhenextraktor, um Sprache zu kodieren. Ein Rest wird nachfolgend mit einem Transformationskodierer kodiert. Es kann passieren, dass beim Kodieren des Rests so wenige Bits verfügbar sind, dass bestimmte Transformationskoeffizienten überhaupt keine Bits bekommen, d.h. auf Null gesetzt werden. Wenn ein Kodieren des Rests auftritt, wird für diese Restinformationen eine Rauschfüllung ausgeführt, doch die fraglichen Bänder werden ohne unabhängig dekodierbare Informationen bereitgestellt, um andere Schemata als das für den Hauptteil verwendete spezifische LPC-Kodierschema zu aktivieren. Weiterhin wird dieser Rauschfüllungsalgorithmus nicht auf einer systematischen Basis hinsichtlich der Pegel des Eingangssignals selbst ausgeführt, sondern wird mit dem Rest ausgeführt – was zu wechselnden Ergebnissen führt.
  • Es ist ein Ziel der Ausführungsformen der vorliegenden Erfindung, das Problem der Artefakt-Einführung zu reduzieren, welches von dem Bandbreitenumschaltproblem verursacht wird, ohne die Kodierbandbreite auf einen sicheren konservativen Wert zu begrenzen, welcher benötigt wird, um Umschaltartefakte zu vermeiden.
  • Gemäß einem ersten Gesichtspunkt der Erfindung wird ein Kodierverfahren eines Audiosignals bereitgestellt, wobei das Verfahren Folgendes umfasst: Aufteilen des Signals in eine Vielzahl von Frequenzbändern; Vergleichen der Amplituden des Signals in den verschiedenen frequenzgeteilten Bändern mit jeweiligen Schwellenwerten; und Kodieren des Signals der aufgeteilten Frequenzbänder auf einer Prioritätsgrundlage, derartig dass Frequenzbänder, bei welchen die Amplitude des Signals in dem bestimmten Frequenzband ihren jeweiligen Schwellenwert um einen größten Betrag übersteigt, gemäß eines gegebenen Kodierschemas kodiert werden, wohingegen anderen Frequenzbändern selektiv ein Rauschfüllparameter zugeteilt wird.
  • Das Verfahren des ersten Gesichtspunkts weist dadurch bestimmte Vorteile auf, dass eine Rauschfüllung weniger signifikanter Bänder auf eine Weise ausgeführt werden kann, welche relativ unabhängig von dem Kodierschema ist, welches für die signifikanten Bänder verwendet wird. Mit anderen Worten kann das Rauschfüllungsprinzip auf die meisten Kodierverfahren angewendet werden.
  • Das Verfahren ist insbesondere bei Kodierschemata effizient, welche mit einem festen Bitbudget pro Zeitdatenblock arbeiten. Bei derartigen Fällen wird das Bitbudget auf eine prioritätsbasierte Weise zugeteilt, wobei einige Bits derartig reserviert sind, dass, wenn zu wenige Bits verbleiben, um ein Signal mit voller Audiobandbreite vollständig zu kodieren, die verbleibenden Bits eingesetzt werden, um Rauschfüllparameter für diese unkodierten und wahrnehmungsmäßig weniger relevanten Bänder bereitzustellen.
  • Vorzugsweise ist der Schwellenwert für ein gegebenes Frequenzband etwas höher als die Amplitude, oberhalb welcher für das fragliche Band gemäß einem psychoakustischen Modell dem menschlichen Ohr ein Rauschen wahrnehmbar ist.
  • Manche Schemata können auch ins Auge gefasst werden, bei welchen das Bitbudget variabel sein muss, bei welchen jedoch nur diejenigen Frequenzbänder kodiert werden, welche Amplituden aufweisen, welche die Schwelle um mehr als einen vorbestimmten Betrag übersteigen.
  • Weil jedes psychoakustische Modell nur eine Repräsentation der Hörfähigkeiten eines durchschnittlichen Hörers ist, können Schemata hoher Qualität ins Auge gefasst werden, bei welchen manche Bänder sogar dann vollständig kodiert werden können, wenn sie einen Pegel der Signalamplitude unterhalb der Schwelle aufweisen. Genauso können effizientere Schemata implementiert werden, bei welchen ein Qualitätsverlust akzeptabel ist – in dem Fall kann ein Kodieren mancher Bänder, welche Signalamplituden leicht oberhalb ihres jeweiligen Schwellenpegels aufweisen, akzeptabel sein. Während der oben stehend genannte, vorbestimmte Betrag vorzugsweise null ist, kann er leicht positiv oder leicht negativ sein.
  • Vorzugsweise wird jedem Frequenzband, für welches die Amplitude des Signals des gegebenen Frequenzbands ihre jeweilige Schwelle nicht um den vorbestimmten Betrag übersteigt, ein einzelner Rauschfüllparameter zugeteilt.
  • Vorzugsweise umfasst der Rauschfüllparameter eine Repräsentation der Größenordnung des Rauschens, welches in das jeweilige Frequenzband eingefügt wird. Die Bereitstellung einer derartigen Repräsentation der Größenordnung in unmittelbarer Verbindung mit dem Frequenzband gestattet, dass eine hocheffiziente Rauschfüllungsoperation ausgeführt wird – es ist hier immer der Fall, dass die Repräsentation der Größenordnung an einem leicht wiederauffindbaren Ort kodiert wird, d.h. an dem Punkt, an welchem die Signalinformationen für dieses Band gewöhnlich gefunden werden.
  • Vorzugsweise umfasst die Repräsentation der Größenordnung einen RMS-Wert, welcher die durchschnittliche Amplitude des empfangenen Audiosignals über das jeweilige Frequenzband hinweg repräsentiert.
  • Vorzugsweise wird der Rauschfüllparameter für Frequenzbänder, welchen ein Rauschfüllparameter zugeteilt ist, in einer Position in dem Ausgangssignal kodiert und bereitgestellt, in welcher auf andere Weise kodierte Signalinformationen vorliegen würden.
  • Vorzugsweise wird eine Kennung bereitgestellt, welche jedem Band zugeordnet ist, um anzugeben, ob ein Rauschfüllparameter oder kodierte Signalinformationen vorliegen.
  • Vorzugsweise ist die Kennung ein Parameter, welcher gewöhnlich verwendet wird, um eine Anzahl der Quantisierungsebenen in den kodierten Signalinformationen zu bezeichnen.
  • Falls die Kennung eine Anzahl der Quantisierungsebenen von null bezeichnet, kann diese dann so interpretiert werden, dass sie für das jeweilige Band statt kodierten Signalinformationen einen Rauschfüllparameter umfasst.
  • Gemäß einem zweiten Gesichtspunkt der Erfindung wird ein Verfahren zum Dekodieren eines Signals bereitgestellt, bei welchem das Signal gemäß des Verfahrens des ersten Gesichtspunkts kodiert wird, wobei das Dekodierverfahren Folgendes umfasst: Empfangen eines kodierten Audiosignals; Bestimmen für ein gegebenes Frequenzband des kodierten Signals, ob ein empfangenes Signal kodierte Signalinformationen umfasst, welche die Amplitude eines übertragenen Signals innerhalb des gegebenen Frequenzbands betreffen, oder ob es einen Rauschfüllparameter umfasst; falls das empfangene Signal kodierte Signalinformationen umfasst, Dekodieren der Informationen, um einen Ausgangsaudiosignalabschnitt für dieses Frequenzband herzustellen; und falls das empfangene Signal einen Rauschfüllparameter umfasst, Synthetisieren eines Ausgangsaudiosignalabschnitts für dieses Frequenzband durch Ausgeben eines Rauschsignals über den Frequenzbereich dieses Frequenzbands hinweg mit einer Amplitude, welche durch den Rauschfüllparameter bezeichnet wird.
  • Gemäß einem dritten Gesichtspunkt wird eine Audiokodiervorrichtung bereitgestellt, welche zum Kodieren eines Eingangssignals angeordnet ist und ein Aufteilungsmittel zum Aufteilen des Signals auf eine Vielzahl von Frequenzbändern umfasst; ein Vergleichsmittel zum Vergleichen von Amplituden des Signals in den verschiedenen frequenzgeteilten Bändern mit jeweiligen Schwellenwerten umfasst; und einen Kodierer zum Kodieren des Signals der aufgeteilten Frequenzbänder auf einer Prioritätsgrundlage umfasst, derartig dass Frequenzbänder, bei welchen die Amplitude des Signals in dem bestimmten Frequenzband ihre jeweilige Schwelle um einen größten Betrag übersteigt, gemäß einem gegebenen Kodierschema kodiert werden, wobei die Vorrichtung dadurch gekennzeichnet ist, dass anderen Frequenzbändern selektiv ein Rauschfüllparameter zugeteilt ist.
  • Gemäß einem vierten Gesichtspunkt der Erfindung wird eine Audiodekodiervorrichtung zum Dekodieren eines kodierten Audiosignals bereitgestellt, wobei die Dekodiervorrichtung Folgendes umfasst: ein Empfangsmittel zum Empfangen eines kodierten Audiosignals; ein Ausführungsmittel, welches für ein gegebenes Frequenzband des kodierten Signals angeordnet ist, um zu bestimmen, ob ein empfangenes Signal kodierte Signalinformationen umfasst, welche die Amplitude eines übertragenen Signals innerhalb des gegebenen Frequenzbands betreffen, oder ob sie einen Rauschfüllparameter umfassen; falls das empfangene Signal kodierte Signalinformationen umfasst, ein erstes Dekodiermittel zum Dekodieren der Informationen, um einen Ausgangsaudiosignalabschnitt für dieses Frequenzband herzustellen; und falls das empfangene Signal einen Rauschfüllparameter umfasst, ein zweites Dekodiermittel zum Synthetisieren eines Ausgangsaudiosignalabschnitts für dieses Frequenzband durch Ausgeben eines Rauschsignals über den Frequenzbereich dieses Frequenzbands hinweg mit einer Amplitude, welche durch einen Rauschfüllparameter bezeichnet wird.
  • Gemäß einem fünften Gesichtspunkt der Erfindung wird ein kodiertes Audiosignal bereitgestellt, wobei das Signal in eine Anzahl von Frequenzbändern aufgeteilt ist, wobei eine erste Vielzahl der Frequenzbänder, welche kodierte Signalinformationen umfassen, gemäß einem gegebenen Kodierschema kodiert werden und eine zweite Vielzahl der Frequenzbänder einen Rauschfüllparameter umfassen.
  • Gemäß einem sechsten Gesichtspunkt der Erfindung wird ein Speichermedium bereitgestellt, auf welchem ein kodiertes Audiosignal gemäß dem fünften Gesichtspunkts gespeichert ist.
  • Für ein besseres Verständnis der Erfindung und um zu zeigen, wie Ausführungsformen derselben realisiert werden können, wird nun beispielhaft auf die beiliegenden schematischen Zeichnungen verwiesen, bei welchen:
  • 1 eine stilisierte Ansicht des Frequenzaufbaus eines typischen Audiosegments illustriert und weiterhin eine Maskierschwelle zeigt;
  • 2 das gleiche Signal wie 1 zeigt, wobei wahrnehmungsmäßig weniger wichtige Frequenzbänder schattiert gezeigt sind;
  • 3 ein Blockdiagramm ist, welches ein Audiokodierverfahren gemäß einer Ausführungsform der vorliegenden Erfindung illustriert;
  • 4 ein Blockdiagramm ist, welches ein Audiodekodierverfahren gemäß einer Ausführungsform der Erfindung illustriert; und
  • 5 ein schematisches Blockdiagramm der Vorrichtung ist, welche einen Audiokodierer und -Dekodierer umfasst.
  • Unter Bezugnahme auf 1 wird eine stilisierte Ansicht des Aufbaus eines typischen Audiosegments gezeigt, wobei eine Amplitude a als Funktion einer Frequenz f gegeben ist. Jeder Balken in dieser Figur stellt ein Frequenzband (oder einen Frequenzkorb) eines Gesamtsignals dar. Typischerweise teilen Transformationskodierer zum Kodieren von Audiosignalen ein empfangenes Audiosignal gemäß derartiger Frequenzbänder auf.
  • Die unterbrochene gekrümmte Linie stellt eine Maskierschwelle dar. Diese Maskierschwelle stellt den Pegel des Quantisierungsrauschens dar, welches in das Audiosignal eingeführt werden kann, ohne dass ein Hörer das Rauschen bemerkt, und durch psychoakustisches Modellieren bestimmt werden kann.
  • Jedes herkömmliche Kodierschema weist bestimmte Begrenzungen auf. Beispielsweise kann ein erstes Kodierschema das gesamte Signal nehmen, welches jedes Frequenzband umfasst, und jedem Band eine veränderliche Anzahl von Bits zuteilen, um so das Signal vollständig zu kodieren, wobei dem Frequenzband, welches das Signal mit der höchsten Amplitude aufweist, die meisten Bits zugeteilt werden und den Signalen mit der niedrigsten Amplitude die wenigsten Bits zugeteilt werden. Ein anderes Schema kann ein insgesamt festes Bitbudget zum Kodieren aufweisen und kann Bits erst denjenigen Frequenzbändern zuteilen, welche gemäß dem psychoakustischen Modell wahrnehmungsmäßig am signifikantesten sind.
  • Das frühere Kodierschema weist dadurch Nachteile auf, dass das Bitbudget variabel ist, und für Signalperioden, in welchen es einen deutlichen Betrag Signalinformationen zu befördern gibt, können Bitratenprobleme auftreten, wobei die Gesamtinformationen, welche für jeden Zeitdatenblock übertragen werden müssen, empfindlich für eine sehr breite Schwankung sind. Falls eine Bandbreitenbegrenzung auf einem derartigen Schema eingeführt wird und falls die Zuteilung der verschiedenen Bits, welche den Frequenzbändern zuteilbar sind, in dieser Hinsicht auf einer Grundlage der niedrigsten zur höchsten Frequenz durchgeführt wird, kann es nötig werden, eine Bandbreitenbegrenzung einzuführen, und diese wird durch die unterbrochene vertikale Linie in 1 dargestellt. Weil hier nicht alle Bänder für eine gewünschte Bitrate mit ausreichender Genauigkeit kodiert wer den können, werden die Signale höherer Frequenz verworfen. Deshalb werden alle Bänder über dieser Bandbreitenbegrenzung trotz der Tatsache überhaupt nicht kodiert, dass mindestens eines von ihnen (in der Figur mit A markiert) deutlich oberhalb der Maskierschwelle liegt.
  • Falls bei bestimmten vorhergehenden Schemata die Auswahl getroffen wurde, Band A der 1 zu kodieren, müsste dann die Kodierbandbreite vorübergehend auf einen höheren Wert umgeschaltet werden. Dies ist jedoch nicht annehmbar, und es würde mit der Bandbreite in Konflikt geraten, welche bei den vorangehenden Datenblöcken verwendet wurde, und zunehmende Umschaltartefakte zulassen.
  • Bei dem zweiten der beiden genannten Kodierschemata kann ein Kodieren der leichter hörbaren Bänder auf einer Prioritätsgrundlage in manchen Fällen dazu führen, dass einem oder mehreren der weniger signifikanten Bänder (diejenigen, welche in 2 schattiert gezeigt sind) keine Bits zugeteilt bekommen. Keine bestimmten Frequenzbändern zugeteilte Bits bedeuten jedoch, dass bestimmte Teile des Spektrums überhaupt keine Energie enthalten, und derartige Leerräume in dem Frequenzspektrum können ein Signal herstellen, welches von dem Hörer als rau wahrgenommen wird, und es lässt auch zunehmende Bandbreitenumschaltartefakte zu, weil die höchsten Bänder, welche Energie erhalten, von Datenblock zu Datenblock variieren können.
  • Gemäß den Verfahren der vorliegenden Erfindung werden bei dem vorgeschlagenen Kodierschema Bits auf einer Prioritätsgrundlage denjenigen Frequenzbändern zugeteilt, welche Signale aufweisen, welche für den Hörer am wahrnehmbarsten sind (d.h. denjenigen, welche die Maskierschwelle um einen gegebenen Betrag übersteigen). Für diejenigen Frequenzbänder, welche Signale mit einer Amplitude näher an der Maskierschwelle aufweisen und für welche es bei einem Bitbudget-basierten Schema keine ausreichenden verbleibenden Bits gibt, um vollständig zu kodieren, werden den fraglichen Bändern ein oder mehrere Rauschfüllparameter zugeteilt. Bei der Alternative, bei welcher ein Schema verwendet wird, bei welchem es ein variables Bitbudget gibt, kann eine Auswahl getroffen werden, um nur diejenigen Bänder vollständig zu kodieren, welche die Maskierschwelle um mehr als einen vorbestimmten Betrag übersteigen, und denjenigen, welche die Schwelle nicht um den vorbestimmten Betrag übersteigen, wird selektiv ein Rauschfüllparameter zugeteilt. Diesem vorbestimmten Betrag kann gestattet werden, auf einer Basis von Datenblock zu Datenblock, falls erforderlich, zu variieren, um eine bestimmte durchschnittliche Bitrate zu erhalten, welche dem Kodierer auferlegt wurde.
  • Man betrachte das Frequenzband der 2, welches mit dem Bezugszeichen B bezeichnet ist. Hier ist anzumerken, dass dieses Frequenzband ein Signal umfasst, welches im Durchschnitt unter dem Maskierpegel liegt. Die Amplitude dieses Signals ist jedoch relativ hoch und mit der des Frequenzbands C der 2 vergleichbar. Der Unterschied zwischen den Bändern B und C ist jedoch, dass in dem Frequenzbereich des Bands C das menschliche Ohr empfindlicher ist und dass dieses Signal deshalb von größerer Signifikanz ist. Um bei einem Schema mit einem festen Bitbudget eine effiziente Zuteilung von Bits bereitzustellen, können nützliche Einsparungen durch Kodieren derjenigen Bänder auf einer Prioritätsgrundlage erhalten werden, welche ihre jeweiligen Schwellenpegel um einen größeren Betrag übersteigen, und, wenn die verbleibenden zuteilbaren Bits zu wenige werden, um verbleibende, weniger relevante Bänder vollständig zu kodieren, werden Bänder, wie beispielsweise Band B, unter Verwendung eines Rauschfüllparameters repräsentiert, welcher einer Wiedergabeebene angibt, dass Rauschen bis zu einer gegebenen Amplitude über das fragliche Frequenzband hinweg eingeführt werden muss.
  • Bei variablen Bitbudgetschemata kann vielleicht eine Entscheidung getroffen werden, dass für jedes Frequenzband, welches seinen Maskierpegel um einen vorbestimmten Betrag übersteigt, ein vollständiges Kodieren auftritt, wohingegen anderen Rauschfüllparameter zugeteilt werden.
  • Es ist hier wichtig anzumerken, dass, falls der Signalpegel tatsächlich unter der Maskierschwelle liegt, ein Einführen von Rauschen keinen wirklichen Nutzen, aber auch keinen Schaden, aufweist, einfach weil er sowieso nicht hörbar ist. Es sind insbesondere die Frequenzkörbe, welche gerade oberhalb der Maskierschwelle liegen, welche es für die Qualitätsverbesserung lohnenswert machen, Rauschen einzuführen. Die Lehren der Erfindung umfassen jedoch sowohl Verfahren, welche alle nicht kodierten Bänder durch Rauschfüllparameter repräsentieren, als auch diejenigen, welche diese nicht kodierten Bänder leer lassen, welche wahrnehmungsmäßig irrelevante Signalamplituden aufweisen.
  • Mit der oben stehend gegebenen Erörterung wird nun ein Verfahren zum Kodieren eines Audiosignals mit der Hilfe der 3 ausführlicher beschrieben.
  • In 3 tragen die folgenden Schritte die folgenden Beschriftungen:
    • S1 = BEGINN;
    • S2 = Eingangssignal in N Frequenzbänder aufteilen
    • S3 = C = 1 SETZEN;
    • S4 = Amplitude des C-ten Frequenzbands mit einem C-ten Bandschwellenpegel vergleichen;
    • S5 = ist Bandamplitude > Schwellenamplitude?;
    • Sb = falls JA, Band C unter Verwendung des gegebenen Kodierschemas kodieren;
    • S7 = falls NEIN, Rauschfüllparameter einführen;
    • S8 = C → C + 1;
    • S9 = „C = N?";
    • S10 = ENDE
  • Unter Bezugnahme auf 3, für welche für diese Zwecke angenommen wird, dass sie ein variables Bitbudgetschema repräsentiert, empfängt ein Kodiermodul ein Eingangssignal und teilt dieses Eingangssignal im Schritt S2 in N Frequenzbänder auf. Dann wird ein iterativer Prozess ausgeführt, bei welchem für jedes Frequenzband die Amplitude dieses Frequenzbands mit einem jeweiligen Schwellenpegel verglichen wird. Der Schwellenpegel ist typischerweise für jedes Frequenzband unterschiedlich und entspricht einer Schwelle, welche von einem psychoakustischen Modell gegeben wird und kann in Abhängigkeit von der erforderlichen Kodiereffizienz einen bestimmten Versatz umfassen.
  • Auf den oben stehenden Vergleichsschritt S4 nachfolgend wird in Abhängigkeit davon, ob im Schritt S5 herausgefunden wurde, dass die Amplitude des gegebenen Frequenzbands größer als die Schwellenamplitude ist oder nicht, eine von zwei Operationen ausgeführt. In einem ersten Fall S6, bei welchem die Signalamplitude für ein bestimmtes Band größer als die Schwellenamplitude ist, werden Informationen dieses Frequenzbands unter Verwendung eines gegebenen Kodierschemas kodiert. Falls andererseits, Schritt S7, die Bandamplitude nicht größer als die Schwellenamplitude ist, werden dann Rauschfüllparameter in das kodierte Signal eingefügt.
  • Es ist anerkannt, dass jedes Frequenzband einen gegebenen Frequenzbereich aufweist und dass der idealisierte Schwellenwert über den Bereich variiert. Für Kodierzwecke ist die eingestellte und für den Vergleich verwendete Schwellenamplitude in der Praxis ein einzelner Durchschnittswert, welcher für das bestimmte Band berechnet und beispielsweise in einem Nachschlagspeicher gespeichert ist.
  • Auf die jeweiligen Kodier- oder Einfügungsoperationen nachfolgend wird ein Zählerwert im Schritt S8 inkrementiert, und im Schritt S9 wird geprüft, ob alle Frequenzbänder kodiert wurden oder nicht. Falls der Zählerwert angibt, dass es mehr Frequenzbänder gibt, welche kodiert werden sollen, fährt das Verfahren dann derartig fort, dass die Amplitude des Signals in dem nächsten Frequenzband mit der Amplitude des Schwellenpegels für dieses nächste Frequenzband verglichen wird usw.. Falls andererseits nun alle Frequenzbänder kodiert wurden, kommt das Verfahren dann zu einem Ende S10, oder genauer gesagt wird das Verfahren für diesen bestimmten Zeitdatenblock beendet, und es kann eine Kodieroperation für einen nächsten Zeitdatenblock von Informationen ausgeführt werden.
  • Bei einem System, bei welchem es ein festes Bitbudget pro Zeitdatenblock gibt, werden Frequenzbänder auf einer Prioritätsgrundlage kodiert. Mit anderen Worten, es werden diejenigen Bänder vollständig kodiert, welche Signalamplituden aufweisen, welche die Schwelle um die größten Beträge übersteigen, wohingegen denjenigen, welche näher an der Schwelle liegen, in Abhängigkeit von der Anzahl Bits, welche in dem Bitbudget verbleiben, selektiv Rauschfüllparameter zugeteilt werden können.
  • Es ist wichtig beim Betrachten des Kodierverfahrens zu realisieren, dass das bestimmte Kodierschema zum Kodieren der gegebenen Frequenzbänder eines aus einer beliebigen Anzahl von Kodierverfahren sein kann und nicht auf irgendein bestimmtes Kompressionssystem beschränkt ist. Das System, welches zum Kodieren eingesetzt wird, kann jedoch typischerweise eine Art prädiktiver Kodierer sein, wie beispielsweise ein adaptives prädiktives Kodieren (APC) oder irgendeine Form eines linearen prädiktiven Kodierens (LPC).
  • Nun wird eine mögliche Implementierung der Rauschfüllparameter beschrieben, welche für das weniger signifikante oder wahrnehmungsmäßig irrelevantere Frequenzbandkodieren verwendet werden kann.
  • Für einen gegebenen einfachen Transformationskodierer ist eine Eigenschaft dieses Kodierers, dass Bits zuerst Bändern zugeteilt werden, welche wahrnehmungsmäßig am wichtigsten sind. Folglich kann, wie zuvor erläutert, ein derartiger einfacher Transformationskodierprozess dazu führen, dass bestimmte Frequenzbänder keine ihnen zugeteilten Bits aufweisen. Zum Implementieren einer Rauschfüllung in Bezug auf einen derartigen Transformationskodierer kann eine kleine Anzahl Bits aus dem gesamten Bitratenbudget zum Kodieren der Rauschfüllparameter für die sonst leeren Bänder verwendet werden. Tatsächlich ist nur ein Parameter erforderlich, um Rauschen in jedem sonst leeren Band zu beschreiben. Der wichtige fragliche Parameter ist der RMS-Wert der Amplitude des Rauschsignals, welches in dieses Band eingeführt werden soll.
  • Die leeren Bänder werden in der Spektraldomäne mit weißem Rauschen gefüllt, welches aus einer gleichmäßigen Verteilung mit einem RMS-Wert A entnommen wurde.
  • Der RMS-Wert A wird unter Verwendung von Gleichung (1) erhalten:
    Figure 00110001
  • In Gleichung 1 ist Xn der Abtastwert des n-ten betrachteten Frequenzbands (oder -korbs). Die RMS-Werte werden in einem Raster von einem Dezibel quantisiert und unter Verwendung einer Huffman-Kodierung kodiert.
  • Mit anderen Worten werden auf der Kodiererseite die ursprünglichen Eingangsabtastwerte Xn, welche dem Band entsprechen, in welches Rauschen eingeführt werden soll, in Gleichung 1 eingesetzt und der Wert A berechnet. Dieser Wert wird in dB-Beträge umgewandelt und in einem 1-dB-Raster quantisiert. Dieser quantisierte Parameter wird in den Bitstrom kodiert und von dem Empfänger dekodiert. Dann erzeugt ein Zufallsgenerator derartig zufällige Abtastwerte mit einer gleichmäßigen Wahrscheinlichkeitsdichtefunktion, dass der erwartete RMS-Wert dieser zufälligen Abtastwerte (in dB) dem dekodierten Wert von A entspricht. Mit anderen Worten wird auf der Empfängerseite weißes Rauschen mit dem entsprechenden Pegel erzeugt, welcher durch den Parameter A definiert ist.
  • Bei der oben stehenden Implementierung ist anzumerken, dass ein Verwenden eines Teils des Bitstroms zum Übertragen der Huffman-kodierten RMS-Werte auf Kosten derjenigen Bits geht, welche zum Kodieren von Abtastwerten verbleibender Bänder verfügbar sind. Eine Überprüfung zeigt jedoch, dass beim Vergleich dieses Szenarios, bei welchem Bits weggenommen werden, um leere Bänder zu füllen, das wahrgenommene Ergebnis hinsichtlich der Situation verbessert ist, bei welcher Bänder leer gelassen werden. Unter der Voraussetzung jedoch, dass dieses Schema unvermeidlich bedeutet, dass bestimmte Bänder mit geringerer Genauigkeit kodiert werden, liegt es auch innerhalb des Schutzumfangs dieser Erfindung, ein System zu implementieren, bei welchem die Qualität des wellenformkodierten Teils nicht durch Bereitstellen zusätzlicher Bits zum Kodieren der Rauschfüllparameter beeinträchtigt wird.
  • Die Rauschparameter werden an dem Ort kodiert, bei welchem gewöhnlich die Signalinformationen zu finden sind. Es ist jedoch irgendeine Signalisierung für den Dekodierer nötig, um anzuzeigen, dass als nächstes in dem Bitstrom ein Rauschparameter an der Stelle von Signalinformationen auftauchen wird. Bei unserem Ansatz kann dies über eine Kennung vorgenommen werden, welche die Anzahl der Quantisierungsebenen, z.B. die Anzahl der Ebenen kodiert, welche zum Speichern jedes Korbs der Signalinformationen verwendet werden. Wenn die Anzahl der Quantisierungsebenen größer als 0 ist, impliziert dies, dass Signalinformationen folgen werden, und wenn die Quantisierungsebene null ist, impliziert dies, dass keine Signalinformationen folgen werden. Bei herkömmlichen Schemata ohne Rauschfüllung würde auf eine Zahl 0 der Quantisierungsebenenkennung gefolgt einfach ein leeres Band auftreten. Bei diesem Schema bezeichnet eine Zahl null der Quantisierungsebenen, dass ein Rauschfüllparameter folgen wird (welcher seinerseits für wahrnehmungsmäßig nicht signifikante Signalamplituden null sein kann).
  • Jetzt unter Bezugnahme auf 4 wird ein Verfahren beschrieben, durch welches ein Dekodiermodul ein Signal dekodieren kann, welches gemäß dem Verfahren der 3 kodiert wurde.
  • Unter Bezugnahme auf 4 betreffen die Namen S1 bis S9 die folgenden Bezeichnungen:
    • S1 = BEGINN;
    • S2 = kodiertes Signal mit N Frequenzbändern empfangen;
    • S3 = C = 1 setzen;
    • S4 = umfasst das C-te kodierte Band Rauschfüllparameter?
    • S5 = falls nein, Signal des C-ten kodierten Bands gemäß dem Dekodierschema dekodieren;
    • S6 = falls ja, Signal des C-ten Bands durch Einführen eines Rauschsignals in das C-te Band mit einer gegebenen Amplitude synthetisieren;
    • S7 = C wird C + 1;
    • S8 = C = N?;
    • S9 = ENDE
  • In einem Schritt S2 der 4 wird das kodierte Signal mit N Frequenzbändern empfangen. Ein Zählerwert wird in S3 auf einen Anfangswert Wert von 1 gesetzt, und für das erste Band der N Frequenzbänder wird dann in S4 bestimmt, ob dieses Band einen Rauschfüllparameter umfasst oder nicht.
  • Falls das erste kodierte Frequenzband einen Rauschfüllparameter umfasst, wird dann dieser Parameter in S6 dekodiert, und ein Ausgangssignal, welches das erste Band betrifft, wird durch Bereitstellen eines Rauschsignals mit einer durch den Rauschfüllparameter gegebenen Amplitude synthetisiert.
  • Falls das Signal des ersten kodierten Bands andererseits keinen Rauschfüllparameter umfasst, wird das kodierte Signal dann in S5 gemäß seinem bestimmten Dekodierschema dekodiert.
  • In einem Schritt S7 wird der Zählerwert inkrementiert, und das nächste kodierte Band wird dekodiert. Wenn der Zählerwert in S8 einmal angibt, dass alle kodierten Frequenzbänder des bestimmten fraglichen Zeitdatenblocks dekodiert wurden, endet dann die Dekodiersubroutine in S9. Genauer gesagt, wenn alle Signale eines bestimmten Zeitdatenblocks dekodiert wurden, beginnt das Dekodierverfahren dann das Arbeiten an einem Dekodieren der Frequenzbänder des empfangenen kodierten Signals für den nächsten Zeitdatenblock.
  • Aus oben stehender Beschreibung ist es anerkannt, dass ein Verfahren zum effizienten Kodieren von Audiosignalen und zum Dekodieren von Audiosignalen bereitgestellt wird, bei welchen wahrnehmungsmäßig weniger relevantes Material nicht vollständig kodiert wird, sondern stattdessen durch einen oder mehrere Rauschfüllparameter repräsentiert wird. Derartige Rauschfüllparameter werden auf der Dekodierseite des Algorithmus dekodiert, um die wahrnehmungsmäßig irrelevanten Signalabschnitte mittels Bereitstellen eines Rauschsignals mit einer gegebenen Amplitude zu synthetisieren.
  • Unter Bezugnahme auf 5 wird eine Vorrichtung 10 in einem schematischen Format gezeigt, welche einen Audiokodierer 20 und einen Audiodekodierer 30 umfasst.
  • Der Audiokodierer 20 arbeitet gemäß dem hier zuvor beschriebenen Audiokodierverfahren, um so einen eingehenden Audiostrom gemäß einem gegebenen Kodierformat zu kodieren, und wobei das Verfahren der vorliegenden Erfindung eingesetzt wird, um Rauschfüllparameter bereitzustellen, um selektiv diese wahrnehmungsmäßig weniger relevanten Signalbänder zu ersetzen.
  • Der Audiokodierer 20 umfasst ein Aufteilungsmittel 21, ein Vergleichsmittel 22 und einen Kodierer 23.
  • Das Aufteilungsmittel 21 teilt ein Signal in eine Vielzahl von Frequenzbändern auf. Das Vergleichsmittel 22 vergleicht Amplituden des Signals in den verschiedenen frequenzgeteilten Bändern mit jeweiligen Schwellenwerten. Das Kodiermittel 23 kodiert das Signal der aufgeteilten Frequenzbänder derartig auf einer Prioritätsgrundlage, dass Frequenzbänder, bei welchen die Amplitude des Signals in einem bestimmten Frequenzband ihre jeweilige Schwelle um einen größten Betrag übersteigt, gemäß einem gegebenen Kodierschema kodiert werden, wobei anderen Frequenzbändern selektiv ein Rauschfüllparameter zugeteilt wird.
  • Der Audiodekodierer 30 funktioniert so, um kodierte Daten an seinem Eingang zu empfangen und um dekodierte Daten an seinem Ausgang bereitzustellen. Der Dekodierer 30 umfasst einen Rauschgenerator 40, welcher verwendet werden kann, um die angegebenen Bänder, wie gewünscht, mit dem gegebenen Signalamplitudenpegel mit auf das Frequenzband begrenztem Rauschen zu füllen.
  • Der Audiodekodierer 30 umfasst weiterhin ein Empfangsmittel 31, ein Ausführungsmittel 32, ein erstes Dekodiermittel 33 und ein zweites Dekodiermittel 34.
  • Das Empfangsmittel 31 empfängt ein kodiertes Audiosignal. Das Ausführungsmittel 32 bestimmt für jedes gegebene Frequenzband des kodierten Signals, ob dieses Band kodierte Signalinformationen umfasst, welche die Amplitude eines übertragenen Signals innerhalb des gegebenen Frequenzbands betreffen, oder ob es einen Rauschfüllparameter umfasst. Falls das Ausführungsmittel 32 bestimmt, dass das empfangene Signal kodierte Signalinformationen umfasst, ist dann das erste Dekodiermittel 33 eingerichtet, derartige Informationen zu dekodieren, um einen Abschnitt des Ausgangsaudiosignals für die jeweiligen Frequenzbänder herzustellen. Falls andererseits das Ausführungsmittel 32 bestimmt, dass das gegebene Frequenzband einen Rauschfüllparameter umfasst, synthetisiert dann das zweite Dekodiermittel 34 einen Ausgangssignalabschnitt für dieses Frequenzband, indem mit der Hilfe des Rauschgenerators 40 ein Rauschsignal über den Frequenzbereich dieses Frequenzbands mit einer Amplitude ausgegeben wird, welche, wie zuvor diskutiert, von dem Rauschfüllparameter angegeben wird.
  • 5 zeigt auch ein Speichermedium 50, auf welchem ein Signal, welches gemäß dem Audiokodierer kodiert ist, gespeichert ist, und aus welchem der Audiodekodierer 30 wieder ein Audiosignal herstellen kann.
  • Wie aus dem oben Stehenden offenkundig ist, zielen die Ausführungsformen der Erfindung auf ein Überwinden der störenden Wirkungen der Bandbreitenumschaltung, ohne die Kodierbandbreite auf einen sicheren, konservativen Wert begrenzen zu müssen, welcher garantiert, dass jede Frequenz bei gegebener Anzahl verfügbarer Bits auf mindestens einer gewissen Genauigkeitsebene kodiert werden kann. Mit anderen Worten gestatten Ausführungsformen dieser Erfindung eine effektive Steigerung der Audiobandbreite, ohne die störenden Bandbreitenumschaltungsartefakte einzuführen, welche man andernfalls bei einer Verwendung eines sehr begrenzten Bitbudgets antreffen würde.
  • Es ist Durchschnittsfachleuten offenkundig, dass dort, wo Hardware-Elemente erwähnt werden, diese, wo machbar, durch Software-Elemente ersetzt werden können. Umgekehrt können dort, wo Software-Elemente erwähnt werden, diese, wo machbar, durch Hardware-Äquivalente ersetzt werden.
  • Wie wohlverstanden ist, kann das Verfahren der vorliegenden Erfindung mit vielen unterschiedlichen Typen allgemeiner Audiokodierschemata verwendet werden, und es ist extrem Bit-effizient.
  • Es sollte angemerkt werden, dass oben stehend beschriebene Ausführungsformen die Erfindung illustrieren, statt sie einzuschränken, und dass Durchschnittsfachleute in der Lage sind, viele alternative Ausführungsformen zu entwerfen, ohne den Schutzumfang der angefügten Ansprüche zu verlassen. Bei den Ansprüchen darf keins der in Klammern gesetzten Bezugszeichen als den Anspruch einschränkend angesehen werden. Das Wort „umfassen" schließt die Gegenwart anderer als der in einem Anspruch aufgeführten Elemente oder Schritte nicht aus. Die Erfindung kann mittels Hardware, welche einige eindeutige Elemente umfasst, und mittels eines geeignet programmierten Computers implementiert werden. Bei einem Geräteanspruch, welcher einige Mittel aufzählt, können einige dieser Mittel durch einen und den gleichen Hardware-Gegenstand verkörpert werden. Die bloße Tatsache, dass bestimmte Maßnahmen in voneinander verschiedenen abhängigen Ansprüchen genannt werden, zeigt nicht an, dass eine Kombination dieser Maßnahmen nicht vorteilhaft verwendet werden kann.
  • Legende der Zeichnungen
  • 3, 4:
    • N:
      N
      Y:
      J
  • 5:
    • Audio:
      Audiosignal
      Code:
      Kode

Claims (23)

  1. Kodierverfahren für ein Audiosignal, das Verfahren umfassend: Aufteilen des Signals in eine Vielzahl von Frequenzbändern; Vergleichen der Amplituden des Signals in den verschiedenen frequenzgeteilten Bändern mit jeweiligen Schwellenwerten; und Kodieren des Signals der aufgeteilten Frequenzbänder auf einer Prioritätsgrundlage, derartig dass Frequenzbänder, bei welchen die Amplitude des Signals in dem bestimmten Frequenzband ihren jeweiligen Schwellenwert um einen größten Betrag übersteigt, gemäß eines gegebenen Kodierschemas kodiert werden, das Verfahren dadurch gekennzeichnet, dass anderen Frequenzbändern selektiv ein Rauschfüllparameter zugeteilt wird.
  2. Verfahren nach Anspruch 1, wobei der Schwellenwert für ein gegebenes Frequenzband die Amplitude ist, oberhalb welcher für das fragliche Band gemäß einem psychoakustischen Modell Rauschen wahrnehmbar ist und unterhalb welcher es für das menschliche Ohr nicht wahrnehmbar ist.
  3. Verfahren nach Anspruch 1 oder 2, wobei die Prioritätsgrundlage derart ist, dass Frequenzbänder, bei welchen eine Signalamplitude die jeweilige Schwelle um mehr als einen vorbestimmten Wert übersteigt, gemäß dem gegebenen Kodierschema kodiert werden, wohingegen denjenigen Frequenzbändern, bei welchen die Signalamplitude die jeweilige Schwelle nicht um den vorbestimmten Wert übersteigt, selektiv ein Rauschfüllparameter zugeteilt wird.
  4. Verfahren nach Anspruch 1, 2 oder 3, wobei für diejenigen Frequenzbänder, bei welchen die Signalamplitude geringer ist als die jeweilige Schwelle, weder ein Kodieren noch eine Zuteilung eines Rauschfüllparameters ausgeführt werden.
  5. Verfahren nach Anspruch 1, 2 oder 3, wobei jedem derjenigen Frequenzbänder, bei welchen das Signal nicht vollständig kodiert wird, ein Rauschfüllparameter zugeteilt wird.
  6. Verfahren nach Anspruch 1 oder 2, wobei das gegebene Kodierschema ein festes Bitbudget aufweist und wobei Bits auf einer Prioritätsgrundlage zum Kodieren derjenigen Signale in Frequenzbändern zugeteilt werden, für welche die Signalamplitude die jeweilige Schwelle um den größten Betrag übersteigt, und wobei, falls das verbleibende Bitbudget unter einen minimalen Betrag fällt, Signalen verbleibender, nicht kodierter Frequenzbänder Rauschfüllparameter zugeteilt werden.
  7. Verfahren nach einem der vorhergehenden Ansprüche, wobei der Rauschfüllparameter eine Repräsentation der Größenordnung des Rauschens umfasst, welches in das jeweilige Frequenzband eingefügt werden soll.
  8. Verfahren nach einem der vorhergehenden Ansprüche, wobei der Rauschfüllparameter einen kodierten RMS-Wert umfasst, welcher die durchschnittliche Amplitude des empfangenen Audiosignals über das jeweilige Frequenzband hinweg repräsentiert.
  9. Verfahren nach einem der vorhergehenden Ansprüche, wobei für Frequenzbänder, welchen ein Rauschfüllparameter zugeteilt ist, der Rauschfüllparameter an einer Position in dem Ausgangssignal kodiert und bereitgestellt wird, an welcher andernfalls kodierte Signalinformationen vorliegen würden.
  10. Verfahren nach Anspruch 9, wobei eine Kennung bereitgestellt wird, welche jedem Band zugeordnet wird, um anzugeben, ob ein Rauschfüllparameter oder kodierte Signalinformationen vorliegen.
  11. Verfahren nach Anspruch 10, wobei die Kennung ein Parameter ist, welcher gewöhnlich verwendet wird, um eine Anzahl der Quantisierungsebenen in kodierten Signalinformationen anzugeben.
  12. Verfahren nach Anspruch 11, wobei, falls die Kennung eine Anzahl Quantisierungsebenen von null angibt, dieses dann so interpretiert wird, dass sie für das jeweilige Band statt kodierten Signalinformationen einen Rauschfüllparameter umfasst.
  13. Verfahren zum Dekodieren eines Signals, wobei das Signal gemäß dem Verfahren nach einem der Ansprüche 1 bis 12 kodiert wurde, das Dekodierverfahren umfassend: Empfangen eines kodierten Audiosignals; Bestimmen für ein gegebenes Frequenzband des kodierten Signals, ob ein empfangenes Signal kodierte Signalinformationen umfasst, welche die Amplitude eines übertragenen Signals innerhalb des gegebenen Frequenzbands betreffen, oder ob es einen Rauschfüllparameter umfasst; Dekodieren der Informationen, falls das empfangene Signal kodierte Signalinformationen umfasst, um einen Ausgangsaudiosignalabschnitt für dieses Frequenzband herzustellen; und Synthetisieren eines Ausgangsaudiosignalabschnitts für dieses Frequenzband, falls das empfangene Signal einen Rauschfüllparameter umfasst, indem ein Rauschsignal über den Frequenzbereich dieses Frequenzbands mit einer Amplitude ausgegeben wird, welche durch den Rauschfüllparameter angegeben wird.
  14. Audiokodiervorrichtung (20), welche zum Kodieren eines Eingangssignals angeordnet ist und ein Aufteilungsmittel (21) zum Aufteilen des Signals in eine Vielzahl von Frequenzbänder umfasst; ein Vergleichsmittel (22) zum Vergleichen der Amplituden des Signals in den verschiedenen frequenzgeteilten Bändern mit jeweiligen Schwellenwerten umfasst; und einen Kodierer (23) zum derartigen Kodieren des Signals der aufgeteilten Frequenzbänder auf einer Prioritätsgrundlage umfasst, dass Frequenzbänder, bei welchen die Amplitude des Signals in dem bestimmten Frequenzband ihren jeweiligen Schwellenwert um einen größten Betrag übersteigt, gemäß einem gegebenen Kodierschema kodiert werden, die Vorrichtung dadurch gekennzeichnet, dass anderen Frequenzbändern selektiv ein Rauschfüllparameter zugeteilt wird.
  15. Audiodekodiervorrichtung (30) zum Dekodieren eines kodieren Audiosignals, die Dekodiervorrichtung umfassend: ein Empfangsmittel (32) zum Empfangen eines kodieren Audiosignals; ein Ausführungsmittel (32), welches für ein gegebenes Frequenzband des kodierten Signals angeordnet ist, um zu bestimmen, ob ein empfangenes Signal kodierte Signalinformationen umfasst, welche die Amplitude eines übertragenen Signals innerhalb des gegebenen Frequenzbands betreffen, oder ob es einen Rauschfüllparameter umfasst; ein erstes Dekodiermittel (33) zum Dekodieren der Informationen, falls das empfangene Signal kodierte Signalinformationen umfasst, um einen Ausgangsaudiosignalabschnitt für dieses Frequenzband herzustellen; und ein zweites Dekodiermittel (34) zum Synthetisieren eines Ausgangsaudiosignalabschnitts für dieses Frequenzband, falls das empfangene Signal einen Rauschfüllparameter umfasst, indem ein Rauschsignal über den Frequenzbereich dieses Frequenzbands mit einer Amplitude ausgegeben wird, welche von dem Rauschfüllparameter angegeben wird.
  16. Audiovorrichtung (10), einen Audiokodierer (20) nach Anspruch 14 und/oder einen Audiodekodierer (30) nach Anspruch 15 umfassend.
  17. Kodiertes Audiosignal, wobei das Signal in eine Anzahl von Frequenzbänder aufgeteilt wird, wobei eine erste Vielzahl der Frequenzbänder kodierte Signalinformati onen umfassen, welche gemäß einem gegebenen Kodierschema kodiert sind, und eine zweite Vielzahl der Frequenzbänder einen Rauschfüllparameter umfassen.
  18. Signal nach Anspruch 17, wobei der Rauschfüllparameter eines jeweiligen Frequenzbands einen kodierten RMS-Wert umfasst, welcher die durchschnittliche Amplitude des empfangenen Audiosignals über das jeweilige Frequenzband hinweg repräsentiert.
  19. Signal nach Anspruch 18, wobei für Frequenzbänder, welchen ein Rauschfüllparameter zugeteilt ist, der Rauschfüllparameter an einer Position in dem Ausgangssignal kodiert und bereitgestellt wird, an welcher andernfalls kodierte Signalinformationen vorliegen würden.
  20. Signal nach Anspruch 19, wobei eine Kennung bereitgestellt wird, welche jedem Band zugeordnet ist, um anzugeben, ob ein Rauschfüllparameter oder kodierte Signalinformationen vorliegen.
  21. Signal nach Anspruch 20, wobei die Kennung ein Parameter ist, welcher gewöhnlich verwendet wird, um eine Anzahl Quantisierungsebenen in kodierten Signalinformationen anzugeben.
  22. Signal nach Anspruch 21, wobei, falls die Kennung eine Anzahl der Quantisierungsebenen von null angibt, dieses dann so interpretiert wird, dass sie für das jeweilige Band statt kodierten Signalinformationen einen Rauschfüllparameter umfasst.
  23. Speichermedium (50), auf welchem ein kodiertes Audiosignal nach Anspruch 17 gespeichert ist.
DE60209888T 2001-05-08 2002-04-18 Kodieren eines audiosignals Expired - Fee Related DE60209888T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP01201689 2001-05-08
EP01201689 2001-05-08
PCT/IB2002/001388 WO2002091363A1 (en) 2001-05-08 2002-04-18 Audio coding

Publications (2)

Publication Number Publication Date
DE60209888D1 DE60209888D1 (de) 2006-05-11
DE60209888T2 true DE60209888T2 (de) 2006-11-23

Family

ID=8180274

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60209888T Expired - Fee Related DE60209888T2 (de) 2001-05-08 2002-04-18 Kodieren eines audiosignals

Country Status (9)

Country Link
US (1) US7483836B2 (de)
EP (1) EP1395980B1 (de)
JP (1) JP2004522198A (de)
KR (1) KR100871999B1 (de)
CN (1) CN1244904C (de)
AT (1) ATE320651T1 (de)
DE (1) DE60209888T2 (de)
ES (1) ES2260426T3 (de)
WO (1) WO2002091363A1 (de)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003065353A1 (en) * 2002-01-30 2003-08-07 Matsushita Electric Industrial Co., Ltd. Audio encoding and decoding device and methods thereof
SE527670C2 (sv) * 2003-12-19 2006-05-09 Ericsson Telefon Ab L M Naturtrogenhetsoptimerad kodning med variabel ramlängd
US7725324B2 (en) * 2003-12-19 2010-05-25 Telefonaktiebolaget Lm Ericsson (Publ) Constrained filter encoding of polyphonic signals
US7809579B2 (en) * 2003-12-19 2010-10-05 Telefonaktiebolaget Lm Ericsson (Publ) Fidelity-optimized variable frame length encoding
FI119533B (fi) * 2004-04-15 2008-12-15 Nokia Corp Audiosignaalien koodaus
CN101107650B (zh) * 2005-01-14 2012-03-28 松下电器产业株式会社 语音切换装置及语音切换方法
US9626973B2 (en) * 2005-02-23 2017-04-18 Telefonaktiebolaget L M Ericsson (Publ) Adaptive bit allocation for multi-channel audio encoding
WO2006091139A1 (en) * 2005-02-23 2006-08-31 Telefonaktiebolaget Lm Ericsson (Publ) Adaptive bit allocation for multi-channel audio encoding
KR100707186B1 (ko) * 2005-03-24 2007-04-13 삼성전자주식회사 오디오 부호화 및 복호화 장치와 그 방법 및 기록 매체
JP2007264154A (ja) * 2006-03-28 2007-10-11 Sony Corp オーディオ信号符号化方法、オーディオ信号符号化方法のプログラム、オーディオ信号符号化方法のプログラムを記録した記録媒体及びオーディオ信号符号化装置
DK1869669T3 (da) * 2006-04-24 2008-12-01 Nero Ag Avanceret audiokodningsapparat
JP2008058667A (ja) * 2006-08-31 2008-03-13 Sony Corp 信号処理装置および方法、記録媒体、並びにプログラム
WO2008041954A1 (en) * 2006-10-06 2008-04-10 Agency For Science, Technology And Research Method for encoding, method for decoding, encoder, decoder and computer program products
JP5071479B2 (ja) 2007-07-04 2012-11-14 富士通株式会社 符号化装置、符号化方法および符号化プログラム
PT2571024E (pt) * 2007-08-27 2014-12-23 Ericsson Telefon Ab L M Frequência de transição adaptativa entre preenchimento de ruído e extensão da largura de banda
US8370133B2 (en) * 2007-08-27 2013-02-05 Telefonaktiebolaget L M Ericsson (Publ) Method and device for noise filling
JP5262171B2 (ja) 2008-02-19 2013-08-14 富士通株式会社 符号化装置、符号化方法および符号化プログラム
EP2104096B1 (de) * 2008-03-20 2020-05-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und verfahren zum umwandeln eines audiosignals in eine parametrisierende darstellung, vorrichtung und verfahren zum modifizieren einer parametrisierenden darstellung, vorrichtung und verfahren zur synchronisation eines audiosignals
US9276787B2 (en) 2008-03-28 2016-03-01 Qualcomm Incorporated Transmission of signaling messages using beacon signals
US8995559B2 (en) 2008-03-28 2015-03-31 Qualcomm Incorporated Signaling message transmission in a wireless communication network
EP3937167B1 (de) 2008-07-11 2023-05-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiocodierer und audiodecodierer
PL2346029T3 (pl) 2008-07-11 2013-11-29 Fraunhofer Ges Forschung Koder sygnału audio, sposób kodowania sygnału audio i odpowiadający mu program komputerowy
BR122021003142B1 (pt) 2008-07-11 2021-11-03 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E. V. Codificador de áudio, decodificador de áudio, métodos para codificar e decodificar um sinal de áudio, e fluxo de áudio
US8364471B2 (en) 2008-11-04 2013-01-29 Lg Electronics Inc. Apparatus and method for processing a time domain audio signal with a noise filling flag
KR101271430B1 (ko) * 2009-11-30 2013-06-05 한국전자통신연구원 무선 통신 시스템에서의 수신 신호 검출 방법 및 장치
CN102194457B (zh) * 2010-03-02 2013-02-27 中兴通讯股份有限公司 音频编解码方法、***及噪声水平估计方法
US9236063B2 (en) 2010-07-30 2016-01-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dynamic bit allocation
US9208792B2 (en) 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
WO2012037515A1 (en) 2010-09-17 2012-03-22 Xiph. Org. Methods and systems for adaptive time-frequency resolution in digital data coding
US8838442B2 (en) 2011-03-07 2014-09-16 Xiph.org Foundation Method and system for two-step spreading for tonal artifact avoidance in audio coding
US9009036B2 (en) 2011-03-07 2015-04-14 Xiph.org Foundation Methods and systems for bit allocation and partitioning in gain-shape vector quantization for audio coding
US9015042B2 (en) * 2011-03-07 2015-04-21 Xiph.org Foundation Methods and systems for avoiding partial collapse in multi-block audio coding
MX2013013261A (es) * 2011-05-13 2014-02-20 Samsung Electronics Co Ltd Asignacion de bits, codificacion y decodificacion de audio.
JP5986565B2 (ja) * 2011-06-09 2016-09-06 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法
US8731949B2 (en) 2011-06-30 2014-05-20 Zte Corporation Method and system for audio encoding and decoding and method for estimating noise level
JP5416173B2 (ja) * 2011-07-07 2014-02-12 中興通訊股▲ふん▼有限公司 周波数帯コピー方法、装置及びオーディオ復号化方法、システム
CN103368682B (zh) 2012-03-29 2016-12-07 华为技术有限公司 信号编码和解码的方法和设备
CN105976824B (zh) * 2012-12-06 2021-06-08 华为技术有限公司 信号解码的方法和设备
CN110223704B (zh) * 2013-01-29 2023-09-15 弗劳恩霍夫应用研究促进协会 对音频信号的频谱执行噪声填充的装置
EP3046104B1 (de) 2013-09-16 2019-11-20 Samsung Electronics Co., Ltd. Signalcodierungsverfahren und signaldecodierungsverfahren
KR20150032390A (ko) * 2013-09-16 2015-03-26 삼성전자주식회사 음성 명료도 향상을 위한 음성 신호 처리 장치 및 방법
KR102315920B1 (ko) * 2013-09-16 2021-10-21 삼성전자주식회사 신호 부호화방법 및 장치와 신호 복호화방법 및 장치
US10395663B2 (en) 2014-02-17 2019-08-27 Samsung Electronics Co., Ltd. Signal encoding method and apparatus, and signal decoding method and apparatus
KR102625143B1 (ko) * 2014-02-17 2024-01-15 삼성전자주식회사 신호 부호화방법 및 장치와 신호 복호화방법 및 장치
EP4293666A3 (de) 2014-07-28 2024-03-06 Samsung Electronics Co., Ltd. Signalcodierungsverfahren und -vorrichtung und signaldecodierungsverfahren und -vorrichtung
CN105374363B (zh) * 2014-08-25 2019-06-04 广东美的集团芜湖制冷设备有限公司 音频信号编码方法和***

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3639753A1 (de) * 1986-11-21 1988-06-01 Inst Rundfunktechnik Gmbh Verfahren zum uebertragen digitalisierter tonsignale
EP0551705A3 (en) * 1992-01-15 1993-08-18 Ericsson Ge Mobile Communications Inc. Method for subbandcoding using synthetic filler signals for non transmitted subbands
DE69428119T2 (de) * 1993-07-07 2002-03-21 Picturetel Corp Verringerung des hintergrundrauschens zur sprachverbesserung
US5632003A (en) * 1993-07-16 1997-05-20 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for coding method and apparatus
US5790759A (en) * 1995-09-19 1998-08-04 Lucent Technologies Inc. Perceptual noise masking measure based on synthesis filter frequency response
EP0954851A1 (de) * 1996-02-26 1999-11-10 AT&T Corp. Mehrstufiger sprachkodierer mit transformationskodierung von prädiktionsresiduen mittels quantisierung anhand auditiver modelle
FR2747225B1 (fr) * 1996-04-03 1998-04-30 France Telecom Systeme de codage et systeme de decodage d'un signal, notamment d'un signal audionumerique
GB9611425D0 (en) * 1996-05-31 1996-08-07 Tracker Network Uk Ltd Digital communications
JP2995037B2 (ja) * 1997-07-04 1999-12-27 三洋電機株式会社 音声符号化復号化装置
US6144937A (en) * 1997-07-23 2000-11-07 Texas Instruments Incorporated Noise suppression of speech by signal processing including applying a transform to time domain input sequences of digital signals representing audio information
US6115689A (en) * 1998-05-27 2000-09-05 Microsoft Corporation Scalable audio coder and decoder
US6240386B1 (en) * 1998-08-24 2001-05-29 Conexant Systems, Inc. Speech codec employing noise classification for noise compensation
US6195633B1 (en) * 1998-09-09 2001-02-27 Sony Corporation System and method for efficiently implementing a masking function in a psycho-acoustic modeler
US6418404B1 (en) * 1998-12-28 2002-07-09 Sony Corporation System and method for effectively implementing fixed masking thresholds in an audio encoder device
TW477119B (en) * 1999-01-28 2002-02-21 Winbond Electronics Corp Byte allocation method and device for speech synthesis
US6434519B1 (en) * 1999-07-19 2002-08-13 Qualcomm Incorporated Method and apparatus for identifying frequency bands to compute linear phase shifts between frame prototypes in a speech coder
DE19959038A1 (de) * 1999-12-08 2001-06-28 Bosch Gmbh Robert Verfahren zur Dekodierung von digitalen Audiodaten
US6393338B1 (en) * 2000-03-17 2002-05-21 Tadeusz Kemnitz Apparatus and control method for accurate rotary peristaltic pump filling
US6968564B1 (en) * 2000-04-06 2005-11-22 Nielsen Media Research, Inc. Multi-band spectral audio encoding
US6801886B1 (en) * 2000-06-22 2004-10-05 Sony Corporation System and method for enhancing MPEG audio encoder quality
EP1356454B1 (de) * 2001-01-19 2006-03-01 Koninklijke Philips Electronics N.V. Breitband-signalübertragungssystem

Also Published As

Publication number Publication date
EP1395980A1 (de) 2004-03-10
CN1462429A (zh) 2003-12-17
EP1395980B1 (de) 2006-03-15
JP2004522198A (ja) 2004-07-22
CN1244904C (zh) 2006-03-08
DE60209888D1 (de) 2006-05-11
US7483836B2 (en) 2009-01-27
ATE320651T1 (de) 2006-04-15
WO2002091363A1 (en) 2002-11-14
KR20030014752A (ko) 2003-02-19
ES2260426T3 (es) 2006-11-01
US20030061055A1 (en) 2003-03-27
KR100871999B1 (ko) 2008-12-05

Similar Documents

Publication Publication Date Title
DE60209888T2 (de) Kodieren eines audiosignals
DE60214027T2 (de) Kodiervorrichtung und dekodiervorrichtung
EP0290581B1 (de) Verfahren zum übertragen digitalisierter tonsignale
DE60310716T2 (de) System für die audiokodierung mit füllung von spektralen lücken
DE19747132C2 (de) Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms
DE10129239C1 (de) Vorrichtung und Verfahren zum Einbetten eines Wasserzeichens in ein Audiosignal
DE60319590T2 (de) Verfahren zur codierung und decodierung von audio mit variabler rate
DE4135070C1 (de)
DE60121592T2 (de) Kodierung und dekodierung eines digitalen signals
DE19730130A1 (de) Verfahren zum Codieren eines Audiosignals
EP0287578B1 (de) Digitales codierverfahren
EP1230827A2 (de) Verfahren und vorrichtung zum verarbeiten eines stereoaudiosignals
EP1953739A2 (de) Verfahren und Vorrichtung zur Geräuschunterdrückung
EP1023777B1 (de) Verfahren und vorrichtung zur erzeugung eines bitratenskalierbaren audio-datenstroms
DE69937140T2 (de) Adaptive bit-zuordnung für audio-kodierer
DE60011606T2 (de) Audiokodierung mit verstärkungsadaptiver quantisierung und symbolen verschiedener länge
EP0464534B1 (de) Transformationskodierer mit adaptiver Fensterfunktion
EP1155498B1 (de) Vorrichtung und verfahren zum erzeugen eines datenstroms und vorrichtung und verfahren zum lesen eines datenstroms
EP0340301B1 (de) Digitales adaptives transformationscodierverfahren
DE4430864A1 (de) Verfahren zum unbemerktem Übertragen und/oder Speichern von Zusatzinformationen innerhalb eines quellencodierten, datenreduzierten Audiosignals
EP0905918A2 (de) Verfahren und Vorrichtung zum Kodieren von Audiosignalen
DE69732870T2 (de) System zur Kodierung und Dekodierung von Audiosignalen
EP0133697A2 (de) Verfahren zum Übertragen von digitalen Tonsignalen sowie Einrichtung zum Empfangen eines nach diesem Verfahren übertragenen Tonsignals
DE3733786C2 (de)
DE19747119A1 (de) Verfahren und Vorrichtungen zum Codieren bzw. Decodieren eines Audiosignals bzw. eines Bitstroms

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee