DE69802957T2 - Rahmenbasierte audiokodierung mit video/audio-datensynchronisierung durch dynamische audiorahmensynchronisierung - Google Patents

Rahmenbasierte audiokodierung mit video/audio-datensynchronisierung durch dynamische audiorahmensynchronisierung

Info

Publication number
DE69802957T2
DE69802957T2 DE69802957T DE69802957T DE69802957T2 DE 69802957 T2 DE69802957 T2 DE 69802957T2 DE 69802957 T DE69802957 T DE 69802957T DE 69802957 T DE69802957 T DE 69802957T DE 69802957 T2 DE69802957 T2 DE 69802957T2
Authority
DE
Germany
Prior art keywords
audio
frame
input
samples
equal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69802957T
Other languages
English (en)
Other versions
DE69802957D1 (de
Inventor
Dunn Fielder
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Application granted granted Critical
Publication of DE69802957D1 publication Critical patent/DE69802957D1/de
Publication of DE69802957T2 publication Critical patent/DE69802957T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/038Cross-faders therefor
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03HIMPEDANCE NETWORKS, e.g. RESONANT CIRCUITS; RESONATORS
    • H03H17/00Networks using digital techniques
    • H03H17/02Frequency selective networks
    • H03H17/0248Filters characterised by a particular frequency response or filtering method
    • H03H17/0264Filter sets with mutual related characteristics
    • H03H17/0266Filter banks

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Synchronisation In Digital Transmission Systems (AREA)
  • Television Signal Processing For Recording (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Description

    Technisches Gebiet
  • Die vorliegende Erfindung bezieht sich auf Audiosignalverarbeitung, bei der Audioinformationsströme in Informationsrahmen angeordnet werden. Insbesondere befaßt sich die vorliegende Erfindung mit der Verbesserung der Audioqualität von Audioinformationsströmen, die durch Spleißen von Audioinformationsströmen auf Rahmenbasis gebildet werden.
  • Hintergrundstechnik
  • Das Verfahren des Aufbereitens von Audio- oder Videomaterial ist im wesentlichen ein Verfahren des Spleißens oder stumpfen Verbindens von zwei Materialsegmenten. Ein einfaches Musterbeispiel für dieses Aufbereiten ist das Schneiden und Spleißen von Laufbildfilmen. Die beiden zusammenzuspleißenden Materialsegmente können dabei von unterschiedlichen Quellen stammen, zum Beispiel unterschiedlichen Audioinformationskanälen, sie können aber auch von der gleichen Quelle stammen. In jedem Fall erzeugt die Spleißstelle eine Diskontinuität im Audio- oder Videomaterial, die entweder wahrnehmbar ist oder auch nicht.
  • Audiokodierung Blockverarbeitung
  • Die zunehmende Verwendung von digitaler Audioinformation hat es mit sich gebracht, daß es schwieriger wird, Audiomaterial ohne Erzeugung hörbarer Artefakte aufzubereiten. Teilweise ist das geschehen, weil digitale Audioinformation häufig in Blöcken digitaler Abtastwerte verarbeitet oder kodiert wird, die wiederum als Block weiterverarbeitet werden müssen. Viele Audiokodiersysteme, die auf Wahrnehmung oder Psychoakustik beruhen, arbeiten mit Filterbänken oder Transformationen, um Blöcke von Signalabtastwerten zu Blöcken kodierter Teilbandsignalabtastwerte oder Transformationskoeffizienten umzuwandeln, die als Blöcke einer Synthesefilterung oder inversen Transformation unterzogen werden müssen, um eine Wiedergabe des ursprünglichen Signals zu bekommen. Mindestens muß eine Aufbereitung des verarbeiteten Audiosignals an einer. Blockgrenze vorgenommen werden, denn sonst kann Audioinformation, die der verbliebene Teilblock darstellt, nicht ordnungsgemäß wiederhergestellt werden.
  • In der restlichen vorliegenden Erörterung beziehen sich Ausdrücke wie "Kodieren" und "Kodierer" auf verschiedene Verfahren und Vorrichtungen der Signalverarbeitung, während andere Ausdrücke, wie "kodiert" sich auf die Ergebnisse einer derartigen Verarbeitung beziehen. Aus keinem dieser Ausdrücke ist auf irgendeine spezielle Form der Verarbeitung zu schließen, beispielsweise auf Formen, mit denen die Irrelevanz oder Redundanz von Information in einem Signal verringert wird. Zum Kodieren gehört zum Beispiel das Erzeugen von Impulscodemodulations-Abtastwerten (PCM), um ein Signal wiederzugeben, sowie das. Anordnen von Informationen in Mustern oder Formaten gemäß einer Spezifikation. Ausdrücke wie "Block" und "Rahmen" werden in der vorliegenden Offenbarung für Gruppen oder Intervalle von Informationen benutzt, die sich von dem unterscheiden mögen, wofür die gleichen Ausdrücke sonst benutzt werden, beispielsweise in der Norm ANSI 54.40-1992, einer Norm, die manchmal als der digitale Audiostandard AES-3/EBU bekannt ist. Die hier verwendeten Ausdrücke, wie "Filter" und "Filterbank" schließen im wesentlichen jede beliebige Form des rekursiven und nichtrekursiven Filterns ein, beispielsweise Quadraturspiegelfilter (OMF) und Transformationen, und "gefilterte" Information ist dann das Ergebnis des Anwendens derartiger Filter. Näher erwähnt werden Filterbanken, die durch Transformationen verwirklicht sind.
  • Audio- und Videokodierung Rahmensynchronisation
  • Aufbereitungsanwendungen, bei denen sowohl Audio- als auch Videoinformation verarbeitet wird, unterliegen noch stärkeren Einschränkungen, und zwar aus mindestens zwei Gründen. Ein Grund besteht darin, daß die Videorahmenlänge im allgemeinen nicht der Audioblocklänge entspricht. Der zweite Grund gilt nur für gewisse Videonormen, wie NTSC, bei denen die Bildfolgefrequenz kein ganzes Vielfaches der Audioabtastfrequenz ist. Alle Beispiele in der nachfolgenden Erörterung gehen von einer Audioabtastfrequenz von 48 k Abtastungen pro Sekunde aus. Die meisten professionellen Geräte arbeiten mit dieser Frequenz. Ähnliche Überlegungen gelten für andere Abtastfrequenzen, beispielsweise 44,1 k Abtastungen pro Sekunde, was typischerweise bei Kundengeräten der Fall ist.
  • Die Rahmen- und Blocklängen für verschiedene Video- und Audiokodiernormen sind in Tabelle I bzw. Tabelle II gezeigt. Einträge in den Tabellen unter "MPEG II" und "MPEG III" beziehen sich auf Kodiertechniken MPEG-2 Layer II und MPEG-2 Layer III, wie sie von der Motion Picture Experts Group der Internationalen Normen Organisation in der Norm ISO/IEC 13818-3 festgelegt wurden. Der Eintrag unter "AC-3" bezieht sich auf eine von Dolby Laboratories, Inc. entwickelte Kodiertechnik, die in der Norm A-52 vom Advanced Television Systems Committee festgelegt wurde. Die "Blocklänge" für 48 kHz PCM ist das Zeitintervall zwischen aufeinanderfolgenden Abtastungen.
  • Bei Anwendungsfällen mit gebündelter Video- und Audioinformation sind Audioblöcke und Videorahmen selten synchronisiert. Das Zeitintervall zwischen dem Auftreten der Audio/Videosynchronisation ist in Tabelle III gezeigt. Die Tabelle zeigt zum Beispiel, daß Laufbildfilm mit 24 Bildern pro Sekunde gerade einmal in einem Zeitraum von je 3 Sekunden mit einer MPEG Audioblockgrenze synchronisiert ist und gerade einmal in jeder Zeitspanne von 4 Sekunden mit einem AC-3 Audioblock synchronisiert ist. Tabelle III Zeitintervall zwischen Audio/Video-Synchronisation
  • Das Intervall zwischen Synchronisationsereignissen, ausgedrückt in der Anzahl von Audioblöcken zu Videorahmen, ist in Tabelle 1 V gezeigt. So tritt die Synchronisation zwischen AC-3 Blöcken und PAL Rahmen zum Beispiel genau einmal innerhalb einer Intervallspanne von 5 Audioblöcken und 4 Videorahmen auf. Es ist bedeutsam, daß fünf Rahmen NTSC Video nötig sind, bis eine Synchronisation mit 8,008 Abtastungen PCM Audio auftritt. Was dieses Verhältnis bedeutet, wird nachfolgend erörtert. Tabelle IV Anzahl Rahmen zwischen Audio/Video-Synchronisation
  • Wenn Video- und Audioinformationen gebündelt sind, geschieht eine Aufbereitung insgesamt an einer Videorahmengrenze. Aus den Angaben in Tabelle III und IV ist erkenntlich, daß eine solche Aufbereitung wohl nur selten an einer Audiorahmengrenze geschieht. Für NTSC Video und AC-3 Audio ist beispielsweise die Wahrscheinlichkeit, daß eine Aufbereitung an einer Videogrenze auch an einer Audioblockgrenze geschieht, nur 1/960 oder etwa 0,1 Prozent. Natürlich müssen beide Aufbereitungen zu beiden Seiten einer Spleißstelle auf diese Weise synchronisiert werden, denn sonst geht etwas an Audioinformation verloren. Infolgedessen ist es nahezu gewiß, daß eine Spleißung von NTSCIAC-3 Information für zwei, willkürlich gewählte Aufbereitungen anderswo als an einer Audioblockgrenze auftritt und die Folge ein oder zwei Blöcke verlorener Audioinformation sein wird. Da bei AC-3 eine TDAC Transformation angewandt wird, werden jedoch sogar Fälle ohne Verlust an Informationsblöcken aus den oben genannten Gründen ungelöschte Aliasverzerrung aufweisen.
  • Dieses Problem ist analog zu den oben erörterten Problemen bei der Audioblockverarbeitung. Die bekannten Verfahren und Vorrichtungen haben entweder das Video/Audio-Rahmenproblem außer Acht gelassen oder ähnliche, nicht zufriedenstellende Lösungen vorgeschlagen, das heißt eine "Nachbearbeitung" der Audioinformation vorzunehmen, indem das Bündel aus Audioinformation und Videoinformation aufgeschnürt, die kodierte Audioinformation dekodiert, die wiedergewonnene Audioinformation aufbereitet und die Audioinformation dann erneut kodiert und mit der Videoinformation wieder gebündelt wurde. Ein Beispiel für eine derartige Technik ist in US-A- 4 903 148 offenbart.
  • Datensynchronisation
  • Es wurde oben angemerkt, daß 5 Rahmen NTSC Video nötig sind, um mit 8008 Abtastungen PCM Audio bei 48 k Abtastungen pro Sekunde eine Synchronisation zu erzielen. Mit anderen Worten, NTSC Videorahmen unterteilen die Audioinformation nicht in eine ganze Zahl von Abtastwerten. Jeder NTSC Rahmen entspricht 1601,6 Abtastwerten. Ähnlich unterteilen NTSC Rahmen kodierte Audioinformation nicht in Blöcke einer ganzen Zahl von Abtastwerten oder Koeffizienten. Dem kann begegnet werden, indem die Audioabtastwerte in einer sich wiederholenden Sequenz von Audiorahmen angeordnet werden, die zum Beispiel 1602, 1601, 1602, 1601 bzw. 1602 Abtastwerte enthalten. Hierdurch werden aber dem Aufbereiten noch grcißere Einschränkungen auferlegt, weil Aufbereitungen nur am Anfang der fünf Rahmen umfassenden Folge vorgenommen werden dürfen, die hier als "Superrahmen" bezeichnet ist. In vielen Anwendungsfällen übermittelt leider weder die Videoinformation, noch die mit ihr gebündelte Audioinformation irgendeinen Hinweis auf die Superrahmengrenzen.
  • Für viele Kodierungsfälle verursacht die variierende Länge von Audioblöcken innerhalb eines Superrahmens eine weitere Schwierigkeit. Wie oben erklärt, wird in vielen Anwendungsfällen beim Kodieren kodierte Information in Blöcken verarbeitet. Wenn das Signal dann nicht irgendeine Art von Synchronisiersignal übermittelt, kann ein Dekodierer nicht wissen, wo die Grenze für jeden Superrahmen liegt, oder ob eine Aufbereitung einen Teil eines Superrahmens entfernt hat. Anders ausgedrückt, der Dekodierer kann nicht wissen, wo die Grenze für jeden Audiorahmen oder Block liegt. Es ist unter Umständen möglich, die Ungewißheit hinsichtlich der Blockgrenze auf nur eine einzige Abtastung herabzusetzen. Wenn aber Audioinformation in Blöcken verarbeitet wird, reicht ein Fehler um eine einzige Abtastung aus, um eine Wiederherstellung der wiedergewonnenen Audioinformation iu verhindern.
  • In der am 25. Oktober 1985 veröffentlichten japanischen "patent abstract" Veröffentlichung Nummer JP-A-60 212 874 wird ein Verfahren zur Verwendung eines Videobandaufzeichnungsgerätes (VTR) für das Aufzeichnen und die Wiedergabe von Audio- und Videoinformation offenbart, wenn die Audioabtastfrequenz kein ganzes Vielfaches der Bildfolgefrequenz ist. Gemäß dieser Technik werden den Feldern oder Blöcken der Audioabtastwerte unterschiedlicher Längen Leerwerte hinzugefügt, um Blöcke fester Länge zu erzeugen. Die Blöcke der Audioinformation und die Leerwerte werden zeitlich komprimiert und zusammen mit der Videoinformation aufgezeichnet. Während der Wiedergabe werden die Blöcke zeitlich expandiert, die Leserwerte entfernt und aus der verbliebenen Audioinformation ein kontinuierliches Audioausgabesignal erzeugt. Leider bleibt bei diesem Verfahren die Synchronisation zwischen Video und Audio nicht aufrechterhalten, wenn an irgendeiner Stelle außer am Anfang eines Superrahmens eine Aufbereitung vorgenommen wird.
  • Offenbarung der Erfindung
  • Eine Aufgabe der vorliegenden Erfindung besteht in der Qualitätsverbesserung von Audioinformation, repräsentiert durch einen mittels Spleißen von zwei oder mehr Audioinformationsströmen auf Rahmenbasis gebildeten Audioinformationsstrom, dadurch daß für Datensynchronisation zwischen Rahmen mit Video- und solchen mit Audioinformation gesorgt wird.
  • Gemäß den Lehren eines Aspektes der vorliegenden Erfindung empfängt ein Verfahren oder eine Vorrichtung zur Signalverarbeitung ein erstes Eingabesignal, welches Eingabeabtastwerte aufweist, die Audioinformation mit einer Audioabtastfrequenz repräsentieren; empfängt ein zweites Eingabesignal, welches Eingaberahmen aufweist, die Information mit einer Eingaberahmenfrequenz übermitteln, welche in Superrahmen gruppiert sind, von denen jeder Superrahmen eine Anzahl der Eingaberahmen aufweist, die einer ersten Zahl gleicht, so daß die Audioabtastfrequenz, dividiert durch die Eingaberahmenfrequenz, keine ganze Zahl, sondern ein Produkt der Audioabtastfrequenz ist, und die erste Zahl dividiert durch die Eingaberahmenfrequenz im wesentlichen gleich einer ganzen Zahl ist; erzeugt in Abhängigkeit von dem ersten Eingabesignal eine Sequenz von Audiorahmen, von denen jeder Audiorahmen einem jeweiligen Eingaberahmen entspricht und kodierte Audioinformation aufweist, die einer Folge der Eingabeabtastwerte entspricht, wobei die Folge von dem ersten Eingabesignal genommen ist und einen frühen Anfangsabtastwert, einen nominellen Anfangsabtastwert und eine Anzahl nachfolgender Abtastwerte gleich dem ganzzahligen Anteil eines Quotienten aufweist, wobei der Quotient der Audioabtastfrequenz, dividiert durch die Eingaberahmenfrequenz, entspricht, wobei der frühe Anfangsabtastwert der erste Abtastwert in der Folge der Eingabeabtastwerte ist und der nominelle Anfangsabtastwert im wesentlichen mit dem jeweiligen Eingaberahmen ausgerichtet ist; und erzeugt ein Ausgabesignal, welches in Ausgaberahmen angeordnet ist, die zu Ausgabesuperrahmen gruppiert sind, von denen jeder Ausgabesuperrahmen eine Anzahl der Ausgaberahmen aufweist, die der ersten Zahl entspricht, ein jeweiliger Ausgaberahmen einen jeweiligen Audiorahmen und ein Kennzeichen für den jeweiligen Audiorahmen aufweist, wobei das Kennzeichen für jeden Audiorahmen in einem jeweiligen Ausgabesuperrahmen einmalig ist.
  • Gemäß den Lehren eines weiteren Aspektes der vorliegenden Erfindung empfängt ein Verfahren oder eine Vorrichtung zur Signalverarbeitung ein Eingabesignal, welches in Eingaberahmen angeordnet ist, die zu kompletten und partiellen Eingabesuperrahmen gruppiert sind, von denen jeder komplette Eingabesuperrahmen eine Anzahl der Eingaberahmen enthält, die einer ersten Zahl gleicht, welche größer ist als eins, und jeder partielle Eingabesuperrahmen eine geringere Anzahl der Eingaberahmen hat, wobei jeder Eingaberahmen einen Audiorahmen aufweist, der kodierte Audioinformation mit einer Eingaberahmenfrequenz aufweist und ein dem Audiorahmen zugeordnetes Kennzeichen, wobei das Kennzeichen für jeden Audiorahmen in einem jeweiligen kompletten oder partiellen Eingabesuperrahmen einmalig ist; leitet Sequenzen von Abtastwerten aus den Audiorahmen ab, wobei eine jeweilige Sequenz von Abtastwerten von einem jeweiligen Audiorahmen abgeleitet ist und einen frühen Anfangsabtastwert, einen nominellen Anfangsabtastwert und eine Anzahl nachfolgender Abtastwerte entsprechend einer zweiten Zahl aufweist, wobei die Folge von Abtastwerten Audioinformation mit einer Audioabtastfrequenz wiedergibt und die zweite Zahl dem ganzzahligen Teil eines Quotienten entspricht, wobei der Quotient der Audioabtastfrequenz, dividiert durch die Eingaberahmenfrequenz entspricht; erhält aus jeder Sequenz von Abtastwerten eine jeweilige Untersequenz von Abtastwerten, wobei in Abhängigkeit von dem Kennzeichen, welches dem Audiorahmen zugeordnet ist, aus dem eine jeweilige Sequenz von Abtastwerten abgeleitet ist, die entsprechende Untersequenz eine dritte Anzahl von Abtastwerten aufweist, die kleiner ist als die Anzahl der Abtastwerte in der jeweiligen Sequenz und entweder an dem frühen Anfangsabtastwert, dem nominellen Anfangsabtastwert oder dem Abtastwert beginnt, der auf den nominellen Anfangsabtastwert folgt, wobei die dritte Anzahl entweder der zweiten Zahl oder eins plus der zweiten Zahl entspricht; und erzeugt ein Ausgabesignal aus einer Anordnung der Untersequenzen, in der der Anfang jeder Untersequenz und der Anfang der unmittelbar vorausgehenden Untersequenz durch eine dritte Anzahl von Abtastwerten der vorausgehenden Untersequenz getrennt sind.
  • Die verschiedenen Merkmale der vorliegenden Erfindung und ihre bevorzugten Ausführungsbeispiele lassen sich durch Bezugnahme auf die folgende Erörterung und die beigefügten Zeichnungen besser verstehen, in denen gleiche Bezugszeichen sich auf gleiche Elemente in den verschiedenen Figuren beziehen. Die Zeichnungen, die verschiedene Vorrichtungen veranschaulichen, zeigen Hauptbauelemente, die für das Verständnis der vorliegenden Erfindung hilfreich sind. Aus Gründen der Klarheit sind in den Zeichnungen viele weitere Merkmale weggelassen, die für praktische Ausführungsbeispiele wichtig sein mögen, aber für das Verständnis der Ideen der vorliegenden Erfindung nicht wichtig sind. Die für die Verwirklichung der vorliegenden Erfindung nötige Signalverarbeitung kann auf verschiedene Art und Neise erreicht werden, unter Einschluß von Programmen, die von Mikroprozessoren, digitalen Signalprozessoren, logischen Matrizes und sonstigen Formen von Rechnerschaltungen durchgeführt werden. Signalfilter können im wesentlichen auf beliebige Weise verwirklicht werden, einschließlich rekursiver, nichtrekursiver sowie digitaler Gitterfilter. Es kann auch digitale und analoge Technik in den unterschiedlichsten Kombinationen je nach Bedarf und nach den Eigenschaften des Anwendungsfalls angewandt werden.
  • Merkmale der vorliegenden Erfindung sind besonders gegen Ende dieser Beschreibung in einem Abschnitt unter der Überschrift "Dynamic Audio Frame Alignment" beschrieben. Die Erörterung in früheren Abschnitten dieser Beschreibung liefert nützliches Hintergrundmaterial zum besseren Verständnis der Merkmale der vorliegenden Erfindung und für die Ausführung vorteilhafter Ausführungsbeispiele. Besondere Erwähnung finden Bedingungen, die das Verarbeiten von Audio- und Videoinformationsströmen betreffen. Aspekte der vorliegenden Erfindung können aber auch in Anwendungsfällen herangezogen werden, die keine Verarbeitung von Videoinformation einschließen. Der Inhalt der nachfolgenden Erörterung und die Zeichnungen dienen lediglich als Beispiel und sollten nicht als Einschränkungen des Umfangs der vorliegenden Erfindung aufgefaßt werden.
  • Kurzbeschreibung der Zeichnungen
  • Fig. 1a und 1b sind schematische Darstellungen von in Blöcken, Rahmen und Superrahmen angeordneter Video- und Audioinformation;
  • Fig. 2a bis 2c sind schematische Darstellungen von mittels Fensterfunktionen modulierten, überlappenden Blöcken sowie des erhaltenen Verstärkungsprofils für Rahmen, welche die gefensterten Blöcke aufweisen;
  • Fig. 3 zeigt Signal- und Alias-Komponenten, die mittels einer Aliaslöschfunktion erzeugt wurden;
  • Fig. 4a bis 4c zeigen Funktionsblockschaltbilder von Vorrichtungen, welche Verstärkungsregelungswörter in einem kodierten Informationsstrom erzeugen, ändern bzw. darauf reagieren.
  • Fig. 5a und 5b zeigen Funktionsblockschaltbilder von Vorrichtungen, welche abwechselnde Filterbänke anwenden, um Alias-Artefakte an Rahmengrenzen zu unterdrücken;
  • Fig. 6 bis 6d sind schematische Darstellungen von Fensterfunktionen, die zum Unterdrücken von Alias-Artefakten an Rahmengrenzen benutzt werden können;
  • Fig. 7 zeigt Frequenzgangkurven, die bei der Benutzung verschiedener Fensterfunktionen an Rahmengrenzen entstehen;
  • Fig. 8 zeigt ein Funktionsblockschaltbild einer Vorrichtung, die abwechselnde Filterbänke anlegt, um die Schwächung von spektralem Prasseln an Spleißstellen zu erhöhen;
  • Fig. 9, 10a und 11a sind schematische Darstellungen mehrerer Fensterfunktionen, die zur Vorrichtung gemäß Fig. 8 gehören;
  • Fig. 10b und 11b zeigen Frequenzgangkurven, die bei der Benutzung verschiedener Fensterfunktionen in der Vorrichtung gemäß Fig. 8 entstehen;
  • Fig. 12a und 12b zeigen Funktionsblockschaltbilder von Vorrichtungen, die für Abtastfrequenzumwandlung sorgen, um eine Synchronisation zwischen Audioabtastwerten und Videorahmen zu erzielen;
  • Fig. 13a und 13b zeigen Funktionsblockschaltbilder von Vorrichtungen gemäß der vorliegenden Erfindung, die für eine dynamische Audiorahmenausrichtung sorgen, um eine Synchronisation mit Videosuperrahmen an einer Spleißstelle zu erzielen;
  • Fig. 14 ist eine schematische Darstellung von Videorahmenmerkmalen von den Auswirkungen dynamischer Audiorahmenausrichtung über eine Spleißstelle hinweg.
  • Ausführungen der Erfindung Signale und Verarbeitung Signalblöcke und Rahmen
  • Fig. 1a zeigt einen Strom kodierter, in einer Folge von Audioblöcken 10 bis einschließlich 18 angeordneter Audioinformationen sowie Videoinformation, die in einer Folge von Videorahmen, beispielsweise dem Videorahmen 1 angeordnet ist. Bei manchen Formaten, beispielsweise dem NTSC-Video weist jeder Videorahmen zwei Videofelder auf, die gemeinsam ein einziges Bild oder eine Abbildung bestimmen. Audioblöcke 11 bis 17 sind zusammen mit dem Videorahmen 1 zu einem kodierten Signalrahmen 21 gruppiert.
  • Wie oben erörtert und in Tablle IV gezeigt, sind in einigen Anwendungsfällen Videorahmen vorgesehen, welche die kodierte Audioinformation nicht in eine ganze Zahl von Abtastwerten, Transformationskoeffizienten oder dergleichen unterteilen. Dem läßt sich dadurch begegnen" daß Gruppen kodierter Signalrahmen jeweils in Superrahmen angeordnet werden. Eine Anordnung aus fünf kodierten Signalrahmen 21 bis 25, die zu einem solchen Superrahmen 31 gruppiert sind, ist in Fig. 1b gezeigt. Diese spezielle Anordnung ist für Anwendungsfälle mit NTSC-Video und 48 k Abtastung/s PCM Audio verwendbar.
  • Verarbeitete Signalblöcke
  • Eine Folge von Blöcken kodierter Audioinformation kann überlappende Intervalle eines Audiosignals repräsentieren. Einige perzeptuelle Teilbandkodiersysteme verarbeiten beispielsweise Blöcke von Audioabtastwerten, die einander um die halbe Blocklänge überlappen. Die Abtastwerte in diesen einander überlappenden Blöcken sind üblicherweise mittels einer Analysefensterfunktion moduliert.
  • Fig. 2a zeigt die Modulationshüllkurven 61 bis einschließlich 67 einer Analysefensterfunktion, die auf jeden Block einer Folge einander überlappender Audioblöcke angewandt ist. Die Länge der Überlappung entspricht der Hälfte der Blocklänge. Dieses Überlappungsintervall wird üblicherweise von einigen Signalanalyse-Synthesesystemen, beispielsweise einer Überlapp-Block Transformation angewandt, die von Princen, Johnson und Bradley in "Subband/Transform Coding Using Filter Bank Designs Based on Time Domain Aliasing Cancellation", ICASSP 1987 Conf. Proc., Mai 1987, 55. 2161-64 beschrieben wurde. Diese Transformation ist das Äquivalent in der Zeitdomäne eines Analyse-Synthesesystems mit ungerader Stapelung, kritischer Abtastung und einem einzigen Seitenband, auf das hier unter O-TDAC (Oddly-Stacked Time-Domain Aliasing Cancellation) Bezug genommen wird. Die Vorwärtstransformation wird an Abtastwerteblöcken vorgenommen, die einander um eine Hälfte der Blocklänge überlappen, und es wird damit ein kritisches Abtasten durch Dezimieren der Transformationskoeffizienten um zwei erreicht. Allerdings erzeugt die durch diese Dezimierung verloren gegangene Information Verfälschungen in der Zeitdomäne des wiederhergestellten Signals. Mit dem Syntheseverfahren kann diese Verfälschung dadurch wieder aufgehoben werden, daß eine Umkehrtransformation an Blöcken von Transformationskoeffizienten vorgenommen wird, um Blöcke synthetisierter Abtastwerte zu erzeugen, daß an den Blöcken synthetisierter Abtastwerte eine entsprechend ausgestaltete Synthesefensterfunktion angewandt wird, und daß die gefensterten Blöcke überlappt und addiert werden. Wenn zum Beispiel ein TDAC-Kodiersystem eine Folge von Blöcken B&sub1;-B&sub2; erzeugt, heben die Alias-Artefakte in der letzten Hälfte des Blocks B&sub1; und in der ersten Hälfte des Blocks B&sub2; einander auf.
  • Fig. 2b zeigt die erhaltene Modulationshüllkurve einer Fensterfunktion in Anwendung auf eine Folge einander überlappender Blöcke eines kodierten Signalrahmens. Wie Fig. 2b zeigt, ist der Nettoeffekt oder das Verstärkungsprofil 81 dieser Modulation die Summe der Modulationshüllkurven 71 bis einschließlich 77 für einander benachbarte Blöcke in den Überlappungsintervallen. Vorzugsweise sollte der Nettoeffekt über jede Überlappung hinweg der Verstärkungsfaktor 1 sein.
  • Fig. 2c zeigt die Gesamtwirkung der Fensterfunktionsmodulation über benachbarte kodierte Signalrahmen. Wie gezeigt, überlappen die Verstärkungsprofile 80 bis 82 einander und summieren sich so, daß der Nettoeffekt der Verstärkungsfaktor 1 ist.
  • In Systemen, die nur mit Analysefensterfunktionen arbeiten, ist der Nettoeffekt der gesamten Fensterfunktionsmodulation gleich den Modulationseffekten der Analysefensterfunktion allein. Das ideale Verstärkungsprofil kann man erreichen, wenn man sicherstellt, daß die Modulationshüllkurve der Analysefensterfunktion überlappend und summierend zu einer Konstante ist. In Systemen, die mit Analyse- und Synthesefensterfunktionen arbeiten, ist der Nettoeffekt der gesamten Fensterfunktionsmodulation gleich dem einer "Produkt"-Fensterfunktion, die aus einem Produkt der Analysefensterfunktion und der Synthesefensterfunktion gebildet ist. In solchen Systemen kann das ideale Verstärkungsprofil dadurch erreicht werden, daß die Modulationshüllkurve der Produktfensterfunktion sich zu einer Konstante im Überlappungsintervall summiert. In der vorliegenden Offenbarung ist manchmal von Kodiersystemen und Verfahren die Rede, die sowohl mit Analyse- als auch mit Synthesefensterfunktionen arbeiten. In diesem Zusammenhang heißt es manchmal vom Verstärkungsprofil, welches aus überlappten Analysefensterfunktionen resultiert, daß es einer Konstante gleicht. Ähnlich heißt es manchmal vom Verstärkungsprofil, das aus überlappten Synthesefensterfunktionen resultiert, daß es einer Konstante gleicht. Es sei darauf hingewiesen, daß diese Beschreibungen sich auf den Nettomodulationseffekt der gesamten Fensterung im System beziehen sollen.
  • Fensterfunktion
  • Die Gestalt der Analysefensterfunktion beeinflußt nicht nur das Verstärkungsprofil des Signals, sondern wirkt sich auch auf den Frequenzgang einer entsprechenden Filterbank aus.
  • Spektrales Prasseln
  • Wie schon erwähnt, arbeiten viele perzeptuelle Teilbandkodiersysteme mit Filterbänken, deren Frequenzgangmerkmale dadurch für perzeptuelles Kodieren optimiert sind, daß die Schwächung von Frequenzen im Filtersperrbereich im Austausch für ein breiteres Filterpaßband erhöht ist. Leider besteht jedoch bei Spleißaufbereitungen die Tendenz, daß signifikante spektrale Artefakte oder "spektrales Prasseln" innerhalb eines Bereiches von Frequenzen erzeugt wird, der nicht innerhalb dessen liegt, was als Filtersperrbereich betrachtet wird. Filterbänke, die so ausgelegt sind, daß die allgemeine perzeptuelle Kodierleistung optimiert wird, bringen keine ausreichende Schwächung hervor, um diese an Spleißaufbereitungsstellen erzeugten spektralen Artefakte unhörbar zu machen.
  • TDAC Transform Aliasing Cancellation.
  • Was die O-TDAC Transformation betrifft, die Analysefensterfunktion zusammen mit einer Synthesefensterfunktion, die nach Anwendung der Synthesetransformation angewandt wird, so muß gleichfalls eine Reihe von Einschränkungen erfüllt sein, damit eine Löschung der Alias- Artefakte in der Zeitdomäne ermöglicht wird.
  • Das Signal, welches aus der Synthesetransformation wiedergewonnen wird, kann man sich als eine Summe aus dem ursprünglichen Signal und den durch die Analysetransformation erzeugten Alias-Komponenten der Zeitdomäne vorstellen. In Fig. 3 geben die Kurven 91, 93 und 95 Segmente der Amplitudenhüllkurve eines Eingabesignals wieder, welches aus der inversen oder Synthesetransformation wiederhergestellt und durch Analyse- und Synthesefensterfunktionen transformiert ist. Die Kurven 92, 94 und 96 stellen die Alias-Komponenten der Zeitdomäne dar, die von der inversen oder Synthesetransformation wiedergewonnen und durch Analyse- und Synthesefensterfunktionen moduliert wurden. Wie aus der Figur zu entnehmen ist und weiter unten erläutert wird, sind die Alias-Komponenten in der Zeitdomäne reflektierte Wiedergabon des ursprünglichen Eingabesignals, moduliert mittels Analyse- und Synthesefensterfunktionen.
  • Die Kernfunktionen der Analyse- und Synthese-O-TDAC-Transformationen sind so ausgelegt, daß Alias-Komponenten in der Zeitdomäne erzeugt werden, bei denen es sich um Ende-für-Ende Reflexionen des gefensterten Signals in jeder Hälfte eines Blocks handelt. Wie von Princen et al. offenbart, erzeugt die O-TDAC Transformation Alias-Komponenten der Zeitdomäne in zwei unterschiedlichen Regionen. In der Region 2 ist die Alias-Komponente der Zeitdomäne eine Ende- für-Ende gefensterte Reflexion des ursprünglichen Signals in dieser Region. In der Region 1 ist die Alias-Komponente der Zeitdomäne eine Ende-für-Ende gefensterte Reflexion des Eingabesignals in dieser Region, aber die Amplitude der Reflexion ist umgekehrt.
  • Zum Beispiel ist die Alias-Komponente 94a eine Ende-für-Ende gefensterte Reflexion der Signalkomponente 93a. Die Alias-Komponente 92b ist gleichfalls eine Ende-für-Ende gefensterte Reflexion der Signalkomponente 91b, außer daß die Amplitude der reflektierten Komponente umgekehrt ist.
  • Durch Überlappen und Summieren einander benachbarter Blöcke wird das ursprüngliche Signal wiederhergestellt und die Alias-Komponenten gelöscht. Die Signalkomponenten 91b und 93a werden beispielsweise summiert, um das Signal ohne Fensterfunktionsmodulationseffekte wiederzugewinnen, und die Alias-Komponenten 92b und 94a werden summiert, um die Alias- Effekte zu löschen. Ähnlich werden die Signalkomponenten 93b und 95a summiert, um das Signal wiederzugewinnen, und die Alias-Komponenten 94b und 96a werden summiert, um die Alias-Effekte zu löschen.
  • Alias-Artefakte der Zeitdomäne zu beiden Seiten einer Spleißgrenze werden insgesamt nicht gelöscht, weil die Alias-Artefakte in dem Halbblock synthetisierter Audioabtastwerte unmittelbar vor der Spleißstelle nicht die Umkehr der Alias-Artefakte in dem Halbblock des synthetisierten Audioblocks unmittelbar nach der Spleißstelle sind.
  • Ähnliche Betrachtungen gelten für andere Filterbänke zum Aufheben von Alias-Erscheinungen, beispielsweise die von Princen und Bradley in "Analysis/Synthesis Filter Bank Design Based on Time Domain Aliasing Cancellation", IEEE Trans. on Acoust., Speech, Signal Proc., Bd. ASSP-34, 1986, 55. 1153-1161 beschriebenen. Dieses Filterbanksystem ist das Äquivalent in der Zeitdomäne eines Analyse-Synthesesystems mit gerader Stapelung, kritischer Abtastung und einem einzigen Seitenband und wird hier als E-TDAC (Evenly-Stacked Time-Domain Aliasing Cancellation) bezeichnet.
  • Verstärkungsregelung zum Unterdrücken von Artefakten an Spleißstellen.
  • Eine Technik, die sich anwenden läßt, um die Hörbarkeit von durch eine Spleißstelle hervorgerufenen Artefakten zu mindern, besteht darin, in ein kodiertes Audiosignal eine Vielzahl von Verstärkungsregelungswörtern einzubauen, die einen Dekodierer oder ein Wiedergabesystem anweisen, die Amplitude des Wiedergabesignals zu ändern. Einfache Ausführungsbeispiele von Vorrichtungen, die mit diesen Verstärkungsregelungswörtern arbeiten, werden in den folgenden Absätzen erörtert.
  • Fig. 4a zeigt ein Funktionsblockschaltbild einer Vorrichtung 100, in welcher bei Formatieren 111 längs eines Pfades 112 ein Ausgabesignal erzeugt wird, das in Rahmen angeordnet ist, welche Videoinformationen, kodierte Audioinformationen, die mehrere Audiokanäle darstellen, sowie Verstärkungsregelungswörter aufweisen. Bei Formatieren 111 wird das Ausgabesignal als Reaktion auf ein von einem Pfad 108 empfangenes Signal erzeugt, das in Rahmen angeordnet ist, die Videoinformationen und kodierte Audioinformationen für die mehreren Audiokanäle überbringen, sowie als Reaktion auf ein von einem Pfad 110 empfangenes Signal, welches Verstärkungsregelungswörter übermittelt. Bei Verarbeiten 109 werden mehrere Steuersignale von Pfaden 103a und 103b empfangen, die jeweils einem der mehreren Audiokanäle zugeordnet sind, und als Reaktion auf jedes Steuersignal wird hier längs des Pfades 110 ein Paar Verstärkungsregelungswörter für einen zugeordneten Audiokanal erzeugt, die eine Anfangsverstärkung und eine Endverstärkung innerhalb eines jeweiligen Rahmens repräsentiert. Aus Gründen der Klarheit sind nur zwei Steuersignale 103 und zwei zugeordnete Audiokanäle 102 in der Figur dargestellt. Die Verstärkungsregelungstechnik kann aber, falls gewünscht, auf mehr als zwei Kanäle angewandt werden.
  • Bei dem gezeigten Ausführungsbeispiel wird bei Kodieren 105 längs Pfaden 106a und 106b kodierte Audioinformation für mehrere Audiokanäle als Reaktion auf mehrere Audiokanalsignale erzeugt, die von Pfaden 102a und 102b empfangen werden; und Rahmen 107 erzeugt das Signal längs 108, indem vom Pfad 101 empfangene Videoinformation sowie die von Pfaden 106a und 106b empfangene, kodierte Audioinformation in Rahmen angeordnet wird.
  • Die Verstärkungsregelungstechnik kann bei Eingabesignalen angewandt werden, die analog zu dem Signal sind, welches längs des Pfades 108 verläuft; deshalb ist weder das Kodieren 105 noch der Rahmen 107 erforderlich. Bei Beispielen, bei denen das Kodieren 105 eingeschlossen ist, kann das Kodieren unabhängig auf jeden Audiokanal angewandt werden, oder es kann gemeinsam auf mehrere Audiokanäle angewandt werden. Die AC-3 Kodiertechnik kann zum Beispiel gemeinsam auf zwei oder mehr Audiokanäle angewandt werden, um durch Entfernen oder Reduzieren von Redundanzen zwischen den Kanälen die Bandbreitenerfordernisse insgesamt zu senken.
  • Fig. 4c zeigt ein Funktionsblockschaltbild einer Vorrichtung 140, die Ausgabesignale erzeugt, um entsprechend Verstärkungsregelungswörtern in einem Eingabesignal mehrere Audiokanäle zu reproduzieren oder wiederzugeben. Bei Deformatieren 142 wird von einem Pfad 141 ein Eingabesignal empfangen, welches in Rahmen angeordnet ist, die Videoinformationen, kodierte Audioinformationen sowie Verstärkungsregelungswörter aufweisen. Bei Deformatieren 142 wird von jedem Rahmen des Eingabesignals kodierte Audioinformation erhalten, die mehrere Audiokanäle wiedergibt, und es wird ein Paar Verstärkungsregelungswörter erhalten, die jedem der Audiokanäle zugeordnet sind. Bei Verarbeiten 148 werden die Verstärkungsregelungswörter von einem Pfad 145 empfangen und als Reaktion darauf Steuersignale für die Verstärkung längs Pfaden 149a und 149b erzeugt. Bei Dekodieren 146 werden die mehreren Kanäle kodierter Audioinformationen von Pfaden 144a und 144b empfangen und als Reaktion darauf ein Ausgabesignal für jeden Audiokanal erzeugt, so daß die Amplitude oder der Pegel jedes Ausgabesignals in Abhängigkeit von einem zugehörigen Verstärkungsregelungssignal variiert wird.
  • Ein Paar Verstärkungsregelungswörter gibt eine Anfangsverstärkung und eine Endverstärkung für einen jeweiligen Audiokanal innerhalb eines bestimmten Rahmens wieder. Bei Prozessieren 148 werden Steuersignale für die Verstärkung erzeugt, die eine Interpolation des Paares der Verstärkungsregelungswörter darstellen. Die Interpolation kann jeder beliebigen Bahn folgen, beispielsweise linear, quadratisch, logarithmisch oder exponentiell. Bei linearer Interpolation würde ein Verstärkungsregelungssignal beispielsweise eine Verstärkung darstellen, die sich linear über einen bestimmten Rahmen hinweg ändert.
  • Jeder Audiokanal kann unabhängig dekodiert werden, oder das Dekodieren kann gemeinsam auf mehrere Audiokanäle angewandt werden. Das Dekodieren kann zum Beispiel komplementär zu formen des Kodierens sein, mit denen Redundanzen zwischen den Kanälen entfernt oder reduziert werden. In Fällen der Teilbandkodierung mit einer Synthesefilterbank und einer Synthesefensterfunktion kann das Ausgabesignal entsprechend einem Verstärkungsregelungssignal wirksam moduliert werden, indem kodierte Audioinformation vor Anwenden der Synthesefilterbank modifiziert wird, indem synthetisierte Audioinformation, die von der Synthesefilterbank vor der Synthesefensterung erhalten wurde, modifiziert wird, oder indem die Audioinformation modifiziert wird, die aus der Anwendung der Synthesefensterfunktion erhalten wurde.
  • Fig. 4b ist ein Funktionsblockschaltbild einer Vorrichtung 120, welche bestehende Verstärkungsregelungswärter in einem Signal modifiziert. Bei Deformatieren 123 wird von einem Pfad 121 ein Eingabesignal empfangen, welches in Rahmen angeordnet ist, die Videoinformationen, kodierte Audioinformationen, welche mehrere Audiokanäle repräsentieren, sowie Eingabeverstärkungsregelungswörter aufweisen. Bei Deformatieren 123 wird von dem Eingabesignal ein oder mehrere Eingabeverstärkungsregelungswörter erhalten, die der kodierten Audioinformation für einen der mehreren Audiokanäle zugeordnet sind, und die Eingabeverstärkungsregelungswörter werden längs Pfaden 124a und 124b weitergeleitet. Durch Modifizieren eines oder mehrerer Eingabeverstärkungsregelungswörter in Abhängigkeit von einem von einem Pfad 122 empfangenen Steuersignal wird bei Verarbeiten 126 ein oder mehrere Ausgabeverstärkungsregelungswörter längs eines Pfades 127 erzeugt. Bei Formatieren 128 wird längs eines Pfades 129 ein Ausgabesignal erzeugt, das in Rahmen angeordnet ist, welche die Videoinformationen, die kodierten Audioinformationen für die mehreren Audiokanäle, die Ausgabeverstärkungsregelungswörter sowie diejenigen Eingabeverstärkungsregelungswörter aufweist, die den Ausgabeverstärkungsregelungswörtern nicht entsprechen.
  • Bei Anwendung der Aufbereitung zeigt ein Steuersignal 122 eine Spleißstelle im Eingabesignal 121 an. In Abhängigkeit davon wird bei Verarbeiten 126 ein oder mehrere Ausgabeverstärkungsregelungswörter erzeugt, die eine Vorrichtung, beispielsweise die Vorrichtung 140 veranlassen, ein Wiedergabesignal unmittelbar vor der Spleißstelle zu schwächen und die Schwächung unmittelbar nach der Spleißstelle umzukehren. Die Verstärkungsänderung kann sich über mehrere Rahmen erstrecken. Aber in vielen Anwendungsfällen ist die Änderung auf nur einen Rahmen zu beiden Seiten der Spleißstelle begrenzt. Durch Abwägen der Hörbarkeit von Modulationsprodukten, die durch die Verstärkungsänderung produziert werden und der Hörbarkeit und der Verstärkungsänderung selbst kann das Verstärkung-Änderung-Intervall bestimmt werden. Die Technik der Anwendung von Verstärkungsregelungswörtern ist nicht auf Anwendungen beim Aufbereiten beschränkt.
  • Filterbänke zum Unterdrücken von Verfälschungen an Rahmengrenzen.
  • In Kodiersystemen mit einer Art von Löschung von Verfälschungen, wie sie eine der TDAC- Transformationen bietet, verhindern Spleißaufbereitungen aus den oben erörterten Gründen, daß Alias-Artefakte an jeder Seite der Spleißstelle gelöscht werden. Diese nicht gelöschten Alias- Artefakte können vermieden werden, indem Alternativfilterbänke an die Audioblöcke am Anfang und Ende jedes Rahmens angelegt werden. Unter Hinweis beispielsweise auf den in Fig. 1a gezeigten Rahmen 21 wird eine erste Filterbank an den Block 11 angelegt, eine zweite Filterbank an die Blöcke 12 bis 16 und eine dritte Filterbank an den Block 17. Die Charakteristik dieser Filterbänke ist so, daß die aus jedem Rahmen wiederhergestellte Audioinformation im wesentlichen keine ungelöschten Alias-Artefakte enthält.
  • Unter Hinweis auf Fig. 5a weist eine Vorrichtung 200 einen Puffer 202 auf, der Blöcke Audioinformationen empfängt und längs eines Pfades 203 ein Steuersignal erzeugt, welches anzeigt, ob ein Audioblock der erste oder Anfangsblock in einem Rahmen, der letzte oder Endblock in einem Rahmen oder ein Zwischenblock in dem Rahmen ist. In Abhängigkeit von dem vom Pfad 203 empfangenen Steuersignal leitet ein Schalter 204 den ersten oder Anfangsblock in jedem Rahmen zu einer ersten Filterbank 205, leitet sämtliche Zwischenblöcke in jedem Rahmen zu einer zweiten Filterbank 206 und leitet den letzten oder Endblock in jedem Rahmen zu einer Filterbank 207. Formatieren 208 stellt die von jeder dieser drei Filterbänke empfangene, gefilterte Audioinformation zu einem Ausgabesignal zusammen, welches längs eines Pfades 209 weitergeleitet wird.
  • Fig. 5b zeigt eine Vorrichtung 220, in welcher Deformatieren 222 ein Eingabesignal von einem Pfad 221 empfängt, daraus kodierte Audioinformation erhält, die längs eines Pfades 224 weitergeleitet wird, und erzeugt ein Steuersignal längs eines Pfades 223, welches anzeigt, ob die kodierte Audioinformation der erste oder Anfangsblock in einem Rahmen, der letzte oder Endblock in dem Rahmen oder ein Zwischenblock in dem Rahmen ist. In Abhängigkeit von dem vom Pfad 223 empfangenen Steuersignal lenkt ein Sehalter 225 kodierte Audioinformation zu einer der drei Synthesefilterbänke. Der Schalter 225 lenkt kodierte Audioinformation für den ersten Block zur ersten Synthesefilterbank 226, kodierte Audioinformation für Zwischenblöcke zur zweiten Synthesefilterbank 227 und kodierte Audioinformation für den letzten Block zur dritten Synthesefilterbank 228. Ein Puffer 229 erzeugt ein Ausgabesignal längs eines Pfades 230 in Abhängigkeit von den von den drei Synthesefilterbänken empfangenen synthetisierten Audioblöcken.
  • Zweite Filterbank.
  • Bei einem Ausführungsbeispiel eines Kodierers ist die zweite Filterbank von einem IV-Punkt modifizierten DCT und einer N-Punkt Analysefensterfunktion gemäß der O-TDAC Transformation, wie in der oben zitierten Veröffentlichung von Princen et al. offenbart, verwirklicht. In einem komplementären Dekodierer ist die zweite Filterbank von einem N-Punkt modifizierten inversen DCT und einer N-Punkt Synthesefensterfunktion gemäß der O-TDAC Transformation verwirklicht. Die Vorwärts- und Umkehr-0-TDAC-Transformationen sind in den Ausdrücken 1 bzw. 2 gezeigt:
  • worin k = Frequenzindex
  • n = Signalabtastnummer
  • M = Abtastblocklänge
  • m = Phasenterm für O-TDAG
  • x(n) = gefensterte Eingabesignalabtastung n und
  • X(k) = Transformationskoeffizient k
  • Die zweiten Filterbänke haben die Länge M = N und schaffen zwei Regionen der Alias-Reiflexion mit einer Grenze zwischen zwei Regionen am Mittelpunkt eines Blocks, wie in Fig. 3 gezeigt. Der zum Erzeugen dieser beiden Regionen nötige TDAC-Phasenterm ist m = N/2.
  • Bei einem bevorzugten Ausführungsbeispiel werden die Analyse- und Synthesefenstarfunktionen gemäß dem oben beschriebenen Verfahren abgeleitet. Die Gestalt dieser Fensterfunktionen ist mittels einer Kurve 242 in Fig. 6a veranschaulicht. Um die Erörterung zu erleichtern, wird auf diese Fensterfunktionen als W&sub2;(n) hingewiesen.
  • Erste Filterbank
  • In diesem gleichen Ausführungsbeispiel sind die Filterbänke im Kodierer und komplementären Dekodierer durch die oben gezeigten modifizierten DCT und eine modifizierte Form der Fensterfunktion W&sub2;(n) verwirklicht. Die Vorwärts- und Umkehrtransformationen sind in den Ausdrücken 1 bzw. 2 gezeigt. Die ersten Filterbänke haben die Länge M = 3 N/2 und erzeugen eine einzige Region 1 der Afias-Reflexion. Alias-Artefakte sind eine umgekehrte Ende-zu-Ende Reflexion des Signals im Block. Tatsächlich hat eine Reflexionsregion 2 die Länge Null und die Grenze zwischen den beiden Regionen liegt an der führenden Kante oder rechten Kante des Blocks. Der zur Schaffung dieser einzigen Region nötige TDAC-Phasentherm ist m = 0.
  • Die Analyse- und Synthesefensterfunktionen W&sub1;(n) für die ersten Filterbänke sind identisch. Die Gestalt dieser Fensterfunktion ist durch eine Kurve 241 in Fig. 6b veranschaulicht. Sie ist zusammengesetzt aus drei Teilen. Der erste und zweite Teil, bezeichnet als Segmente 1 und 2, ist mit der oben beschriebenen und in Fig. 6a gezeigten Fensterfunktion W&sub2;(x) identisch. Der als Segment 3 bezeichnete dritte Teil ist Null.
  • Die erste Analysefensterfunktion W&sub1;(n) stellt sicher, daß das Signal im Segment 3 Null ist. Infolgedessen sind auch die aus dem Segment 3 in das Segment 1 reflektierten Alias-Artefakte Null. Die Alias-Artefakte, die vom Segment 1 in das Segment 3 reflektiert werden, sind im allgemeinen nicht Null, aber jegliche in das Segment 3 reflektierte Artefakte werden eliminiert, wenn die erste Synthesefensterfunktion W&sub1;(n) an den synthetisierten Audioblock angelegt wird. Infolgedessen bestehen Alias-Artefakte nur im Segment 2.
  • Dritte Filterbank
  • In diesem gleichen Ausführungsbeispiel sind die dritten Filterbänke im Kodierer und komplementären Dekodierer von dem oben gezeigten modifizierten DCT und einer modifizierten Form der Fensterfunktion W&sub2;(n) verwirklicht. Die Vorwärts- und Umkehrtransformationen sind in den Ausdrücken 1 bzw. 2 gezeigt. Die dritten Filterbänke haben die Länge M = 3 N/2 und erzeugen eine einzige Region 2 der Alias-Reflexion. Alias-Artefakte sind eine Ende-zu-Ende Reflexion des Signals im Block. Tatsächlich hat die Reflexionsregion 1 die Länge Null, und die Grenze zwischen den beiden Regionen liegt an der nachlaufenden oder linken Kante des Blocks. Der zur Schaffung dieser einzigen Region erforderliche TDAC-Phasenterm ist m = 3 N/2.
  • Die Analyse- und Synthesefensterfunktionen W&sub3;(n) für die dritten Filterbänke sind identisch. Die Gestalt einer geeigneten Fensterfunktion ist durch eine Kurve 243 in Fig. 6c veranschaulicht. Sie besteht aus drei Teilen. Der erste Teil, bezeichnet als Segment 1, ist Null. Der zweite und dritte Teil, die Segmente 2 und 3, sind mit der oben beschriebenen und in Fig. 6a gezeigten Fensterfunktion W&sub2;(x) identisch.
  • Diese dritte Analysefensterfunktion W&sub3;(n) stellt sicher, daß das Signal im Segment 1 Null ist. Infolgedessen sind auch aus dem Segment 1 in das Segment 3 reflektierte Alias-Artefakte Null. Die aus dem Segment 3 in das Segment 1 reflektierten Alias-Artefakte sind im allgemeinen nicht Null, aber jegliche in das Segment 1 reflektierte Artefakte werden eliminiert, wenn die dritte Synthesefensterfunktion W&sub3;(n) an den synthetisierten Audioblock angelegt wird. Folglich bestehen Alias-Artefakte nur im Segment 2.
  • Fig. 6d veranschaulicht, wie Fensterfunktion W&sub1;(n), W&sub2;(n) und W&sub3;(n) 241 bis 243 einander überlappen. Das Verstärkungsprofil 240 stellt die Nettoauswirkung der Ende-zu-Ende Fensterung dar, bei der es sich im Fall von TDAC um eine Folge überlappender Produktfensterfunktüonen handelt, die aus dem Produkt entsprechender Analyse- und Synthesefensterfunktionen gebildet sind. Die Alias-Artefakte im Segment 2 des Blocks 11, gewichtet durch Analyse-Synthesefensterfunktionen W&sub1;(n), werden durch die Alias-Artefakte in der ersten Hälfte des Blocks 12, gewichtet durch Analyse-Synthesefensterfunktionen W&sub2;(n), gelöscht. Die Alias-Artefakte im Segment 2 des Blocks 17, gewichtet durch Analyse-Synthesefensterfunktion W&sub3;(n) werden durch die Alias- Artefakte in der letzten Hälfte des Blocks 16, gewichtet durch Analyse-Synthesefensterfunktionen W&sub2;(n), gelöscht. Die Signalwiederherstellung und Alias-Löschung in Zwischenblockpaaren, wie den Blöcken 12 und 13 oder den Blöcken 15 und 16 wird entsprechend herkömmlicher TDAC erreicht.
  • Durch das Anwenden dieses Verfahrens können Spleißaufbereitungen an jeder beliebigen Rahmengrenze vorgenommen werden, und es bleiben keine Alias-Artefakte ungelöscht zurück.
  • Ableitung von Fensterfunktionen
  • Die Fensterfunktion W&sub2;(n) kann von einer Basisfensterfunktion abgeleitet werden, wenn man eine in den folgenden Absätzen beschriebene Technik anwendet. Auch wenn jede beliebige Fensterfunktion mit den passenden Überlapp-Summier-Eigenschaften als BasisfensterEunktion benutzt werden kann, ist die bei einem bevorzugten Ausfüfirungsbeispiel angewandte Basisfensterfunktion die Kaiser-Bessel-Fensterfunktion:
  • worin α = Kaiser-Bessel-Fensterfunktion-Alphafaktor
  • n = Fensterabtastnummer
  • N = Fensterlänge in Zahl der Abtastwerte, und
  • Die Ableitung generiert eine Analyse-Synthese-Produkt-Fensterfunktion Wp(n) durch Konvolvieren der Kaiser-Bessel-Fensterfunktion WKB(n) mit einer Rechteckfensterfunktion s(k), die eine Länge gleich der Blocklänge N minus Überlappungsintervall v hat, oder:
  • Dies läßt sich vereinfachen zu
  • worin n = Produkt-Fensterabtastnummer,
  • v = Anzahl der Abtastwerte innerhalb des Fensterüberlappungsintervalls,
  • N = gewünschte Länge des Produkt-Fensters,
  • WKg(n) = Basisfensterfunktion der Länge v + 1,
  • WP(n) = abgeleitetes Produkt = Fenster der Länge N und
  • Für die O-TDAC Transformation sind das Überlappungsintervall ν = N/2 und die Analysefensterfunktion sowie die Synthesefensterfunktionen identisch; deshalb kann die eine oder andere Fensterfunktion wie folgt erhalten werden:
  • Die Analyse- und Synthesefensterfunktionen, die auf diese Weise abgeleitet werden, sind hier als abgeleitete Kaiser-Bessel-Fensterfunktion (KBD) bezeichnet. Die Produktfensterfunktion wird als KBD-Produktfensterfunktion bezeichnet. Der Alphafaktor für die grundlegende Kaiser-Bessel- Fensterfunktion kann so gewählt werden, daß die Kodierleistung optimiert wird. In vielen Anwendungsfällen liegt ein optimaler Alphafaktor zum Kodieren im Bereich von 2 bis 6.
  • Das Fehlen ungelöschter Alias-Artefakte im ganzen Rahmen macht es möglich, im wesentlichen jede beliebige Fensterfunktion an einer Spleißstelle anzuwenden. Insgesamt haben diese Fensterfunktionen eine Gestalt, die über das Überlappungsintervall ein konstantes Verstärkungsprofil beibehält. An Spleißstellen kann sich das Überlappungsintervall über viele Rahmen erstrecken; aber vermutlich wird in vielen Fällen ein "Spleißüberlappungsintervall" herangezogen, das im Bereich von 5 bis 30 ms liegt. Aus weiter unten erörterten Gründen ist es signifikant, daß das Überlappungsintervall über eine Spleißstelle hinweg vergrößert werden kann.
  • Filterbänke zum Verringern von spektralem Prasseln an Spleißstellen
  • Ein Alphafaktor innerhalb des oben genannten Bereichs ist für viele Kodieranwendungsfälle in dem Sinn optimal, als perzeptuelles Kodieren optimiert wird. Wie zuvor erwähnt, wird das Kodieren insgesamt dadurch optimiert, daß die Schwächung von Frequenzen im Filtersperrbereich im Austausch gegen einen breiteren Filterdurchlaßbereich verstärkt wird. Ein Beispiel eines typischen Frequenzganges für einen zum perzeptuellen Kodieren optimierten Filter ist durch eine Kurve 342 in Fig. 7 gezeigt. Diese Kurve gibt den Frequenzgang des Rahmenverstärkungsprofils eines O-TDAC Analyse-Synthese-Systems bei Verwendung von KBD-Fensterfunktionen mit α = 6 und einem Rahmenüberlappungsintervall entsprechend 256 Abtastwerten wieder. Auch wenn die Grenze zwischen dem Durchlaßbereich und dem Sperrbereich nicht scharf bestimmt ist, deckt bei diesem Beispiel der Durchlaßbereich Frequenzen bis zu etwa 200 Hz ab, und der Sperrbereich deckt Frequenzen oberhalb von etwa 1 kHz ab. Zwischen den beiden Bereichen erstreckt sich eine Übergangsregion.
  • Bei Anwendungsfällen mit Transformationen, die auf Blöcke mit 256 Abtastwerten angewandt werden, besteht die Tendenz, daß Spleißaufbereitungen signifikante falsche Spektralkomponenten oder "spektrales Prasseln" innerhalb von etwa 200 Hz bis 1 kHz der Mittenfrequeriz eines Filters erzeugen. Für Anwendungsfälle mit Blöcken anderer Längen kann dieser Frequenzbereich in Form von zwei Konstanten dividiert durch die Blocklänge ausgerückt werden, so daß signifikantes spektrales Prasseln innerhalb eines in Hz ausgedrückten Frequenzbereichs von etwa 50.000 bis etwa 256.000, jeweils dividiert durch die Blocklänge, auftritt.
  • Bei dem in Fig. 7 dargestellten Beispiel liegen diese Frequenzen außerhalb dessen, was als der Filtersperrbereich betrachtet wird. Zum Optimieren der perzeptuellen Kodierleistung ausgelegte Filterbänke bieten nicht genügend Dämpfung des an Spleißaufbereitungsstellen erzeugten spektralen Prasselns. Diese Artefakte sind üblicherweise hörbar, weil sie üblicherweise zu groß sind, um vom Signal abgedeckt zu werden.
  • Frequenzgänge von zwei weiteren Analyse-Synthese-Systemen sind anhand einer Kurve 341 und einer Kurve 343 in Fig. 7 veranschaulicht. Diese bieten signifikant weniger Schwächung im Sperrbereich, aber mehr Schwächung in einem Bereich von Frequenzen, die durch an Spleißstellen erzeugtes spektrales Prasseln beeinflußt sind. Ein Teil der Leistung beim perzeptuellen Kodieren wird aufgegeben, um die Schwächung des spektralen Prasselns zu verstärken. Vorzugsweise optimiert der Frequenzgang die Schwächung spektraler Energie innerhalb eines Bereiches von Frequenzen, die 200 Hz und 600 Hz einschließen, bei einem System, welches Blöcke mit 256 Abtastwerten filtert, oder Frequenzen von etwa 50.000 und 150.000, jeweils dividiert durch die Blocklänge.
  • Manchmal läßt sich ein Kompromiß erzielen, der die Frequenzgangerfordernisse sowohl für das allgemeine Kodieren als auch für das Überleben von Rahmen an Spleißstellen erfüllt. Bei Anwendungsfällen, bei denen ein solcher Kompromiß nicht erreicht werden kann, wird eine Spleißstelle erfaßt und der Frequenzgang des Analyse-Synthese-Systems geändert. Diese Änderung muß im Zusammenwirken mit einem Synthesefiltern vorgenommen werden, weil die Analysefilterbank Spleißvorgänge nicht allgemein vorhersehen kann.
  • Fig. 8 zeigt eine Vorrichtung 320, die benutzt werden kann, um spektrales Prasseln an einer Spleißstelle durch Ändern des Ende-zu-Ende-Frequenzganges eines Analyse-Synthese-Systems zu verringern. In dieser Vorrichtung empfängt Deformatieren 322 ein Eingabesignal von einem Pfad 321, erhält daraus kodierte Audioinformation, die längs eines Pfades 324 weitergegeben wird, und erzeugt ein Steuersignal längs eines Pfades 323, welches anzeigt, ob eine Spleißstelle entweder am Anfang oder am Ende eines Rahmens auftritt. Das Auftreten einer Spleißstelle kann in dem Eingabesignal entweder ausdrücklich übermittelt werden, oder es kann anhand anderer, im Signal übermittelter Information darauf geschlossen werden.
  • Zum Beispiel enthalten gemäß der AES-3/EBU-Norm aufeinanderfolgende Audioinformationsblöcke Blocknummern, die von Null bis 255 zunehmen und dann zu Null umlaufen. Zwei benachbarte Blocknummern, deren Reihenfolge nicht stimmt, könnten auf eine Spleißstelle hinweisen. Allerdings ist dieser Test nicht zuverlässig, weil in manchen Bausteinen, in denen der AES/EBU-Datenstrom verarbeitet wird, diese Nummer nicht inkrementiert wird. Wenn der Audioinformationsstrom kodiert ist, kann das Kodierschema eine sequentielle Numerierung oder irgendeine andere Form vorhersagbarer Information bieten. Stimmt die Information nicht mit der zu erwartenden überein, kann ein Signal erzeugt werden, um das Vorhandensein einer Spleißstelle anzuzeigen.
  • In Abhängigkeit von dem vom Pfad 323 empfangenen Steuersignal leitet ein Schalter 325 kodierte Audioinformation für den ersten, auf eine Spleißstelle folgenden Block in einem Rahmen zu einer ersten Synthesefilterbank 326, kodierte Audioinformation für den letzten, einer Spleißstelle vorausgehenden Block in einem Rahmen zu einer dritten Synthesefilterbank 328 und kodierte Audioinformation für weitere Blöcke zu einer zweiten Synthesefilterbank 327. Alternativ könnte kodierte Audioinformation für diese weiteren Blöcke auch gemäß der nachfolgend im Zusammenhang mit Fig. 5b erörterten Technik einer der drei Filterbänke zugeleitet werden. Ein Puffer 329 erzeugt ein Ausgabesignal längs eines Pfades 330 in Abhängigkeit von den von den drei Synthesefilterbänken empfangenen synthetisierten Audioblöcken.
  • Die erste und dritte Synthesefilterbank sind so ausgelegt, daß ein gewünschter Frequenzgang im Zusammenwirken mit irgendeiner Analysefilterbank erreicht wird. In vielen Anwendungsfällen ist diese Analysefilterbank so ausgelegt, daß die allgemeine Kodierleistung mit der zweiten Synthesefilterbank optimiert wird. Die erste und dritte Synthesefilterbank können im wesentlichen auf jede beliebige, den gewünschten Gesamtfrequenzgang hervorbringende Weise verwirklicht werden. Insgesamt haben die beiden Filterbänke identische Frequenzgänge, aber die Frequenzgänge sind zeitlich umgekehrte Wiedergaben voneinander. In Anwendungsfällen, bei denen Filterbänke unter Verwendung von Transformationen und Fensterfunktionen verwirklicht werden, können die geeigneten Filterbänke dadurch verwirklicht werden, daß Synthesefensterfunktionen angewandt werden, die das Überlappungsintervall zwischen einander benachbarten Rahmen zu beiden Seiten einer Spleißstelle vergrößern.
  • Modulation von synthetisierten Audioinformationen.
  • Dies kann auf verschiedene Art und Weise bewerkstelligt werden. Die eine Art und Weise sieht vor, das synthetisierte Audiosignal, welches von der Synthesefilterbank wiedergewonnen wurde, so zu modulieren, daß Rahmen an der einen oder anderen Seite einer Spleißstelle ineinander überblendet werden. Das kann eine Vorrichtung, beispielsweise die unten erörterte und in Fig. 4c gezeigte Vorrichtung 140 leisten. Ein Dekodierer 146 verringert die Amplitude des synthetisierten Signals in dem der Spleißstelle vorausgehenden Rahmen über ein gewünschtes Spleißüberlappungsintervall hinweg. Wirkungsmäßig nimmt das Verstärkungsprofil des der Spleißstelle vorausgehenden Rahmens von eins über dieses Intervall hinweg auf ein niedrigeres Niveau ab. Dekodieren 146 erhöht auch die Amplitude des synthetisierten Signals in dem Rahmen nach der Spleißstelle über das gewünschte Spleißüberlappungsintervall hinweg. Wirkungsmäßig nimmt das Verstärkungsprofil des auf die Spleißstelle folgenden Rahmens von dem niedrigeren Niveau über dieses Intervall hinweg auf eins zu. Wenn die wirksamen Änderungen im Verstärkungsprofil für die Modulationswirkungen der Analyse-Synthese-Fensterung verantwortlich sind, kann die Gesamtverstärkung der überlappten Rahmen erhalten bleiben.
  • Die effektive Änderung der Verstärkungsprofile kann linear sein. Die Kurve 343 in Fig. 7 veranschaulicht die Frequenzgangmerkmale eines linear abgeschrägten Rahmenverstärkungsprofils einer Dauer von etwa 5 Millisekunden. Bei einer Abtastrate von 48 k Abtastungen pro Sekunde entspricht dies Intervall etwa 256 Abtastwerten. In vielen Kodierungsanwendungen werden Transformationen an Blöcken von Abtastwerten vorgenommen, die 256 Abtastwerte umfassen. In diesen spezielle Anwendungsfällen erstreckt sich infolgedessen eine Rampe oder ein linear abgeschrägtes Verstärkungsprofil von 256 Abtastwerten über einen "End"-Block an, der Rahmengrenze und über einen Teil eines benachbarten Blocks, der diesen Endblock überlappt. Das ist äquivalent zum Anwenden einer Filterbank auf den Endblock, Anwenden einer weiteren Filterbank auf den unmittelbar benachbarten Block und noch einer weiteren Filterbank an weitere Blöcke im Innern des Rahmens. Unter Hinweis auf die Vorrichtung 320 in Fig. 8 wären zwei zusätzliche Synthesefilterbänke erforderlich, um die Blöcke zu verarbeiten, die den "End"-Blöcken benachbart sind und diese überlappen.
  • Der Frequenzgang dieser linear abgeschrägten Rampe stellt einen Bezugsfrequenzgang dar, im Vergleich mit dem andere Frequenzgänge ausgewertet werden können. Insgesamt sind Filterbänke, welche die Schwächung spektraler Energie gegenüber diesem Bezugsfrequenzgang optimieren, wirksam für das Reduzieren von spektralem Prasseln, das an Spleißstellen erzeugt wird.
  • Modifizierte Synthesefensterfunktion
  • Eine weitere Möglichkeit zum Ändern der Gesamtfrequenzgangmerkmale eines Analyse-Synthese- Systems besteht darin, diese Synthesefensterfunktion so zu modifizieren, daß die Nettoauswirkung dar Analyse-Synthesefensterung die gewünschte Reaktion erreicht. Tatsächlich wird der Gesamtfrequenzgang entsprechend der erhaltenen Analyse-Synthese-Produkt-Fensterfunktion geändert.
  • Die Kurve 341 in Fig. 7 gibt einen Frequenzgang wieder, der spektrales Prasseln an Spleißstellen in stärkerem Ausmaß schwächt als der Frequenzgang des von der Kurve 343 wiedergegebenen 5 ms linear abgeschrägten Verstärkungsprofils. Der Gang gemäß Kurve 341 wird mittels des O- TDAC Analyse-Synthesesystems unter Verwendung von 256-Punkttransformationen und KBD- Fensterfunktionen mit α = 1 erreicht. Wie oben erwähnt, entspricht die Kurve 34 2 KBD- Fensterfunktionen mit a = 6.
  • Der Ende-zu-Ende Frequenzgang dieser Analyse-Synthesesysteme ist mit dem Frequenzgang des Fensters gleichwertig, welches aus dem Produkt der Analysefensterfunktion und der Synthesefensterfunktion gebildet ist. Dies läßt sich algebraisch wie folgt darstellen:
  • WP&sub6;(n) = WA&sub6;(n) WS&sub6;(n) (5a)
  • WP&sub1;(n) = WA&sub1;(n) WS&sub1;(n) (5b)
  • worin WA&sub6;(n) = Analyse-KBD-Fensterfunktion mit α = 6
  • WS&sub6;(n) = Synthese-KBD-Fensterfunktion mit α = 6
  • WP&sub6;(n) = KBD-Produkt-Fensterfunktion mit α = 6
  • WA&sub1;(n) = Analyse-KBD-Fensterfunktion mit α = 1
  • WS&sub1;(n) = Synthese-KBD-Fensterfunktion mit α = 1 und
  • WP&sub1;(n) = KBD-Produkt-Fensterfunktion mit α = 1.
  • Wenn eine Synthesefensterfunktion modifiziert wird, um einen Ende-zu-Ende Frequenzgang in einen anderen gewünschten Frequenzgang umzuwandeln, muß sie so modifiziert werden, daß ein Produkt seiner selbst und der Analysefensterfunktion dem Produktfenster gleicht, welches den gewünschten Frequenzgang hat. Wenn ein Frequenzgang entsprechend WP&sub1; erwünscht ist und die Analysefensterfunktion WA&sub6; für diese Signalanalyse benutzt wird, läßt sich dieses Verhältnis algebraisch ausdrücken als:
  • WP&sub1;(n) = WA&sub6;(n) WX(n) (5c)
  • in welcher WX(n) die zum Umwandeln des Frequenzganges nötige Synthesetensterfunktion ist. Dies kann wie folgt geschrieben werden:
  • WX(n) = WP&sub1;(n)/WA&sub6;(n)
  • Die tatsächliche Gestalt der Fensterfunktion WX ist etwas komplizierter als was im Ausdruck 5d gezeigt ist, wenn das Spleißüberlappungsintervall sich auf einen benachbarten Audioblock erstreckt, der den "End"-Block in dem Rahmen überlappt. Dies wird nachfolgend noch im einzelnen erörtert. Auf jeden Fall gibt der Ausdruck 5d richtig wieder, was von der Fensterfunktion WX in demjenigen Teil des Endblocks gefordert wird, der keinen anderen Block in dem Rahmen überlappt. Für Systeme, die O-TDAC benutzen, entspricht dieser Teil der Hälfte der Blocklänge oder für O ³/&sub4;n < N/2.
  • Wenn die Synthesefensterfunktion WX zum Umwandeln des Ende-zu-Ende Frequenzganges von einem höheren Alphaprofil auf ein niedrigeres Alphaprofil benutzt wird, muß sie in der Nähe der Rahmengrenze sehr große Werte haben. Ein Beispiel ist in Fig. 9 gezeigt, in der eine Kurve 351 eine KBD-Analyse- oder Synthesefensterfunktion mit &alpha; = 1 veranschaulicht, eine Kurve 352 ein KBD-Produktfenster mit &alpha; = 1 veranschaulicht, eine Kurve 356 eine KBD-Analyse- oder Synthesefensterfunktion mit &alpha; = 6 veranschaulicht und eine Kurve 359 eine Synthesefensterfunktion entsprechend dem Ausdruck 5d veranschaulicht. Wenn sich die Kurve 356 der Rahmengrenze nähert, wird sie viel kleiner als die Kurve 352, deshalb wird die Kurve 359 sehr groß. Leider hat eine Synthesefensterfunktion, die eine Gestalt wie die Kurve 359 mit der starken Steigerung an der Kante der Fensterfunktion WX hat, sehr schlechte Frequenzgangmerkmale und verschlechtert die Audioqualität des wiedergewonnenen Signals. Nachfolgend werden zwei Techniken erörtert, die zur Lösung dieses Problems herangezogen werden können.
  • Verwerfen von Abtastwerten
  • Das erste Verfahren zum Modifizieren einer Synthesefensterfunktion vermeidet starke Erhöhungen der Fensterfunktion WX durch das Verwerfen einer gewissen Anzahl von Abtastwerten an der Rahmengrenze, wo die Analysefensterfunktion die kleinsten Werte hat. Durch Variieren- der Zahl der verworfenen Abtastwerte kann die zum Übermitteln von Abtastwerten im Rahmenüberlappungsintervall erforderliche Bandbreite in Tausch gegeben werden gegen die Abnahme der Systemkodierleistung, die durch schwache Frequenzgangmerkmaie im Dekodierer verursacht wird.
  • Wenn zum Beispiel die Synthesefensterfunktionen für die ersten drei Blöcke in einem Rahmen modifiziert wird, um einen gewünschten Frequenzgang entsprechend einer Produktfensterfunktion WP&sub1; zu erzielen und die für die Signalanalyse verwendete Fensterfunktion WA&sub6; ist, sehen die erforderlichen modifizierten Synthesefensterfunktion wie folgt aus:
  • worin WX1(n) modifizierte Synthesefensterfunktion für den ersten Block,
  • WX2(n) = modifizierte Synthesefensterfunktion für den zweiten Block,
  • WX3(n) = modifizierte Synthesefensterfunktion für den dritten Block und
  • x = Zahl der an der Rahmengrenze verworfenen Abtastwerte.
  • Fig. 10a zeigt für verschiedene Werte von x die Gestalt der modifizierten Synthesefensterfunktion, die nötig ist, um ein 256 Punkt O-TDAC Analyse-Synthese-System, in welchem eine KBD &alpha; = 6 Analysefensterfunktion angewandt wird, in ein Analyse-Synthese- System umzuwandeln, dessen Frequenzgang gleichwertig mit dem eines Systems ist, in welchem KBD &alpha; = 1 Analyse- und Synthesefensterfunktionen mit einem Rahmenüberlappungsintervall gleich 256 Abtastwerten benutzt wird. Kurven 361, 362, 363 und 364 sind abgewandelte Synthesefensterfunktionen für x = 8, 16, 24 bzw. 32 Abtastwerte.
  • Die Frequenzgänge von Synthesefilterbänken, in denen diese modifizierten Fensterfuniktionen angewandt werden, sind in Fig. 10b gezeigt. Kurven 372, 373 und 374 sind die Frequenzgänge für x = 8, 16 bzw. 24 Abtastwerte. Eine Kurve 371 ist der Frequenzgang einer Synthesefilterbank, die eine KBD-Fensterfunktion mit &alpha; = 1 benutzt. Wie aus dieser Figur entnommen werden kann, schwächt eine modifizierte Synthesefensterfunktion mit x = 16 Frequenzen oberhalb ca. 200 Hz in etwa dem gleichen Ausmaß ab wie es mit einer Synthesefilterbank unter Verwendung von KBD-Fensterfunktionen mit &alpha; = 1 erzielt wird. Anders ausgedrückt, wenn eine Synthesefilterbank, die x = 16 Abtastwerte verwirft, im Zusammenwirken mit einer Arralysefilterbank und einer &alpha; = 6 Analysefensterfunktion benutzt wird, kann ein Ende-zu-Ende Frequenzgang im Analyse-Synthese-System erzielt werden, der dem Ende-zu-Ende Frequenzgang eines Systems gleichwertig ist, welches &alpha; = 1 Analyse- und Synthesefensterfunktionen benutzt und kann gleichzeitig einen Synthesefilterbank-Frequenzgang bieten, der Frequenzen oberhalb etwa 200 Hz fast so stark schwächt wie eine Synthesefilterbank; die eine &alpha; = 1 Synthesefensterfunktion benutzt.
  • Systeme, die KBD-Fensterfunktionen mit niedrigeren Werten für &alpha; zum normalen Kodieren benutzen, erfordern insgesamt eine geringere Modifikation an der Synthesefensterfunktion und weniger zu verwerfende Abtastwerte am Ende des Rahmens. Die am Ende des Rahmens erforderlichen modifizierten Synthesefensterfunktionen sind ähnlich den in den Ausdrücken 5a bis 6c gezeigten Fensterfunktionen, mit Ausnahme einer Zeitumkehr.
  • Modulieren des Rahmenverstärkungsprofils
  • Das zweite Verfahren zum Modifizieren einer Synthesefensterfunktion vermeidet starke Zunahmen der Fensterfunktion WX dadurch, daß es dem Rahmenverstärkungsprofil erlaubt wird, vom idealen Pegel unmittelbar zu beiden Seiten einer Spleißstelle geringfügig abzuweichen. Durch Ändern der Abweichung im Verstärkungsprofil kann die Hörbarkeit der Abweichung eingetauscht werden gegen die Hörbarkeit spektralen Prasselns.
  • Mit diesem Verfahren wird die modifizierte Synthesefensterfunktion geglättet, so daß sie an oder in der Nähe der Rahmengrenze kleine Werte hat. Wenn das ordentlich gemacht wird, hat die erhaltene Synthesefensterfunktion einen akzeptablen Frequenzgang, und das Rahmenverstärkungsprofil weicht von der idealen KBD-Produktfensterfunktion an oder in der Nähe der Rahmengrenze ab, wo die Verstärkung verhältnismäßig gering ist. Die Schwächung spektralen Prasselns wird im Vergleich zu der von einer idealen Verstärkungsform mit Überblendung erzielten nur geringfügig verschlechtert.
  • Wenn zum Beispiel die Synthesefensterfunktion für die ersten drei Blöcke in einem Rahmen zum Erreichen eines gewünschten Frequenzganges modifiziert werden muß, sind die für den zweiten und dritten Block erforderlichen modifizierten Synthesefensterfunktionen WX insgesamt die gleichen wie oben in den Ausdrücken 6b und 6c für x = 0 gezeigt. Die oben im Ausdruck 6a gezeigte modifizierte Synthesefensterfunktion WX1 wird geglättet durch Multiplizieren Punkt für Punkt mit einer Glättungsfensterfunktion über die erste Hälfte der Glättungsfensterfunktionslänge. Die dabei erhaltene modifizierte Synthesefensterfunktion für den ersten Block ist die folgende:
  • worin WM(n) = die Glättungsfensterfunktion und
  • p = die Länge der Glättungsfensterfunktion, die mit < N angenommen wird.
  • Die am Ende eines Rahmens benötigte modifizierte Synthesefensterfunktion ist mit dieser Fensterfunktion mit Ausnahme einer Zeitumkehr identisch.
  • Die Glättungsfensterfunktion WM kann auf im wesentlichen irgendeiner Fensterfunktion beruhen; aber eine KBD-Glättungsfensterfunktion scheint gut zu funktionieren. Bei diesem Beispiel ist die Glättungsfensterfunktion eine KBD-Fensterfunktion einer Länge 128 mit a, = 6. In Fig. 11a veranschaulicht eine Kurve 381 die Gestalt der modifizierten Synthesefensterfunktion ohne Glättung, und eine Kurve 382 veranschaulicht die Gestalt der modifizierten Synthesefensterfunktion mit Glättung.
  • Der Frequenzgang für ein Analyse-Synthese-System, welches die geglättete modifizierte Fensterfunktion benutzt, ist in Fig. 11b gezeigt. Eine Kurve 391 gibt den Frequenzgang wieder, der aus der Anwendung der geglätteten modifizierten Fensterfunktion resultiert. Eine Kurve 341 gibt den Frequenzgang eines Analyse-Synthese-Systems wieder, welches KBD-Fensterfunktionen mit &alpha; = 1 benutzt, und eine Kurve 393 stellt eine Hüllkurve der Spitzen für den Frequenzgang dar, der entsteht, wenn linear abgeschrägte Fensterfunktionen mit Rahmenüberblendung von etwa 5 ms Dauer angewandt werden, wie oben erörtert und als Kurve 343 gezeigt. Wie aus dieser Figur hervorgeht, wird mit einer geglätteten modifizierten Synthesefensterfunktion ein Frequenzgang erreicht, der dem Frequenzgang ähnelt, der mittels eines Analyse-Synthese- Systems unter Nutzung von KBD-Fensterfunktionen mit &alpha; = 1 erreicht wird.
  • Hybride Modifikation der Analyse-Synthese-Fensterfunktion
  • Bei den oben erörterten Verfahren werden alle Änderungen des Rahmenverstärkungsprofils im Signalsyntheseprozeß vorgenommen. Als Alternative könnten im Analyseprozeß Filterbänke mit einem Frequenzgang für Blöcke an den Rahmengrenzen benutzt werden und eine andere Filterbank für Blöcke im Inneren. Die für Blöcke an den Rahmengrenzen benutzten Filterbänke könnten so ausgelegt sein, daß sie das Ausmaß der Modifikation verkleinern, die im Syntheseprozeß erforderlich ist, um eine ausreichende Schwächung von spektralem Prasseln an Spleißstellen zu erzielen.
  • Datensynchronisation
  • In Anwendungsfällen, bei denen sowohl Video- als auch Audioinformation verarbeitet wird, ist die Videorahmenlänge insgesamt nicht gleich der Audioblocklänge. Für die in den Tabellen III und IV gezeigten Normen sind Videorahmen und Audioblöcke selten synchronisiert. Anders ausgedrückt, eine Aufbereitung von Video/Audio-Information an einer Videorahmengrenze liegt wahrscheinlich nicht an einer Audioblockgrenze. Infolgedessen kann bei Blockkodiersystemen die vom restlichen Teilblock repräsentierte Audioinformation nicht ordnungsgemäß wiederhergestellt werden. Zwei Verfahren, die zum Lösen dieses Problems angewandt werden können, werden nachfolgend erörtert. Eine Darstellung des ersten Verfahrens wird als Einführung zu verschiedenen Merkmalen geboten, die für das zweite Verfahren gemäß der vorliegenden Erfindung von Belang sind.
  • Audioabtastfrequenzumwandlung
  • Mit einem ersten Verfahren wird ein eingegebenes Audiosignal, welches mit einer externen Frequenz empfangen wurde, in eine andere Frequenz umgewandelt, welche in der internen Verarbeitung des Kodiersystems benutzt wird. Die interne Frequenz ist so gewählt, daß für das interne Signal eine ausreichende Bandbreite geboten wird und eine zweckmäßige Anzahl von Abtastwerten innerhalb jedes Videorahmens gruppiert werden kann. Im Zeitpunkt, des Dekodierens oder der Wiedergabe wird das Ausgabesignal von der internen Frequenz auf eine externe Frequenz umgewandelt, die nicht der externen Frequenz des ursprünglich eingegebenen Audiosignals gleichen muß.
  • Tabelle V zeigt für verschiedene Videonormen die Videorahmenlänge, die Anzahl Audioabtastwerte bei 48 k Abtastungen pro Sekunde, die der Videorahmenlänge entsprechen, die interne Frequenz, die erforderlich ist, um diese Audioabtastwerte in eine Zielzahl Abtastwerte umzuwandeln, und die interne Audiorahmenlänge in Abtastwerten, wie nachfolgend erörtert. Die für jede Videonorm in Klammern angegebene Zahl ist die Videorahmenfrequenz in Hz. Für Videorahmenfrequenzen oberhalb 30 Hz ist die Zielzahl der Abtastwerte 896. Für Videorahmenfrequenzen, die nicht größer sind als 30 Hz, ist die Zielzahl der Abtastwerte 1792. Diese Ziellängen wurden zur Veranschaulichung gewählt; sie sind aber zweckmäßige Längen für viele Anwendungsfälle der Kodierung, weil sie in eine ganze Zahl von 256 Abtastwerteblöcken dividiert werden können, die einander um 128 Abtastwerte überlappen. Video- und Audiofrequenzen Tabelle V
  • In einem Anwendungsfall, bei dem zum Beispiel ein Audioeingabesignal bei 48 k Abtastwerten pro Sekunde und ein PAL Videosignal mit 25 Bildern pro Sekunde verarbeitet wird, könnte das Audioeingabesignal in ein internes Signal mit einer Frequenz von 44,8 k Abtastwerten pro Sekunde umgewandelt werden. Die internen Signalabtastwerte können zur Verarbeitung in internen Audiorahmen angeordnet werden. Bei dem in Tabelle V gezeigten Beispiel hat die interne Audiorahmenlänge 1920 Abtastwerte. Die interne Audiorahmenlänge entspricht bei diesen Beispielen nicht der Videorahmenlänge. Diese Ungleichheit beruht auf der Anzahl Abtastwerte, um die die Audioabtastwerte in dem einen Rahmen die Audioabtastwerte in einem anderen Rahmen überlappen.
  • Unter Hinweis auf das in Fig. 2c dargestellte Beispiel überlappen alle Rahmen einander um eine gewisse Anzahl von Abtastwerten. Diese Anzahl Abtastwerte bildet das Rahmenüberlappungsintervall. In vielen Anwendungsfällen gleicht das Rahmenüberlappungsintervall dem Überlappungsintervall zwischen einander benachbarten Audioblöcken innerhalb eines jeweiligen Rahmens. Die Anzahl Abtastwerte, die einer Videorahmenlänge gleicht, ist diejenige Anzahl Abtastwerte, die das Intervall vom Anfang eines Rahmens bis zum Anfang des nächsten Rahmens überbrückt. Dies ist gleich der internen Audiorahmenlänge minus der Anzahl Abtastwerte im Rahmenüberlappungsintervall.
  • In den oben erörterten und in Tabelle V gezeigten Beispielen ist die Anzahl Abtastwerte, die der Videorahmenlänge gleicht, entweder 1792 oder 896, je nach der Bildfolgefrequenz. Das Rahmenüberlappungsintervall beträgt 128 Abtastwerte. Für Bildfolgefrequenzen oberhalb 30 Hz umfaßt jeder interne Audiorahmen 1024 (896 + 128) Abtastwerte, die in 7 Blöcken zu 256 Abtastwerten angeordnet sein können, welche einander um 128 Abtastwerte überlappen. Für niedrigere Bildfolgefrequenzen umfaßt jeder interne Audiorahmen 1920 (1792 + 128) Abtastwerte, die in 14 Blöcken zu 256 Abtastwerten angeordnet sein können, welche einander um 128 Abtastwerte überlappen.
  • Bei Verwendung von Filterbänken, die an Rahmengrenzen keine Alias-Artefakte hervorrufen, wird das Rahmenüberlappungsintervall vorzugsweise auf 256 Abtastwerte erhöht, was die interne Rahmenlänge auf 11 52 (896 + 256) für Bildfolgefrequenzen oberhalb 30 Hz und auf 2048 (1792 + 256) für niedrigere Bildfolgefrequenzen erhöht.
  • Die zum Synchronisieren eines Audiosignals mit einer gewünschtem Bildfolgefrequenz erforderliche interne Abtastfrequenz gleicht dem Produkt dieser Bildfolgefrequenz und der Anzahl Abtastwerte, die der Videorahmenlänge gleicht. Das ist gleichwertig mit:
  • RI = RV·(LA - L0) (8)
  • worin RI = interne Abtastfrequenz
  • RV = Bildfolgefrequenz
  • LA = interne Audiorahmenlänge und
  • L0 = Rahmenüberlappungsintervall.
  • Fig. 12a zeigt ein Funktionsblockschaltbild einer Vorrichtung 400, in der Konvertieren 403 ein Audioeingabesignal, welches eine externe Abtastfrequenz hat, von einem Pfad 402 empfängt, das Audioeingabesignal in ein internes Signal umwandelt, welches eine interne Abtastfrequenz hat und in internen Audiorahmen angeordnet ist, die eine interne Audiorahmenlänge haben. Das interne Signal wird zu Kodieren 404 weitergeleitet. In Abhängigkeit, von dem internen Signal erzeugt Kodieren 404 längs eines Pfades 405 ein kodiertes Signal, welches in kodierten Audiorahmen angeordnet ist. Formatieren 406 empfängt Videoinformation, die in Rahmen angeordnet ist, von- einem Pfad 401 und setzt einen kodierten Audiorahmen mit jedem Videorahmen zusammen, um ein Ausgabesignal längs eines Pfades 407 zu erzeugen.
  • Fig. 12b zeigt ein Funktionsblockschaltbild einer Vorrichtung 410, in der Deformatieren 412 von einem Pfad 411 ein kodiertes Eingabesignal empfängt, welches in Rahmen angeordnet ist, die Videoinformation und kodierte Audioinformation aufweisen. Deformatieren 412 erhält aus dem kodierten Eingabesignal Videoinformation, die längs eines Pfades 413 weitergeleitet wird, und erhält aus dem kodierten Eingabesignal kodierte Audioinformation, die in kodierten Audiorahmen angeordnet ist, welche längs eines Pfades 414 weitergeleitet werden. Dekodieren 415 dekodiert die kodierte Audioinformation, um ein internes Signal zu erzeugen, welches eine interne Abtastfrequenz hat und in internen Audiorahmen angeordnet ist, welche die interne Audiorahmenlänge besitzen. Das interne Signal wird zu Konvertieren 416 weitergeleitet. Konvertieren 416 wandelt das interne Signal in ein Ausgabesignal um, welches eine externe Abtastfrequenz hat.
  • Es kann im wesentlichen jedes beliebige Verfahren zum Umwandeln der Abtastfrequenz angewandt werden. Verschiedene Überlegungen und Verwirklichungen zur Abtastfrequenzumwandlung wurden von Adams und Kwan offenbart in "Theory and VLSI Architectures for Asynchronous Sample Rate Converters," J. of Audio Engr. Soc., Juli 1993, Bd. 41, Nr. 7/8, 55. 539-555.
  • Dynamische Audiorahmenausrichtung.
  • Wenn keine Abtastfrequenzumwandlung angewandt wird, muß sich die Audiorahmenfrequenz mit der Bildfolgefrequenz ändern. Die interne Audiorahmenlänge kann auf eine zweckmäßige Länge gesetzt werden, beispielsweise ein ganzzahliges Vielfaches einer hinreichend großen Potenz von zwei, um die Blockverarbeitung, wie das Teilbandkodieren unter Zuhilfenahme von Transformationen zu erleichtern. Das Rahmenüberlappungsintervall wird dann so festgesetzt, daß es der Differenz zwischen der internen Audiorahmenlänge und der Anzahl der Abtastwerte entspricht, die genau einen Videorahmen übergreifen. Das läßt sich ausdrücken als
  • LO = LA - LV (9)
  • Worin LV = Videorahmenlänge, ausgedrückt in der Anzahl der Audioabtastwerte.
  • Leider ist dieses Verfahren, wie aus Tabelle V zu entnehmen ist, komplizierter für jene Anwendungsfälle, bei denen NTSC Video verarbeitet wird, weil die NTSC Videorahmenfrequenz kein ganzzahliges Vielfaches der Audioabtastfrequenz ist. Folglich ist die NTSC Rahmenlänge nicht gleich einer ganzen Zahl von Audioabtastwerten. Wie Tabelle IV zeigt, sind fünf Rahmen NTSC Video nötig, um eine Synchronisation mit 8008 Audioabtastwerten bei 48 k Abtastwerten pro Sekunde zu erzielen. Eine Gruppe aus fünf Rahmen wird hier als Superrahmen bezeichnet.
  • Die Anzahl Audioabtastwerte, die jedem Videorahmen in einem Superrahmen entsprechen, ist nicht konstant, sie schwankt. Es sind viele Anordnungen möglich, aber eine bevorzugte Anordnung für 29,97 Hz NTSC Video ist eine Sequenz aus fünf Rahmen, die 1602, 1601, 1602, 1601 bzw. 1602 Abtastwerten entsprechen. Für 59,94 Hz NTSC Video kann eine analoge Sequent verwendet werden, in der ein Paar Blöcke aus 801 Abtastwerten an die Stelle jedes 1602 Blockes treten und ein 801/800 Abtastwerteblockpaar jeden 1601 Block ersetzt. Die nachfolgenden Aussagen sind auf eine Lösung für Anwendungsfälle gerichtet, mit denen 29,97 Hz Videorahmen verarbeitet werden. Diese Ideen können auch auf andere Videorahmenfrequenzen angewandt werden.
  • Wie der Ausdruck 9 zeigt, muß ein Dekodierer imstande sein, die Videorahmenlänge Lu zu bestimmen, damit er die Länge des Überlappungsintervalls richtig feststellen kann. Wenn ein Dekodierer mit einer Spleißaufbereitung an einer Rahmengrenze konfrontiert wird, kann der auf die Spleißstelle folgende Rahmen eine von fünf möglichen Superrahmenausrichtungen darstellen.
  • Der Dekodierer wird also nicht in der Lage sein, die von den auf die Spleißstelle folgenden Blöcken repräsentierte Audioinformation wiederherzustellen, es sei denn, sie entsprechen der Superrahmenausrichtung, mit der der Dekodierer arbeitet. Dies kann mittels der folgenden dynamischen Audiorahmenausrichttechnik bewerkstelligt werden.
  • Gemäß dieser Technik empfängt in einer Vorrichtung 420, wie sie in Fig. 1 3a gezeigt ist, das Kodieren 423 Audioinformation von einem Pfad 422 und erzeugt kodierte Audioinformation, die in Superrahmen angeordnet ist, in denen jeder Rahmen durch ein Kennzeichen gekennzeichnet ist, welches für jeden Rahmen in einem jeweiligen Superrahmen einmalig ist. Die Superrahmen kodierter Audioinformation werden längs eines Pfades 425 weitergeleitet, und die Rahmenkennzeichen werden längs eines Pfades 424 weitergeleitet. Formatieren 426 empfängt Rahmen mit Videoinformation von einem Pfad 421 und setzt diese Videoinformation, die Rahmen kodierter Audioinformation und entsprechende Kennzeichen zu einem Ausgabesignal zusammen, welches längs eines Pfades 427 weitergeleitet wird.
  • In einer in Fig. 13b gezeigten Vorrichtung 430 empfängt Deformatieren 432 ein Eingabesignal von einem Pfad 431, erhält Rahmen mit Videoinformation, die längs eines Pfades 433 weitergeleitet werden, erhält Superrahmensequenzen kodierter Audioinformation, die längs eines Pfades 435 weitergeleitet werden, und erhält Kennzeichen für jeden Rahmen kodierter Audioinformation, die, längs eines Pfades 434 weitergeleitet werden. Verarbeiten 436 bestimmt einen Anfangsabtastwert und eine Rahmenfänge für jeden Rahmen kodierter Audioinformation in Abhängigkeit vom Kennzeichen, und Dekodieren 438 erzeugt längs eines Pfades 439 ein Ausgabesignal durch Dekodieren der Rahmen kodierter Audioinformation gemäß dem Anfangsabtastwert und der Rahmenlänge, wie durch Verarbeiten 436 bestimmt.
  • Bei einem bevorzugten Ausführungsbeispiel sind die Rahmen in jedem Superrahmen mit 0, 1, 2, 3 und 4 gekennzeichnet. Es sei angenommen, daß der Anfangsabtastwert im Rahmen 0 genau mit einer Rahmengrenze des Videosignals synchronisiert ist. Jeder Rahmen in einem Superrahmen wird mit der gleichen Struktur generiert, hat einen "frühen Abtastwert", einen "nominellen Anfangsabtastwert" und 1601 weitere Abtastwerte für insgesamt 1603 Abtastwerte. Bei dem bevorzugten Ausführungsbeispiel sind die Abtastwerte von 0 bis 1602 durchnumeriert, wobei der nominelle Anfangsabtastwert der Abtastwert der Nummer 1 ist. Folglich ist die Videorahmenlänge 1603. Wie oben erörtert, kann die interne Audiorahmenlänge aufgrund eines Rahmenüberlappungsintervalls größer sein. Eine zweckmäßige interne Audiorahmenlände hat 1792 Abtastwerte. Das Rahmenverstärkungsprofil wird entsprechend einer Videorahmenlänge von 1603 bestimmt. Für das gerade genannte Beispiel hat das Rahmenüberlappungsintervall 189 (1972 - 1603) Abtastwerte.
  • Die Vorrichtung 430 geht von der Vermutung einer beliebigen Superrahmenausrichtung aus und ändert die Ausrichtung jedes Audiorahmens dynamisch, so daß eine ordnungsgemäße Synchronisierung mit der Videoinformation erzielt wird. Die Ausrichtung wird geändert durch dynamische Auswahl des Anfangsabtastwertes und der Länge jedes Rahmens. Wie oben beschrieben, schwankt die Länge zwischen 1601 und 1602 Abtastwerten entsprechend dem 5- Rahmen Muster in einem Superrahmen. Der Effekt dieser dynamischen Ausrichtung ist darin zu sehen, daß unmittelbar auf eine Spleißstelle folgend die richtige Ausrichtung erzielt wird, welche die Synchronisation mit der begleitenden Videoinformation aufrechterhält.
  • Bei dem hier erörterten bevorzugten Ausführungsbeispiel kann die Anfangsabtastwertzahl und die Videorahmenlänge entsprechend dem folgenden Schlüssel aus einer Tabelle erhalten werden.
  • K = (FE - FD) modulo 5 (10)
  • worin K = Zugangsschlüssel zur Ausrichttabelle,
  • FE = Kodierrahmenkennzeichen und
  • FD = Dekodierrahmenkennzeichen.
  • Der Dekodierer erhält das Kodierrahmenkennzeichen aus dem kodierten Signal. Das Dekodierrahmenkennzeichen wird vom Dekodierer in einer Wiederholungssequenz von 0 bis 4 entsprechend der vom Dekodierer angenommenen Superrahmenausrichtung erzeugt.
  • Der Dekodierer erhält die richtige Rahmenanfangsabtastwertzahl und Videorahmenlänge aus Tabelle Vi unter Zuhilfenahme von K als Zugangsschlüssel zur Tabelle. Dynamische Audiorahmenausrichtung Tabelle VI
  • Ein Beispiel dynamischer Ausrichtung ist in Fig. 14 veranschaulicht. Bei diesem Beispiel beginnt ein Superrahmen mit dem Rahmen 453 und ist durch eine Spleißstelle im Anschluß an den Rahmen 455 unterbrochen. Der letzte Rahmen 456 in einem Superrahmen folgt der Spleißstelle, wobei ein neuer Superrahmen mit dem Rahmen 457 beginnt. Die ideale Länge der Audioinformation in jedem Rahmen ist in den Kästen der Reihe 450 gezeigt. Das Kodiererrahmenkennzeichen FE für jeden Rahmen, welches ein Kodierer erzeugt, ist in Reihe 461 gezeigt. Es sei noch darauf hingewiesen, daß Kennzeichen 0 dem ersten Rahmen in jedem Superrahmen entspricht. Das vom Dekodierer vermutete Dekodiererkennzeichen FD ist bei diesem Beispiel in Reihe 462 gezeigt. Die Differenz zwischen diesen beiden Kennzeichen, die gemäß Ausdruck 10 errechnet wird, bestimmt den Zugangsschlüssel zur Ausrichttabelle K, der in der Reihe 463 gezeigt ist. Reihe 464 zeigt die Anfangs- und Endabtastwertezahlen, wie anhand der Ausrichttabelle bestimmt. So bezeichnet zum Beispiel die Kennzeichnung 0-1601 einen Rahmen mit 1602 Abtastwerten, der am Abtastwert 0 beginnt und am Abtastwert 1601 endet.
  • In einem Rahmen 451 verarbeitet der Dekodierer einen Block, dessen Länge 1602 Abtastwerte beträgt. Dieser Rahmen ist um einen Abtastwert länger als die "ideale" Länge entsprechend der Kodierersuperrahmenausrichtung. Dementsprechend beginnt der Rahmen 452 um einen Abtastwert zu spät und ist um einen Abtastwert kürzer als die ideale Länge. Das hat zur Folge, daß der Rahmen 453 am Abtastwert der Nummer eins beginnt, also genau synchronisiert mit dem ersten Rahmen des Superrahmens. Die Ausrichtung der Rahmen 454 und 455 stimmt mit der idealen Ausrichtung überein.
  • Unmittelbar nach der Spleißstelle stimmt die Ausrichtung des Rahmens 456 mit der idealen Ausrichtung überein. Rahmen 457 beginnt am Abtastwert der Nummer eins, genau synchronisiert mit dem Beginn des nächsten Superrahmens. Die Länge des Rahmens 457 ist allerdings um einen Abtastwert kürzer als die ideale Länge, so daß der Rahmen 458 um einen Abtastwert zu früh beginnt und eine Länge hat, die um einen Abtastwert größer ist als die ideale Länge. Der Anfang des Rahmens 459 stimmt mit dem Ideal überein, ist aber um einen Abtastwert kürzer als das Ideal. Dementsprechend beginnt der Rahmen 460 um einen Abtastwert früher und ist um einen Abtastwert länger als das Ideal.
  • Wie dieses Beispiel zeigt, erzielt der Dekodierer eine exakte Synchronisierung mit dem Beginn jedes Superrahmens, gleichgültig welche Diskontinuitäten möglicherweise durch Spleißstellen hervorgerufen wurden.
  • Die Vorrichtung 430 wendet eine modifizierte Synthesefensterfunktion an, um das richtige Ende für Ende Rahmenverstärkungsprofil auf ähnliche Weise zu erlangen, wie oben im Zusammenhang mit den Ausdrücken 6a bis 6c erläutert. Die modifizierte Synthesefensterfunktion am Anfang jedes Rahmens wird entsprechend dem Ausdruck 6a bestimmt, wenn die Anzahl x der an der Rahmengrenze "verworfenen" Abtastwerte dem Versatz der Rahmenanfangsausrichtung gegenüber dem frühen Anfangsabtastwert gleicht. Für einen Rahmen, der zum Beispiel am Abtastwert 2 beginnt, ist x = 2. Die modifizierte Synthesefensterfunktion am Ende jedes Rahmens ist gleichfalls entsprechend dem Ausdruck 6a bestimmt, allerdings in zeitlich umgekehrter Weise.

Claims (16)

1. Signalverarbeitungsverfahren, aufweisend:
Empfangen eines ersten Eingabesignals, welches Eingabeabtastwerte aufweist, die Audioinformation mit einer Audioabtastfrequenz repräsentieren,
Empfangen eines zweiten Eingabesignals, welches Eingaberahmen aufweist, die Information mit einer Eingaberahmenfrequenz übermitteln und in Superrahmen gruppiert sind, von denen jeder Superrahmen eine Anzahl der Eingaberahmen entsprechend einer ersten Zahl aufweist, so daß die Audioabtastfrequenz, dividiert durch die Eingaberahmenfrequenz, keine ganze Zahl ist, sondern ein Produkt der Audioabtastfrequenz und der ersten Zahl, dividiert durch die Eingaberahmenfrequenz, im wesentlichen gleich einer ganzen Zahl ist,
Erzeugen einer Sequenz von Audiorahmen in Abhängigkeit von dem ersten Eindabesignal, von denen jeder Audiorahmen einem jeweiligen Eingaberahmen entspricht und kodierte Audioinformation enthält, die einer Sequenz der Eingabeabtastwerte entspricht, wobei die Sequenz aus dem ersten Eingabesignal genommen ist und einen frühen Anfangsabtastwert, einen nominellen Anfangsabtastwert und eine Anzahl nachfolgender Abtastwerte aufweist, die gleich dem ganzzahligen Teil eines Quotienten ist, wobei der Quotient gleich der Audioabtastfrequenz dividiert durch die Eingaberahmenfrequenz ist, und der frühe Anfangsabtastwert der erste Abtastwert in der Sequenz von Eingabeabtastwerten ist, und der nominelle Anfangsabtastwert im wesentlichen mit dem jeweiligen Eingaberahmen ausgerichtet ist, und
Erzeugen eines Ausgabesignals, welches in Ausgaberahmen angeordnet ist, die in Ausgabesuperrahmen gruppiert sind, von denen jeder Ausgabesuperrahmen eine Anzahl der Ausgaberahmen aufweist, die der ersten Zahl gleicht, ein jeweiliger Ausgaberahmen einen jeweiligen Audiorahmen und ein Kennzeichen für den jeweiligen Audiorahmen aufweist, wobei das Kennzeichen für jeden Audiorahmen in einem jeweiligen Ausgabesuperrahmen einmalig ist.
2. Verfahren nach Anspruch 1, bei dem die Audioabtastfrequenz 48 kHz ist, die Eingaberahmenfrequenz im wesentlichen gleich 29,97 Hz ist, die erste Zahl gleich fünf und die Anzahl nachfolgender Abtastwerte 1601 ist.
3. Verfahren nach Anspruch 1, bei dem die Audioabtastfrequenz 48 kHz ist, die Eingaberahmenfrequenz im wesentlichen gleich 59,94 Hz ist, die erste Zahl gleich fünf und die Anzahl nachfolgender Abtastwerte 800 ist.
4. Verfahren nach Anspruch 1, bei dem die Erzeugung der Audiorahmen das Anwenden einer Filterbank auf die Audioinformation aufweist.
5. Signalverarbeitungsverfahren, aufweisend:
Empfangen eines Eingabesignals, welches in Eingaberahmen angeordnet ist, die zu kompletten und partiellen Eingabesuperrahmen gruppiert sind, von denen jeder komplette Eingabesuperrahmen eine Anzahl der Eingaberahmen gleich einer ersten Zahl hat, die größer ist als eins, und jeder partielle Eingabesuperrahmen eine kleinere Anzahl der Eingaberahmen hat, von denen jeder Eingaberahmen einen Audiorahmen aufweist, der kodierte Audioinformation mit einer Eingaberahmenfrequenz und ein dem Audiorahmen zugeordnetes Kennzeichen repräsentiert, wobei das Kennzeichen für jeden Audiorahmen in einem jeweiligen kompletten oder partiellen Eingabesuperrahmen einmalig ist,
Ableiten von Sequenzen von Abtastwerten aus den Audiorahmen, wobei eine jeweilige Sequenz von Abtastwerten aus einem jeweiligen Audiorahmen abgeleitet ist und einen frühen Anfangsabtastwert, einen nominellen Anfangsabtastwert und eine Anzahl nachfolgender Abtastwerte aufweist, die gleich einer zweiten Zahl ist, wobei die Sequenz der Abtastwerte Audioinformation mit einer Audioabtastfrequenz repräsentiert und die zweite Zahl gleich dem ganzzahligen Teil eines Quotienten ist, wobei der Quotient gleich der Audioabtastfrequenz dividiert durch die Eingaberahmenfrequenz ist,
Erhalten einer jeweiligen Untersequenz von Abtastwerten aus jeder Sequenz von Abtastwerten, wobei in Abhängigkeit von dem dem Audiorahmen zugeordneten Kennzeichen, aus dem eine jeweilige Sequenz von Abtastwerten abgeleitet ist, die entsprechende Untersequenz eine dritte Anzahl von Abtastwerten aufweist, die kleiner ist als die Anzahl der Abtastwerte in der jeweiligen Sequenz und entweder bei dem frühen Anfangsabtastwert, dem nominellen Anfangsabtastwert oder dem auf den nominellen Anfangsabtastwert folgenden Abtastwert beginnt, wobei die dritte Zahl entweder gleich der zweiten Zahl oder eins plus der zweiten Zahl ist, und
Erzeugen eines Ausgabesignals aus einer Anordnung von Untersequenzen, bei denen der Anfang jeder Untersequenz und der Anfang der unmittelbar vorausgehenden Untersequenz durch die dritte Anzahl Abtastwerte der vorausgehenden Untersequenz voneinander getrennt sind.
6. Verfahren nach Anspruch 5, bei dem die Audioabtastfrequenz 48 kHz ist, die Eingaberahmenfrequenz im wesentlichen gleich 29,97 Hz ist, die erste Zahl gleich fünf und die Anzahl nachfolgender Abtastwerte 1601 ist.
7. Verfahren nach Anspruch 5, bei dem die Audioabtastfrequenz 48 kHz ist, die Eingaberahmenfrequenz im wesentlichen gleich 59,94 Hz ist, die erste Zahl gleich fünf und die Anzahl nachfolgender Abtastwerte 800 ist.
8. Verfahren nach Anspruch 5, bei dem die Ableitung der jeweiligen Sequenz von Abtastwerten das Anwenden einer Synthesefilterbank auf kodierte Audioinformation in dem jeweiligen Audiorahmen aufweist.
9. Signalverarbeitungsvorrichtung, aufweisend:
eine Einrichtung (423) zum Empfangen eines ersten Eingabesignals, welches Eingabeabtastwerte aufweist, die Audioinformation mit einer Audioabtastfrequenz repräsentieren,
eine Einrichtung (421) zum Empfangen eines zweiten Eingabesignals, welches Eingaberahmen aufweist, die Information mit einer Eingaberahmenfrequenz übermitteln und in Superrahmen gruppiert sind, von denen jeder Superrahmen eine Anzahl der Eingaberahmen entsprechend einer ersten Zahl aufweist, so daß die Audioabtastfrequenz, dividiert durch die Eingaberahmenfrequenz, keine ganze Zahl ist, sondern ein Produkt der Audioabtastfrequenz und der ersten Zahl, dividiert durch die Eingaberahmenfrequenz, im wesentlichen gleich einer ganzen Zahl ist,
eine Einrichtung (423) zum Erzeugen einer Sequenz von Audiorahmen in Abhängigkeit von dem ersten Eingabesignal, von denen jeder Audiorahmen einem jeweiligen Eingaberahmen entspricht und kodierte Audioinformation aufweist, die einer Sequenz der Eingabeabtastwerte entspricht, wobei die Sequenz aus dem ersten Eingabesignal genommen ist und einen frühen Anfangsabtastwert, einen nominellen Anfangsabtastwert und eine Anzahl nachfolgender Abtastwerte aufweist, die gleich dem ganzzahligen Teil eines Quotienten ist, wobei der Quotient gleich der Audioabtastfrequenz dividiert durch die Eingaberahmenfrequenz ist, wobei der frühe Anfangsabtastwert der erste Abtastwert in der Sequenz von Eingabeabtastwerten ist, und der nominelle Anfangsabtastwert im wesentlichen mit dem jeweiligen Eingaberahmen ausgerichtet ist, und
eine Einrichtung (426) zum Erzeugen eines Ausgabesignals, welches in Ausgaberahmen angeordnet ist, die in Ausgabesuperrahmen gruppiert sind, von denen jeder Ausgabesuperrahmen eine Anzahl der Ausgaberahmen aufweist, die der ersten Zahl gleicht, ein jeweiliger Ausgaberahmen einen jeweiligen Audiorahmen und ein Kennzeichen für den jeweiligen Audiorahmen aufweist, wobei das Kennzeichen für jeden Audiorahmen in einem jeweiligen Ausgabesuperrahmen einmalig ist.
10. Vorrichtung nach Anspruch 9, bei dem die Audioabtastfrequenz 48 kHz ist, die Eingaberahmenfrequenz im wesentlichen gleich 29,97 Hz ist, die erste Zahl gleich fünf und die Anzahl nachfolgender Abtastwerte 1601 ist.
11. Vorrichtung nach Anspruch 9, bei dem die Audioabtastfrequenz 48 kHz ist, die Eingaberahmenfrequenz im wesentlichen gleich 59,94 Hz ist, die erste Zahl gleich fünf und die Anzahl nachfolgender Abtastwerte 800 ist.
12. Vorrichtung nach Anspruch 9, bei dem das Erzeugen von Audiorahmen das Anwenden einer Filterbank auf die Audioinformation aufweist.
13. Signalverarbeitungsvorrichtung, aufweisend:
eine Einrichtung (432) zum Empfangen eines Eingabesignals, welches in Eingaberahmen angeordnet ist, die zu kompletten und partiellen Eingabesuperrahmen gruppiert sind, von denen jeder komplette Eingabesuperrahmen eine Anzahl der Eingaberahmen gleich einer ersten Zahl hat, die größer ist als eins, und jeder partielle Eingabesuperrahmen eine kleinere Anzahl der Eingaberahmen hat, von denen jeder Eingaberahmen einen Audiorahmen aufweist, der kodierte Audioinformation mit einer Eingaberahmenfrequenz und ein dem Audiorahmen zugeordnetes Kennzeichen repräsentiert, wobei das Kennzeichen für jeden Audiorahmen in einem jeweiligen kompletten oder partiellen Eingabesuperrahmen einmalig ist,
eine Einrichtung (436) zum Empfangen von Sequenzen von Abtastwerten aus den Audiorahmen, wobei eine jeweilige Sequenz von Abtastwerten aus einem jeweiligen Audiorahmen abgeleitet ist und einen frühen Anfangsabtastwert, einen nominellen Anfangsabtastwert und eine Anzahl nachfolgender Abtastwerte aufweist, die gleich einer zweiten Zahl ist, wobei die Sequenz der Abtastwerte Audioinformation mit einer Audioabtastfrequenz repräsentiert und die zweite Zahl gleich dem ganzzahligen Teil eines Quotienten ist, wobei der Quotient gleich der Audioabtastfrequenz dividiert durch die Eingaberahmenfrequenz ist,
eine Einrichtung (436) zum Erhalten einer jeweiligen Untersequenz von Abtastwerten aus jeder Sequenz von Abtastwerten, wobei in Abhängigkeit von dem dem Audiorahmen zugeordneten Kennzeichen, aus dem eine jeweilige Sequenz von Abtastwerten abgeleitet ist, die entsprechende Untersequenz eine dritte Anzahl von Abtastwerten aufweist, die kleiner ist als die Anzahl der Abtastwerte in der jeweiligen Sequenz und entweder bei dem frühen Anfangsabtastwert, dem nominellen Anfangsabtastwert oder dem auf den nominellen Anfangsabtastwert folgenden Abtastwert beginnt, wobei die dritte Zahl entweder gleich der zweiten Zahl oder eins plus der zweiten Zahl ist, und
eine Einrichtung (438) zum Erzeugen eines Ausgabesignals aus einer Anordnung von Untersequenzen, bei denen der Anfang jeder Untersequenz und der Anfang der unmittelbar vorausgehenden Untersequenz durch die dritte Anzahl Abtastwerte der vorausgehenden Untersequenz voneinander getrennt sind.
14. Vorrichtung nach Anspruch 13, bei der die Audioabtastfrequenz 48 kHz ist, die Eingaberahmenfrequenz im wesentlichen gleich 29,97 Hz ist, die erste Zahl gleich fünf und die Anzahl nachfolgender Abtastwerte 1 ä01 ist.
15. Vorrichtung nach Anspruch 13, bei dem die Audioabtastfrequenz 48 kHz ist, die Eingaberahmenfrequenz im wesentlichen gleich 59,94 Hz ist, die erste Zahl gleich fünf und die Anzahl nachfolgender Abtastwerte 800 ist.
16. Vorrichtung nach Anspruch 13, bei dem die Einrichtung zum Ableiten von Sequenzen eine Einrichtung zum Anwenden einer Synthesefilterbank auf kodierte Audioinformation in dem jeweiligen Audiorahmen aufweist.
DE69802957T 1997-10-17 1998-10-15 Rahmenbasierte audiokodierung mit video/audio-datensynchronisierung durch dynamische audiorahmensynchronisierung Expired - Lifetime DE69802957T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/953,618 US6124895A (en) 1997-10-17 1997-10-17 Frame-based audio coding with video/audio data synchronization by dynamic audio frame alignment
PCT/US1998/021761 WO1999021188A1 (en) 1997-10-17 1998-10-15 Frame-based audio coding with video/audio data synchronization by dynamic audio frame alignment

Publications (2)

Publication Number Publication Date
DE69802957D1 DE69802957D1 (de) 2002-01-24
DE69802957T2 true DE69802957T2 (de) 2002-06-20

Family

ID=25494275

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69802957T Expired - Lifetime DE69802957T2 (de) 1997-10-17 1998-10-15 Rahmenbasierte audiokodierung mit video/audio-datensynchronisierung durch dynamische audiorahmensynchronisierung

Country Status (11)

Country Link
US (1) US6124895A (de)
EP (1) EP1023728B1 (de)
JP (1) JP4126681B2 (de)
KR (1) KR100621424B1 (de)
AT (1) ATE210879T1 (de)
AU (1) AU746718B2 (de)
CA (1) CA2305544C (de)
DE (1) DE69802957T2 (de)
DK (1) DK1023728T3 (de)
ES (1) ES2165195T3 (de)
WO (1) WO1999021188A1 (de)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3450662B2 (ja) * 1997-08-14 2003-09-29 パイオニア株式会社 情報記録媒体、その再生装置及び方法並びにその記録装置及び方法
US6226608B1 (en) * 1999-01-28 2001-05-01 Dolby Laboratories Licensing Corporation Data framing for adaptive-block-length coding system
WO2001006779A1 (en) * 1999-07-16 2001-01-25 Koninklijke Philips Electronics N.V. Recording and editing of a/v streams
US6829012B2 (en) * 1999-12-23 2004-12-07 Dfr2000, Inc. Method and apparatus for a digital parallel processor for film conversion
EP1215663A1 (de) * 2000-12-15 2002-06-19 BRITISH TELECOMMUNICATIONS public limited company Kodierung von Audiosignalen
US6834058B1 (en) 2000-12-29 2004-12-21 Cisco Systems O.I.A. (1988) Ltd. Synchronization and alignment of multiple variable length cell streams
SE0202159D0 (sv) 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
EP1423847B1 (de) 2001-11-29 2005-02-02 Coding Technologies AB Wiederherstellung von hochfrequenzkomponenten
JP4467984B2 (ja) * 2002-01-18 2010-05-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオのコード化
US7212247B2 (en) * 2002-01-31 2007-05-01 Thomson Licensing Audio/video system providing variable delay
AU2006235813B2 (en) * 2002-09-18 2009-03-12 Dolby International Ab Method for reduction of aliasing introduced by spectral envelope adjustment in real-valued filterbanks
SE0202770D0 (sv) 2002-09-18 2002-09-18 Coding Technologies Sweden Ab Method for reduction of aliasing introduces by spectral envelope adjustment in real-valued filterbanks
US7330812B2 (en) * 2002-10-04 2008-02-12 National Research Council Of Canada Method and apparatus for transmitting an audio stream having additional payload in a hidden sub-channel
US7908306B1 (en) 2003-03-21 2011-03-15 D2Audio Corp SRC with multiple sets of filter coefficients in memory and a high order coefficient interpolator
US7474722B1 (en) * 2003-03-21 2009-01-06 D2Audio Corporation Systems and methods for sample rate conversion using multiple rate estimate counters
US7738613B1 (en) 2003-03-21 2010-06-15 D2Audio Corporation Streaming multi-channel audio as packetized data or parallel data with a separate input frame sync
US7929718B1 (en) 2003-05-12 2011-04-19 D2Audio Corporation Systems and methods for switching and mixing signals in a multi-channel amplifier
US7292902B2 (en) * 2003-11-12 2007-11-06 Dolby Laboratories Licensing Corporation Frame-based audio transmission/storage with overlap to facilitate smooth crossfading
MXPA06013210A (es) 2004-05-13 2007-02-28 Qualcomm Inc Suministro de informacion en un canal de comunicacion.
US7526085B1 (en) * 2004-07-13 2009-04-28 Advanced Micro Devices, Inc. Throughput and latency of inbound and outbound IPsec processing
US7996699B2 (en) * 2005-04-11 2011-08-09 Graphics Properties Holdings, Inc. System and method for synchronizing multiple media devices
US7830921B2 (en) * 2005-07-11 2010-11-09 Lg Electronics Inc. Apparatus and method of encoding and decoding audio signal
JP4442548B2 (ja) 2005-11-09 2010-03-31 トヨタ自動車株式会社 ルーフヘッダ構造
JP5093514B2 (ja) * 2006-07-07 2012-12-12 日本電気株式会社 オーディオ符号化装置、オーディオ符号化方法およびそのプログラム
US8805678B2 (en) * 2006-11-09 2014-08-12 Broadcom Corporation Method and system for asynchronous pipeline architecture for multiple independent dual/stereo channel PCM processing
TWI675367B (zh) 2009-05-27 2019-10-21 瑞典商杜比國際公司 從訊號的低頻成份產生該訊號之高頻成份的系統與方法,及其機上盒、電腦程式產品、軟體程式及儲存媒體
US11657788B2 (en) 2009-05-27 2023-05-23 Dolby International Ab Efficient combined harmonic transposition
US8174761B2 (en) * 2009-06-10 2012-05-08 Universitat Heidelberg Total internal reflection interferometer with laterally structured illumination
EP2553928A4 (de) * 2010-03-26 2014-06-25 Agency Science Tech & Res Verfahren und vorrichtungen zur bereitstellung eines kodierten digitalsignals
US9942593B2 (en) * 2011-02-10 2018-04-10 Intel Corporation Producing decoded audio at graphics engine of host processing platform
US8712076B2 (en) 2012-02-08 2014-04-29 Dolby Laboratories Licensing Corporation Post-processing including median filtering of noise suppression gains
US9173025B2 (en) 2012-02-08 2015-10-27 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals
US9125054B2 (en) * 2012-03-23 2015-09-01 Broadcom Corporation Configurable integrated radio processor
US20160006946A1 (en) * 2013-01-24 2016-01-07 Telesofia Medical Ltd. System and method for flexible video construction
TWI557727B (zh) 2013-04-05 2016-11-11 杜比國際公司 音訊處理系統、多媒體處理系統、處理音訊位元流的方法以及電腦程式產品
ES2693559T3 (es) * 2013-08-23 2018-12-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y procedimiento para procesar una señal de audio mediante una señal de error de aliasing
JP6707556B2 (ja) 2015-03-09 2020-06-10 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ フラグメント整列されたオーディオ・コーディング
TWI594231B (zh) * 2016-12-23 2017-08-01 瑞軒科技股份有限公司 分頻壓縮電路,音訊處理方法以及音訊處理系統

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0158055A1 (de) * 1984-03-06 1985-10-16 WILLI STUDER AG Fabrik für elektronische Apparate Verfahren zur Ueberblendung digitaler Audiosignale, sowie Vorrichtung zur Durchfahrung des Verfahrens
JPS60212874A (ja) * 1984-04-09 1985-10-25 Matsushita Electric Ind Co Ltd デイジタル信号記録再生装置
US4903148A (en) * 1986-04-02 1990-02-20 Matsushita Electric Industrial Co., Ltd. Digital signal editing apparatus
US4963967A (en) * 1989-03-10 1990-10-16 Tektronix, Inc. Timing audio and video signals with coincidental markers
JPH0654222A (ja) * 1992-07-28 1994-02-25 Sony Corp 同期装置
US5351092A (en) * 1993-07-23 1994-09-27 The Grass Valley Group, Inc. Synchronization of digital audio with digital video
US5483538A (en) * 1994-05-25 1996-01-09 The Grass Valley Group, Inc. Audio frame synchronization for embedded audio demultiplexers
US5603016A (en) * 1994-08-03 1997-02-11 Intel Corporation Method for synchronizing playback of an audio track to a video track
JP3603381B2 (ja) * 1995-04-07 2004-12-22 ソニー株式会社 圧縮データ編集装置および圧縮データ編集方法
EP0829875B1 (de) * 1995-05-31 2002-09-18 Sony Corporation Verfahren und vorrichtung zur kodierung von audiosignalen und verfahren und vorrichtung zur dekodierung von audiosignalen
GB2311918B (en) * 1996-04-02 2000-11-01 Sony Uk Ltd Audio signal processor

Also Published As

Publication number Publication date
AU746718B2 (en) 2002-05-02
KR20010024531A (ko) 2001-03-26
KR100621424B1 (ko) 2006-09-13
EP1023728B1 (de) 2001-12-12
DK1023728T3 (da) 2002-03-25
CA2305544C (en) 2005-12-20
ATE210879T1 (de) 2001-12-15
JP2001521309A (ja) 2001-11-06
DE69802957D1 (de) 2002-01-24
JP4126681B2 (ja) 2008-07-30
EP1023728A1 (de) 2000-08-02
ES2165195T3 (es) 2002-03-01
AU1088199A (en) 1999-05-10
CA2305544A1 (en) 1999-04-29
US6124895A (en) 2000-09-26
WO1999021188A1 (en) 1999-04-29

Similar Documents

Publication Publication Date Title
DE69802957T2 (de) Rahmenbasierte audiokodierung mit video/audio-datensynchronisierung durch dynamische audiorahmensynchronisierung
DE69803402T2 (de) Rahmenbasierte audiokodierung mit zusätzlicher filterbank zur unterdrückung von alias-störungen an rahmengrenzen
DE69802959T2 (de) Rahmenbasierte audiokodierung mit zusätzlichen filterbänken zur unterdrückung von spektralen verzerrungen an rahmengrenzen
DE69800717T2 (de) Kodierung von tonrastern mit verstärkungregelungswörtern
DE69802958T2 (de) Rahmenbasierte audiokodierung mit video/audio-datensynchronisierung durch abtastratenumsetzung
DE60000412T2 (de) Datenrahmen strukturierung für adaptive blocklängenkodierung
DE69107841T2 (de) Transformationskodierer und -dekodierer mit adaptiver blocklänge, adaptiver transformation und adaptivem fenster für hochwertige tonsignale.
DE60117471T2 (de) Breitband-signalübertragungssystem
DE69028847T2 (de) Digitale fernsehnormumwandlung
EP0414838B2 (de) Verfahren zur übertragung eines signals
EP0494918A1 (de) Verfahren zur übertragung eines signals.
EP0494990A1 (de) Verfahren zur übertragung eines signals.
DE19639000A1 (de) Toncodier- und Tondecodiervorrichtung
DE69723412T2 (de) Codierung einer vielzahl von datensignalen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition