DE69629485T2

DE69629485T2 - Kompressionsystem für sich wiederholende töne

Info

Publication number: DE69629485T2
Application number: DE69629485T
Authority: DE
Inventors: Alfred Yu
Original assignee: America Online Inc
Current assignee: Historic AOL LLC
Priority date: 1995-10-20
Filing date: 1996-10-21
Publication date: 2004-06-09
Anticipated expiration: 2016-10-22
Also published as: AU727706B2; AU7453696A; DE69629485D1; EP0856185A1; WO1997015046A1; BR9611050A; EP0856185B1; EP0856185A4; US6424941B1; JPH11513813A; US6243674B1

Description

Die Erfindung lehrt ein System zum Komprimieren von quasiperiodischen Tonfolgen (sound), indem diese mit vorher erhaltenen Abschnitten in einem Codebuch verglichen werden.
Hintergrund und Zusammenfassung
Viele Tonkompressionsschemata ziehen Nutzen aus der wiederholenden Art alltäglicher Töne oder Laute (sound). Beispielsweise wird die Standardcodiervorrichtung für die menschliche Stimme oder "Vocoder" häufig zum Komprimieren und Codieren von menschlichen Stimmtönen verwendet. Ein Vocoder ist eine Klasse von Stimmcodierern/Decodierern, die den menschlichen Vokaltrakt (vocal tract) modellieren.
Ein typischer Vocoder modelliert den eingegebenen Ton als zwei Teile: den als V bekannten stimmhaften Ton und den als U bekannten stimmlosen Ton. Der Kanal, durch den diese Signale geführt werden, wird als ein verlustloser Zylinder modelliert. Die ausgegebene Sprache wird basierend auf diesem Modell komprimiert.
Genauer gesagt ist Sprache nicht periodisch. Der stimmhafte Teil der Sprache wird jedoch häufig als quasiperiodisch aufgrund seiner Tonhöhenfrequenz (pitch frequency) gekennzeichnet. Die während des stimmlosen Bereichs erzeugten Töne sind stark zufällig. Sprache wird immer als nicht stationär und stochastisch bezeichnet. Bestimmte Teile der Sprache können Redundanz aufweisen und sind möglicherweise mit einem vorherigen Teil der Sprache bis zu einem gewissen Ausmaß korreliert, wobei sie jedoch nicht einfach wiederholt werden.
Das Hauptziel des Verwendens eines Vocoders besteht darin, Wege zu finden, die Quelle zu komprimieren, im Gegensatz zum Durchführen einer Komprimierung des Ergebnisses. Die Quelle ist in diesem Fall die durch glottale Impulse gebildete Anregung. Das Ergebnis ist die menschliche Sprache, die wir hören. Es gibt jedoch viele Wege, in denen der menschliche Vokaltrakt die glottalen Impulse modulieren kann, um eine menschliche Stimme zu bilden. Schätzungen der glottalen Impulse werden vorhergesagt und dann codiert. Ein derartiges Modell verringert den dynamischen Bereich der resultierenden Sprache, womit die Sprache komprimierbarer wird.
Allgemein gesagt kann die besondere Art der Sprachfilterungen Sprachteile entfernen, die von dem menschlichen Ohr nicht wahrgenommen werden. Wenn das Vocoder-Modell an Ort und Stelle ist, kann ein Restteil der Sprache aufgrund seines niedrigeren dynamischen Bereichs komprimierbar gemacht werden.
Der Begriff "Rest" umfasst mehrere Bedeutungen. Er bezieht sich im Allgemeinen auf die Ausgabe des Analysefilters, dem Inversen des Synthesefilters, das den Vokaltrakt modelliert. Bei der vorliegenden Situation nimmt der Rest mehrere Bedeutungen bei unterschiedlichen Stufen an: Bei Stufe 1 – nach dem inversen Filter (Nur-Null-Filter); Stufe 2: nach dem Langzeittonhöhen-Prädiktor oder der sogenannten adaptiven Tonhöhen-VQ, Stufe 3: nach dem Tonhöhen-Codebuch und bei Stufe 4: nach dem Rausch-Codebuch. Der Begriff "Rest", wie er hier verwendet wird, bezieht sich wörtlich auf den verbleibenden Abschnitt des Sprachnebenprodukts, das aus den vorhergehenden Verarbeitungsstufen resultiert.
Die vorverarbeitete Sprache wird dann codiert. Ein typischer Vocoder verwendet eine 8-kHz-Abtastrate mit 16 Bits pro Abtastung. Es ist jedoch nichts "Magisches" an diesen Zahlen – sie basieren auf der Bandbreite von Telefonleitungen.
Die abgetastete Information wird von einem Sprach-Codec weiter verarbeitet, der ein 8-kHz-Signal ausgibt. Dieses Signal kann nachverarbeitet werden, was das Gegenteil der Eingabeverarbeitung sein kann. Eine weitere zusätzliche Verarbeitung, die ausgestaltet ist, um die Qualität und den Charakter des Signals weiter zu verbessern, kann verwendet werden.
Die Rauschunterdrückung modelliert ebenfalls die Art und Weise, mit der Menschen Töne wahrnehmen. Unterschiedliche Gewichtungen werden sowohl im Frequenz- als auch im Zeitbereich zu unterschiedlichen Zeiten gemäß der Stärke der Sprache verwendet. Die Überlagerungs- oder Maskierungseigenschaften des menschlichen Gehörs veranlassen, dass laute Signale bei verschiedenen Frequenzen die Wirkung von Signalen mit niedrigeren Pegeln um diese Frequenzen überlagern bzw. maskieren. Dies trifft ebenfalls beim Zeitbereich zu. Das Ergebnis besteht darin, dass mehr Rauschen während dieses Abschnitts der Zeit und Frequenz toleriert werden kann. Dies ermöglicht uns, mehr Aufmerksamkeit anderswohin zu richten. Dies wird eine "wahrnehmbare Gewichtung" genannt – sie ermöglicht uns, Vektoren auszusuchen, die wahrnehmbar wirksamer sind.
Der menschliche Vokaltrakt kann (und wird) von einem Satz verlustloser Zylinder mit veränderlichen Durchmessern modelliert. Typischerweise wird er durch ein Allpolfilter 1/A(Z) der 8-ten bis 12-ten Ordnung modelliert. Sein inverses Gegenstück A(Z) ist ein Nur-Null-Filter mit der gleichen Größenordnung. Die Ausgangssprache wird durch Anregen des Synthesefilters 1/A(Z) mit der Anregung wiedergegeben. Die Anregung oder glottalen Impulse werden durch inverse Filterung des Sprachsignals mit dem inversen Filter A(Z) geschätzt. Ein digitaler Signalprozessor modelliert häufig das Synthesefilter als die Überlagerungs- oder Transferfunktion H(V) = 1/A(Z). Dies bedeutet, dass dieses Modell ein Allpolverfahren ist. Idealerweise ist das Modell komplizierter und umfasst sowohl Pole als auch Nullen.
Viel der Komprimierbarkeit der Sprache kommt von ihrer Quasi-Periodizität. Sprache ist aufgrund ihrer Tonhöhenfrequenz (pitch frequency) um den Stimmton (voice sound) quasiperiodisch. Die männliche Sprache weist gewöhnlicherweise einen Pitch zwischen 50 und 100 Hz auf. Die weibliche Sprache weist gewöhnlicherweise einen Pitch über 100 Hz auf.
Während vorangehend Kompressionssysteme zur Stimmcodierung beschrieben sind, werden die gleichen allgemeinen Prinzipien verwendet, um andere ähnliche Arten von Tönen zu codieren und zu komprimieren.
Verschiedene Techniken sind zum Verbessern des Modells bekannt. Jede dieser Techniken erhöht jedoch die notwendige Bandbreite, um das Signal zu transportieren. Dies erzeugt einen Zeitkonflikt zwischen der Bandbreite des komprimierten Signals und der Qualität des nicht stationären Tons.
Diese Probleme werden erfindungsgemäß durch neue Merkmale überwunden.
Die WO 93/05502 beschreibt ein Sprachkomprimierungssystem, bei dem nur eine Untermenge von Datenbits zur Übertragung, z. B. die für einen bestimmten codierten Stimmmodus am bedeutendsten Bits, mit der Fehlerkorrekturcodierung geschützt werden. Andere Bits, die für den besonderen Stimmmodus als nicht bedeutsam angesehen werden, sind keiner Fehlersteuercodierung unterworfen.
Die Erfindung liefert ein Tonkompressionssystem und ein Verfahren zum Codieren von Tönen gemäß den begleitenden Ansprüchen.
Kurzbeschreibung der Zeichnungen
Diese und weitere Aspekte der Erfindung werden nun mit Bezug auf die beigefügten Zeichnungen beschrieben, in denen zeigen:
1 ein Blockdiagramm des fundamentalen Vocoders der Erfindung; und
2 die fortgeschrittene Codebuch-Technik der Erfindung.
Beschreibung der bevorzugten Ausführungsformen
1 zeigt den fortgeschrittenen Vocoder der Erfindung. Der aktuelle Sprach-Codec verwendet eine besondere Klasse von Vocodern, die basierend auf LPC (linearer prädiktiver Codierung) arbeiten. Alle zukünftigen Abtastungen werden durch eine lineare Kombination von vorhergehenden Abtastungen und der Differenz zwischen vorhergesagten Abtastungen und tatsächlichen Abtastungen vorhergesagt. Wie es oben beschrieben ist, wird dies nach einem verlustlosen Rohr modelliert, das auch als ein Allpolmodell bekannt ist. Das Modell zeigt eine hinreichend kurzfristige Sprachvorhersage.
Das obige Diagramm stellt ein derartiges Modell dar, wobei die Eingabe in das verlustlose Rohr als eine Anregung definiert wird, die weiter als eine Kombination von periodischen Impulsen und Zufallsrauschen modelliert wird.
Ein Nachteil des obigen Modells besteht darin, dass sich der Vokaltrakt nicht genau wie ein Zylinder verhält und nicht verlustlos ist. Der menschliche Vokaltrakt weist auch Seitendurchgänge, wie beispielsweise die Nase, auf.
Zu codierende Sprache 100 wird in einen Analyseblock 102 eingegeben, der den Inhalt der Sprache analysiert, wie es hier beschrieben ist. Der Analyseblock erzeugt einen kurzfristigen Rest zusammen mit weiteren Parametern.
Die Analyse bezieht sich in diesem Fall auf die LPC-Analyse, wie es oben in unserem verlustlosen Rohrmodell dargestellt ist, das beispielsweise eine Berechnung des "Windowing", eine Autokorrelation, eine Durbin'sche Rekursion enthält, und die Berechnung prädiktiver Koeffizienten wird durchgeführt. Außerdem wird eine Filterung ankommender Sprache mit dem Analysefilter basierend auf den berechneten prädiktiven Koeffizienten den Rest, nämlich den kurzfristigen Rest STA_res 104, erzeugen.
Dieser kurzfristige Rest 104 wird durch das Codierverfahren 110 weiter codiert, um Codes oder Symbole 120 auszugeben, die die komprimierte Sprache angeben. Das Codieren dieser bevorzugten Ausführungsform beinhaltet die Durchführung von drei Codebuch-Suchvorgängen, um das gewichtete Signal des wahrnehmbaren Fehlers zu minimieren. Dieses Verfahren wird auf eine kaskadenartige Art und Weise durchgeführt, so dass die Codebuch-Suchvorgänge nacheinander durchgeführt werden.
Die aktuell verwendeten Codebücher sind alle Formverstärkungs-VQ-Codebücher. Das wahrnehmbare gewichtete Filter wird adaptiv mittels der prädiktiven Koeffizienten aus dem aktuellen Sub-Frame erzeugt. Die Filtereingabe ist die Differenz zwischen dem Rest der vorhergehenden Stufe und dem Formverstärkungsvektor der aktuellen Stufe, der ebenfalls Rest genannt wird, der für die nächste Stufe verwendet wird. Die Ausgabe dieses Filters ist das gewichtete Signals des wahrnehmbaren Filters. Dieser Vorgang wird ausführlicher mit Bezug auf 2 gezeigt und erläutert. Ein wahrnehmbarer gewichteter Fehler von jeder Stufe wird als ein Ziel für das Suchen in der nächsten Stufe verwendet.
Die komprimierte Sprache oder einer ihrer Abtastwerte 122 wird ebenfalls zu einem Synthesizer 126 zurückgeführt, der rekonstruierten Originalblock 124 neu bildet. Die Synthesestufe decodiert die Linearkombination der Vektoren, um einen Rekonstruktionsrest zu bilden, wobei das Ergebnis verwendet wird, um den Zustand des nächsten Suchvorgangs im nächsten Sub-Frame zu initialisieren.
Ein Vergleich des ursprünglichen mit dem rekonstruierten Ton führt zu einem Fehlersignal, das nachfolgende Codebuchsuchvorgänge treiben wird, um derartige wahrnehmbare gewichtete Fehler weiter zu minimieren. Das Ziel des nachfolgenden Codierers besteht darin, diesen Rest sehr wirksam zu codieren.
Der erneut gebildete Block 126 gibt an, was an dem Empfangsende empfangen werden würde. Die Differenz zwischen der eingegebenen Sprache 100 und der erneut gebildeten Sprache 126 stellt somit ein Fehlersignal 132 dar.
Dieses Fehlersignal wird durch ein Gewichtungsblock 134 nach der Wahrnehmbarkeit gewichtet. Die Wahrnehmungs-Gewichtung gemäß der Erfindung wichtet das Signal unter Verwendung eines Modells dessen, was von dem menschlichen Ohr gehört werden würde. Das wahrnehmbare gewichtete Signal 136 wird dann heuristisch durch einen heuristischen Prozessor 140 verarbeitet, wie es hier beschrieben ist. Heuristische Suchtechniken werden verwendet, die aus der Tatsache Nutzen ziehen, dass einige Codebuchsuchvorgänge unnötig sind und als Ergebnis eliminiert werden können. Die eliminierten Codebücher sind typischerweise Codebücher unten an der Suchkette. Dieses eindeutige Verfahren eines dynamischen und adaptiven Durchführens einer derartigen Eliminierung wird hier beschrieben.
Das Auswahlkriterium basiert primär auf der Korrelation zwischen dem Rest von einer vorhergehenden Stufe als Funktion der aktuellen Stufe aufgebaut. Wenn sie sehr gut korreliert sind, bedeutet dies, dass die Formverstärkungs-VQ sehr wenig zu dem Verfahren beiträgt und somit eliminiert werden kann. Wenn sie andererseits nicht sehr gut korrelieren, ist der Beitrag von dem Codebuch bedeutsam, wobei folglich der Index behalten und verwendet werden sollte.
Weitere Techniken, wie beispielsweise das Anhalten des Suchvorgangs, wenn eine adaptive vorbestimmte Fehlerschwelle erreicht wurde, und asymptotische Suchvorgänge sind Mittel zum Beschleunigen des Suchverfahrens und zum Abschließen mit einem suboptimalen Ergebnis. Das heuristisch verarbeitete Signal 138 wird als eine Steuerung für das Codierverfahren 110 verwendet, um die Codiertechnik weiter zu verbessern.
Diese allgemeine Art der Filterverarbeitung ist in der Technik bekannt, und es ist zu verstehen, dass die Erfindung Verbesserungen an den bekannten Filtersystemen umfasst.
Die erfindungsgemäße Codierung verwendet die in 2 gezeigten Codebuchtypen und Architektur. Diese Codierung umfasst drei getrennte Codebücher: das adaptive Vektorquantisierungs-Codebuch (VQ-Codebuch) 200, das Real-Tonhöhen-Codebuch 202 und das Rausch-Codebuch 204. Die neue Information oder Rest 104 wird als ein Rest verwendet, um von dem Codevektor des nachfolgenden Blocks abzuziehen. ZSR (Zero state response) ist eine Reaktion bei Null-Eingabe. Die ZSR ist eine Reaktion, die erzeugt wird, wenn der Codevektor aus nur Nullen besteht. Da das Sprachfilter und weitere zugeordnete Filter IIR-Filter (infinite impulse response filter) sind, wird das System noch immer kontinuierlich eine Ausgabe erzeugen, auch wenn es keine Eingabe gibt. Somit besteht ein vernünftiger erster Schritt für einen Codebuchsuchvorgang darin, zu bestimmen, ob es notwendig ist, etwaige weitere Suchvorgänge durchzuführen, oder ob vielleicht kein Codevektor für. diesen Sub-Frame benötigt wird.
Um diesen Punkt klarzustellen, wird jedes vorhergehendes Ereignis einen Resteffekt aufweisen. Obwohl dieser Effekt abnehmen wird, ist dieser Effekt noch weit in die nächsten benachbarten Sub-Frames oder sogar Frames hinein vorhanden. Daher muss das Sprachmodell dies berücksichtigen. Wenn das in dem aktuellen Frame vorhandene Sprachsignal nur ein Resteffekt von einem vorhergehenden Frame ist, dann wird das wahrnehmbare gewichtete Fehlersignal E₀ sehr niedrig oder sogar Null sein. Es sei bemerkt, dass aufgrund von Rauschen oder anderer Systemausgaben, Nur-Null-Fehlerbedingungen von nur Nullen fast nie auftreten werden.
e₀ = STA_res – ϕ. Der Grund, warum der ϕ-Vektor verwendet wird, ist zwecks Vollständigkeit, um die Null-Zustand-Reaktion anzugeben. Dies ist ein eingerichteter Zustand für stattzufindende Suchvorgänge. Wenn Eϕ Null ist oder sich Null nähert, dann sind keine neuen Vektoren notwendig.
E0 wird verwendet, um die nächste Stufe als das "Ziel" der Übereinstimmung für die nächste Stufe anzusteuern. Die Aufgabe besteht darin, einen Vektor zu finden, so dass E1 sehr nahe an oder gleich Null ist, wobei E1 der wahrnehmbare gewichtete Fehler von e1 ist, und wobei e1 die Differenz zwischen e0-Vektor(i) ist. Dieses Verfahren geht immer weiter durch die verschiedenen Stufen.
Der bevorzugte Modus der Erfindung verwendet ein bevorzugtes System mit 240 Abtastungen pro Frame. Es gibt vier Sub-Frames pro Frame was bedeutet, dass jeder Sub-Frame 60 Abtastungen aufweist.
Ein VQ-Suchvorgang wird für jeden Sub-Frame durchgeführt. Dieser VQ-Suchvorgang beinhaltet ein Anpassen des 60-teiligen Vektors mit Vektoren in einem Codebuch mittels eines herkömmlichen Vektoranpassungssystems.
Jeder dieser Vektoren muss gemäß einer Gleichung definiert sein. Die verwendete Grundgleichung ist von der Form G_aA_i + G_bB_j + G_cC_k.
Da das Ziel darin besteht, ein minimal wahrnehmbares gewichtetes Fehlersignal E3 durch Auswählen von Vektoren Ai, Bj und Ck zusammen mit den entsprechenden Verstärkungen Ga, Gb und Gc zu präsentieren. Dies impliziert NICHT die Vektorsumme von Ga *Ai + GbBj + GcCE = STA_res.
Tatsächlich trifft dies mit Ausnahme für Stille fast nie zu.
Der Fehlerwert E₀ wird vorzugsweise den Werten in dem AVQ-Codebuch 200 angepasst. Dies ist eine herkömmliche Art eines Codebuchs, bei dem Abtastungen vorher rekonstruierter Sprache, z. B. die letzten 20 Millisekunden, gespeichert sind. Eine engste Übereinstimmung wird gefunden. Der Wert e₁ (Fehlersignal Nr. 1) stellt das zwischen dem Anpassen von E₀ mit AVQ 200 übriggebliebenen Rest dar.
Gemäß der Erfindung speichert der adaptive Vektorquantisierer eine 20-ms-Historie der rekonstruierten Sprache. Diese Historie wird hauptsächlich für die Pitch- oder Tonhöhenvorhersage während eines Stimm-Frames verwendet. Die Tonhöhe (Pitch) eines Tonsignals ändert sich nicht schnell. Das neue Signal wird näher zu denjenigen Werten bei der AVQ sein, als sie zu anderen Dingen sein werden. Daher wird normalerweise eine enge Übereinstimmung erwartet.
Änderungen in der Stimme oder neue Benutzer, die in einen Dialog eintreten, werden die Qualität der Übereinstimmung verschlechtern. Erfindungsgemäß wird diese verschlechterte Übereinstimmung mittels anderer Codebücher ausgeglichen.
Das erfindungsgemäß verwendete zweite Codebuch ist ein Real-Tonhöhen-Codebuch 202. Dieses Real-Tonhöhen-Codebuch umfasst Codeeinträge für die gewöhnlichsten Tonhöhen. Diese neuen Tonhöhen stellen die wahrscheinlichsten Tonhöhen der menschlichen Sprachen, vorzugsweise von 200 Hz und darunter, dar. Der Zweck dieses zweiten Codebuchs besteht darin, sich einem neuen Sprecher anzupassen, und für Anfahr/Stimm-Reaktionszwecke. Das Tonhöhencodebuch ist für eine schnelle Reaktion bestimmt, wenn die Stimme beginnt oder wenn eine neue Person mit neuer Tonhöheninformation in den Raum eintritt, die nicht in dem adaptiven Codebuch oder dem sogenannten Historie-Codebuch gefunden wird. Ein derartiges schnelles Reaktionsverfahren ermöglicht, dass die Form der Sprache schneller konvergiert und ermöglicht engere Übereinstimmungen mit der des ursprünglichen Signalverlaufs während der stimmhaften Bereichs.
Wenn ein neuer Sprecher in das Tonfeld eintritt, wird die AVQ gewöhnlicherweise beansprucht, um die Anpassung durchzuführen. Somit ist E1 immer noch sehr hoch. Während dieser Anfangszeit gibt es daher sehr große Reste, da die Übereinstimmung in dem Codebuch sehr schlecht ist. Der Rest E₁ stellt den gewichteten Fehler der Tonhöhe des neuen Sprechers dar. Dieser Rest wird der Tonhöhe in dem Real-Tonhöhen-Codebuch 202 angepasst.
Das herkömmliche Verfahren verwendet eine Art eines zufälligen Impulscodebuchs, das über das adaptive Verfahren bei 200 langsam geformt wird, um mit dem der ursprünglichen Sprache übereinzustimmen. Dieses Verfahren braucht zu lange, um zu konvergieren. Typischerweise wird es ungefähr 6 Sub-Frames benötigen und eine Hauptverzerrung um den stimmhaften Reaktionsbereich verursachen und somit einen Qualitätsverlust erleiden.
Die Erfinder haben herausgefunden, dass diese Anpassung an das Tonhöhen-Codebuch 202 eine fast sofortige erneute Verriegelung des Signals verursacht. Beispielsweise kann das Signal in einer einzigen Periode erneut verriegelt werden, wobei eine Sub-Frame-Periode = 60 Abtastungen = 60/8000 = 7,5 ms ist. Dies ermöglicht eine genaue Darstellung der neuen Stimme während der Übergangsperiode in dem frühen Teil der Zeit, während der neue Sprecher spricht.
Das Rausch-Codebuch 204 wird verwendet, um den Schlupf (Slack) aufzunehmen und hilft ebenfalls, Sprache während der stimmlosen Periode zu formen.
Wie es oben beschrieben ist, stellen die G's Amplitudeneinstellcharakteristika dar, und A, B und C sind Vektoren.
Das Codebuch für die AVQ umfasst vorzugsweise 256 Einträge. Die Codebücher für die Tonhöhe und das Rauschen umfassen jeweils 512 Einträge.
Das System der Erfindung verwendet drei Codebücher. Es sollte jedoch ersichtlich sein, dass entweder das Real-Tonhöhen-Codebuch oder das Rausch-Codebuch ohne das andere verwendet werden könnten.
Eine zusätzliche Verarbeitung wird erfindungsgemäß gemäß der als Heuristik bezeichneten Charakteristik durchgeführt. Wie es oben beschrieben ist, verbessert das dreiteilige Codebuch der Erfindung den Wirkungsgrad der Anpassung. Dies wird natürlich nur auf Kosten von mehr übertragene Information und somit einem verringerten Kompressionswirkungsgrad durchgeführt. Außerdem ermöglicht die vorteilhafte Architektur der Erfindung eine Betrachtung und Verarbeitung jedes Fehlerwerts e₀–e₃ und E₀–E₃. Diese Fehlerwerte erzählen uns verschiedene Dinge über die Signale, einschließlich über das Ausmaß der Übereinstimmung. Beispielsweise erzählt uns der Fehlerwert E₀ gleich 0, dass keine zusätzliche Verarbeitung notwendig ist. Ähnliche Information kann aus den Fehlern E₀–E₃ erhalten werden. Erfindungsgemäß bestimmt das System das Ausmaß der Fehlübereinstimmung mit dem Codebuch, um eine Angabe zu erhalten, ob die Codebücher der Real-Tonhöhen- und Rausch-Codebücher notwendig sind. Die Real-Tonhöhen- und Rausch-Codebücher werden nicht immer verwendet. Diese Codebücher werden nur verwendet, wenn eine neue Art oder Charakter von Ton in das Feld eintritt.
Die Codebücher werden adaptiv basierend auf einer mit der Ausgabe des Codebuchs durchgeführten Berechnung ein- und ausgeschaltet.
Die bevorzugte Technik vergleicht E₀ mit E₁. Da diese Werte Vektoren sind, erfordert der Vergleich eine Korrelierung der beiden Vektoren. Eine Korrelierung der beiden Vektoren ermittelt das Ausmaß der Nähe zwischen ihnen. Das Ergebnis der Korrelation ist ein skalarer Wert, der angibt, wie gut die Übereinstimmung ist. Wenn der Korrelationswert niedrig ist, gibt er an, dass diese Vektoren sehr unterschiedlich sind. Dies impliziert, dass der Beitrag von diesem Codebuch bedeutsam ist, womit keine zusätzlichen Codebuchsuchschritte notwendig sind. Im Gegensatz dazu wird, wenn der Korrelationswert hoch ist, der Beitrag von diesem Codebuch nicht benötigt, und es sind weitere Verarbeitungen erforderlich. Demgemäß vergleicht dieser Aspekt der Erfindung die beiden Fehlerwerte, um zu bestimmen, ob eine zusätzliche Codebuchkompensation notwendig ist. Falls nicht, wird die zusätzliche Codebuchkompensation abgeschaltet, um die Kompression zu erhöhen.
Ein ähnlicher Vorgang kann zwischen E₁ und E₂ durchgeführt werden, um zu bestimmen, ob das Rausch-Codebuch notwendig ist.
Außerdem werden Fachleute verstehen, dass dies anderweitig mittels der allgemeinen Technik modifiziert werden kann, sodass eine Bestimmung, ob die Codierung ausreichend ist, erhalten wird, und dass die Codebücher adaptiv ein- und ausgeschaltet werden, um die Kompressionsrate und/oder die Übereinstimmung weiter zu verbessern.
Zusätzliche Heuristik wird ebenfalls erfindungsgemäß verwendet, um den Suchvorgang zu beschleunigen. Zusätzliche Heuristik, um die Codebuchsuchvorgänge zu beschleunigen, sind:

a) Eine Untermenge von Codebüchern wird durchsucht und ein wahrnehmbarer gewichteter Teilfehler Ex wird bestimmt. Wenn Ex innerhalb einer bestimmten vorbestimmten Schwelle liegt, wird die Anpassung angehalten und entschieden, dass sie gut genug ist. Andernfalls wird bis zum Ende weiter gesucht. Eine Teilauswahl kann zufällig oder durch dezimierte Sätze durchgeführt werden.
b) Ein asymptotischer Weg zum Berechnen des wahrnehmbaren gewichteten Fehlers wird verwendet, wodurch die Berechnung vereinfacht wird.
c) Die wahrnehmbaren gewichteten Fehlerkriterien werden vollständig übersprungen und statt dessen "e" minimiert. In einem derartigen Fall ist ein Early-out-Algorithmus verfügbar, um die Berechnung weiter zu beschleunigen.

Eine weitere Heuristik ist die stimmhafte oder stimmlose Erfassung und ihre geeignete Verarbeitung. Das Stimmhafte/Stimmlose kann während der Vorverarbeitung bestimmt werden. Die Erfassung wird beispielsweise basierend auf Nulldurchgängen und Energiebestimmungen durchgeführt. Die Verarbeitung dieser Töne wird unterschiedlich abhängig davon durchgeführt, ob der Eingangston stimmhaft oder stimmlos ist.
Beispielsweise können Codebücher abhängig davon umgeschaltet werden, welches Codebuch wirksam ist.
Unterschiedliche Codebücher können für unterschiedliche Zwecke einschließlich jedoch nicht begrenzt auf die bekannte Technik einer Formverstärkungs-Vektorquantisierung und verbundener Optimierung verwendet werden. Ein Anstieg in der Gesamtkompressionsrate ist basierend auf der Vorverarbeitung und dem Ein- und Ausschalten der Codebücher erreichbar.
Obwohl nur einige Ausführungsformen obenstehend ausführlich beschrieben wurden, werden Fachleute gewiss verstehen, dass viele Modifikationen bei der bevorzugten Ausführungsform innerhalb des Schutzumfangs, wie er durch die beigefügten Ansprüche beansprucht wird, möglich sind.

Claims

Verfahren zum Komprimieren von Tönen mit folgenden Schritten: Kennzeichnen einer ersten Tondarstellung (E₀), um ein erstes Kennzeichnungsergebnis (201) zu erzeugen, das zumindest einen ersten Verarbeitungselementrest (residual) (200) aufweist; Erzeugen eines ersten Vergleichsergebnisses (e₁), indem zumindest eine mit der ersten Tondarstellung (E₀) in Beziehung stehende erste Vergleichseingabe (e₀) mit einer mit dem ersten Kennzeichnungsergebnis (201) in Beziehung stehenden zweiten Vergleichseingabe (201) korreliert wird; Vergleichen des ersten Vergleichsergebnisses (e₁) mit einem ersten vorbestimmten Schwellenkriterium; Bestimmen, ob eine weitere Verarbeitung wünschenswert ist basierend darauf, ob das erste Vergleichsergebnis (e₁) das erste vorbestimmte Schwellenkriterium erfüllt; und Erzeugen einer komprimierten Tonausgabe (120, 122) basierend auf dem ersten Vergleichsergebnis (e₁), falls das erste Vergleichsergebnis (e₁) das erste vorbestimmte Schwellenkriterium nicht erfüllt.
Verfahren gemäß Anspruch 1, ferner mit einem Schritt eines Kennzeichnens einer zweiten Tondarstellung (E₁), um ein zweites Kennzeichnungsergebnis (203) nur zu erzeugen, falls das erste Vergleichsergebnis (e₁) das erste vorbestimmte Schwellenkriterium erfüllt.
Verfahren gemäß Anspruch 2, bei dem die komprimierte Tonausgabe (120, 122) das zweite Kennzeichnungsergebnis (203) einschließt und das erste Kennzeichnungsergebnis (201) ausschließt, falls das erste Vergleichsergebnis das erste vorbestimmte Schwellenkriterium erfüllt.
Verfahren gemäß Anspruch 2, ferner mit einem Schritt eines Kennzeichnens einer dritten Tondarstellung (E₂), um ein drittes Kennzeichnungsergebnis (205) nur zu erzeugen, falls das zweite Vergleichsergebnis (e₂) das zweite vorbestimmte Schwellenkriterium erfüllt.
Verfahren gemäß Anspruch 4, bei dem die komprimierte Tonausgabe (120, 122) das dritte Kennzeichnungsergebnis (205) einschließt und das erste Kennzeichnungsergebnis (201) und das zweite Kennzeichnungsergebnis (203) ausschließt, falls das zweite Vergleichsergebnis (e₂) das zweite vorbestimmte Schwellenkriterium erfüllt.
Tonkompressionsvorrichtung zum Erzeugen einer komprimierten Tonausgabe mit: einem ersten Verarbeitungselement (200), das aufgebaut und angeordnet ist, um eine erste Tondarstellung (E₀) zu kennzeichnen und ein erstes Kennzeichnungsergebnis (201) zu erzeugen; einem ersten Vergleichselement (211), das aufgebaut und angeordnet ist, um ein erstes Vergleichsergebnis (e₁) zu erzeugen, indem zumindest eine mit der ersten Tondarstellung (E₀) in Beziehung stehende erste Vergleichseingabe (e₀) mit einer mit dem ersten Kennzeichnungsergebnis (201) in Beziehung stehenden zweiten Vergleichsangabe verglichen wird, und um zu bestimmen, ob eine weitere Verarbeitung wünschenswert ist basierend darauf, ob das erste Vergleichsergebnis (e₁) ein erstes vorbestimmtes Schwellenkriterium erfüllt; und einem Ausgangselement (110), das aufgebaut und angeordnet ist, um eine komprimierte Tonausgabe (120, 122) basierend auf zumindest dem ersten Vergleichsergebnis (e₁) zu erzeugen, falls das erste Vergleichsergebnis (e₁) das erste vorbestimmte Schwellenkriterium nicht erfüllt.
Vorrichtung gemäß Anspruch 6, ferner mit einem zweiten Verarbeitungselement (202), das aufgebaut und angeordnet ist, um eine zweite Tondarstellung (E₁) zu kennzeichnen und ein zweites Kennzeichnungsergebnis (203) nur zu erzeugen, wenn das erste Vergleichsergebnis (e₁) das erste vorbestimmte Schwellenkriterium erfüllte.
Vorrichtung gemäß Anspruch 7, bei dem die komprimierte Tonausgabe (120, 122) das zweite Kennzeichnungsergebnis (203) einschließt und das erste Kennzeichnungsergebnis (201) ausschließt, wenn das erste Vergleichsergebnis (e₁) die erste vorbestimmte Schwelle erfüllt.
Vorrichtung gemäß Anspruch 7, bei der das erste Verarbeitungselement ein erstes Codebuch (200) umfaßt, das erste Codes zum Kennzeichnen der ersten Tondarstellung (E₀) aufweist, und das zweite Verarbeitungselement ein zweites Codebuch (202) umfaßt, das zweite Codes zum Kennzeichnen der zweiten Tondarstellung (E₁) aufweist.
Vorrichtung gemäß Anspruch 9, bei der das zweite Codebuch (202) zumindest einen Code aufweist, der sich von den Codes des ersten Codebuchs (200) unterscheidet.
Vorrichtung gemäß Anspruch 9, bei der die ersten und zweiten Kennzeichnungsergebnisse (201, 203) jeweils eine Anzeige eines am nächsten übereinstimmenden Codes und eines Rests (residual) umfassen.
Vorrichtung gemäß Anspruch 7, wobei die erste Tondarstellung (E₀) und die zweite Tondarstellung (E₁) wahrnehmbar (perceptually) gewichtete Fehlerwerte umfassen.
Vorrichtung gemäß Anspruch 12, bei der die erste Vergleichseingabe (e₀) und die zweite Vergleichseingabe (201), die zum Vergleich von dem ersten Vergleichselement (211) verwendet werden, wahrnehmbar gewichtete Fehlerwerte umfassen.
Vorrichtung gemäß Anspruch 12, bei der die erste Vergleichseingabe (e₀) und die zweite Vergleichseingabe (201), die zum Vergleich von dem ersten Vergleichselement verwendet werden, nicht wahrnehmbar gewichtete Fehlerwerte umfassen.
Vorrichtung gemäß Anspruch 6, bei der das erste Vergleichselement (211) eine Korrelationsfunktion an der ersten Vergleichseingabe (e₀) und der zweiten Vergleichseingabe (201) durchführt, und das erste Vergleichsergebnis (e₁) ein metrischer Korrelationswert ist.
Vorrichtung gemäß Anspruch 7, ferner mit einem zweiten Vergleichselement (212), das ausgestaltet und angeordnet ist, um ein zweites Vergleichsergebnis (e₂) zu erzeugen, indem zumindest eine mit der zweiten Tondarstellung (E₁) in Beziehung stehende dritte Vergleichseingabe (e₁) mit einer mit dem zweiten Kennzeichnungsergebnis in Beziehung stehenden vierten Vergleichseingabe (203) verglichen wird, und um zu bestimmen, ob eine weitere Verarbeitung wünschenswert ist basierend darauf, ob das zweite Vergleichsergebnis (e₂) ein zweites vorbestimmtes Schwellenkriterium erfüllt.
Vorrichtung gemäß Anspruch 16, ferner mit einem dritten Verarbeitungselement (204), das ausgestaltet und angeordnet ist, um eine dritte Tondarstellung (E₂) zu kennzeichnen und ein drittes Kennzeichnungsergebnis (205) nur zu erzeugen, falls das zweite Vergleichsergebnis (e₂) das zweite vorbestimmte Schwellenkriterium erfüllt.
Vorrichtung gemäß Anspruch 17, bei der die komprimierte Tonausgabe (120, 122) das dritte Kennzeichnungsergebnis (205) einschließen und das erste Kennzeichnungsergebnis (201) und das zweite Kennzeichnungsergebnis (203) ausschließen kann, falls das zweite Vergleichsergebnis (e₂) die zweite vorbestimmte Schwelle erfüllt.
Vorrichtung gemäß Anspruch 17, bei der: das erste Verarbeitungselement ein adaptives Vektorquantisierungs-Codebuch (200) umfaßt; das zweite Verarbeitungselement ein Real-Tonhöhen-Vektorquantisierungs-Codebuch (202) umfaßt, das eine Mehrzahl von Tonhöhen aufweist, die Stimmen angeben; und das dritte Verarbeitungselement ein Rausch-Vektorquantisierungs-Codebuch (204) umfaßt, das eine Mehrzahl von Rausch-Vektoren aufweist.
Vorrichtung gemäß Anspruch 6, bei der die erste Tondarstellung (E₀) die Differenz zwischen einem ersten empfangenen Wert (210), der einen vorherigen Ton angibt, und einem zweiten empfangenen Wert (104), der einen neuen Ton angibt, umfaßt.
Vorrichtung gemäß Anspruch 16, bei der das zweite Vergleichselement (212) die dritte Vergleichseingabe und die vierte Vergleichseingabe (203) nur vergleicht, falls das erste Vergleichsergebnis (e₁) die erste vorbestimmte Schwelle erfüllt.
Vorrichtung gemäß Anspruch 17, bei der die erste Tondarstellung (E₀), die durch das erste Verarbeitungselement (200) gekennzeichnet ist, eine wahrnehmbar gewichtete Differenz (e₀) zwischen einem ersten empfangenen Wert (210), der einen vorherigen Ton angibt, und einem zweiten empfangenen Wert (104), der einen neuen Ton angibt, umfaßt.
Vorrichtung gemäß Anspruch 22, bei der die zweite Tondarstellung (E₁), die durch das zweite Verarbeitungselement (202) gekennzeichnet ist, einen wahrnehmbar gewichteten Rest (e₁) des ersten Verarbeitungselements (200) umfaßt; und bei der die dritte Tondarstellung (E₂), die durch das dritte Verarbeitungselement (204) gekennzeichnet ist, einen wahrnehmbar gewichteten Rest (e₂) des zweiten Verarbeitungselements (202) umfaßt.
Vorrichtung gemäß Anspruch 7, bei der die zweite Vergleichseingabe (201) mit der zweiten Tondarstellung (E₁) in Beziehung steht, und die komprimierte Tonausgabe mit dem ersten Kennzeichnungsergebnis (201) und dem zweiten Kennzeichnungsergebnis (203) nur in Beziehung steht, falls das erste Vergleichsergebnis das erste vorbestimmte Schwellenkriterium erfüllt.
Vorrichtung gemäß Anspruch 24 ferner mit: einem dritten Verarbeitungselement (204), das ausgestaltet und angeordnet ist, um eine dritte Tondarstellung (E₂) zu kennzeichnen und ein drittes Kennzeichnungsergebnis (205) zu erzeugen; einem zweiten Vergleichselement, das ausgestaltet und angeordnet ist, um ein zweites Vergleichsergebnis zu erzeugen, indem zumindest die mit der zweiten Tondarstellung (E₁) in Beziehung stehende zweite Vergleichseingabe mit einer mit der dritten Tondarstellung (E₂) in Beziehung stehenden dritten Vergleichseingabe verglichen wird, und um den Inhalt der komprimierten Tonausgabe (120, 122) basierend darauf zu bestimmen, ob das zweite Vergleichsergebnis ein zweites vorbestimmtes Schwellenkriterium erfüllt; wobei das Ausgangselement (110) ausgestaltet und aufgebaut ist, um die komprimierte Tonausgabe (120, 122) basierend auf zumindest dem ersten Vergleichsergebnis und dem zweiten Vergleichsergebnis zu erzeugen, und die komprimierte Tonausgabe basierend auf dem ersten Kennzeichnungsergebnis (201), dem zweiten Kennzeichnungsergebnis (203) und dem dritten Kennzeichnungsergebnis (205) nur erzeugt wird, falls das zweite Vergleichsergebnis das zweite vorbestimmte Schwellenkriterium erfüllt.
Vorrichtung gemäß Anspruch 7, bei der das zweite Verarbeitungselement (202) ausgestaltet ist, um die zweite Tondarstellung (E₁) zu kennzeichnen und das zweite Kennzeichnungsergebnis (203) nur zu erzeugen, nachdem das erste Vergleichsergebnis (e₁) das erste vorbestimmte Schwellenkriterium erfüllt.
Vorrichtung gemäß Anspruch 26 ferner mit: einem dritten Verarbeitungselement (204), das ausgestaltet und angeordnet ist, um eine dritte Tondarstellung (E2) zu kennzeichnen und ein drittes Kennzeichnungsergebnis (205) zu erzeugen; und einem zweiten Vergleichselement (212), das ausgestaltet und angeordnet ist, um ein zweites Vergleichsergebnis (e₂) zu erzeugen, indem zumindest eine mit der zweiten Tondarstellung (e₁) in Beziehung stehende dritte Vergleichseingabe (e₁) und eine mit dem zweiten Kennzeichnungsergebnis in Beziehung stehende vierte Vergleichseingabe (203) verglichen wird, und um zu bestimmen, ob eine weitere Verarbeitung wünschenswert ist basierend darauf, ob das zweite Vergleichsergebnis (e₂) ein zweites vorbestimmtes Schwellenkriterium erfüllt; wobei das Ausgangselement (110) ausgestaltet und angeordnet ist, um die komprimierte Tonausgabe (120, 122) basierend auf zumindest dem ersten Vergleichsergebnis (e₁) und dem zweiten Vergleichsergebnis (e₂) zu erzeugen.