DE4397106B4

DE4397106B4 - Schnelles auf einer Baumstruktur basierendes Verfahren zur Vektorquantisierung

Info

Publication number: DE4397106B4
Application number: DE4397106A
Authority: DE
Inventors: Alejandro Acero; Kai-Fu Saratoga Lee; Yen-Lu Saratoga Chow
Original assignee: Apple Computer Inc
Current assignee: Apple Inc
Priority date: 1992-12-31
Filing date: 1993-12-29
Publication date: 2004-09-30
Anticipated expiration: 2013-12-30
Also published as: CA2151372A1; WO1994016436A1; AU5961794A; US5734791A; DE4397106T1; CA2151372C

Abstract

Verfahren zum Konvertieren eines Kandidatenvektorsignals in ein Vektorquantisierungssignal, wobei das Kandidatenvektorsignal einen Kandidatenvektor mit mehreren Elementen und das Vektorquantisierungssignal einen Vektor eines Codebuches oder einen diesen Vektor kennzeichnenden Index darstellt,
wobei eine binäre Baumstruktur erzeugt wird, der die Codebuch-Vektoren zugeordnet werden,
wobei zum Konvertieren
– das Kandidatenvektorsignal einer Einrichtung zum binären Durchsuchen der Baumstruktur eingegeben wird,
– die binäre Baumstruktur bis zum Erreichen eines Blattknotens durchlaufen wird, wobei an jedem Zwischenknoten ein Vergleich ausgeführt und in Abhängigkeit vom Vergleichsergebnis ein Zweig ausgewählt wird, und
– in Abhängigkeit vom erreichten Blattknoten ein Codebuch-Vektor ausgewählt und ein entsprechendes Vektorquantisierungssignal erzeugt wird,
dadurch gekennzeichnet,
daß eine binäre Baumstruktur erzeugt wird, bei der jedem Zwischenknoten ein Schwellwert und eine Kennzeichnung eines ausgewählten Elements...

Description

Die Erfindung betrifft ein Verfahren zum Konvertieren eines Kandidatenvektorsignals in ein Vektorquantisierungssignal, wobei das Kandidatenvektorsignal einen Kandidatenvektor mit mehreren Elementen und das Vektorquantisierungssignal einen Vektor eines Codebuches oder einen diesen Vektor kennzeichnenden Index darstellt, wobei eine binäre Baumstruktur erzeugt wird, der die Codebuch-Vektoren zugeordnet werden, wobei zum Konvertieren

– das Kandidatenvektorsignal einer Einrichtung zum binären Durchsuchen der Baumstruktur eingegeben wird,
– die binäre Baumstruktur bis zum Erreichen eines Blattknotens durchlaufen wird, wobei an jedem Zwischenknoten ein Vergleich ausgeführt und in Abhängigkeit vom Vergleichsergebnis ein Zweig ausgewählt wird, und
– in Abhängigkeit vom erreichten Blattknoten ein Codebuch-Vektor ausgewählt und ein entsprechendes Vektorquantisierungssignal erzeugt wird.

Ferner betrifft die Erfindung eine Vorrichtung zum Konvertieren eines Kandidatenvektorsignals in ein Vektorquantisierungssignal.

Sprachcodiersysteme haben innerhalb der zur bandbreiteneffizienten Übertragung von Sprachsignalen verwendeten Stimm- bzw. Sprachcodierer/Decodierer (Vocoder)-Systeme einen langen Entwicklungsprozeß durchlaufen. Üblicherweise basierten die Vocoder auf einem abstrahierten Modell der menschlichen Stimme, das von einem Treibersignal und einem Satz von die Ressourcen der Sprechfolge modulierenden Filtern erzeugt wurde. Das Treibersignal kann entweder periodisch sein und die Höhe der Stimme des Sprechers darstellen oder zufällig und Rauschen, beispielsweise Reibelaute, darstellen. Das Stimmhöhensignal ist in erster Linie charakteristisch für den Sprecher (z.B. männlich oder weiblich), während die Filtereigenschaften eher die Art des Sprechens oder die in dem Sprachsignal ent haltenen Informationen angeben. Beispielsweise können Vocoder zeitlich variierende, Stimmhöhe und Filter beschreibende Parameter extrahieren, die übertragen und zur Rekonstruktion von Sprachdaten verwendet werden. Wenn die Filterparameter so verwendet werden, wie sie empfangen wurden, aber die Stimmhöhe geändert wird, ist das rekonstruierte Sprachsignal deutbar, jedoch ist die Sprechererkennung zerstört, da z.B. ein männlicher Sprecher klingen kann wie ein weiblicher Sprecher, wenn die Frequenz des Stimmhöhensignals erhöht wird. Daher sind für Vocodersysteme sowohl Anregungssignalparameter als auch Filtermodellparameter wichtig, da die Sprechererkennung normalerweise obligatorisch ist.

Ein als lineare, prediktive Codierung (LPC) bekanntes Verfahren der Sprachcodierung hat sich als dominierende Lösung zur Filterparameterextraktion von Vocodersystemen herausgestellt. Verschiedene unter der Bezeichnung LPC zusammengefaßte Filterparameterextraktionsverfahren wurden zur Beschreibung der Filtereigenschaften verwendet, die im wesentlichen gleiche Zeit- oder Frequenzbereichsparameter erzielen wurden. Es wird zum Beispiel auf Markel, J.D. und Gray, Jr., A.H., "Linear Prediction of Speech", Springer, Berlin, Heidelberg, New York, 1976 verwiesen.

Diese LPC-Parameter stellen ein zeitveränderliches Modell der Formanten oder Resonanzen der Stimmfolge (ohne Stimmhöhe) dar und werden nicht nur in Vocodersystemen, sondern auch in Spracherkennungssystemen verwendet, weil sie sprecherunabhängiger als das kombinierte oder rohe Sprachsignal sind, das Stimmhöhen- und Formantendaten enthält.

1 ist ein Blockschaltbild des "front-end" eines Sprachverarbeitungssystems, das zur Verwendung in dem codierenden (sendenden) Teil eines Vocodersystems oder als Datenerfassungssubsystem für ein Spracherkennungssystem geeignet ist. (In dem Fall eines Vocodersystems wird außerdem ein Stimmhöhenextraktionssubsystem benötigt.)

Das akustische Sprachsignal wird vom Mikrofon 11 in ein elektrisches Signal umgewandelt und an einen Analog/Digital-Wandler (ADC) 13 zum Quantisieren der Daten üblicherweise mit einer Abtastrate von 16 kHz angelegt (ADC 13 kann außerdem ein Anti-Aliasing-Filter enthalten.). Die quantisierten, abgetasteten Daten werden an ein Vorverzerrungsfilter 15 mit einer einzigen Nullstelle zum "Weißmachen" des Spektrums angelegt. Das vorverzerrte Signal wird an eine Einheit 17 angelegt, die segmentierte Datenblöcke erzeugt, wobei jeder Block den angrenzenden Block um 50 % überlappt. Die Fenstereinheit 19 legt auf jeden von der Einheit 17 zur Verfügung gestellten Block ein Fenster an, das üblicherweise vom Hamming-Typ ist, um den spektralen Verlust zu steuern. Das Ausgangssignal wird von der LPC-Einheit 21 verarbeitet, die die LPC-Koeffizienten {a_k} extrahiert, die beschreibend für den Stimmfolgeformanten sind. Alle Polfilter werden dargestellt von der z-Transformierten-Übertragungsfunktion

wobei A(z) = 1 + a1z–1 + a2z–2... +amz–m √α ist ein Verstärkungsfaktor und üblicherweise ist 8 ≤ m ≤ 12.

Der Cepstral-Prozessor 23 führt eine Transformation an den LPC-Koeffizientenparametern {a_k} aus, um unter Verwendung der folgenden iterativen Beziehung einen Satz von Cepstral-Koeffizienten äquivalenter Information zu erzeugen:

wobei a₀ = 1 und a_k = 0 für k > M. Der Satz Cepstral-Koeffizienten, {c(k)} definiert das Filter durch den Logarithmus der Filterübertragungsfunktion, bzw.:

Für weitere Details wird auf Markel und Gray (siehe oben) verwiesen.

Das Ausgangssignal des Cepstral-Prozessors 23 ist ein Cepstral-Datenvektor, C = [c₁ c₂ ... c_P], der an den VQ 20 zur Vektorquantisierung des Cepstral-Datenvektors C in einen VQ-Vektor Ĉ angelegt wird.

Aufgabe des VQ 20 ist es, die in dem Cepstral-Vektor C möglicherweise vorhandenen Freiheitsgrade zu reduzieren. Beispielsweise sind die P-Komponenten {c_k} von C üblicherweise Gleitkommazahlen, so daß jede einen Wert in einem sehr großen (den Quantisierungsbereich des Ausganges des ADC 13 weit überschreitenden) Wertebereich annehmen kann. Diese Reduktion wird unter Verwendung eines durch die Speichereinheit 27 dargestellten relativ dünnen Codebuches erzielt, das den Vektorraum der Menge von C-Vektoren aufspannt. VQ-Zuordnungseinheit 25 vergleicht einen Cepstral-Eingangsvektor C_i mit der in der Einheit 27 gespeicherten Menge von Vektoren {Ĉ_j} und wählt den speziellen VQ-Vektor Ĉi = [ĉ1 ĉ2 ... ĉP]Ti ,der zu dem Cepstral-Vektor C am nächsten liegt. Die Nähe wird über ein Distanzmaß gemessen. Das übliche Distanzmaß ist von quadratischer Form: d (Ci, Ĉj) = (Ci – Ĉj)T W (Ci – Ĉj),wobei W eine positiv definite Wichtungsmatrix ist, für die oft die Einheitsmatrix I verwendet wird. Sobald der nächste Vektor Ĉ_j des Codebuches 27 gefunden ist, genügt der Index i, um ihn darzustellen. Wenn beispielsweise der Cepstral-Vektor C zwölf Komponenten hat, [c₁ c₂ ... c₁₂]^T, von denen jede aus einer 32-Bit-Gleitkommazahl besteht, wird somit der 384 Bits enthaltende C-Vektor typischerweise durch den Index i = 1, 2, ..., 256 ersetzt, der nur 8 Bits benötigt. Diese Kompression wird auf Kosten einer höheren Verzerrung (Fehlers) erzielt, die durch die Differenz zwischen den Vektoren Ĉ und C oder die Differenz zwischen den von Ĉ bzw. C dargestellten Signalformen wiedergegeben wird.

Es ist klar, daß die Erzeugung der Einträge in dem Codebuch 27 entscheidend für die Leistung des VQ 20 ist. In Linde, Y., Buzo, A. und Gray, R.M., "An Algorithm for Vektor Quantization," IEEE Trans. Commun., COM-28, No. 1 (Jan. 1980), pp. 84-95 wird ein üblicherweise verwendetes Verfahren beschrieben, das allgemein als LBG-Algorithmus bekannt ist. Es ist ein interaktives Verfahren, das eine anfängliche Trainingssequenz und einer Anfangsmenge von VQ-Codebuch-Vektoren benötigt.

2 ist ein Flußdiagramm des grundlegenden LBG-Algorithmus. Das Verfahren beginnt im Schritt 90 mit einer Anfangsmenge von Codebuch-Vektoren, {Ĉ_j}₀, und einer Menge von Trainingsvektoren, {C_ti}. Die Komponenten dieser Vektoren stellen deren Koordinaten in dem mehrdimensionalen Vektorraum dar. In dem Codierschritt 92 wird jeder Trainingsvektor mit der Anfangsmenge von Codebuch-Vektoren verglichen und jedem Trainingsvektor wird der nächstliegende Codebuch-Vektor zugewiesen. Im Schritt 94 wird auf der Basis der Distanz zwischen den Koordinaten jedes Trainingsvektors und des diesem im Schritt 92 zugewiesenen Codebuch-Vektors ein Gesamtfehler berechnet. Im Prüfschritt 96 wird geprüft, ob der Gesamtfehler innerhalb annehmbarer Grenzen liegt, und, falls dies der Fall ist, endet das Verfahren. Falls dies nicht der Fall ist, geht das Verfahren mit dem Schritt 98 weiter, wo eine neue Menge von Codebuch-Vektoren, {Ĉ_j}_k, erzeugt wird. Diese entsprechen den Schwerpunkten der Koordinaten jeder Untermenge von Trainingsvektoren, die vorher im Schritt 92 einem bestimmten Codebuch-Vektor zugeordnet worden sind. Das Verfahren geht dann für eine weitere Iteration mit dem Schritt 92 weiter.

3 ist ein Flußdiagramm, das eine Variation des LBG-Trainingsalgorithmus zeigt, in dem die Größe des anfänglichen Codebuchs kontinuierlich verdoppelt wird, bis die gewünschte Codebuchgröße erreicht ist, wie von Rabine, L., Sondhi, M. und Levinson S. beschrieben wurde in: "Note on the Properties of a Vektor Quantizer for LPC Coefficients", BSTJ, Vol. 62, No,. 8, Oct. 1983 pp. 2603-2615. Das Verfahren beginnt mit dem Schritt 100 und geht beim Schritt 102 weiter, wo zwei (M=2) Kandidaten-Codevektoren (Schwerpunkte) gebildet werden. In dem Schritt 104 wird jeder Vektor der Trainingsmenge {T} dem nächsten Kandidaten-Codevektor zugeordnet, und dann wird der mittlere Fehler (Verzerrung, d(M)) mit Hilfe der Kandidatenvektoren und der angenommenen Zuordnung der Trainingsvektoren zu M Anhäufungen berechnet. Im Schritt 108 wird die normierte Differenz zwischen der berechneten mittleren Verzerrung d(M) und der vorher berechneten mittleren Verzerrung d_old gebildet. Wenn die normierte Differenz einen vorgegebenen Schwellwert ε überschreitet, wird d_old gleich d(M) gesetzt, ein neuer Kandidaten-Schwerpunkt im Schritt 112 berechnet, und eine neue Iteration wird in den Schritten 104, 106 und 108 durchgeführt. Wenn der Schwellwert überschritten wird, was einen signifikanten Anstieg der Verzerrung oder der Divergenz gegenüber der vorangegangenen Iteration anzeigt, werden die vorher berechneten Schwerpunkte im Schritt 112 gespeichert. Wenn der Wert von M kleiner ist als der größte eingestellte Wert M*, leitet der Prüfschritt 114 das Verfahren zu dem Schritt 116 voran, wo M verdoppelt wird. Im Schritt 118 werden die im Schritt 112 zuletzt berechneten vorhandenen Schwerpunkte geteilt, und dann geht es bei dem Schritt 104 mit einer neuen Menge von geschlossenen Iterationen weiter. Wenn die benötigte Anzahl von Schwerpunkten (Codebuch-Vektoren) = M* ist, führt Schritt 114 zur Beendigung des Verfahrens.

Die vorliegende Erfindung kann mit anderen ein VQ-Codebuch erzeugenden (Trainings-)Verfahren ausgeführt werden, die auf Distanzmaßen basieren. Beispielsweise beschreiben Bahl et al. einen "überwachten VQ", wobei die Codebuch-Vektoren (Schwerpunkte) derart gewählt werden, daß sie phonetischen Merkmalen am besten entsprechen (Bahl, I.R., et al., "Large Vocabulary National Language Continuous Speech Recognition", Proceeding of the IEEE CASSP 1989, Glasgow). Auch das k-Mittel-Verfahren oder eine Variante davon können verwendet werden, bei dem eine Anfangsmenge von Schwerpunkten aus weit auseinanderliegenden Vektoren der Trainingssequenz gewählt wird (Grey, R.M., "Vektor Quantization", IEEE ASSP Magazine, April 1984, Vol. 1, No. 2, p. 10).

Sobald eine "Trainings-"Prozedur, wie oben kurz dargestellt, zur Erzeugung eines VQ-Codebuches verwendet wurde, kann dieses zur Datencodierung verwendet werden.

Bei einem Spracherkennungssystem, wie dem SPHINX-System, das in Lee, K., "Automatic Speech Recognition, The Development of the SPHINX System", Kluwer Academic Publishers, Boston/Dordrecht/London, 1989, beschrieben ist, enthält das VQ-Codebuch beispielsweise 256 Vektoreinträge. Jeder Cepstral-Vektor hat 12 Komponentenelemente.

Der Vektorcode, der von dem VQ 20 zugewiesen werden soll, wird dadurch in geeigneter Weise bestimmt, daß die Distanz zwischen dem Codebuch-Vektor Ĉ_j und dem Kandidaten-Vektor C_i gemessen wird. Das verwendete Distanzmaß ist die ungewichtete (W=1) euklidische quadratische Form d(Ci, Ĉj) = (Ci – Ĉj)T·(Ci – Ĉj)die wie folgt ausgeschrieben werden kann: d(Ci, Ĉj) = Ci T·Ci + Ĉj T·Ĉj – 2Ĉj T·Ci

Wenn die zwei Vektormengen {C_i} und {Ĉ_j} normiert sind, so daß C_i ^T·C_i und Ĉ_j ^T·Ĉ_j für alle i und j feste _Werte sind, ist die Distanz minimal, wenn Ĉ_j ^T·C_i maximal ist. Die wesentliche Berechnung zum Auffinden des Wertes Ĉ_j, der d(C_i,Ĉ_j) minimiert, ist daher der wert von j, der

maximiert.

Jeder Vergleich erfordert die Berechnung von 12 Produkten und 11 Summen. Folglich erfordert ein voller Suchbefehl der Cepstral-Vektortabelle 12 × 256 = 3072 Multiplikationen und fast ebenso viele Additionen. Diese Menge von Multiplikationen/Additionen muß normalerweise mit einer Rate von 100/Sekunde ausgeführt werden, wobei dies ungefähr 3 × 10⁵ Multiplizier/Addieroperationen pro Sekunde entspricht. Außerdem können Spracherkennungssysteme, wie z.B. SPHINX, mehrere VQ-Einheiten für zusätzliche Vektorvariablen, wie z.B. Leistungs- und Differential-Cepstrum, aufweisen, wodurch ungefähr 10⁶ Multiplizier/Addieroperationen pro Sekunde benötigt werden. Diese Prozeßanforderung schafft einen starken Bedarf an VQ-Codierverfahren, die wesentlich weniger Verarbeitungsressourcen benötigen.

Aufgabe der Erfindung ist es, den Rechenaufwand bei einem Verfahren der eingangs genannten Art zu verringern.

Die Aufgabe wird durch ein Verfahren mit den Merkmalen des Anspruchs 1 bzw. eine Vorrichtung mit den Merkmalen des Anspruchs 8 gelöst.

Vorteilhafte und/oder bevorzugte Weiterbildungen der Erfindung sind in den Unteransprüchen gekennzeichnet.

Die vorliegende Erfindung ist zur Veranschaulichung und nicht zur Einschränkung in den Figuren der beiliegenden Zeichnung dargestellt, wobei in den Zeichnungen gleiche Bezugszeichen ähnliche Elemente kennzeichnen und in welchen:
1 ein Blockschaltbild eines typischen Sprachverarbeitungs-Subsystems zur Erfassung und Vektorquantisierung von Sprachdaten zeigt.
2 zeigt ein Flußdiagramm für den zum Training eines VQ-Codebuches verwendeten LBG-Algorithmus.
3 zeigt ein Flußdiagramm eines anderen LBG-Trainingsprozesses zur Erzeugung eines VQ-Codebuches.
4 zeigt ein Beispiel für eine Suche mittels einer binären Baumstruktur.
5 zeigt ein Flußdiagramm für eine Suche mittels einer binären Baumstruktur.
6 zeigt ein Beispiel eines Codebuch-Histogramms.
7 zeigt Beispiele der Trennung eines zweidimensionalen Raums durch lineare Hyperebenen.
8 zeigt Beispiele für den Fehlversuch von einfachen linearen Hyperebenen, Menge im zweidimensionalen Raum zu separieren.
9 zeigt ein Flußdiagramm des Verfahrens zur Erzeugung von VQ-Codebuch-Histogrammen.
10 zeigt ein Flußdiagramm des schnellen Baumstruktur-Suchverfahrens zur VQ-Codierung.
11 zeigt ein Flußdiagramm, das ein inkrementales Distanzvergleichsverfahren zum Auswählen des VQ-Codes darstellt.
12 zeigt eine Einrichtung zur schnellen Baum-basierten Vektorquantisierung.
DETAILLIERTE BESCHREIBUNG
Es wird ein VQ-Verfahren zum Codieren von Vektorinformationen mit Hilfe eines Codebuches beschrieben, das auf eine Baumstruktur basiert, die aus einfachen 1-Variablen-Hyperebenen aufgebaut ist, wobei das Verfahren nur einen einzigen Vergleich an jedem Knoten erfordert. Im Gegensatz dazu erfordert die Verwendung von Mehrvariablen-Hyperebenen jeweils Vektorpunktprodukte des Kandidaten-Vektors und des den Schwerpunkt des Knotens darstellenden Vektors.
VQ-Zerlegungsverfahren basieren auf einem Codebuch (Speicher), das die Koordinaten von Schwerpunkten einer begrenzten Gruppe von charakteristischen Vektoren enthält. Die Koordinaten beschreiben den Schwerpunkt von Datenclustern, der mit Hilfe der Trainingsdaten bestimmt wird, die von einem Algorithmus, wie z.B. dem in den 2 und 3 beschriebenen, verarbeitet werden. Die Position des Schwerpunktes ist durch einen Vektor dargestellt, dessen Elemente die gleiche Dimension haben wie die Vektoren, die beim Training verwendet wurden. Ein auf einer binären Baumstruktur basierendes Trainingsverfahren erzeugt einen Codebuch-Vektorsatz mit einer binären Anzahl 2^L von Vektoren, wobei L die Anzahl von Ebenen in der binären Baumstruktur angibt.
Wenn die VQ-Codierung die inhärente, durch die Qualität und Quantität der Trainingsdaten bestimmte Genauigkeit des Codebuches aufrechterhalten soll, sollte jeder Kandidaten-Vektor, der zur VQ-Codierung vorgelegt wird, mit jedem der 2^L-Codebuch-Vektoren verglichen werden, um den nächstliegenden Codebuch-Vektor aufzufinden. Wie im vorangegangenen erörtert wurde, kann die mit dem Auffinden des nächstliegenden Codebuch-Vektors verbundene Rechenbelastung jedoch unannehmbar sein. Infolgedessen wurden Short-cut- bzw. Direktverfahren entwickelt, die, so hofft man, zu einer wirksameren Codierung ohne einen unannehmbaren Verzerrungs(Fehler)anstieg führen sollten.
Eine als binäre Baumstruktur-Suche bekannte Codierprozedur wird zur Verringerung der Anzahl von Vektorpunktprodukten von 2^L auf L verwendet, (Gray, R.M. "Vektor Quantization", IEEE ASSP Magazine, Vol. 1, No. 2, April 1984, pp. 11-12). Die Prozedur kann anhand des binären Baumes der 4 erklärt werden, in der die Knoten mit (l,k) indiziert sind, wobei l der Ebene und k der jeweiligen Position des Knotens von links nach rechts entspricht.
Wenn das Codebuch trainiert wird, werden Schwerpunkte für jeden Knoten des binären Baumes gebildet. Diese intermediären Schwerpunkte werden zur späteren Verwendung gemeinsam mit der für das Codebuch verwendeten endgültigen Menge von 2^L Schwerpunkten gespeichert.
Wenn ein Kandidaten-Vektor zur VQ-Codierung vorgelegt wird, wird der Vektor gemäß der Topologie des binären Baumes verarbeitet. In der Ebene 1 wird der Kandidaten-Vektor mit den zwei Schwerpunkten der Ebene 1 verglichen und der nächste Schwerpunkt wird ausgewählt. Der nächste Vergleich wird in der Ebene 2 zwischen dem Kandidaten-Vektor und den zwei mit dem ausgewählten Schwerpunkt der Ebene 1 verbundenen Schwerpunkten ausgeführt. Wiederum wird der nächste Schwerpunkt ausgewählt. Bei jeder nachfolgenden Ebene wird eine ähnliche binäre Entscheidung getroffen, bis die letzte Ebene erreicht ist. Der endgültige Schwerpunktindex (k = 0, 1, 2, ..., 2^L – 1) stellt den dem Kandidaten-Vektor zugeordneten VQ-Code dar. Die fettgedruckten Zweige des Graphen zeigen einen möglichen Pfad für das 4-Ebenen-Beispiel.
Das Flußdiagramm gemäß 5 gibt eine detailliertere Beschreibung des Baumstruktur-Suchalgorithmus. Das Verfahren beginnt bei dem Schritt 200 mit dem Setzen der Schwerpunktindizes (l, k) auf (1, 0). Im Schritt 202 wird die Distanz zwischen dem Kandidaten-Vektor und den zwei benachbarten in der Ebene 1 an den Positionen k und k + 1 angeordneten Schwerpunkten berechnet. Im Schritt 204 wird der nächste Schwerpunkt bestimmt und der k-Index in den Schritten 206 und 208 in Abhängigkeit von dem Ergebnis des Prüfschrittes 204 inkrementiert. Im Schritt 210 wird der Ebenen-Index l um Eins erhöht und im Schritt 212 wird geprüft, ob die letzte Ebene, L, verarbeitet wurde. In diesem Fall endet das Verfahren; andernfalls werden die neuen (l, k)-Indizes zu dem Schritt 202 zurückgegeben, bei dem ein weiterer Iterationsschritt beginnt.
Wichtig ist, daß die obige Baumstruktur-Suchprozedur für ein Codebuch mit 2^L-Einträgen nach L-Schritten beendet ist. Dies führt zu einer beträchtlichen Verringerung der Anzahl der Vektorpunktproduktoperationen von 2^L auf 2L. Das bedeutet für das Codebuch mit 256 Einträgen eine Verringerung von 16 zu eins. Bezogen auf die Multiplizier/Addier-Operationen für jede Codieroperation bedeutet dies eine Verringerung von 3.072 auf 192.
Eine wesentlich bedeutendere Verbesserung der Verarbeitungseffizienz kann bei Verwendung der folgenden erfinderischen Berechnungsprozedur in Verbindung mit einem zur Erzeugung des VQ-Codebuches verwendeten, auf einer Standarddistanz basierenden Trainingsverfahren erzielt werden.

1. Konstruiere ein Codebuch mit binärer Baumstruktur gemäß einem Standardverfahren, beispielsweise gemäß dem zuvor beschriebenen Verfahren.
2. Untersuche nach der Bestimmung des Schwerpunktes jedes Knotens in dem Baum die Elemente des Trainingsvektors und bestimme, welcher Vektorelementwert, falls er als Entscheidungskriterium für eine binäre Aufteilung verwendet würde, die Trainingsvektormenge am gleichmäßigsten teilen würde. Das jedem Knoten zugeordnete, ausgewählte Element wird festgehalten und zusammen mit seinem kritischen Schwellwert, der die Anhäufung in zwei mehr oder weniger gleiche Mengen teilt, gespeichert.
3. Wende auf die zur Bildung des Codebuches verwendeten Trainingsvektoren einen neuen binären Entscheidungsbaum an, bei dem die auf dem Schwerpunkt des Knotens basierende binäre Entscheidung durch Schwellwertentscheidungen ersetzt ist. Für jeden Knoten hat der obige Schritt 2 einen Schwellwert einer ausgewählten Kandidaten-Vektorkomponente gebildet. Dieser Schwellwert wird mit dem entsprechenden Vektorelementwert jedes Trainingskandidaten verglichen und die binäre Sortierentscheidung wird dementsprechend getroffen, wobei zur nächsten Ebene der Baumstruktur weitergegangen wird.
4. Da dieses Schwellwertcodierungsverfahren suboptimal ist, ist es möglich, daß jeder Trainingsvektor nicht dem gleichen binären Entscheidungspfad folgt, dem in dem ursprünglichen Trainingszyklus gefolgt wurde. Folglich wird jedesmal, wenn ein zu einer gegebenen, von der ursprünglichen Trainingsprozedur bestimmten Menge gehöriger Trainingsvektor von dem binären Baum auf Schwellwertbasis klassifiziert wird, seine "wahre" oder korrekte Klassifizierung festgehalten, in welchem Fach auch immer er schließlich endet. Auf diese Weise wir ein Histogramm erzeugt und mit jedem der Codebuch-Indizes (Nummern der Endzweige der Baumstruktur oder "Blatt"-Knoten) verknüpft, das die Anzahl der Mitglieder jede Menge anzeigt, die von der binären Baumstruktur-Schwellwertprozedur als zu diesem Blattknoten gehörig klassifiziert wurden. Diese Histogramme geben die Wahrscheinlichkeit an, mit der ein vorgegebener Kandidaten-Vektor, der zu dem Index q gehört, als zu q' gehörig klassifiziert werden kann.

Die 6(a) und (b) zeigen zwei hypothetische Histogramme, die aus dem q-ten Codebuch-Index resultieren könnten. Das Histogramm in 6(a) ist um den Index q konzentriert. Mit anderen Worten, die meisten als zu der Menge q gehörig qualifizierten Vektoren waren Mitglieder von q, wie es der Zählwert von 60 anzeigt. Jedoch zeigt der Zählwert von 15 in dem Histogrammfach q – 1 an, daß 15 Trainingsvektoren der Menge q – 1 als zu der Menge q gehörig klassifiziert wurden. Ähnlich wurden 10 zu der Trainingsvektormenge q + 1 gehörige Vektoren als zu der Menge q gehörig klassifiziert. Ein Histogramm mit einer engen Verteilung, wie in 6(a), zeigt an, daß die Anhäufungen fast vollständig in dem mehrdimensionalen Vektorraum durch einfache orthogonale lineare Hyperebenen voneinander trennbar sind, anstelle durch lineare Hyperebenen voller Dimensionalität.
Dieses Konzept ist für einen zweidimensionalen Vektorraum in den 7(a) und (b) dargestellt. 7(a) zeigt vier Vektormengen (A, B, C und D) in der zweidimensionalen (x₁,x₂)-Ebene, die durch zwei einzelne Zahlen x₁ = a und x₂= b aufgeteilt werden können, die durch die zwei zueinander senkrechten geraden durch x₁ = a bzw. x₂ = b laufenden Linien dargestellt sind. Diese Linien entsprechen zwei einfachen linearen Hyperebenen im zweidimensionalen Vektorraum. 7(b) zeigt vier Gruppen (A, B, C und D), die nicht durch einfache zweidimensionale Hyperebenen getrennt werden können, sondern die Verwendung von vollständig zweidimensionalen Hyperebenen erfordern, dargestellt durch x₂ = (x₂'/x₁')x₁ + x₂' und x₂ = x₁.
Das Histogramm der 6(b) für den q-ten Codebuch-Index bedeutet, daß die Trainingsvektormenge durch eine einfache eindimensionale Vorgabe von linearen Hyperebenen nicht getrennt werden kann. Das q-te Histogramm zeigt an, daß kein zur Menge q gehöriger Trainingsvektor von der binären Baumstruktur-Schwellwertprozedur als Mitglied von q klassifiziert wurde.
Die 8(a) und (b) zeigen zweidimensionale Beispiele der Histogramme der 6(a) bzw. (b). Beispielsweise führen die besten zur Trennung der vier Sätze (A, B, C und D) verwendeten vertikalen oder horizontalen Linien zur Fehlklassifikation, wie beispielsweise durch die Überlappung der Untermengen A und C angezeigt wird. In 8(b) würden bei Verwendung des gleichen orthogonalen Satzes von zweidimensionalen Hyperebenen (x₁ = a, x₂ = b) die Mengen A und B der gleichen Menge zugeordnet, wobei eine der vier Untermengen leer bliebe mit der Ausnahme, daß einige Mitglieder der Untermenge D in die ansonsten leere Menge fielen.
Auf diese Weise wird ein neues Codebuch erzeugt, in welchem der Codebuch-Index eine Vektorverteilung anstelle eines einzigen Vektors darstellt, dargestellt von einem einzigen Schwerpunkt. Die Normierung der Histogrammzählwerte durch Division jedes Zählwertes durch die Gesamtanzahl der Zählwerte in jeder Vektormenge führt für jeden Codebuch-Index zu einer empirischen Wahrscheinlichkeitsverteilung.
9 ist ein Flußdiagramm für die Codebuch-Histogrammerzeugung, die mit dem Schritt 300 beginnt, in dem die Indizes j und i initialisiert werden. Im Schritt 302 wird ein Codebuch mit einer binären Anzahl von Einträgen mit Hilfe eines beliebigen verfügbaren Verfahrens auf der Basis eines Distanzwertes gebildet. Im Schritt 304 wird ein Knotenparameter und ein Knotenschwellwert für jeden Knoten des binären Baumes aus dem Knotenschwerpunktvektor ausgewählt. Im Schritt 306 wird der Trainingsvektor der Untermenge j (alle Vektoren, die zu dem Codebuch-Index j gehören) herangeholt, und ein schneller Baumsuchalgorithmus wird im Schritt 308 ausgeführt. Das Ergebnis des Schrittes 308 wird im Schritt 310 dadurch verwendet, daß das geeignete Fach (Blattknoten) des dem letzten VQ-Index zugeordneten Histo gramms inkrementiert wird. Im Schritt 312 wird der Index inkrementiert und im Schritt 314 wird geprüft, ob alle Trainingsvektoren des Schrittes j verwendet wurden. Falls nicht, springt der Prozeß für eine weitere Iteration zu dem Schritt 306 zurück. Falls alle Mitgliedsvektoren des Trainingsschrittes j ausgenutzt wurden, inkrementiert der Schritt 316 den Index j und setzt i_j zurück. Im Testschritt 318 wird geprüft, ob alle Trainingsvektoren verwendet wurden und, falls nicht, wird zum Schritt 306 zurückgesprungen. Ansonsten endet der Prozeß.
Nach der Erzeugung dieses Codebuches von Vektorverteilungen kann es zur VQ-Codierung von neuen Eingangsdaten verwendet werden.
Eine schnelle Baumsuch-Codierungsprozedur würde der gleichen in 4 gezeigten binären Baumstruktur folgen. Ein Kandidaten-Vektor würde in der Ebene 0 untersucht, und der zugehörige Vektorelementwert würde mit dem vorgegebenen Schwellwert der Ebene 0 verglichen und dann zu dem geeigneten nächsten Knoten (Ebene 1) weitergeleitet werden, wo eine ähnliche Untersuchung und ein ähnlicher Vergleich zwischen dem vorgegebenen Schwellwert und dem Wert des dem Knoten der Ebene 1 entsprechenden, vorgegebenen Vektorelementes durchgeführt würde. Eine zweite binäre Aufteilungsentscheidung wird durchgeführt, und dann geht der Prozeß bei der Ebene 2 weiter. Dieser Prozeß wird für ein Codebuch mit 2^L Indizes L-mal wiederholt. Auf diese Weise kann eine vollständige Suche durch L einfache Vergleiche und ohne Multiplizier/Addieroperationen durchgeführt werden.
Nach Erreichen der End- oder Blattknoten der L-ten Ebene des binären Suchprozesses hat das codierte Ergebnis die Form eines Histogramms, wie es oben beschrieben wurde. An dieser Stelle wird eine Entscheidung hinsichtlich des am besten geeigneten Histogrammindexes dadurch ausgeführt, daß die Distanz zwischen dem Kandidaten-Vektor und den Schwerpunkten der nicht Null gesetzten Indizes (Blätter) des Histogramms berechnet werden und der VQ-Codebuch-Index ausgewählt wird, der dem nächsten Schwerpunkt entspricht.
Die schnelle Baumsuche wird in dem Flußdiagramm der 10 beschrieben. Der Ebenenindex l und der Knotenzeilenindex k der binären Baumstruktur werden im Schritt 400 initialisiert. Im Schritt 402 werden die Elemente e(l,k) aus dem VQ-Kandidaten-Vektor ausgewählt, die mit dem vorausgewählten Knotenschwellwert T(l,k) korrespondieren. Im Schritt 404 wird e(l,k) mit T(l,k) verglichen, und wenn e(l,k) größer als der Schwellwert ist, wird im Schritt 406 der Wert von k verdoppelt; falls nicht, wird im Schritt 408k verdoppelt und inkrementiert. Der Index l wird im Schritt 410 inkrementiert. Der Schritt 412 bestimmt, ob alle vorgegebenen Ebenen (L) der binären Baumstruktur durchsucht wurden und springt, falls nicht, zur weiteren Iteration zum Schritt 402 zurück. Ansonsten wird im Schritt 414 der VQ-Codebuch-Index durch Berechnung der Distanz zwischen dem Kandidaten-Vektor und den Schwerpunkten der Ungleich-Null-Indizes (Blätter) des Histogramms ausgewählt. Es wird der nächst befindliche, den Histogrammfach-Indizes (Zweigen) entsprechende Schwerpunkt ausgewählt. Der Prozeß wird dann beendet.
Eine zusätzliche Variante ermöglicht ein Auswählen zwischen einerseits mehr internen Knoten mit feineren Unterteilungen (wobei dies zu weniger Zweighistogrammen und somit zu weniger Distanzvergleichen führt) und andererseits weniger internen Knoten mit gröberen Unterteilungen und mehr Histogrammen. Für Maschinen, in denen Distanzvergleiche kostenaufwendig sind, würde daher ein kleinerer Baum mit weniger internen Knoten bevorzugt.
Eine weitere Auslegungsmöglichkeit beinhaltet das Abwägen zwischen Speicher- und Codierungsgeschwindigkeit. Größere Bäume wären sicherlich schneller, jedoch erfordern sie mehr Speicher für interne Knotenschwellwert-Entscheidungswerte.
Ein weiteres Ausführungsbeispiel, das den Schritt 414 der 10 betrifft, verwendet den Histogrammzählwert, um die Reihenfolge herzustellen, in der die Schwerpunktabstände berechnet werden. Der dem Zweig mit dem höchsten Histogrammzählwert entsprechende Schwerpunkt wird als erstes als ein möglicher Code gewählt und die Distanz zwischen ihm und dem zu codierenden Kandidaten-Vektor wird berechnet und gespeichert. Die Distanz zwischen dem Kandidaten-Vektor-Schwerpunkt und dem Schwerpunkt des Codebuch-Vektors des Faches mit dem nächsthöheren Histogrammzählwert wird stufenweise berechnet. Der Zuwachs des Teilabstandes zwischen dem Kandidaten-Vektor C und dem Codebuch-Zweig-Vektor Ĉ_j wird wie folgt berechnet:
1. Schritt: D_j1 = f|c₁ – ĉ _j1|
2. Schritt: D_j2 = f|c₁ – ĉ _j1| + f|c₂ – ĉ j₂|
...
n. Schritt: D_jn = f|c₁ – ĉ _j1| + f|c₂ – ĉ j₂| + ... + f|c_k – ĉ_jn|
...
N. Schritt:
wobei der Kandidaten-Vektor C = [c₁ c₂ ... c_N], der Codebuch-Zweig-Vektor ĉ j = [ĉ _j1 ĉ _j2 ... ĉ _jN], und f|·| eine geeignete Abstandsfunktion ist. Nach jeder schrittweisen Distanzberechnung wird ein Vergleich zwischen der berechneten Distanz Den des zweiten Schritts und der Distanz D_min – D₁ zwischen dem Kandidaten-Vektor C und dem Zweig-Vektor C₁ mit dem höchsten Histogrammzählwert ausgeführt, wobei
Wenn der Wert D_min überschritten wird, wird die Berechnung unterbrochen, da jeder zusätzliche Distanzbeitrag, f|c_n – ĉ_jn| größer gleich Null ist. Wenn die Berechnung beendet ist und die berechnete Distanz kleiner als D₁ ist, ersetzt D₂ D₁ (D_mi _n = D₂) als minimale Testdistanz. Nach dem Distanzvergleich für den Vektor Ĉ₂ wird der Prozeß für den nächsten Codebuch-Zweig-Vektor in absteigender Reihenfolge hinsichtlich des Programmzählwertes wiederholt. Es sei angemerkt, daß nicht die tatsächlichen Histogramme gespeichert werden müssen, sondern nur die Reihenfolge der Zweig-Vektoren in absteigender Histogrammzählwert-Reihenfolge. Es wird der der letzten Minimaldistanz, D_min entsprechende Codebuch-Vektor, ausgewählt. Mit Hilfe des schrittweisen Distanzverfahrens kann der Benutzer zusätzliche Recheneffizienz erzielen.
11 ist ein Flußdiagramm, das die Berechnung des nächstliegenden Codebuch-Zweig-Schwerpunktes darstellt, wie er für den Schritt 414 der 10 benötigt wird.
Der Prozeß beginnt mit dem Schritt 500, in dem der Kandidaten-Vektor C, die Menge der Codebuch-Endzweig-Schwerpunkte {Ĉ _j}, der Distanzzuwachs-Index n = 1, der Zweigindex j = 1, die Anzahl der Vektorelemente N und die Anzahl der Zweig-Schwerpunkte J vorgegeben werden. Im Schritt 502 wird die Distanz zwischen dem ranghöchsten (mit höchstem Histogrammzählwert) Zweigschwerpunkt C (j = 1) und dem Kandidaten-Vektor C berechnet und gleich D_min gesetzt. Im Schritt 504 wird überprüft, ob alle Zweig-Schwerpunkte ausgenutzt wurden. Wenn dies der Fall ist, endet der Prozeß und der Wert von j entspricht dem Zweigindex des nächsten Schwerpunktes. Der Codebuch-Index des nächsten Schwerpunktes wird als VQ-Code des eingegebenen Vektors genommen.
Wenn nicht alle Schwerpunkte genutzt sind, wird im Schritt 506 j inkrementiert und die inkementale Distanz D_jn im Schritt 508 berechnet. Im Schritt 510 wird D_jn mit D_min verglichen, und wenn D_jn kleiner ist, geht es mit dem Schritt 512 weiter, indem der Inkrementindex überprüft wird. Wenn n kleiner ist als die Anzahl der Vektorelemente, N, wird der Index n im Schritt 514 inkrementiert und der Prozeß kehrt zu dem Schritt 508 zurück.
Wenn im Schritt 512 n = N ist, geht der Prozeß zum Schritt 516, wo D_min gleich D_j gesetzt wird, was eine neue Minimaldistanz, entsprechend dem Zweigschwerpunkt j anzeigt, und der Prozeß kehrt zu dem Schritt 506 zurück.
Wenn D_jn größer als D_min ist, wird die Berechnung der Zusatzdistanz beendet und der Prozeß kehrt für eine weitere Iteration zum Schritt 506 zurück.
12 zeigt ein System zur schnellen Baumstruktur-Vektorquantisierung. Der Kandidaten-Vektor, der klassifiziert werden soll, wird an die Eingangsanschlüsse 46 angelegt und in der Latch-Schaltung 34 für die Dauer der Zerlegungsoperation zwischengespeichert. Der Ausgang der Latch-Schaltung 34 ist mit der Auswahl- bzw. Selektoreinheit 38 gekoppelt, deren Ausgangssignal von der Steuereinrichtung 40 gesteuert wird. Die Steuereinrichtung 40 wählt einen vorgegebenen Vektorelementwert, e(l,k), des Eingangs-Kandidaten-Vektors zum Vergleich mit einem zugehörigen gespeicherten Schwellwert T(l,k) aus.
Das Ausgangssignal des Komparators 36 ist ein Index k, der gemäß den Schritten 404, 406 und 408 der 10 von dem relativen Wert von e(l,k) und T(l,k) bestimmt wird. Die Steuereinrichtung 40 empfängt das Ausgangssignal des Komparators 36 und erzeugt einen Befehl für den Schwellwert- und Vektorparameter-Kennsatzspeicher 30, der die Position des nächsten Knotens bei der binären Suche durch das Indexpaar (l,k) angibt, wobei l die binäre Baumebene angibt und k den Index des Knotens in der Ebene l. Der Speicher 30 liefert den nächsten Schwellwert T(l,k) für den Komparator 36 und den zugehörigen Vektorelementindex, e, der von der Steuereinrichtung 40 unter Verwendung des Selektors 38 zur Auswahl des zugehörigen Elementes des Kandidaten-Vektors e(l,k) verwendet wird.
Nach dem Erreichen der niedrigsten Ebene L des binären Baumes, adressiert die Steuereinrichtung 40 den Inhalt des Codebuch-Zweig-Schwerpunkt-Speichers 32 an eine (L,K) entsprechende Adresse und versorgt den Minimaldistanz-Komparator/Selektor 42 mit der Menge der mit dem binären Baumknoten (L,k) verbundenen Codebuch-Zweig-Schwerpunkte. Die Steuereinrichtung 40 inkrementiert den Steuerindex j, der die Mitglieder der Menge der Codebuch-Zweig-Schwerpunkte sequentiell auswählt. Der Komparator/Selektor 42 berechnet die Distanz zwischen den Codebuch-Zweig-Schwerpunkten und dem Eingangs-Kandidaten-Vektor und wählt dann den nächsten Codebuch-Zweig-Schwerpunkt-Index als den VQ-Code aus, der dem Kandidaten-Eingangsvektor entspricht. Die Steuereinrichtung 40 liefert außerdem Steuersignale, um den Distanzzuwachs für den Komparator/Selektor 42 zu indizieren.
Eine weitere Variante des schnellen Baumstruktur-Suchverfahrens enthält das "Wegkürzen" der Mitglieder des Histogramms mit niedrigem Zählwert, und zwar mit der Rechtfertigung, daß ihr Auftreten sehr unwahrscheinlich ist und deshalb keinen wichtigen Beitrag zu dem erwarteten VQ-Fehler liefert.
Die Bedeutung des schnellen Suchens nach dem nächsten Schwerpunkt in einem Codebuch nimmt zu, wenn berücksichtigt wird, daß Sprachsysteme mehrere Codebücher aufweisen können. Lee (siehe oben) beschreibt ein Mehrfach-Codebuch-Spracherkennungssystem, in dem drei Codebücher verwendet werden: ein Cepstral-Codebuch, ein differenziertes Cepstral-Codebuch und ein kombiniertes Leistungs- und Differenzierte-Leistung-Codebuch. Folglich steigen die Verarbeitungsanforderungen direkt proportional zu der Anzahl der verwendeten Codebücher.
Das beschriebene schnelle Baumstruktur-VQ-Verfahren wurde auf einem SPHINX-System getestet, und die Ergebnisse waren besser als die mit einem konventionellen binären Baumsuch-VQ-Algorithmus erzielten Ergebnisse. Typische Verzerrungswerte sind unten für drei verschiedene Sprecher (A, B und C) angegeben.
Außerdem wurden die Verarbeitungszeiten für beide Verfahren und für die gleichen drei Sprecher wie unten dargestellt gemessen.
Diese Ergebnisse zeigen, daß konventionelle VQ-Verfahren und das schnelle Baumsuch-VQ-Verfahren zu vergleichbaren Verzerrungen führen. Jedoch wurde die Verarbeitungsgeschwindigkeit um einen Faktor von mehr als 9 verbessert.
In der vorangegangenen Beschreibung wurde die Erfindung in Bezug auf spezielle Ausführungsbeispiele beschrieben. Es ist jedoch klar, daß verschiedene Modifikationen und Änderungen möglich sind, ohne den in den beiliegenden Patentansprüchen angegebenen breiteren Erfindungsgedanken bzw. – bereich zu verlassen. Die Beschreibung und die Zeichnungen sollen deshalb nur der Veranschaulichung und nicht der Einschränkung dienen.

Claims

Verfahren zum Konvertieren eines Kandidatenvektorsignals in ein Vektorquantisierungssignal, wobei das Kandidatenvektorsignal einen Kandidatenvektor mit mehreren Elementen und das Vektorquantisierungssignal einen Vektor eines Codebuches oder einen diesen Vektor kennzeichnenden Index darstellt, wobei eine binäre Baumstruktur erzeugt wird, der die Codebuch-Vektoren zugeordnet werden, wobei zum Konvertieren – das Kandidatenvektorsignal einer Einrichtung zum binären Durchsuchen der Baumstruktur eingegeben wird, – die binäre Baumstruktur bis zum Erreichen eines Blattknotens durchlaufen wird, wobei an jedem Zwischenknoten ein Vergleich ausgeführt und in Abhängigkeit vom Vergleichsergebnis ein Zweig ausgewählt wird, und – in Abhängigkeit vom erreichten Blattknoten ein Codebuch-Vektor ausgewählt und ein entsprechendes Vektorquantisierungssignal erzeugt wird, dadurch gekennzeichnet, daß eine binäre Baumstruktur erzeugt wird, bei der jedem Zwischenknoten ein Schwellwert und eine Kennzeichnung eines ausgewählten Elements des Kandidatenvektors, das mit dem Schwellwert beim Durchlaufen der Baumstruktur zu vergleichen ist, und jedem Blattknoten eine Untermenge der Codebuch-Vektoren zugeordnet wird, daß beim Durchlaufen der binären Baumstruktur das jeweilige Element (e(l,k)) des Kandidatenvektorsignals ausgewählt (402) und mit dem jeweiligen Schwellwert (T(l,k)) verglichen wird (404), und daß nach Erreichen eines Blattknotens ein Codebuch-Vektor aus der dem erreichten Blattknoten zugeordneten Untermenge der Codebuch-Vektoren ausgewählt wird.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß der Kandidatenvektor ein Cepstral-Vektor, ein Leistungsvektor, ein Cepstral-Differenzvektor oder ein Leistungsdifferenzvektor ist.
Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß nach Erreichen eines Blattknotens derjenige Codebuch-Vektor ausgewählt wird, der dem Kandidatenvektor am nächsten liegt.
Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß beim Auswählen eine Distanz zwischen dem Kandidatenvektor und jedem Codebuch-Vektor der dem Blattknoten zugeordneten Untermenge der Codebuch-Vektoren bestimmt wird.
Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß beim Erzeugen der binären Baumstruktur jedem Blattknoten ein Histogramm zugeordnet wird, wobei das Histogramm für jeden Codebuch-Vektor der jeweiligen Untermenge von Codebuch-Vektoren eine Häufigkeit angibt, mit der während einer Trainingsphase zugeführte Trainingskandidatenvektoren, die dem jeweiligen Codebuch-Vektor der Untermenge am nächsten liegen, nach Durchlaufen der Baumstruktur den jeweiligen Blattknoten erreichten, wobei beim Konvertieren nach Erreichen eines Blattknotens ein Codebuch-Vektor ausgewählt wird, indem: (i) einer der Codebuch-Vektoren ausgewählt wird, der in dem Histogramm einen höchsten Zählwert aufweist; (ii) eine Distanz zwischen dem Kandidatenvektor und dem im Schritt (i) ausgewählten Codebuch-Vektor bestimmt wird; (iii) ein weiterer der Codebuch-Vektoren ausgewählt wird, der in dem Histogramm den nächsthöheren Zählwert aufweist; (iv) wenigstens eine partielle inkerementale Distanz zwischen dem Kandidatenvektor und dem im Schritt (iii) bestimmten Codebuch-Vektor bestimmt wird; (v) die Schritte (iii) und (iv) wiederholt werden, bis eine vorgegebene Anzahl von Codebuch-Vektoren der Untermenge der Codebuch-Vektoren ausgewählt worden ist; und (vi) derjenige der Codebuch-Vektoren ausgewählt wird, der eine minimale Distanz aufweist.
Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß die binäre Baumstruktur erzeugt wird, indem: (a) ein binäres Baumstruktur-Codebuch mit Zwischenknoten und Blattknoten auf der Grundlage einer ausgewählten Menge von Trainings-Kandidatenvektoren erzeugt wird, das eine indexierte Liste von Vektorquantisierungsschwerpunkten aufweist, einschließlich einer Liste von jedem Knoten zugeordneten Schwerpunkten und einer Liste von jedem Trainingsvektor zugeordneten Codebuch-Indizes; (b) ein Element aus jedem Schwerpunktvektor an einem vorgegebenen Knoten derart ausgewählt wird, daß dann, wenn ein vorgegebener Wert des ausgewählten Elements als Schwellwert verwendet würde, die Trainings-Kandidatenvektoren näherungsweise gleichmäßig zwischen den zwei möglichen, von dem gegebenen Knoten wegführenden Pfaden aufgeteilt würden; (c) eine neue binäre Baumstruktur erzeugt wird, indem jedem Zwischenknoten eine Kennzeichnung des ausgewählten im Schritt (b) Elements und der zugehörige Schwellwert zugeordnet wird, und die neue Baumstruktur gespeichert wird; (d) für jeden Trainings-Kandidatenvektor der Menge von Trainings-Kandidatenvektoren eine binäre Suche in der neuen Baumstruktur ausgeführt wird, wobei: (i) für jeden in der Binärsuche durchlaufenen Zwischenknoten das zugehörige ausgewählte Element jedes Trainings-Kandidatenvektors mit dem zugehörigen Schwellwert verglichen wird; und (ii) in Abhängigkeit von dem Vergleichsergebnis die binäre Baumstruktur bis zum Erreichen eines Blattknotens durchlaufen wird; (e) für jeden Blattknoten ein Häufigkeits-Histogramm der den Trainings-Kandidatenvektoren, die bei dem Durchlaufen der Binärstruktur den jeweiligen Blattknoten erreichten, zugeordneten Codebuch-Indizes erstellt wird, wobei die jedem Blattknoten auf diese weise zugeordneten Codebuch-Indizes mit ihren Häufigkeiten die dem Blattknoten zugeordnete Untermenge der Codebuch-Vektoren identifizieren.
Verfahren nach Anspruch 8, dadurch gekennzeichnet, daß die Histogrammhäufigkeiten normiert werden, so daß sie Wahrscheinlichkeiten wiedergeben.
Vorrichtung zum Konvertieren eines Kandidatenvektorsignals in ein Vektorquantisierungssignal, wobei das Kandidatenvektorsignal einen Kandidatenvektor mit mehreren Elementen und das Vektorquantisierungssignal einen Vektor eines Codebuchs oder einen diesen Vektor kennzeichnenden Index darstellt, wobei die Vorrichtung aufweist: (a) einen ersten Speicher (30) zum Speichern von Knoten einer binären Baumstruktur zugeordneten Schwellwert-und Vektorparameter-Kennsätzen, wobei jeder Kennsatz ein Element des Kandidatenvektors und einen zugehörigen Schwellwert kennzeichnet; (b) eine mit dem ersten Speicher (30) gekoppelte Steuerschaltung (40, 38, 36), welche eine binäre Suche durch eine binäre Baumstruktur hindurch ausführt, wobei die Steuerschaltung aufweist: (i) einen Selektor (38), welcher das Kandidatenvektorsignal empfängt und für jeden bei der Ausführung der Binärsuche in der binären Baumstruktur durchlaufenen Zwischenknoten ein diesem Knoten zugeordnetes Element des Kandidatenvektors auswählt, und (ii) einen mit dem ersten Speicher (30) und dem Selektor (38) gekoppelten Komparator (36), welcher das ausgewählte Element mit dem zugehörigen Schwellwert für jeden bei der Ausführung der Binärsuche in der binären Baumstruktur durchlaufenen Zwischenknoten vergleicht, wobei die Steuerschaltung nach Durchlaufen der binären Baumstruktur für das jeweilige Kandidatenvektorsignal einen erreichten Blattknoten identifiziert; und (c) einen zweiten Speicher (32), der mit der Steuerschaltung (40, 38, 36) gekoppelt ist und eine Menge von Codebuchvektoren oder Codebuchvektoren-Indizes in Zuordnung zu jedem Blattknoten der Baumstruktur speichert, wobei die Steuerschaltung die dem identifizierten Blattknoten entsprechende Menge von Codebuchvektoren bzw. Codebuchvektoren-Indizes identifiziert, und (d) eine Auswahleinrichtung (42), die mit der Steuereinrichtung und dem zweiten Speicher (32) gekoppelt ist, das Kandidatenvektorsignal empfängt und in Abhängigkeit von dem Kandidatenvektorsignal einen der Codebuch-Vektoren bzw. Codebuchvektor-Indizes der identifizierten Menge auswählt und das Vektorquantisierungssignal erzeugt.
Vorrichtung nach Anspruch 8, dadurch gekennzeichnet, daß der Kandidatenvektor ein Cepstral-Vektor, ein Leistungsvektor, ein Cepstral-Differenzvektor oder ein Leistungsdifferenzvektor ist.
Vorrichtung nach Anspruch 8 oder 9, dadurch gekennzeichnet, daß die Auswahleinrichtung (42) den Codebuch-Vektor bzw. Codebuch-Vektor-Index auswählt, der dem Kandidatenvektor am nächsten liegt.