DE69516455T2 - Verfahren zur Sprachkodierung mittels linearer Prädiktion - Google Patents

Verfahren zur Sprachkodierung mittels linearer Prädiktion

Info

Publication number
DE69516455T2
DE69516455T2 DE69516455T DE69516455T DE69516455T2 DE 69516455 T2 DE69516455 T2 DE 69516455T2 DE 69516455 T DE69516455 T DE 69516455T DE 69516455 T DE69516455 T DE 69516455T DE 69516455 T2 DE69516455 T2 DE 69516455T2
Authority
DE
Germany
Prior art keywords
signal
quantification
status
state
determined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69516455T
Other languages
English (en)
Other versions
DE69516455D1 (de
Inventor
William Navarro
Sophie Scott
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nortel Networks France SAS
Original Assignee
Matra Nortel Communications SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matra Nortel Communications SAS filed Critical Matra Nortel Communications SAS
Application granted granted Critical
Publication of DE69516455D1 publication Critical patent/DE69516455D1/de
Publication of DE69516455T2 publication Critical patent/DE69516455T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

  • Die vorliegende Erfindung betrifft ein Verfahren zur Sprachkodierung mittels linearer Vorhersage, bei welchem ein Sprachsignal, das in aufeinanderfolgenden Rahmen digitalisiert ist, einer Syntheseanalyse unterzogen wird, um für jeden Rahmen Quantifikationswerte von Syntheseparametern zu erhalten, die es ermöglichen, eine Abschätzung des Sprachsignals wiederherzustellen, wobei die Syntheseanalyse eine lineare Kurzzeit-Vorhersage des Sprachsignals umfaßt, um die Koeffizienten eines Kurzzeit-Synthesefilters zu bestimmen.
  • Die derzeitigen Sprachkodierer mit niedriger Leistung (typischerweise 5 Kbit pro Sekunde für eine Abtastfrequenz von 8 KHz) liefern ihre beste Leistung bei Signalen, die ein "Telefon"-Spektrum darstellen, d. h. in einem Band von 300 bis 3400 Hz und mit einer Vorverstärkung bei den hohen Frequenzen. Diese spektralen Charakteristika entsprechen der Norm IRS (Intermediate Reference System), die durch die CCITT aufgrund der Empfehlung T48 definiert ist. Diese Norm wurde für Telefonverbindungen definiert, ebenso wie für Eingänge (Mikrofon) und Ausgänge (Hörer).
  • Indessen tritt es immer häufiger auf, daß das Eingangssignal eines Sprachkodierers ein zu "flaches" Spektrum darstellt, beispielsweise weil eine freihändige Installation verwendet wird, die ein Mikrofon in Antwort auf lineare Frequenzen verwendet. Gewöhnliche Sprachkodierer sind dafür bekannt, daß sie unabhängig von dem Eingang sind, mit dem sie funktionieren, und sie sind darüberhinaus nicht über die Charakteristika dieses Eingangs informiert. Wenn Mikrofone mit unterschiedlichen Charakteristika geeignet sind, an einem Sprachkodierer angeschlossen zu werden, oder, allgemeiner ausgedrückt, wenn der Sprachkodierer geeignet ist, akustische Signale zu empfangen, die unterschiedliche spektrale Charakteristika darstellen, dann gibt es Fälle, bei denen der Sprachkodierer nicht ganz optimal verwendet wird.
  • In diesem Zusammenhang ist es ein Hauptziel der vorliegenden Erfindung, die Eigenschaften eines Sprachkodierers zu verbessern, indem sie weniger abhängig von den spektralen Charakteristika des Signals gemacht werden, das für diesen bestimmt ist.
  • Die vorliegende Erfindung schlägt ein Sprachkodierverfahren vom o. g. Typ vor, bei dem ein spektraler Status des Sprachsignals unter ersten und zweiten Stati derart bestimmt wird, daß das Signal proportional weniger Energie bei tiefen Frequenzen in dem ersten Status enthält als in dem zweiten Status, und der eine oder der andere von zwei Quantifikationsmodi verwendet wird, um die Quantifikationswerte der Koeffizienten des Kurzzeit- Synthesefilters gemäß dem bestimmten spektralen Status des Sprachsignals zu erhalten.
  • Somit ermöglicht die Bestimmung des spektralen Status die Anpassung des Kodierers an die Charakteristika des Eingangssignals. Die Eigenschaften des Kodierers können verbessert werden oder bei gleichen Eigenschaften können die Anzahl der notwendigen Kodierbits reduziert werden.
  • Vorzugsweise sind die Koeffizienten des Kurzzeit-Synthesefilters durch eine Mehrzahl von p geordneten Frequenzparametern von Spektrallinien dargestellt, die "LSP"-Parameter genannt werden, wobei p die Ordnung der linearen Kurzzeitvorhersage ist. Die Verteilung dieser p LSP-Parameter kann analysiert werden, um über den spektralen Zustand des Signals Auskunft zu erhalten und zur Ermittlung dieses Status beizutragen.
  • Die LSP-Parameter können der Gegenstand einer skalaren oder vektoriellen Quantifizierung sein. Im Falle einer skalaren Quantifizierung wird der i-te LSP-Parameter quantifiziert, indem ein Variationsintervall, das in einem jeweiligen Referenzintervall enthalten ist, in 2Ni Segmente unterteilt wird, wobei Ni die Zahl der Kodierbits ist, die für die Quantifizierung dieses Parameters verwendet wird. Eine erste Möglichkeit ist es, wenigstens für die ersten LSP-Ordnungsparameter Referenzintervalle zu verwenden, wobei jedes aus zwei unterschiedlichen Intervallen gemäß dem bestimmten spektralen Status des Sprachsignals ausgewählt wird. Eine zusätzliche Möglichkeit ist es, wenigstens bestimmten der Anzahlen der Kodierbits Ni den einen oder anderen der zwei unterschiedlichen Werte gemäß dem bestimmten spektralen Status des Sprachsignals zuzuweisen, um eine dynamische Zuordnung der Bits zu bewirken.
  • Im Falle einer direkten vektoriellen Quantifizierung wird die Menge von p-geordneten LSP-Parametern in m Gruppen von aufeinanderfolgenden Parametern unterteilt, und wenigstens die erste Gruppe wird quantifiziert, indem in einer Quantifizierungstabelle ein Vektor ausgewählt wird, der einen minimalen Abstand zu den LSP-Parametern der Gruppen aufweist, wobei diese Quantifizierungstabelle aus zwei unterschiedlichen Quantifizierungstabellen gemäß dem bestimmten spektralen Status des Sprachsignals ausgewählt wird.
  • In dem Fall einer differenziellen vektoriellen Quantifizierung werden die Menge der p geordneten LSP-Parameter in m Gruppen von aufeinanderfolgenden Parametern unterteilt und wenigstens für die erste Gruppe wird eine differenzielle Quantifizierung in Bezug auf einen mittleren Vektor bewirkt, der unter zwei unterschiedlichen Vektoren gemäß dem bestimmten spektralen Status des Sprachsignals ausgewählt wird.
  • Weitere Besonderheiten und Vorteile der vorliegenden Erfindung werden durch die nachfolgende Beschreibung von bevorzugten, jedoch nicht einschränkenden Ausführungsbeispielen mit Bezug auf die beigefügten Zeichnungen ersichtlich, bei denen:
  • - die Fig. 1A und 1B jeweils Übersichtschemata eines Sprachkodierers zur Syntheseanalyse für die Durchführung der Erfindung bzw. eines verbundenen Dekodierers sind;
  • - die Fig. 2 ein Übersichtsschema einer Einheit zur linearen Vorhersage zeigt, die in einem Kodierer der Fig. 1A verwendbar ist;
  • - die Fig. 3 ein Diagramm ist, das die Charakteristika eines akustischen Signals von IRS-Typ und eines Signals vom linearen Typ darstellt;
  • - die Fig. 4 ein Schema einer Ermittlungsvorrichtung des spektralen Status des Signals ist, welche mit dem Kodierer der Fig. 1A verwendbar ist; und
  • - die Fig. 5 Zeitabläufe zeigt, welche den Modus der Ermittlung des Status des Signals durch eine Vorrichtung der Fig. 4 zeigen.
  • Der in Fig. 1A dargestellte Sprachkodierer funktioniert nach dem Prinzip der Syntheseanalyse. Seine allgemeine Anordung ist klassisch außer der Einheit 8 zur Kurzzeit-Vorhersage und der Einheit 20 zur Ermittlung des spektralen Status des Signals. Der Sprachkodierer verarbeitet das verstärkte Ausgangssignal eines Mikrofons 5. Ein Tiefpaßfilter 6 entfernt die Frequenzkomponenten des Signals, die unter einem oberen Limit (beispielsweise 4000 Hz) des durch den Kodierer verarbeiteten Bandpasses liegt. Das Signal wird dann durch einen Analog-Digital-Konverter 7 konvertiert, der ein Eingangssignal SI in der Form von aufeinanderfolgenden Rahmen von 10 bis 30 ms liefert, wobei die Rahmen aus Abtastungen bestehen, die einem Takt von beispielsweise 8000 Hz entnommen sind.
  • Die Syntheseanalyse beruht auf der Modellierung der Sprachfolge eines Sprechers durch einen rein rekursiven Filter mit der Übertragungsfunktion H(z) = 1 / A(z), wobei
  • A(z) = 1 - aiz-i
  • Die Koeffizienten ai dieses Filters (a ≤ i ≤ p) können durch lineare Kurzzeitvorhersage des Eingangssignals erhalten werden, wobei die Zahl p die Ordnung der linearen Vorhersage bezeichnet, die typischerweise = 10 ist für die Sprache in einem schmalen Band. Die Einheit 8 der Kurzzeit-Vorhersage bestimmt die Abschätzungen âi der Koeffizienten ai, welche einer Quantifizierung dieser Koeffizienten durch die Quantifizierungswerte q (ai) entsprechen.
  • Jeder Rahmen des Eingangssignals SI wird dann einem inversen Filter 9 mit der Übertragungsfunktion a (z) zugeführt, anschließend einem Filter 10 mit einer Übertragungsfunk tion 1/a(z/γ), wobei γ einen vorbestimmten Faktor bezeichnet, der im allgemeinen zwischen 0,8 und 0,9 liegt. Der zusammengesetzte kombinierte Filter mit der Übertragungsfunktion W(z) = A(z) / A(z/γ) ist ein Filter der erfaßten Gewichtung des Restfehlers des Kodierers. Die Koeffizienten, die in den Filtern 9 und 10 verwendet werden, sind die Abschätzungen âi, die durch die Einheit 8 der Kurzzeit-Vorhersage geliefert werden.
  • Der Ausgang R1 des inversen Filters 9 besitzt eine Langzeit-Periodizität, die der Tonhöhe (pitch) der Sprache entspricht. In dem betrachteten Beispiel wird der Filter entsprechend durch eine Übertragungsfunktion der Form 1/B (z) mit B(z) = 1 - bz-T modelliert. Das Signal R1 wird einem inversen Filter 11 mit der Übertragungsfunktion B(z) zugeführt, dessen Ausgang R2 mit dem Eingang des Filters 10 verbunden ist. Der Ausgang SW des Filters 10 entspricht somit dem Eingangssignal SI, dessen Langzeit-Korrelation durch den Filter 11 mit der Übertragungsfunktion B(z) beseitigt ist und durch die Filter 9, 10 mit der kombinierten Übertragungsfunktion W(z) merklich gewichtet ist.
  • Der Filter 11 umfaßt ein Subtrahierglied, dessen positiver Eingang das Signal R1 empfängt und dessen negativer Eingang eine Langzeit-Abschätzung empfängt, die dadurch erhalten wird, daß das Signal R1 der T Abtastungen verzögert und verstärkt wird. Das Signal R1 sowie die Langzeit-Abschätzung werden einer Einheit 13 zugeführt, die die Korrelation zwischen zwei Signalen maximiert, um die Verzögerung T und eine optimale Verstärkung b zu bestimmen. Die Einheit 13 sucht alle ganzen Werte und/oder Bruchteile der Verzögerung T zwischen zwei Grenzen ab, um denjenigen auszuwählen, der die normalisierte Korrelation maximiert. Die Verstärkung b leitet sich von dem Wert T ab und wird durch Diskretisierung quantifiziert, was zu einem Quantifikationswert q(b) führt; der quantifizierte Wert , der diesem Quantifikationswert q(b) entspricht, ist derjenige, der als Verstärkung des Verstärkers des Filters 11 geliefert wird.
  • Die Sprachsynthese in dem Kodierer wird durch eine geschlossene Schleife bewirkt, die umfaßt: einen Anregungsgenerator 12, einen Filter 14, der die gleiche Übertragungsfunktion wie der Filter 10 aufweist, einen Korrelator 15 und eine Einheit 19 zum Maximieren der normalisierten Korrelation.
  • Die Eigenschaften des Anregungsgenerators 12 ermöglichen es, zwischen unterschiedlichen Typen von Kodierern zur Syntheseanalyse gemäß der Form der Anregung zu unterscheiden. Es werden somit die Kodierverfahren zur Analyse durch lineare Vorhersage und Multi-Puls-Anregung (MPLPC), wobei ein Beispiel hiervon in dem Dokument EP-A- 0195487 gegeben ist, und die Kodierverfahren zur Analyse durch lineare Vorhersage und vektorielle Anregung (CELP), die dafür bekannt sind, gute Eigenschaften aufzuweisen, da eine geringe Übertragungsgeschwindigkeit erforderlich ist, wobei ein Beispiel in dem Artikel von Schroeder und Atal "Code Excited Linear Prediction (CELP): High Quality Speech at Very Low Bits Rates", Proc. ICASSP, März 1985, S. 937-940 gegeben ist. Die unterschiedlichen Arten der Modellierung der Anregung sind im Rahmen der vorliegenden Erfindung verwendbar. Die Anmelderin hat eine Anregung durch reguläre Impulsfolgen oder RPCELP verwendet, wie es in der europäischen Patentanmeldung Nr. 0.347.307 beschrieben ist. Bei der Verwendung eines Kodierers des Typs CELP wird die Anregung durch eine Eingangsadresse k in einem Verzeichnis von Anregungsvektoren und durch eine verbundene Verstärkung G dargestellt.
  • Der ausgewählte und verstärkte Anregungsvektor wird einem Filter 14 mit einer Übertragungsfunktion 1/A(z/γ) zugeführt, dessen Koeffizienten âi (1 ≤ i ≤ p) durch die Einheit 8 der Kurzzeit-Vorhersage geliefert werden. Das resultierende Signal S*W wird einem Eingang eines Korrelators 15 zugeführt, dessen anderer Eingang das Ausgangssignal SW des Filters 10 empfängt. Der Ausgang des Korrelators 15 wird durch die normalisierte Korrelation gebildet, die durch die Einheit 19 maximiert wird, was wiederum den Kodierfehler minimiert. Die Einheit 19 wählt die Adresse k und die Verstärkung G des Anregungsgenerators aus, welche die von dem Korrelator 15 ausgegebene Korrelation maximieren. Die Maximierung besteht darin, die optimale Adresse k und die Verstärkung G zu bestimmen, die sich von k ableitet. Die Einheit 19 führt eine Quantifizierung durch Diskretisierung des digitalen Wertes der Verstärkung G durch, was zu einem Quantifikationswert q(G) führt. Der quantifizierte Wert , der diesem Quantifikationswert q(G) entspricht, ist derjenige, der als Verstärkung des Verstärkers des Anregungsgenerators 12 geliefert wird. Die maximierte Korrelation zieht die durch die Übertragungsfunktion W(z) = A(z) / A(z/γ) erfaßte Gewichtung in Betracht, wobei festgestellt worden ist, daß diese Übertragungsfunktion auf das Eingangssignal SI durch die Filter 9 und 10, genauso wie auf das synthetisierte Signal auf der Grundlage des Anregungsvektors angewendet wird, da das Signal S*W, als Ergebnis des verstärkten Anregungsvektors betrachtet werden kann, auf den aufeinanderfolgend die Übertragungsfunktionen H(z) = 1/A(z) des Kurzzeit- Synthesefilters und W(z) = A(z) / A(z/γ) des Filters der erfaßten Gewichtung angewendet werden.
  • Der Anregungsvektor, der aus dem Verzeichnis des Generators 12 ausgewählt wird, die damit verbundene Verstärkung G, die Parameter b und T des Langzeit-Filters 13 und die Koeffizienten ai des Filters der Kurzzeit-Vorhersage, an denen ein Statusbit Y angehängt ist, wie weiter unten beschrieben wird, bilden die Syntheseparameter, deren Quantifikationswerte k, q (G), q (b), T, q (ai), Y an den Empfänger ausgegeben werden, um die Wiederherstellung einer Abschätzung des Sprachsignals SI zu ermöglichen. Diese Quantifikationswerte werden auf dem gleichen Kanal durch den Multiplexer 21 im Hinblick auf die Emission vereinigt.
  • Der in Fig. 1B dargestellte verbundene Dekodierer umfaßt eine Einheit 50, welche die quantifizierten Werte k, , T, , âi auf der Basis der erhaltenen Quantifizierungswerte wiederherstellt. Ein Anregungsgenerator 52, der identisch zu dem Generator 12 des Kodierers ist, empfängt die quantifizierten Werte der Parameter k und G. Der Ausgang des Generators 52 (der eine Abschätzung von R2 ist), wird dem Filter der Langzeit-Vorhersage 53 mit der Übertragungsfunktion 1/B(z) zugeführt, dessen Koeffizienten die quantifizierten Werte der Parameter T und b sind. Der Ausgang des Filters 53 (der eine Abschätzung von R1 ist) wird dem Filter der Kurzzeit-Vorhersage 54 mit einer Übertragungsfunktion 1/A (z) zugeführt, dessen Koeffizienten die quantifizierten Werte der Parameter ai sind. Das resultierende Signal ist die Abschätzung des Eingangssignal SI des Kodierers.
  • Fig. 2 zeigt ein Beispiel der Anordnung der Einheit 8 der Kurzzeit-Vorhersage des Kodierers. Die Koeffizienten der Modellierung ai werden für jeden Rahmen berechnet, bei spielsweise für das Autokorrelationsverfahren. Der Block 40 berechnet die Autokorrelationen
  • R(j) = SI(n) · SI(n + j)
  • für 0 ≤ j ≤ p, wobei n den Index einer Abtastung des momentanen Rahmens bezeichnet und L die Anzahl der Abtastungen pro Rahmen ist. In klassischer Weise ermöglichen diese Autokorrelationen die rekursive Berechnung der optimalen Koeffizienten ai mittels des Algorithmus von Levinson-Durbin (siehe J. Makhoul: "Linear Prediction: A Tutorial Review", Proc. IEEE, Band 63, Nr. 4, April 1975, S. 561-580), der auf folgende Art und Weise ausgedrückt werden kann:
  • E(0) = R(0)
  • für i = 1 bis p:
  • ki = [R(i) - aj(i-1) R(i - j)]/ E(i - 1)
  • ai(i) = ki
  • E(i) = (1 - ki²) E(i - 1)
  • aj(i) = aj(i-1) - kiai-j(i-1) für 1 ≤ j ≤ i - 1
  • Die endgültige durch den Block 41 erhaltene Lösung ist gegeben durch: ai = ai(p) für 1 ≤ i ≤ p. In dem obigen Algorithmus ist die Größe E(p) der Restfehler der linearen Vorhersage und die Größen ki, die zwischen -1 und + 1 liegen, werden die Reflexionskoeffizienten genannt.
  • Hinsichtlich der Übertragung der erhaltenen Koeffizienten körnen diese durch unterschiedliche Quantifizierungsparameter dargestellt werden: Die Vorhersagekoeffizienten selbst ai, die Reflexionskoeffizienten ki oder noch die logarithmischen Beziehungen LAR, die gegeben sind durch:
  • LARi = log&sub1;&sub0; [(1 + ki) / (1 - ki)]
  • Die derart erhaltenen Darstellungsparameter sind quantifiziert, um die Anzahl der Bits, die für ihre Identifikation notwendig sind, zu reduzieren.
  • Die Erfindung schlägt vor, den spektralen Status des Sprachsignals unter einem ersten Status YA (Y = 0, Typ IRS) und einem zweiten Zustand YB (Y = 1, linearer Typ) derart zu bestimmen, daß das Signal proportional weniger Energie bei tiefen Frequenzen in dem ersten Status YA enthält als in dem zweiten Status YB und der eine oder der andere der zwei unterschiedlichen Quantifikationsmodi angewendet wird, um die Quantifikationswerte der Koeffizienten des Kurzzeit-Synthesefilters gemäß dem bestimmten spektralen Status zu erhalten.
  • In der Fig. 3 entsprechen die zwei durchgezogenen Linien der Eingrenzung der Norm IRS, die für die Mikrofone in der Empfehlung P48 der CCITT definiert ist. Man erkennt, daß ein Signal des Mikrofons des Typs IRS eine starke Anhebung in dem unteren Bereich des Spektrums (zwischen 0 und 300 Hz) liefert und eine relative Anhebung in den oberen Frequenzen. Zum Vergleich liefert ein Signal des linearen Typs, das beispielsweise durch das Mikrofon einer freihändigen Installation bereitgestellt wird, ein flacheres Spektrum, welches insbesondere keine starke Anhebung in den niedrigen Frequenzen aufweist (ein typisches Beispiel eines solchen Signals vom linearen Typ ist durch eine gestrichelte Linie in dem Diagramm der Fig. 3 gezeigt).
  • Diese spektralen Eigenschaften werden vorteilhaft in der Ermittlungsvorrichtung 20 verwendet, die in Fig. 1A dargestellt ist, in der Fig. 4 detailliert gezeigt ist und Rahmen für Rahmen das Statusbit Y liefert.
  • Die Ermittlungsvorrichtung 20 umfaßt einen Hochpaßfilter 16, der das akustische Eingangssignal SI empfängt und ein gefiltertes Signal SI' liefert. Der Filter 16 ist typischerweise ein digitaler Filter vom Bi-quadarat-Typ, der einen abrupten Cutoff bei 400 Hz aufweist. Die Energien E1 und E2, die in jedem Rahmen des akustischen Eingangssignals SI und des gefilterten Signals SI' enthalten sind, werden durch zwei Einheiten 17, 18 berechnet, wobei jede die Summe der Quadrate der Abtastungen von jedem Rahmen, den sie erhält, ausführt.
  • Die Energie E1 von jedem Rahmen des Eingangssignals SI ist an den Eingang eines Schwellenkomparators 25 adressiert, der ein Bit Z vom Wert 0 liefert, solange die Energie E1 niedriger als eine vorbestimmte Energieschwelle ist, und den Wert 1 liefert, wenn die Energie E1 größer als die Schwelle ist. Die Energieschwelle ist typischerweise von der Ordnung -38 dB in Bezug auf die Sättigungsenergie des Signals. Der Komparator 25 dient zum Anhalten der Bestimmung des Status des Signals, wenn dieses zu wenig Energie enthält, um repräsentativ für die Charakteristika der Quelle zu sein. In diesem Fall bleibt der bestimmte Status des Signals unverändert.
  • Die Energien E1 und E2 werden an eine digitale Teilungsvorrichtung 26 adressiert, die das Verhältnis E2/E1 für jeden Rahmen berechnet. Dieses Verhältnis E2/E1 wird an einen anderen Schwellenkomparator 27 adressiert, der ein Bit X mit dem Wert 0 liefert, wenn das Verhältnis E2/E1 größer als eine vorbestimmte Schwelle ist, und den Wert 1, wenn das Verhältnis E2/E1 niedriger als die Schwelle ist. Die Schwelle bei dem Verhältnis E2/E1 ist typischerweise von der Ordnung 0,93. Das Bit X repräsentiert einen Zustand des Signals in jedem Rahmen. Die Bedingung X = 0 entspricht den Charakteristika IRS des Eingangssignals (Status YA) und die Bedingung X = 1 entspricht den linearen Charakteristika (Status YB). Um wiederholte Veränderungen des Status und Veränderungen, die unpassend beim Auftreten der Kurzzeit-Variationen der Sprachanregung sind, zu vermeiden, wird das Bit des Status Y nicht direkt gleich dem Bit des Zustandes X gesetzt, sondern es resultiert in einer Verarbeitung der aufeinanderfolgenden Zustandsbits X durch eine Schaltung 29 zur Bestimmung des Status, die es erlaubt, den bestimmten Status Y nur zu modifizieren, nachdem mehrere aufeinanderfolgende Rahmen einen Zustand des Signals X zeigen, der unterschiedlich von demjenigen ist, der dem vorher bestimmten Status entspricht.
  • Die Funktionsweise der Schaltung 29 zur Bestimmung des Status ist in Fig. 5 gezeigt, in der das obere Zeitablaufdiagramm ein Beispiel einer Entwicklung des Bits X zeigt, das durch den Komparator 27 geliefert wird. Das Statusbit Y (unteres Zeitablaufdiagramm) wird bei 0 initialisiert, denn die Charakteristika IRS sind die am häufigsten auftretenden. Es wird Rahmen für Rahmen eine Zählvariable V berechnet, die anfänglich auf 0 gesetzt ist. Die Variable V wird um eine Einheit jedesmal inkrementiert, wenn der Zustand X des Signals in einem Rahmen von demjenigen abweicht, der dem bestimmten Status Y (X = 1 und Y = 0, oder X = 0 und Y = 1) entspricht. In dem umgekehrten Fall (X = Y = 0 oder 1) wird die Variable V mit zwei Einheiten dekrementiert, wenn sie unterschiedlich von 0 und 1 ist, um eine Einheit dekrementiert, wenn sie 1 ist, und unverändert gelassen, wenn sie 0 ist. Sobald die Variable V eine vorbestimmte Schwelle erreicht (8 in dem betrachteten Beispiel), wird sie auf 0 zurückgesetzt und der Wert des Bits Y wird verändert, und zwar derart, daß bestimmt wird, daß das Signal den Zustand verändert hat. Somit ist das Signal in dem in Fig. 5 dargestellten Beispiel in dem Status YA bis zum Rahmen M, in dem Status YB zwischen den Rahmen M und N (Veränderung der Quelle des Signals), und anschließend wieder in dem Status YA ab dem Rahmen N. Selbstverständlich können auch andere Modi der Inkrementierung und Dekrementierung und andere Schwellenwerte verwendet werden.
  • Der obige Zählmodus kann beispielsweise durch die Schaltung 29 erhalten werden, die in Fig. 4 dargestellt ist. Diese Schaltung umfaßt einen Zähler 32 mit 4 Bits, wobei das Bit mit der höchsten Wertigkeit dem Bit des Zustands Y entspricht und die drei Bits mit den niedrigen Wertigkeiten die Zählvariable V darstellen. Die Bits X und Y werden an den Eingang eines AUSSCHLIESSLICH ODER -Gatters 33 geliefert, dessen Ausgang an den Inkrementierungseingang des Zählers 32 mittels eines UND-Gatters 34 adressiert wird, dessen anderer Eingang das Bit Z empfängt, das durch den Schwellenkomparator 25 geliefert wird. Somit wird die Variable V inkrementiert, wenn X ≠ Y und Z = 1 ist. Der inverse Ausgang des Gatters 33 ist mit dem Dekrementierungseingang des Zählers 32 verbunden, und zwar über ein weiteres UND-Gatter 35, dessen zwei andere Eingänge das Bit Z, das durch den Komparator 25 geliefert wird, bzw. den Ausgang eines ODER-Gatters 36 mit drei Eingängen empfangen, welches die drei Bits mit niedriger Wertigkeit des Zählers 32 empfängt. Der Zähler 32 ist angeordnet, die erhaltenen Impulse an seinem Dekrementierungseingang zu teilen, wenn sein Bit mit der höchsten Wertigkeit 0 ist oder wenn eines von wenigstens zwei aufeinanderfolgende Bits 1 ist, wie es schematisch durch das ODER-Gatter 37 in Fig. 4 dargestellt ist. Somit wird der Zähler 32 dekrementiert (um eine Einheit, wenn V = 1 und um zwei Einheiten, wenn V > 1 ist), wenn X = Y und Z = 1 und V ≠ 0. Wenn die Energie des Eingangssignals nicht ausreichend ist, ist Z = 0 und die Ermittlungsschaltung 29 ist nicht aktiv, da die UND-Gatter 34, 35 die Modifikation des Zählwertes 32 verhindern.
  • Das derart bestimmte Statusbit Y wird an eine Einheit 8 zur linearen Kurzzeit-Vorhersage geliefert, um den Quantifikationsmodus der Koeffizienten des Kurzzeit-Synthesefilters zu wählen.
  • In dem bevorzugten, in Fig. 2 dargestellten Beispiel sind die Parameter, die verwendet werden, um die Koeffizienten ai des Kurzzeit-Synthesefilters darzustellen, die Frequenzen der Spektrallinien (LSF) oder Paare von Spektrallinien (LSP). Es ist bekannt, daß diese Parameter gute statistische Eigenschaften aufweisen und einfach die Stabilität des Synthesefilters sicherstellen (siehe N. Sugamura und F. Itakura: "Speech Analysis And Synthesis Method Developed At ECL in NTT: From LPC to LSP", Speech Communication, North Holland, Band S. Nr. 2, 1986, S. 199-215). Die LSP-Parameter werden auf der Grundlage von Polynomen Q(z) und Q*(z) erhalten, die wie folgt definiert sind:
  • Q(z) = A(z) + z-1(p+1) · A(z&supmin;¹)
  • Q*(z) = A(z) - z-(p+1) · A(z&supmin;¹)
  • Es zeigt sich, daß die komplexen Wurzeln dieser beiden Polynome auf dem Einheitskreis liegen und daß, wenn man den Einheitskreis entlanggeht, die Wurzeln von Q(z) sich mit denjenigen von Q*(z) abwechseln. Die p Wurzeln, die nicht z = +1 und z = -1 sind, lauten e2πjfi mit j² = -1, wobei die p Frequenzen fi als die Frequenzen der Spektrallinien definiert sind, die relativ zu der Abtastfrequenz normalisiert sind. Die normalisierten Frequenzen fi liegen zwischen 0 und 0,5 und sind derart geordnet, daß jedes Paar von aufeinanderfolgenden Frequenzen eine Frequenz umfaßt, die einer Wurzel von Q(z) entspricht, sowie eine Frequenz, die einer Wurzel von Q*(z) entspricht. In dieser Modellierung umfassen die Spektrallinien eines Paars eine Komponente des Sprachsignals und ihr Abstand ist umgekehrt proportional zur Resonanzamplitude dieser Komponente.
  • Die LSP-Parameter werden durch den Block 42 anhand der Vorhersagekoeffizienten ai berechnet, die durch den Block 41 mittels der Chebyshev-Polynome erhalten werden (siehe P. Kabal und R. P. Ramachandran: "The Computation of Line Spectral Frequencies Using Chebyshev Polynomials", IEEE Trans. ASSP, Band 34, Nr. 6, 1986, S. 1419- 1426). Sie können genauso direkt anhand der Autokorrelationen des Signals erhalten werden, und zwar durch den aufgespaltenen Algorithmus von Levinson (siehe P. Delsarte und Y. Genin: "The Split Levinson Algorithm", IEEE Trans. ASSP, Band 34, Nr. 3, 1986).
  • Der Block 43 bewirkt die Quantifizierung der LSF-Frequenzen oder, präziser ausgedrückt, der Werte cos2πfi, die nachfolgend die LSP-Parameter genannt werden und zwischen -1 und + 1 liegen, was die dynamischen Probleme vereinfacht. Das Berechnungsverfahren der LSF-Frequenzen erlaubt es, diese in der Ordnung der zunehmenden Frequenzen, d. h. der abnehmenden Cosinus, zu erhalten.
  • Es gibt für diese LSP-Parameter zwei große Familien von Quantifizierungsverfahren: Die skalare Quantifizierung, bei der jeder Parameter separat durch den nächstliegenden quantifizierten Wert dargestellt wird, und die vektorielle Quantifizierung, die in einer oder mehreren Gruppen von Parametern bewirkt wird, wobei für jede von diesen in einem multidimensionalen Verzeichnis der nächstliegende Vektor gesucht wird.
  • Im Falle einer vektoriellen Quantifizierung für eine LPC-Analyse der Ordnung p = 10 werden beispielsweise m = 3 unabhängige vektorielle Quantifizierungen mit jeweiligen Dimensionen 3, 3 und 4 bewirkt, welche die LSP-Gruppen I (1, 2, 3), II (4, 5, 6) und III (7, 8, 9, 10) definieren. Jede Gruppe wird quantifiziert, indem in einer jeweiligen vorher registrierten Quantifizierungstabelle der Vektor, der den minimalen euklidischen Abstand mit den Parametern dieser Gruppe darstellt, ausgewählt wird.
  • Für die Gruppe I werden zwei disjunkte Quantifizierungstabellen TI,1 und TI,2 mit den jeweiligen Größen 2n1 und 2n2 definiert. Für die Gruppe II werden zwei Quantiflzierungstabellen TII,1 und TII,2 mit den jeweiligen Größen 2p1 und 2p2 definiert, welche einen gemeinsamen Anteil aufweisen, um den notwendigen Speicherbereich zu vermindern. Für die Gruppe III wird eine einzige Quantifizierungstabelle TIII der Größe 2q definiert. Die Adressen ADI, ADII, ADIII der drei Vektoren, die aus den drei Quantifizierungstabellen bezüglich der drei Gruppen hervorgehen, bilden die Quantifikationswerte q(ai) der Koeffizienten des Kurzzeit-Synthesefilters, die an den Multiplexer 21 adressiert sind. Der Block 43, der die Quantifizierung der LSP-Parameter durchführt, wählt die Tabellen TI,1 und TI,1 aus, um die Quantifizierungsvektoren der Gruppen I und II zu suchen, wenn Y = 0 ist (Signal des Typs IRS). Folglich werden Abtastungen der Tabellen TI,1 und TII,1 derart erzeugt, daß ihre Statistiken für die Quantifizierung eines Signals vom Typ IRS optimiert sind. Wenn Y = 1 ist (linearer Status), wählt der Block 43 die Tabellen TI,2 und TII,2 aus, deren Statistik festgelegt ist, um ein Eingangssignal des linearen Typs darzustellen. Für die Gruppe III wird die Tabelle TIII in jedem Fall verwendet, denn der obere Bereich des Spektrums ist weniger empfindlich auf Unterschiede zwischen den IRS-Charakteristika und den linearen Charakteristika. Das Statusbit Y wird ebenfalls dem Multiplexer 21 zugeführt.
  • Eine Einheit 45 berechnet die Abschätzungen âi auf der Grundlage von diskretisierten Werten der LSP-Parameter, die durch die drei festgehaltenen Vektoren gegeben sind. Die LSP-Parameter cos2πfi erlauben es auf einfache Weise, die Koeffizienten des Kurzzeit- Synthesefilters zu berechnen, und zwar unter der Vorgabe:
  • Q(z) = (1 + z&supmin;¹) II (1 - 2cos(2πfi)z&supmin;¹ + z&supmin;²);
  • i = 1, 3, ...., p - 1
  • Q*(z) = (1 - z&supmin;¹) II (1 - 2cos(2πfi)z&supmin;¹ + z&supmin;²);
  • i = 2, 4, ....... p
  • und A(z) = [Q(z) + Q*(z)]/2
  • Die derart erhaltenen Abschätzungen âi werden durch die Einheit 45 an die Kurzzeit-Filter 9, 10 und 14 des Kodierers geliefert. In dem Dekodierer wird die gleiche Berechnung über die Wiederherstellungseinheit 50 ausgeführt, wobei die quantifizierten Vektoren des cosinus anhand der Quantifizierungsadressen ADI, ADII und ADIII wiederhergestellt werden. Der Dekodierer umfaßt die gleichen Quantifizierungstabellen wie der Kodierer und ihre Auswahl wird durch die Funktion des erhaltenen Statusbits Y bewirkt.
  • Außer der Optimierung der Eigenschaften des Kodierers weist die Verwendung der zwei Familien von ausgewählten Quantifizierungstabellen gemäß dem spektralen Status Y den Vorteil auf, daß eine bessere Leistung in Bezug auf die Anzahl der erforderlichen Kodierbits bewirkt wird. Tatsächlich ist die Gesamtanzahl der verwendeten Bits bei gleicher Leistung für die Quantifizierung der LSP-Parameter für jeden der Fälle geringer als die Anzahl der notwendigen Bits, da eine einzelne Familie von Tabellen unabhängig von der Ermittlung des spektralen Status verwendet wird. In dem typischen Fall, bei dem n1 = 8, n2 = 7, p1 = 9, p2 = 10 und q = 8, ist die Anzahl der notwendigen Bits zur Kodierung der LSP-Parameter n1 + p1 + q + 1 = 26, wenn Y = 0, und n2 + p2 + q + 1 = 26, wenn Y = 1 (was die gleiche globale Leistung sicherstellt, während, um eine genauso gute Statistik zu erreichen, ohne den Status Y einzubeziehen, wenigstens n + p + q = 10 + 11 + 8 = 29 Adressbits erforderlich wären).
  • In einer Abwandlung kann der Block 43 angeordnet sein, um eine differenzielle vektorielle Quantifizierung zu bewirken. Jede Gruppe von Parametern I, II, III werden dann differenziell in Bezug auf einen mittleren Vektor quantifiziert. Für die Gruppe I werden zwei mittlere unterschiedliche Vektoren VI,1 und VI,2 und eine Quantifizierungstabelle mit unterschiedlichen TDI definiert. Für die Gruppe II werden zwei unterschiedliche mittlere Vektoren VII,1 und VII,2 und eine Quantifizierungstabelle mit unterschiedlichen TDII definiert. Für die Gruppe III werden ein einziger mittlerer Vektor VIII und eine Quantifizierungstabelle mit unterschiedlichen TDIII definiert. Die mittleren Vektoren VI,1 und VII,1 sind eingerichtet, um eine Statistik von Signalen des Typs IRS darzustellen, während die mittleren Vektoren VI,2 und VII,2 eingerichtet sind, um eine Statistik von Signalen vom linearen Typ darzustellen. Der Block 43 führt die differenzielle Quantifizierung der Gruppen I und II in Bezug auf die Vektoren VI,1 und VII,1 durch, wenn Y = 0 (Status IRS), und in Bezug auf die Vektoren VI,2 und VII,2, wenn Y = 1 (linearer Status). Der Vorteil dieser differenziellen Quantifizierung ist, daß sie es ermöglicht, in dem Kodierer und dem Dekodierer nur eine einzige Quantifizierungstabelle pro Gruppe abzuspeichern. Die Quantifikationswerte q(ai) sind die Adressen der drei optimalen Differenzvektoren in den drei Tabellen, an die das Bit Y hinzugefügt wird, welches bestimmt, welches die mittleren Vektoren sind, die an diese Differenzvektoren hinzuzufügen sind, um die quantifizierten LSP- Parameter wiederherzustellen.
  • Wenn eine skalare Quantifizierung durchgeführt wird, wird jeder Parameter separat durch den nächstliegenden quantifizierten Wert dargestellt. Es werden für jeden LSP-Parameter cos2&pi;fi eine obere Grenze Mi und eine untere Grenze mi derart definiert, daß in einer großen Anzahl von Sprachabtastungen ungefähr 90% der aufgetretenen Werte von cos2&pi;fi zwischen mi und Mi enthalten sind. Das Referenzintervall zwischen zwei Grenzen wird in 2Ni gleiche Segmente unterteilt, wobei Ni die Anzahl der Kodierbits ist, die zu der Quantifizierung des Parameters cos2&pi;fi verwendet werden. Nachdem der erste LSP-Parameter cos2&pi;f&sub1; quantifiziert worden ist, wird die Eigenschaft der Ordnung der Frequenzen fi verwendet, um in bestimmten Fällen die obere Grenze Mi durch den quantifizierten Wert des vorhergehenden 2&pi;fi-1 zu ersetzen. Das heißt, für 1 < i &le; p wird die Quantifizierung des cos2&pi;fi bewirkt, indem das Intervall der Variation [mi, min{Mi, 2&pi;fi-1] in 2Ni gleiche Segmente unterteilt wird. Die Quantifizierung eines LSP-Paramters cos2&pi;fi in seinem Variationsintervall besteht darin, die Anzahl ni der Ni Bits derart zu bestimmen, das cos2&pi;fi im ni-ten Segment des Referenzintervalls liegt (falls cos2&pi;fi < mi, wird ni = 1 genommen).
  • Die Ermittlung des spektralen Status des Signals ermöglicht es, zwei Familien von Referenzintervallen [mi,1, Mi,1] und [mi,2, Mi,2] für die r ersten Parameter (1 &le; i &le; r &le; p) zu definieren. Die Familie [mi,1, Mi,1] ist statistisch in Bezug auf die Abtastungen der Signale vom Typ IRS eingerichtet und wird ausgewählt, um die Quantifizierung durchzuführen, wenn Y = 0 (Status IRS). Die Familie [mi,2, Mi,2] ist statistisch in Bezug auf die Abtastungen des Signals vom linearen Typ eingerichtet und ausgewählt, um die Quantifizierung durchzuführen, wenn Y = 1 (linearer Status). Diese zwei Familien werden auf einmal in dem Kodierer und dem Dekodierer gespeichert.
  • Eine andere Möglichkeit, welche die vorhergehende ergänzen oder ersetzen kann, besteht darin, für bestimmte der Parameter Anzahlen von unterschiedlichen Kodierbits Ni zu definieren, je nachdem, ob das Signal vom Typ IRS oder linear ist. Für die gleiche Gesamtanzahl von Kodierbits können inbesondere kleinere Anzahlen von Ni in dem Fall IRS genommen werden als in dem linearen Fall für die ersten LSP-Parameter (die größten cosinus), vorausgesetzt, daß die Dynamik der ersten LSP-Parameter in dem Fall IRS vermindert ist, wobei die Verminderung der ersten Ni durch eine Erhöhung der mit den letzten LSP-Parametern verbundenen Ni kompensiert wird, was die Feinheit der Quantifizierung dieser letzten Parameter erhöht. Diese unterschiedlichen Verteilungen der Kodierbits werden einmal in dem Kodierer und dem Dekodierer gespeichert, wobei die LSP-Parameter wiederaufgefunden werden können, indem das Statusbit Y geprüft wird.
  • Indem die Vorrichtung 20 ersetzt oder ergänzt wird, können die berechneten LSP-Parameter verwendet werden, um zu bestimmen, welcher der spektrale Status Y des Eingangssignals ist. Dies ist durch den Block 44 in der Fig. 2 dargestellt. In der Tat umfassen die Spektrallinien von jedem Paar einen Bestandteil des Sprachsignals und ihr Abstand ist umgekehrt proportional zur Resonanzamplitude. Man erkennt, daß derartige LSP-Parameter direkt eine ziemlich präzise Vorstellung von der spektralen Entwicklung des Sprachsignals geben können. In dem Fall eines Signals vom Typ IRS ist die Amplitude der in dem unte ren Teil des Spektrums liegenden Resonanzen schwächer als im linearen Fall. Somit kann durch die Analyse der Unterschiede zwischen den ersten aufeinanderfolgenden LSF-Frequenzen bestimmt werden, ob das Eingangssignal eher vom IRS-Typ (große Abstände) oder linearen Typ (kleinere Abstände) ist. Diese Bestimmung kann für jeden Rahmen des Signals bewirkt werden, um das Bit des Zustandes X zu erhalten, das anschließend durch eine Schaltung zur Statusbestimmung verarbeitet wird, wobei die Schaltung ähnlich zu der Schaltung 29 der Fig. 4 ist, um das Statusbit Y zu ermitteln, das von dem Quantifizierungsblock 43 verwendet wird.

Claims (13)

1. Verfahren zur Sprachkodierung mittels linearer Vorhersage, bei welchem ein Sprachsignal (SI), das in aufeinanderfolgenden Rahmen digitalisiert ist, einer Syntheseanalyse unterzogen wird, um für jeden Rahmen Quantifikationswerte von Syntheseparametern (ai, b, T, k, G) zu erhalten, die es ermöglichen, eine Abschätzung (S) des Sprachsignals zu erhalten, und bei welchem die Quantifikationswerte ausgegeben werden, wobei die Syntheseanalyse eine lineare Kurzzeit-Vorhersage des Sprachsignals umfaßt, um die Quantifikationswerte der Koeffizienten eines Kurzzeit- Synthesefilters zu bestimmen, dadurch gekennzeichnet, daß ein spektraler Status (Y) des Sprachsignals unter ersten und zweiten Stati (YA, YB) derart bestimmt wird, daß das Signal proportional weniger Energie bei tiefen Frequenzen in dem ersten Status enthält als in dem zweiten Status, und der eine oder der andere von zwei Quantifikationsmodi angewendet wird, um die Quantifikationswerte der Koeffizienten des Kurzzeit-Synthesefilters gemäß dem bestimmten spektralen Status (Y) des Sprachsignals zu erhalten.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß der bestimmte Status (Y) des Sprachsignals nicht modifiziert wird, solange er eine Energie unterhalb einer vorbestimmten Schwelle aufweist.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß Rahmen für Rahmen ermittelt wird, ob das Signal in einem ersten Zustand ist, der dem ersten Status (YA) entspricht, oder in einem zweiten Zustand, der dem zweiten Status (YB) entspricht, und der Status (Y) des Signals auf der Basis der Zustände Rahmen für Rahmen (X) ermittelt wird, wobei der bestimmte Status nur modifiziert wird, nachdem mehrere nachfolgende Rahmen einen Signalzustand zeigen, der sich von demjenigen unterscheidet, der dem vorhergehend bestimmten Status entspricht.
4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß eine Zählvariable (V) inkrementiert wird, wenn der Zustand (X) des Signals in einem Rahmen sich von demjenigen unterscheidet, der dem bestimmten Status (Y) des Signals entspricht, daß diese Zählvariable (V) dekrementiert wird, wenn der Zustand des Signals in einem Rahmen derjenige ist, der dem bestimmten Status des Signals entspricht, außer wenn diese Variable 0 ist, und dadurch daß dann, wenn die Zählvariable (V) eine vorbestimmte Schwelle erreicht, diese auf 0 zurückgesetzt wird und festgestellt wird, daß das Signal den Status gewechselt hat.
5. Verfahren nach Anspruch 3 oder 4, dadurch gekennzeichnet, daß das Sprachsignal (SI) einer Hochpaßfilterung unterzogen wird, die Energie (E2) des Signals (SI'), das den Hochpaßfilter durchlaufen hat, mit derjenigen (E1) des nicht gefilterten Signals verglichen wird, um Rahmen für Rahmen zu bestimmen, ob das Signal in dem ersten Zustand ist, für den die Energie des Hochpaß-gefilterten Signals größer ist als ein vorbestimmter Teil der Energie des nicht gefilterten Signals, oder ob das Signal in dem zweiten Zustand ist, für den die Energie des Hochpaß-gefilterten Signals geringer ist als der vorbestimmte Teil der Energie des nicht gefilterten Signals.
6. Verfahren nach Anspruch 3 oder 4, dadurch gekennzeichnet, daß die Koeffizienten (aI) des Kurzzeit-Synthesefilters durch eine Menge von Frequenzen von Spektrallinien (fI) dargestellt sind und dadurch, daß die Verteilung der Frequenzen der Spektrallinien in jedem Rahmen des Sprachsignals (SI) analysiert wird, um zu ermitteln, ob das Signal in dem ersten oder dem zweiten Zustand ist.
7. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, daß die Koeffizienten (aI) des Kurzzeit-Synthesefilters durch eine Menge von p geordneten Frequenzparametern von Spektrallinien (cos2&pi;fi) dargestellt werden, und zwar unterteilt in m Gruppen von aufeinanderfolgenden Frequenzparametern, wobei p die Ordnung der linearen Kurzzeitvorhersage ist und m eine ganze Zahl größer oder gleich 1 ist, und dadurch, daß wenigstens die erste Gruppe in Bezug auf einen mittleren Vektor differentiell quantifiziert wird, der aus zwei unterschiedlichen Vektoren (VI,1, V1,2) gemäß dem bestimmten spektralen Zustand (Y) des Sprachsignals ausgewählt wird.
8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß die Anzahl m gleich 3 ist und dadurch, daß jede der ersten drei Gruppen der aufeinanderfolgenden Frequenzparameter in Bezug auf einen entsprechenden mittleren Vektors differentiell quantifiziert wird, der aus zwei unterschiedlichen entsprechenden Vektoren gemäß dem bestimmten spektralen Zustand (Y) des Sprachsignals ausgewählt wird.
9. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, daß die Koeffizienten (ai) des Kurzzeit-Synthesefilters durch eine Menge von p geordneten Frequenzparametern von Spektrallinien (cos2&pi;fi) bestimmt werden, wobei die Menge in m Gruppen von aufeinanderfolgenden Frequenzparametern unterteilt ist, wobei p die Ordnung der linearen Kurzzeit-Vorhersage ist und m eine ganze Zahl größer oder gleich 1 ist, und dadurch, daß wenigstens die erste Gruppe quantifiziert wird, indem in einer Quantifizierungstabelle ein Vektor ausgewählt wird, der einen minimalen Abstand zu den Frequenzparametern der Gruppe aufweist, wobei diese Quantifizierungstabelle aus zwei unterschiedlichen Tabellen (TI,1, TI,2) gemäß dem bestimmten spektralen Zustand (Y) des Sprachsignals ausgewählt wird.
10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, daß die Anzahl gleich 3 ist und dadurch, daß jede der beiden ersten Gruppen der aufeinanderfolgenden Frequenzparameter quantifiziert wird, indem in einer entsprechenden Quantifizierungstabelle ein Vektor ausgewählt wird, der einen minimalen Abstand zu den Frequenzparametern der Gruppe darstellt, wobei jede der beiden Quantifizierungstabellen in Bezug auf die beiden ersten Gruppen aus zwei jeweils unterschiedlichen Tabellen gemäß dem bestimmten spektralen Status (Y) des Sprachsignals ausgewählt wird.
11. Verfahren nach Anspruch 10, dadurch gekennzeichnet, daß die zwei unterschiedlichen Quantifizierungstabellen (TI,1, TI,2) in Bezug auf die Gruppe disjunkt sind und dadurch, daß die zwei unterschiedlichen Quantifizierungstabellen (TII,1, TII,2) in Bezug au die zweite Gruppe einen gemeinsamen Teil aufweisen.
12. Verfahren nach einem der vorhergehenden Ansprüche 1 bis 6, dadurch gekennzeichnet, daß die Koeffizienten (ai) des Kurzzeit-Synthesefilters durch eine Menge von p geordneten Frequenzparametern von Spektrallinien (cos2&pi;fi) dargestellt werden, wobei p die Ordnung der linearen Kurzzeit-Vorhersage darstellt, dadurch daß jeder der p Parameter quantifiziert wird, indem ein Variationsinterval ([mi, min{Mi, cos2&pi;fi-1}]), das in einem jeweiligen Referenzinterval ([mi, Mi]) enthalten ist, in 2Ni Segmente unterteilt wird, wobei Ni die Zahl der Codierbits ist, die für die Quantifizierung dieses Parameters verwendet wird, und dadurch, daß wenigstens für die ersten Ordnungsparameter Referenzintervalle verwendet werden, wobei jedes aus zwei unterschiedlichen Intervallen ([mi,1, Mi,1], [mi,2, Mi,2]) gemäß dem bestimmten spektralen Status (Y) des Sprachsignals ausgewählt wird.
13. Verfahren nach einem der Ansprüche 1 bis 6 oder nach Anspruch 12, dadurch gekennzeichnet, daß die Koeffizienten (ai) des Kurzzeit-Synthesefilters durch eine Menge aus p geordneten Frequenzparametern von Spektrallinien (cos2&pi;fi) dargestellt werden, wobei p die Ordnung der linearen Kurzzeit-Vorhersage ist, dadurch, daß jeder der p Parameter quantifiziert wird, indem ein Variationsinterval ([mi, min{Mi, cos2&pi;fi-1}]), das in einem jeweiligen Referenzintervall ([mi, Mi]) enthalten ist, in 2Ni Segmente unterteilt wird, wobei Ni die Anzahl der Codierbits ist, die zur Quantifizierung der Parameter verwendet wird, und dadurch, daß wenigstens bestimmten der Anzahlen von Codierbits Ni der eine oder der andere der zwei unterschiedlichen Werte gemäß dem bestimmten spektralen Status (Y) des Sprachsignals zugewiesen wird.
DE69516455T 1994-06-03 1995-05-31 Verfahren zur Sprachkodierung mittels linearer Prädiktion Expired - Fee Related DE69516455T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR9406825A FR2720850B1 (fr) 1994-06-03 1994-06-03 Procédé de codage de parole à prédiction linéaire.

Publications (2)

Publication Number Publication Date
DE69516455D1 DE69516455D1 (de) 2000-05-31
DE69516455T2 true DE69516455T2 (de) 2001-01-25

Family

ID=9463861

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69516455T Expired - Fee Related DE69516455T2 (de) 1994-06-03 1995-05-31 Verfahren zur Sprachkodierung mittels linearer Prädiktion

Country Status (4)

Country Link
US (1) US5642465A (de)
EP (1) EP0685833B1 (de)
DE (1) DE69516455T2 (de)
FR (1) FR2720850B1 (de)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08179796A (ja) * 1994-12-21 1996-07-12 Sony Corp 音声符号化方法
FR2729247A1 (fr) * 1995-01-06 1996-07-12 Matra Communication Procede de codage de parole a analyse par synthese
JP3196595B2 (ja) * 1995-09-27 2001-08-06 日本電気株式会社 音声符号化装置
JPH09230896A (ja) * 1996-02-28 1997-09-05 Sony Corp 音声合成装置
JP3094908B2 (ja) * 1996-04-17 2000-10-03 日本電気株式会社 音声符号化装置
US6253172B1 (en) * 1997-10-16 2001-06-26 Texas Instruments Incorporated Spectral transformation of acoustic signals
US6094629A (en) * 1998-07-13 2000-07-25 Lockheed Martin Corp. Speech coding system and method including spectral quantizer
US7379865B2 (en) * 2001-10-26 2008-05-27 At&T Corp. System and methods for concealing errors in data transmission
KR20050049103A (ko) * 2003-11-21 2005-05-25 삼성전자주식회사 포만트 대역을 이용한 다이얼로그 인핸싱 방법 및 장치
WO2009081569A1 (ja) * 2007-12-25 2009-07-02 Panasonic Corporation 超音波診断装置
WO2011074233A1 (ja) * 2009-12-14 2011-06-23 パナソニック株式会社 ベクトル量子化装置、音声符号化装置、ベクトル量子化方法、及び音声符号化方法
KR101804922B1 (ko) * 2010-03-23 2017-12-05 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
CN103928031B (zh) * 2013-01-15 2016-03-30 华为技术有限公司 编码方法、解码方法、编码装置和解码装置
HUE037050T2 (hu) * 2014-07-29 2018-08-28 Ericsson Telefon Ab L M Háttérzaj becslése audio jelben

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL8500843A (nl) 1985-03-22 1986-10-16 Koninkl Philips Electronics Nv Multipuls-excitatie lineair-predictieve spraakcoder.

Also Published As

Publication number Publication date
US5642465A (en) 1997-06-24
FR2720850B1 (fr) 1996-08-14
EP0685833B1 (de) 2000-04-26
EP0685833A1 (de) 1995-12-06
FR2720850A1 (fr) 1995-12-08
DE69516455D1 (de) 2000-05-31

Similar Documents

Publication Publication Date Title
DE69032551T2 (de) Einrichtung zur Sprachkodierung
DE69526007T2 (de) Postfilter und Verfahren zur Postfilterung
DE69529356T2 (de) Wellenforminterpolation mittels Zerlegung in Rauschen und periodische Signalanteile
DE3878001T2 (de) Spracherkennungseinrichtung unter anwendung von phonemermittlung.
DE3236832C2 (de) Verfahren und Gerät zur Sprachanalyse
DE3236834C2 (de) Verfahren und Gerät zur Sprachanalyse
DE69516455T2 (de) Verfahren zur Sprachkodierung mittels linearer Prädiktion
DE68910859T2 (de) Detektion für die Anwesenheit eines Sprachsignals.
DE69619284T2 (de) Vorrichtung zur Erweiterung der Sprachbandbreite
DE69029001T2 (de) Verfahren und Einrichtung zur Erkennung von Signalzeitfolgen mit von Signalvariationen unabhängigem Lernen
DE69227650T2 (de) Digitaler Sprachkodierer
DE69013738T2 (de) Einrichtung zur Sprachcodierung.
DE69628103T2 (de) Verfahren und Filter zur Hervorbebung von Formanten
DE68912692T2 (de) Zur Sprachqualitätsmodifizierung geeignetes Übertragungssystem durch Klassifizierung der Sprachsignale.
DE69020070T2 (de) Digitaler Sprachkodierer mit verbesserter Bestimmung eines Langzeit-Verzögerungsparameters.
DE69329569T2 (de) Digitale Kodierung von Sprachsignalen
DE69730721T2 (de) Verfahren und vorrichtungen zur geräuschkonditionierung von signalen welche audioinformationen darstellen in komprimierter und digitalisierter form
DE69223335T2 (de) Sprachkodiersystem
DE4031638C2 (de)
DE69720134T2 (de) Spracherkenner unter Verwendung von Grundfrequenzintensitätsdaten
DE69516522T2 (de) Verfahren zur Synthetisierung eines Sprachsignalblocks in einem CELP-Kodierer
DE69614937T2 (de) Verfahren und System zur Spracherkennung mit verringerter Erkennungszeit unter Berücksichtigung von Veränderungen der Hintergrundgeräusche
DE69329568T2 (de) Verfahren zur Sprachkodierung
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69725945T2 (de) Sprachkodierer mit niedriger Bitrate

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8328 Change in the person/name/address of the agent

Representative=s name: GROSSE, BOCKHORNI, SCHUMACHER, 81476 MUENCHEN

8339 Ceased/non-payment of the annual fee