DE68911287T2

DE68911287T2 - Codierer/decodierer.

Info

Publication number: DE68911287T2
Application number: DE89907260T
Authority: DE
Inventors: Fumio Amano; Kohei Iseda; Yasuji Ohta; Koji Okazaki; Yoshinori Tanaka; Tomohiko Taniguchi; Shigeyuki Unagami
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1988-06-08
Filing date: 1989-06-07
Publication date: 1994-05-05
Anticipated expiration: 2009-06-08
Also published as: EP0379587A1; WO1989012292A1; CA1329274C; JPH02502491A; DE68911287D1; US5115469A; JP2964344B2; EP0379587B1

Description

Die vorliegende Erfindung bezieht sich auf eine Sprachcodiervorrichtung, welche ein Sprachsignal codiert durch Separieren von Eigenschaften des Sprachsignals in Vokaltrakinformation, welche Vokaltrakteigenschaften des Sprachsignals darstellt, und Anregungsinformation, welche Anregungseigenschaften des Sprachsignals darstellt.
Ferner bezieht sich die Erfindung auf eine Sprachcodiervorrichtung, welche ein Sprachsiganl codiert durch Separieren von Eigenschaften des Sprachsignals in LPC-Parameter, welche Vokaltrakteigenschaften des Sprachsignals darstellen, und ein Residuensignal, welches Anregungseigenschaften des Sprachsignals in jedem vorbestimmten Rahmen darstellt, mit einer ersten Codiereinrichtung zum Codieren des Sprachsignals mittels Durchführung einer lokalen Decodierung des Sprachsignals und Extrahieren von LPC-Parametern und Residuensignale von dem Sprachsignal in jedem vorbestimmten Rahmen.
Diese Erfindung bezieht sich ebenfalls auf solche Decodiervorrichtungen zum Decodieren von Sprachsignalen, die von den oben erwähnten Sprachcodiervorrichtungen codiert sind.
Auf den Seiten 706 bis 712 der "IEEE Transaction on Acoustics, Speech and Signal Processing", Vol. ASSP-31, Nr. 3, Juni 1983, ist eine Sprachcodiervorrichtung offenbart, welche auf LPC-Parametern basiert, die Vokaltrakteigenschaften darstellen, sowie Anregungseigenschaften eines Sprachsignals. Ein dynamisches Vokaltraktmodell wird verwendet, um die Gesamtübertragungsdatenrate zu reduzieren. Dieses wird durchgeführt durch Betrachten von vielen aufeinanderfolgenden Rahmen auf einmal, und durch Untersuchen aller möglichen Sequenzen von sogenannten PARCOR-Koeffizientenvektoren. Die Sequenz, welche eine vorbestimmte Kostenfunktion minimiert, wird zur Übertragung ausgewählt, was in der reduzierten Gesamtdatenrate resultiert.
Die Seiten 1169 bis 1173 der Konferenzberichte der IEEE International Conference on Communications", 14.-17. Mai 1984, Amsterdam, Vol. 3, beschreiben eine Sprachcodiervorrichtung, welche das Prinzip der harmonischen Codierung verwendet. Ein Sprachsignal wird in Amplituden und Phasen decodiert und zusammen mit einem modellierenden Residuum (Differenz zwischen einem Linienspektrum entsprechend jenen Amplituden und Phasen und dem tatsächlichen Sprachspektrum) übertragen. Das Sprachsignal kann in eine Anzahl von Frequenzbändern unterteilt werden, und eine dynamische Zuweisung der Bitzahl pro Frequenzband auf der Grundlage der Energie in jedem Band wird ebenfalls verwendet. Die beschriebene harmonische Codierung verwendet ebenfalls eine dynamische, globale Bitzuweisung zwischen den Modellparametern und den modellierenden Residuen. Diese "Softbit"-Zuweisung, die von der Modelliergenauigkeit gesteuert wird, vermeidet eine scharf abgegrenzte Stimmhaft-Stimmlos-Entscheidung.
Seit neuerem wurde eine Sprachcodier- und Decodiervorrichtung zum Komprimieren von Sprachinformation auf Daten von ungefähr 4 bis 16 kbps mit hoher Effizienz für Kommunikationssysteme im Haus, digitale Mobilfunksysteme und Sprachspeichersysteme gefordert.
Als erster Stand der Technik einer Sprachvorhersagevorrichtung ist eine adaptive prediktive Codiervorrichtung vorgesehen, um die Vorhersageparameter (Vokaltraktinformation) eines Prädiktors und ein Residuensignal (Anregungsinformation) für die Übertragung an die Empfangsstation zu multiplexen.
Fig. 1 ist ein Blockdiagramm, welches die Sprachcodiervorrichtung des ersten Standes der Technik zeigt. Ein Codierer 100, der in solch einer Codiervorrichtung verwendet wird, umfaßt eine lineare Prädiktionsanalyseeinheit 101, einen Prädiktor 102, einen Quantisierer 103, eine Multiplexeinheit 104 und Addierer 105 und 106.
Die lineare Prädiktionsanalyseeinheit 101 analysiert eingegebene Sprachsignale und gibt Vorhersageparameter aus, der Prädiktor 102 sagt Eingangssignale voraus unter Verwendung von Ausgaben vom Addierer 106 (unten beschrieben) und Prädiktionsparametern von der linearen Prädiktionsanalyseeinheit 101, der Addierer 105 gibt Fehlerdaten aus durch Berechnen der Differenz zwischen einem eingegebenen Sprachsignal und dem vorhergesagten Signal, der Quantisierer 103 erhält ein Residuensignal durch Quantisieren der Fehlerdaten, und der Addierer 106 addiert die Ausgabe vom Prädiktor 102 zu derjenigen des Quantisierers 103, und ermöglicht dadurch, daß die Ausgabe an den Prädiktor 102 rückgekoppelt wird. Die Multiplexeinheit 104 multiplext Prädiktionsparameter von der linearen Prädiktionsanalyseeinheit 101 und ein Residuensignal von dem Quantisierer 103 für eine Übertragung an eine Empfangsstation.
Mit solch einer Struktur führt die lineare Prädiktionsanalyseeinheit 101 eine lineare Prädiktionsanalyse eines Eingangssignals in jeder vorbestimmter Rahmenperiode durch, und extrahiert dadurch Prädiktionsparameter als Vokaltraktinformation, welchen geeignete Bits von einem Codierer (nicht gezeigt) zugewiesen werden. Die Prädiktionsparamter werden somit codiert und an den Prädiktor 102 und die Multiplexeinheit 104 ausgegeben. Der Prädiktor 102 sagt ein Eingangssignal auf der Grundlage der Prädiktionsparameter und einer Ausgabe von dem Addierer 106 voraus. Der Addierer 105 berechnet die Fehlerdaten (die Differenz zwischen der vorhergesagten Information und dem Eingangssignal), und der Quantisierer 103 quantisiert die Fehlerdaten, und weist dadurch geeignete Bits den Fehlerdaten zu, um ein Residuensignal vorzusehen. Dieses Residuensignal wird an die Multiplexeinheit 104 als Anregungsinformation ausgegeben.
Danach werden die codierten Prädiktionsparameter und das Residuensignal von der Multiplexeinheit 104 gemultiplext und an eine Empfangsstation übertragen.
Der Addierer 106 addiert ein von dem Prädiktor 102 vorhergesagtes Eingangssignal und ein von dem Quantisierer 103 quantisiertes Residuensignal. Eine Additionsausgabe wird wiederum in den Prädiktor 102 eingegeben und wird verwendet, das Eingangssignal zusammen mit den Vorhersageparamtern vorherzusagen.
In diesem Fall ist die Anzahl von Bits, die für jeden Rahmen den Prädiktionsparametern zugewiesen werden, auf α-Bits pro Rahmen festgelegt und die dem Residuensignal zugewiesene Anzahl von Bits ist auf β-Bits pro Rahmen festgelegt. Deshalb werden die (α + β) Bits für jeden Rahmen an die Empfangsstation übertragen. In diesem Fall beträgt die Übertragungsrate beispielsweise 8 kbps.
Fig. 2 ist ein Blockdiagramm, welches den zweiten Stand der Technik der Sprachcodiervorrichtung zeigt. Dieser Stand der Technik lehrt den CELP (Code Excited Linear Prediction) Codierer, der als Sprachcodierer mit niedriger Bitrate bekannt ist.
Grundsätzlich ist ein CELP-Codierer, wie der in Fig. 1 gezeigte erste Stand der Technik, eine Vorrichtung zum Codieren und Übertragen von LPC-Parametern (auch Vorhersageparametern), die von einer LPC-Analyse erhalten werden, und einem Residuensignal. Dieser CELP-Codierer hat jedoch ein Merkmal, ein Residuensignal mittels Verwendung eines der Residuenmuster in einem Codebuch zu verwenden, wodurch eine hocheffiziente Codierung erhalten wird.
Details von CELP sind offenbart in Atal BS und Schroeder M.R. "Stochastic Coding of Speech at Very Low bit Rate", Proc.ICASSP 84-1610 bis 1613, 1984, und eine Zusammenfassung des CELP-Codierers wird im folgenden unter Bezugnahme auf Fig. 2 erlautert.
Eine LPC-Analyseeinheit 201 führt eine LPC-Analyse eines Eingangssignals durch, und ein Quantisierer 102 quantisiert die analysierten LPC-Parameter (Vorhersageparameter), um an den Prädiktor 203 geliefert zu werden. Eine Tonlagenperiode m, ein Tonlagenkoeffizient Cp und eine Verstärkung G, die nicht gezeigt sind, werden aus dem Eingangssignal extrahiert.
Ein Residuenwellenformmuster (code vector) wird sequentiell aus dem Codebuch 204 ausgelesen und deren jeweiliges Muster wird zuerst in einen Multiplizierer 205 eingegeben und mit der Verstärkung G multipliziert. Dann wird die Ausgabe in eine Rückkopplungsschleife eingegeben, nämlich einen Langzeitprädiktor, welcher einen Verzögerungsschaltkreis 206 umfaßt, einen Multiplizierer 207 und einen Addierer 208, um ein Residuensignal zu synthetisieren. Der Verzögerungswert des Verzögerungsschaltkreises 206 wird auf denselben Wert eingestellt wie die Tonlagenperiode. Der Multiplizierer 207 multipliziert die Ausgabe von dem Verzögerungsschaltkreis 206 mit dem Tonlagenkoeffizienten Cp.
Ein von dem Addierer 208 ausgegebenes, synthetisiertes Residuensignal wird in eine Rückkopplungsschleife eingegeben, nämlich eine Kurzzeitprädiktoreinheit, welche den Prädiktor 203 und einen Addierer 209 umfaßt, und das vorhergesagte Eingangssignal wird synthetisiert. Die Vorhersageparameter sind LPC-Parameter von der Quantisiereinheit 202. Das vorhergesagte Eingangssignal wird in einem Subtrahierer 210 von einem Eingangssignal subtrahiert, um ein Fehlersignal vorzusehen. Eine Wichtungsfunktionseinheit 211 wichtet das Fehlersignal, wobei die akustischen Eigenschaften von Menschen berücksichtigt werden. Dieses ist ein Korrekturvorgang, um den Fehler für ein menschliches Ohr gleichförmig zu machen, weil der Einfluß des Fehlers auf das menschliche Ohr verschieden ist, abhängig von dem Frequenzband.
Die Ausgabe der Wichtungsfunktionseinheit 211 wird an eine Fehlerleistungsberechnungseinheit 212 gegeben, und eine Fehlerleistung wird in jeweiligen Rahmen berechnet.
Ein Weißes-Rauschen-Codebuch 204 weist eine Vielzahl von Beispielen von Residuenwellenformmustern (Codevektoren) auf, und die obige Reihe von Vorgängen wird für alle Beispiele wiederholt. Ein Residuenwellenformmuster, für welches die Fehlerleistung innerhalb eines Rahmens minimal ist, wird als ein Residuenwellenformmuster des Rahmens ausgewählt.
Wie oben beschrieben, werden der Index des für jeden Rahmen erhaltenen Residuenwellenformmusters ebenso wie LPC-Parameter von dem Quantisierer 202, eine Tonlagenperiode m, ein Tonlagenkoeffizient Cp und eine Verstärkung G an eine Empfangsstation übertragen. Auf der anderen Seite ist die Empfangsstation nicht gezeigt, bildet jedoch mittels der übertragenen Tonlagenperiode m und dem Tonlagenkoeffizienten Cp einen Langzeitprädiktor, ähnlich wie im obigen Fall, und das Residuenwellenformmuster, welches einem übertragenen Index entspricht, wird in den Langzeitprädiktor eingegeben, wodurch ein Residuensignal reproduziert wird. Ferner bilden die übertragenen LPC-Parameter einen Kurzzeitprädiktor, ähnlich wie im obigen Fall, und das reproduzierte Residuensignal wird in den Kurzzeitprädiktor eingegeben, wodurch ein Eingangssignal produziert wird.
Jeweilige dynamische Eigenschaften einer Anregungseinheit und einer Vokaltrakteinheit sind in einer Schallerzeugungsstruktur eines Menschen verschieden und die jeweilige, an beliebigen Punkten zu übertragende Datenmenge von der Anregungseinheit und der Vokaltrakteinheit wird verschieden. Mit einer herkömlichen Sprachcodiervorrichtung, wie in Fig. 1 oder 2 gezeigt, werden jedoch Anregungsinformation und Vokaltraktinformation mit einem festen Datenmengenverhältnis übertragen. Die obigen Spracheigenschaften werden nicht verwendet. Wenn die Übertragungsrate niedrig ist, wird deshalb die Quantisierung grob, wodurch Rauschen anwächst und die Erhaltung einer befriedigenden Sprachqualität schwierig wird.
Im Hinblick auf die in den Fig. 1 oder 2 gezeigten Beispiele wird das obige Problem wie folgt erklärt.
In einem Sprachsignal existiert eine Periode, in welcher sich Eigenschaften abrupt ändern, und eine Periode, in welcher der Zustand konstant ist, und letztere Werte der Vorhersageparameter sich nicht zu sehr ändern. Es existieren nämlich Fälle, in denen die Korrelation zwischen den Vorhersageparametern (LPC-Parametern) in kontinuierlichen Rahmen groß ist, und Fälle, wo sie nicht stark sind. Herkömmlicherweise werden Vorhersageparameter (LPC-Parameter) mit einer konstanten Rate für jeden Rahmen übertragen. Demgemäß werden die Eigenschaften der Sprachsignale nicht vollständig genutzt. Deshalb bewirken die Übertragungsdaten Redundanzen, und die Qualität der reproduzierten Sprache in der Empfangsstation ist für den Betrag der Übertragungsdaten nicht ausreichend.
Die Aufgabe der vorliegenden Erfindung ist es, eine Sprachcodier-Decodiervorrichtung mit höherer Qualität der reproduzierten Sprache und Unterdrückung von Redundanz der Übertragungsinformation vorzusehen, um zu verhindern, daß relativ stabile Vokaltraktinformation übertragen wird.
Diese Aufgabe wird von einer Sprachcodiervorrichtung gemäß Anspruch 1 gelöst. Die Aufgabe wird ferner gelöst von einer Sprachdecodiervorrichtung gemäß Anspruch 9, zum Decodieren eines Sprachsignals, welches von der Sprachcodiervorrichtung gemäß Anspruch 1 codiert wurde.
Ferner wird die obige Aufgabe gelöst von einer Sprachcodiervorrichtung gemäß Anspruch 6. Die Aufgabe wird ferner gelöst von einer Sprachdecodiervorrichtung gemäß Anspruch 8, um das von einer Sprachcodiervorrichtung gemäß Anspruch 6 codierte Sprachsignal zu decodieren.
Ein Vorteil der Sprachcodier-Decodiervorrichtung ist, daß eine Sprachcodier/Decodiervorrichtung vom Modusumschalttyp verwendet wird, um eine Vielzahl von Moden vorzusehen, welche von dem Übertragungsverhältnis zwischen Anregungsinformation und Vokaltraktinformation abhängen, und auf eine Codierung hin in den Modus zu schalten, in welchem die beste Reproduktion von Sprachqualität durchgeführt werden kann. Somit kann die Klangqualität insbesondere bei niedrigeren Übertragungsraten erhalten werden.
Anstatt der Anregungsinformation viele Bits zuzuweisen, ist eine Redundanzunterdrückung der Übertragungsinformation möglich, um zu verhindern, daß relativ stabile Vokaltraktinformation übertragen wird. Dieses resultiert in einer besseren Qualität der reproduzierten Sprache.
Weitere vorteilhafte Ausführungsbeispiele der vorliegenden Erfindung ergeben sich aus den abhängigen Ansprüchen.
In der Sprachcodiervorrichtung der vorliegenden Erfindung wird ein Sprachsignal codiert durch Separieren der Eigenschaften des Sprachsignals in Artikulationsinformation (allgemein Vokaltraktinformation genannt), welche Artikulationseigenschaften des Sprachsignals darstellt, sowie Anregungsinformation, welche Anregungseigenschaften des Sprachsignals darstellt. Artikulationseigenschaften sind Frequenzeigenschaften einer von dem menschlichen Vokaltrakt und Nasalaktivität geformten Stimme, und beziehen sich manchmal nur auf Vokaltrakteigenschaften. Vokaltraktinformationen, welche Vokaltrakteigenschaften darstellen, umfassen LPC-Parameter, die erhalten werden durch Bilden einer linearen Prädiktionsanalyse eines Sprachsignals. Anregungsinformation umfaßt beispielweise ein Residuensignal. Die Sprachcodier-Decodiervorrichtung gemäß der Erfindung hat eine Struktur, wie in Fig. 3 gezeigt. Wie in Fig. 3 gezeigt, decodiert eine Vielzahl von Codiereinheiten 301-1 bis 301-m lokal ein Sprachsignal 303 durch Extrahieren von Vokaltraktinformation 304 sowie Anregungsinformation 305 von dem Sprachsignal 303, mittels Durchführung einer lokalen Decodierung an diesem Punkt. Die Vokaltraktinformation und Anregungsinformation liegen allgemein in der Form von Parametern vor. Die Übertragungsverhältnisse jeweiliger codierter Informationen sind verschieden, wie von den Bezugszeichen 306-1 bis 306-m in Fig. 3 gezeigt wird. Die obigen Codiereinheiten umfassen eine erste Codiereinheit zum Codieren eines Sprachsignals durch lokales Decodieren desselben, und Extrahieren von LPC-Parametern und einem Residuensignal von diesem in jedem Rahmen, und eine zweite Codiereinheit zum Codieren eines Sprachsignals mittels Durchführen einer lokalen Decodierung an diesem und Extrahieren eines Residuensignals von diesem unter Verwendung der LPC-Parameter von dem Rahmen viele Rahmen vor dem gegenwärtigen, wobei die LPC-Parameter von den ersten Codiereinheiten erhalten werden.
Als nächstes evaluieren Auswerte/Selektionseinheiten 302-1/302-2 die Qualität von jeweiligen decodierten Signalen 307-1 bis 307-m, die lokaler Decodierung mittels jeweiliger Decodiereinheiten 301-1 bis 301-m unterworfen worden sind und liefern so das Auswertungsergebnis. Dann entscheiden sie und wählen die am besten geeigneten Codiereinheiten unter den Codiereinheiten 301-1 bis 301-m auf der Grundlage des Auswertungsergebnisses und geben ein Ergebnis der Selektion als Selektionsinformation 310 aus. Die Auswerte/Selektionseinheiten umfassen eine Auswerteentscheidungseinheit 302-1 und eine Selektionseinheit 302-2, wie in Fig. 3 gezeigt ist.
Die Sprachcodiervorrichtung der obigen Struktur gibt Vokaltraktinformation 304 und Anwendungsinformation 305 aus, codiert mittels der Codiereinheiten, die von den Auswerte/Selektionseinheiten 302-1/302-2 ausgewählt worden sind, und gibt Selektionsinformation 310 von der Auswerte/Selektionseinheit 301-1/302-2 beispielsweise an Leitung 308 aus.
Die Decodiereinheit 309 decodiert das Sprachsignal 311 von Selektionsinformation 310, Vokaltraktinformation 304 und Anregungsinformation 305, welche von der Sprachcodiervorrichtung übertragen werden.
Mit solch einer Struktur wählt die Auswerte/Selektionseinheit 302-1/302-2 eine Codierausgabe 304 und 305 der Codiereinheit, welche ausgewertet wird, eine gute Qualität zu haben, mittels Decodiersignalen 307-1 bis 307-m, die lokaler Decodierung unterworfen sind.
In den Abschnitten des Sprachsignals, in welchen sich Vokaltraktinformation nicht verändert, wird der LPC-Parameter nicht ausgegeben, und dadurch ein Informationsüberschuß bewirkt. Soviel wie möglich von dem Überschuß wird einem Residuensignal zugewiesen, wodurch die Qualität des decodierten Signals 311, welches in einer Sprachdecodiervorrichtung erhalten wird, verbessert wird.
In dem in Fig. 3 gezeigten Blockdiagramm wird die Sprachcodiervorrichtung mit der Sprachdecodiervorrichtung über eine Leitung 308 kombiniert, es ist jedoch klar, daß nur die Sprachcodiervorrichtung oder nur die Sprachdecodiervorrichtung zu einer Zeit verwendet werden kann. So wird die Ausgabe von der Sprachcodiervorrichtung in einem Speicher gespeichert, und die Eingabe an die Sprachdecodiervorrichtung wird aus dem Speicher erhalten.
Vokaltraktinformation ist nicht beschränkt auf LPC-Parameter auf der Grundlage linearer Prädiktionsanalyse, sondern kann Cepstrum Parameter, beispielsweise auf der Grundlage von Cepstrum-Analyse sein. Es kann ein Verfahren zum Codieren des Residuensignals durch Unterteilen desselben in Tonlageninformation und Geräuschinformation mittels eines CELP-Codierverfahrens oder eines RELP (Residual Excited Linear Prediction) Verfahrens beispielsweise verwendet werden.

KURZBESCHREIBUNG DER ZEICHNUNGEN:

Fig. 1 zeigt ein Blockdiagramm des ersten Standes der Technik,
Fig. 2 zeigt ein Blockdiagram des zweiten Standes der Technik,
Fig. 3 zeigt ein Blockdiagramm zum Erklären des Prinzips der vorliegenden Erfindung,
Fig. 4 zeigt ein Blockdiagramm des ersten Ausführungsbeipiels der vorliegenden Erfindung,
Fig. 5 stellt ein Blockdiagramm des zweiten Ausführungsbeispiels der vorliegenden Erfindung dar,
Fig. 6 zeigt ein Betriebsflußdiagramm des zweiten Ausführungsbeispiels,
Fig. 7A zeigt eine Tabelle einer Zuweisung von zu übertragenden Bits im zweiten Stand der Technik, und
Fig. 7B ist eine Tabelle einer Zuweisung von zu übertragenden Bits in dem zweiten Ausführungsbeispiel der vorliegenden Erfindung.

BEVORZUGTES AUSFÜHRUNGSBEISPIEL

Das Ausführungsbeispiel der vorliegenden Erfindung wird unter Bezugnahme auf die Zeichnungen erläutert.
Fig. 4 zeigt eine strukturelle Ansicht des ersten Ausführungsbeispiels der vorliegenden Erfindung, und dieses Ausführungsbeispiel entspricht dem in Fig. 1 gezeigten ersten Stand der Technik.
Der erste Quantisierer 403-1, Prädiktor 404-1, Addierer 405-1 und 406-1, und LPC-Analyseeinheit 402 entsprechen den mit 103, 102, 105, 106 bzw. 101 in Fig. 1 bezeichneten Abschnitten, wodurch ein adaptiver Prädiktionssprachcodierer vorgesehen wird. In diesem Ausführungsbeispiel sind ferner ein zweiter Quantisierer 403-2, ein zweiter Prädiktor 404-2 und zusätzliche Addierer 405-2 und 406-2 vorgesehen. Die an den Prädiktor 404-2 gegebenen LPC-Parameter werden vorgesehen durch verzögernde Ausgabe von der LPC-Analyseeinheit 402 in einem Rahmenverzögerungsschaltkreis 411 durch Anschluß A des Schalters 411. Die Abschnitte in der oberen Stufe der Fig. 4, welche jenen in Fig. 1 entsprechen, bewirken, daß Ausgangsanschluß 408 und 409 LPC-Parameter bzw. ein Residuensignal übertragen. Dieses ist definiert als R-Modus. Das vom Ausgangsanschluß 412 übertragene Signal in der unteren Stufe der Fig. 4 ist nur das Residuensignal, welches definiert ist als B-Modus. Auswerteeinheiten 407-1 und 407-2 werten das S/N des Codierers im A- oder B-Modus aus. Ein Modusbestimmungsabschnitt 403 erzeugt ein Signal A/B zum Bestimmen, welcher Modus verwendet werden soll (Modus A oder Modus B), um die Ausgabe an eine gegenüberliegende Station (Empfangsstation) zu übertragen, auf der Grundlage der Auswertung. Eine Schaltereinheit (SW) 410 wählt die Seite A, wenn in dem vorangehenden Rahmen der A-Modus gewählt ist. Dann werden als LPC-Parameter des B-Modus für den laufenden Rahmen die Werte des A-Modus des vorangehenden Rahmens verwendet. Wenn der B-Modus in dem vorangehenden Rahmen gewählt ist, wird die B-Seite gewählt und die Werte des B-Modus in dem vorangehenden Rahmen, nämlich die Werte des A-Modus in dem Rahmen, welcher viele Rahmen vor dem laufenden Rahmen liegt, werden verwendet.
In dieser Schaltkreisstruktur arbeiten die Codierer der A- und B-Moden parallel im Hinblick auf jeden Rahmen. Der A-Modus-Codierer erzeugt laufende Rahmenvorhersageparameter (LPC-Parameter) als Vokaltraktinformation vom Ausgangsanschluß 409, und ein Residuensignal als Anregungsinformation durch Ausgangsanschluß 408. In diesem Fall beträgt die Übertragungsrate der LPC-Parameter β-Bits-Rahmen und diejenige eines Residuensignals α-Bits-Rahmen. Der B-Modus-Codierer gibt ein Residuensignal im Ausgangsanschluß 412 mittels Verwendung von LPC-Parametern des vorangehenden Rahmens oder eines Rahmens, welcher viele Rahmen vor dem laufenden Rahmen liegt, aus. In diesem Fall beträgt die Übertragungsrate des Residuensignals (α + β) Bits/Rahmen, so daß die Bitzahl für das Residuensignal um die Anzahl von Bits, die für die LPC-Parameter nicht verwendet werden, erhöht werden kann, weil die LPC-Parameter wenig variieren. Eingangssignale an die Prädiktoren 404-1 und 404-2 sind lokal decodierte Ausgaben von den Addierern 406-1 und 406-2. Sie sind Signalen gleich, die in der Empfangsstation decodiert werden. Auswerteeinheiten 407-1 und 407-2 vergleichen diese lokal decodierten Signale mit ihren Eingangssignalen vom Eingangsanschluß 401, um die Qualität der codierten Sprache auszuwerten. Ein Signal-Quantisierungsrauschverhältnis SNR in einem Rahmen wird beispielsweise für diese Auswertung verwendet, was ermöglicht, daß die Auswerteeinheiten 407-1 und 407-2 SN(A) und SN(B) ausgeben. Die Modusbestimmungseinheit 413 vergleicht diese Signale, und wenn SN(A) < SN(B), wird ein den A-Modus bezeichnendes Signal ausgegeben, und wenn SN(A) > SN(B), wird ein den B-Modus bezeichnendes Signal ausgegeben.
Ein den A-Modus oder B-Modus bezeichnendes Signal wird von der Modusbestimmungseinheit 413 an einen (nicht gezeigten) Selektor übertragen. Signale von den Ausgangsanschlüssen 408, 409 und 412 werden in den Selektor eingegeben. Wenn der Selektor einen A-Modus bezeichnet, werden das codierte Residuensignal und LPC-Parameter von den Ausgangsanschlüssen 408 und 409 gewählt und an die gegenüberliegende Station ausgegeben. Wenn der Selektor einen B-Modus bezeichnet, dann wird das codierte Residuensignal vom Ausgangsanschluß 412 gewählt und an die gegenüberliegende Station ausgegeben.
In jedem Rahmen wird eine Selektion von A- oder B-Moden durchgeführt. Die Übertragungsrate beträgt (α + β) Bits pro Rahmen, wie oben beschrieben, und wird in keinem Modus verändert. Die Daten von (α + β) Bits pro Rahmen werden an eine Empfangsstation übertragen, nachdem ein Bit pro Rahmen, welches ein A/B-Signal darstellt, welches bezeichnet, ob die Daten in einem A-Modus oder B-Modus sind, den Daten von (α + β) Bits pro Rahmen hinzugefügt worden ist.
Die im B-Modus erhaltenen Daten werden übertragen, wenn der B-Modus eine bessere Qualität bietet. Deshalb ist die Qualität reproduzierter Sprache in der vorliegenden Erfindung besser als im in Fig. 1 gezeigten Stand der Technik, und die Qualität der reproduzierten Sprache kann in der vorliegenden Erfindung niemals schlechter sein als im Stand der Technik.
Fig. 5 ist eine strukturelle Ansicht des zweiten Ausführungsbeispiels dieser Erfindung. Dieses Ausführungsbeispiel entspricht dem in Fig. 2 gezeigten zweiten Stand der Technik. In Fig. 5 stellen 501-1 und 501-2 Codierer dar. Diese Codierer sind beide CELP-Codierer, wie in Fig. 2 gezeigt. Einer davon, 501-1, führt eine lineare Prädiktionsanalyse an jedem Rahmen durch, durch Zerteilen von Sprache in 10 bis 30 Millisekundenabschnitte, und gibt Prädiktionsparameter, Residuenwellenformmuster, Tonlagenfrequenz, Tonlagenkoeffizient und Verstärkung aus. Der andere Codierer, 501-2, führt nicht lineare Prädiktionsanalyse durch, sondern gibt nur ein Residuenwellenformuster aus. Deshalb, wie später beschrieben, kann der Codierer 501-2 mehr Quantisierungsbits einem Residuenwellenformmuster zuweisen, als der Codierer 501-1 kann.
Der Betriebsmodus, welcher den Codierer 501-1 verwendet, wird A-Modus genannt und der Betriebsmodus, welcher den Codierer 501-2 verwendet, wird B-Modus genannt.
Im Codierer 501-1 führt die lineare Prädiktionsanalyseeinheit 506 dieselbe Funktion aus wie sowohl die LPC-Analyseeinheit 201 als auch die Quantisiereinheit 202. Ein Weißes-Rauschen-Codebuch 507-1, Verstärkunssteuerung 508-1 und Fehlerberechnungseinheit 511-1 entsprechen jeweils jenen, die mit den Bezugsziffern 204, 205 und 210 in Fig. 2 bezeichnet sind. Die Langzeitvorhersageeinheit 509-1 entspricht jenen, die in Fig. 2 mit den Bezugsziffern 206 bis 208 bezeichnet sind. Sie führt eine Anregungsoperation durch mittels Empfang von Tonlagendaten, wie im zweiten Stand der Technik beschrieben. Die Kurzzeitprädiktionseinheit 510-1 entspricht jenen, die mittels der Bezugszeichen 203 und 209 in Fig. 2 dargestellt sind, und funktioniert als Vokaltrakt mittels Empfang von Prädiktionsparametern, wie im zweiten Stand der Technik beschrieben. Zusätzlich entspricht die Fehlerauswerteeinheit 512-1 jenen, die mit den Bezugsziffern 211 und 212 in Fig. 2 bezeichnet sind, und führt eine Auswertung der Fehlerleistung durch, wie im zweiten Stand der Technik beschrieben. In diesem Fall bezeichnet die Fehlerauswerteeinheit 512-1 der Reihe nach Adressen (Phasen) im Weißes-Rauschen-Codebuch 507-1 und führt Auswertungen der Fehlerleistungen aller Codevektoren (Residuenmuster) durch, wie im zweiten Stand der Technik beschrieben. Dann wählt sie den Codevektor, der die niedrigste Fehlerleistung aufweist, und erzeugt dadurch als die Residuensignalinformation die Nummer des gewählten Codevektors in dem Weißes-Rauschen-Codebuch 507-1.
Die Fehlerauswerteeinheit 505-1 gibt ebenfalls ein segmentäres S/N (S/NA) aus, welches Wellenformverzerrungsdaten in einem Rahmen aufweist.
Der Codierer 501-1, beschrieben mit Bezug auf Fig. 2, erzeugt codierte Vorhersageparameter (LPC-Parameter) von der linearen Prädiktionsanalyseeinheit 506. Er erzeugt ebenfalls eine codierte Tonlagenperiode, einen Tonlagenkoeffizienten und eine Verstärkung (nicht gezeigt).
Im Codierer 501-2 sind die von dem Bezugszeichen 507-2 bis 512-2 bezeichneten Abschnitte dieselben wie die jeweiligen Abschnitte, die von den Bezugszeichen 507-1 bis 512-1 im Codierer 501-1 bezeichnet sind. Der Codierer 501-2 hat keine lineare Prädiktionsanalyseeinheit 506; anstelle dessen hat er einen Koeffizientenspeicher 513. Der Koeffizientenspeicher 513 enthält Prädiktionskoeffizienten (Prädiktionsparameter), die von der linearen Prädiktionsanalyseeinheit 501 erhalten werden. Information aus dem Koeffizientenspeicher 513 wird als linearer Prädiktionsparameter an die Kurzzeitprädiktionseinheit 510-2 gegeben.
Der Koeffizientenspeicher 513 wird jedesmal erneuert, wenn ein A-Modus erzeugt wird (jedesmal, wenn eine Ausgabe vom Codierer 501-1 gewählt wird). Er wird nicht erneuert und behält die Werte, wenn ein B-Modus erzeugt wird (wenn eine Ausgabe vom Codierer 501-2 gewählt wird). Deshalb werden die neuesten Prädiktionskoeffizienten, die an eine Dekoderstation übertragen werden (Empfangsstation), immer im Koeffizientenspeicher 513 gehalten.
Der Codierer 501-2 erzeugt nicht Prädiktionsparameter, sondern erzeugt Residuensignalinformation, Tonlagenperiode, Tonlagenkoeffizienten und Verstärkung. Deshalb können, wie später beschrieben wird, um die Anzahl von Bits entsprechend der Menge von Prädiktionsparametern, die nicht ausgegeben werden, mehr Bits der Residuensignalinformation zugewiesen werden.
Die Qualitätsauswerte/Codierselektionseinheit 502 wählt den Codierer 501-1 oder 501-2, je nachdem, welcher die bessere Sprachreproduktionsqualität bietet, auf der Grundlage eines Ergebnisses, welches durch eine lokale Decodierung in jeweiligen Codierern 501-1 und 501-2 erhalten wird. Die Qualitätsauswerte/Codierselektionseinheit 502 verwendet auch Wellenformverzerrung und spektrale Verzerrung reproduzierter Sprachsignale A und B, um die Qualität der von den Codierern 501-1 oder 501-2 reproduzierten Sprache auszuwerten. Mit anderen Worten verwendet die Einheit 502 ein segmentäres S/N und eine LPC Cepstrum-Distanz (CD) jeweiliger Rahmen nebeneinander, um die Qualität reproduzierter Sprache auszuwerten.
Deshalb ist die Qualitätsauswerte/Codierselektionseinheit 502 mit einer Cepstrum-Distanzberechnungseinheit 515 ausgestattet, einer Betriebsmodusbeurteilungseinheit 516 und einem Schalter 514.
Die Cepstrum-Distanzberechnungseinheit 515 erhält die ersten LPC Cepstrum-Koeffizienten von den LPC-Parametern, welche dem gegenwärtigen Rahmen entsprechen, und die von der linearen Prädiktionsanalyseeinheit 516 erhalten worden sind. Die Einheit 515 erhält ebenfalls die zweiten LPC-Cepstrum-Koeffizienten von den LPC-Parametern, die aus dem Koeffizientenspeicher 513 erhalten werden, und gegenwärtig in dem B-Modus verwendet werden. Dann berechnet sie die LPC-Cepstrum-Distanz CD in dem laufenden Rahmen aus den ersten und zweiten LPC-Cepstrum-Koeffizienten. Es ist allgemein akzeptiert, daß die so erhaltene LPC-Cepstrum-Distanz klar die Differenz zwischen den obigen zwei Sätzen von spektralen Vokaltraktcharakteristiken ausdrückt, die bestimmt werden durch Vorbereiten von LPC-Parametern (spektrale Verzerrung).
Die Betriebsmodusbeurteilungseinheit 516 empfängt segmentäre S/NA und S/NB von Codierern 501-1 und 501-2 und empfängt die LPC-Cepstrum-Distanz (CD) von der Cepstrum-Distanzberechnungseinheit 515, um das in dem Betriebsflußdiagramm der Fig. 6 gezeigte Verfahren durchzuführen. Dieses Verfahren wird später beschrieben.
Wenn die Betriebsmodusbeurteilungseinheit 518 den A-Modus wählt (Codierer 501-1), wird der Schalter 514 auf die A-Modus-Anschlußseite geschaltet. Wenn die Betriebsmodusbeurteilungseinheit 518 den B-Modus wählt (Codierer 501-2), wird der Schalter 514 auf die B-Modusanschlußsseite geschaltet. Jedesmal, wenn mittels einer Schaltoperation des Schalters 514 ein A-Modus erzeugt wird (Ausgabe vom Codierer 501-1 wird gewählt), wird der Koeffizientenspeicher 513 erneuert. Wenn der B-Modus erzeugt wird (Ausgabe vom Codierer 501-2 wird gewählt), wird der Koeffizientenspeicher 513 nicht erneuert und behält die laufenden Werte. Die Multiplexereinheit 504 multiplext Residuensignalinformation und Prädiktionsparameter vom Codierer 501-1. Der Selektor 517 wählt eine der von der Multiplexeinheit 504 erhaltenen Ausgaben, das heißt, entweder die gemultiplexte Ausgabe (umfassend Residuensignalinformation und Prädiktionsparameter), der von dem Codierer 501-1 erhalten wird, oder die Residuensignalinformation, die vom Codierer 501-2 ausgegeben wird, auf der Grundlage der Codierernummerinformation i, die von der Betriebsmodusbeurteilungseinheit 516 erhalten wird.
Der Decodierer 518 gibt ein reproduziertes Sprachsignal auf der Grundlage von Residuensignalinformation und Prädiktionsparametern vom Codierer 501-1, oder Residuensignalinformation vom Codierer 501-2 aus. Somit hat der Decoder 518 eine ähnliche Struktur wie die Weißes-Rauschen-Codebücher 507-1 und 507-2, Langzeitprädiktionseinheiten 509-1 und 509-2 und Kurzzeitprädiktionseinheiten 510-1 und 510-2 in den Codierern 501-1 und 501-2.
Die Separiereinheit (DMUX) 505 separiert von dem Codierer 501-1 übertragene, gemultiplexte Signale in Residuensignalinformation und Prädiktionsparameter.
In Fig. 5 sind die Einheiten links vom Übertragungspfad 503 auf der Übertragungsseite und Einheiten rechts sind auf der Empfangsseite.
Mit der obigen Struktur wird ein Sprachsignal im Hinblick auf Prädiktionsparameter und Residuensignale im Codierer 501-1 codiert, oder im Hinblick nur auf die Residuensignale im Codierer 501-2. Eine Qualitätsauswerte/Codierselektionseinheit 502 wählt die Nummer i des Codierers 501-1 oder 501-2, welcher die beste Sprachreproduktionsqualität aufweist, auf der Grundlage von segmentärer S/N-Information und LPC-Cepstrum-Distanzinformation von jedem Rahmen. Mit anderen Worten führt die Betriebsmodusbeurteilungseinheit 516 in der Qualitätsauswerte/Codierselektionseinheit 502 das folgende Verfahren in Übereinstimmung mit dem in Fig. 6 gezeigten Betriebsflußdiagram aus.
Der Codierer 501-1 oder 501-2 wird gewählt durch Eingeben der Codierernummer i. Im A-Modus ist i=l; im B-Modus ist i=2. Wenn das das segmentäre S/N im Codierer 501-1 besser ist als das des Codierers 501-2 (S/NA > S/NB), wird der A-Modus gewählt durch Eingeben der Codierer Nr. 1 (Codierer 501-1) in den Selektor 517 (Fig. 6, S1 T S2).
Wenn andererseits das segmentäre S/N im Codierer 501-2 besser ist als das des Codierers 501-1 (S/NA < S/NB), wird die folgende Beurteilung weiter ausgeführt. Eine LPC-Cepstrum-Distanz CD von der Cepstrum-Berechnungseinhiet 515 wird mit einem vorbestimmten Schwellenwert CDTH (S3) verglichen. Wenn CD kleiner ist als der Schwellenwert CDTH (die spektrale Verzerrung gering ist), wird die B-Modus gewählt, so daß die Codierer Nr. 2 (Codierer 501-2) an den Selektor 517 (S4) ausgegeben wird. Wenn CD größer ist als der obige Schwellwert CDTH (die spektrale Verzerrung groß ist), wird der A-Modus gewählt durch Eingeben der Codierer Nr. 1 (Codierer 501-1) an den Selektor 516 (S3 T S2).
Die obige Operation ermöglicht, daß der am besten geeignete Codierer gewählt wird.
Der Grund, warum zwei Auswertefunktionen verwendet werden, wie oben beschrieben, ist der, daß wenn der A-Modus gewählt ist, die lineare Prädiktionsanalyseeinheit 506 immer Prädiktionsparameter gemäß dem laufenden Rahmen berechnet. Dieses stellt sicher, daß die besten spektralen Eigenschaften erhalten werden, und so kann der A-Modus bloß unter der Bedingung gewählt werden, daß das segmentäre S/NA, welches eine Verzerrung im Zeitbereich darstellt, gut ist. Im Gegensatz dazu, wenn der B-Modus gewählt ist, obwohl das segmentäre S/NB, welches ein Verzerrung im Zeitbereich darstellt, gut sein kann, ist dieses manchmal nur deshalb der Fall, weil die Quantisierungsverstärkung des reproduzierten Signals im B-Modus besser ist. In diesem Fall besteht die Möglichkeit, daß spektrale Eigenschaften des laufenden Rahmens (bestimmt von den Prädiktionsparametern, die aus dem Koeffizientenspeicher erhalten werden) stark von den realen spektralen Eigenschaften des gegenwärtigen Rahmens (bestimmt von den Prädiktionsparametern, die von der linearen Prädiktionsanalyseeinheit 506 erhalten werden), verschoben sein können. Die Prädiktionsparameter, die von dem Koeffizientenspeicher 513 erhalten werden, sind nämlich jene entsprechend den vorangehenden Rahmen, und die Prädiktionsparameter des gegenseitigen Rahmens können sehr verschieden sein von jenen des vorangehenden Rahmens, obwohl die Verzerrung im Zeitbereich des B-Modus geringer ist als die des A-Modus. Im obigen Fall schließt das reproduzierte Signal auf der Dekoderseite eine große spektrale Verzerrung ein, um dem menschlichen Ohr entgegenzukommen. Wenn der Faktor B im Modus gewählt wird, so ist es nötig, die Verzerrung im Frequenzbereich auszuwerten (spektrale Verzerrung auf der Grundlage der LPC-Cepstrum-Distanz CD), zusätzlich zur Verzerrung im Zeitbereich.
Wenn das segmentäre S/N des Codierers 501-2 besser ist als dasjenige des Codierers 501-1, und die spektralen Eigenschaften des laufenden Rahmens nicht sehr verschieden sind von jenen des vorangehenden Rahmens, ist das Prädiktionsspektrum des laufenden Rahmens nicht sehr verschieden von demjenigen des vorangehenden Rahmens, und so wird nur die Residuensignalinformation von dem Codierer 501-2 übertragen. In diesem Fall werden mehr Quantisierungsbits dem Residuensignal zugewiesen, und die Quantisierungsqualität des Residuensignals ist besser. Eine größere Anzahl von Bits wird übertragen, als in dem Fall, daß sowohl Prädiktionsparameter als auch Residuensignale an die gegenüberliegende Station übertragen werden. Der B-Modus (Codierer 501-2) kann effektiv verwendet werden, beispielsweise wenn derselben Klang "aaah" fortwährend über eine Reihe von Rahmen übermittelt wird.
Der Koeffizientenspeicher 513 des Codierers 501-2 wird erneuert jedesmal wenn der A-Modus gewählt wird (jedesmal, wenn der Ausgang vom Codierer 501-1 gewählt wird). Der Koeffizientenspeicher 513 wird nicht erneuert, sondern behält die gespeicherten Werte, wenn der B-Modus gewählt wird (Ausgabe vom Codierer 501-2 wird gewählt).
Danach wählt der Selektor 517 auf der Grundlage des Selektionsergebnisses von der Qualitätsauswerte/Codierselektionseinheit 502 den Codierer 501-1 oder 501-2 (je nachdem, welcher die beste Sprachreproduktionsqualität hat). Die Ausgabe wird an den Übertragungspfad 503 übertragen.
Der Decoder 518 erzeugt das reproduzierte Signal auf der Grundlage einer codierten Ausgabe (Residuensignalinformation und Prädiktionsparameter vom Codierer 501-1 oder Residuensignalinformation alleine vom Codierer 501-2), und Codierernummerdaten i, welche durch den Übertragungspfad 503 gesendet werden.
Die an die Empfangsseite zu übertragende Information umfaßt die Codenumern von Residuensignalinformation und quantisierten Prädiktionsparametern (LPC Parametern) und so weiter im A-Modus, und umfaßt die Codezahlen der Residuensignalinformation, und so weiter, im B-Modus. Im B-Modus wird der LPC-Parameter nicht übertragen, jedoch ist die gesamte Bitzahl sowohl im A-Modus als auch im B-Modus dieselbe. Die Codezahl zeigt, welches Residuenwellenformmuster (Codevektor) in dem Weißes-Rauschen-Codebuch 507-1 oder 507-2 gewählt wird. Das Weißes-Rauschen-Codebuch 507-1 im Codierer 501-1 enthält eine kleine Anzahl von Residuenwellenformmustern (Codevektoren) und eine kleine Anzahl von Bits, welche die Codezahl darstellen. Im Gegensatz dazu enthält das Weißes-Rauschen-Codebuch 507-2 im Codierer 501-2 eine große Anzahl von Codes und eine große Anzahl von Bits, die der Codezahl entsprechen. Deshalb ist es im B-Modus wahrscheinlich, daß das reproduzierte Signal dem Eingangssignal ähnlicher ist.
Ein Beispiel der Zuordnung des Übertragungsbits für einen Rahmen, wo die gesamte Übertragungsbitrate 4,8 kbps beträgt, ist in den Fig. 7A und 7B gezeigt, im zweiten in Fig. 2 gezeigten Stand der Technik, und im zweiten in Fig. 5 gezeigten Ausführungsbeispiel.
Fig. 7A und 7B zeigen klar, daß im A-Modus das jedem Informationsgegenstand im Ausführungsbeispiel der Fig. 7B zugewiesene Bit fast dasselbe ist wie das des in Fig. 7A gezeigten, zweiten Standes der Technik. Jedoch werden im B-Modus des in Fig. 7B gezeigten, vorliegenden Ausführungsbeispiels LPC-Parameter nicht übertragen. So können die nicht für die LPC-Parameter benötigten Bits der Codeziffer und der Verstärkungsinformation zugewiesen werden, wodurch die Qualität der reproduzierten Sprache verbessert wird.
Wie oben erläutert, überträgt das vorliegende Ausführungsbeispiel keine Prädiktionsparameter für Rahmen, in welchen sich die Prädiktionsparameter der Sprache nicht viel ändern. Die Bits, die für die Prädiktionsparameter nicht benötigt werden, werden dazu verwendet, die Klangqualität der zu übertragenden Daten zu verbessern, durch Vergrößern der Anzahl von Bits, die dem Residuensignal zugewiesen werden, oder der Bits, die der Codeziffer zugewiesen werden, und nötig sind, um die Kapazität der Steuercodetabelle zu vergrößern, wodurch die Qualität des reproduzierten Sprachsignals auf der Empfangsseite verbessert wird.
Im vorliegenden Ausführungsbeispiel kann abhängig von den dynamischen Eigenschaften des Anregungsabschnittes und des Vokaltraktabschnittes in einem Schallproduktionsmechanismus von natürlicher menschlicher Sprache das Übertragungsverhältnis der Anregungsinformation zu der Vokaltraktinformation in dem Codierer gesteuert werden. Dieses verhindert selbst bei niedrigen Übertragungsraten, daß sich das S/N-Verhältnis verschlechtert, und eine gute Sprachqualität bleibt erhalten.
Es sollte vermerkt werden, daß sowohl der Codierer 501-1 als auch der Codierer 501-2 Residuensignalinformation und Prädiktionsparameterinformationen erzeugen können. In diesem Fall sind die Verhältnisse der der Residuensignalinformation und den Prädiktionsparametern zugewiesenen Bits in den beiden Codierern verschieden.
Wie aus dem Obigen klar ist, können mehr als zwei Codierer vorgesehen werden. Ein Codierer, der Residuensignalinformation und Prädiktionsparameterinformation erzeugt, kann zusammen mit manchen Codierern arbeiten, die nur Residuensignalinformation erzeugen. Es ist jedoch zu vermerken, daß das Verhältnis der der Residuensignalinformation und der Prädiktionsparameterinformation zugewiesenen Bits abhängig von den Codierern verschieden ist. Um eine Qualitätsauswertung der reproduzierten Sprache in einem Codierer durchzuführen, kann zusätzlich zu dem Fall, in welchem sowohl eine Wellenformverzerrung als auch eine spektrale Verzerrung des reproduzierten Sprachsignals verwendet werden, eine dieser zwei Verzerrungen verwendet werden.
Wie oben detailliert beschrieben, stellt die Sprachcodiervorrichtung der vorliegenden Erfindung vom Modenumschalttyp eine Vielzahl von Moden im Hinblick auf ein Übertragungsverhältnis von Anregungsinformation und Vokaltraktinformation zur Verfügung, und führt eine Umschaltoperation zwischen den Moden durch, um die bestreproduzierte Sprachqualität zu erhalten. Somit kann die vorliegende Erfindung das Übertragungsverhältnis von Anregungsinformation zu Vokaltraktinformation in Codierern steuern, und eine ausreichende Klangqualität kann selbst bei einer niedrigeren Übertragungsrate erhalten bleiben.

Claims

1. Sprachcodiervorrichtung, welche ein Sprachsignal (303) codiert durch Separieren von Eigenschaften des Sprachsignals in Vokaltraktinformation, welche Vokaltrakteigenschaften des Sprachsignals darstellt, und Anregungsinformation, welche Anregungseigenschaften des Sprachsignals darstellt, gekennzeichnet durch

eine Vielzahl von Codierereinrichtungen (301) zum Codieren von Vokaltraktinformation (304) und Anregungsinformation (305), die aus dem Sprachsignal (303) extrahiert werden, mittels Durchführen einer lokalen Decodierung des Sprachsignals, wobei jede Codiereinrichtung (301) dieselbe Gesamtinformationsübertragungsrate aufweist, und verschiedene Verhältnisse von Übertragungsraten zwischen codierter Vokaltrakt- und Anregungsinformation aufweist; und

eine Auswerte/Selektionseinrichtung (302) zum Auswerten der Qualität ihrer lokal codierter Signale (307), die in der jeweiligen Codiereinrichtung (301) lokaler Decodierung unterworfen worden sind, um dadurch ein Auswerteergebnis vorzusehen, und zum Entscheiden und Auswählen der am besten geeigneten Codiereinrichtung (301-m) unter der Vielzahl von Codiereinrichtungen (301), auf der Grundlage des Auswerteergebnisses, um ein Ergebnis der Selektion als Selektioninformation (310) auszugeben, worin die von der Auswerte/Selektionseinrichtung (302) ausgewählte Codiereinrichtung (301-m) die codierte Vokaltraktinformation und Anregungsinformation (306-M) ausgibt, und die Auswerte/Selektionseinrichtung (302) die Selektionsinformation ausgibt.

2. Sprachcodiervorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die Vokaltraktinformation (304) LPC-Parameter (409) umfaßt, welche die Vokaltrakteigenschaften darstellen, und die Anregungsinformation (305) ein Residuensignal umfaßt, welches Anregungseigenschaften darstellt.

3. Sprachcodiervorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß

die Äuswerte/Selektionseinrichtung (302) die Qualität jeweiliger Decodiersignale auswertet durch Berechnen der Wellenformverzerrung jeweiliger Decodiersignale entsprechend dem Sprachsignal, und

entscheidet und die Codiereinrichtung (301-m) entsprechend einem Decodiersignal, welches eine relativ kleine Wellenformverzerrung hat, auswählt.

4. Sprachcodiervorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß

die Auswerte/Selektionseinrichtung (302) die Qualität der jeweiligen Decodiersignale auswertet durch Berechnen der spektralen Verzerrung jeweiliger Decodiersignale entsprechend dem Sprachsignal, und entscheidet und die Codiereinrichtung (301-m) entsprechend einem Decodiersignal wählt, welches eine relativ kleine spektrale Verzerrung aufweist.

5. Sprachcodiervorrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die Auswerte/Prädiktionseinrichtung (302) die Qualität jeweiliger decodierter Signale auswertet durch Berechnen der Wellenforinverzerrung und der spektralen Verzerrung der jeweiligen codierten Signale entsprechend dem Sprachsignal, und

entscheidet und die Codiereinrichtung (301-m) auf der Grundlage der Wellenformverzerrung und spektralen Verzerrung auswählt.

6. Sprachcodiervorrichtung, welche ein Sprachsignal (401) codiert durch Separieren von Eigenschaften des Sprachsignals (401) in LPC-Parameter (409), welche Vokaltrakteigenschaften des Sprachsignals darstellen, und ein Residuensignal (408, 412), welches Anregungseigenschaften des Sprachsignals (401) in jedem vorbestimmten Rahmen darstellt, mit

einer ersten Codiereinrichtung (402, 403-1, 404-1, 405-1, 406-1) zum Codieren des Sprachsignals (401) mittels Durchführen einer lokalen Decodierung (404-1) des Sprachsignals und Extrahieren von LPC-Parametern (409) und eines Residuensignals (408) aus den Sprachsignalen (401) in jedem vorbestimmten Rahmen;

gekennzeichnet durch

eine zweite Codiereinrichtung (411, 403-2, 404-2, 405-2) zum Codieren des Sprachsignals (401) mittels Durchführen einer lokalen Decodierung (404-2) des Sprachsignals (401) und Extrahieren des Residuensignals (412) aus dem Sprachsignal (401) mittels Verwendung von LPC-Parametern (409) des Rahmens, der dem gegenwärtigen Rahmen vorangeht, wobei die LPC-Parameter (409) erhalten werden von der ersten Codiereinrichtung (402, 403-1, 404-1, 405-1, 406-1), und die ersten und zweiten Codiereinrichtungen dieselbe Gesamtinformationsübertragungsrate aufweisen,

eine Auswerte/Selektionseinrichtung (407-1, 407-2, 413) zum Auswerten der Qualität jeweiliger decodierter Signale, die mittels einer lokalen Decodierung erhalten werden, um zu entscheiden und die geeignete der ersten und zweiten Codiereinrichtungen auszuwählen, worin

wo die Auswerte/Selektionseinrichtung (407-1, 407-2, 413) die erste Codiereinrichtung auswählt, die LPC-Parameter (409) und ein von der ersten Codiereinrichtung codiertes Residuensignal (408) und Selektionsinformation von der Auswerte/Selektionseinrichtung ausgegeben werden, und wo die zweite Codiereinrichtung von der Auswerte/Selektionseinrichtung ausgewählt wird, und das von der zweiten Codiereinrichtung codierte Residuensignal (412) und von der Auswerte/Selektionseinrichtung (407-1, 407-2, 413) erhaltene Selektionsinformation ausgegeben werden.

7. Sprachcodiervorrichtung nach Anspruch 6, dadurch gekennzeichnet, daß

die Auswerte/Selektionseinrichtung (407-1, 407-2, 413) die Qualität jeweiliger codierter Signale auswertet durch Berechnen der Wellenformverzerrung und der spektralen Verzerrung der jeweiligen decodierten Signale (408, 409) entsprechend den Sprachsignalen (401),

die Auswerte/Selektionseinrichtung (407-1, 407-2, 413) entscheidet und die erste Codiereinrichtung auswählt, wenn die Wellenformverzerrung des decodierten Signals (408, 409) der ersten Codiereinrichtung kleiner ist als diejenige der zweiten Codiereinrichtung,

die Auswerte/Selektionseinrichtung (407-1, 407-2, 413) entscheidet und die erste Codiereinrichtung auswählt, wenn die Wellenformverzerrung des decodierten Signals (404-2) der zweiten Codiereinrichtung kleiner ist als diejenige der ersten Codiereinrichtung, und wenn die spektrale Verzerrung des decodierten Signals (404-1) der ersten Codiereinrichtung kleiner ist als diejenige der zweiten Codiereinrichtung, und

die Auswerte/Selektionseinrichtung (407-1, 407-2, 413) entscheidet und die zweite Codiereinrichtung (411, 403-2, 404-2, 405-2) auswählt, wenn eine Wellenformverzerrung eines decodierten Signals (404-2) der zweiten Codiereinrichtung kleiner ist als die der ersten Codiereinrichtung (402, 403-1, 404-1, 405-1, 406-1) und wenn die spektrale Verzerrung des decodierten Signals der zweiten Codiereinrichtung kleiner ist als diejenige der ersten Codiereinrichtung.

8. Sprachdecodiervorrichtung, welche Sprachsignale decodiert, die von einer Sprachcodiervorrichtung gemäß Anspruch 6 codiert worden sind, mit

einer ersten Decodiereinrichtung (518) zum Decodieren eines Sprachsignals durch Empfangen von codierten LPC-Parametern (409) und eines codierten Residuensignals (503) des laufenden Rahmens, wenn Selektionsinformation in einer ersten Stufe ist; und

einer zweiten Decodiereinrichtung zum Decodieren eines Sprachsignals von codierten LPC-Parametern (409), welche vor dem laufenden Rahmen erhalten werden, und codierte Residuensignalen von dem laufenden Rahmen, wenn Selektionsinformation in einer zweiten Stufe ist.

9. Sprachdecodiervorrichtung zum Decodieren des Sprachsignals, welches von einer Sprachcodiervorrichtung gemäß Anspruch 1 codiert worden ist, unter Verwendung der Selektionsinformation von der Auswerte/Selektionseinrichtung (302) und der Vokaltraktinformation und Anregungsinformation ((306-in), die von der Codiereinrichtung (301-in) codiert worden ist, die von der Auswerte/Selektionseinrichtung (302) ausgewählt worden ist.