DE68911287T2 - Codierer/decodierer. - Google Patents
Codierer/decodierer.Info
- Publication number
- DE68911287T2 DE68911287T2 DE89907260T DE68911287T DE68911287T2 DE 68911287 T2 DE68911287 T2 DE 68911287T2 DE 89907260 T DE89907260 T DE 89907260T DE 68911287 T DE68911287 T DE 68911287T DE 68911287 T2 DE68911287 T2 DE 68911287T2
- Authority
- DE
- Germany
- Prior art keywords
- speech
- information
- signal
- coding device
- evaluation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000001755 vocal effect Effects 0.000 claims abstract description 46
- 238000011156 evaluation Methods 0.000 claims abstract description 41
- 230000005284 excitation Effects 0.000 claims abstract description 35
- 230000005540 biological transmission Effects 0.000 claims abstract description 28
- 230000003595 spectral effect Effects 0.000 claims description 19
- 239000000284 extract Substances 0.000 abstract description 2
- 238000004458 analytical method Methods 0.000 description 24
- 238000010586 diagram Methods 0.000 description 8
- 239000013598 vector Substances 0.000 description 8
- 238000000034 method Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000013441 quality evaluation Methods 0.000 description 6
- 238000013139 quantization Methods 0.000 description 6
- 230000007774 longterm Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 102000003712 Complement factor B Human genes 0.000 description 1
- 108090000056 Complement factor B Proteins 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000002542 deteriorative effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Description
- Die vorliegende Erfindung bezieht sich auf eine Sprachcodiervorrichtung, welche ein Sprachsignal codiert durch Separieren von Eigenschaften des Sprachsignals in Vokaltrakinformation, welche Vokaltrakteigenschaften des Sprachsignals darstellt, und Anregungsinformation, welche Anregungseigenschaften des Sprachsignals darstellt.
- Ferner bezieht sich die Erfindung auf eine Sprachcodiervorrichtung, welche ein Sprachsiganl codiert durch Separieren von Eigenschaften des Sprachsignals in LPC-Parameter, welche Vokaltrakteigenschaften des Sprachsignals darstellen, und ein Residuensignal, welches Anregungseigenschaften des Sprachsignals in jedem vorbestimmten Rahmen darstellt, mit einer ersten Codiereinrichtung zum Codieren des Sprachsignals mittels Durchführung einer lokalen Decodierung des Sprachsignals und Extrahieren von LPC-Parametern und Residuensignale von dem Sprachsignal in jedem vorbestimmten Rahmen.
- Diese Erfindung bezieht sich ebenfalls auf solche Decodiervorrichtungen zum Decodieren von Sprachsignalen, die von den oben erwähnten Sprachcodiervorrichtungen codiert sind.
- Auf den Seiten 706 bis 712 der "IEEE Transaction on Acoustics, Speech and Signal Processing", Vol. ASSP-31, Nr. 3, Juni 1983, ist eine Sprachcodiervorrichtung offenbart, welche auf LPC-Parametern basiert, die Vokaltrakteigenschaften darstellen, sowie Anregungseigenschaften eines Sprachsignals. Ein dynamisches Vokaltraktmodell wird verwendet, um die Gesamtübertragungsdatenrate zu reduzieren. Dieses wird durchgeführt durch Betrachten von vielen aufeinanderfolgenden Rahmen auf einmal, und durch Untersuchen aller möglichen Sequenzen von sogenannten PARCOR-Koeffizientenvektoren. Die Sequenz, welche eine vorbestimmte Kostenfunktion minimiert, wird zur Übertragung ausgewählt, was in der reduzierten Gesamtdatenrate resultiert.
- Die Seiten 1169 bis 1173 der Konferenzberichte der IEEE International Conference on Communications", 14.-17. Mai 1984, Amsterdam, Vol. 3, beschreiben eine Sprachcodiervorrichtung, welche das Prinzip der harmonischen Codierung verwendet. Ein Sprachsignal wird in Amplituden und Phasen decodiert und zusammen mit einem modellierenden Residuum (Differenz zwischen einem Linienspektrum entsprechend jenen Amplituden und Phasen und dem tatsächlichen Sprachspektrum) übertragen. Das Sprachsignal kann in eine Anzahl von Frequenzbändern unterteilt werden, und eine dynamische Zuweisung der Bitzahl pro Frequenzband auf der Grundlage der Energie in jedem Band wird ebenfalls verwendet. Die beschriebene harmonische Codierung verwendet ebenfalls eine dynamische, globale Bitzuweisung zwischen den Modellparametern und den modellierenden Residuen. Diese "Softbit"-Zuweisung, die von der Modelliergenauigkeit gesteuert wird, vermeidet eine scharf abgegrenzte Stimmhaft-Stimmlos-Entscheidung.
- Seit neuerem wurde eine Sprachcodier- und Decodiervorrichtung zum Komprimieren von Sprachinformation auf Daten von ungefähr 4 bis 16 kbps mit hoher Effizienz für Kommunikationssysteme im Haus, digitale Mobilfunksysteme und Sprachspeichersysteme gefordert.
- Als erster Stand der Technik einer Sprachvorhersagevorrichtung ist eine adaptive prediktive Codiervorrichtung vorgesehen, um die Vorhersageparameter (Vokaltraktinformation) eines Prädiktors und ein Residuensignal (Anregungsinformation) für die Übertragung an die Empfangsstation zu multiplexen.
- Fig. 1 ist ein Blockdiagramm, welches die Sprachcodiervorrichtung des ersten Standes der Technik zeigt. Ein Codierer 100, der in solch einer Codiervorrichtung verwendet wird, umfaßt eine lineare Prädiktionsanalyseeinheit 101, einen Prädiktor 102, einen Quantisierer 103, eine Multiplexeinheit 104 und Addierer 105 und 106.
- Die lineare Prädiktionsanalyseeinheit 101 analysiert eingegebene Sprachsignale und gibt Vorhersageparameter aus, der Prädiktor 102 sagt Eingangssignale voraus unter Verwendung von Ausgaben vom Addierer 106 (unten beschrieben) und Prädiktionsparametern von der linearen Prädiktionsanalyseeinheit 101, der Addierer 105 gibt Fehlerdaten aus durch Berechnen der Differenz zwischen einem eingegebenen Sprachsignal und dem vorhergesagten Signal, der Quantisierer 103 erhält ein Residuensignal durch Quantisieren der Fehlerdaten, und der Addierer 106 addiert die Ausgabe vom Prädiktor 102 zu derjenigen des Quantisierers 103, und ermöglicht dadurch, daß die Ausgabe an den Prädiktor 102 rückgekoppelt wird. Die Multiplexeinheit 104 multiplext Prädiktionsparameter von der linearen Prädiktionsanalyseeinheit 101 und ein Residuensignal von dem Quantisierer 103 für eine Übertragung an eine Empfangsstation.
- Mit solch einer Struktur führt die lineare Prädiktionsanalyseeinheit 101 eine lineare Prädiktionsanalyse eines Eingangssignals in jeder vorbestimmter Rahmenperiode durch, und extrahiert dadurch Prädiktionsparameter als Vokaltraktinformation, welchen geeignete Bits von einem Codierer (nicht gezeigt) zugewiesen werden. Die Prädiktionsparamter werden somit codiert und an den Prädiktor 102 und die Multiplexeinheit 104 ausgegeben. Der Prädiktor 102 sagt ein Eingangssignal auf der Grundlage der Prädiktionsparameter und einer Ausgabe von dem Addierer 106 voraus. Der Addierer 105 berechnet die Fehlerdaten (die Differenz zwischen der vorhergesagten Information und dem Eingangssignal), und der Quantisierer 103 quantisiert die Fehlerdaten, und weist dadurch geeignete Bits den Fehlerdaten zu, um ein Residuensignal vorzusehen. Dieses Residuensignal wird an die Multiplexeinheit 104 als Anregungsinformation ausgegeben.
- Danach werden die codierten Prädiktionsparameter und das Residuensignal von der Multiplexeinheit 104 gemultiplext und an eine Empfangsstation übertragen.
- Der Addierer 106 addiert ein von dem Prädiktor 102 vorhergesagtes Eingangssignal und ein von dem Quantisierer 103 quantisiertes Residuensignal. Eine Additionsausgabe wird wiederum in den Prädiktor 102 eingegeben und wird verwendet, das Eingangssignal zusammen mit den Vorhersageparamtern vorherzusagen.
- In diesem Fall ist die Anzahl von Bits, die für jeden Rahmen den Prädiktionsparametern zugewiesen werden, auf α-Bits pro Rahmen festgelegt und die dem Residuensignal zugewiesene Anzahl von Bits ist auf β-Bits pro Rahmen festgelegt. Deshalb werden die (α + β) Bits für jeden Rahmen an die Empfangsstation übertragen. In diesem Fall beträgt die Übertragungsrate beispielsweise 8 kbps.
- Fig. 2 ist ein Blockdiagramm, welches den zweiten Stand der Technik der Sprachcodiervorrichtung zeigt. Dieser Stand der Technik lehrt den CELP (Code Excited Linear Prediction) Codierer, der als Sprachcodierer mit niedriger Bitrate bekannt ist.
- Grundsätzlich ist ein CELP-Codierer, wie der in Fig. 1 gezeigte erste Stand der Technik, eine Vorrichtung zum Codieren und Übertragen von LPC-Parametern (auch Vorhersageparametern), die von einer LPC-Analyse erhalten werden, und einem Residuensignal. Dieser CELP-Codierer hat jedoch ein Merkmal, ein Residuensignal mittels Verwendung eines der Residuenmuster in einem Codebuch zu verwenden, wodurch eine hocheffiziente Codierung erhalten wird.
- Details von CELP sind offenbart in Atal BS und Schroeder M.R. "Stochastic Coding of Speech at Very Low bit Rate", Proc.ICASSP 84-1610 bis 1613, 1984, und eine Zusammenfassung des CELP-Codierers wird im folgenden unter Bezugnahme auf Fig. 2 erlautert.
- Eine LPC-Analyseeinheit 201 führt eine LPC-Analyse eines Eingangssignals durch, und ein Quantisierer 102 quantisiert die analysierten LPC-Parameter (Vorhersageparameter), um an den Prädiktor 203 geliefert zu werden. Eine Tonlagenperiode m, ein Tonlagenkoeffizient Cp und eine Verstärkung G, die nicht gezeigt sind, werden aus dem Eingangssignal extrahiert.
- Ein Residuenwellenformmuster (code vector) wird sequentiell aus dem Codebuch 204 ausgelesen und deren jeweiliges Muster wird zuerst in einen Multiplizierer 205 eingegeben und mit der Verstärkung G multipliziert. Dann wird die Ausgabe in eine Rückkopplungsschleife eingegeben, nämlich einen Langzeitprädiktor, welcher einen Verzögerungsschaltkreis 206 umfaßt, einen Multiplizierer 207 und einen Addierer 208, um ein Residuensignal zu synthetisieren. Der Verzögerungswert des Verzögerungsschaltkreises 206 wird auf denselben Wert eingestellt wie die Tonlagenperiode. Der Multiplizierer 207 multipliziert die Ausgabe von dem Verzögerungsschaltkreis 206 mit dem Tonlagenkoeffizienten Cp.
- Ein von dem Addierer 208 ausgegebenes, synthetisiertes Residuensignal wird in eine Rückkopplungsschleife eingegeben, nämlich eine Kurzzeitprädiktoreinheit, welche den Prädiktor 203 und einen Addierer 209 umfaßt, und das vorhergesagte Eingangssignal wird synthetisiert. Die Vorhersageparameter sind LPC-Parameter von der Quantisiereinheit 202. Das vorhergesagte Eingangssignal wird in einem Subtrahierer 210 von einem Eingangssignal subtrahiert, um ein Fehlersignal vorzusehen. Eine Wichtungsfunktionseinheit 211 wichtet das Fehlersignal, wobei die akustischen Eigenschaften von Menschen berücksichtigt werden. Dieses ist ein Korrekturvorgang, um den Fehler für ein menschliches Ohr gleichförmig zu machen, weil der Einfluß des Fehlers auf das menschliche Ohr verschieden ist, abhängig von dem Frequenzband.
- Die Ausgabe der Wichtungsfunktionseinheit 211 wird an eine Fehlerleistungsberechnungseinheit 212 gegeben, und eine Fehlerleistung wird in jeweiligen Rahmen berechnet.
- Ein Weißes-Rauschen-Codebuch 204 weist eine Vielzahl von Beispielen von Residuenwellenformmustern (Codevektoren) auf, und die obige Reihe von Vorgängen wird für alle Beispiele wiederholt. Ein Residuenwellenformmuster, für welches die Fehlerleistung innerhalb eines Rahmens minimal ist, wird als ein Residuenwellenformmuster des Rahmens ausgewählt.
- Wie oben beschrieben, werden der Index des für jeden Rahmen erhaltenen Residuenwellenformmusters ebenso wie LPC-Parameter von dem Quantisierer 202, eine Tonlagenperiode m, ein Tonlagenkoeffizient Cp und eine Verstärkung G an eine Empfangsstation übertragen. Auf der anderen Seite ist die Empfangsstation nicht gezeigt, bildet jedoch mittels der übertragenen Tonlagenperiode m und dem Tonlagenkoeffizienten Cp einen Langzeitprädiktor, ähnlich wie im obigen Fall, und das Residuenwellenformmuster, welches einem übertragenen Index entspricht, wird in den Langzeitprädiktor eingegeben, wodurch ein Residuensignal reproduziert wird. Ferner bilden die übertragenen LPC-Parameter einen Kurzzeitprädiktor, ähnlich wie im obigen Fall, und das reproduzierte Residuensignal wird in den Kurzzeitprädiktor eingegeben, wodurch ein Eingangssignal produziert wird.
- Jeweilige dynamische Eigenschaften einer Anregungseinheit und einer Vokaltrakteinheit sind in einer Schallerzeugungsstruktur eines Menschen verschieden und die jeweilige, an beliebigen Punkten zu übertragende Datenmenge von der Anregungseinheit und der Vokaltrakteinheit wird verschieden. Mit einer herkömlichen Sprachcodiervorrichtung, wie in Fig. 1 oder 2 gezeigt, werden jedoch Anregungsinformation und Vokaltraktinformation mit einem festen Datenmengenverhältnis übertragen. Die obigen Spracheigenschaften werden nicht verwendet. Wenn die Übertragungsrate niedrig ist, wird deshalb die Quantisierung grob, wodurch Rauschen anwächst und die Erhaltung einer befriedigenden Sprachqualität schwierig wird.
- Im Hinblick auf die in den Fig. 1 oder 2 gezeigten Beispiele wird das obige Problem wie folgt erklärt.
- In einem Sprachsignal existiert eine Periode, in welcher sich Eigenschaften abrupt ändern, und eine Periode, in welcher der Zustand konstant ist, und letztere Werte der Vorhersageparameter sich nicht zu sehr ändern. Es existieren nämlich Fälle, in denen die Korrelation zwischen den Vorhersageparametern (LPC-Parametern) in kontinuierlichen Rahmen groß ist, und Fälle, wo sie nicht stark sind. Herkömmlicherweise werden Vorhersageparameter (LPC-Parameter) mit einer konstanten Rate für jeden Rahmen übertragen. Demgemäß werden die Eigenschaften der Sprachsignale nicht vollständig genutzt. Deshalb bewirken die Übertragungsdaten Redundanzen, und die Qualität der reproduzierten Sprache in der Empfangsstation ist für den Betrag der Übertragungsdaten nicht ausreichend.
- Die Aufgabe der vorliegenden Erfindung ist es, eine Sprachcodier-Decodiervorrichtung mit höherer Qualität der reproduzierten Sprache und Unterdrückung von Redundanz der Übertragungsinformation vorzusehen, um zu verhindern, daß relativ stabile Vokaltraktinformation übertragen wird.
- Diese Aufgabe wird von einer Sprachcodiervorrichtung gemäß Anspruch 1 gelöst. Die Aufgabe wird ferner gelöst von einer Sprachdecodiervorrichtung gemäß Anspruch 9, zum Decodieren eines Sprachsignals, welches von der Sprachcodiervorrichtung gemäß Anspruch 1 codiert wurde.
- Ferner wird die obige Aufgabe gelöst von einer Sprachcodiervorrichtung gemäß Anspruch 6. Die Aufgabe wird ferner gelöst von einer Sprachdecodiervorrichtung gemäß Anspruch 8, um das von einer Sprachcodiervorrichtung gemäß Anspruch 6 codierte Sprachsignal zu decodieren.
- Ein Vorteil der Sprachcodier-Decodiervorrichtung ist, daß eine Sprachcodier/Decodiervorrichtung vom Modusumschalttyp verwendet wird, um eine Vielzahl von Moden vorzusehen, welche von dem Übertragungsverhältnis zwischen Anregungsinformation und Vokaltraktinformation abhängen, und auf eine Codierung hin in den Modus zu schalten, in welchem die beste Reproduktion von Sprachqualität durchgeführt werden kann. Somit kann die Klangqualität insbesondere bei niedrigeren Übertragungsraten erhalten werden.
- Anstatt der Anregungsinformation viele Bits zuzuweisen, ist eine Redundanzunterdrückung der Übertragungsinformation möglich, um zu verhindern, daß relativ stabile Vokaltraktinformation übertragen wird. Dieses resultiert in einer besseren Qualität der reproduzierten Sprache.
- Weitere vorteilhafte Ausführungsbeispiele der vorliegenden Erfindung ergeben sich aus den abhängigen Ansprüchen.
- In der Sprachcodiervorrichtung der vorliegenden Erfindung wird ein Sprachsignal codiert durch Separieren der Eigenschaften des Sprachsignals in Artikulationsinformation (allgemein Vokaltraktinformation genannt), welche Artikulationseigenschaften des Sprachsignals darstellt, sowie Anregungsinformation, welche Anregungseigenschaften des Sprachsignals darstellt. Artikulationseigenschaften sind Frequenzeigenschaften einer von dem menschlichen Vokaltrakt und Nasalaktivität geformten Stimme, und beziehen sich manchmal nur auf Vokaltrakteigenschaften. Vokaltraktinformationen, welche Vokaltrakteigenschaften darstellen, umfassen LPC-Parameter, die erhalten werden durch Bilden einer linearen Prädiktionsanalyse eines Sprachsignals. Anregungsinformation umfaßt beispielweise ein Residuensignal. Die Sprachcodier-Decodiervorrichtung gemäß der Erfindung hat eine Struktur, wie in Fig. 3 gezeigt. Wie in Fig. 3 gezeigt, decodiert eine Vielzahl von Codiereinheiten 301-1 bis 301-m lokal ein Sprachsignal 303 durch Extrahieren von Vokaltraktinformation 304 sowie Anregungsinformation 305 von dem Sprachsignal 303, mittels Durchführung einer lokalen Decodierung an diesem Punkt. Die Vokaltraktinformation und Anregungsinformation liegen allgemein in der Form von Parametern vor. Die Übertragungsverhältnisse jeweiliger codierter Informationen sind verschieden, wie von den Bezugszeichen 306-1 bis 306-m in Fig. 3 gezeigt wird. Die obigen Codiereinheiten umfassen eine erste Codiereinheit zum Codieren eines Sprachsignals durch lokales Decodieren desselben, und Extrahieren von LPC-Parametern und einem Residuensignal von diesem in jedem Rahmen, und eine zweite Codiereinheit zum Codieren eines Sprachsignals mittels Durchführen einer lokalen Decodierung an diesem und Extrahieren eines Residuensignals von diesem unter Verwendung der LPC-Parameter von dem Rahmen viele Rahmen vor dem gegenwärtigen, wobei die LPC-Parameter von den ersten Codiereinheiten erhalten werden.
- Als nächstes evaluieren Auswerte/Selektionseinheiten 302-1/302-2 die Qualität von jeweiligen decodierten Signalen 307-1 bis 307-m, die lokaler Decodierung mittels jeweiliger Decodiereinheiten 301-1 bis 301-m unterworfen worden sind und liefern so das Auswertungsergebnis. Dann entscheiden sie und wählen die am besten geeigneten Codiereinheiten unter den Codiereinheiten 301-1 bis 301-m auf der Grundlage des Auswertungsergebnisses und geben ein Ergebnis der Selektion als Selektionsinformation 310 aus. Die Auswerte/Selektionseinheiten umfassen eine Auswerteentscheidungseinheit 302-1 und eine Selektionseinheit 302-2, wie in Fig. 3 gezeigt ist.
- Die Sprachcodiervorrichtung der obigen Struktur gibt Vokaltraktinformation 304 und Anwendungsinformation 305 aus, codiert mittels der Codiereinheiten, die von den Auswerte/Selektionseinheiten 302-1/302-2 ausgewählt worden sind, und gibt Selektionsinformation 310 von der Auswerte/Selektionseinheit 301-1/302-2 beispielsweise an Leitung 308 aus.
- Die Decodiereinheit 309 decodiert das Sprachsignal 311 von Selektionsinformation 310, Vokaltraktinformation 304 und Anregungsinformation 305, welche von der Sprachcodiervorrichtung übertragen werden.
- Mit solch einer Struktur wählt die Auswerte/Selektionseinheit 302-1/302-2 eine Codierausgabe 304 und 305 der Codiereinheit, welche ausgewertet wird, eine gute Qualität zu haben, mittels Decodiersignalen 307-1 bis 307-m, die lokaler Decodierung unterworfen sind.
- In den Abschnitten des Sprachsignals, in welchen sich Vokaltraktinformation nicht verändert, wird der LPC-Parameter nicht ausgegeben, und dadurch ein Informationsüberschuß bewirkt. Soviel wie möglich von dem Überschuß wird einem Residuensignal zugewiesen, wodurch die Qualität des decodierten Signals 311, welches in einer Sprachdecodiervorrichtung erhalten wird, verbessert wird.
- In dem in Fig. 3 gezeigten Blockdiagramm wird die Sprachcodiervorrichtung mit der Sprachdecodiervorrichtung über eine Leitung 308 kombiniert, es ist jedoch klar, daß nur die Sprachcodiervorrichtung oder nur die Sprachdecodiervorrichtung zu einer Zeit verwendet werden kann. So wird die Ausgabe von der Sprachcodiervorrichtung in einem Speicher gespeichert, und die Eingabe an die Sprachdecodiervorrichtung wird aus dem Speicher erhalten.
- Vokaltraktinformation ist nicht beschränkt auf LPC-Parameter auf der Grundlage linearer Prädiktionsanalyse, sondern kann Cepstrum Parameter, beispielsweise auf der Grundlage von Cepstrum-Analyse sein. Es kann ein Verfahren zum Codieren des Residuensignals durch Unterteilen desselben in Tonlageninformation und Geräuschinformation mittels eines CELP-Codierverfahrens oder eines RELP (Residual Excited Linear Prediction) Verfahrens beispielsweise verwendet werden.
- Fig. 1 zeigt ein Blockdiagramm des ersten Standes der Technik,
- Fig. 2 zeigt ein Blockdiagram des zweiten Standes der Technik,
- Fig. 3 zeigt ein Blockdiagramm zum Erklären des Prinzips der vorliegenden Erfindung,
- Fig. 4 zeigt ein Blockdiagramm des ersten Ausführungsbeipiels der vorliegenden Erfindung,
- Fig. 5 stellt ein Blockdiagramm des zweiten Ausführungsbeispiels der vorliegenden Erfindung dar,
- Fig. 6 zeigt ein Betriebsflußdiagramm des zweiten Ausführungsbeispiels,
- Fig. 7A zeigt eine Tabelle einer Zuweisung von zu übertragenden Bits im zweiten Stand der Technik, und
- Fig. 7B ist eine Tabelle einer Zuweisung von zu übertragenden Bits in dem zweiten Ausführungsbeispiel der vorliegenden Erfindung.
- Das Ausführungsbeispiel der vorliegenden Erfindung wird unter Bezugnahme auf die Zeichnungen erläutert.
- Fig. 4 zeigt eine strukturelle Ansicht des ersten Ausführungsbeispiels der vorliegenden Erfindung, und dieses Ausführungsbeispiel entspricht dem in Fig. 1 gezeigten ersten Stand der Technik.
- Der erste Quantisierer 403-1, Prädiktor 404-1, Addierer 405-1 und 406-1, und LPC-Analyseeinheit 402 entsprechen den mit 103, 102, 105, 106 bzw. 101 in Fig. 1 bezeichneten Abschnitten, wodurch ein adaptiver Prädiktionssprachcodierer vorgesehen wird. In diesem Ausführungsbeispiel sind ferner ein zweiter Quantisierer 403-2, ein zweiter Prädiktor 404-2 und zusätzliche Addierer 405-2 und 406-2 vorgesehen. Die an den Prädiktor 404-2 gegebenen LPC-Parameter werden vorgesehen durch verzögernde Ausgabe von der LPC-Analyseeinheit 402 in einem Rahmenverzögerungsschaltkreis 411 durch Anschluß A des Schalters 411. Die Abschnitte in der oberen Stufe der Fig. 4, welche jenen in Fig. 1 entsprechen, bewirken, daß Ausgangsanschluß 408 und 409 LPC-Parameter bzw. ein Residuensignal übertragen. Dieses ist definiert als R-Modus. Das vom Ausgangsanschluß 412 übertragene Signal in der unteren Stufe der Fig. 4 ist nur das Residuensignal, welches definiert ist als B-Modus. Auswerteeinheiten 407-1 und 407-2 werten das S/N des Codierers im A- oder B-Modus aus. Ein Modusbestimmungsabschnitt 403 erzeugt ein Signal A/B zum Bestimmen, welcher Modus verwendet werden soll (Modus A oder Modus B), um die Ausgabe an eine gegenüberliegende Station (Empfangsstation) zu übertragen, auf der Grundlage der Auswertung. Eine Schaltereinheit (SW) 410 wählt die Seite A, wenn in dem vorangehenden Rahmen der A-Modus gewählt ist. Dann werden als LPC-Parameter des B-Modus für den laufenden Rahmen die Werte des A-Modus des vorangehenden Rahmens verwendet. Wenn der B-Modus in dem vorangehenden Rahmen gewählt ist, wird die B-Seite gewählt und die Werte des B-Modus in dem vorangehenden Rahmen, nämlich die Werte des A-Modus in dem Rahmen, welcher viele Rahmen vor dem laufenden Rahmen liegt, werden verwendet.
- In dieser Schaltkreisstruktur arbeiten die Codierer der A- und B-Moden parallel im Hinblick auf jeden Rahmen. Der A-Modus-Codierer erzeugt laufende Rahmenvorhersageparameter (LPC-Parameter) als Vokaltraktinformation vom Ausgangsanschluß 409, und ein Residuensignal als Anregungsinformation durch Ausgangsanschluß 408. In diesem Fall beträgt die Übertragungsrate der LPC-Parameter β-Bits-Rahmen und diejenige eines Residuensignals α-Bits-Rahmen. Der B-Modus-Codierer gibt ein Residuensignal im Ausgangsanschluß 412 mittels Verwendung von LPC-Parametern des vorangehenden Rahmens oder eines Rahmens, welcher viele Rahmen vor dem laufenden Rahmen liegt, aus. In diesem Fall beträgt die Übertragungsrate des Residuensignals (α + β) Bits/Rahmen, so daß die Bitzahl für das Residuensignal um die Anzahl von Bits, die für die LPC-Parameter nicht verwendet werden, erhöht werden kann, weil die LPC-Parameter wenig variieren. Eingangssignale an die Prädiktoren 404-1 und 404-2 sind lokal decodierte Ausgaben von den Addierern 406-1 und 406-2. Sie sind Signalen gleich, die in der Empfangsstation decodiert werden. Auswerteeinheiten 407-1 und 407-2 vergleichen diese lokal decodierten Signale mit ihren Eingangssignalen vom Eingangsanschluß 401, um die Qualität der codierten Sprache auszuwerten. Ein Signal-Quantisierungsrauschverhältnis SNR in einem Rahmen wird beispielsweise für diese Auswertung verwendet, was ermöglicht, daß die Auswerteeinheiten 407-1 und 407-2 SN(A) und SN(B) ausgeben. Die Modusbestimmungseinheit 413 vergleicht diese Signale, und wenn SN(A) < SN(B), wird ein den A-Modus bezeichnendes Signal ausgegeben, und wenn SN(A) > SN(B), wird ein den B-Modus bezeichnendes Signal ausgegeben.
- Ein den A-Modus oder B-Modus bezeichnendes Signal wird von der Modusbestimmungseinheit 413 an einen (nicht gezeigten) Selektor übertragen. Signale von den Ausgangsanschlüssen 408, 409 und 412 werden in den Selektor eingegeben. Wenn der Selektor einen A-Modus bezeichnet, werden das codierte Residuensignal und LPC-Parameter von den Ausgangsanschlüssen 408 und 409 gewählt und an die gegenüberliegende Station ausgegeben. Wenn der Selektor einen B-Modus bezeichnet, dann wird das codierte Residuensignal vom Ausgangsanschluß 412 gewählt und an die gegenüberliegende Station ausgegeben.
- In jedem Rahmen wird eine Selektion von A- oder B-Moden durchgeführt. Die Übertragungsrate beträgt (α + β) Bits pro Rahmen, wie oben beschrieben, und wird in keinem Modus verändert. Die Daten von (α + β) Bits pro Rahmen werden an eine Empfangsstation übertragen, nachdem ein Bit pro Rahmen, welches ein A/B-Signal darstellt, welches bezeichnet, ob die Daten in einem A-Modus oder B-Modus sind, den Daten von (α + β) Bits pro Rahmen hinzugefügt worden ist.
- Die im B-Modus erhaltenen Daten werden übertragen, wenn der B-Modus eine bessere Qualität bietet. Deshalb ist die Qualität reproduzierter Sprache in der vorliegenden Erfindung besser als im in Fig. 1 gezeigten Stand der Technik, und die Qualität der reproduzierten Sprache kann in der vorliegenden Erfindung niemals schlechter sein als im Stand der Technik.
- Fig. 5 ist eine strukturelle Ansicht des zweiten Ausführungsbeispiels dieser Erfindung. Dieses Ausführungsbeispiel entspricht dem in Fig. 2 gezeigten zweiten Stand der Technik. In Fig. 5 stellen 501-1 und 501-2 Codierer dar. Diese Codierer sind beide CELP-Codierer, wie in Fig. 2 gezeigt. Einer davon, 501-1, führt eine lineare Prädiktionsanalyse an jedem Rahmen durch, durch Zerteilen von Sprache in 10 bis 30 Millisekundenabschnitte, und gibt Prädiktionsparameter, Residuenwellenformmuster, Tonlagenfrequenz, Tonlagenkoeffizient und Verstärkung aus. Der andere Codierer, 501-2, führt nicht lineare Prädiktionsanalyse durch, sondern gibt nur ein Residuenwellenformuster aus. Deshalb, wie später beschrieben, kann der Codierer 501-2 mehr Quantisierungsbits einem Residuenwellenformmuster zuweisen, als der Codierer 501-1 kann.
- Der Betriebsmodus, welcher den Codierer 501-1 verwendet, wird A-Modus genannt und der Betriebsmodus, welcher den Codierer 501-2 verwendet, wird B-Modus genannt.
- Im Codierer 501-1 führt die lineare Prädiktionsanalyseeinheit 506 dieselbe Funktion aus wie sowohl die LPC-Analyseeinheit 201 als auch die Quantisiereinheit 202. Ein Weißes-Rauschen-Codebuch 507-1, Verstärkunssteuerung 508-1 und Fehlerberechnungseinheit 511-1 entsprechen jeweils jenen, die mit den Bezugsziffern 204, 205 und 210 in Fig. 2 bezeichnet sind. Die Langzeitvorhersageeinheit 509-1 entspricht jenen, die in Fig. 2 mit den Bezugsziffern 206 bis 208 bezeichnet sind. Sie führt eine Anregungsoperation durch mittels Empfang von Tonlagendaten, wie im zweiten Stand der Technik beschrieben. Die Kurzzeitprädiktionseinheit 510-1 entspricht jenen, die mittels der Bezugszeichen 203 und 209 in Fig. 2 dargestellt sind, und funktioniert als Vokaltrakt mittels Empfang von Prädiktionsparametern, wie im zweiten Stand der Technik beschrieben. Zusätzlich entspricht die Fehlerauswerteeinheit 512-1 jenen, die mit den Bezugsziffern 211 und 212 in Fig. 2 bezeichnet sind, und führt eine Auswertung der Fehlerleistung durch, wie im zweiten Stand der Technik beschrieben. In diesem Fall bezeichnet die Fehlerauswerteeinheit 512-1 der Reihe nach Adressen (Phasen) im Weißes-Rauschen-Codebuch 507-1 und führt Auswertungen der Fehlerleistungen aller Codevektoren (Residuenmuster) durch, wie im zweiten Stand der Technik beschrieben. Dann wählt sie den Codevektor, der die niedrigste Fehlerleistung aufweist, und erzeugt dadurch als die Residuensignalinformation die Nummer des gewählten Codevektors in dem Weißes-Rauschen-Codebuch 507-1.
- Die Fehlerauswerteeinheit 505-1 gibt ebenfalls ein segmentäres S/N (S/NA) aus, welches Wellenformverzerrungsdaten in einem Rahmen aufweist.
- Der Codierer 501-1, beschrieben mit Bezug auf Fig. 2, erzeugt codierte Vorhersageparameter (LPC-Parameter) von der linearen Prädiktionsanalyseeinheit 506. Er erzeugt ebenfalls eine codierte Tonlagenperiode, einen Tonlagenkoeffizienten und eine Verstärkung (nicht gezeigt).
- Im Codierer 501-2 sind die von dem Bezugszeichen 507-2 bis 512-2 bezeichneten Abschnitte dieselben wie die jeweiligen Abschnitte, die von den Bezugszeichen 507-1 bis 512-1 im Codierer 501-1 bezeichnet sind. Der Codierer 501-2 hat keine lineare Prädiktionsanalyseeinheit 506; anstelle dessen hat er einen Koeffizientenspeicher 513. Der Koeffizientenspeicher 513 enthält Prädiktionskoeffizienten (Prädiktionsparameter), die von der linearen Prädiktionsanalyseeinheit 501 erhalten werden. Information aus dem Koeffizientenspeicher 513 wird als linearer Prädiktionsparameter an die Kurzzeitprädiktionseinheit 510-2 gegeben.
- Der Koeffizientenspeicher 513 wird jedesmal erneuert, wenn ein A-Modus erzeugt wird (jedesmal, wenn eine Ausgabe vom Codierer 501-1 gewählt wird). Er wird nicht erneuert und behält die Werte, wenn ein B-Modus erzeugt wird (wenn eine Ausgabe vom Codierer 501-2 gewählt wird). Deshalb werden die neuesten Prädiktionskoeffizienten, die an eine Dekoderstation übertragen werden (Empfangsstation), immer im Koeffizientenspeicher 513 gehalten.
- Der Codierer 501-2 erzeugt nicht Prädiktionsparameter, sondern erzeugt Residuensignalinformation, Tonlagenperiode, Tonlagenkoeffizienten und Verstärkung. Deshalb können, wie später beschrieben wird, um die Anzahl von Bits entsprechend der Menge von Prädiktionsparametern, die nicht ausgegeben werden, mehr Bits der Residuensignalinformation zugewiesen werden.
- Die Qualitätsauswerte/Codierselektionseinheit 502 wählt den Codierer 501-1 oder 501-2, je nachdem, welcher die bessere Sprachreproduktionsqualität bietet, auf der Grundlage eines Ergebnisses, welches durch eine lokale Decodierung in jeweiligen Codierern 501-1 und 501-2 erhalten wird. Die Qualitätsauswerte/Codierselektionseinheit 502 verwendet auch Wellenformverzerrung und spektrale Verzerrung reproduzierter Sprachsignale A und B, um die Qualität der von den Codierern 501-1 oder 501-2 reproduzierten Sprache auszuwerten. Mit anderen Worten verwendet die Einheit 502 ein segmentäres S/N und eine LPC Cepstrum-Distanz (CD) jeweiliger Rahmen nebeneinander, um die Qualität reproduzierter Sprache auszuwerten.
- Deshalb ist die Qualitätsauswerte/Codierselektionseinheit 502 mit einer Cepstrum-Distanzberechnungseinheit 515 ausgestattet, einer Betriebsmodusbeurteilungseinheit 516 und einem Schalter 514.
- Die Cepstrum-Distanzberechnungseinheit 515 erhält die ersten LPC Cepstrum-Koeffizienten von den LPC-Parametern, welche dem gegenwärtigen Rahmen entsprechen, und die von der linearen Prädiktionsanalyseeinheit 516 erhalten worden sind. Die Einheit 515 erhält ebenfalls die zweiten LPC-Cepstrum-Koeffizienten von den LPC-Parametern, die aus dem Koeffizientenspeicher 513 erhalten werden, und gegenwärtig in dem B-Modus verwendet werden. Dann berechnet sie die LPC-Cepstrum-Distanz CD in dem laufenden Rahmen aus den ersten und zweiten LPC-Cepstrum-Koeffizienten. Es ist allgemein akzeptiert, daß die so erhaltene LPC-Cepstrum-Distanz klar die Differenz zwischen den obigen zwei Sätzen von spektralen Vokaltraktcharakteristiken ausdrückt, die bestimmt werden durch Vorbereiten von LPC-Parametern (spektrale Verzerrung).
- Die Betriebsmodusbeurteilungseinheit 516 empfängt segmentäre S/NA und S/NB von Codierern 501-1 und 501-2 und empfängt die LPC-Cepstrum-Distanz (CD) von der Cepstrum-Distanzberechnungseinheit 515, um das in dem Betriebsflußdiagramm der Fig. 6 gezeigte Verfahren durchzuführen. Dieses Verfahren wird später beschrieben.
- Wenn die Betriebsmodusbeurteilungseinheit 518 den A-Modus wählt (Codierer 501-1), wird der Schalter 514 auf die A-Modus-Anschlußseite geschaltet. Wenn die Betriebsmodusbeurteilungseinheit 518 den B-Modus wählt (Codierer 501-2), wird der Schalter 514 auf die B-Modusanschlußsseite geschaltet. Jedesmal, wenn mittels einer Schaltoperation des Schalters 514 ein A-Modus erzeugt wird (Ausgabe vom Codierer 501-1 wird gewählt), wird der Koeffizientenspeicher 513 erneuert. Wenn der B-Modus erzeugt wird (Ausgabe vom Codierer 501-2 wird gewählt), wird der Koeffizientenspeicher 513 nicht erneuert und behält die laufenden Werte. Die Multiplexereinheit 504 multiplext Residuensignalinformation und Prädiktionsparameter vom Codierer 501-1. Der Selektor 517 wählt eine der von der Multiplexeinheit 504 erhaltenen Ausgaben, das heißt, entweder die gemultiplexte Ausgabe (umfassend Residuensignalinformation und Prädiktionsparameter), der von dem Codierer 501-1 erhalten wird, oder die Residuensignalinformation, die vom Codierer 501-2 ausgegeben wird, auf der Grundlage der Codierernummerinformation i, die von der Betriebsmodusbeurteilungseinheit 516 erhalten wird.
- Der Decodierer 518 gibt ein reproduziertes Sprachsignal auf der Grundlage von Residuensignalinformation und Prädiktionsparametern vom Codierer 501-1, oder Residuensignalinformation vom Codierer 501-2 aus. Somit hat der Decoder 518 eine ähnliche Struktur wie die Weißes-Rauschen-Codebücher 507-1 und 507-2, Langzeitprädiktionseinheiten 509-1 und 509-2 und Kurzzeitprädiktionseinheiten 510-1 und 510-2 in den Codierern 501-1 und 501-2.
- Die Separiereinheit (DMUX) 505 separiert von dem Codierer 501-1 übertragene, gemultiplexte Signale in Residuensignalinformation und Prädiktionsparameter.
- In Fig. 5 sind die Einheiten links vom Übertragungspfad 503 auf der Übertragungsseite und Einheiten rechts sind auf der Empfangsseite.
- Mit der obigen Struktur wird ein Sprachsignal im Hinblick auf Prädiktionsparameter und Residuensignale im Codierer 501-1 codiert, oder im Hinblick nur auf die Residuensignale im Codierer 501-2. Eine Qualitätsauswerte/Codierselektionseinheit 502 wählt die Nummer i des Codierers 501-1 oder 501-2, welcher die beste Sprachreproduktionsqualität aufweist, auf der Grundlage von segmentärer S/N-Information und LPC-Cepstrum-Distanzinformation von jedem Rahmen. Mit anderen Worten führt die Betriebsmodusbeurteilungseinheit 516 in der Qualitätsauswerte/Codierselektionseinheit 502 das folgende Verfahren in Übereinstimmung mit dem in Fig. 6 gezeigten Betriebsflußdiagram aus.
- Der Codierer 501-1 oder 501-2 wird gewählt durch Eingeben der Codierernummer i. Im A-Modus ist i=l; im B-Modus ist i=2. Wenn das das segmentäre S/N im Codierer 501-1 besser ist als das des Codierers 501-2 (S/NA > S/NB), wird der A-Modus gewählt durch Eingeben der Codierer Nr. 1 (Codierer 501-1) in den Selektor 517 (Fig. 6, S1 T S2).
- Wenn andererseits das segmentäre S/N im Codierer 501-2 besser ist als das des Codierers 501-1 (S/NA < S/NB), wird die folgende Beurteilung weiter ausgeführt. Eine LPC-Cepstrum-Distanz CD von der Cepstrum-Berechnungseinhiet 515 wird mit einem vorbestimmten Schwellenwert CDTH (S3) verglichen. Wenn CD kleiner ist als der Schwellenwert CDTH (die spektrale Verzerrung gering ist), wird die B-Modus gewählt, so daß die Codierer Nr. 2 (Codierer 501-2) an den Selektor 517 (S4) ausgegeben wird. Wenn CD größer ist als der obige Schwellwert CDTH (die spektrale Verzerrung groß ist), wird der A-Modus gewählt durch Eingeben der Codierer Nr. 1 (Codierer 501-1) an den Selektor 516 (S3 T S2).
- Die obige Operation ermöglicht, daß der am besten geeignete Codierer gewählt wird.
- Der Grund, warum zwei Auswertefunktionen verwendet werden, wie oben beschrieben, ist der, daß wenn der A-Modus gewählt ist, die lineare Prädiktionsanalyseeinheit 506 immer Prädiktionsparameter gemäß dem laufenden Rahmen berechnet. Dieses stellt sicher, daß die besten spektralen Eigenschaften erhalten werden, und so kann der A-Modus bloß unter der Bedingung gewählt werden, daß das segmentäre S/NA, welches eine Verzerrung im Zeitbereich darstellt, gut ist. Im Gegensatz dazu, wenn der B-Modus gewählt ist, obwohl das segmentäre S/NB, welches ein Verzerrung im Zeitbereich darstellt, gut sein kann, ist dieses manchmal nur deshalb der Fall, weil die Quantisierungsverstärkung des reproduzierten Signals im B-Modus besser ist. In diesem Fall besteht die Möglichkeit, daß spektrale Eigenschaften des laufenden Rahmens (bestimmt von den Prädiktionsparametern, die aus dem Koeffizientenspeicher erhalten werden) stark von den realen spektralen Eigenschaften des gegenwärtigen Rahmens (bestimmt von den Prädiktionsparametern, die von der linearen Prädiktionsanalyseeinheit 506 erhalten werden), verschoben sein können. Die Prädiktionsparameter, die von dem Koeffizientenspeicher 513 erhalten werden, sind nämlich jene entsprechend den vorangehenden Rahmen, und die Prädiktionsparameter des gegenseitigen Rahmens können sehr verschieden sein von jenen des vorangehenden Rahmens, obwohl die Verzerrung im Zeitbereich des B-Modus geringer ist als die des A-Modus. Im obigen Fall schließt das reproduzierte Signal auf der Dekoderseite eine große spektrale Verzerrung ein, um dem menschlichen Ohr entgegenzukommen. Wenn der Faktor B im Modus gewählt wird, so ist es nötig, die Verzerrung im Frequenzbereich auszuwerten (spektrale Verzerrung auf der Grundlage der LPC-Cepstrum-Distanz CD), zusätzlich zur Verzerrung im Zeitbereich.
- Wenn das segmentäre S/N des Codierers 501-2 besser ist als dasjenige des Codierers 501-1, und die spektralen Eigenschaften des laufenden Rahmens nicht sehr verschieden sind von jenen des vorangehenden Rahmens, ist das Prädiktionsspektrum des laufenden Rahmens nicht sehr verschieden von demjenigen des vorangehenden Rahmens, und so wird nur die Residuensignalinformation von dem Codierer 501-2 übertragen. In diesem Fall werden mehr Quantisierungsbits dem Residuensignal zugewiesen, und die Quantisierungsqualität des Residuensignals ist besser. Eine größere Anzahl von Bits wird übertragen, als in dem Fall, daß sowohl Prädiktionsparameter als auch Residuensignale an die gegenüberliegende Station übertragen werden. Der B-Modus (Codierer 501-2) kann effektiv verwendet werden, beispielsweise wenn derselben Klang "aaah" fortwährend über eine Reihe von Rahmen übermittelt wird.
- Der Koeffizientenspeicher 513 des Codierers 501-2 wird erneuert jedesmal wenn der A-Modus gewählt wird (jedesmal, wenn der Ausgang vom Codierer 501-1 gewählt wird). Der Koeffizientenspeicher 513 wird nicht erneuert, sondern behält die gespeicherten Werte, wenn der B-Modus gewählt wird (Ausgabe vom Codierer 501-2 wird gewählt).
- Danach wählt der Selektor 517 auf der Grundlage des Selektionsergebnisses von der Qualitätsauswerte/Codierselektionseinheit 502 den Codierer 501-1 oder 501-2 (je nachdem, welcher die beste Sprachreproduktionsqualität hat). Die Ausgabe wird an den Übertragungspfad 503 übertragen.
- Der Decoder 518 erzeugt das reproduzierte Signal auf der Grundlage einer codierten Ausgabe (Residuensignalinformation und Prädiktionsparameter vom Codierer 501-1 oder Residuensignalinformation alleine vom Codierer 501-2), und Codierernummerdaten i, welche durch den Übertragungspfad 503 gesendet werden.
- Die an die Empfangsseite zu übertragende Information umfaßt die Codenumern von Residuensignalinformation und quantisierten Prädiktionsparametern (LPC Parametern) und so weiter im A-Modus, und umfaßt die Codezahlen der Residuensignalinformation, und so weiter, im B-Modus. Im B-Modus wird der LPC-Parameter nicht übertragen, jedoch ist die gesamte Bitzahl sowohl im A-Modus als auch im B-Modus dieselbe. Die Codezahl zeigt, welches Residuenwellenformmuster (Codevektor) in dem Weißes-Rauschen-Codebuch 507-1 oder 507-2 gewählt wird. Das Weißes-Rauschen-Codebuch 507-1 im Codierer 501-1 enthält eine kleine Anzahl von Residuenwellenformmustern (Codevektoren) und eine kleine Anzahl von Bits, welche die Codezahl darstellen. Im Gegensatz dazu enthält das Weißes-Rauschen-Codebuch 507-2 im Codierer 501-2 eine große Anzahl von Codes und eine große Anzahl von Bits, die der Codezahl entsprechen. Deshalb ist es im B-Modus wahrscheinlich, daß das reproduzierte Signal dem Eingangssignal ähnlicher ist.
- Ein Beispiel der Zuordnung des Übertragungsbits für einen Rahmen, wo die gesamte Übertragungsbitrate 4,8 kbps beträgt, ist in den Fig. 7A und 7B gezeigt, im zweiten in Fig. 2 gezeigten Stand der Technik, und im zweiten in Fig. 5 gezeigten Ausführungsbeispiel.
- Fig. 7A und 7B zeigen klar, daß im A-Modus das jedem Informationsgegenstand im Ausführungsbeispiel der Fig. 7B zugewiesene Bit fast dasselbe ist wie das des in Fig. 7A gezeigten, zweiten Standes der Technik. Jedoch werden im B-Modus des in Fig. 7B gezeigten, vorliegenden Ausführungsbeispiels LPC-Parameter nicht übertragen. So können die nicht für die LPC-Parameter benötigten Bits der Codeziffer und der Verstärkungsinformation zugewiesen werden, wodurch die Qualität der reproduzierten Sprache verbessert wird.
- Wie oben erläutert, überträgt das vorliegende Ausführungsbeispiel keine Prädiktionsparameter für Rahmen, in welchen sich die Prädiktionsparameter der Sprache nicht viel ändern. Die Bits, die für die Prädiktionsparameter nicht benötigt werden, werden dazu verwendet, die Klangqualität der zu übertragenden Daten zu verbessern, durch Vergrößern der Anzahl von Bits, die dem Residuensignal zugewiesen werden, oder der Bits, die der Codeziffer zugewiesen werden, und nötig sind, um die Kapazität der Steuercodetabelle zu vergrößern, wodurch die Qualität des reproduzierten Sprachsignals auf der Empfangsseite verbessert wird.
- Im vorliegenden Ausführungsbeispiel kann abhängig von den dynamischen Eigenschaften des Anregungsabschnittes und des Vokaltraktabschnittes in einem Schallproduktionsmechanismus von natürlicher menschlicher Sprache das Übertragungsverhältnis der Anregungsinformation zu der Vokaltraktinformation in dem Codierer gesteuert werden. Dieses verhindert selbst bei niedrigen Übertragungsraten, daß sich das S/N-Verhältnis verschlechtert, und eine gute Sprachqualität bleibt erhalten.
- Es sollte vermerkt werden, daß sowohl der Codierer 501-1 als auch der Codierer 501-2 Residuensignalinformation und Prädiktionsparameterinformationen erzeugen können. In diesem Fall sind die Verhältnisse der der Residuensignalinformation und den Prädiktionsparametern zugewiesenen Bits in den beiden Codierern verschieden.
- Wie aus dem Obigen klar ist, können mehr als zwei Codierer vorgesehen werden. Ein Codierer, der Residuensignalinformation und Prädiktionsparameterinformation erzeugt, kann zusammen mit manchen Codierern arbeiten, die nur Residuensignalinformation erzeugen. Es ist jedoch zu vermerken, daß das Verhältnis der der Residuensignalinformation und der Prädiktionsparameterinformation zugewiesenen Bits abhängig von den Codierern verschieden ist. Um eine Qualitätsauswertung der reproduzierten Sprache in einem Codierer durchzuführen, kann zusätzlich zu dem Fall, in welchem sowohl eine Wellenformverzerrung als auch eine spektrale Verzerrung des reproduzierten Sprachsignals verwendet werden, eine dieser zwei Verzerrungen verwendet werden.
- Wie oben detailliert beschrieben, stellt die Sprachcodiervorrichtung der vorliegenden Erfindung vom Modenumschalttyp eine Vielzahl von Moden im Hinblick auf ein Übertragungsverhältnis von Anregungsinformation und Vokaltraktinformation zur Verfügung, und führt eine Umschaltoperation zwischen den Moden durch, um die bestreproduzierte Sprachqualität zu erhalten. Somit kann die vorliegende Erfindung das Übertragungsverhältnis von Anregungsinformation zu Vokaltraktinformation in Codierern steuern, und eine ausreichende Klangqualität kann selbst bei einer niedrigeren Übertragungsrate erhalten bleiben.
Claims (9)
1. Sprachcodiervorrichtung, welche ein Sprachsignal (303)
codiert durch Separieren von Eigenschaften des
Sprachsignals in Vokaltraktinformation, welche
Vokaltrakteigenschaften des Sprachsignals darstellt,
und Anregungsinformation, welche
Anregungseigenschaften des Sprachsignals darstellt,
gekennzeichnet durch
eine Vielzahl von Codierereinrichtungen (301) zum
Codieren von Vokaltraktinformation (304) und
Anregungsinformation (305), die aus dem Sprachsignal
(303) extrahiert werden, mittels Durchführen einer
lokalen Decodierung des Sprachsignals, wobei jede
Codiereinrichtung (301) dieselbe
Gesamtinformationsübertragungsrate aufweist, und
verschiedene Verhältnisse von Übertragungsraten
zwischen codierter Vokaltrakt- und
Anregungsinformation aufweist; und
eine Auswerte/Selektionseinrichtung (302) zum
Auswerten der Qualität ihrer lokal codierter Signale
(307), die in der jeweiligen Codiereinrichtung (301)
lokaler Decodierung unterworfen worden sind, um
dadurch ein Auswerteergebnis vorzusehen, und zum
Entscheiden und Auswählen der am besten geeigneten
Codiereinrichtung (301-m) unter der Vielzahl von
Codiereinrichtungen (301), auf der Grundlage des
Auswerteergebnisses, um ein Ergebnis der Selektion als
Selektioninformation (310) auszugeben, worin die von
der Auswerte/Selektionseinrichtung (302) ausgewählte
Codiereinrichtung (301-m) die codierte
Vokaltraktinformation und Anregungsinformation (306-M)
ausgibt, und die Auswerte/Selektionseinrichtung (302)
die Selektionsinformation ausgibt.
2. Sprachcodiervorrichtung nach Anspruch 1, dadurch
gekennzeichnet, daß die Vokaltraktinformation (304)
LPC-Parameter (409) umfaßt, welche die
Vokaltrakteigenschaften darstellen, und die
Anregungsinformation (305) ein Residuensignal umfaßt,
welches Anregungseigenschaften darstellt.
3. Sprachcodiervorrichtung nach Anspruch 1, dadurch
gekennzeichnet, daß
die Äuswerte/Selektionseinrichtung (302) die Qualität
jeweiliger Decodiersignale auswertet durch Berechnen
der Wellenformverzerrung jeweiliger Decodiersignale
entsprechend dem Sprachsignal, und
entscheidet und die Codiereinrichtung (301-m)
entsprechend einem Decodiersignal, welches eine
relativ kleine Wellenformverzerrung hat, auswählt.
4. Sprachcodiervorrichtung nach Anspruch 1, dadurch
gekennzeichnet, daß
die Auswerte/Selektionseinrichtung (302) die Qualität
der jeweiligen Decodiersignale auswertet durch
Berechnen der spektralen Verzerrung jeweiliger
Decodiersignale entsprechend dem Sprachsignal, und
entscheidet und die Codiereinrichtung (301-m)
entsprechend einem Decodiersignal wählt, welches eine
relativ kleine spektrale Verzerrung aufweist.
5. Sprachcodiervorrichtung nach Anspruch 1, dadurch
gekennzeichnet, daß die
Auswerte/Prädiktionseinrichtung (302) die Qualität
jeweiliger decodierter Signale auswertet durch
Berechnen der Wellenforinverzerrung und der spektralen
Verzerrung der jeweiligen codierten Signale
entsprechend dem Sprachsignal, und
entscheidet und die Codiereinrichtung (301-m) auf der
Grundlage der Wellenformverzerrung und spektralen
Verzerrung auswählt.
6. Sprachcodiervorrichtung, welche ein Sprachsignal (401)
codiert durch Separieren von Eigenschaften des
Sprachsignals (401) in LPC-Parameter (409), welche
Vokaltrakteigenschaften des Sprachsignals darstellen,
und ein Residuensignal (408, 412), welches
Anregungseigenschaften des Sprachsignals (401) in
jedem vorbestimmten Rahmen darstellt, mit
einer ersten Codiereinrichtung (402, 403-1, 404-1,
405-1, 406-1) zum Codieren des Sprachsignals (401)
mittels Durchführen einer lokalen Decodierung (404-1)
des Sprachsignals und Extrahieren von LPC-Parametern
(409) und eines Residuensignals (408) aus den
Sprachsignalen (401) in jedem vorbestimmten Rahmen;
gekennzeichnet durch
eine zweite Codiereinrichtung (411, 403-2, 404-2,
405-2) zum Codieren des Sprachsignals (401) mittels
Durchführen einer lokalen Decodierung (404-2) des
Sprachsignals (401) und Extrahieren des
Residuensignals (412) aus dem Sprachsignal (401)
mittels Verwendung von LPC-Parametern (409) des
Rahmens, der dem gegenwärtigen Rahmen vorangeht, wobei
die LPC-Parameter (409) erhalten werden von der ersten
Codiereinrichtung (402, 403-1, 404-1, 405-1, 406-1),
und die ersten und zweiten Codiereinrichtungen
dieselbe Gesamtinformationsübertragungsrate aufweisen,
eine Auswerte/Selektionseinrichtung (407-1, 407-2,
413) zum Auswerten der Qualität jeweiliger decodierter
Signale, die mittels einer lokalen Decodierung
erhalten werden, um zu entscheiden und die geeignete
der ersten und zweiten Codiereinrichtungen
auszuwählen, worin
wo die Auswerte/Selektionseinrichtung (407-1, 407-2,
413) die erste Codiereinrichtung auswählt, die
LPC-Parameter (409) und ein von der ersten
Codiereinrichtung codiertes Residuensignal (408) und
Selektionsinformation von der
Auswerte/Selektionseinrichtung ausgegeben werden, und
wo die zweite Codiereinrichtung von der
Auswerte/Selektionseinrichtung ausgewählt wird, und
das von der zweiten Codiereinrichtung codierte
Residuensignal (412) und von der
Auswerte/Selektionseinrichtung (407-1, 407-2, 413)
erhaltene Selektionsinformation ausgegeben werden.
7. Sprachcodiervorrichtung nach Anspruch 6, dadurch
gekennzeichnet, daß
die Auswerte/Selektionseinrichtung (407-1, 407-2, 413)
die Qualität jeweiliger codierter Signale auswertet
durch Berechnen der Wellenformverzerrung und der
spektralen Verzerrung der jeweiligen decodierten
Signale (408, 409) entsprechend den Sprachsignalen
(401),
die Auswerte/Selektionseinrichtung (407-1, 407-2, 413)
entscheidet und die erste Codiereinrichtung auswählt,
wenn die Wellenformverzerrung des decodierten Signals
(408, 409) der ersten Codiereinrichtung kleiner ist
als diejenige der zweiten Codiereinrichtung,
die Auswerte/Selektionseinrichtung (407-1, 407-2, 413)
entscheidet und die erste Codiereinrichtung auswählt,
wenn die Wellenformverzerrung des decodierten Signals
(404-2) der zweiten Codiereinrichtung kleiner ist als
diejenige der ersten Codiereinrichtung, und wenn die
spektrale Verzerrung des decodierten Signals (404-1)
der ersten Codiereinrichtung kleiner ist als diejenige
der zweiten Codiereinrichtung, und
die Auswerte/Selektionseinrichtung (407-1, 407-2, 413)
entscheidet und die zweite Codiereinrichtung (411,
403-2, 404-2, 405-2) auswählt, wenn eine
Wellenformverzerrung eines decodierten Signals (404-2)
der zweiten Codiereinrichtung kleiner ist als die der
ersten Codiereinrichtung (402, 403-1, 404-1, 405-1,
406-1) und wenn die spektrale Verzerrung des
decodierten Signals der zweiten Codiereinrichtung
kleiner ist als diejenige der ersten Codiereinrichtung.
8. Sprachdecodiervorrichtung, welche Sprachsignale
decodiert, die von einer Sprachcodiervorrichtung gemäß
Anspruch 6 codiert worden sind, mit
einer ersten Decodiereinrichtung (518) zum Decodieren
eines Sprachsignals durch Empfangen von codierten
LPC-Parametern (409) und eines codierten
Residuensignals (503) des laufenden Rahmens, wenn
Selektionsinformation in einer ersten Stufe ist; und
einer zweiten Decodiereinrichtung zum Decodieren eines
Sprachsignals von codierten LPC-Parametern (409),
welche vor dem laufenden Rahmen erhalten werden, und
codierte Residuensignalen von dem laufenden Rahmen,
wenn Selektionsinformation in einer zweiten Stufe ist.
9. Sprachdecodiervorrichtung zum Decodieren des
Sprachsignals, welches von einer
Sprachcodiervorrichtung gemäß Anspruch 1 codiert
worden ist, unter Verwendung der Selektionsinformation
von der Auswerte/Selektionseinrichtung (302) und der
Vokaltraktinformation und Anregungsinformation
((306-in), die von der Codiereinrichtung (301-in) codiert
worden ist, die von der Auswerte/Selektionseinrichtung
(302) ausgewählt worden ist.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP14134388 | 1988-06-08 | ||
JP6153389 | 1989-03-14 | ||
PCT/JP1989/000580 WO1989012292A1 (en) | 1988-06-08 | 1989-06-07 | Encoder/decoder apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
DE68911287D1 DE68911287D1 (de) | 1994-01-20 |
DE68911287T2 true DE68911287T2 (de) | 1994-05-05 |
Family
ID=26402573
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE89907260T Expired - Lifetime DE68911287T2 (de) | 1988-06-08 | 1989-06-07 | Codierer/decodierer. |
Country Status (6)
Country | Link |
---|---|
US (1) | US5115469A (de) |
EP (1) | EP0379587B1 (de) |
JP (1) | JP2964344B2 (de) |
CA (1) | CA1329274C (de) |
DE (1) | DE68911287T2 (de) |
WO (1) | WO1989012292A1 (de) |
Families Citing this family (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5271089A (en) * | 1990-11-02 | 1993-12-14 | Nec Corporation | Speech parameter encoding method capable of transmitting a spectrum parameter at a reduced number of bits |
DE4211945C1 (de) * | 1992-04-09 | 1993-05-19 | Institut Fuer Rundfunktechnik Gmbh, 8000 Muenchen, De | |
CA2094319C (en) * | 1992-04-21 | 1998-08-18 | Yoshihiro Unno | Speech signal encoder/decoder device in mobile communication |
US5513297A (en) * | 1992-07-10 | 1996-04-30 | At&T Corp. | Selective application of speech coding techniques to input signal segments |
US5278944A (en) * | 1992-07-15 | 1994-01-11 | Kokusai Electric Co., Ltd. | Speech coding circuit |
DE4231918C1 (de) * | 1992-09-24 | 1993-12-02 | Ant Nachrichtentech | Verfahren für die Codierung von Sprachsignalen |
JP2655063B2 (ja) * | 1993-12-24 | 1997-09-17 | 日本電気株式会社 | 音声符号化装置 |
KR970005131B1 (ko) * | 1994-01-18 | 1997-04-12 | 대우전자 주식회사 | 인간의 청각특성에 적응적인 디지탈 오디오 부호화장치 |
FI98163C (fi) * | 1994-02-08 | 1997-04-25 | Nokia Mobile Phones Ltd | Koodausjärjestelmä parametriseen puheenkoodaukseen |
US6134521A (en) * | 1994-02-17 | 2000-10-17 | Motorola, Inc. | Method and apparatus for mitigating audio degradation in a communication system |
FI96650C (fi) * | 1994-07-11 | 1996-07-25 | Nokia Telecommunications Oy | Menetelmä ja laitteisto puheen välittämiseksi tietoliikennejärjestelmässä |
JP3557255B2 (ja) * | 1994-10-18 | 2004-08-25 | 松下電器産業株式会社 | Lspパラメータ復号化装置及び復号化方法 |
EP0737959A4 (de) * | 1994-10-28 | 1999-05-06 | Nippon Steel Corp | Vorrichtung zum dekodieren von kodierten daten und diese verwendende vorrichtung zum dekodieren von multiplexierten audio/video daten |
US5864797A (en) * | 1995-05-30 | 1999-01-26 | Sanyo Electric Co., Ltd. | Pitch-synchronous speech coding by applying multiple analysis to select and align a plurality of types of code vectors |
JP2000507426A (ja) * | 1996-03-27 | 2000-06-13 | モトローラ・インコーポレイテッド | ワイヤレス通信システム用に多者音声接続を行う方法および装置 |
US5799272A (en) * | 1996-07-01 | 1998-08-25 | Ess Technology, Inc. | Switched multiple sequence excitation model for low bit rate speech compression |
FI964975A (fi) * | 1996-12-12 | 1998-06-13 | Nokia Mobile Phones Ltd | Menetelmä ja laite puheen koodaamiseksi |
FI116181B (fi) * | 1997-02-07 | 2005-09-30 | Nokia Corp | Virheenkorjausta ja virheentunnistusta hyödyntävä informaationkoodausm enetelmä ja laitteet |
CN1135529C (zh) * | 1997-02-10 | 2004-01-21 | 皇家菲利浦电子有限公司 | 传送语音信号的通信网络 |
US6363339B1 (en) * | 1997-10-10 | 2002-03-26 | Nortel Networks Limited | Dynamic vocoder selection for storing and forwarding voice signals |
US6104991A (en) * | 1998-02-27 | 2000-08-15 | Lucent Technologies, Inc. | Speech encoding and decoding system which modifies encoding and decoding characteristics based on an audio signal |
US7457415B2 (en) | 1998-08-20 | 2008-11-25 | Akikaze Technologies, Llc | Secure information distribution system utilizing information segment scrambling |
US6463410B1 (en) * | 1998-10-13 | 2002-10-08 | Victor Company Of Japan, Ltd. | Audio signal processing apparatus |
US6496797B1 (en) * | 1999-04-01 | 2002-12-17 | Lg Electronics Inc. | Apparatus and method of speech coding and decoding using multiple frames |
JP2002162998A (ja) * | 2000-11-28 | 2002-06-07 | Fujitsu Ltd | パケット修復処理を伴なう音声符号化方法 |
WO2002054744A1 (en) * | 2000-12-29 | 2002-07-11 | Nokia Corporation | Audio signal quality enhancement in a digital network |
US7076316B2 (en) * | 2001-02-02 | 2006-07-11 | Nortel Networks Limited | Method and apparatus for controlling an operative setting of a communications link |
US20030195006A1 (en) * | 2001-10-16 | 2003-10-16 | Choong Philip T. | Smart vocoder |
US20030101407A1 (en) * | 2001-11-09 | 2003-05-29 | Cute Ltd. | Selectable complexity turbo coding system |
CN1275222C (zh) * | 2001-12-25 | 2006-09-13 | 株式会社Ntt都科摩 | 信号编码装置和信号编码方法 |
JP4208533B2 (ja) * | 2002-09-19 | 2009-01-14 | キヤノン株式会社 | 画像処理装置及び画像処理方法 |
DE10255687B4 (de) * | 2002-11-28 | 2011-08-11 | Lantiq Deutschland GmbH, 85579 | Verfahren zur Verringerung des Crestfaktors eines Multiträgersignals |
WO2005020210A2 (en) * | 2003-08-26 | 2005-03-03 | Sarnoff Corporation | Method and apparatus for adaptive variable bit rate audio encoding |
US7567897B2 (en) * | 2004-08-12 | 2009-07-28 | International Business Machines Corporation | Method for dynamic selection of optimized codec for streaming audio content |
US7684981B2 (en) * | 2005-07-15 | 2010-03-23 | Microsoft Corporation | Prediction of spectral coefficients in waveform coding and decoding |
BRPI0708267A2 (pt) * | 2006-02-24 | 2011-05-24 | France Telecom | método de codificação binária de ìndices de quantificação de um envelope de sinal, método de decodificação de um envelope de sinal, e módulos de codificação e decodificação correspondentes |
US8050932B2 (en) * | 2008-02-20 | 2011-11-01 | Research In Motion Limited | Apparatus, and associated method, for selecting speech COder operational rates |
WO2009132662A1 (en) * | 2008-04-28 | 2009-11-05 | Nokia Corporation | Encoding/decoding for improved frequency response |
CN102239518B (zh) * | 2009-03-27 | 2012-11-21 | 华为技术有限公司 | 编码和解码方法及装置 |
JP5746974B2 (ja) * | 2009-11-13 | 2015-07-08 | パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America | 符号化装置、復号装置およびこれらの方法 |
GB0920729D0 (en) * | 2009-11-26 | 2010-01-13 | Icera Inc | Signal fading |
CN112802485B (zh) * | 2021-04-12 | 2021-07-02 | 腾讯科技(深圳)有限公司 | 语音数据处理方法、装置、计算机设备及存储介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BE562784A (de) * | 1956-11-30 | |||
US3903366A (en) * | 1974-04-23 | 1975-09-02 | Us Navy | Application of simultaneous voice/unvoice excitation in a channel vocoder |
IT1021020B (it) * | 1974-05-27 | 1978-01-30 | Telettra Lab Telefon | Sistema e dispositivi di comunica zione con segnali codificati p.c.m. a ridondanza ridotta |
US4303803A (en) * | 1978-08-31 | 1981-12-01 | Kokusai Denshin Denwa Co., Ltd. | Digital speech interpolation system |
JPS59172690A (ja) * | 1983-03-22 | 1984-09-29 | 日本電気株式会社 | ボコ−ダ |
JPS6067999A (ja) * | 1983-09-22 | 1985-04-18 | 日本電気株式会社 | 音声分析合成装置 |
US4546342A (en) * | 1983-12-14 | 1985-10-08 | Digital Recording Research Limited Partnership | Data compression method and apparatus |
US4622680A (en) * | 1984-10-17 | 1986-11-11 | General Electric Company | Hybrid subband coder/decoder method and apparatus |
JPS623535A (ja) * | 1985-06-28 | 1987-01-09 | Fujitsu Ltd | 符号化伝送装置 |
-
1989
- 1989-06-07 DE DE89907260T patent/DE68911287T2/de not_active Expired - Lifetime
- 1989-06-07 CA CA000601982A patent/CA1329274C/en not_active Expired - Lifetime
- 1989-06-07 WO PCT/JP1989/000580 patent/WO1989012292A1/en active IP Right Grant
- 1989-06-07 JP JP1506723A patent/JP2964344B2/ja not_active Expired - Lifetime
- 1989-06-07 US US07/460,099 patent/US5115469A/en not_active Expired - Lifetime
- 1989-06-07 EP EP89907260A patent/EP0379587B1/de not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP0379587A1 (de) | 1990-08-01 |
WO1989012292A1 (en) | 1989-12-14 |
CA1329274C (en) | 1994-05-03 |
JPH02502491A (ja) | 1990-08-09 |
DE68911287D1 (de) | 1994-01-20 |
US5115469A (en) | 1992-05-19 |
JP2964344B2 (ja) | 1999-10-18 |
EP0379587B1 (de) | 1993-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE68911287T2 (de) | Codierer/decodierer. | |
DE3883519T2 (de) | Verfahren und Einrichtung zur Sprachkodierung mit mehreren Datenraten. | |
DE3883799T2 (de) | Codierungseinrichtung zur Sprachübertragung. | |
DE69625874T2 (de) | Verfahren und Vorrichtung zur Wiedergabe von Sprachsignalen, zur Dekodierung, zur Sprachsynthese und tragbares Funkendgerät | |
DE69932460T2 (de) | Sprachkodierer/dekodierer | |
DE69910240T2 (de) | Vorrichtung und verfahren zur wiederherstellung des hochfrequenzanteils eines überabgetasteten synthetisierten breitbandsignals | |
DE60011051T2 (de) | Celp-transkodierung | |
DE3041423C1 (de) | Verfahren und Vorrichtung zur Verarbeitung eines Sprachsignals | |
DE69020269T2 (de) | Sprachkodierungsgerät mit mehreren Kodierungsverfahren. | |
DE3856211T2 (de) | Verfahren zur adaptiven Filterung von Sprach- und Audiosignalen | |
DE69614782T2 (de) | Verfahren und Einrichtung zur Wiedergabe von Sprachsignalen und Verfahren zu seiner Übertragung | |
CA2327627C (en) | Process for processing at least one coded binary audio flux organized into frames | |
DE19647298C2 (de) | Kodiersystem | |
DE69519421T2 (de) | Kodiergerät | |
DE69521004T2 (de) | Kompensationsverfahren bei Rahmenauslöschung oder Paketverlust | |
DE2945414C2 (de) | Sprachsignal-Voraussageprozessor und Verfahren zur Verarbeitung eines Sprachleistungssignals | |
DE69828725T2 (de) | Sprachcodier- und -decodiersystem | |
DE3853161T2 (de) | Vektorquantisierungscodierer. | |
DE69832358T2 (de) | Verfahren zur Sprachkodierung und -dekodierung | |
DE69029232T2 (de) | System und Methode zur Sprachkodierung | |
DE69900786T2 (de) | Sprachkodierung | |
DE60319590T2 (de) | Verfahren zur codierung und decodierung von audio mit variabler rate | |
DE69024033T2 (de) | Kodierungssystem mit variabler Bitrate. | |
DE69132885T2 (de) | CELP-Kodierung niedriger Verzögerung und 32 kbit/s für ein Breitband-Sprachsignal | |
DE60012760T2 (de) | Multimodaler sprachkodierer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition |