DE69013738T2 - Einrichtung zur Sprachcodierung. - Google Patents

Einrichtung zur Sprachcodierung.

Info

Publication number
DE69013738T2
DE69013738T2 DE69013738T DE69013738T DE69013738T2 DE 69013738 T2 DE69013738 T2 DE 69013738T2 DE 69013738 T DE69013738 T DE 69013738T DE 69013738 T DE69013738 T DE 69013738T DE 69013738 T2 DE69013738 T2 DE 69013738T2
Authority
DE
Germany
Prior art keywords
linear prediction
unit
input
signal
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69013738T
Other languages
English (en)
Other versions
DE69013738D1 (de
Inventor
Fumio Amano
Yasuji Ota
Yoshinori Tanaka
Tomohiko Taniguchi
Shigeyuki Unagami
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of DE69013738D1 publication Critical patent/DE69013738D1/de
Application granted granted Critical
Publication of DE69013738T2 publication Critical patent/DE69013738T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Peptides Or Proteins (AREA)

Description

    HINTERGRUND DER ERFINDUNG 1. Gebiet der Erfindung
  • Die vorliegende Erfindung betrifft eine Sprachcodierungs- Einrichtung, insbesondere eine Sprachcodierungs-Einrichtung, die mit einem Sprachcodierungsverfahren hoher Qualität arbeitet.
  • Unter Verwendung einer Sprachcodierungs-Einrichtung, die bei einem Sprachcodierungsverfahren hoher Qualität arbeitet, können in einem digitalen Kommunikationssystem die folgenden drei Vorteile erzielt werden:
  • (a) Allgemein ist es unter Verwendung dieses Verfahrens möglich, eine Bandkompression eines beispielsweise bei 64 kbps übertragenes digitales Sprachsignal auf 8 kbps durchzuführen, und es ist möglich, das digitale Sprachsignal bei einer niedrigen Bitrate zu übertragen. Dies kann ein Faktor zur Reduzierung der sogenannten leitungsgebundenen Übertragungskosten sein.
  • (b) Es wird möglich, gleichzeitig Sprachsignale und Nicht-Sprachsignale (Datensignale) zu übertragen. Deshalb ergibt sich ein größerer wirtschaftlicher Nutzen bei dem Kommunikationssystem und ein viel gefälligerer Gebrauch für den Benutzer.
  • (c) Wenn es sich bei der das Übertragungssystem bildenden Übertragungsleitung um eine drahtlose Übertragungsleitung handelt, kann die Funkfrequenz mit höherem Wirkungsgrad verwendet werden und in einem mit einem Sprachspeicherungs- Speicher versehenes Kommunikationssystem kann mit der gleichen Speicherkapazität des Sprachspeicherungs-Speichers wie zuvor eine größere Sprachdatenmenge gespeichert werden.
  • Mit den voranstehend erwähnten drei Vorteilen nimmt man an, daß die Sprachcodierungs-Einrichtung mit dem Sprachcodierungsverfahren hoher Qualität für die nachstehenden Systeme nützlich ist:
  • (1) Digitale Kommunikationssystem zwischen Büros;
  • (2) digitale Mobilfunk-Kommunikationssysteme (digitale Autotelefone);
  • (3) Sprachdatenspeicher und Antwortsysteme.
  • In diesem Fall ist es für eine Sprachcodierungs-Einrichtung, die für die Kommunikationssysteme der voranstehenden Aspekte (1) und (2) verwendet wird, wichtig, daß erstens eine Echtzeitverarbeitung möglich ist und zweitens die Vorrichtung kompakt aufgebaut ist.
  • 2. Beschreibung des Standes der Technik
  • Sowohl auf der Sendeseite als auch auf der Empfangsseite eines Sprachkommunikationssystems befinden sich Menschen als Benutzer. Das heißt, Signale, die menschliche Sprache (Sprachsignale) ausdrücken, dienen als das Medium zur Kommunikation. Wie bekannt ist, enthalten diese Sprachsignale eine beträchtliche Redundanz. Redundanz bedeutet hier, daß eine Korrelation zwischen benachbarten Sprach-Abtastwerten und ferner zwischen Abtastwerten, die einige periodische Intervalle entfernt liegen, existiert. Wenn man diese Redundanz berücksichtigt, dann ist es beim Senden von Sprachsignalen oder beim Speichern von Sprachsignalen möglich, Sprachsignale mit einer ausreichend guten Qualität zu reproduzieren, und zwar sogar ohne das vollständige Senden oder Speichern aller Sprachsignale. Auf Grundlage dieser Beobachtung wird es möglich, die voranstehend erwähnte Redundanz aus den Sprachsignalen zu entfernen und die Sprachsignale für einen größeren Wirkungsgrad zu komprimieren. Dies ist die Vorgehensweise, die als Sprachcodierungsverfahren mit hoher Qualität bezeichnet wird. Diesbezüglich werden zum gegenwärtigen Zeitpunkt in verschiedenen Ländern Forschungsanstrengungen durchgeführt.
  • Verschiedene Formen dieses Sprachcodierungsverfahrens hoher Qualität sind vorgeschlagen worden. Eines von diesen ist das "Code-angeregte, lineare Prädiktions"- Sprachcodierungsverfahren (im folgenden als CELP-Verfahren bezeichnet). Dieses CELP-Verfahren ist als ein Sprachcodierungsverfahren mit niedriger Bitrate bekannt. Trotz der sehr geringen Bitrate ist es möglich, Sprachsignale von extrem hoher Qualität zu reproduzieren.
  • Einzelheiten der herkömmlichen Sprachcodierungs-Einrichtung auf Grundlage des CELP-Verfahrens werden nachstehend noch ausgeführt, aber es wird hier schon darauf hingewiesen, daß dabei ein sehr schwerwiegendes Problem besteht. Das Problem liegt in der rießigen Menge von digitalen Berechnungen, die zur Codierung von Sprache benötigt werden. Deshalb ist es extrem schwierig, eine Sprachkommunikation in Echtzeit durchzuführen. Theoretisch ist die Realisation einer derartigen Sprachcodierungs-Einrichtung, die eine Echtzeit- Sprachkommunikation erlaubt, möglich, aber für die obigen digitalen Berechnungen müßte ein Supercomputer verwendet werden. Deshalb würde es unmöglich sein, in der Praxis eine kompakte Sprachcodierungs-Einrichtung (vom handgehaltenen Typ) umzusetzen.
  • Eine Einrichtung, die die Merkmale des Oberbegriffs des Anspruchs 1 zeigt, ist aus dem Artikel ICASSP 1986 "Complexity Reduction Methods for Vector Excitation Coding", 7.-11. April 1986, Volume 4, auf den Seiten 3055-3058 bekannt.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Deshalb besitzt die vorliegende Erfindung als Aufgabe die Realisation einer Sprachcodierungs-Einrichtung, die ohne Vergrößerung der Schaltungen eine Sprachkommunikation in Echtzeit durchführen kann.
  • Gemäß der vorliegenden Erfindung ist eine Sprachcodierungs- Einrichtung vorgesehen, die folgende Merkmale umfaßt:
  • eine lineare Prädiktions-Analyseeinheit, die ein Eingangssignal digitalisierter Sprache empfängt, eine lineare Prädiktion durchführt und einen linearen Prädiktionsparameter extrahiert;
  • eine Prädiktions-Filtereinheit, die den linearen Prädiktionsparameter für Filterberechnungen verwendet;
  • ein Codebuch, das nacheinander eine Vielzahl von Typen von Codes sendet, die aus Reihen weißen Rauschens bestehen, die für die Filterberechnungen in der Prädiktions-Filtereinheit angewendet werden sollen;
  • einen Vergleicher, der als Eingang die Ergebnisse der Filterberechnungen in der Prädiktions-Filtereinheit, d.h. das reproduzierte Signal und die besagten Eingangssignale empfängt, diese Signale vergleicht und ein Fehlersignal ausgibt;
  • eine Fehler-Auswerteeinheit, die eine Vielzahl von Codes in dem Codebuch nacheinander liest und als den optimalen Code den einen der Codes berechnet, der die minimale Größe des Fehlersignals ergibt; und
  • eine Ausgabeeinheit, die zumindest den linearen Prädiktionsparameter und als das codierte Ausgangssignal die Adresse in dem Codebuch entsprechend dem optimalen Code sendet;
  • wobei das Codebuch aus einem Codebuch besteht, welches Codes speichert, die durch Ausdünnung der Anzahl der Vielzahl von Abtastwerten, die die Codes als ein Codebuch in eigentümlicher Weise besitzen, auf 1/M (wobei M eine ganze Zahl von 2 oder größer ist) gebildet sind,
  • gekennzeichnet durch:
  • eine Kompensationseinrichtung, die aus einer zusätzlichen linearen Prädiktions-Analyseeinheit besteht, wobei die zusätzliche lineare Prädiktions-Analyseeinheit als zwei Eingänge das besagte Eingangssignal und den auf Grundlage des von der linearen Prädiktions-Analyseeinheit extrahierten linearen Prädiktionsparameters erhaltenen optimalen Code empfängt und einen berichtigten linearen Prädiktionsparameter berechnet, der den linearen Prädiktionsparameter berichtigt; und
  • wobei die Ausgabeeinheit den berichtigten linearen Prädiktionsparameter anstelle des linearen Prädiktionsparameters verwendet, um die codierten Ausgangssignale zu senden.
  • KURZBESCHREIBUNG DER ZEICHNUNGEN
  • Die voranstehende Aufgabe und die Merkmale der vorliegenden Erfindung werden aus der nachstehenden Beschreibung der bevorzugten Ausführungsformen unter Bezugnahme auf die beiliegenden Zeichnungen näher ersichtlich. In den Zeichnungen zeigen:
  • Fig. 1 ein Blockschaltbild des Prinzips und des Aufbaus einer herkömmlichen Sprachcodierungs-Einrichtung auf Grundlage des CELP-Verfahrens;
  • Fig. 2 ein Blockschaltbild, welches den Aufbau aus Fig. 1 mit näheren Einzelheiten zeigt;
  • Fig. 3 ein Flußdiagramm des grundlegenden Betriebs der in Fig. 2 gezeigten Sprachcodierungs-Einrichtung;
  • Fig. 4 ein Blockschaltbild des Prinzips und des Aufbaus einer Sprachcodierungs-Einrichtung auf Grundlage der vorliegenden Erfindung;
  • Fig. 5 eine Ansicht eines Beispiels des Zustandes einer Ausdünnung von Abtastwerten in einem Codebuch;
  • Fig. 6A, 6B, 6C und 6D Ansichten, die die Wirkung von einer Einführung einer zusätzlichen linearen Prädiktions- Analyseeinheit erläutern;
  • Fig. 7 ein Blockschaltbild einer Ausführungsform einer Sprachcodierungs-Einrichtung auf Grundlage der vorlliegenden Erfindung;
  • Fig. 8 ein Flußdiagramm des grundlegenden Betriebs der in Fig. 7 gezeigten Sprachcodierungs-Einrichtung;
  • Fig. 9A eine Ansicht des Aufbaus der in der vorliegenden Erfindung eingeführten, zusätzlichen, linearen Prädiktions-Analyseeinheit;
  • Fig. 9B eine Ansicht des Aufbaus einer herkömmlichen, linearen Prädiktions-Analyseeinheit;
  • Fig. 10 eine Ansicht des Aufbaus der Empfängerseite, die codierte Ausgangssignale empfängt, die von der Ausgabeeinheit aus Fig. 7 gesendet werden; und
  • Fig. 11 ein Blockschaltbild eines Beispiels für die Anwendung der vorliegenden Erfindung.
  • BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
  • Bevor die Ausführungsformen der vorliegenden Erfindung beschrieben werden, werden nachstehend unter Bezugnahme auf die diesbezüglichen Figuren des Standes der Technik und deren Nachteile erläutert.
  • Fig. 1 ist ein Blockschaltbild des Prinzips und des Aufbaus einer herkömmlichen Sprachcodierungs-Einrichtung auf Grundlage des CELP-Verfahrens. In der Fig. 1 ist Sein ein digitales Spracheingangssignal, welches einerseits an die Analyseeinheit 10 für lineare Prädiktion und andererseits an einen Vergleicher 13 angelegt wird. Die lineare Prädiktions- Analyseeinheit 10 extrahiert den linearen Prädiktionsparameter P&sub1;, indem sie eine lineare Prädiktion für das Eingangssignal Sein durchführt. Dieser lineare Prädiktionsparameter P&sub1; wird einer Prädiktions-Filtereinheit 12 zugeführt.
  • Diese Prädiktions-Filtereinheit 12 verwendet den linearen Prädiktionsparameter P&sub1; zur Filterung von Berechnungen bezüglich eines Codes CD, welcher von dem Codebuch 11 ausgegeben wird, und ermittelt ein reproduziertes Signal R&sub1; in dem Ausgang. In dem Codebuch 11 ist ein Codeformat einer Vielzahl von Typen von Serien mit weißem Rauschen gespeichert.
  • Das voranstehend erwähnte reproduzierte Signal R&sub1; und das vorher erwähnte Eingangssignal Sein werden von einem Vergleicher 13 verglichen und das Fehlersignal zwischen den beiden Signalen wird einer Fehler-Auswerteeinheit 14 eingegeben. Diese Fehler-Auswerteeinheit 14 durchsucht nacheinander alle Codes CD in dem Codebuch 11, findet das Fehlersignal ER (ER&sub1;, ER&sub2;, ER&sub3;, ...) für das Eingangssignal Sin und wählt den Code CD, welcher die minimale Energie des darin enthaltenen Fehlersignals ER ergibt. Die optimale Codenummer CN, der lineare Prädiktionsparameter P&sub1; etc. werden der Ausgabeeinheit 15 zugeführt und werden das Codierungs-Ausgangssignal Saus. Das Ausgangssignal Saus wird beispielsweise über eine drahtlose Übertragungsleitung an die entgegengesetzte Empfangseinrichtung gesendet.
  • Fig. 2 ist ein Blockschaltbild, welches den Aufbau in Fig. 1 mit näheren Einzelheiten zeigt. Es wird darauf hingewiesen, daß die einzelnen Elemente, die in allen Figuren gleich sind, mit den gleichen Bezugszeichen oder Symbolen bezeichnet sind.
  • Zunächst wird durch den Luftstrom, der durch die Lungen zur Erzeugung einer Schallquelle einer Stimmbandvibration, eines turbulenten Rauschens etc. herausgepreßt wird, Sprache erzeugt. Diese wird durch Veränderung der Gestalt des Sprachpfades mit verschiedenen Tonlagen versehen. Der Sprachinhalt der Sprache ist zum größten Teil der Teil, der durch die Gestalt des Sprachpfades ausgedrückt wird, aber die Gestalt des Sprachspfades wird in dem Frequenzspektrum der Sprache reflektiert, so daß die Phoneminformation durch Spektralanalyse extrahiert werden kann.
  • Ein Verfahren einer derartigen Spektralanalyse ist das lineare Prädiktions-Analyseverfahren, wobei dieses Analyseverfahren auf der Idee basiert, daß die Abtastwerte der Sprachsignale durch die lineare Kopplung der Abtastwerte von mehreren vorangegangenen Zeiten approximiert werden.
  • Deshalb wird das digitale Eingangssignal Sein vorher in einem Verarbeitungsrahmen einer Länge von beispielsweise 20 ms extrahiert und an die lineare Prädiktionsanalyse- und Verarbeitungseinheit 10 angelegt, dann wird die spektrale Einhüllende des verarbeiteten Rahmens einer Prädiktionsanalyse ausgesetzt und der lineare Prädiktionskoeffizient ai (beispielsweise i = 1, 2, 3, ... 10), die Tonlagen-Periode und der Tonlagen- Prädiktionskoeffizient werden extrahiert. Der lineare Prädiktionskoeffizient ai wird an ein Kurzzeit- Prädiktionsfilter 18 angelegt und die Tonlagen-Periode und der Tonlagen-Prädiktionskoeffizient werden an ein Langzeit- Prädiktionsfilter 17 angelegt.
  • Ferner wird durch eine lineare Prädiktionsanalyse ein Restsignal ermittelt, aber dieses Restsignal wird bei dem CELP-Verfahren nicht als eine Ansteuerquelle verwendet. Die Wellenformen mit weißem Rauschen werden als Ansteuerquelle verwendet. Ferner werden das Kurzzeit-Prädiktionsfilter 18 und das Langzeit-Prädiktionsfilter 17 von dem Eingang "0" angesteuert und von dem Eingangssignal Sein subtrahiert, um so die Wirkungen des vorangegangenen Verarbeitungsrahmens zu beseitigen.
  • Andererseits ist in dem Codebuch 11 für weißes Rauschen als ein Code CD die Serie von Wellenformen mit weißem Rauschen gespeichert, die als die Ansteuerquellen verwendet werden. Der Pegel der Wellenformen mit weißem Rauschen ist normalisiert.
  • Als nächstes gibt das durch den Digitalspeicher gebildete Codebuch 11 für weißes Rauschen eine Wellenform mit weißem Rauschen entsprechend der Eingabeadresse, d.h. der Codenummer CDk aus. Da diese Wellenform mit weißem Rauschen, wie voranstehend erwähnt, normalisiert ist, läuft sie durch einen Verstärker 16 mit einer Verstärkung, die durch eine vorgegebene Auswertegleichung ermittelt ist, dann führt das Langzeit-Prädiktionsfilter 17 die Erzeugung der Tonlagen- Periode durch und das Kurzzeit-Prädiktionsfilter 18 führt eine Prädiktion zwischen nahen Abtastwerten durch, wodurch das reproduzierte Signal R&sub1; erzeugt wird. Dieses Signal R&sub1; wird an den Vergleicher 13 angelegt. Die Differenz des reproduzierten Signals R&sub1; von dem Eingangssignal Sein wird durch den Vergleicher 13 ermittelt und das sich ergebende Fehlersignal (Sein - R&sub1;) ER wird durch die Gewichtungs- Verarbeitungseinheit 19 für die menschliche Gehörempfindung über eine Anpassung des menschlichen Gehörspektrums an das Spektrum der Wellenformen für weißes Rauschen gewichtet. In der Fehler-Auswerteeinheit 14 wird die quadrierte Summe des Pegels des gehörgewichteten Fehlersignals ER ermittelt und die Fehlerenergie wird für jeden später erwähnten, untergeordneten Verarbeitungsrahmen (beispielsweise 5 ms) ausgewertet. Diese Auswertung wird innerhalb eines einzigen Verarbeitungsrahmens (20 ms) viermal durchgeführt und wird für alle Codes in dem Codebuch 11 für weißes Rauschen, beispielsweise für jede der 1024 Codes gleich durchgeführt. Durch diese Auswertung wird die einzelne Codenummer CN, die die minimale Fehlerenergie von allen Codes CD ergibt, gewählt. Diese bezeichnet den optimalen Code in bezug auf das nun vorgegebene Eingangssignal Sein. Dies ist der optimale Code. Für das Verfahren zur Ermittlung des optimalen Codes wird das bekannte Analyse-Durch-Synthese-(ABS)-Verfahren verwendet. Zusammen mit dem linearen Prädiktionskoeffizienten ai, etc. wird die Codenummer CN entsprechend dem optimalen Code der Ausgabeeinheit 15 zugeführt, wo der Koeffizient ai, CN, etc. multiplexiert werden, um das codierte Ausgangssignal Saus zu erzeugen.
  • Der Wert des linearen Prädiktionskoeffizienten ai ändert sich innerhalb eines einzigen Verarbeitungsrahmens (beispielsweise 20 ms) nicht, aber der Code verändert sich mit jedem der Vielzahl von verarbeitenden, untergeordneten Verarbeitungsrahmen (beispielsweise 5 ms), die den Verarbeitungsrahmen bilden.
  • Fig. 3 ist ein Flußdiagramm des grundlegenden Betriebs der in Fig. 2 gezeigten Sprachcodierungs-Einrichtung. Im Schritt a führt die lineare Prädiktions-Analyseeinheit 10 eine lineare Prädiktionsanalyse (ai) und eine Tonlagen-Prädiktionsanalyse für das digitale Spracheingangssignal Sein durch.
  • Im Schritt b wird eine "0"-Eingabeansteuerung bei einer anderen Prädiktions-Filtereinheit 12 (siehe Fig. 7) mit dem gleichen Aufbau wie die Prädiktions-Filtereinheit 12 durchgeführt, um die Auswirkungen des unmittelbar vorangehenden Verarbeitungsrahmens zu beseitigen, dann wird in diesem Zustand das Fehlersignal ER für den nächsten Verarbeitungsrahmen durch den Vergleicher 13 gefunden. Zur näheren Erläuterung ist die Prädiktions-Filtereinheit 12 mit sogenannten Digitalfiltern aufgebaut, in denen eine Vielzahl von Verzögerungselementen in Reihe geschaltet sind. Deshalb wird der unmittelbar nach dem CD von dem Codebuch 11 kommende Eintrag der Prädiktions-Filtereinheit 12 eingegeben, wobei der innere Zustand der Prädiktions-Filtereinheit 12 nicht unmittelbar 0 wird. Der Grund hierfür besteht darin, daß noch Codedaten existieren, die in der vorher erwähnten Vielzahl von Verzögerungselementen zurückbleiben. Zum Zeitpunkt, wenn die Codierungsoperation für den nächsten Verarbeitungsrahmen gestartet wird, bleibt deshalb der in dem unmittelbar vorausgehenden Verarbeitungsrahmen verwendete Codedatenwert in der Prädiktions-Filtereinheit 12 und Filterungsberechnungen mit hoher Genauigkeit können in dem nächsten Verarbeitungsrahmen, der nach dem unmittelbar vorausgehenden Verarbeitungsrahmen erscheint, nicht durchgeführt werden.
  • Deshalb wird die voranstehend erwähnte andere Prädiktions- Filtereinheit 12' mit dem "0"-Eingang angesteuert und wenn ein Vergleich mit dem Eingangssignal Sein in dem Vergleicher 13 durchgeführt wird, wird der Ausgang der anderen Prädiktions-Filtereinheit 12' von dem Signal Sein subtrahiert.
  • Im Schritt c wird eine Auswahl des voranstehend erwähnten optimalen Codes (Codenummer CN) in dem Codebuch 11 durchgeführt, der ein reproduziertes Signal R&sub1; ergeben kann, welches das gegenwärtig vorgegebene Eingangssignal Sein am besten approximiert.
  • Bei der obigen Vorgehensweise zur Ermittlung des optimalen Codes ist es erforderlich, das reproduzierte Signal R&sub1; für jeden der untergeordneten Verarbeitungsrahmen und ferner für alle Codes sogenannte Faltungsberechnungen zu berechnen, d.h. ΣHi.Ckn-i (Filterberechnungen) müssen zwischen der Übertragungsfunktion H der Prädiktions-Filtereinheit 12, welche das Kurzzeit-Prädiktionsfilter 18 und das Langzeit- Prädiktionsfilter 17 umfaßt, und dem Code CD für jeden untergeordneten Verarbeitungsrahmen durchgeführt werden.
  • Wenn der Grad der voranstehend erwähnten Übertragungsfunktion H gleich N ist, dann müssen in einer einzigen Faltungsberechnung die Anzahl N von Akkumulationsberechnungen durchgeführt werden. Wenn ferner die Größe des Codebuchs für weißes Rauschen gleich K ist, müssen im wesentlichen die Anzahl K.N von Multiplikationsoperationen als die Gesamtmenge von Berechnungen ausgeführt werden.
  • Deshalb treten die vorher erwähnten Probleme auf, nämlich, daß die erforderliche Menge von Berechnungen extensiv wird und daß es schwierig wird, eine Sprachcodierungs-Einrichtung kleiner Größe zu erreichen, die im Echtzeitbetrieb arbeitet.
  • Fig. 4 ist ein Blockschaltbild des Prinzips und des Aufbaus einer Sprachcodierungs-Einrichtung auf Grundlage der vorliegenden Erfindung. Der Unterschied zu der in Fig. 1 gezeigten, herkömmlichen Sprachcodierungs-Einrichtung besteht darin, daß das Codebuch 11 aus Fig. 1 durch ein Codebuch 21 ersetzt ist. Das neue Codebuch 21 speichert in einem auf 1/M ausgedünnten Code die Anzahl der Vielzahl von Abtastwerten, die jeder Code eigentümlich aufweisen sollte. Damit ist es erforderlich, daß die Menge der für die voranstehend erwähnten Faltungsberechnungen benötigten Berechnungen gleich 1/M ist. Das heißt, es wird möglich, daß die Sprachcodierungsverarbeitung in Echtzeit durchgeführt wird. Ferner wird zur Realisation der Sprachcodierungs-Einrichtung ohne die Verwendung eines Supercomputers, wie voranstehend erwähnt, ein digitaler Einzelchip-Signalprozessor (DSP) verwendet.
  • Da die Vielzahl von Abtastwerten, die die Codes in dem Codebuch 21 bilden, auf 1/M ausgedünnt sind, würde sich an und für sich die Qualität des reproduzierten Signals R&sub1; verschlechtern. Wenn dem so wäre, dann könnte das mit hoher Genauigkeit sprachcodierte Ausgangssignal Saus nicht erhalten werden. Deshalb wird vorzugsweise eine Einrichtung eingeführt, um die Verschlechterung des durch die Ausdünnung der voranstehend erwähnten Abtastwerte auf 1/M verursachte Verschlechterung der Qualität des reproduzierten Signals zu kompensieren. In Fig. 4 wird für diese Kompensationseinrichtung eine zusätzliche lineare Prädiktionsanalyse- und Verarbeitungseinheit 20 verwendet.
  • Die zusätzliche lineare Prädiktions-Analyseeinheit 20 empfängt von dem Codebuch 21 den optimalen Code, der unter Verwendung des von der linearen Prädiktions-Analyseeinheit 10 berechneten linearen Prädiktionsparameters P&sub1; ermittelt wird, und berechnet einen berichtigten linearen Prädiktionsparameter P&sub2;, der von den Effekten des optimalen Codes befreit ist. Die Ausgabeeinheit 15 empfängt als Eingang den Parameter P&sub2; anstelle des herkömmlichen linearen Prädiktionsparameters P&sub1; und empfängt ferner als Eingang die Codenummer CN entsprechend dem vorher ermittelten optimalen Code, um so das codierte Ausgangssignal Saus abzugeben.
  • Die zusätzliche lineare Prädiktions-Analyseeinheit 20 berechnet vorzugsweise den berichtigten oder geänderten linearen Prädiktionsparameter P&sub2; in der folgenden Weise. Die Verarbeitungseinheit 20 berechnet nämlich aus dem Eingangssignal Sein den linearen Prädiktionsparameter, welcher die minimale Quadratsumme des Restes nach einer Beseitigung der Effekte des optimalen Codes und verwendet die Ergebnisse der Berechnung als den berichtigten linearen Prädiktionsparameter P&sub2;.
  • Mit der obigen Vorgehensweise speichert die vorliegende Erfindung als Codes in einem Codebuch 21 für weißes Rauschen die Serien für weißes Rauschen, die durch Ausdünnung der Serien für weißes Rauschen der Codes ermittelt werden, die in einem gewöhnlichen Codebuch vorhanden sein sollten.
  • Deshalb existiert nur ein wesentlicher Abtastwert in einer Anzahl M von Abtastwerten in jedem Code CD. Dadurch ist es ausreichend, daß die Anzahl von Akkumulationsberechnungen, die für eine einzige Faltungsberechnung benötigt werden, gleich N/M ist (wobei N der Grad der vorher erwähnten Übertragungsfunktion H ist, d.h. die Anzahl von Abtastwerten für jeden Code) und es ist möglich, die zur Ermittlung eines reproduzierten Signals R&sub1; benötigte Menge von Filterberechnungen im wesentlichen auf 1/M zu reduzieren. Jedoch verschlechtert sich die Qualität des reproduzierten Signals, je größer der Wert von M ist.
  • Die Vielzahl von Abtastwerten in den Codes werden bei vorgegebenen Intervallen ausgedünnt. Verschiedene Ausdünnungsverfahren können in Erwägung gezogen werden, wie beispielsweise 1 aus jeden 2 oder 1 aus jeden 3. Wenn 1 aus jeden 2 gewählt wird, dann ist die Verdünnungsrate 1/2 (1/M = 1/2), und wenn 1 aus jeden 3 gewählt wird, dann ist die Verdünnungsrate 1/3 (1/M = 1/3). Bei der praktischen Anwendung wird eine Verdünnungsrate von 1/2 oder 1/3 bevorzugt. Mit einer Verdünnungsrate dieses Ausmaßes ist es möglich, die Prädiktions-Filtereinheit 12 mit einem digitalen Signalprozessor (DSP) geringer Größe zu bilden. Wenn die Verdünnungsrate größer gemacht wird (1/4, 1/5, ...), dann kann die Prädiktions-Filtereinheit 12 mit einem noch einfacheren Prozessor realisiert werden.
  • Um die Anzahl N von Abtastwerten in den Codes auf 1/M auszudünnen, wird nur einer von jeweils einer Anzahl M von Abtastwerten als wesentlicher Datenwert verwendet und alle übrigen Abtastwerte werden auf den Datenwert "0" gesetzt.
  • Fig. 5 ist eine Ansicht eines Beispiels des Zustandes der Ausdünnung von Abtastwerten in einem Codebuch. Der obere Teil der Figur zeigt einen Teil von einer Anzahl N, z.B. 40 Abtastwerten, die eigentlich als Codes in einem Codebuch vorhanden sein sollten. Der untere Abschnitt der Figur zeigt den Zustand, bei dem die Abtastwerte des oberen Abschnitts auf beispielsweise 1/3 ausgedünnt sind. Die kleinen schwarzen Punkte in der Figur zeigen die Abtastwerte mit dem Datenwert "0".
  • Wenn die Ausdünnungsrate 1/M größer als 1/2 oder 1/3 gesetzt wird, d.h. auf 1/4, 1/5 etc., dann kann die Echtzeiteigenschaft der Sprach-Codierungsgeschwindigkeit immer mehr sichergestellt werden, und die Prädiktions- Filtereinheit 12 kann mit einem einfacheren und kleiner bemessenen Prozessor realisiert werden. Im Gegensatz dazu steigt die Veschlechterung der Qualität des reproduzierten Signals R&sub1; an.
  • Dann werden das Eingangssignal Sein und das reproduzierte Signal R&sub1; mit dem Vergleicher 13 verglichen und der optimale Code, welcher den minimalen Pegel des sich ergebenden Fehlersignals ER ergibt, wird gewählt, und zwar wie vorher durch die Fehler-Auswerteeinheit 14, dann wird eine Neuberechnung durch die zusätzliche lineare Prädiktions- Analyseeinheit 20 durchgeführt, um so den linearen Prädiktionsparameter P&sub1; (hauptsächlich den linearen Prädiktionskoeffizienten ai) gemäß der vorliegenden Erfindung zu berichtigen und die Qualität des reproduzierten Signals R&sub1; zu verbessern. Das Verbesserungsverfahren wird nachstehend erläutert.
  • Die Fig. 6A, 6B, 6C und 6D sind Ansichten, die die Wirkungen der Einführung einer zusätzlichen linearen Prädiktions- Analyseeinheit erläutern. Die Fig. 6A zeigt den Eingang und den Ausgang eines Prädiktions-Inversfilters. Das Prädiktions- Inversfilter in der Figur zeigt die Schlüsselabschnitte der in Fig. 1 gezeigten, linearen Prädiktions-Analyseeinheit und extrahiert den linearen Prädiktionskoeffizienten ai, der den Hauptteil des linearen Prädiktionsparameters P&sub1; bildet. Das heißt, wenn das Eingangssignal Sein der digitalisierten Sprache veranlaßt wird, durch das Prädiktions-Inversfilter aus Fig. 6A zu laufen, dann wird der lineare Prädiktionskoeffizient ai extrahiert und das Restsignal RD wird erzeugt. Dieses Restsignal RD wird unweigerlich erzeugt, da die Korrelation des Eingangssignals Sein nicht perfekt ist. Wenn das Restsignal RD als ein Eingang verwendet wird und das Prädiktions-Inversfilter in die Richtung des fettgedruckten Pfeils in Fig. 6A betrieben wird, sollte deshalb ein reproduziertes Signal (R&sub1;) erhalten werden, welches dem Eingangssignal Sein vollständig äquivalent ist.
  • Trotzdem wird bei der vorliegenden Erfindung in der gleichen Weise wie bei dem CELP-Verfahren das Restsignal RD zur Ermittlung des reproduzierten Signals nicht verwendet, sondern zur Ermittlung des reproduzierten Signals R&sub1; wird der optimale Code CDop verwendet, der aus der Vielzahl von Codes CD in dem Codebuch 21 für weißes Rauschen gewählt wird. Ein Abschnitt eines Beispiels der Wellenform für weißes Rauschen des optimalen Codes CDop ist in Fig. 6A gezeichnet. Ferner ist in der Figur auch ein Abschnitt eines Beispiels der Wellenform des Restsignals RD gezeichnet.
  • Fig. 6B zeigt den Eingang und den Ausgang eines Prädiktionsfilters, wobei das Prädiktionsfilter der Schlüsselabschnitt der Prädiktions-Filtereinheit 12 aus Fig. 4 ist. Wenn das Restsignal RD veranlaßt wird, durch das Prädiktionsfilter aus Fig. 6B zu laufen, dann kann, wie voranstehend erwähnt, ein reproduziertes Signal (R&sub1;) erhalten werden, welches im wesentlichen äquivalent zum Eingangssignal Sein ist, so daß tatsächlich ein optimaler Code CDop, der nicht vollständig äquivalent zum Signal RD ist, durch das Prädiktionsfilter aus Fig. 6B geführt wird, so daß der Eingang des Filtes unweigerlich eine Abweichungskomponente DV (RD-CDop) enthält. In Fig. 6B ist ein Teil eines Beispiels der Wellenform der Abweichungskomponente DV gezeichnet. Deshalb umfaßt der Ausgang des Prädiktionsfilters (Fig. 6B) einen Fehler er des reproduzierten Signals entsprechend der Abweichungskomponente DV.
  • Im folgenden wird der Aufbau der in Fig. 6C gezeigten Prädiktionsfilter näher untersucht, und zwar auf Grundlage des Eingangs- und Ausgangs-Zusammenhangs der in Fig. 6A und 6B erläuterten Filter. Der optimale Code CDop wird veranlaßt durch das erste Filter (oberer Abschnitt) in Fig. 6C zu laufen, um ein erstes reproduziertes Signal zu erhalten, während die Abweichungskomponente DV (= RD - CDop) veranlaßt wird durch das zweite Filter (unterer Abschnitt) zu laufen, um ein zweites reproduziertes Signal zu erhalten. Wenn diese ersten und zweiten reproduzierten Signale addiert werden, wird ein genaues reproduziertes Signal (R&sub1;) erhalten, d.h. ein reproduziertes Signal, welches im wesentlichen äquivalent zum Eingangssignal Sein ist. Dies ist leicht aus der Tatsache ableitbar, daß die Summe der Eingangskomponenten der ersten und zweiten Filter gleich CDop + RD - CDop (= RD) ist. Es wird darauf hingewiesen, daß der lineare Prädiktionskoeffizient ai nicht so eingestellt ist, daß er von dem Filter, welches als Eingang die Abweichungskomponente DV (= RD - CDop) empfängt, das minimale reproduzierte Signal ergibt. Der lineare Prädiktionskoeffizient ai ist so eingestellt, daß er die minimale Quadratsumme der Pegel der Restsignale der Abtastwerte der Codes, d.h. die Energie ergibt. Das heißt, in der vorliegenden Erfindung wird das Codebuch 21 verwendet, welches Codes speichert, die aus auf 1/M verdünnte Abtastwerten aufgebaut sind, so daß der lineare Prädiktionskoeffizient ai eingestellt wird, um die minimale Restenergie über den gewählten Abtastwert zu ergeben, und somit wird ai nicht so eingestellt, daß er die minimale Abweichungskomponente DV (= RD - CDop) ergibt.
  • Zur Reduzierung des Fehlers er des reproduzierten Signals berechnet deshalb die zusätzliche lineare Prädiktions- Analyseeinheit 20 aus Fig. 4 wieder den berichtigten linearen Prädiktionsparameter P&sub2; (hauptsächlich den linearen Prädiktionskoeffezienten ai') unter Berücksichtigung des optimalen Codes CDop, um so die minimale Energie des Restsignals befreit von den Auswirkungen des optimalen Codes CDop zu ergeben. Dieser berichtigte lineare Prädiktionskoeffizient a'i wird eingestellt, um in Fig. 6D die minimale Abweichungskomponente (= RD' - CDop) zu ergeben.
  • Hierbei ist die vorher erwähnte Gräße RD' das Restsignal, welches erhalten wird, wenn das Eingangssignal Sein durch das Prädiktions-Inversfilter (zusätzliche lineare Prädiktions- Analyseeinheit 20) geführt wird.
  • Wie erwähnt, wird der vorher erwähnte Koeffizient ai' eingestellt, um die minimale Abweichungskomponente (= RD1 - CDop) zu ergeben, so daß der Fehler er des reproduzierten Signals sogar kleiner wird als im Falle der Verwendung der vorher erwähnten Abweichungskomponente (= RD - CDop) und die Verschlechterung des reproduzierten Signals kann verbessert werden.
  • Fig. 7 ist ein Blockschaltbild einer Ausführungsform einer Sprachcodierungs-Einrichtung auf Grundlage der vorliegenden Erfindung. Fig. 8 ist ein Flußdiagramm des grundlegenden Betriebs der in Fig. 7 gezeigten Sprachcodierungs- Einrichtung. Es wird darauf hingewiesen, daß der Schritt a, der Schritt b und der Schritt c in Fig. 8 die gleichen sind wie der Schritt a, der Schritt b und der Schritt c in Fig. 3.
  • Die in Fig. 7 neu gezeigten Bestandteile sind die Gewichtungsverarbeitungseinheiten 19' und 19" für menschliche Hörempfindung, der Vergleicher 13', das Kurzzeit- Prädiktionsfilter 18' und das Langzeit-Prädiktionsfilter 17'. Diese Bestandteile arbeiten, wie für Schritt c in Fig. 3 erläutert, zur Beseitigung der Auswirkungen des unmittelbar vorangehenden Verarbeitungsrahmens. Ferner wird die Ausgabeeinheit 15 mit einem Multiplexer (MUX) realisiert. Die verschiedenen Signale, die dem Multiplexer (MUX) 15 eingegeben und multiplexiert werden, sind eine Adresse AD des Codebuchs 21 entsprechend dem optimalen Code (CDop) der in dem Verstärker 16 verwendete Codegewinn Gc der in dem Langzeit-Prädiktionsfilter 17 verwendete Langzeit- Prädiktionsparameter und der sogenannte Periodengewinn Gp und der berichtigte lineare Prädiktionsparameter P&sub2; (hauptsächlich der lineare Prädiktionskoeffizient a'i).
  • Unter Bezugnahme auf das Flußdiagramm in Fig. 8 wird nachstehend der grundlegende Betrieb der in Fig. 7 gezeigten Sprachcodierungs-Einrichtung beschrieben. Ferner besitzt das Codebuch 21 für weißes Rauschen Abtastwerte, die im Vergleich mit dem ursprünglichen Codebuch auf 1/3, d.h. M = 3, verdünnt sind.
  • Zunächst wird das Eingangssignal Sein an die lineare Prädiktions-Analyseeinheit 10 angelegt, in der eine Prädiktionsanalyse und eine Tonlagen-Prädiktionsanalyse durchgeführt werden, der lineare Prädiktionskoeffizient ai, die Tonlagenperiode und der Tonlagen-Prädiktionskoeffizient werden extrahiert, und der lineare Prädiktionskoeffizient ai wird an die Kurzzeit-Prädiktionsfilter 18 und 18' angelegt und die Tonlagenperiode und der Tonlagen- Prädiktionskoeffizient werden an die Langzeit- Prädiktionsfilter 17 und 17' angelegt (siehe Schritt a in Fig. 8).
  • Ferner werden das Kurzzeit-Prädiktionsfilter 18' und das Langzeit-Prädiktionsfilter 17' durch eine "0"-Eingabe unter den angelegten extrahierten Parametern angesteuert, das Eingangssignal Sein wird davon subtrahiert und die Auswirkungen des unmittelbar vorangehenden Verarbeitungsrahmens werden eliminiert (siehe Schritt b in Fig. 8).
  • Nun läuft die von dem auf 1/3 verdünnten Codebuch 21 für weißes Rauschen ausgegebene Wellenform für weißes Rauschen durch den Verstärker 16, wonach die Tonlagenperiode durch das Langzeit-Prädiktionsfilter 17 vorhergesagt wird, die Korrelation zwischen den benachbarten Abtastwerten wird durch das Kurzzeit-Prädiktionsfilter 18 vorhergesagt und das reproduzierte Signal R&sub1; wird erzeugt, von der Gewichtungsverarbeitungseinheit 19 für menschliche Hörempfindung wird eine Gewichtung in der Form einer Anpassung auf das menschliche Sprachspektrum ausgeführt und das Ergebnis wird an den Vergleicher 13 angelegt.
  • Da das Eingangssignal Sein, welches durch die Gewichtungsverarbeitungseinheit 19' für menschliche Hörempfindung durch den Vergleicher 13' gelaufen ist, an den Vergleicher 13 angelegt wird, wird das Fehlersignal ER nach der Entfernung von verschiedenen Fehlerkomponenten an die Fehler-Auswerteeinheit 14 angelegt. In diese Auswerteeinheit 14 wird die Quadratsumme des Fehlersignals ER genommen, wodurch die Fehlerenergie in dem untergeordneten Verarbeitungsrahmen ausgewertet wird. Die gleiche Verarbeitung wird für alle Codes CD in dem Codebuch 21 für weißes Rauschen zur Auswertung und Auswahl des die minimale Fehlerenergie ergebenden optimalen Codes CDop durchgeführt (siehe Schritt c in Fig. 8).
  • Als nächstes wird der Schritt d in Fig. 8 beschrieben.
  • Zunächst wird eine Hörempfindungs-Korrektur durchgeführt, die Auswirkungen des unmittelbar vorausgehenden Verarbeitungsrahmens werden beseitigt und eine Initialisierung wird bei der Verarbeitung durchgeführt. Das Eingangssignal Sein zu einer Zeit n danach wird zu Sn, das Restsignal RD des selbigen wird zu en und die Abtastwerte des Codes CD werden zu vn. Ferner wird der lineare Prädiktionskoeffizient einschließlich des Berichtigungsfilters für Hörempfindungen und der Gewinn oder die Verstärkung in der Gewichtungsverarbeitungseinheit 19 für menschliche Hörempfindung zu ai (der gleiche wie der vorher erwähnte a'i). vn besitzt einen signifikanten Wert nur zu jeden drei Abtastwerten. Als das Restmodell wird die folgende Gleichung berücksichtigt:
  • Dabei ist die Auswertefunktion
  • Mit S'n = Sn + Vn (n = 3m, wobei m eine positive ganze Zahl ist)
  • S'n = Sn (n = 3m + 1, 3m + 2)
  • Andererseits ergibt sich der Koeffizient ai, der den minimalen Fehler ER ergibt (mit i = 1 bis p) aus der Beziehung dEn/dak = 0, so daß sich
  • ergibt und damit
  • erhalten wird. Hierbei ist:
  • Schließlich ergibt sich der Koeffizient ai durch Lösung des Gleichungssystems
  • Q(k) = ai . R(i-k) (worin K = 1, 2, ... P)
  • Ferner wird bei der linearen Prädiktionsanalyse im Schritt a in Fig. 8 R(k) anstelle von Q(k) auf der linken Seite der Gleichung (3) verwendet, und der Koeffizient ai wird durch das bekannte Le loux-Verfahren oder andere bekannte Algorithmen berechnet, aber ai kann auch durch genau die gleiche Vorgehensweise wie in Gleichung (3) berechnet werden.
  • In Gleichung (3) wird die Neuauswertung von den Auswirkungen von vn, die durch den Prozeß der Schritte a und b in Fig. 8 gefunden werden, befreit, so daß die Qualität des reproduzierten Signals verbessert ist.
  • Voranstehend wurde eine Erläuterung für den Fall von M = 3 durchgeführt, aber die gleiche Vorgehensweise trifft auf einen anderen Wert von M zu.
  • Deshalb ist es möglich, die benötigte Menge von Filterberechnungen um eine zur Ausdünnungsrate des Inhalts des ursprünglichen Codebuchs 11 im wesentlichen proportionalen Rate zu reduzieren und es ist möglich, die Sprachcodierung mit Echtzeit-Verarbeitung durch Hardware mit relativ geringen Abmessungen zu realisieren.
  • Fig. 9A ist eine Ansicht des Aufbaus der in der vorliegenden Erfindung eingeführten, zusätzlichen, linearen Prädiktionsanalyse- und Verarbeitungseinheit. Fig. 9B ist eine Ansicht des Aufbaus einer herkömmlichen linearen Prädiktions-Analyseeinheit. In den Figuren sind die Unterschiede der Hardware und der Verarbeitung zwischen der in der gleichen Weise wie in der Vergangenheit verwendeten linearen Prädiktions-Analyseeinheit 10 (Fig. 9B) und der in der vorliegenden Erfindung hinzugefügten, zusätzlichen linearen Prädiktions-Analyseeinheit 20 (Fig. 9A) deutlich gezeigt. Insbesondere ist eine Subtraktionseinheit 30 vorgesehen und in der vorher erwähnten Gleichung (2) wird folgendes realisiert:
  • S'n = Sn + vn (n = 3m)
  • S'n = Sn (n = 3m + 1, 3m + 2)
  • Der optimale Code (verdünnter Abtastwert, wenn n = 3m + 1 und 3m + 2 gleich 0 ist). S'n wird gleich Sn.
  • Als nächstes wird eine ergänzende Erläuterung der Fehler- Auswerteeinheit 14 durchgeführt. Die Fehler-Auswerteeinheit 14 berechnet den Wert der Auswertefunktion
  • entsprechend allen Codes. Wenn die Größe des Codebuchs 21 beispielsweise 1024 ist, dann werden 1024 Arten von En berechnet. Als der optimale Code (CDop) wird der Code ausgewählt, der den minimalen Wert von diesen En ergibt.
  • Fig. 10 ist eine Ansicht des Aufbaus der Empfängerseite, die codierte Ausgangssignale empfängt, die von der Ausgabeeinheit aus Fig. 7 gesendet werden. Gemäß der vorliegenden Erfindung wird für das Codebuch das spezielle Codebuch 21 verwendet, welches aus verdünnten Abtastwerten der Codes aufgebaut ist. Ferner wird ein berichtigter, linearer Prädiktionsparameter P&sub2; verwendet. Deshalb ist es beispielsweise im Vergleich mit der Vergangenheit erforderlich, den Aufbau der Empfangsseite, welche das codierte Ausgangssignal Saus über eine drahtlose Übertragungsleitung empfängt, zu modifizieren.
  • An der ersten Stufe des Aufbaus der Empfangsseite befindet sich eine Eingabeeinheit 35, die der Ausgabeeinheit 15 aus Fig. 7 gegenüberliegt. Bei der Eingabeeinheit 35 handelt es sich um einen Demultiplexer (DMUX), der auf der Empfangsseite die der Ausgabeeinheit 15 in Fig. 7 eingegebenen Signale AD, Gc, Gp und P&sub2; demultiplexiert. Das auf der Empfangsseite verwendete Codebuch 31 ist das gleiche wie das Codebuch 21 in Fig. 7. Die Abtastwerte der Codes sind auf 1/M verdünnt. Der von dem Codebuch 31 gelesene optimale Code läuft durch einen Verstärker 36, ein Langzeit-Prädiktionsfilter 37 und ein Kurzzeit-Prädiktionsfilter 38, so daß er zu der reproduzierten Sprache wird. Diese Einzelelemente entsprechen dem Verstärker 16, dem Filter 17 und dem Filter 18 in Fig. 7.
  • Fig. 11 ist ein Blockschaltbild eines Beispiels der Anwendung der vorliegenden Erfindung. Dieses Beispiel ist bei der Anwendung der vorliegenden Erfindung auf die Sende- und Empfangsseiten eines digitalen Mobilfunk- Kommunikationssystems gezeigt. In der Figur bezeichnet das Bezugszeichen 41 eine Sprachcodierungs-Einrichtung der vorliegenden Erfindung (wobei die Empfangsseite den Aufbau aus Fig. 10 aufweist). Das codierte Ausgangssignal Saus von der Einrichtung 41 wird durch eine Fehler-Steuereinheit 42 multiplexiert (an der Empfangsseite demultiplexiert) und an eine Zeitvielfachzugriffs(TDMA)-Steuereinheit 44 angelegt.
  • Ferner wird die am Modulator 45 modulierte Trägerwelle durch eine Sendeeinheit 46 in eine vorgegebene Funkfrequenz umgewandelt, dann durch einen linearen Verstärker 47 energiemäßig verstärkt und über eine Antennen-Teilungseinheit 48 und eine Antenne AT gesendet.
  • Das von der anderen Seite empfangene Signal läuft von der Antenne AT durch die Antennen-Teilungseinheit 48 an die Empfangseinheit 51, an der es ein Zwischenfrequenzsignal wird. Es wird darauf hingewiesen, daß die Empfangseinheit 51 und die Sendeeinheit 46 abwechselnd aktiv sind. Deshalb ist ein Synthesizer 52 vom Hochgeschwindigkeits-Schalttyp vorgesehen. Das Signal von der Empfangseinheit 51 wird von dem Demodulator 53 demoduliert und wird ein Basisbandsignal.
  • Die Sprachcodierungs-Einrichtung 41 empfängt von einem Mikrofon MC erfaßte menschliche Sprache über einen (nicht dargestellten) A/D-Wandler als das bereits erläuterte Eingangssignal Sein. Andererseits wird das von der Empfangseinheit 51 empfangene Signal letztlich die reproduzierte Sprache (reproduzierte Sprache in Fig. 10) und wird von einem Lautsprecher SP gesendet.
  • Wie voranstehend erläutert, ist es gemäß der vorliegenden Erfindung möglich, eine auf dem CELP-Verfahren basierende Sprachcodierungs-Einrichtung in Echtzeit ohne Verwendung eines großen Computers zu betreiben, d.h. unter Verwendung eines digitalen Signalprozessors (DSP) mit geringen Abmessungen.
  • Die Bezugszeichen in den Ansprüchen dienen dem besseren Verständnis und engen den Umfang nicht ein.

Claims (9)

1. Eine Sprachcodierungs-Einrichtung, umfassend:
eine lineare Prädiktions-Analyseeinheit (10), die ein Eingangssignal digitalisierter Sprache empfängt, eine lineare Prädiktion durchführt und einen linearen Prädiktionsparameter extrahiert;
eine Prädiktions-Filtereinheit (12), die den linearen Prädiktionsparameter für Filterberechnungen verwendet;
ein Codebuch (11), das nacheinander eine Vielzahl von Typen von Codes sendet, die aus Reihen weißen Rauschens bestehen, die für die Filterberechnungen in der Prädiktions-Filtereinheit angewendet werden sollen;
einen Vergleicher (13), der als Eingang die Ergebnisse der Filterberechnungen in der Prädiktions-Filtereinheit, d.h. das reproduzierte Signal und die besagten Eingangssignale empfängt, diese Signale vergleicht und ein Fehlersignal ausgibt;
eine Fehler-Auswerteeinheit (14), die eine Vielzahl von Codes in dem Codebuch nacheinander liest und als den optimalen Code den einen der Codes berechnet, der die minimale Größe des Fehlersignals ergibt; und
eine Ausgabeeinheit (15), die zumindest den linearen Prädiktionsparameter und als das codierte Ausgangssignal die Adresse in dem Codebuch entsprechend dem optimalen Code sendet;
wobei das Codebuch aus einem Codebuch (21) besteht, welches Codes speichert, die durch Ausdünnung der Anzahl der Vielzahl von Abtastwerten, die die Codes als ein Codebuch in eigentümlicher Weise besitzen, auf 1/M (wobei M eine ganze Zahl von 2 oder größer ist) gebildet sind,
gekennzeichnet durch:
eine Kompensationseinrichtung, die aus einer zusätzlichen linearen Prädiktions-Analyseeinheit (20) besteht, wobei die zusätzliche lineare Prädiktions- Analyseeinheit als zwei Eingänge das besagte Eingangssignal und den auf Grundlage des von der linearen Prädiktions-Analyseeinheit extrahierten linearen Prädiktionsparameters erhaltenen optimalen Code empfängt und einen berichtigten linearen Prädiktionsparameter berechnet, der den linearen Prädiktionsparameter berichtigt; und
wobei die Ausgabeeinheit den berichtigten linearen Prädiktionsparameter anstelle des linearen Prädiktionsparameters verwendet, um die codierten Ausgangssignale zu senden.
2. Einrichtung nach Anspruch 1, dadurch gekennzeichnet, daß eine Vielzahl von Typen von Codes, die jeweils aus den auf vorgegebene Intervalle ausgedünnten Abtastwerten bestehen, in dem Codebuch gespeichert sind.
3. Einrichtung nach Anspruch 2, dadurch gekennzeichnet, daß der besagte Wert M gleich 2 oder 3 ist.
4. Einrichtung nach Anspruch 2, dadurch gekennzeichnet, daß die logische "0" in die Daten der ausgedünnten Abtastwerte geschrieben wird.
5. Einrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die Prädiktions-Filtereinheit mit einem digitalen Signalprozessor aufgebaut ist.
6. Einrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die zusätzliche lineare Prädiktions-Analyseeinheit den Wert berechnet, der die minimale Quadratsumme der Restkomponente ergibt, die nach Entfernung der Auswirkungen des optimalen Codes von dem Eingangssignal erhalten wird und die Ergebnisse der Berechnung als den berichtigten linearen Prädiktionsparameter verwendet.
7. Einrichtung nach Anspruch 6, dadurch gekennzeichnet, daß die zusätzliche lineare Prädiktions-Analyseeinheit mit einer Subtraktionseinheit versehen ist, die als Eingang das besagte Eingangssignal empfängt und als Eingang den durch Subtraktion des optimalen Codes von dem Eingangssignal ermittelten Wert empfängt.
8. Einrichtung nach Anspruch 1, dadurch gekennzeichnet, daß eine Gewichtungseinheit für menschliche Hörempfindung zwischen der Prädiktions-Filtereinheit und dem Vergleicher eingefügt ist und eine Gewichtung durchgeführt wird, in dem das Spektrum der Wellenform mit weißem Rauschen auf das menschliche Hörspektrum angepaßt wird.
9. Einrichtung nach Anspruch 8, dadurch gekennzeichnet, daß ein Ausgang eines zweiten Vergleichers (13') zu dem Vergleicher hinzugefügt wird, wobei der zweite Vergleicher (13') die Differenz zwischen einem ersten Eingang und einem zweiten Eingang ermittelt, wobei der erste Eingang ein Signal ist, welches von einer zweiten Gewichtungsverarbeitungseinheit (19') für menschliche Hörempfindung in bezug auf den Ausgang von einer durch eine "0"-Eingabe angesteuerten zweiten Prädiktions- Filtereinheit (12') gewichtet ist, und wobei der zweite Eingang ein Signal ist, welches von einer dritten Gewichtungsverarbeitungseinheit (19") für menschliche Hörempfindung in bezug auf das Eingangssignal gewichtet ist.
DE69013738T 1989-04-13 1990-04-11 Einrichtung zur Sprachcodierung. Expired - Fee Related DE69013738T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1093568A JPH02272500A (ja) 1989-04-13 1989-04-13 コード駆動音声符号化方式

Publications (2)

Publication Number Publication Date
DE69013738D1 DE69013738D1 (de) 1994-12-08
DE69013738T2 true DE69013738T2 (de) 1995-04-06

Family

ID=14085859

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69013738T Expired - Fee Related DE69013738T2 (de) 1989-04-13 1990-04-11 Einrichtung zur Sprachcodierung.

Country Status (5)

Country Link
US (1) US5138662A (de)
EP (1) EP0392517B1 (de)
JP (1) JPH02272500A (de)
CA (1) CA2014279C (de)
DE (1) DE69013738T2 (de)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5230038A (en) * 1989-01-27 1993-07-20 Fielder Louis D Low bit rate transform coder, decoder, and encoder/decoder for high-quality audio
US5265190A (en) * 1991-05-31 1993-11-23 Motorola, Inc. CELP vocoder with efficient adaptive codebook search
CA2078927C (en) * 1991-09-25 1997-01-28 Katsushi Seza Code-book driven vocoder device with voice source generator
US5457783A (en) * 1992-08-07 1995-10-10 Pacific Communication Sciences, Inc. Adaptive speech coder having code excited linear prediction
FI95086C (fi) * 1992-11-26 1995-12-11 Nokia Mobile Phones Ltd Menetelmä puhesignaalin tehokkaaksi koodaamiseksi
US5754589A (en) 1993-01-08 1998-05-19 Multi-Tech Systems, Inc. Noncompressed voice and data communication over modem for a computer-based multifunction personal communications system
US5452289A (en) 1993-01-08 1995-09-19 Multi-Tech Systems, Inc. Computer-based multifunction personal communications system
US5864560A (en) 1993-01-08 1999-01-26 Multi-Tech Systems, Inc. Method and apparatus for mode switching in a voice over data computer-based personal communications system
US5812534A (en) 1993-01-08 1998-09-22 Multi-Tech Systems, Inc. Voice over data conferencing for a computer-based personal communications system
US5453986A (en) 1993-01-08 1995-09-26 Multi-Tech Systems, Inc. Dual port interface for a computer-based multifunction personal communication system
US5617423A (en) 1993-01-08 1997-04-01 Multi-Tech Systems, Inc. Voice over data modem with selectable voice compression
US5546395A (en) * 1993-01-08 1996-08-13 Multi-Tech Systems, Inc. Dynamic selection of compression rate for a voice compression algorithm in a voice over data modem
US6009082A (en) 1993-01-08 1999-12-28 Multi-Tech Systems, Inc. Computer-based multifunction personal communication system with caller ID
US5535204A (en) * 1993-01-08 1996-07-09 Multi-Tech Systems, Inc. Ringdown and ringback signalling for a computer-based multifunction personal communications system
FI96248C (fi) * 1993-05-06 1996-05-27 Nokia Mobile Phones Ltd Menetelmä pitkän aikavälin synteesisuodattimen toteuttamiseksi sekä synteesisuodatin puhekoodereihin
DE4315319C2 (de) * 1993-05-07 2002-11-14 Bosch Gmbh Robert Verfahren zur Aufbereitung von Daten, insbesondere von codierten Sprachsignalparametern
AU5095193A (en) * 1993-08-27 1995-03-21 Pacific Communication Sciences, Inc. Adaptive speech coder having code excited linear prediction
US5757801A (en) 1994-04-19 1998-05-26 Multi-Tech Systems, Inc. Advanced priority statistical multiplexer
US5682386A (en) 1994-04-19 1997-10-28 Multi-Tech Systems, Inc. Data/voice/fax compression multiplexer
US5890110A (en) * 1995-03-27 1999-03-30 The Regents Of The University Of California Variable dimension vector quantization
TW321810B (de) * 1995-10-26 1997-12-01 Sony Co Ltd
JPH10247098A (ja) * 1997-03-04 1998-09-14 Mitsubishi Electric Corp 可変レート音声符号化方法、可変レート音声復号化方法
US5987405A (en) * 1997-06-24 1999-11-16 International Business Machines Corporation Speech compression by speech recognition
EP1147514B1 (de) * 1999-11-16 2005-04-06 Koninklijke Philips Electronics N.V. Breitbandiges audio-übertragungssystem
US6760674B2 (en) * 2001-10-08 2004-07-06 Microchip Technology Incorporated Audio spectrum analyzer implemented with a minimum number of multiply operations
US7200552B2 (en) * 2002-04-29 2007-04-03 Ntt Docomo, Inc. Gradient descent optimization of linear prediction coefficients for speech coders
DE102006022346B4 (de) 2006-05-12 2008-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Informationssignalcodierung
US8077821B2 (en) * 2006-09-25 2011-12-13 Zoran Corporation Optimized timing recovery device and method using linear predictor

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4817157A (en) * 1988-01-07 1989-03-28 Motorola, Inc. Digital speech coder having improved vector excitation source

Also Published As

Publication number Publication date
EP0392517B1 (de) 1994-11-02
JPH02272500A (ja) 1990-11-07
US5138662A (en) 1992-08-11
EP0392517A2 (de) 1990-10-17
EP0392517A3 (de) 1991-05-15
CA2014279A1 (en) 1990-10-13
DE69013738D1 (de) 1994-12-08
CA2014279C (en) 1994-03-29

Similar Documents

Publication Publication Date Title
DE69013738T2 (de) Einrichtung zur Sprachcodierung.
DE69431622T2 (de) Verfahren und gerät zum kodieren von mit mehreren bits kodiertem digitalem ton durch subtraktion eines adaptiven zittersignals, einfügen von versteckten kanalbits und filtrierung, sowie kodiergerät zur verwendung bei diesem verfahren
DE69230308T2 (de) Transformationsverarbeitungsgerät und -verfahren und Medium zum Speichern komprimierter Digitaldaten
DE69529356T2 (de) Wellenforminterpolation mittels Zerlegung in Rauschen und periodische Signalanteile
DE69333786T2 (de) Verfahren zum Kodieren und Dekodieren von Audiodaten
DE69618422T2 (de) Verfahren zur Sprachdekodierung und tragbares Endgerät
DE69531471T2 (de) Mehrkanalsignalkodierung unter Verwendung gewichteter Vektorquantisierung
DE69331428T2 (de) Kodierung und Dekodierung digitaler Signale
DE69231369T2 (de) Verfahren und Einrichtung zur Audiodatenkompression
DE69214969T2 (de) Verfahren und Vorrichtung zur Erzeugung von Hilfsinformationen zur Ausführung einer Suche in einem Kodebuch mit geringer Dichte
DE602005002833T2 (de) Kompensation von multikanal-audio energieverlusten
DE69910239T2 (de) Verfahren und vorrichtung zur adaptiven bandbreitenabhängigen grundfrequenzsuche für die kodierung breitbandiger signale
DE69625874T2 (de) Verfahren und Vorrichtung zur Wiedergabe von Sprachsignalen, zur Dekodierung, zur Sprachsynthese und tragbares Funkendgerät
DE69530442T2 (de) Vorrichtung zur Sprachkodierung
DE69621393T2 (de) Quantisierung von Sprachsignalen in prädiktiven Kodiersystemen unter Verwendung von Modellen menschlichen Hörens
DE60103086T2 (de) Verbesserung von quellcodierungssystemen durch adaptive transposition
DE69029232T2 (de) System und Methode zur Sprachkodierung
DE69529393T2 (de) Verfahren zur gewichteten Geräuschfilterung
DE69529672T2 (de) System zur sprachkodierung
DE69522187T2 (de) Verfahren und vorrichtung zur kodierung, dekodierung und kodierung-dekodierung
DE60126149T2 (de) Verfahren, einrichtung und programm zum codieren und decodieren eines akustischen parameters und verfahren, einrichtung und programm zum codieren und decodieren von klängen
DE69121411T2 (de) Methode und gerät zur codierung von analogen signalen
DE69426860T2 (de) Sprachcodierer und Verfahren zum Suchen von Codebüchern
DE69730721T2 (de) Verfahren und vorrichtungen zur geräuschkonditionierung von signalen welche audioinformationen darstellen in komprimierter und digitalisierter form
DE60113602T2 (de) Audiokodierer mit psychoakustischer Bitzuweisung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee