DE69023402T2

DE69023402T2 - Verfahren zur Sprachkodierung und -dekodierung.

Info

Publication number: DE69023402T2
Application number: DE69023402T
Authority: DE
Inventors: Kazunori Ozawa
Original assignee: NEC Corp; Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1989-07-20
Filing date: 1990-07-19
Publication date: 1996-04-04
Anticipated expiration: 2010-07-20
Also published as: US5142584A; DE69023402D1; EP0409239A3; EP0409239A2; JP2940005B2; JPH0353300A; EP0409239B1

Description

Die vorliegende Erfindung betrifft ein Verfahren zur Sprachkodierung und -dekodierung zum Kodieren eines Sprachsignals mit hoher Qualität bei einer niedrigen Bitrate, insbesondere bei 4,8 kb/s oder weniger, durch einen verhältnismäßig kleinen Verarbeitungsaufwand.
Als Verfahren zum Kodieren eines Sprachsignals bei einer niedrigen Bitrate von ungefähr 4,8 kb/s oder weniger sind Sprachkodierungsverfahren bekannt, die beispielsweise in der JP-A-58100/90 (Referenz 1) und in M. Schroeder und B. Atal, "Code-excited linear prediction: High quality speech at very low bit rates," ICASSP, pp. 937-940, 1985 (Referenz 2) offenbart sind.
Nach dem Verfahren in Referenz 1 werden auf der Senderseite ein Spektrumparameter, der die Spektrumcharakteristik eines Sprachsignals repräsentiert, und ein Tonhöhenparameter, der dessen Tonhöhe repräsentiert, aus einem Sprachsignal jedes Rahmens extrahiert. Sprachsignale werden in mehrere Signaltypen (z.B. Vokal-, Explosiv-, Reibelautsignal) unter Verwendung von akustischen Merkmalen klassifiziert. Ein Ein-Rahmen- Lautquellesignal in einem Vokallautintervall wird durch eine verbesserte Tonhöheninterpolation auffolgende Weise dargestellt. Eine Signalkomponente in einem Tonhöhenintervall (repräsentatives Intervall) von mehreren Tonhöhenintervallen, die durch Unterteilung eines Rahmens erhalten werden, wird durch einen Mehrfachpuls dargestellt. In anderen Tonhöhenintervallen im gleichen Rahmen werden Amplituden- und Phasenkorrekturkoeffizienten zum Korrigieren der Amplitude und Phase des Mehrfachpulses in dem repräsentativen Intervall in Einheiten des Tonhöhenintervalls gewonnen. Anschließend werden die Amplitude und die Lage des Mehrfachpulses in dem repräsentativen Intervall, die Amplituden- und Phasenkorrekturkoeffizienten in anderen Tonhöhenintervallen und der Spektrum- und Tonhöhenparameter übertragen. In einem Explosivlautsignal wird ein Mehrfachpuls in dem gesamten Rahmen erhalten. In einem Reibelautintervall wird ein Typ Rauschsignal aus einem Kodeverzeichnis ausgewählt, das aus vorgegebenen Typen von Rauschsignalen besteht, um so die unterschiedliche Stärke zwischen einem durch Synthetisierung eines Rauschsignals gewonnenen Signals und dem Eingabesprachsignal zu minimieren, und eine optimale Verstärkung wird berechnet. Als Ergebnis werden ein Index, der den Typ des Rauschsignals repräsentiert, und die Verstärkung übertragen. Eine Beschreibung in Zusammenhang mit der Empfangsseite unterbleibt.
In dem herkömmlichen, in Referenz 1 offenbarten Verfahren kann in bezug auf eine weibliche Sprecherin mit einer kurzen Tonhöhenperiode, da eine große Anzahl von Tonhöhenintervallen in einem Rahmen vorhanden sind, eine verbesserte Tonhöheninterpolation wirkungsvoll ausgeführt werden, und entsprechend kann eine ausreichende Anzahl von Pulsen für den gesamten Rahmen erhalten werden. Wenn beispielsweise die Rahmenlänge 20 ms beträgt, die Tonhöhenperiode 4 ms und die Anzahl der Pulse in einem typischen Intervall 4 beträgt, können entsprechend 20 Pulse für den gesamten Rahmen erhalten werden.
Da jedoch in bezug auf einen männlichen Sprecher mit einer langen Tonhöhenperiode eine ausreichende Anzahl von Pulsen für den gesamten Rahmen nicht in entsprechender Weise erhalten werden kann, zeigt eine verbesserte Tonhöheninterpolation keinen zufriedenstellenden Erfolg. Deshalb wird sich ein Problem hinsichtlich der Lautqualität ergeben. Wenn beispielsweise die Tonhöhenperiode 10 ms beträgt und die Anzahl der Pulse pro Tonhöhe 4 ist, ist die Anzahl der Pulse in dem gesamten Rahmen 8, die im Vergleich zur weiblichen Sprecherin sehr klein ist. Um die Anzahl der Pulse im gesamten Rahmen zu erhöhen, muß die Anzahl der Pulse pro Tonhöhe erhöht werden. Wenn jedoch diese Anzahl erhöht wird, wird die Bitrate erhöht. Aus diesem Grund ist es schwierig, die Anzahl der Pulse zu erhöhen.
Wenn außerdem die Bitrate von 4,8 kb/s auf 3 kb/s oder 2,4 kb/s verringert wird, muß die Anzahl der Pulse pro Tonhöhe auf 2 bis 3 verringert werden. Daher wird sich ein schwierigeres Problem stellen als das oben beschriebene. Bei einer solch niedrigen Bitrate ist die Leistung der verbesserten Tonhöheninterpolation, selbst für eine weibliche Sprecherin, unzureichend.
In dem in Referenz 2 offenbarten CELP-Verfahren muß, wenn die Bitrate unter 4,8 kb/s gesenkt wird, die Anzahl der Bits eines Kodeverzeichnisses verringert werden, woraus sich eine abrupte Verschlechterung der Lautqualität ergibt. Beispielsweise wird bei 4,8 kb/s allgemein ein 10-Bit Kodeverzeichnis für einen Subrahmen von 5 ms verwendet. Jedoch muß bei 2,4 kb/s die Anzahl der Bits des Kodeverzeichnisses auf 5 verringert werden, unter der Voraussetzung, daß die Periode des Subrahmens von 5 ms beihalten wird. Da 5 Bits als Anzahl von Bits zu wenig sind, um verschiedene Arten von Lautquellesignalen zu erfassen, verschlechtert sich bei einer Bitrate von weniger als 4,8 kb/s abrupt die Lautqualität.
Ferner zum Verfahren nach Referenz 1 offenbart die IEEE/IEICE GLOBAL TELECOMMUNICATION CONFERENCE, Tokio, 15.-18. Nov. 1987, Bd. 2, Seite 752-756, IEEE, New York, US; S.Ono et al.:"2,4 kBPs pitch interpolation multi-pulse speech coding" ein Tonhöheninterpolationsverfahren.
Es ist eine Aufgabe der vorliegenden Erfindung, ein Verfahren zur Sprachkodierung und -dekodierung bereitzustellen, das eine Sprachkodierung und -dekodierung in hoher Qualität bei 4,8 kb/s oder weniger mit einem verhältnismäßig kleinen Verarbeitungsaufwand durchführt. Diese Aufgabe wird mit den Merkmalen der Ansprüche gelöst.
Ein Sprachkodierungsverfahren wie beschrieben weist die Schritte auf:
Gewinnung eines Spektrumparameters, der eine Spektrumeinhüllende repräsentiert, und eines Tonhöhenparameters, der eine Tonhöhe repräsentiert, aus einem diskreten Eingabesprachsignal, Unterteilung eines Rahmenintervalls in Subintervalle in Übereinstimmung mit dem Tonhöhenparameter, Gewinnung eines Lautquellesignals in einem der Subintervalle durch Gewinnung eines Mehrfachpulses in bezug auf ein Differenzsignal, das durch Durchführung einer Prädiktion auf der Grundlage eines vorherigen Lautquellesignals gewonnen wird, und Gewinnung und Ausgabe von Korrekturdaten zum Korrigieren mindestens einer Amplitude und einer Phase des Lautquellesignals in anderen Tonhöhenintervallen im Rahmen.
Eine Folge von Verarbeitungsschritten, die auf dem Verfahren zur Sprachkodierung- und -dekodierung der vorliegenden Erfindung basieren, wird nachstehend beschrieben.
In einem stimmhaften Intervall mit periodischen Eigenschaften für jede Tonhöhe, wird ein eine Tonhöhenperiode repräsentierender Tonhöhenparameter im voraus aus einem Sprachsignal im Rahmen gewonnen. Beispielsweise wird das Rahmenintervall einer in Fig. 3(a) gezeigten Sprachwelle in mehrere Tonhöhenintervalle (Subrahmen) in Einheiten von Tonhöhenperioden, wie in Fig. 3(b) gezeigt, unterteilt. Ein Mehrfachpuls mit einer vorgegebenen Anzahl von Pulsen wird in bezug auf ein Differenzsignal gewonnen, das durch Durchführung einer Prädiktion in einem Tonhöhenintervall (repräsentativen Intervall) der Tonhöhenintervalle unter Verwendung eines vorherigen Lautquellesignals gewonnen wird. Anschließend werden Verstärkungs- und Phasenkorrekturkoeffizienten zum Korrigieren der Verstärkung und Phase des Mehrfachpulses in dem repräsentativen Intervall für andere Subrahmen im gleichen Rahmen gewonnen.
Ein Verfahren zur Durchführung der Tonhöhenprädiktion wird nachstehend beschrieben. Es sei angenommen, daß ein in dem vorausgehenden Rahmen reproduziertes Antriebslautquellesignal durch v(n) beschrieben wird, und ein Prädiktionskoeffizient und eine Periode jeweils durch b und M beschrieben werden. Außerdem sei angenommen, daß ein Intervall in Fig. 3(c) ein repräsentatives Intervall des aktuellen Rahmens ist, und ein Sprachsignal in diesem Interavll durch x&sub1; (n) beschrieben wird. Der Koeffizient b und die Periode M werden berechnet, um die Differenz der folgenden Gleichung zu minimieren:
E = [{x&sub1;(n) - b v(n-M)*h(n)}*w(n))² ...(1)
wobei w(n) die Impulsantwort eines Wahrnehmungsgewichtsfilters (für dessen detaillierte Beschreibung sei auf die Japanische Patentanmeldung Nr. 57-231605, offenbart als offengelegte Patentanmeldung Nr. 59-116794 (Referenz 3) und dergleichen hingewiesen), h(n) die Impulsantwort eines Synthetisierungsfilters, gebildet aus einem Spektrumparameter, der aus der Sprache des aktuellen Rahmens durch bekannte lineare Prädiktionsanalyse (LPC) (für deren detaillierte Beschreibung sei auf Referenz 3 und dergleichen hingewiesen) gewonnen wird, und * die Faltungsoperation ist.
Um Gleichung (1) zu minimieren, wird Gleichung (1) partiell nach b differenziert und 0 gesetzt, um so die folgende Gleichung zu erhalten:
Einsetzen von Gleichung (2) in Gleichung (1) ergibt:
Da der erste Term der Gleichung (4) konstant ist, kann Gleichung (1) durch Maximierung des zweiten Terms der Gleichung (4) minmiert werden. Der zweite Term der Gleichung (4) wird für verschiedene Werte von M berechnet, und der Wert von M, der den zweiten Term maximiert, wird erhalten. Der Wert von b wird dann aus Gleichung (2) berechnet.
Eine Tonhöhenprädiktion wird in bezug auf das Intervall unter Verwendung der gewonnenen Werte b und M gemäß der folgenden Gleichung durchgeführt, um so ein Differenzsignal e(n) zu erhalten:
e(n) = x&sub1;(n) - v(n-M)*h(n) ...(5)
Fig. 3(c) zeigt ein Beispiel für e(n).
Anschließend wird ein Mehrfachpuls mit einer vorgegebenen Anzahl von Pulsen in bezug auf das Differenzsignal e(n) gewonnen. Als praktisches Verfahren zur Gewinnung eines Mehrfachpulses ist ein Verfahren unter Verwendung einer Kreuzkorrelationsfunktion Φxh und einer Autokorrelationsfunktion Rhh bekannt. Da dieses Verfahren beispielsweise in Referenz 3 und in Araseki, Ozawa, Ono und Ochiai, "Multi-pulse Excited Speech Coder Based on Maximum Cross-Correlation Search A logarithm", GLOBECOM 83, IEEE Global Tele-communications Conference, Votragsnummer 23.3.1983 (Referenz 4) offenbart ist, unterbleibt eine Beschreibung dieses Verfahrens. Fig. 3(d) zeigt den Mehrfachpuls, der im Intervall gewonnen wird, als ein Beispiel, in dem zwei Pulse gewonnen werden.
Als Ergebnis wird ein Lautquellesignal d(n) im Interavll gemäß folgender Gleichung gewonnen:
d(n) = b v(n-M) + gi.δ(n-mi) ...(6)
für δ(n-mj) =
wobei gi und mi Amplitude und Lage eines i-ten Pulses des Mehrfachpulses sind.
In anderen Tonhöhenintervallen als dem repräsentativen Intervall werden die Verstärkungs- und Phasenkorrekturkoeffizienten zum Korrigieren der Verstärkung und der Phase des Lautquellesignals in dem repräsentativen Intervall in Einheiten von Tonhöhen-Intervallen berechnet. Wenn ein Verstärkungskorrekturkoeffizient bzw. ein Phasenkorrekturkoeffizient im j- ten Tonhöhenintervall als cj bzw. dj bezeichnet wird, können diese Werte berechnet werden, um die folgende Gleichung zu minimieren:
E = [{xj(n)-cj d(n-T'-d&sub3;)*h(n)}*w(n)]&sub2; ...(7)
Da die Lösung obiger Gleichung detailliert in Referenz 3 und dergleichen beschrieben ist, unterbleibt ihre Beschreibung. Ein Lautquellesignal des Rahmnes wird durch Gewinnung von Verstärkungs- und Phasenkorrekturkoeffizienten in jeweils anderen Tonhöhenintervallen als dem repräsentativen Tonhöhenintervall gemäß Gleichung (7) gewonnen.
Fig. 3(e) zeigt als Beispiel das Antriebslautquellesignal des aktuellen Rahmens, das durch Gewinnung der Verstärkungsund Phasenkorrekturkoeffizienten in anderen Tonhöhenintervallen als dem Intervall reproduziert wird.
In diesem Fall ist ein repräsentatives Intervall fest mit dem Tonhöhenintervall verbunden. Jedoch kann ein Tonhöhenintervall, in dem die Lautstärkedifferenz zwischen der eingegebenen Sprache eines Rahmens und der synthetisierten Sprache minimiert ist, durch Überprüfen mehrerer Tonhöhenintervalle im Rahmen als repräsentatives Intervall ausgewählt werden. Hinsichtlich einer detaillierten Beschreibung dieses Verfahrens sei auf Referenz 1 und dergleichen hingewiesen.
Eine als Lautquelleinformation für jeden Rahmen zu übertragende Information beinhaltet die Lage eines repräsentativen Tonhöhenintervalls in einem Rahmen (nicht erforderlich, wenn ein repräsentatives Intervall festgelegt ist); den Prädiktionskoeffizienten b, die Periode M, die Amplitude und Lage des Mehrfachpulses in dem repräsentativen Intervall; und die Verstärkungs- und Phasenkorrekturkoeffizienten in anderen Tonhöhenintervallen im gleichen Rahmen.
Gemäß dem zweiten Gesichtspunkt der vorliegenden Erfindung wird anstelle der Gewinnung eines Mehrfachpulses in bezug auf ein durch Durchführung einer Prädiktion in einem repräsentativen Intervall gewonnenes Differenzsignal e(n) eine Vektorquantisierung unter Verwendung eines Kodeverzeichnisses durchgeführt. Dieses Verfahren wird nachstehend detailliert beschrieben. Es wird angenommen, daß 2B (B ist die Anzahl der Bits einer Lautquelle) Typen von Lautquellesignalvektoren (Kodevektoren) in dem Kodeverzeichnis gespeichert sind. Wenn ein Lautquellesignalvektor im Kodeverzeichnis durch c(n) beschrieben wird, wird der Lautquellesignalvektor von dem Kodeverzeichnis so ausgewählt, daß die folgende Gleichung minimiert wird:
E = [{e(n)-g c(n)*h(n)}*w(n)]² ...(8)
wobei die Verstärkung des Lautquellesignals ist. Um Gleichung (8) zu minimieren, wird Gleichung (8) partiell nach differenziert und 0 gesetzt, um so folgende Gleichung zu erhalten:
wobei
ew(n) = e(n)*h(n) ...(10)
w(n) = c(n)*h(n)*w(n) ...(11)
Einsetzen von Gleichung (9) in Gleichung (8) ergibt:
Da der erste Term der Gleichung (12) konstantist, wird der zweite Term für alle Werte des Lautquellevektors c(n) berechnet, und ein Wert, der den zweiten Term maximiert, wird ausgewählt. In diesem Fall wird die Verstärkung gemäß Gleichung (9) gewonnen.
Das Kodeverzeichnis kann durch Lernen auf der Grundlage von Übungssignalen gebildet werden, oder kann z.B. aus Gaußschen Zufallssignalen gebildet werden. Das erstere Verfahren ist z.B. in Makhoul et al., "Vector Quantization in Speech Coding," Proc. IEEE, Bd. 73, 11, 1551-1588, 1985 (Referenz 5) beschrieben. Das letztere Verfahren ist in Referenz 2 beschrieben.
Fig. 1 ist ein Blockschaltbild, das ein System auf der Grundlage eines Verfahrens zur Sprachkodierung und -dekodierung gemäß der ersten Ausführungsform der vorliegenden Erfindung zeigt;
Fig. 2 ist ein Blockschaltbild, das ein System auf der Grundlage eines Verfahrens zur Sprachkodierung und -dekodierung gemäß der zweiten Ausführungsform der vorliegenden Erfindung zeigt; und
Fig. 3(a) bis 3(e) sind graphische Darstellungen zur Erklärung einer Folge von Verarbeitungsschritten auf der Grundlage des Verfahrens der vorliegenden Erfindung.
Fig. 1 zeigt ein System zur Ausführung eines Verfahrens zur Sprachkodierung und -dekodierung gemäß der ersten Ausführungsform der vorliegenden Erfindung.
Mit Bezug auf Fig 1 empfängt eine Senderseite über einen Eingangsanschluß 100 ein Sprachsignal und speichert ein Ein- Rahmen-Sprachsignal (z.B. 20 ms) in einem Pufferspeicher 110.
Ein LPC- und Tonhöhenrechner 130 führt eine bekannte LPC- Analyse des Ein-Rahmen-Sprachsignals durch, um einen K- Parameter, der einem vorgegebenen Grad P entspricht, als Parameter zu berechnen, der die Spektrumcharakteristiken des Ein-Rahmen-Sprachsignals repräsentiert. Hinsichtlich einer detaillierten Beschreibung dieses Verfahren zur Berechnung des K-Parameters sei auf K-Parameter-Rechner in den vorstehend beschriebenen Referenzen 1 und 3 hingewiesen. Zu beachten ist, daß ein K-Parameter mit einem PARCOR-Koeffizienten identisch ist. Eine Kode 1k, der durch Quantisierung des K-Parameters mit einer vorgegebenen Anzahl von Quantisierungsbits gewonnen wird, wird an einen Multiplexer 260 ausgegeben und wird in einen linearen Prädiktionskoeffizienten ai' (i=1 bis P) dekodiert. Der Koeffizient ai' wird dann an einen Gewichtungsschaltkreis 200, einen Impulsantwortrechner 170 und ein Synthetisierungsfilter 281 ausgegeben. Hinsichtlich Verfahren zum Kodieren des K-Parameters und zum Umwandeln des K-Parameters in den linearen Prädiktionskoeffizienten sei auf die vorstehend beschriebenen Referenzen 1 und 3 hingewiesen. Eine gemittelte Tonhöhenperiode T wird aus dem Ein-Rahmen- Sprachsignal berechnet. Für dieses Verfahren ist ein Verfahren auf der Grundlage einer Autokorrelation bekannt. Hinsichtlich einer detaillierten Beschreibung dieses Verfahren sei auf einen Tonhöhenextraktionsschaltkreis in Referenz 1 hingewiesen. Zusätzlich können andere bekannte Verfahren (z.B. das Cepstrumverfahren, das SIFT-Verfahren und das partielle Korrelationsverfahren) verwendet werden. Ein durch Quantisierung der gemittelten Tonhöhenperiode T mit einer vorgegebenen Anzahl von Bits gewonnener Kode wird an den Multiplexer 260 ausgegeben. Außerdem wird eine durch Dekodierung dieses Kodes gewonnene dekodierte Tonhöhenperiode an einen Subrahmenunterteiler 195, einen Schaltkreis 283 zur Reproduktion der Antriebslautquelle und einen Verstärkung/Phasenkorrekturrechner 270 ausgegeben.
Der Impulsantwortrechner 170 berechnet eine Impulsantwort hw(n) des Synthetisierungsfilters, das die Wahrnehmungsgewichtung unter Verwendung des linearen Prädiktionskoeffizienten ai' ausführt, und gibt sie an einen Autokorrelationsrechner 180 und einen Kreuzkorrelationsrechner 210 aus.
Der Autokorrelationsrechner 180 berechnet eine Autokorrelationsfunktion Rhh(n) der Impulsantwort und gibt sie mit einer vorgegebenen Zeitverzögerung aus. Hinsichtlich der Operationen des Impulsantwortrechners 170 und des Autokorrelationsrechners 180 sei auf Referenz 1 und 3 hingewiesen.
Ein Subtraktor 190 subtrahiert eine Ein-Rahmen-Komponente eines Ausgangssignals vom Synthetisierungsfilter 281 von einem Ein-Rahmen-Sprachsignal x(n) und gibt das Subtraktionsergebnis an den Gewichtungsschaltkreis 200 aus.
Der Gewichtungsschaltkreis 200 gewinnt ein gewichtetes Signal xw(n) durch Filtern des Subtraktionsergebnisses durch ein Wahrnehmungsgewichtfilter, dessen Impulsantwort durch w(n) beschrieben wird, und gibt es aus. Hinsichtlich des Gewichtungsverfahrens sei auf Referenz 1 und 3 und dergleichen hingewiesen.
Der Subrahmenunterteiler 195 unterteilt das gewichtete Signal des Rahmens bei Tonhöhenintervallen von T'.
Ein Prädiktionskoeffizientenrechner 206 gewinnt gemäß Gleichung (1) bis (4) einen Prädiktionskoeffizienten b und eine Periode M unter Verwendung eines vorher reproduzierten Antriebslautquellesignals v(n), der Impulsantwort hw(n) und eines der bei den Tonhöhenintervallen von T' gewichteten Signale in einem vorgegebenen repräsentativen Intervall (z.B. ein Intervall in Fig. 3(c)). Die gewonnenen Werte werden dann mit einer vorgegebenen Anzahl von Bits quantisiert, um Werte b' und M' zu erhalten. Der Prädiktionskoeffizientenrechner 206 berechnet ferner ein Prädiktionslautquellesignal v'(n) gemäß der folgenden Gleichung und gibt es an einen Prädiktionsschaltkreis 205 aus:
v'(n) = b' v(n-M') ...(13)
Der Prädiktionsschaltkreis 205 führt eine Prädiktion unter Verwendung des Signals v'(n) gemäß der folgenden Gleichung durch, um in dem repräsentativen Intervall (dem Intervall in Fig. 3(c)) ein Differenzsignal zu erhalten:
ev(n) = xw(n)-v'(n)*hw(n) ...(14)
Der Kreuzkorrelationsfunktionsrechner 210 empfängt die Werte ev(n) und hv(n), berechnet eine Kreuzkorrelationsfunktion Φxh mit einer Verzögerungszeit und gibt das Rechenergebnis aus. Hinsichtlich dieses Rechenverfahrens sei auf Referenz 1 und 3 und dergleichen hingewiesen.
Ein Mehrfachpulsrechner 220 berechnet eine Lage mi und eine Amplitude gi eines Mehrfachpulses in bezug auf das Differenzsignal in dem repräsentativen Intervall, das aus Gleichung (14) unter Verwendung der Kreuzkorrelationsfunktion und der Autokorrelationsfunktion gewonnen wurde.
Ein Pulskodierer 225 kodiert die Amplitude gi und die Lage mi des Mehrfachpulses in dem repräsentativen Intervall mit einer vorgegebenen Anzahl von Bits und gibt sie an den Multiplexer 260 aus. Gleichzeitig dekodiert der Pulskodierer 225 den kodierten Mehrfachpuls und gibt ihn an den Addierer 235 aus.
Der Addierer 235 addiert den dekodierten Mehrfachpuls zu dem vom Prädiktionskoeffizientenrechner 206 ausgegebenen Prädiktionslautquellesignal v'(n), um so ein Lautquellesignal d(n) in dem repräsentativen Intervall zu erhalten.
Wie in der Zusamenfassung beschrieben, berechnet der Verstärkung/Phasenkorrekturrechner 270 einen Verstärkungskorrekturkoeffizienten ck und einen Phasenkorrekturkoeffizienten dk der Lautquelle d(n) in dem repräsentativen Intervall und gibt diese aus, um so ein Lautquellesignal in einem anderen Tonhöhenintervall k in dem gleichen Rahmen zu reproduzieren. Hinsichtlich einer detaillierten Beschreibung dieses Verfahrens sei auf Referenz 1 hingewiesen.
Ein Kodierer 230 kodiert den Verstärkungskorrekturkoeffizienten ck und den Phasenkorrekturkoeffizienten dk mit einer vorgegebenen Anzahl von Bits und gibt sie an den Multiplexer 260 aus. Außerdem dekodiert sie der Kodierer 230 und gibt die dekodierten Werte an den Schaltkreis 283 zur Reproduktion der Antriebslautquelle aus.
Der Schaltkreis 283 zur Reproduktion der Antriebslautquelle unterteilt in gleicher Weise wie der Subrahmenunterteiler 195 die Rahmen nach gemittelten Tonhöhenperioden T' und erzeugt das Lautquellesignal d(n) in einem repräsentativen Intervall. Unter Verwendung des Lautquellesignals und der dekodierten Verstärkungs- und Phasenkorrekturkoeffizienten in dem repräsentativen Intervall reproduziert der Schaltkreis 283 ein Antriebslautquellesignal v(n) des gesamten Rahmens in anderen Tonhöhenintervallen als dem repräsentativen Intervall gemäß der folgenden Gleichung:
v(n) = Ck d(n-T'-dk)+d(n) ... (15)
Das Synthetisierungsfilter 281 empfängt das reproduzierte Antriebslautquellesignal v(n) und den linearen Prädiktionskoeffizienten ai' und gewinnt ein zusammengesetztes Ein- Rahmen-Sprachsignal. Außerdem berechnet das Filter 281 ein Ein-Rahmen-Einflußsignal, das den nächsten Rahmen beeinflußt, und gibt es an den Subtraktor 190 aus. Hinsichtlich des Verfahrens zum Berechnen des Einflußsignals sei auf Referenz 3 hingewiesen.
Der Multiplexer 260 koppelt und gibt die Kodes für den Prädiktionskoeffizienten, für die Periode, für die Amplitude und für die Lage des Multipulses in dem repräsentativen Intervall, die Kodes für die Verstärkungs- und Phasenkorrekturkoeffizienten und für die gemittelte Tonhöhenperiode und den Kode für den K-Parameter aus.
Die vorstehende Beschreibung steht in Verbindung mit der Senderseite gemäß der ersten Ausführungsform der vorliegenden Erfindung.
Auf der Dekodierungsseite empfängt über einen Anschluß 285 ein Demultiplexer 290 die zusammengekoppelten Kodes und trennt den Kode für den Mehrfachpuls, die Kodes für die Verstärkungs- und Phasenkorrekturkoeffizienten, die Kodes für die Prädiktion und für die Periode, den Kode für die gemittelte Tonhöhenperiode und den Kode für den K-Parameter voneinander und gibt sie aus.
Ein K-Parameter/Tonhöhen-Dekodierer 330 dekodiert die Kodes für den K-Parameter und die Tonhöhenperiode und gibt die dekodierte Tonhöhenperiode T' an einen Schaltkreis 340 zur Reproduktion der Antriebslautquelle aus.
Ein Pulsdekodierer 300 dekodiert den Kode für den Mehrfachpuls, erzeugt einen Mehrfachpuls in einem repräsentativen Intervall und gibt ihn an einen Addierer 335 aus.
Der Addierer 335 addiert den Mehrfachpuls vom Pulsdekodierer 300 zu einem Prädiktionslautquellesignal v'(n) von einem Prädiktionsschaltkreis 345, um so ein Lautquellesignal d(n) zu erhalten.
Ein Verstärkung/Phasenkorrekturkoeffizienten-Dekodierer empfängt die Kodes für die Verstärkung- und Phasenkorrekturkoeffizienten, dekodiert sie, und gibt die gewonnenen Werte aus.
Ein Koeffizientendekodierer 325 dekodiert die Kodes für den Prädiktionskoeffizienten und für die Periode, um einen Koeffizienten b' und eine Periode M' zu erhalten, und gibt sie aus.
Der Prädiktionsschaltkreis 345 berechnet ein Prädiktionslautquellesignal v'(n) von dem Antriebslautquellesignal v(n) des vorhergehenden Rahmens unter Verwendung der Werte b' und M' in Übereinstimmung mit Gleichung (13) und gibt es an den Addierer 335 aus.
Der Schaltkreis 340 zur Reproduktion der Antriebslautquelle empfängt die Ausgabe vom Addierer 335, die dekodierte Tonhöhenperiode T', den dekodierten Verstärkungskorrekturkoeffizienten und den dekodierten Phasenkorrekturkoeffizienten. Anschließend reproduziert der Schaltkreis 340 durch die gleiche Operation, wie die vom Schaltkreis 283 zur Reproduktion der Antriebslautquelle auf der Senderseite durchgeführte, das Ein-Rahmen-Antriebslautquellesignal v(n) und gibt es aus.
Ein Synthetisierungsfilter 350 empfängt das reproduzierte Ein-Rahmen-Antriebslautquellesignal und den linearen Prädiktionskoeffizienten ai', berechnet eine synthetisierte Ein- Rahmen-Sprache x(n) und gibt diese über einen Anschluß 360 aus.
Die vorstehende Beschreibung steht in Verbindung mit der Empfangsseite gemäß der ersten Ausführungsform der vorliegenden Erfindung.
Fig. 2 zeigt die zweite Ausführungsform der vorliegenden Erfindung. Die gleichen Bezugszeichen in Fig. 2 bezeichnen die gleichen Teile wie in Fig. 1, und deren Beschreibung wird weggelassen.
In dieser Ausführungsform wird ein optimaler Kodevektor aus einem Kodeverzeichnis 520 in bezug auf ein entsprechend Gleichung (1) bis (4) und (14) berechnetes Prädiktionsdifferenzsignal ausgewählt, und eine Verstärkung g des Kodevektors wird berechnet. In diesem Fall wird ein Kodevektor c(n) ausgewählt, und die Verstärkung g wird in bezug auf einen aus Gleichung (14) gewonnenen Wert ew(n) berechnet, um so Gleichung (8) zu minimieren. Angenommen wird, daß die Anzahl der Dimensionen eines Kodevektors des Kodeverzeichnisses durch L gegeben ist und der Typ des Kodevektors 2B ist. Außerdem wird angenommen, daß das Kodeverzeichnis wie in Referenz 2 aus Gaußschen Zufallssignalen besteht.
Ein Kreuzkorrelationsrechner 505 berechnet eine Kreuzkorrelationsfunktion Φ und eine Autokorrelationsfunktion R gemäß folgenden Gleichungen:
Φ = ew(n) w(n) ... (16)
R = w(n) w(n) ... (17)
wobei ew(n) und w(n) gemäß Gleichung (10) und (11) berechnet werden. Außerdem entspricht Gleichung (16) bzw. (17) dem Zähler bzw. Nenner der Gleichung (9). Berechnungen auf der Basis von Gleichung (16) und (17) werden für alle Kodevektoren durchgeführt, und die Werte von Φ und R jedes Kodevektors werden an einen Kodeverzeichnisselektor 500 ausgegeben.
Der Kodeverzeichnisselektor 500 wählt einen Kodevektor, der den zweiten Term von Gleichung (12) maximiert. Der zweite Term von Gleichung (12) kann wie folgt umgeschrieben werden:
D = Φ2/R ...(18)
Deshalb wird ein Kodevektor gewählt, der Gleichung (18) maximiert. Die Verstärkung g des gewählten Kodevektors kann durch folgende Gleichung berechnet werden:
g = Φ/R ...(19)
Der Kodeverzeichnisselektor 500 gibt die Daten für den Index des ausgewählten Kodeverzeichnisses an einen Multiplexer aus und gibt die berechnete Verstärkung g an einen Verstärkungskodierer 510 aus.
Der Verstärkungskodierer 510 quantisiert die Verstärkung mit einer vorgegebenen Anzahl von Bits und gibt den Kode an den Multiplexer 260 aus. Unter Verwendung eines dekodierten Wertes g' gewinnt gleichzeitig der Kodierer 510 gemäß folgender Gleichung ein Lautquellesignal z(n) auf der Grundlage des ausgewählten Kodeverzeichnisses und gibt es an einen Addierer 525 aus:
z(n) = g' c(n) ...(20)
Der Addierer 525 addiert gemäß der folgenden Gleichung ein aus Gleichung (13) gewonnenes Prädiktionslautquellesignal v'(n) zum Wert z(n), um in dem repräsentativen Intervall ein Lautquellesignal d(n) zu erhalten, und gibt es an einen Antriebslautquelledekodierer 283 und einen Verstärkung/Phasenkorrekturrechner 270 aus:
d(n) = v'(n) + z(n) ...(21)
Die vorstehende Beschreibung steht im Verbindung mit der Senderseite gemäß der zweiten Ausführungsform der vorliegenden Erfindung.
Die Empfangsseite des Systems gemäß der zweiten Ausführungsform wird nachstehend beschrieben. Ein Verstärkungsdekodierer 530 dekodiert den Kode für die Verstärkung und gibt eine dekodierte Verstärkung g' aus. Ein Generator 540 empfängt den Kode für den Index des gewählten Kodeverzeichnisses und wählt in Übereinstimmung mit dem Index einen Kodevektor c(n) aus einem Kodeverzeichnis 520 aus. Der Generator 540 erzeugt dann unter Verwendung der dekodierten Verstärkung g' gemäß Gleichung (20) ein Lautquellesignal z(n) und gibt es an einen Addierer 550 aus.
Der Addierer 550 führt die gleiche Operation durch, wie der Addierer auf der Senderseite durchführt, um so in dem repräsentativen Intervall durch Addieren des Werts z(n) zu einem von einem Prädiktionsschaltkreis 345 ausgegebenen Prädiktionslautquellesignal v'(n) ein Lautquellesignal d(n) zu gewinnen, und gibt es an einen Schaltkreis 340 zur Reproduktion der Antriebslautquelle aus.
Die vorstehende Beschreibung steht in Verbindung mit der Empfangsseite gemäß der zweiten Ausführungsform der vorliegenden Erfindung.
Die vorstehend beschriebenen Ausführungsformen sind lediglich Beispiele der vorliegenden Erfindung, und verschiedenen Abwandlungen können vorgenommen werden.
In der ersten Ausführungsform werden die Amplitude und Lage des in bezug auf ein Prädiktionsdifferenzsignal in dem repräsentativen Intervall gewonnenen Mehrfachpulses skalar quantisiert (SQed). Um jedoch die Informationsmenge zu verringern, können diese Werte vektoriell quantisiert (VQed) werden. Beispielsweise kann nur die Lage vektoriell guantisiert werden, während die Amplitude skalar quantisiert wird, oder die Amplitude wird skalar quantisiert, während die Lage vektoriell quantisiert wird. Alternativ dazu können sowohl Amplitude als auch Lage vektoriell quantisiert werden. Hinsichtlich einer detaillierten Beschreibung des Verfahrens zur vektoriellen Quantisierung der Lage sei z.B. auf R. Zinser et al., "4800 und 7200 bit/sec Hybrid Codebook Multipulse Coding," (ICASSP, pp. 747-750,1989) hingewiesen (Referenz 6).
Ferner werden in der ersten Ausführungsform der Verstärkungskorrekturkoeffizient ck und der Phasenkorrekturkoeffizient dk in anderen Tonhöhenintervallen als dem repräsentativen Inervall gewonnen und übertragen. Jedoch kann die dekodierte gemittelte Tonhöhenperiode T' unter Verwendung der angrenzenden Tonhöhenperiode für jedes Tonhöhenintervall interpoliert werden, so daß die Übertragung eines Phasenkorrekturkoeffizienten unterbleiben kann. Anstelle einer Übertragung eines Verstärkungskorrekturkoeffizienten in jedem Tonhöhenintervall kann außerdem ein in jedem Tonhöhenintervall gewonnener Verstärkungskorrekturkoeffizient durch eine Kurve kleinster Quadrate oder eine Linie kleinster Quadrate angenähert werden, und eine Übertragung kann durch Kodierung des Koeffizienten der Kurve oder der Linie durchgeführt werden. Diese Verfahren können in jedweder Kombination verwendet werden. Mit diesen Anordnungen kann die Informationsmenge zur Übertragung der Korrekturinformation verringert werden.
Anstelle der Gewinnung eines Phasenkorrekturkoeffizienten in jedem Tonhöhenintervall, kann ein linearer Phasenterm τ von einem Endabschnitt eines Rahmens gewonnen werden, um so jedem Tonhöhenintervall zugeordnet zu werden, wie z.B. in Ono und Ozawa et al., "2,4 kbps Pitch Prediction Multi-pulse Speech Coding", Proc. ICASSP 54.9, 1988) veröffentlicht ist (Referenz 7). Gemäß einem anderen Verfahren wird ein in jedem Tonhöhenintervall gewonnener Phasenkorrekturkoeffizient durch eine Linie kleinster Quadrate oder eine Kurve kleinster Quadrate angenähert, und eine Übertragung wird durch Kodierung des Koeffizienten der Linie oder der Kurve durchgeführt.
Überdies können in der ersten Ausführungsform der vorliegenden Erfindung verschiedene Lautquellesignale in Übereinstimmung mit den Merkmalen eines Ein-Rahmen-Sprachsignals wie in Referenz 1 verwendet werden. Beispielsweise werden Sprachsignale in Vokal- Nasal-, Reibe- und Explosivlautsignale klassifiziert, und die Anordnung der ersten Ausführungsform kann in einem Vokallautintervall verwendet werden.
In der ersten und zweiten Ausführungsform wird ein K- Parameter als Spektrumparameter kodiert, und eine LPC-Analyse wird als Analyseverfahren verwendet. Jedoch können als Spektrumparameter andere bekannte Parameter wie LSP, LPC- Cepstrum, Cepstrum, verbessertes Cepstrum, allgemeines Cepstrum und Melcepstrum verwendet werden. Ein optimales Analyseverfahren kann für jeden Parameter verwendet werden.
Ferner wird, wenn eine Prädiktion durchzuführen ist, in der ersten und zweiten Ausführungsform ein repräsentatives Intervall auf ein vorgegebenes Tonhöhenintervall in einem Rahmen festgelegt. Jedoch kann eine Prädiktion in jedem Tonhöhenintervall in einem Rahmen durchgeführt werden, um ein Lautquellesignal in bezug auf ein vorgegebenes Differenzsignal zu berechnen, und Verstärkungs- und Phasenkorrekturkoeffizienten in anderen Tonhöhenintervallen werden berechnet. Ferner wird eine gewichtete Lautstärkedifferenz zwischen einem durch vorstehende Operation reproduzierten Sprachsignal und einem Eingangssignal berechnet, und ein Tonhöhenintervall, das die Lautstärkedifferenz minimiert, wird als repräsentatives Intervall ausgewählt. Hinsichtlich einer detaillierten Beschreibung dieses Verfahrens sei auf Referenz 1 hingewiesen. Obwohl der Verarbeitungsaufwand erhöht ist und die Information über die Lage des repräsentativen Intervalls zusätzlich übertragen werden muß, werden mit dieser Anordnung die Eigenschaften des Systems weiter verbessert.
In dem Subrahmenunterteiler 195 wird ein Rahmen in Tonhöhenintervalle unterteilt, von denen jedes die gleiche Länge wie eine Tonhöhenperiode hat. Jedoch kann ein Rahmen in Tonhöhenintervalle unterteilt werden, wobei jedes eine vorgegebene Länge (z.B. 5 ms) hat. Obwohl keine Tonhöhenperiode extrahiert werden muß und der Verarbeitungsaufwand verringert wird, wird mit dieser Anordnung die Lautqualität leicht verschlechtert.
Um den Verarbeitungsaufwand zu verringern, kann ferner auf der Senderseite die Berechnung eines Einflußsignals unterbleiben. Mit diesem Verzicht können auf der Senderseite der Schaltkreis 283 zur Reproduktion der Antriebslautquelle, das Synthetisierungsfilter 281 und der Subtraktor 190 weggelassen werden, die Lautqualität ist jedoch verschlechtert.
Um die Lautqualität durch Formung des Quantisierungsrauschens zu verbessern, kann ein adaptives Nachfilter, das mindestens auf eine Tonhöhen- oder Spektrumeinhüllende anspricht, an den Ausgangsanschluß des Synthetisierungsfilters an der dekodierenden Seite angeschlossen werden. Hinsichtlich der Anordnung des adaptiven Nachfilters sei z.B. auf Kroon et al., "A Class of Analysis-by-synthesis Predictive Coders for High Quality Speech Coding at Rates between 4,8 und 16 kb/s," (IEEE JSAC, Bd. 6,2, 353-363, 1988) (Referenz 8) hingewiesen.
Wie auf dem Gebiet der digitalen Signalverarbeitung bekannt ist, entspricht die Autokorrelationsfunktion bzw. die Kreuzkorrelationsfunktion einem Leistungsdichtespektrum bzw. einem Kreuzleistungsdichtespektrum auf der Frequenzachse, und kann damit auf der Grundlage dieser Spektren berechnet werden. Hinsichtlich des Verfahrens zum Berechnen dieser Funktionen sei auf Oppenheim et al., "Digital Signal Processing" (Prentice-Hall, 1975) (Referenz 9) hingewiesen.
Wie vorstehend beschrieben, kann gemäß der vorliegenden Erfindung ein Lautquellesignal in einem repräsentativen Intervall sehr wirkungsvoll durch Unterteilung eines Rahmens in Einheiten von Tonhöhenperioden, wobei die Prädiktion für ein Tonhöhenintervall (repräsentatives Intervall) auf der Grundlage eines vorherigen Lautquellesignals durchgeführt wird, und durch geeignete Darstellung eines Prädiktionfehlers durch einen Mehrfachpuls oder einen Lautquellesignalvektor (Kodevektor) dargestellt werden. Zusätzlich werden in anderen Tonhöhenintervallen des gleichen Rahmens die Verstärkung und Phase des Lautquellesignals in dem repräsentativen Intervall korrigiert, um das Lautquellesignal des Rahmens zu erhalten, so daß das Lautquellesignal der Sprache des Rahmens in geeigneter Weise durch eine kleine Menge an Lautquelleinformation dargestellt werden kann. Deshalb kann gemäß der vorliegenden Erfindung dekodierte/reproduzierte Sprache in einer im Vergleich zum herkömmlichen Verfahren ausgezeichneten Lautqualität erhalten werden.

Claims

1. Sprachkodierungsverfahren mit folgenden Schritten: Gewinnung eines eine Spektrumeinhüllende repräsentierenden Spektrumparameters und eines eine Tonhöhe repräsentierenden Tonhöhenparameters aus einem diskreten Eingabesprachsignal;

Unterteilung eines Rahmenintervalls in Subintervalle in Übereinstimmung mit dem Tonhöhenparameter;

Gewinnung eines Lautquellesignals in einem der Subintervalle;

Gewinnung und Ausgabe von Korrekturinformation zum Korrigieren mindestens einer Amplitude und einer Phase des Lautquellesignals in anderen Subintervallen im Rahmen;

gekennzeichnet dadurch, daß der Schritt zur Gewinnung des Lautquellesignals aufweist:

(a) Gewinnung eines Differenzsignals durch Durchführung einer Tonhöhenprädiktion auf der Grundlage eines vorherigen Lautquellesignals;

(b) Gewinnung eines Mehrfachpulses in bezug auf das Differenzsignal; und

(c) Addition des Mehrfachpulses zum Tonhöhenprädiktionssignal.

2. Sprachkodierungsverfahren mit folgenden Schritten: Gewinnung eines eine Spektrumeinhüllende repräsentierenden Spektrumparameters und eines eine Tonhöhe repräsentierenden Tonhöhenparameters aus einem diskreten Eingabesprachsignal;

Gewinnung eines Lautquellesignals in einem der Subintervalle;

(b) Auswahl eines Vektors des Lautguellesignals in bezug auf das Differenzsignal aus einem Kodeverzeichnis, in dem Lautquellesignalvektoren gespeichert sind; und

(c) Addieren des ausgewählten Vektors zum Tonhöhenprädiktionssignal.

3. Vorrichtung zum Ausführen eines Sprachkodierungssystems nach Anspruch 1 oder 2.