DE69023402T2 - Verfahren zur Sprachkodierung und -dekodierung. - Google Patents

Verfahren zur Sprachkodierung und -dekodierung.

Info

Publication number
DE69023402T2
DE69023402T2 DE69023402T DE69023402T DE69023402T2 DE 69023402 T2 DE69023402 T2 DE 69023402T2 DE 69023402 T DE69023402 T DE 69023402T DE 69023402 T DE69023402 T DE 69023402T DE 69023402 T2 DE69023402 T2 DE 69023402T2
Authority
DE
Germany
Prior art keywords
pitch
sound source
signal
source signal
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69023402T
Other languages
English (en)
Other versions
DE69023402D1 (de
Inventor
Kazunori Ozawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp, Nippon Electric Co Ltd filed Critical NEC Corp
Publication of DE69023402D1 publication Critical patent/DE69023402D1/de
Application granted granted Critical
Publication of DE69023402T2 publication Critical patent/DE69023402T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

  • Die vorliegende Erfindung betrifft ein Verfahren zur Sprachkodierung und -dekodierung zum Kodieren eines Sprachsignals mit hoher Qualität bei einer niedrigen Bitrate, insbesondere bei 4,8 kb/s oder weniger, durch einen verhältnismäßig kleinen Verarbeitungsaufwand.
  • Als Verfahren zum Kodieren eines Sprachsignals bei einer niedrigen Bitrate von ungefähr 4,8 kb/s oder weniger sind Sprachkodierungsverfahren bekannt, die beispielsweise in der JP-A-58100/90 (Referenz 1) und in M. Schroeder und B. Atal, "Code-excited linear prediction: High quality speech at very low bit rates," ICASSP, pp. 937-940, 1985 (Referenz 2) offenbart sind.
  • Nach dem Verfahren in Referenz 1 werden auf der Senderseite ein Spektrumparameter, der die Spektrumcharakteristik eines Sprachsignals repräsentiert, und ein Tonhöhenparameter, der dessen Tonhöhe repräsentiert, aus einem Sprachsignal jedes Rahmens extrahiert. Sprachsignale werden in mehrere Signaltypen (z.B. Vokal-, Explosiv-, Reibelautsignal) unter Verwendung von akustischen Merkmalen klassifiziert. Ein Ein-Rahmen- Lautquellesignal in einem Vokallautintervall wird durch eine verbesserte Tonhöheninterpolation auffolgende Weise dargestellt. Eine Signalkomponente in einem Tonhöhenintervall (repräsentatives Intervall) von mehreren Tonhöhenintervallen, die durch Unterteilung eines Rahmens erhalten werden, wird durch einen Mehrfachpuls dargestellt. In anderen Tonhöhenintervallen im gleichen Rahmen werden Amplituden- und Phasenkorrekturkoeffizienten zum Korrigieren der Amplitude und Phase des Mehrfachpulses in dem repräsentativen Intervall in Einheiten des Tonhöhenintervalls gewonnen. Anschließend werden die Amplitude und die Lage des Mehrfachpulses in dem repräsentativen Intervall, die Amplituden- und Phasenkorrekturkoeffizienten in anderen Tonhöhenintervallen und der Spektrum- und Tonhöhenparameter übertragen. In einem Explosivlautsignal wird ein Mehrfachpuls in dem gesamten Rahmen erhalten. In einem Reibelautintervall wird ein Typ Rauschsignal aus einem Kodeverzeichnis ausgewählt, das aus vorgegebenen Typen von Rauschsignalen besteht, um so die unterschiedliche Stärke zwischen einem durch Synthetisierung eines Rauschsignals gewonnenen Signals und dem Eingabesprachsignal zu minimieren, und eine optimale Verstärkung wird berechnet. Als Ergebnis werden ein Index, der den Typ des Rauschsignals repräsentiert, und die Verstärkung übertragen. Eine Beschreibung in Zusammenhang mit der Empfangsseite unterbleibt.
  • In dem herkömmlichen, in Referenz 1 offenbarten Verfahren kann in bezug auf eine weibliche Sprecherin mit einer kurzen Tonhöhenperiode, da eine große Anzahl von Tonhöhenintervallen in einem Rahmen vorhanden sind, eine verbesserte Tonhöheninterpolation wirkungsvoll ausgeführt werden, und entsprechend kann eine ausreichende Anzahl von Pulsen für den gesamten Rahmen erhalten werden. Wenn beispielsweise die Rahmenlänge 20 ms beträgt, die Tonhöhenperiode 4 ms und die Anzahl der Pulse in einem typischen Intervall 4 beträgt, können entsprechend 20 Pulse für den gesamten Rahmen erhalten werden.
  • Da jedoch in bezug auf einen männlichen Sprecher mit einer langen Tonhöhenperiode eine ausreichende Anzahl von Pulsen für den gesamten Rahmen nicht in entsprechender Weise erhalten werden kann, zeigt eine verbesserte Tonhöheninterpolation keinen zufriedenstellenden Erfolg. Deshalb wird sich ein Problem hinsichtlich der Lautqualität ergeben. Wenn beispielsweise die Tonhöhenperiode 10 ms beträgt und die Anzahl der Pulse pro Tonhöhe 4 ist, ist die Anzahl der Pulse in dem gesamten Rahmen 8, die im Vergleich zur weiblichen Sprecherin sehr klein ist. Um die Anzahl der Pulse im gesamten Rahmen zu erhöhen, muß die Anzahl der Pulse pro Tonhöhe erhöht werden. Wenn jedoch diese Anzahl erhöht wird, wird die Bitrate erhöht. Aus diesem Grund ist es schwierig, die Anzahl der Pulse zu erhöhen.
  • Wenn außerdem die Bitrate von 4,8 kb/s auf 3 kb/s oder 2,4 kb/s verringert wird, muß die Anzahl der Pulse pro Tonhöhe auf 2 bis 3 verringert werden. Daher wird sich ein schwierigeres Problem stellen als das oben beschriebene. Bei einer solch niedrigen Bitrate ist die Leistung der verbesserten Tonhöheninterpolation, selbst für eine weibliche Sprecherin, unzureichend.
  • In dem in Referenz 2 offenbarten CELP-Verfahren muß, wenn die Bitrate unter 4,8 kb/s gesenkt wird, die Anzahl der Bits eines Kodeverzeichnisses verringert werden, woraus sich eine abrupte Verschlechterung der Lautqualität ergibt. Beispielsweise wird bei 4,8 kb/s allgemein ein 10-Bit Kodeverzeichnis für einen Subrahmen von 5 ms verwendet. Jedoch muß bei 2,4 kb/s die Anzahl der Bits des Kodeverzeichnisses auf 5 verringert werden, unter der Voraussetzung, daß die Periode des Subrahmens von 5 ms beihalten wird. Da 5 Bits als Anzahl von Bits zu wenig sind, um verschiedene Arten von Lautquellesignalen zu erfassen, verschlechtert sich bei einer Bitrate von weniger als 4,8 kb/s abrupt die Lautqualität.
  • Ferner zum Verfahren nach Referenz 1 offenbart die IEEE/IEICE GLOBAL TELECOMMUNICATION CONFERENCE, Tokio, 15.-18. Nov. 1987, Bd. 2, Seite 752-756, IEEE, New York, US; S.Ono et al.:"2,4 kBPs pitch interpolation multi-pulse speech coding" ein Tonhöheninterpolationsverfahren.
  • Es ist eine Aufgabe der vorliegenden Erfindung, ein Verfahren zur Sprachkodierung und -dekodierung bereitzustellen, das eine Sprachkodierung und -dekodierung in hoher Qualität bei 4,8 kb/s oder weniger mit einem verhältnismäßig kleinen Verarbeitungsaufwand durchführt. Diese Aufgabe wird mit den Merkmalen der Ansprüche gelöst.
  • Ein Sprachkodierungsverfahren wie beschrieben weist die Schritte auf:
  • Gewinnung eines Spektrumparameters, der eine Spektrumeinhüllende repräsentiert, und eines Tonhöhenparameters, der eine Tonhöhe repräsentiert, aus einem diskreten Eingabesprachsignal, Unterteilung eines Rahmenintervalls in Subintervalle in Übereinstimmung mit dem Tonhöhenparameter, Gewinnung eines Lautquellesignals in einem der Subintervalle durch Gewinnung eines Mehrfachpulses in bezug auf ein Differenzsignal, das durch Durchführung einer Prädiktion auf der Grundlage eines vorherigen Lautquellesignals gewonnen wird, und Gewinnung und Ausgabe von Korrekturdaten zum Korrigieren mindestens einer Amplitude und einer Phase des Lautquellesignals in anderen Tonhöhenintervallen im Rahmen.
  • Eine Folge von Verarbeitungsschritten, die auf dem Verfahren zur Sprachkodierung- und -dekodierung der vorliegenden Erfindung basieren, wird nachstehend beschrieben.
  • In einem stimmhaften Intervall mit periodischen Eigenschaften für jede Tonhöhe, wird ein eine Tonhöhenperiode repräsentierender Tonhöhenparameter im voraus aus einem Sprachsignal im Rahmen gewonnen. Beispielsweise wird das Rahmenintervall einer in Fig. 3(a) gezeigten Sprachwelle in mehrere Tonhöhenintervalle (Subrahmen) in Einheiten von Tonhöhenperioden, wie in Fig. 3(b) gezeigt, unterteilt. Ein Mehrfachpuls mit einer vorgegebenen Anzahl von Pulsen wird in bezug auf ein Differenzsignal gewonnen, das durch Durchführung einer Prädiktion in einem Tonhöhenintervall (repräsentativen Intervall) der Tonhöhenintervalle unter Verwendung eines vorherigen Lautquellesignals gewonnen wird. Anschließend werden Verstärkungs- und Phasenkorrekturkoeffizienten zum Korrigieren der Verstärkung und Phase des Mehrfachpulses in dem repräsentativen Intervall für andere Subrahmen im gleichen Rahmen gewonnen.
  • Ein Verfahren zur Durchführung der Tonhöhenprädiktion wird nachstehend beschrieben. Es sei angenommen, daß ein in dem vorausgehenden Rahmen reproduziertes Antriebslautquellesignal durch v(n) beschrieben wird, und ein Prädiktionskoeffizient und eine Periode jeweils durch b und M beschrieben werden. Außerdem sei angenommen, daß ein Intervall in Fig. 3(c) ein repräsentatives Intervall des aktuellen Rahmens ist, und ein Sprachsignal in diesem Interavll durch x&sub1; (n) beschrieben wird. Der Koeffizient b und die Periode M werden berechnet, um die Differenz der folgenden Gleichung zu minimieren:
  • E = [{x&sub1;(n) - b v(n-M)*h(n)}*w(n))² ...(1)
  • wobei w(n) die Impulsantwort eines Wahrnehmungsgewichtsfilters (für dessen detaillierte Beschreibung sei auf die Japanische Patentanmeldung Nr. 57-231605, offenbart als offengelegte Patentanmeldung Nr. 59-116794 (Referenz 3) und dergleichen hingewiesen), h(n) die Impulsantwort eines Synthetisierungsfilters, gebildet aus einem Spektrumparameter, der aus der Sprache des aktuellen Rahmens durch bekannte lineare Prädiktionsanalyse (LPC) (für deren detaillierte Beschreibung sei auf Referenz 3 und dergleichen hingewiesen) gewonnen wird, und * die Faltungsoperation ist.
  • Um Gleichung (1) zu minimieren, wird Gleichung (1) partiell nach b differenziert und 0 gesetzt, um so die folgende Gleichung zu erhalten:
  • Einsetzen von Gleichung (2) in Gleichung (1) ergibt:
  • Da der erste Term der Gleichung (4) konstant ist, kann Gleichung (1) durch Maximierung des zweiten Terms der Gleichung (4) minmiert werden. Der zweite Term der Gleichung (4) wird für verschiedene Werte von M berechnet, und der Wert von M, der den zweiten Term maximiert, wird erhalten. Der Wert von b wird dann aus Gleichung (2) berechnet.
  • Eine Tonhöhenprädiktion wird in bezug auf das Intervall unter Verwendung der gewonnenen Werte b und M gemäß der folgenden Gleichung durchgeführt, um so ein Differenzsignal e(n) zu erhalten:
  • e(n) = x&sub1;(n) - v(n-M)*h(n) ...(5)
  • Fig. 3(c) zeigt ein Beispiel für e(n).
  • Anschließend wird ein Mehrfachpuls mit einer vorgegebenen Anzahl von Pulsen in bezug auf das Differenzsignal e(n) gewonnen. Als praktisches Verfahren zur Gewinnung eines Mehrfachpulses ist ein Verfahren unter Verwendung einer Kreuzkorrelationsfunktion Φxh und einer Autokorrelationsfunktion Rhh bekannt. Da dieses Verfahren beispielsweise in Referenz 3 und in Araseki, Ozawa, Ono und Ochiai, "Multi-pulse Excited Speech Coder Based on Maximum Cross-Correlation Search A logarithm", GLOBECOM 83, IEEE Global Tele-communications Conference, Votragsnummer 23.3.1983 (Referenz 4) offenbart ist, unterbleibt eine Beschreibung dieses Verfahrens. Fig. 3(d) zeigt den Mehrfachpuls, der im Intervall gewonnen wird, als ein Beispiel, in dem zwei Pulse gewonnen werden.
  • Als Ergebnis wird ein Lautquellesignal d(n) im Interavll gemäß folgender Gleichung gewonnen:
  • d(n) = b v(n-M) + gi.δ(n-mi) ...(6)
  • für δ(n-mj) =
  • wobei gi und mi Amplitude und Lage eines i-ten Pulses des Mehrfachpulses sind.
  • In anderen Tonhöhenintervallen als dem repräsentativen Intervall werden die Verstärkungs- und Phasenkorrekturkoeffizienten zum Korrigieren der Verstärkung und der Phase des Lautquellesignals in dem repräsentativen Intervall in Einheiten von Tonhöhen-Intervallen berechnet. Wenn ein Verstärkungskorrekturkoeffizient bzw. ein Phasenkorrekturkoeffizient im j- ten Tonhöhenintervall als cj bzw. dj bezeichnet wird, können diese Werte berechnet werden, um die folgende Gleichung zu minimieren:
  • E = [{xj(n)-cj d(n-T'-d&sub3;)*h(n)}*w(n)]&sub2; ...(7)
  • Da die Lösung obiger Gleichung detailliert in Referenz 3 und dergleichen beschrieben ist, unterbleibt ihre Beschreibung. Ein Lautquellesignal des Rahmnes wird durch Gewinnung von Verstärkungs- und Phasenkorrekturkoeffizienten in jeweils anderen Tonhöhenintervallen als dem repräsentativen Tonhöhenintervall gemäß Gleichung (7) gewonnen.
  • Fig. 3(e) zeigt als Beispiel das Antriebslautquellesignal des aktuellen Rahmens, das durch Gewinnung der Verstärkungsund Phasenkorrekturkoeffizienten in anderen Tonhöhenintervallen als dem Intervall reproduziert wird.
  • In diesem Fall ist ein repräsentatives Intervall fest mit dem Tonhöhenintervall verbunden. Jedoch kann ein Tonhöhenintervall, in dem die Lautstärkedifferenz zwischen der eingegebenen Sprache eines Rahmens und der synthetisierten Sprache minimiert ist, durch Überprüfen mehrerer Tonhöhenintervalle im Rahmen als repräsentatives Intervall ausgewählt werden. Hinsichtlich einer detaillierten Beschreibung dieses Verfahrens sei auf Referenz 1 und dergleichen hingewiesen.
  • Eine als Lautquelleinformation für jeden Rahmen zu übertragende Information beinhaltet die Lage eines repräsentativen Tonhöhenintervalls in einem Rahmen (nicht erforderlich, wenn ein repräsentatives Intervall festgelegt ist); den Prädiktionskoeffizienten b, die Periode M, die Amplitude und Lage des Mehrfachpulses in dem repräsentativen Intervall; und die Verstärkungs- und Phasenkorrekturkoeffizienten in anderen Tonhöhenintervallen im gleichen Rahmen.
  • Gemäß dem zweiten Gesichtspunkt der vorliegenden Erfindung wird anstelle der Gewinnung eines Mehrfachpulses in bezug auf ein durch Durchführung einer Prädiktion in einem repräsentativen Intervall gewonnenes Differenzsignal e(n) eine Vektorquantisierung unter Verwendung eines Kodeverzeichnisses durchgeführt. Dieses Verfahren wird nachstehend detailliert beschrieben. Es wird angenommen, daß 2B (B ist die Anzahl der Bits einer Lautquelle) Typen von Lautquellesignalvektoren (Kodevektoren) in dem Kodeverzeichnis gespeichert sind. Wenn ein Lautquellesignalvektor im Kodeverzeichnis durch c(n) beschrieben wird, wird der Lautquellesignalvektor von dem Kodeverzeichnis so ausgewählt, daß die folgende Gleichung minimiert wird:
  • E = [{e(n)-g c(n)*h(n)}*w(n)]² ...(8)
  • wobei die Verstärkung des Lautquellesignals ist. Um Gleichung (8) zu minimieren, wird Gleichung (8) partiell nach differenziert und 0 gesetzt, um so folgende Gleichung zu erhalten:
  • wobei
  • ew(n) = e(n)*h(n) ...(10)
  • w(n) = c(n)*h(n)*w(n) ...(11)
  • Einsetzen von Gleichung (9) in Gleichung (8) ergibt:
  • Da der erste Term der Gleichung (12) konstantist, wird der zweite Term für alle Werte des Lautquellevektors c(n) berechnet, und ein Wert, der den zweiten Term maximiert, wird ausgewählt. In diesem Fall wird die Verstärkung gemäß Gleichung (9) gewonnen.
  • Das Kodeverzeichnis kann durch Lernen auf der Grundlage von Übungssignalen gebildet werden, oder kann z.B. aus Gaußschen Zufallssignalen gebildet werden. Das erstere Verfahren ist z.B. in Makhoul et al., "Vector Quantization in Speech Coding," Proc. IEEE, Bd. 73, 11, 1551-1588, 1985 (Referenz 5) beschrieben. Das letztere Verfahren ist in Referenz 2 beschrieben.
  • Fig. 1 ist ein Blockschaltbild, das ein System auf der Grundlage eines Verfahrens zur Sprachkodierung und -dekodierung gemäß der ersten Ausführungsform der vorliegenden Erfindung zeigt;
  • Fig. 2 ist ein Blockschaltbild, das ein System auf der Grundlage eines Verfahrens zur Sprachkodierung und -dekodierung gemäß der zweiten Ausführungsform der vorliegenden Erfindung zeigt; und
  • Fig. 3(a) bis 3(e) sind graphische Darstellungen zur Erklärung einer Folge von Verarbeitungsschritten auf der Grundlage des Verfahrens der vorliegenden Erfindung.
  • Fig. 1 zeigt ein System zur Ausführung eines Verfahrens zur Sprachkodierung und -dekodierung gemäß der ersten Ausführungsform der vorliegenden Erfindung.
  • Mit Bezug auf Fig 1 empfängt eine Senderseite über einen Eingangsanschluß 100 ein Sprachsignal und speichert ein Ein- Rahmen-Sprachsignal (z.B. 20 ms) in einem Pufferspeicher 110.
  • Ein LPC- und Tonhöhenrechner 130 führt eine bekannte LPC- Analyse des Ein-Rahmen-Sprachsignals durch, um einen K- Parameter, der einem vorgegebenen Grad P entspricht, als Parameter zu berechnen, der die Spektrumcharakteristiken des Ein-Rahmen-Sprachsignals repräsentiert. Hinsichtlich einer detaillierten Beschreibung dieses Verfahren zur Berechnung des K-Parameters sei auf K-Parameter-Rechner in den vorstehend beschriebenen Referenzen 1 und 3 hingewiesen. Zu beachten ist, daß ein K-Parameter mit einem PARCOR-Koeffizienten identisch ist. Eine Kode 1k, der durch Quantisierung des K-Parameters mit einer vorgegebenen Anzahl von Quantisierungsbits gewonnen wird, wird an einen Multiplexer 260 ausgegeben und wird in einen linearen Prädiktionskoeffizienten ai' (i=1 bis P) dekodiert. Der Koeffizient ai' wird dann an einen Gewichtungsschaltkreis 200, einen Impulsantwortrechner 170 und ein Synthetisierungsfilter 281 ausgegeben. Hinsichtlich Verfahren zum Kodieren des K-Parameters und zum Umwandeln des K-Parameters in den linearen Prädiktionskoeffizienten sei auf die vorstehend beschriebenen Referenzen 1 und 3 hingewiesen. Eine gemittelte Tonhöhenperiode T wird aus dem Ein-Rahmen- Sprachsignal berechnet. Für dieses Verfahren ist ein Verfahren auf der Grundlage einer Autokorrelation bekannt. Hinsichtlich einer detaillierten Beschreibung dieses Verfahren sei auf einen Tonhöhenextraktionsschaltkreis in Referenz 1 hingewiesen. Zusätzlich können andere bekannte Verfahren (z.B. das Cepstrumverfahren, das SIFT-Verfahren und das partielle Korrelationsverfahren) verwendet werden. Ein durch Quantisierung der gemittelten Tonhöhenperiode T mit einer vorgegebenen Anzahl von Bits gewonnener Kode wird an den Multiplexer 260 ausgegeben. Außerdem wird eine durch Dekodierung dieses Kodes gewonnene dekodierte Tonhöhenperiode an einen Subrahmenunterteiler 195, einen Schaltkreis 283 zur Reproduktion der Antriebslautquelle und einen Verstärkung/Phasenkorrekturrechner 270 ausgegeben.
  • Der Impulsantwortrechner 170 berechnet eine Impulsantwort hw(n) des Synthetisierungsfilters, das die Wahrnehmungsgewichtung unter Verwendung des linearen Prädiktionskoeffizienten ai' ausführt, und gibt sie an einen Autokorrelationsrechner 180 und einen Kreuzkorrelationsrechner 210 aus.
  • Der Autokorrelationsrechner 180 berechnet eine Autokorrelationsfunktion Rhh(n) der Impulsantwort und gibt sie mit einer vorgegebenen Zeitverzögerung aus. Hinsichtlich der Operationen des Impulsantwortrechners 170 und des Autokorrelationsrechners 180 sei auf Referenz 1 und 3 hingewiesen.
  • Ein Subtraktor 190 subtrahiert eine Ein-Rahmen-Komponente eines Ausgangssignals vom Synthetisierungsfilter 281 von einem Ein-Rahmen-Sprachsignal x(n) und gibt das Subtraktionsergebnis an den Gewichtungsschaltkreis 200 aus.
  • Der Gewichtungsschaltkreis 200 gewinnt ein gewichtetes Signal xw(n) durch Filtern des Subtraktionsergebnisses durch ein Wahrnehmungsgewichtfilter, dessen Impulsantwort durch w(n) beschrieben wird, und gibt es aus. Hinsichtlich des Gewichtungsverfahrens sei auf Referenz 1 und 3 und dergleichen hingewiesen.
  • Der Subrahmenunterteiler 195 unterteilt das gewichtete Signal des Rahmens bei Tonhöhenintervallen von T'.
  • Ein Prädiktionskoeffizientenrechner 206 gewinnt gemäß Gleichung (1) bis (4) einen Prädiktionskoeffizienten b und eine Periode M unter Verwendung eines vorher reproduzierten Antriebslautquellesignals v(n), der Impulsantwort hw(n) und eines der bei den Tonhöhenintervallen von T' gewichteten Signale in einem vorgegebenen repräsentativen Intervall (z.B. ein Intervall in Fig. 3(c)). Die gewonnenen Werte werden dann mit einer vorgegebenen Anzahl von Bits quantisiert, um Werte b' und M' zu erhalten. Der Prädiktionskoeffizientenrechner 206 berechnet ferner ein Prädiktionslautquellesignal v'(n) gemäß der folgenden Gleichung und gibt es an einen Prädiktionsschaltkreis 205 aus:
  • v'(n) = b' v(n-M') ...(13)
  • Der Prädiktionsschaltkreis 205 führt eine Prädiktion unter Verwendung des Signals v'(n) gemäß der folgenden Gleichung durch, um in dem repräsentativen Intervall (dem Intervall in Fig. 3(c)) ein Differenzsignal zu erhalten:
  • ev(n) = xw(n)-v'(n)*hw(n) ...(14)
  • Der Kreuzkorrelationsfunktionsrechner 210 empfängt die Werte ev(n) und hv(n), berechnet eine Kreuzkorrelationsfunktion Φxh mit einer Verzögerungszeit und gibt das Rechenergebnis aus. Hinsichtlich dieses Rechenverfahrens sei auf Referenz 1 und 3 und dergleichen hingewiesen.
  • Ein Mehrfachpulsrechner 220 berechnet eine Lage mi und eine Amplitude gi eines Mehrfachpulses in bezug auf das Differenzsignal in dem repräsentativen Intervall, das aus Gleichung (14) unter Verwendung der Kreuzkorrelationsfunktion und der Autokorrelationsfunktion gewonnen wurde.
  • Ein Pulskodierer 225 kodiert die Amplitude gi und die Lage mi des Mehrfachpulses in dem repräsentativen Intervall mit einer vorgegebenen Anzahl von Bits und gibt sie an den Multiplexer 260 aus. Gleichzeitig dekodiert der Pulskodierer 225 den kodierten Mehrfachpuls und gibt ihn an den Addierer 235 aus.
  • Der Addierer 235 addiert den dekodierten Mehrfachpuls zu dem vom Prädiktionskoeffizientenrechner 206 ausgegebenen Prädiktionslautquellesignal v'(n), um so ein Lautquellesignal d(n) in dem repräsentativen Intervall zu erhalten.
  • Wie in der Zusamenfassung beschrieben, berechnet der Verstärkung/Phasenkorrekturrechner 270 einen Verstärkungskorrekturkoeffizienten ck und einen Phasenkorrekturkoeffizienten dk der Lautquelle d(n) in dem repräsentativen Intervall und gibt diese aus, um so ein Lautquellesignal in einem anderen Tonhöhenintervall k in dem gleichen Rahmen zu reproduzieren. Hinsichtlich einer detaillierten Beschreibung dieses Verfahrens sei auf Referenz 1 hingewiesen.
  • Ein Kodierer 230 kodiert den Verstärkungskorrekturkoeffizienten ck und den Phasenkorrekturkoeffizienten dk mit einer vorgegebenen Anzahl von Bits und gibt sie an den Multiplexer 260 aus. Außerdem dekodiert sie der Kodierer 230 und gibt die dekodierten Werte an den Schaltkreis 283 zur Reproduktion der Antriebslautquelle aus.
  • Der Schaltkreis 283 zur Reproduktion der Antriebslautquelle unterteilt in gleicher Weise wie der Subrahmenunterteiler 195 die Rahmen nach gemittelten Tonhöhenperioden T' und erzeugt das Lautquellesignal d(n) in einem repräsentativen Intervall. Unter Verwendung des Lautquellesignals und der dekodierten Verstärkungs- und Phasenkorrekturkoeffizienten in dem repräsentativen Intervall reproduziert der Schaltkreis 283 ein Antriebslautquellesignal v(n) des gesamten Rahmens in anderen Tonhöhenintervallen als dem repräsentativen Intervall gemäß der folgenden Gleichung:
  • v(n) = Ck d(n-T'-dk)+d(n) ... (15)
  • Das Synthetisierungsfilter 281 empfängt das reproduzierte Antriebslautquellesignal v(n) und den linearen Prädiktionskoeffizienten ai' und gewinnt ein zusammengesetztes Ein- Rahmen-Sprachsignal. Außerdem berechnet das Filter 281 ein Ein-Rahmen-Einflußsignal, das den nächsten Rahmen beeinflußt, und gibt es an den Subtraktor 190 aus. Hinsichtlich des Verfahrens zum Berechnen des Einflußsignals sei auf Referenz 3 hingewiesen.
  • Der Multiplexer 260 koppelt und gibt die Kodes für den Prädiktionskoeffizienten, für die Periode, für die Amplitude und für die Lage des Multipulses in dem repräsentativen Intervall, die Kodes für die Verstärkungs- und Phasenkorrekturkoeffizienten und für die gemittelte Tonhöhenperiode und den Kode für den K-Parameter aus.
  • Die vorstehende Beschreibung steht in Verbindung mit der Senderseite gemäß der ersten Ausführungsform der vorliegenden Erfindung.
  • Auf der Dekodierungsseite empfängt über einen Anschluß 285 ein Demultiplexer 290 die zusammengekoppelten Kodes und trennt den Kode für den Mehrfachpuls, die Kodes für die Verstärkungs- und Phasenkorrekturkoeffizienten, die Kodes für die Prädiktion und für die Periode, den Kode für die gemittelte Tonhöhenperiode und den Kode für den K-Parameter voneinander und gibt sie aus.
  • Ein K-Parameter/Tonhöhen-Dekodierer 330 dekodiert die Kodes für den K-Parameter und die Tonhöhenperiode und gibt die dekodierte Tonhöhenperiode T' an einen Schaltkreis 340 zur Reproduktion der Antriebslautquelle aus.
  • Ein Pulsdekodierer 300 dekodiert den Kode für den Mehrfachpuls, erzeugt einen Mehrfachpuls in einem repräsentativen Intervall und gibt ihn an einen Addierer 335 aus.
  • Der Addierer 335 addiert den Mehrfachpuls vom Pulsdekodierer 300 zu einem Prädiktionslautquellesignal v'(n) von einem Prädiktionsschaltkreis 345, um so ein Lautquellesignal d(n) zu erhalten.
  • Ein Verstärkung/Phasenkorrekturkoeffizienten-Dekodierer empfängt die Kodes für die Verstärkung- und Phasenkorrekturkoeffizienten, dekodiert sie, und gibt die gewonnenen Werte aus.
  • Ein Koeffizientendekodierer 325 dekodiert die Kodes für den Prädiktionskoeffizienten und für die Periode, um einen Koeffizienten b' und eine Periode M' zu erhalten, und gibt sie aus.
  • Der Prädiktionsschaltkreis 345 berechnet ein Prädiktionslautquellesignal v'(n) von dem Antriebslautquellesignal v(n) des vorhergehenden Rahmens unter Verwendung der Werte b' und M' in Übereinstimmung mit Gleichung (13) und gibt es an den Addierer 335 aus.
  • Der Schaltkreis 340 zur Reproduktion der Antriebslautquelle empfängt die Ausgabe vom Addierer 335, die dekodierte Tonhöhenperiode T', den dekodierten Verstärkungskorrekturkoeffizienten und den dekodierten Phasenkorrekturkoeffizienten. Anschließend reproduziert der Schaltkreis 340 durch die gleiche Operation, wie die vom Schaltkreis 283 zur Reproduktion der Antriebslautquelle auf der Senderseite durchgeführte, das Ein-Rahmen-Antriebslautquellesignal v(n) und gibt es aus.
  • Ein Synthetisierungsfilter 350 empfängt das reproduzierte Ein-Rahmen-Antriebslautquellesignal und den linearen Prädiktionskoeffizienten ai', berechnet eine synthetisierte Ein- Rahmen-Sprache x(n) und gibt diese über einen Anschluß 360 aus.
  • Die vorstehende Beschreibung steht in Verbindung mit der Empfangsseite gemäß der ersten Ausführungsform der vorliegenden Erfindung.
  • Fig. 2 zeigt die zweite Ausführungsform der vorliegenden Erfindung. Die gleichen Bezugszeichen in Fig. 2 bezeichnen die gleichen Teile wie in Fig. 1, und deren Beschreibung wird weggelassen.
  • In dieser Ausführungsform wird ein optimaler Kodevektor aus einem Kodeverzeichnis 520 in bezug auf ein entsprechend Gleichung (1) bis (4) und (14) berechnetes Prädiktionsdifferenzsignal ausgewählt, und eine Verstärkung g des Kodevektors wird berechnet. In diesem Fall wird ein Kodevektor c(n) ausgewählt, und die Verstärkung g wird in bezug auf einen aus Gleichung (14) gewonnenen Wert ew(n) berechnet, um so Gleichung (8) zu minimieren. Angenommen wird, daß die Anzahl der Dimensionen eines Kodevektors des Kodeverzeichnisses durch L gegeben ist und der Typ des Kodevektors 2B ist. Außerdem wird angenommen, daß das Kodeverzeichnis wie in Referenz 2 aus Gaußschen Zufallssignalen besteht.
  • Ein Kreuzkorrelationsrechner 505 berechnet eine Kreuzkorrelationsfunktion Φ und eine Autokorrelationsfunktion R gemäß folgenden Gleichungen:
  • Φ = ew(n) w(n) ... (16)
  • R = w(n) w(n) ... (17)
  • wobei ew(n) und w(n) gemäß Gleichung (10) und (11) berechnet werden. Außerdem entspricht Gleichung (16) bzw. (17) dem Zähler bzw. Nenner der Gleichung (9). Berechnungen auf der Basis von Gleichung (16) und (17) werden für alle Kodevektoren durchgeführt, und die Werte von Φ und R jedes Kodevektors werden an einen Kodeverzeichnisselektor 500 ausgegeben.
  • Der Kodeverzeichnisselektor 500 wählt einen Kodevektor, der den zweiten Term von Gleichung (12) maximiert. Der zweite Term von Gleichung (12) kann wie folgt umgeschrieben werden:
  • D = Φ2/R ...(18)
  • Deshalb wird ein Kodevektor gewählt, der Gleichung (18) maximiert. Die Verstärkung g des gewählten Kodevektors kann durch folgende Gleichung berechnet werden:
  • g = Φ/R ...(19)
  • Der Kodeverzeichnisselektor 500 gibt die Daten für den Index des ausgewählten Kodeverzeichnisses an einen Multiplexer aus und gibt die berechnete Verstärkung g an einen Verstärkungskodierer 510 aus.
  • Der Verstärkungskodierer 510 quantisiert die Verstärkung mit einer vorgegebenen Anzahl von Bits und gibt den Kode an den Multiplexer 260 aus. Unter Verwendung eines dekodierten Wertes g' gewinnt gleichzeitig der Kodierer 510 gemäß folgender Gleichung ein Lautquellesignal z(n) auf der Grundlage des ausgewählten Kodeverzeichnisses und gibt es an einen Addierer 525 aus:
  • z(n) = g' c(n) ...(20)
  • Der Addierer 525 addiert gemäß der folgenden Gleichung ein aus Gleichung (13) gewonnenes Prädiktionslautquellesignal v'(n) zum Wert z(n), um in dem repräsentativen Intervall ein Lautquellesignal d(n) zu erhalten, und gibt es an einen Antriebslautquelledekodierer 283 und einen Verstärkung/Phasenkorrekturrechner 270 aus:
  • d(n) = v'(n) + z(n) ...(21)
  • Die vorstehende Beschreibung steht im Verbindung mit der Senderseite gemäß der zweiten Ausführungsform der vorliegenden Erfindung.
  • Die Empfangsseite des Systems gemäß der zweiten Ausführungsform wird nachstehend beschrieben. Ein Verstärkungsdekodierer 530 dekodiert den Kode für die Verstärkung und gibt eine dekodierte Verstärkung g' aus. Ein Generator 540 empfängt den Kode für den Index des gewählten Kodeverzeichnisses und wählt in Übereinstimmung mit dem Index einen Kodevektor c(n) aus einem Kodeverzeichnis 520 aus. Der Generator 540 erzeugt dann unter Verwendung der dekodierten Verstärkung g' gemäß Gleichung (20) ein Lautquellesignal z(n) und gibt es an einen Addierer 550 aus.
  • Der Addierer 550 führt die gleiche Operation durch, wie der Addierer auf der Senderseite durchführt, um so in dem repräsentativen Intervall durch Addieren des Werts z(n) zu einem von einem Prädiktionsschaltkreis 345 ausgegebenen Prädiktionslautquellesignal v'(n) ein Lautquellesignal d(n) zu gewinnen, und gibt es an einen Schaltkreis 340 zur Reproduktion der Antriebslautquelle aus.
  • Die vorstehende Beschreibung steht in Verbindung mit der Empfangsseite gemäß der zweiten Ausführungsform der vorliegenden Erfindung.
  • Die vorstehend beschriebenen Ausführungsformen sind lediglich Beispiele der vorliegenden Erfindung, und verschiedenen Abwandlungen können vorgenommen werden.
  • In der ersten Ausführungsform werden die Amplitude und Lage des in bezug auf ein Prädiktionsdifferenzsignal in dem repräsentativen Intervall gewonnenen Mehrfachpulses skalar quantisiert (SQed). Um jedoch die Informationsmenge zu verringern, können diese Werte vektoriell quantisiert (VQed) werden. Beispielsweise kann nur die Lage vektoriell guantisiert werden, während die Amplitude skalar quantisiert wird, oder die Amplitude wird skalar quantisiert, während die Lage vektoriell quantisiert wird. Alternativ dazu können sowohl Amplitude als auch Lage vektoriell quantisiert werden. Hinsichtlich einer detaillierten Beschreibung des Verfahrens zur vektoriellen Quantisierung der Lage sei z.B. auf R. Zinser et al., "4800 und 7200 bit/sec Hybrid Codebook Multipulse Coding," (ICASSP, pp. 747-750,1989) hingewiesen (Referenz 6).
  • Ferner werden in der ersten Ausführungsform der Verstärkungskorrekturkoeffizient ck und der Phasenkorrekturkoeffizient dk in anderen Tonhöhenintervallen als dem repräsentativen Inervall gewonnen und übertragen. Jedoch kann die dekodierte gemittelte Tonhöhenperiode T' unter Verwendung der angrenzenden Tonhöhenperiode für jedes Tonhöhenintervall interpoliert werden, so daß die Übertragung eines Phasenkorrekturkoeffizienten unterbleiben kann. Anstelle einer Übertragung eines Verstärkungskorrekturkoeffizienten in jedem Tonhöhenintervall kann außerdem ein in jedem Tonhöhenintervall gewonnener Verstärkungskorrekturkoeffizient durch eine Kurve kleinster Quadrate oder eine Linie kleinster Quadrate angenähert werden, und eine Übertragung kann durch Kodierung des Koeffizienten der Kurve oder der Linie durchgeführt werden. Diese Verfahren können in jedweder Kombination verwendet werden. Mit diesen Anordnungen kann die Informationsmenge zur Übertragung der Korrekturinformation verringert werden.
  • Anstelle der Gewinnung eines Phasenkorrekturkoeffizienten in jedem Tonhöhenintervall, kann ein linearer Phasenterm τ von einem Endabschnitt eines Rahmens gewonnen werden, um so jedem Tonhöhenintervall zugeordnet zu werden, wie z.B. in Ono und Ozawa et al., "2,4 kbps Pitch Prediction Multi-pulse Speech Coding", Proc. ICASSP 54.9, 1988) veröffentlicht ist (Referenz 7). Gemäß einem anderen Verfahren wird ein in jedem Tonhöhenintervall gewonnener Phasenkorrekturkoeffizient durch eine Linie kleinster Quadrate oder eine Kurve kleinster Quadrate angenähert, und eine Übertragung wird durch Kodierung des Koeffizienten der Linie oder der Kurve durchgeführt.
  • Überdies können in der ersten Ausführungsform der vorliegenden Erfindung verschiedene Lautquellesignale in Übereinstimmung mit den Merkmalen eines Ein-Rahmen-Sprachsignals wie in Referenz 1 verwendet werden. Beispielsweise werden Sprachsignale in Vokal- Nasal-, Reibe- und Explosivlautsignale klassifiziert, und die Anordnung der ersten Ausführungsform kann in einem Vokallautintervall verwendet werden.
  • In der ersten und zweiten Ausführungsform wird ein K- Parameter als Spektrumparameter kodiert, und eine LPC-Analyse wird als Analyseverfahren verwendet. Jedoch können als Spektrumparameter andere bekannte Parameter wie LSP, LPC- Cepstrum, Cepstrum, verbessertes Cepstrum, allgemeines Cepstrum und Melcepstrum verwendet werden. Ein optimales Analyseverfahren kann für jeden Parameter verwendet werden.
  • Ferner wird, wenn eine Prädiktion durchzuführen ist, in der ersten und zweiten Ausführungsform ein repräsentatives Intervall auf ein vorgegebenes Tonhöhenintervall in einem Rahmen festgelegt. Jedoch kann eine Prädiktion in jedem Tonhöhenintervall in einem Rahmen durchgeführt werden, um ein Lautquellesignal in bezug auf ein vorgegebenes Differenzsignal zu berechnen, und Verstärkungs- und Phasenkorrekturkoeffizienten in anderen Tonhöhenintervallen werden berechnet. Ferner wird eine gewichtete Lautstärkedifferenz zwischen einem durch vorstehende Operation reproduzierten Sprachsignal und einem Eingangssignal berechnet, und ein Tonhöhenintervall, das die Lautstärkedifferenz minimiert, wird als repräsentatives Intervall ausgewählt. Hinsichtlich einer detaillierten Beschreibung dieses Verfahrens sei auf Referenz 1 hingewiesen. Obwohl der Verarbeitungsaufwand erhöht ist und die Information über die Lage des repräsentativen Intervalls zusätzlich übertragen werden muß, werden mit dieser Anordnung die Eigenschaften des Systems weiter verbessert.
  • In dem Subrahmenunterteiler 195 wird ein Rahmen in Tonhöhenintervalle unterteilt, von denen jedes die gleiche Länge wie eine Tonhöhenperiode hat. Jedoch kann ein Rahmen in Tonhöhenintervalle unterteilt werden, wobei jedes eine vorgegebene Länge (z.B. 5 ms) hat. Obwohl keine Tonhöhenperiode extrahiert werden muß und der Verarbeitungsaufwand verringert wird, wird mit dieser Anordnung die Lautqualität leicht verschlechtert.
  • Um den Verarbeitungsaufwand zu verringern, kann ferner auf der Senderseite die Berechnung eines Einflußsignals unterbleiben. Mit diesem Verzicht können auf der Senderseite der Schaltkreis 283 zur Reproduktion der Antriebslautquelle, das Synthetisierungsfilter 281 und der Subtraktor 190 weggelassen werden, die Lautqualität ist jedoch verschlechtert.
  • Um die Lautqualität durch Formung des Quantisierungsrauschens zu verbessern, kann ein adaptives Nachfilter, das mindestens auf eine Tonhöhen- oder Spektrumeinhüllende anspricht, an den Ausgangsanschluß des Synthetisierungsfilters an der dekodierenden Seite angeschlossen werden. Hinsichtlich der Anordnung des adaptiven Nachfilters sei z.B. auf Kroon et al., "A Class of Analysis-by-synthesis Predictive Coders for High Quality Speech Coding at Rates between 4,8 und 16 kb/s," (IEEE JSAC, Bd. 6,2, 353-363, 1988) (Referenz 8) hingewiesen.
  • Wie auf dem Gebiet der digitalen Signalverarbeitung bekannt ist, entspricht die Autokorrelationsfunktion bzw. die Kreuzkorrelationsfunktion einem Leistungsdichtespektrum bzw. einem Kreuzleistungsdichtespektrum auf der Frequenzachse, und kann damit auf der Grundlage dieser Spektren berechnet werden. Hinsichtlich des Verfahrens zum Berechnen dieser Funktionen sei auf Oppenheim et al., "Digital Signal Processing" (Prentice-Hall, 1975) (Referenz 9) hingewiesen.
  • Wie vorstehend beschrieben, kann gemäß der vorliegenden Erfindung ein Lautquellesignal in einem repräsentativen Intervall sehr wirkungsvoll durch Unterteilung eines Rahmens in Einheiten von Tonhöhenperioden, wobei die Prädiktion für ein Tonhöhenintervall (repräsentatives Intervall) auf der Grundlage eines vorherigen Lautquellesignals durchgeführt wird, und durch geeignete Darstellung eines Prädiktionfehlers durch einen Mehrfachpuls oder einen Lautquellesignalvektor (Kodevektor) dargestellt werden. Zusätzlich werden in anderen Tonhöhenintervallen des gleichen Rahmens die Verstärkung und Phase des Lautquellesignals in dem repräsentativen Intervall korrigiert, um das Lautquellesignal des Rahmens zu erhalten, so daß das Lautquellesignal der Sprache des Rahmens in geeigneter Weise durch eine kleine Menge an Lautquelleinformation dargestellt werden kann. Deshalb kann gemäß der vorliegenden Erfindung dekodierte/reproduzierte Sprache in einer im Vergleich zum herkömmlichen Verfahren ausgezeichneten Lautqualität erhalten werden.

Claims (3)

1. Sprachkodierungsverfahren mit folgenden Schritten: Gewinnung eines eine Spektrumeinhüllende repräsentierenden Spektrumparameters und eines eine Tonhöhe repräsentierenden Tonhöhenparameters aus einem diskreten Eingabesprachsignal;
Unterteilung eines Rahmenintervalls in Subintervalle in Übereinstimmung mit dem Tonhöhenparameter;
Gewinnung eines Lautquellesignals in einem der Subintervalle;
Gewinnung und Ausgabe von Korrekturinformation zum Korrigieren mindestens einer Amplitude und einer Phase des Lautquellesignals in anderen Subintervallen im Rahmen;
gekennzeichnet dadurch, daß der Schritt zur Gewinnung des Lautquellesignals aufweist:
(a) Gewinnung eines Differenzsignals durch Durchführung einer Tonhöhenprädiktion auf der Grundlage eines vorherigen Lautquellesignals;
(b) Gewinnung eines Mehrfachpulses in bezug auf das Differenzsignal; und
(c) Addition des Mehrfachpulses zum Tonhöhenprädiktionssignal.
2. Sprachkodierungsverfahren mit folgenden Schritten: Gewinnung eines eine Spektrumeinhüllende repräsentierenden Spektrumparameters und eines eine Tonhöhe repräsentierenden Tonhöhenparameters aus einem diskreten Eingabesprachsignal;
Unterteilung eines Rahmenintervalls in Subintervalle in Übereinstimmung mit dem Tonhöhenparameter;
Gewinnung eines Lautquellesignals in einem der Subintervalle;
Gewinnung und Ausgabe von Korrekturinformation zum Korrigieren mindestens einer Amplitude und einer Phase des Lautquellesignals in anderen Subintervallen im Rahmen;
gekennzeichnet dadurch, daß der Schritt zur Gewinnung des Lautquellesignals aufweist:
(a) Gewinnung eines Differenzsignals durch Durchführung einer Tonhöhenprädiktion auf der Grundlage eines vorherigen Lautquellesignals;
(b) Auswahl eines Vektors des Lautguellesignals in bezug auf das Differenzsignal aus einem Kodeverzeichnis, in dem Lautquellesignalvektoren gespeichert sind; und
(c) Addieren des ausgewählten Vektors zum Tonhöhenprädiktionssignal.
3. Vorrichtung zum Ausführen eines Sprachkodierungssystems nach Anspruch 1 oder 2.
DE69023402T 1989-07-20 1990-07-19 Verfahren zur Sprachkodierung und -dekodierung. Expired - Fee Related DE69023402T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1189084A JP2940005B2 (ja) 1989-07-20 1989-07-20 音声符号化装置

Publications (2)

Publication Number Publication Date
DE69023402D1 DE69023402D1 (de) 1995-12-14
DE69023402T2 true DE69023402T2 (de) 1996-04-04

Family

ID=16235051

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69023402T Expired - Fee Related DE69023402T2 (de) 1989-07-20 1990-07-19 Verfahren zur Sprachkodierung und -dekodierung.

Country Status (4)

Country Link
US (1) US5142584A (de)
EP (1) EP0409239B1 (de)
JP (1) JP2940005B2 (de)
DE (1) DE69023402T2 (de)

Families Citing this family (176)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5694519A (en) * 1992-02-18 1997-12-02 Lucent Technologies, Inc. Tunable post-filter for tandem coders
US5255343A (en) * 1992-06-26 1993-10-19 Northern Telecom Limited Method for detecting and masking bad frames in coded speech signals
EP0654909A4 (de) * 1993-06-10 1997-09-10 Oki Electric Ind Co Ltd Celp kodierer und dekodierer.
JP2591430B2 (ja) * 1993-06-30 1997-03-19 日本電気株式会社 ベクトル量子化装置
BE1007428A3 (nl) * 1993-08-02 1995-06-13 Philips Electronics Nv Transmissiesysteem met reconstructie van ontbrekende signaalmonsters.
JP2906968B2 (ja) * 1993-12-10 1999-06-21 日本電気株式会社 マルチパルス符号化方法とその装置並びに分析器及び合成器
JPH07261797A (ja) * 1994-03-18 1995-10-13 Mitsubishi Electric Corp 信号符号化装置及び信号復号化装置
JP3087591B2 (ja) * 1994-12-27 2000-09-11 日本電気株式会社 音声符号化装置
FR2729247A1 (fr) * 1995-01-06 1996-07-12 Matra Communication Procede de codage de parole a analyse par synthese
DE69609089T2 (de) * 1995-01-17 2000-11-16 Nec Corp., Tokio/Tokyo Sprachkodierer mit aus aktuellen und vorhergehenden Rahmen extrahierten Merkmalen
JPH08263099A (ja) * 1995-03-23 1996-10-11 Toshiba Corp 符号化装置
JP3196595B2 (ja) * 1995-09-27 2001-08-06 日本電気株式会社 音声符号化装置
US5960386A (en) * 1996-05-17 1999-09-28 Janiszewski; Thomas John Method for adaptively controlling the pitch gain of a vocoder's adaptive codebook
JP3335841B2 (ja) * 1996-05-27 2002-10-21 日本電気株式会社 信号符号化装置
DE69737012T2 (de) * 1996-08-02 2007-06-06 Matsushita Electric Industrial Co., Ltd., Kadoma Sprachkodierer, sprachdekodierer und aufzeichnungsmedium dafür
US5794182A (en) * 1996-09-30 1998-08-11 Apple Computer, Inc. Linear predictive speech encoding systems with efficient combination pitch coefficients computation
US6192336B1 (en) 1996-09-30 2001-02-20 Apple Computer, Inc. Method and system for searching for an optimal codevector
EP1686563A3 (de) 1997-12-24 2007-02-07 Mitsubishi Denki Kabushiki Kaisha Verfahren und System zur Sprachdekodierung
JP4008607B2 (ja) 1999-01-22 2007-11-14 株式会社東芝 音声符号化/復号化方法
JP4005359B2 (ja) * 1999-09-14 2007-11-07 富士通株式会社 音声符号化及び音声復号化装置
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
JP3582589B2 (ja) * 2001-03-07 2004-10-27 日本電気株式会社 音声符号化装置及び音声復号化装置
US7206739B2 (en) * 2001-05-23 2007-04-17 Samsung Electronics Co., Ltd. Excitation codebook search method in a speech coding system
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
JP4827661B2 (ja) * 2006-08-30 2011-11-30 富士通株式会社 信号処理方法及び装置
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
KR101292771B1 (ko) * 2006-11-24 2013-08-16 삼성전자주식회사 오디오 신호의 오류은폐방법 및 장치
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
CN101604525B (zh) * 2008-12-31 2011-04-06 华为技术有限公司 基音增益获取方法、装置及编码器、解码器
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US20120309363A1 (en) * 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US8977584B2 (en) 2010-01-25 2015-03-10 Newvaluexchange Global Ai Llp Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US10019994B2 (en) 2012-06-08 2018-07-10 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9640190B2 (en) * 2012-08-29 2017-05-02 Nippon Telegraph And Telephone Corporation Decoding method, decoding apparatus, program, and recording medium therefor
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
CN104969289B (zh) 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
EP2973002B1 (de) 2013-03-15 2019-06-26 Apple Inc. Anwenderschulung durch einen intelligenten digitalen assistenten
WO2014168730A2 (en) 2013-03-15 2014-10-16 Apple Inc. Context-sensitive handling of interruptions
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9922642B2 (en) 2013-03-15 2018-03-20 Apple Inc. Training an at least partial voice command system
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3937002A1 (de) 2013-06-09 2022-01-12 Apple Inc. Vorrichtung, verfahren und grafische benutzeroberfläche für gesprächspersistenz über zwei oder mehrere instanzen eines digitalen assistenten
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的***和方法
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
EP2963645A1 (de) 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Rechner und Verfahren zur Bestimmung der Phasenkorrekturdaten für ein Audiosignal
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59116794A (ja) * 1982-12-24 1984-07-05 日本電気株式会社 音声符号化・復号化装置
CA1255802A (en) * 1984-07-05 1989-06-13 Kazunori Ozawa Low bit-rate pattern encoding and decoding with a reduced number of excitation pulses
JPS61134000A (ja) * 1984-12-05 1986-06-21 株式会社日立製作所 音声分析合成方式
JP2844589B2 (ja) * 1984-12-21 1999-01-06 日本電気株式会社 音声信号符号化方法とその装置
JP2615548B2 (ja) * 1985-08-13 1997-05-28 日本電気株式会社 高能率音声符号化方式とその装置
NL8500843A (nl) * 1985-03-22 1986-10-16 Koninkl Philips Electronics Nv Multipuls-excitatie lineair-predictieve spraakcoder.
FR2579356B1 (fr) * 1985-03-22 1987-05-07 Cit Alcatel Procede de codage a faible debit de la parole a signal multi-impulsionnel d'excitation
US4944013A (en) * 1985-04-03 1990-07-24 British Telecommunications Public Limited Company Multi-pulse speech coder
GB8621932D0 (en) * 1986-09-11 1986-10-15 British Telecomm Speech coding
US4896361A (en) * 1988-01-07 1990-01-23 Motorola, Inc. Digital speech coder having improved vector excitation source
JP2829978B2 (ja) * 1988-08-24 1998-12-02 日本電気株式会社 音声符号化復号化方法及び音声符号化装置並びに音声復号化装置

Also Published As

Publication number Publication date
US5142584A (en) 1992-08-25
DE69023402D1 (de) 1995-12-14
EP0409239A3 (en) 1991-08-07
EP0409239A2 (de) 1991-01-23
JP2940005B2 (ja) 1999-08-25
JPH0353300A (ja) 1991-03-07
EP0409239B1 (de) 1995-11-08

Similar Documents

Publication Publication Date Title
DE69023402T2 (de) Verfahren zur Sprachkodierung und -dekodierung.
DE69625874T2 (de) Verfahren und Vorrichtung zur Wiedergabe von Sprachsignalen, zur Dekodierung, zur Sprachsynthese und tragbares Funkendgerät
DE69634055T2 (de) Verfahren zur Kodierung von akustischen Signalen
DE69322313T2 (de) C.E.L.P. - Vocoder
DE68912692T2 (de) Zur Sprachqualitätsmodifizierung geeignetes Übertragungssystem durch Klassifizierung der Sprachsignale.
DE60011051T2 (de) Celp-transkodierung
DE69420431T2 (de) Sprachkodierungssystem
DE69900786T2 (de) Sprachkodierung
DE69928288T2 (de) Kodierung periodischer sprache
DE60121405T2 (de) Transkodierer zur Vermeidung einer Kaskadenkodierung von Sprachsignalen
DE69529672T2 (de) System zur sprachkodierung
DE60029990T2 (de) Glättung des verstärkungsfaktors in breitbandsprach- und audio-signal dekodierer
DE69736446T2 (de) Audio Dekodierverfahren und -vorrichtung
DE19647298C2 (de) Kodiersystem
DE69604526T2 (de) Verfahren zur Anpassung des Rauschmaskierungspegels in einem Analyse-durch-Synthese-Sprachkodierer mit einem wahrnehmunggebundenen Kurzzeitfilter
DE69309557T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE69029232T2 (de) System und Methode zur Sprachkodierung
DE69613360T2 (de) Linear-prädiktiver analyse-durch-synthese sprachkodierer
DE69832358T2 (de) Verfahren zur Sprachkodierung und -dekodierung
DE69729527T2 (de) Verfahren und Vorrichtung zur Kodierung von Sprachsignalen
DE68922134T2 (de) Überträgungssystem für codierte Sprache mit Codebüchern zur Synthetisierung von Komponenten mit niedriger Amplitude.
DE69615870T2 (de) Sprachkodierer mit aus aktuellen und vorhergehenden Rahmen extrahierten Merkmalen
DE60309651T2 (de) Verfahren zur Sprachkodierung mittels verallgemeinerter Analyse durch Synthese und Sprachkodierer zur Durchführung dieses Verfahrens
DE68917584T2 (de) Zur Sprachqualitätsverbesserung geeignetes Kodiergerät unter Anwendung einer Doppelanlage zur Pulserzeugung.
DE69624449T2 (de) Vorrichtung zur Sprachkodierung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee