DE4236315C1 - Verfahren zur Sprachcodierung - Google Patents

Verfahren zur Sprachcodierung

Info

Publication number
DE4236315C1
DE4236315C1 DE19924236315 DE4236315A DE4236315C1 DE 4236315 C1 DE4236315 C1 DE 4236315C1 DE 19924236315 DE19924236315 DE 19924236315 DE 4236315 A DE4236315 A DE 4236315A DE 4236315 C1 DE4236315 C1 DE 4236315C1
Authority
DE
Germany
Prior art keywords
speech
quantized
lsp
coefficients
line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE19924236315
Other languages
English (en)
Inventor
Bertram Dipl Ing Waechter
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bosch Telecom GmbH
Original Assignee
ANT Nachrichtentechnik GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ANT Nachrichtentechnik GmbH filed Critical ANT Nachrichtentechnik GmbH
Priority to DE19924236315 priority Critical patent/DE4236315C1/de
Priority to AU51742/93A priority patent/AU5174293A/en
Priority to PCT/DE1993/000999 priority patent/WO1994010682A1/de
Application granted granted Critical
Publication of DE4236315C1 publication Critical patent/DE4236315C1/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

Die Erfindung geht aus von einem Verfahren zur Sprachcodierung unter Verwendung der Analyse-durch-Synthese-Methode gemäß Oberbegriff des Anspruches 1. Solche Sprachcodierverfahren sind bekannt, beispielsweise durch die deutsche Patentschrift 38 34 871.
Den Sprachcodierungsverfahren gemein ist eine Prädiktionsanalyse des Eingangssignals (Linear Prediction- Coder, LPC). Dabei wird das Sprachsignal am Eingang des Encoders im Rahmen einer bestimmten Dauer von z. B. 20-30 ms unterteilt. Jeder Sprachrahmen wird im Encoder einer linearen Prädiktionsanalyse unterworfen, welche lineare Abhängigkeiten im Sprachsignal entfernt. Die lineare Prädiktion wird mit Hilfe von FIR-Filtern (Finite Impulse Response) durchgeführt. Die Koeffizienten dieser linearen Filter werden in jedem Rahmen neu ermittelt, d. h., es handelt sich hier um adaptive Filter.
Die heutigen Sprachcodierer, welche bei Bitraten zwischen 4 und 16 kBit/sec arbeiten, benutzen in der Regel die Analyse- durch-Synthese-Methode, wobei im Sender die oben angeführten Filterkoeffizienten und eine dazu gehörige Anregung so bestimmt werden, daß die Energie des gewichteten Fehlers e(n) zwischen Originalsprache und der synthetisierten Sprache möglichst klein wird.
Zum Empfänger übertragen werden müssen Parameter, welche die Anregung beschreiben, und die schon weiter oben erwähnten Koeffizienten des linearen Filters. Auf die Ermittlung der Koeffizienten des linearen Filters soll hier nicht näher eingegangen werden. Als Ergebnis erhält man ein nichtrekursives Filter vom Grade P mit der Übertragungsfunktion
Die inverse Übertragungsfunktion H(z)-1/A(z) wandelt das Fehlersignal (die Anregung) in das (synthetisierte) Sprachsignal um:
Das nach dieser Methode berechnete Filter H(z) ist ohne Quantisierung der Filterkoeffizienten ai in jedem Fall stabil.
Die Filterkoeffizienten ai weisen jedoch eine große Dynamik auf und sind deshalb für die Quantisierung und Übertragung schlecht geeignet. Außerdem besteht nicht eine einfache Möglichkeit, im Empfänger die Stabilität des rekursiven Filters zu prüfen.
Bekannt ist es, daß die sogenannten Line-Spectrum-Parameter LSP für die Quantisierung und Übertragung, also zur Beschreibung des Prädikatorfilters H(z) geeignet sind. Man erhält diese Parameter als Nullstellen eines symmetrischen Polynoms
F₁(z) = A(z) + Z-(P+1) A(z-1)
und eines antisymmetrischen Polynoms
F₂(z) = A(z) - Z-(P+1) A(z-1).
Die Nullstellen z0i von F₁ und F₂ haben folgende Eigenschaften
  • - alle Nullstellen liegen auf dem Einheitskreis, sind also durch die Angabe einer Phase ωi ausreichend beschrieben,
  • - alle Nullstellen sind einfach,
  • - auf dem Einheitskreis liegt abwechselnd eine Nullstelle von F₁ und F₂.
In Fig. 2 sind die Nullstellen von F₁(z) und F₂(z) für die Fälle P=6 und P=5 dargestellt. Alle Nullstellen zi können durch die Argumente ωi oder durch den daraus abgeleiteten Frequenzwert
dargestellt werden.
Da die Nullstellen in konjugiert komplexen Paaren auftreten und Nullstellen bei ±1 in jedem Fall vorliegen, sind die Polynome F₁ und F₂ durch die Angabe von P Werten ωi vollständig bestimmt.
Nach den oben beschriebenen Eigenschaften muß gelten
ω₁ < ω₂ < . . . < ωP.
Diese Monotonie-Eigenschaft ist zwingend notwendig, damit das rekursive Filter H(z) stabil ist. Man hat damit ein Kriterium, um die Stabilität des Filters zu überprüfen.
Bei Änderung der Charakteristik des Spektrums des Eingangssignals ändert sich die Verteilung einzelner LSPs stark. Als Beispiel ist in Fig. 1 die Verteilung der LSP für Filtergrad P=10 dargestellt. Im oberen Bild, Fig. 1a, ist die Eingangssprache nur tiefpaßgefiltert, im unteren Bild, Fig. 1b, IRS gefiltert (bandbegrenzt) nach CCITT P.48.
Ein übliches Verfahren ist die skalare Quantisierung jedes einzelnen LSP, beispielsweise werden in 4,8 kBit/sec CELP- Sprachcode nach dem Federal Standard 1016 des US- Verteidigungsministerium US die Line Spectrum Parameter skalar mit insgesamt 34 Bit quantisiert.
Zu beachten ist bei der Quantisierung, daß auch nach der Quantisierung die Monotonie-Eigenschaft erhalten werden muß, damit das rekursive Filter stabil ist; d. h., es muß gelten:
Da sich die Werte-Bereiche der Quantisierer für ωi und 2i+1 überlappen, sind nach der Quantisierung von ωi alle Quantisierungsstufen von ωi+1 ausgeschlossen, welche diese strenge Monotonie verletzen (siehe Fig. 3). Umgekehrt sind auch nach der Quantisierung von ωi+1 auch Werte aus dem Quantisierer ωi nicht mehr zulässig. Dies bedeutet, daß ein Teil der Bits, welche für die Quantisierung der Parameter LSP zur Verfügung stehen, nicht vollständig genutzt werden. Nach Fig. 3 werden von 8 möglichen Stufen für ωi+1 tatsächlich nur 5 benutzt.
Ein weiterer Nachteil dieses Verfahrens ist, daß eine Adaption an unterschiedliche Eingangsspektren des Sprachsignals nicht möglich ist. Soll der Quantisierer hierfür eingesetzt werden können, so vergrößert sich der Wertebereich einzelner Line- Spectrum-Paramter. Dies führt zu einer Erhöhung der Bitrate.
In den Literaturstellen [5] und [6] wird eine Reduzierung der Bitrate für die Übertragung der Line-Spectrum-Parameter durch Quantisierung deren Differenzen vorgeschlagen. Dabei wird der erste LSP wie oben skalar quantisiert
Für alle weiteren LSP wird die Differenz zum vorangegangenen Wert berechnet und diese dann quantisiert.
Dieses Verfahren adaptiert sich gut an unterschiedlichen Eingangsspektren des Sprachsignals, da nur der Wertebereich des ersten LSP ausreichend groß gewählt werden muß. Ein Nachteil dieses Verfahrens besteht in der Fortpflanzung von Fehlern. Tritt bei der Übertragung von x ein Fehler auf, so werden alle i für i=x bis P falsch dekodiert.
Durch die europäische Patentanmeldung EP 0 483 882 A2 ist ein Sprachparameter-Codierverfahren zum Codieren eines Eingangssprachsignals in eine Sequenz von codierten Signalen zur Übertragung von Spektrumparametern mit einer reduzierten Anzahl von Bits bekanntgeworden. Dieses Verfahren benutzt eine mehrstufige vektorielle Quantisierung der Line-Spectrum- Parameter. Durch die Vektorquantisierung wird eine Reduzierung der Bitrate erreicht, was allerdings auf Kosten einer deutlichen Erhöhung des Speicher- und Rechenaufwandes geht.
Der vorliegenden Erfindung lag die Aufgabe zugrunde, ein Verfahren der eingangs genannten Art anzugeben, welches in der Lage ist bei gleichbleibender Bitrate eine Verbesserung der Sprachqualität zu erreichen oder aber bei gleichbleibender Sprachqualität eine Verringerung der Bitrate zu erzielen. Außerdem soll eine Verringerung der Empfindlichkeit des Sprachcodes gegenüber Sprachsignalen mit unterschiedlichen Eingangscharakteristika erreicht werden. Der benötigte Schaltungsaufwand soll dabei nicht allzu hoch sein.
Diese Aufgabe wurde gelöst durch die Merkmale des Anspruches 1. Vorteilhafte Ausgestaltungen ergeben sich durch die Unteransprüche.
Das erfindungsgemäße Verfahren erzielt die Vorteile einer Verbesserung der Sprachqualität bei gleichbleibender Bitrate bzw. einer Verringerung der Bitrate bei gleichbleibender Sprachqualität. Außerdem weist das erfindungsgemäße Verfahren eine verringerte Empfindlichkeit des Sprachcodes gegenüber Sprachsignalen mit sehr unterschiedlichen Eingangsspektren auf. Ein weiterer Vorteil besteht darin, daß sich ein Übertragungsfehler bei einem LSP nur auf maximal zwei weitere LSP-Werte auswirkt.
Die Erfindung geht aus von der Idee, weder alle LSP-Parameter skalar zu quantisieren noch nur einen einzigen der insgesamt P Parameter skalar zu quantisieren, sondern nur jeden n-ten der P Parameter skalar zu quantisieren und die dazwischenliegenden Parameter zu transformieren bzw. abzubilden und danach zu quantisieren.
Das Verfahren wird im folgenden anhand eines Ausführungsbeispieles näher beschrieben, wobei angenommen wird, daß P eine gerade Zahl ist.
In einem ersten Schritt wird jeder zweite LSP skalar quantisiert.
Nun muß auf Grund der strengen Monotonie gelten
wobei der fiktive Wert ωP+1 auf den maximal möglichen Wert für ωP gesetzt wird. Dieser Wertebereich für ωi ändert sich von Rahmen zu Rahmen mit und . Ideal wäre es nun, für jede Kombination von und einen eigenen Quantisierer für ωi zu verwenden, was aus Gründen des Realisierungsaufwandes nicht möglich ist. Stattdessen wird der Wertebereich durch folgende Transformation auf das Intervall [0, 1] abgebildet:
Jeder Wert xi kann nun mit einem Quantisierer quantisiert und übertragen werden. Die Rücktransformation erfolgt gemäß
Das Verfahren funktioniert entsprechend, wenn man die Parameter, die absolut quantisiert werden, mit denen vertauscht, die nach Normierung quantisiert werden, d. h.
quantisiere absolut:
ωi i = 2, (2), P
quantisiere nach Transformation: ωi i = 1, (2), P - 1
Statt der Transformation der LSP in den Bildbereich ist es auch möglich, den Quantisierer aus dem Bildbereich nach (13) in den ω-Bereich abzubilden.
In ähnlicher Weise wird bei dem zweiten Ausführungsbeispiel jeder dritte LSP skalar quantisiert.
Die Abbildungsfunktion für die dazwischenliegenden Paramter sind beispielsweise
oder
da ωi ja nun bekannt ist.
Diese Lösung erbringt noch eine weitere Reduzierung der Bitrate bei gleichzeitiger Qualität oder eine höhere Qualität bei gleichbleibender Bitrate; allerdings wirkt sich ein Übertragungsfehler hier auf max. drei weitere LSP-Werte aus.
In entsprechender Weise kann auch verfahren werden, indem nur jeder vierte LSP skalar quantisiert und die dazwischenliegenden LSP entsprechend transformiert und dann quantisiert übertragen werden.

Claims (3)

1. Verfahren zur Sprachcodierung unter Verwendung der Analyse- durch-Synthese-Methode, wobei das Sprachsignal abgetastet, aus einer festgelegten Anzahl Abtastproben ein Rahmen gebildet und aus den Abtastproben rahmenweise die Koeffizienten eines Sprach-Synthese-Filters mit dem Grad P bestimmt werden, wobei mittels dieser Koeffizienten eine Anzahl P sogenannter Line- Spectrum-Parameter LSP ermittelt und quantisiert werden, zur Übertragung über einen Kanal mit begrenzter Übertragungskapazität, dadurch gekennzeichnet, daß jeder n-te Line-Spectrum-Parameter LSP skalar (absolut) quantisiert wird und daß die dazwischenliegenden Line-Spectrum-Parameter LSPωi für i=1, P und i m, (n), Ptransformiert (normiert) und anschließend quantisiert werden.
2. Verfahren nach Anspruch 1 mit n=2, dadurch gekennzeichnet, daß die Transformation nach der Funktion erfolgt.
3. Verfahren nach Anspruch 1 mit n=3, dadurch gekennzeichnet, daß die Transformation nach den Abbildungsfunktionen oder erfolgt.
DE19924236315 1992-10-28 1992-10-28 Verfahren zur Sprachcodierung Expired - Fee Related DE4236315C1 (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
DE19924236315 DE4236315C1 (de) 1992-10-28 1992-10-28 Verfahren zur Sprachcodierung
AU51742/93A AU5174293A (en) 1992-10-28 1993-10-20 Method of encoding speech
PCT/DE1993/000999 WO1994010682A1 (de) 1992-10-28 1993-10-20 Verfahren zur sprachcodierung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19924236315 DE4236315C1 (de) 1992-10-28 1992-10-28 Verfahren zur Sprachcodierung

Publications (1)

Publication Number Publication Date
DE4236315C1 true DE4236315C1 (de) 1994-02-10

Family

ID=6471507

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19924236315 Expired - Fee Related DE4236315C1 (de) 1992-10-28 1992-10-28 Verfahren zur Sprachcodierung

Country Status (3)

Country Link
AU (1) AU5174293A (de)
DE (1) DE4236315C1 (de)
WO (1) WO1994010682A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1388144A2 (de) * 2001-05-16 2004-02-11 Nokia Corporation Verfahren und system zur linienspektralfrequenzvektorquantisierung in einem sprach-codec

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3834871C1 (en) * 1988-10-13 1989-12-14 Ant Nachrichtentechnik Gmbh, 7150 Backnang, De Method for encoding speech
EP0483882A2 (de) * 1990-11-02 1992-05-06 Nec Corporation Verfahren zur Kodierung von Sprachparametern, das die Spektrumparameterübertragung mit einer verringerten Bitanzahl ermöglicht

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5012518A (en) * 1989-07-26 1991-04-30 Itt Corporation Low-bit-rate speech coder using LPC data reduction processing
US4975956A (en) * 1989-07-26 1990-12-04 Itt Corporation Low-bit-rate speech coder using LPC data reduction processing
US5097507A (en) * 1989-12-22 1992-03-17 General Electric Company Fading bit error protection for digital cellular multi-pulse speech coder

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3834871C1 (en) * 1988-10-13 1989-12-14 Ant Nachrichtentechnik Gmbh, 7150 Backnang, De Method for encoding speech
EP0483882A2 (de) * 1990-11-02 1992-05-06 Nec Corporation Verfahren zur Kodierung von Sprachparametern, das die Spektrumparameterübertragung mit einer verringerten Bitanzahl ermöglicht

Non-Patent Citations (10)

* Cited by examiner, † Cited by third party
Title
F.K. Soong, B.H. Juang: "LSP and Speech Data Com- pression" *
F.K. Soong, B.H. Juang: "Optimal Quantisation of LSP Parameters" Proc. ICASSP-88, April 88 *
Gray, A.H.: Linear Prediction of Speech. Berlin, Heidelberg, New York: Springer Verlag, 1976 *
J.P. Campbell, V.C. Welch, T.E. Tremain: "The DOD 4.8 kbps Standard", aus "Advances in Speech Co- ding", Kluwer, 1991 *
Markel, J.D. *
Müller, J.M. *
N. Sugamura, F. Itakura: "Speech Analysis and Syn-thesis Methods Developed at ECL in NTT-Form LPC to LSP-. Speech Communication, Bd. 5, 1986, S. 199-215 *
Proc. ICASSP-84, März 84 *
Scheuermann, H. *
Wächter, B.: Ein Beitrag zur Sprachcordierung für Bitraten unter 8 kbit/s, Frequenz, Bd. 43, 9/89, S. 242-252 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1388144A2 (de) * 2001-05-16 2004-02-11 Nokia Corporation Verfahren und system zur linienspektralfrequenzvektorquantisierung in einem sprach-codec
EP1388144A4 (de) * 2001-05-16 2007-08-08 Nokia Corp Verfahren und system zur linienspektralfrequenzvektorquantisierung in einem sprach-codec

Also Published As

Publication number Publication date
AU5174293A (en) 1994-05-24
WO1994010682A1 (de) 1994-05-11

Similar Documents

Publication Publication Date Title
DE69401514T2 (de) Vom rechenaufwand her effiziente adaptive bitzuteilung für kodierverfahren und kodiereinrichtung
DE3639753C2 (de)
DE2818052C2 (de) Quantisierung eines Signals mit einem sich über ein gegebenes Frequenzband erstreckendem Spetkrum
DE60019268T2 (de) Breitbandiges audio-übertragungssystem
EP0193143B1 (de) Verfahren zur Übertragung eines Audiosignals
EP1979901B1 (de) Verfahren und anordnungen zur audiosignalkodierung
DE69210064T2 (de) Teilbandkodierer und Sender unter Verwendung dieses Kodierers
DE3710664C2 (de)
EP0978172B1 (de) Verfahren zum verschleiern von fehlern in einem audiodatenstrom
EP0414838B1 (de) Verfahren zur übertragung eines signals
EP0287578B1 (de) Digitales codierverfahren
DE69106580T2 (de) Codieranordnung mit einem Unterbandcoder und Sender mit der Codieranordnung.
DE60124079T2 (de) Sprachverarbeitung
EP1023777B1 (de) Verfahren und vorrichtung zur erzeugung eines bitratenskalierbaren audio-datenstroms
EP0962015A1 (de) Verfahren und vorrichtungen zum codieren von diskreten signalen bzw. zum decodieren von codierten diskreten signalen
DE69206300T2 (de) Verfahren und Einrichtung zur Bearbeitung von Vorechos eines mittels einer Frequenztransformation kodierten digitalen Audiosignals.
EP0464534B1 (de) Transformationskodierer mit adaptiver Fensterfunktion
EP0635177B1 (de) Verfahren zum übertragen und/oder speichern digitalisierter, datenreduzierter audiosignale
DE69401959T2 (de) Vom rechenaufwand her effiziente adaptive bitzuteilung für kodierverfahren und einrichtung mit toleranz für dekoderspektralverzerrungen
EP0027233B1 (de) Verfahren zur Codierung von Analogsignalen
DE4236315C1 (de) Verfahren zur Sprachcodierung
DE60210597T2 (de) Vorrichtung zur adpcdm sprachkodierung mit spezifischer anpassung der schrittwerte
DE19742201C1 (de) Verfahren und Vorrichtung zum Codieren von Audiosignalen
DE19735675C2 (de) Verfahren zum Verschleiern von Fehlern in einem Audiodatenstrom
EP0133697A2 (de) Verfahren zum Übertragen von digitalen Tonsignalen sowie Einrichtung zum Empfangen eines nach diesem Verfahren übertragenen Tonsignals

Legal Events

Date Code Title Description
8100 Publication of the examined application without publication of unexamined application
D1 Grant (no unexamined application published) patent law 81
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee