DE69702261T2 - Sprachkodierung - Google Patents

Sprachkodierung

Info

Publication number
DE69702261T2
DE69702261T2 DE69702261T DE69702261T DE69702261T2 DE 69702261 T2 DE69702261 T2 DE 69702261T2 DE 69702261 T DE69702261 T DE 69702261T DE 69702261 T DE69702261 T DE 69702261T DE 69702261 T2 DE69702261 T2 DE 69702261T2
Authority
DE
Germany
Prior art keywords
phase
spectrum
signal
pole
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69702261T
Other languages
English (en)
Other versions
DE69702261D1 (de
Inventor
Michael Cheetham
Bun Choi
Xiaoqin Sun
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Publication of DE69702261D1 publication Critical patent/DE69702261D1/de
Application granted granted Critical
Publication of DE69702261T2 publication Critical patent/DE69702261T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

  • Die vorliegende Erfindung betrifft Sprachcodierung und Sprachdecodierung und insbesondere Systeme, in denen im Codierungsprozeß unterlassen wird, alle Phaseninformationen oder eine beliebige Phaseninformation zu übertragen, die in dem codierten Signal enthalten sind/ist.
  • Gemäß einem Aspekt der vorliegenden Erfindung ist ein Decodierer für Sprachsignale angegeben, der umfaßt:
  • eine Einrichtung zum Empfang einer Größenspektrumsinformation zur Synthese eines zeitvariablen Signals, eine Einrichtung zur Berechnung einer Phasenspektrumsinformation aus der Größenspektrumsinformation, die einem Minimalphasenfilter entspricht, die ein Größenspektrum aufweist, das der Größenspektrumsinformation entspricht, eine Einrichtung zur Erzeugung des zeitvariablen Signals aus der Größenspektrumsinformation und der Phasenspektrumsinformation und
  • eine Phaseneinstelleinrichtung, die zur Modifizierung des Phasenspektrums des Signals betrieben werden kann.
  • Gemäß einem weiten Aspekt der vorliegenden Erfindung ist ein Decodierer zur Decodierung von Sprachsignalen angegeben, die das Ansprechen eines Minimalphasensynthesefilters definiert und Größenspektrumsinformationen zur Synthese eines Erregungssignals enthält, wobei der Decodierer aufweist:
  • eine Einrichtung zur Erzeugung eines Erregungssignals aus der Größenspektrumsinformation,
  • ein Synthesefilter, das über die Ansprechinformation gesteuert wird und zur Filterung des Erregungssignals vorgesehen ist, und
  • eine Phaseneinstelleinrichtung zur Abschätzung eines Phaseneinstellsignals zur Modifizierung der Phase des Signals.
  • Gemäß einem weiten Aspekt der vorliegenden Erfindung ist ein Verfahren zur Codierung und Decodierung von Sprachsignalen angegeben, das die folgenden Schritte aufweist:
  • (a) Erzeugung von Signalen, die das Größenspektrum des Sprachsignals darstellen,
  • (b) Empfangen der Signale,
  • (c) Erzeugung eines synthetischen Sprachsignals aus den empfangenen Signalen, das ein Größenspektrum aufweist, das durch die empfangenen Signale bestimmt wird, und das ein Phasenspektrum aufweist, das einer Transferfunktion entspricht, die bei graphischer Darstellung in einer z-Ebene, mindestens einen Pol außerhalb des Einheitskreises aufweist.
  • Einige Ausführungsformen der vorliegenden Erfindung sind im folgenden unter Bezug auf die beigefügten Zeichnungen beispielhaft beschrieben, in denen zeigen:
  • Fig. 1 ein Blockdiagramm eines bekannten Sprachcodierers und Sprachdecodierers,
  • Fig. 2 ein Modell für das menschliche Stimmsystem,
  • Fig. 3 ein Blockdiagramm eines Sprachdecodierers gemäß einer Ausführungsform der vorliegenden Erfindung,
  • Fig. 4 und 5 Diagramme, die die vom Decodierer von Fig. 3 erhaltenen Testergebnisse zeigen,
  • Fig. 6 ein Diagramm der Form eines (bekannten) Rosenberg-Pulses,
  • Fig. 7 ein Blockdiagramm einer zweiten Form eines erfindungsgemäßen Sprachdecodierers,
  • Fig. 8 ein Blockdiagramm eines bekannten Typs eines Sprachcodierers,
  • Fig. 9 ein Blockdiagramm einer dritten Ausführungsform des erfindungsgemäßen Decodierers zur Verwendung mit dem Codierer von Fig. 9 und
  • Fig. 10 eine graphische Darstellung einer z-Ebene zur Erläuterung der Erfindung.
  • Bei diesem ersten Beispiel wurde angenommen, daß beim Codieren und Decodieren von Sprachsignalen eine Sinusumwandlungs-Codierungstechnik (STC) eingesetzt wurde. Diese Technik wurde von R. J. McAulay und T. F. Quatieri vorgeschlagen und ist in ihrer Veröffentlichung: "Speech Analysis/Synthesis based on a Sinusoidal Representation", IEEE Trans. Acoust. Speech Signal Process. ASSP-34, SS. 744- 754, 1986, und in "Low-rate Speech Coding based on the Sinusoidal Model" der gleichen Autoren, in "Advances in Speech Signal Processing", Hrsg. S. Furui und M. M. Sondhi, Marcel Dekker Inc., 1992, beschrieben. Die Prinzipien sind in Fig. 1 erläutert, in der ein Codierer Sprachbeispiele s(n) in digitaler Form an einem Eingang 1 erhält und Sprachsegmente von typischerweise 20 ms Dauer in einer Einheit 2 zur schnellen Fourier-Transformation einer Fourier-Analyse unterworfen werden, um das Kurzzeitfrequenzspektrum der Sprache zu bestimmen. Im einzelnen sind es die Amplituden und Frequenzen der Peaks im Größenspektrum, die von Interesse sind, wobei die Frequenzen - bei einer von einer menschlichen Stimme gesprochenen Sprache - unterstelltermaßen Harmonische einer Pitchfrequenz sind, die durch einen Pitch-Detektor 3 abgeleitet werden. Das Phasenspektrum wird im Interesse der Übertragungseffektivität nicht übertragen und eine Darstellung des Größenspektrums wird für die Übertragung zu einem Decodierer in diesen Beispiel durch Anpassung einer Hüllkurve an das Größenspektrum und durch Kennzeichnung dieser Hüllkurve durch einen Satz von Koeffizienten (z. B. LSP-Koeffizienten (Linienspektralpaar-Koeffizienten)) erhalten. Diese Funktion wird von einer Umwandlungseinheit 4, die die Fourier- Koeffizienten erhält und die die Kurvenanpassung durchführt, und durch eine Einheit 5 realisiert, die die Hüllkurve in LSP-Koeffizienten umwandelt, die den Ausgang des Codierers bilden.
  • Der entsprechende Decodierer ist auch in Fig. 1 gezeigt. Er erhält die Hüllkurveninformation; da ihm aber die Phaseninformation fehlt, muß er das Phasenspektrum aufgrund von Annahmen rekonstruieren. Die verwendete Annahme ist die, daß das durch die erhaltenen LSP-Koeffizienten dargestellte Größenspektrum das Größenspektrum einer Minimalphasen-Transferfunktion ist, - was zu der Annahme führt, daß das menschliche Stimmsystem als impulsiv erregtes Minimalphasenfilter angesehen werden kann. Somit leitet eine Einheit 6 das Größenspektrum aus den erhaltenen LSP- Koeffizienten ab, und eine Einheit 7 berechnet auf der Basis der Minimalphasenannahme das Phasenspektrum, das diesem Größenspektrum entspricht. Aus den zwei Spektren erzeugt ein Sinussynthesizer 8 die Summe eines Satzes sinusförmiger Harmonischer mit der Pitchfrequenz, die Amplituden und Phasen aufweisen, die durch die Spektren bestimmt sind.
  • Bei der Sinussprachsynthese wird ein synthetisches Sprachsignal y(n) durch die Summe der Sinuswellen gebildet:
  • worin Ak und Φk die Amplitude und Phase jeder Sinuswellenkomponente bedeuten, die mit der Frequenzspur ωk verbunden ist, und N die Anzahl der Sinuskurven bedeutet.
  • Obwohl es keine Vorbedingung darstellt, ist es allgemein gebräuchlich, anzunehmen, daß die Sinuskurven in einer harmonischen Beziehung stehen, daher:
  • wobei ψk(n) = kωo(n)n (3)
  • und worin bedeuten: Φk(n) die momentane relative Phase der Harmonischen, Ψk(n) die momentane lineare Phasenkomponente und ωo(n) die momentane Grundpitchfrequenz.
  • Ein einfaches Beispiel für eine Sinussynthese ist die Überlappungs- und Additionstechnik. In diesem Schema werden Ak(n), ωo(n) und Ψk(n) periodisch aktualisiert und es wird angenommen, daß sie während eines kurzen Zeitrahmens von beispielsweise 10 ms konstant sind. Der i-te Signalrahmen wird somit wie folgt synthetisiert:
  • Es ist anzumerken, daß es sich hier im wesentlichen um eine inverse diskrete Fourier-Transformation handelt. Diskontinuitäten bei den Rahmengrenzen werden vermieden, indem die benachbarten Rahmen wie folgt kombiniert werden:
  • i(n) = W(n)yi-1(n) + W(n - T)yi(n - T) (5),
  • worin bedeuten: W(n) ein Überlappungs- und Additionsfenster, das beispielsweise dreieckig oder trapezförmig ist, T die Rahmendauer, die als Anzahl von Abtastperioden ausgedrückt ist, und
  • W(n) + W(n - T) = 1 (6).
  • In einer alternativen Lösung kann y(n) kontinuierlich durch Interpolation des Amplituden- und Phasenausdrucks in Gleichung 2 berechnet werden. In solchen Schemata wird die Größenkomponente Ak(n) oft linear zwischen den Aktualisierungen interpoliert, während von mehreren Techniken demgegenüber berichtet wurde, daß sie die Phasenkomponente interpolieren. In einer Lösung (McAulay und Quatieri) werden die momentane kombinierte Phase (Ψk(n) + Φ(n)) und die Pitchfrequenz ωo(n) an jedem Aktualisierungspunkt spezifiziert. Die interpolierte Phasentrajektorie kann dann durch ein kubisches Polynom dargestellt werden. In einer anderen Lösung (Kleijn) werden Ψk(n) und Φ(n) getrennt interpoliert. In diesem Fall wird Φ(n) direkt an den Aktualisierungspunkten spezifiziert und linear interpoliert, während die momentane lineare Phasenkomponente Φk(n) an den Aktualisierungspunkten als Pitchfrequenz ωo(n) spezifiziert wird und nur eine quadratische polynomische Interpolation benötigt.
  • Aus der obigen Beschreibung geht klar hervor, daß ein Sinussynthesizer als eine Einheit verallgemeinert werden kann, die aus den periodisch aktualisierten Werten Ak(n), ωo(n) und Φk(n) ein kontinuierliches Signal y(n) erzeugt.
  • Die Anzahl der Sinuswellen kann festgelegt oder zeitvariabel sein.
  • Somit besteht im Rahmen der vorliegenden Erfindung ein Interesse an Sinussyntheseschemata, bei denen die ursprüngliche Phaseninformation nicht verfügbar ist und Φk auf irgendeine Weise am Synthesiser erhalten werden muß.
  • Obwohl das System von Fig. 1 durchaus zufriedenstellende Ergebnisse liefert, bieten der Codierer und der Decodierer, die im folgenden beschrieben sind, alternative Annahmen im Hinblick auf das Phasenspektrum. Die Vorstellung, daß der menschliche Stimmapparat als Impulserregung e(n) angesehen werden kann, die aus einer regelmäßigen Reihe von Deltafunktionen besteht, die ein zeitvariables Filter H(z) antreiben (wobei z die z-Umwandlungsvariable darstellt), kann dadurch noch weiter verfeinert werden, daß H(z) als von drei Filtern erzeugt angesehen wird, wie in Fig. 2 gezeigt ist, nämlich durch ein Glottisfilter 20, das eine Transferfunktion G(z) aufweist, durch ein Stimmtraktfilter 21, das eine Transferfunktion V(z) aufweist und durch ein Lippenabstrahlfilter 22, das eine Transferfunktion L(z) aufweist. In der vorliegenden Beschreibung sind die Zeitbereichsdarstellungen der Variablen und die Impulsantworten der Filter unten dargestellt, während ihre z-Umwandlungen und die Frequenzbereichsdarstellungen oben Fall mit den gleichen Buchstaben bezeichnet sind. Daher kann für das Sprachsignal s(n):
  • s(n) = e (n) · h(n) = e(n) · g(n) · v(n) · l(n) (7)
  • oder
  • S(z) = E(z)H(z) = E(z)G(z)V(z)L(z) (8)
  • geschrieben werden.
  • Da das Spektrum e(n) eine Reihe von Linien an den Harmonischen der Pitchfrequenz aufweist, folgt daraus, daß die Größe s an der Frequenz jeder Harmonischen die folgende ist:
  • S(ejω) = E(ejω) H(ejω) = A H(ejω) (9),
  • wobei A eine Konstante ist, die durch die Amplitude von e(n) bestimmt wird und die Phase die folgende ist:
  • arg(S(ejω)) = arg(E(ejω))+arg(H(ejω)) = 2mπ + arg(H(ejω)) (10),
  • wobei m eine beliebige ganze Zahl ist.
  • Wenn angenommen wird, daß das Größenspektrum am Decoder von Fig. 1 H(ejω) entspricht, wird die regenerierte Sprache auf den Umfang verringert, daß sich das verwendete Phasenspektrum von arg (H(ejω)) unterscheidet.
  • Wenn nun die Komponenten G, V und L berücksichtigt werden, ist die Minimalphase eine gute Annahme für die Stimmtrakt- Transferfunktion V(z). Typischerweise kann durch ein Allpolmodell dargestellt werden, das die Transferfunktion
  • aufweist, wobei ρi die Pole der Transferfunktion darstellen und direkt auf die Sprachbildungsfrequenzen bezogen sind, und P die Anzahl der Pole bedeutet.
  • Das Lippenabstrahlfilter kann als Differentiator betrachtet werden, für den gilt:
  • L/z) = 1 - αz&supmin;¹ (12),
  • wobei α eine einzelne Null bedeutet, die einen Wert nahe an Eins (typischerweise 0,95) aufweist.
  • Während die Minimalphasenannahme für V(z) und L(z) gut ist, besteht die Ansicht, daß sie für G(z) weniger Gültigkeit besitzt. Wenn berücksichtigt wird, daß eine beliebige Filtertransferfunktion als Produkt einer Minimalphasenfunktion und eines Allpaßfilters dargestellt werden kann, ist die Annahme möglich, daß
  • G(z) = Gmin/z) Gap(z) (13).
  • Der Decodierer, der unter Bezugnahme auf Fig. 3 kurz beschrieben ist, beruht auf der Annahme, daß das mit G verbundene Größenspektrum das Größenspektrum ist, das
  • entspricht. Im Hinblick auf den Decodierer wird mit der Annahme fortgefahren, daß eine geeignete Transferfunktion für Gap ist:
  • Das entsprechende Phasenspektrum für Gap ist:
  • Beim Decodierer von Fig. 3 sind die Bezugsziffern 6, 7 und 8 die gleichen wie in Fig. 1. Das Phasenspektrum, das bei 7 berechnet wird, wird jedoch eingestellt. Eine Einheit 31 erhält die Pitchfrequenz und berechnet die Werte % gemäß Gleichung 16 für die relevanten Werte ω, d. h., für die Harmonischen der Pitchfrequenz für den gegenwärtigen Sprachrahmen. Diese werden dann vor dem Sinussyntheziser 8 in einem Addierer 32 zu den Minimalphasenwerten hinzu addiert.
  • Mit dem Decodierer von Fig. 3 wurden Experimente mit einem festen Wert β1 = β2 = 0,8 durchgeführt (obwohl - wie im folgenden beschrieben ist - ein variabler Wert β ebenfalls möglich ist). Diese Experimente haben eine Verbesserung des gemessenen Phasenfehlers (wie in Fig. 4 angeführt ist) sowie in subjektiven Tests (Fig. 5) ergeben, in denen Zuhörer gebeten wurden, sich die Ausgangssignale der vier Decodierer anzuhören und sie im Hinblick auf die Sprachqualität in einer Vorzugsreihenfolge anzuordnen. Die Auswahl wurde wie folgt bewertet: erster Platz = 4, zweiter Platz = 3, dritter Platz = 2 und vierter Platz = 1; danach wurden diese Bewertungen addiert.
  • Die Ergebnisse enthalten Zahlen für einen Rosenberg-Puls. Wie von A. E. Rosenberg in "Effect of Glottal Pulse Shape on the Quality of Natural Vowels", J. Acoust. Soc. of America. Bd. 49, Nr. 2, 1971, S. 583-590, beschrieben, ist dies eine Pulsform, die für das Ausgangssignal des Glot tisfilters G postuliert wird. Die Form eines Rosenberg- Pulses ist in Fig. 6 gezeigt und ist als
  • g(t) = A(3(t / Tp)² - 2(t / Tp)³) 0 ≤ t ≤ Tp
  • g(t) = 0 Tp + TN < t &le; p
  • definiert, wobei p die Pitchperiode darstellt und Tp und TN die Glottisöffnungszeit bzw. die Glottisschließzeit darstellen.
  • Eine Alternative zur Gleichung 16 ist es daher, wie in Fig. 7 gezeigt, bei 31 eine berechnete Phase anzulegen, die gleich der Phase g(t) von Gleichung 17 ist. Damit jedoch die Komponente des Rosenberg-Pulsspektrums, die durch eine Minimalphasen-Transferfunktion dargestellt werden kann, nicht doppelt angelegt wird, wird bei 71 das Größenspektrum entsprechend der Gleichung 17 berechnet und von den Amplitudenwerten subtrahiert, bevor diese durch die Phasenspektrums-Berechnungseinheit 7 verarbeitet werden. Die Ergebnisse sind wie folgt: Tp = 0,33 P, TN = 0,1 P.
  • Die gleichen Überlegungen lassen sich auch auf Anordnungen anwenden, in denen ein Codierer versucht, die Glottiserregung und die Stimmtraktantwort zu zerlegen - die sogenannten lineare Vohersage-Codierer. Hier (Fig. 8) wird die eingegebene Sprache bei 60 rahmenweise analysiert, um die Parameter eines Filters zu bestimmen, das eine Spektrumsantwort aufweist, die der eingegebenen Sprache ähnlich ist. Der Codierer bildet dann mit der Umkehr dieser Antwort ein Filter 61, und das Sprachsignal wird so durch dieses Inversionsfilter geführt, daß ein Restsignal r(n) erzeugt wird, das idealerweise ein flaches Spektrum aufweist, das in der Praxis flacher als das Spektrum der ursprünglichen Sprache ist. Der Codierer überträgt Details der Filterantwort zusammen mit Information 63 in der Weise, daß der Decodierer befähigt wird, ein Erregungssignal zu konstruieren 64, das in gewisser Weise dem Restsignal gleicht und vom Decodierer zum Antrieb eines Synthesefilters 65 verwendet werden kann, um ein Ausgangssprachsignal zu erzeugen. Für die verschiedenen Wege zur Übertragung der Restinformation sind viele Vorschläge gemacht worden, wie z. B.:
  • (a) Sendung einer Pitchperiode und eines Verstärkungswertes zur Steuerung eines Pulsgenerators für die von einer menschlichen Stimme gesprochene Sprache und eines Verstärkungswertes zur Steuerung eines Rauschgenerators für die nicht von einer menschlichen Stimme gesprochene Sprache,
  • (b) eine quantisierte Version des Restes (RELP-Codierung),
  • (c) eine vektoriell quantisierte Version des Restes (CELP- Codierung)
  • (d) eine codierte Darstellung eines unregelmäßigen Pulsstranges (MPLPC-Codierung),
  • (e) Einzelheiten eines einzelnen Zyklus des Restes, mit dem der Decodierer eine Wiederholungsfrequenz der Rahmenlänge synthetisieren kann (Wellenforminterpolation eines Prototypen oder PWI) (S. W. B. Kleijn, "Encoding Speech using Prototype Waveforms", IEEE Trans. Speech and Audio Processing, Bd. 1, Nr. 4, Oktober 1993, S. 386-399, und W. B. Kleijn und J. Haagen, "A Speech Coder based on Decomposition of Characteristic Waveforms", Proc ICASSP, 1995, S. 508-511.
  • Falls die Phaseninformation über die Erregung von der Übertragung weggelassen wird, dann entsteht eine ähnliche Situation wie die Situation, die in Verbindung mit Fig. 2 beschrieben wurde, nämlich, daß Annahmen bezüglich des einzusetzenden Phasenspektrums zu machen sind. Ob die Pha seninformation für das Synthesefilter enthalten ist, ist hier nicht relevant, da die LPC-Analyse generell in jedem Fall eine Minimalphasen-Transferfunktion erzeugt, so daß es für die Zwecke dieser Beschreibung nicht von Bedeutung ist, ob die Phasenantwort in der übertragenen Filterinformation enthalten ist (typischerweise handelt es sich um einen Satz von Filterkoeffizienten), oder ob sie im Decodierer auf der Basis einer Minimalphasenannahme berechnet wird.
  • In diesem Zusammenhang sind Prototyp-Wellenforminterpolations-Codierer (PWI-Codierer) von besonderem Interesse, bei denen üblicherweise der gewonnene Rest- Pitschzyklus des Prototypen unter Anwendung einer Fourier- Transformation analysiert wird. Statt daß einfach die Fourier-Koeffizienten quantisiert werden, wird vielmehr eine Einsparung an Übertragungskapazität erreicht, indem nur die Größe und die Pitchperiode gesendet werden. Daher folgt in der Anordnung von Fig. 9, in denen die Gegenstände, die denen von Fig. 8 gleichen, mit den gleichen Bezugsziffern bezeichnet wurden, auf die Erregungseinheit 63 - die hier nach dem PWI-Prinzip funktioniert und an ihren Ausgängen Sätze von Fourier-Koeffizienten erzeugt - eine Einheit 80, die nur die Größeninformation und die Pitchperiode abfragt und sie zum Decodierer überträgt. Am Decodierer berechnet eine Einheit 91 - analog der Einheit 31 in Fig. 3 - die Phaseneinstellwerte &Phi;F unter Verwendung der Gleichung 16 und steuert die Phase eines Erregungsgenerators 64. In diesem Beispiel ist &beta;&sub1; bei 0,95 festgelegt, während &beta;&sub2; als Funktion der Pitchperiode p in Übereinstimmung mit der folgenden Tabelle gesteuert wird: Tabelle 1: Der in F(z) für den Bereich der Pitchperioden verwen­dete Wert &beta;
  • Diese Werte werden so gewählt, daß die Allpaß-Transferfunktion der Gleichung 15 eine Phasenantwort aufweist, die dem Teil des Phasenspektrums eines Rosenberg-Pulses mit den folgenden Werten TP = 0,4 p und TN = 0,16 p äquivalent ist, der im LPC-Synthesefilter 65 nicht modelliert ist. Wie oben angegeben, wird die Einstellung vorher in einem Addierer 83 addiert und erneut in Fourier-Koeffizienten umgewandelt, bevor sie dem PWI-Erregungsgenerator 64 weitergeleitet wird.
  • Die Berechnungseinheit 91 kann durch eine digitale Signalverarbeitungseinheit realisiert werden, die zur Implementierung der Gleichung 16 programmiert wurde.
  • Es ist von Interesse, den Effekt dieser Einstellungen durch Pole und Nullen in der z-Ebene zu berücksichtigen.
  • Die angenommene totale Transferfunktion H(z) ist das Produkt von G, V und L und weist somit innerhalb des Einheitskreises P Pole an der Position &rho;i und eine Null an der Position &alpha;, und außerhalb des Einheitskreises zwei Pole an den Positionen 1/&beta;&sub1;, 1/&beta;&sub2; auf, wie in Fig. 10 angeführt ist. Der Effekt der inversen LPC-Analyse ist, daß ein Inversionsfilter 61 erzeugt wird, das das Spektrum mit Hilfe von Nullen abflacht, die etwa mit den Polen an der Position &rho;i zusammenfallen. Das Filter, das ein Minimalphasenfilter ist, kann außerhalb des Einheitskreises an den Positionen 1/&beta;&sub1;, 1/&beta;&sub2; keine Nullen erzeugen, erzeugt aber statt dessen Nullen an den Positionen &beta;&sub1; und &beta;&sub2;, die die Tendenz haben, die Größenantwort, nicht aber die Phasenantwort abzuflachen (das Filter kann keinen Pol erzeugen, um die Null bei Position &alpha; zu entfernen, da aber &beta;&sub1; üblicherweise einen ähnlichen Wert, bezogen auf &alpha; aufweist, ist es üblich, anzunehmen, daß &alpha; Null und der 1/&beta;&sub1; Pol im Größenspektrum gelöscht wird, so daß das Inversionsfilter gerade an den Positionen &rho;i und &beta;&sub2; aufweist. Somit weist der Rest ein Phasenspektrum auf, das durch zwei Nullen an den Positionen &beta;&sub1; und &beta;&sub2; in der z-Ebene (wobei die &beta; Werte aufweisen, die dem ursprünglichen Signal entsprechen) und Pole an den Positionen 1/&beta;&sub1; und 1/&beta;&sub2; dargestellt ist (wobei die &beta; Werte aufweisen, so wie sie durch die LPC-Analyse bestimmt sind). Wenn diese Information verloren gegangen ist, wird sie durch die Näherungsrechnung des Allpaßfilters gemäß den Gleichungen 15 und 16 erzeugt, die Nullen und Pole an diesen Positionen aufweisen.
  • Die vorliegende Beschreibung geht von der Annahme einer Phaseneinstellung aus, die bei allen Frequenzen durch die Gleichung 16 bestimmt wird. Die Gleichung 16 kann allerdings auch nur im unteren Teil des Frequenzbereichs bis zu einer Grenze angewendet werden, die festgelegt oder von der Natur der Sprache abhängig sein kann, und eine willkürliche Phase kann auf die Komponenten einer höheren Frequenz angewendet werden.
  • Die oben für die Fig. 9 beschriebenen Anordnungen sind primär für die von einer menschlichen Stimme gesprochene Sprache vorgesehen. Um eine Sprache einzusetzen, die nicht von einer menschlichen Stimme gesprochen wird, weist der Codierer in herkömmlicher Weise einen Detektor 92 für menschliche/nicht menschliche Sprache auf, der den Decodierer veranlaßt, über einen Schalter 93 zwischen dem Erregungsschalter 64 und einem Rauschgenerator zu schalten, dessen Amplitude durch ein Verstärkungssignal vom Codierer gesteuert wird.
  • Obwohl die Einstellung durch Addition von Phasenwerten illustriert wurde, ist das nicht der einzige Weg zur Erzielung des erwünschten Ergebnisses, zum Beispiel könnte auf das Synthesefilter 65 statt dessen ein Allpaßfilter folgen (oder diesem vorausgehen), das das Ansprechverhalten von Gleichung 15 zeigt.
  • Es ist anzumerken, daß obwohl Decodierer beschrieben wurden, die codierte und ihnen übertragene Signale decodieren, ist es auch ebenso gut möglich, sie dazu zu verwenden, Sprache aus codierten, gespeicherten und später wieder aufgerufenen Signalen zu erzeugen, d. h., sie können einen Teil eines Sprachsynthesisers bilden.

Claims (10)

1. Decodierer für Sprachsignale, der umfaßt:
eine Einrichtung zum Empfang einer Größenspektrumsinformation zur Synthese eines zeitvariablen Signals,
eine Einrichtung zur Berechnung einer Phasenspektrumsinformation aus der Größenspektrumsinformation, die einem Minimalphasenfilter entspricht, die ein Größenspektrum aufweist, das der Größenspektrumsinformation entspricht, eine Einrichtung zur Erzeugung des zeitvariablen Signals aus der Größenspektrumsinformation und der Phasenspektrumsinformation und
eine Phaseneinstelleinrichtung, die zur Modifizierung des Phasenspektrums des Signals betrieben werden kann, wobei die Phaseneinstelleinrichtung so betrieben werden kann, daß die Phase in Übereinstimmung mit der Transferfunktion eines Allpaßfilters eingestellt wird, die in einer z- Ebenendarstellung mindestens einen Pol aufweist, der sich außerhalb des Einheitskreises befindet.
2. Decodierer zur Decodierung von Sprachsignalen, die Information, die das Ansprechen eines Minimalphasensynthesefilters definiert und Größenspektrumsinformation zur Synthese eines Erregungssignals enthält, wobei der Decodierer aufweist:
eine Einrichtung zur Erzeugung eines Erregungssignals aus der Größenspektrumsinformation,
ein Synthesefilter, das über die Ansprechinformation gesteuert wird und zur Filterung des Erregungssignals vorgesehen ist, und
eine Phaseneinstelleinrichtung zur Abschätzung eines Phaseneinstellsignals zur Modifizierung der Phase des Signals, wobei die Phaseneinstelleinrichtung zur Einstellung der Phase in Übereinstimmung mit der Transferfunktion eines Allpaßfilters betrieben werden kann, die in einer z- Ebenendarstellung mindestens einen Pol aufweist, der sich außerhalb des Einheitskreises befindet.
3. Decodierer nach Anspruch 2, bei dem die Einrichtung zur Erzeugung der Erregung zum Empfang des Phaseneinstellsignals so vorgesehen ist, daß eine Erregung erzeugt wird, durch die ein Phasenspektrum bestimmt wird.
4. Decodierer nach Anspruch 1 oder 2, bei dem die Phaseneinstelleinrichtung so angeordnet ist, daß sie im Betrieb die Phase des Signals nach seiner Erzeugung modifiziert.
5. Decodierer nach einem der vorhergehenden Ansprüche, bei dem die Phaseneinstelleinrichtung so betrieben werden kann, daß die Phase in Übereinstimmung mit der Transferfunktion eines Allpaßfilters eingestellt wird, die in einer z-Ebenendarstellung zwei reelle Nullen an den Positionen &beta;&sub1;, &beta;&sub2; innerhalb des Einheitskreises und zwei Pole an den Positionen 1/&beta;&sub1;, 1/&beta;&sub2; außerhalb des Einheitskreises aufweist.
6. Decodierer nach einem der vorhergehenden Ansprüche, bei dem die Position des Pols oder jedes Pols konstant ist.
7. Decodierer nach einem der vorhergehenden Ansprüche, bei dem die Einstelleinrichtung so ausgeführt ist, daß sie im Betrieb die Position des Pols oder eines Pols als Funktion der vom Decodierer erhaltenen Information über die Pitchperiode ändert.
8. Verfahren zur Codierung und Decodierung von Sprachsignalen, das die folgenden Schritte aufweist:
(a) Erzeugung von Signalen, die das Größenspektrum des Sprachsignals darstellen,
(b) Empfangen der Signale,
(c) Erzeugung eines synthetischen Sprachsignals aus den empfangenen Signalen, das ein Größenspektrum aufweist, das durch die empfangenen Signale bestimmt wird und das ein Phasenspektrum aufweist, das einer Transferfunktion entspricht, die bei graphischer Darstellung in einer z-Ebene mindestens einen Pol außerhalb des Einheitskreises aufweist.
9. Verfahren nach Anspruch 8, bei dem das Phasenspektrum des synthetischen Sprachsignals durch Berechnen eines Minimalphasenspektrums aus den empfangenen Signalen und durch Bilden eines zusammengesetzten Phasenspektrums bestimmt wird, das eine Kombination des Minimalphasenspektrums und eines Spektrums darstellt, das dem Pol bzw. den Polen entspricht.
10. Verfahren nach Anspruch 8, bei dem in den Signalen solche Signale enthalten sind, die ein Minimalphasensynthesefilter vorgeben und das Phasenspektrum des synthetischen Sprachsignals durch das vorgegebene Synthesefilter und durch ein Phasenspektrum bestimmt wird, das dem Pol bzw. den Polen entspricht.
DE69702261T 1996-07-30 1997-07-28 Sprachkodierung Expired - Lifetime DE69702261T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP96305576 1996-07-30
PCT/GB1997/002037 WO1998005029A1 (en) 1996-07-30 1997-07-28 Speech coding

Publications (2)

Publication Number Publication Date
DE69702261D1 DE69702261D1 (de) 2000-07-13
DE69702261T2 true DE69702261T2 (de) 2001-01-25

Family

ID=8225033

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69702261T Expired - Lifetime DE69702261T2 (de) 1996-07-30 1997-07-28 Sprachkodierung

Country Status (6)

Country Link
US (1) US6219637B1 (de)
EP (1) EP0917709B1 (de)
JP (1) JP2000515992A (de)
AU (1) AU3702497A (de)
DE (1) DE69702261T2 (de)
WO (1) WO1998005029A1 (de)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3644263B2 (ja) * 1998-07-31 2005-04-27 ヤマハ株式会社 波形形成装置及び方法
EP0987680B1 (de) * 1998-09-17 2008-07-16 BRITISH TELECOMMUNICATIONS public limited company Audiosignalverarbeitung
DE69939086D1 (de) 1998-09-17 2008-08-28 British Telecomm Audiosignalverarbeitung
US6397175B1 (en) * 1999-07-19 2002-05-28 Qualcomm Incorporated Method and apparatus for subsampling phase spectrum information
US7039581B1 (en) * 1999-09-22 2006-05-02 Texas Instruments Incorporated Hybrid speed coding and system
US20030048129A1 (en) * 2001-09-07 2003-03-13 Arthur Sheiman Time varying filter with zero and/or pole migration
US7353168B2 (en) * 2001-10-03 2008-04-01 Broadcom Corporation Method and apparatus to eliminate discontinuities in adaptively filtered signals
WO2004006225A1 (en) * 2002-07-08 2004-01-15 Koninklijke Philips Electronics N.V. Sinusoidal audio coding
RU2353980C2 (ru) * 2002-11-29 2009-04-27 Конинклейке Филипс Электроникс Н.В. Аудиокодирование
GB2398981B (en) * 2003-02-27 2005-09-14 Motorola Inc Speech communication unit and method for synthesising speech therein
US8145477B2 (en) * 2005-12-02 2012-03-27 Sharath Manjunath Systems, methods, and apparatus for computationally efficient, iterative alignment of speech waveforms
JP6011039B2 (ja) * 2011-06-07 2016-10-19 ヤマハ株式会社 音声合成装置および音声合成方法
KR101475894B1 (ko) * 2013-06-21 2014-12-23 서울대학교산학협력단 장애 음성 개선 방법 및 장치
KR20160087827A (ko) 2013-11-22 2016-07-22 퀄컴 인코포레이티드 고대역 코딩에서의 선택적 위상 보상
CN107851433B (zh) * 2015-12-10 2021-06-29 华侃如 基于谐波模型和声源-声道特征分解的语音分析合成方法
CN113114160B (zh) * 2021-05-25 2024-04-02 东南大学 一种基于时变滤波器的线性调频信号降噪方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4475227A (en) * 1982-04-14 1984-10-02 At&T Bell Laboratories Adaptive prediction
JPS6031325A (ja) * 1983-07-29 1985-02-18 Nec Corp 予測停止adpcm符号化方式およびその回路
EP0243561B1 (de) * 1986-04-30 1991-04-10 International Business Machines Corporation Verfahren und Einrichtung zur Tonerkennung
US4771465A (en) 1986-09-11 1988-09-13 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech sinusoidal vocoder with transmission of only subset of harmonics
US4969192A (en) * 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
JP3528258B2 (ja) 1994-08-23 2004-05-17 ソニー株式会社 符号化音声信号の復号化方法及び装置
GB9417185D0 (en) * 1994-08-25 1994-10-12 Adaptive Audio Ltd Sounds recording and reproduction systems

Also Published As

Publication number Publication date
EP0917709B1 (de) 2000-06-07
JP2000515992A (ja) 2000-11-28
DE69702261D1 (de) 2000-07-13
US6219637B1 (en) 2001-04-17
AU3702497A (en) 1998-02-20
EP0917709A1 (de) 1999-05-26
WO1998005029A1 (en) 1998-02-05

Similar Documents

Publication Publication Date Title
DE69702261T2 (de) Sprachkodierung
EP1979901B1 (de) Verfahren und anordnungen zur audiosignalkodierung
DE69032168T2 (de) Dynamisches codebuch zur wirksamen sprachcodierung unter anwendung von algebraischen coden
DE69518452T2 (de) Verfahren für die Transformationskodierung akustischer Signale
DE69700084T2 (de) Verfahren zur Transformierung eines periodischen Signales unter Verwendung eines geplätteten Spectrogrammes, Verfahren zur Transformierung von Schall bei Verwendung von Phasenkomponenten und Verfahren zur Analyse eines Signales unter Verwendung einer optimalen Interpolationsfunktion
DE4237563C2 (de) Verfahren zum Synthetisieren von Sprache
DE69029120T2 (de) Stimmenkodierer
DE69227401T2 (de) Verfahren zum Kodieren und Dekodieren von Sprachsignalen
DE69910240T2 (de) Vorrichtung und verfahren zur wiederherstellung des hochfrequenzanteils eines überabgetasteten synthetisierten breitbandsignals
DE69916321T2 (de) Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen
DE68907629T2 (de) Vektorquantisierung für eine Anordnung zur harmonischen Sprachcodierung.
DE3789476T2 (de) Digitaler Vocoder.
DE69604526T2 (de) Verfahren zur Anpassung des Rauschmaskierungspegels in einem Analyse-durch-Synthese-Sprachkodierer mit einem wahrnehmunggebundenen Kurzzeitfilter
DE69317958T2 (de) Kodierer von Audiosignalen mit niedriger Verzögerung, unter Verwendung von Analyse-durch-Synthese-Techniken
DE69431445T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE602005003358T2 (de) Audiokodierung
DE69329569T2 (de) Digitale Kodierung von Sprachsignalen
DE69328064T2 (de) Zeit-Frequenzinterpolation mit Anwendung zur Sprachkodierung mit niedriger Rate
DE69720861T2 (de) Verfahren zur Tonsynthese
DE69121411T2 (de) Methode und gerät zur codierung von analogen signalen
DE102006051673A1 (de) Vorrichtung und Verfahren zum Nachbearbeiten von Spektralwerten und Encodierer und Decodierer für Audiosignale
DE69618408T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE69612958T2 (de) Verfahren und vorrichtung zur resynthetisierung eines sprachsignals
EP1023777B1 (de) Verfahren und vorrichtung zur erzeugung eines bitratenskalierbaren audio-datenstroms
DE69017842T2 (de) Verfahren und Einrichtung zur Codierung von Prädiktionsfiltern in Vocodern mit sehr niedriger Datenrate.

Legal Events

Date Code Title Description
8364 No opposition during term of opposition