DE69702261T2

DE69702261T2 - Sprachkodierung

Info

Publication number: DE69702261T2
Application number: DE69702261T
Authority: DE
Inventors: Michael Cheetham; Bun Choi; Xiaoqin Sun
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 1996-07-30
Filing date: 1997-07-28
Publication date: 2001-01-25
Anticipated expiration: 2017-07-29
Also published as: EP0917709B1; JP2000515992A; DE69702261D1; US6219637B1; AU3702497A; EP0917709A1; WO1998005029A1

Description

Die vorliegende Erfindung betrifft Sprachcodierung und Sprachdecodierung und insbesondere Systeme, in denen im Codierungsprozeß unterlassen wird, alle Phaseninformationen oder eine beliebige Phaseninformation zu übertragen, die in dem codierten Signal enthalten sind/ist.
Gemäß einem Aspekt der vorliegenden Erfindung ist ein Decodierer für Sprachsignale angegeben, der umfaßt:
eine Einrichtung zum Empfang einer Größenspektrumsinformation zur Synthese eines zeitvariablen Signals, eine Einrichtung zur Berechnung einer Phasenspektrumsinformation aus der Größenspektrumsinformation, die einem Minimalphasenfilter entspricht, die ein Größenspektrum aufweist, das der Größenspektrumsinformation entspricht, eine Einrichtung zur Erzeugung des zeitvariablen Signals aus der Größenspektrumsinformation und der Phasenspektrumsinformation und
eine Phaseneinstelleinrichtung, die zur Modifizierung des Phasenspektrums des Signals betrieben werden kann.
Gemäß einem weiten Aspekt der vorliegenden Erfindung ist ein Decodierer zur Decodierung von Sprachsignalen angegeben, die das Ansprechen eines Minimalphasensynthesefilters definiert und Größenspektrumsinformationen zur Synthese eines Erregungssignals enthält, wobei der Decodierer aufweist:
eine Einrichtung zur Erzeugung eines Erregungssignals aus der Größenspektrumsinformation,
ein Synthesefilter, das über die Ansprechinformation gesteuert wird und zur Filterung des Erregungssignals vorgesehen ist, und
eine Phaseneinstelleinrichtung zur Abschätzung eines Phaseneinstellsignals zur Modifizierung der Phase des Signals.
Gemäß einem weiten Aspekt der vorliegenden Erfindung ist ein Verfahren zur Codierung und Decodierung von Sprachsignalen angegeben, das die folgenden Schritte aufweist:
(a) Erzeugung von Signalen, die das Größenspektrum des Sprachsignals darstellen,
(b) Empfangen der Signale,
(c) Erzeugung eines synthetischen Sprachsignals aus den empfangenen Signalen, das ein Größenspektrum aufweist, das durch die empfangenen Signale bestimmt wird, und das ein Phasenspektrum aufweist, das einer Transferfunktion entspricht, die bei graphischer Darstellung in einer z-Ebene, mindestens einen Pol außerhalb des Einheitskreises aufweist.
Einige Ausführungsformen der vorliegenden Erfindung sind im folgenden unter Bezug auf die beigefügten Zeichnungen beispielhaft beschrieben, in denen zeigen:
Fig. 1 ein Blockdiagramm eines bekannten Sprachcodierers und Sprachdecodierers,
Fig. 2 ein Modell für das menschliche Stimmsystem,
Fig. 3 ein Blockdiagramm eines Sprachdecodierers gemäß einer Ausführungsform der vorliegenden Erfindung,
Fig. 4 und 5 Diagramme, die die vom Decodierer von Fig. 3 erhaltenen Testergebnisse zeigen,
Fig. 6 ein Diagramm der Form eines (bekannten) Rosenberg-Pulses,
Fig. 7 ein Blockdiagramm einer zweiten Form eines erfindungsgemäßen Sprachdecodierers,
Fig. 8 ein Blockdiagramm eines bekannten Typs eines Sprachcodierers,
Fig. 9 ein Blockdiagramm einer dritten Ausführungsform des erfindungsgemäßen Decodierers zur Verwendung mit dem Codierer von Fig. 9 und
Fig. 10 eine graphische Darstellung einer z-Ebene zur Erläuterung der Erfindung.
Bei diesem ersten Beispiel wurde angenommen, daß beim Codieren und Decodieren von Sprachsignalen eine Sinusumwandlungs-Codierungstechnik (STC) eingesetzt wurde. Diese Technik wurde von R. J. McAulay und T. F. Quatieri vorgeschlagen und ist in ihrer Veröffentlichung: "Speech Analysis/Synthesis based on a Sinusoidal Representation", IEEE Trans. Acoust. Speech Signal Process. ASSP-34, SS. 744- 754, 1986, und in "Low-rate Speech Coding based on the Sinusoidal Model" der gleichen Autoren, in "Advances in Speech Signal Processing", Hrsg. S. Furui und M. M. Sondhi, Marcel Dekker Inc., 1992, beschrieben. Die Prinzipien sind in Fig. 1 erläutert, in der ein Codierer Sprachbeispiele s(n) in digitaler Form an einem Eingang 1 erhält und Sprachsegmente von typischerweise 20 ms Dauer in einer Einheit 2 zur schnellen Fourier-Transformation einer Fourier-Analyse unterworfen werden, um das Kurzzeitfrequenzspektrum der Sprache zu bestimmen. Im einzelnen sind es die Amplituden und Frequenzen der Peaks im Größenspektrum, die von Interesse sind, wobei die Frequenzen - bei einer von einer menschlichen Stimme gesprochenen Sprache - unterstelltermaßen Harmonische einer Pitchfrequenz sind, die durch einen Pitch-Detektor 3 abgeleitet werden. Das Phasenspektrum wird im Interesse der Übertragungseffektivität nicht übertragen und eine Darstellung des Größenspektrums wird für die Übertragung zu einem Decodierer in diesen Beispiel durch Anpassung einer Hüllkurve an das Größenspektrum und durch Kennzeichnung dieser Hüllkurve durch einen Satz von Koeffizienten (z. B. LSP-Koeffizienten (Linienspektralpaar-Koeffizienten)) erhalten. Diese Funktion wird von einer Umwandlungseinheit 4, die die Fourier- Koeffizienten erhält und die die Kurvenanpassung durchführt, und durch eine Einheit 5 realisiert, die die Hüllkurve in LSP-Koeffizienten umwandelt, die den Ausgang des Codierers bilden.
Der entsprechende Decodierer ist auch in Fig. 1 gezeigt. Er erhält die Hüllkurveninformation; da ihm aber die Phaseninformation fehlt, muß er das Phasenspektrum aufgrund von Annahmen rekonstruieren. Die verwendete Annahme ist die, daß das durch die erhaltenen LSP-Koeffizienten dargestellte Größenspektrum das Größenspektrum einer Minimalphasen-Transferfunktion ist, - was zu der Annahme führt, daß das menschliche Stimmsystem als impulsiv erregtes Minimalphasenfilter angesehen werden kann. Somit leitet eine Einheit 6 das Größenspektrum aus den erhaltenen LSP- Koeffizienten ab, und eine Einheit 7 berechnet auf der Basis der Minimalphasenannahme das Phasenspektrum, das diesem Größenspektrum entspricht. Aus den zwei Spektren erzeugt ein Sinussynthesizer 8 die Summe eines Satzes sinusförmiger Harmonischer mit der Pitchfrequenz, die Amplituden und Phasen aufweisen, die durch die Spektren bestimmt sind.
Bei der Sinussprachsynthese wird ein synthetisches Sprachsignal y(n) durch die Summe der Sinuswellen gebildet:
worin Ak und Φk die Amplitude und Phase jeder Sinuswellenkomponente bedeuten, die mit der Frequenzspur ωk verbunden ist, und N die Anzahl der Sinuskurven bedeutet.
Obwohl es keine Vorbedingung darstellt, ist es allgemein gebräuchlich, anzunehmen, daß die Sinuskurven in einer harmonischen Beziehung stehen, daher:
wobei ψk(n) = kωo(n)n (3)
und worin bedeuten: Φk(n) die momentane relative Phase der Harmonischen, Ψk(n) die momentane lineare Phasenkomponente und ωo(n) die momentane Grundpitchfrequenz.
Ein einfaches Beispiel für eine Sinussynthese ist die Überlappungs- und Additionstechnik. In diesem Schema werden Ak(n), ωo(n) und Ψk(n) periodisch aktualisiert und es wird angenommen, daß sie während eines kurzen Zeitrahmens von beispielsweise 10 ms konstant sind. Der i-te Signalrahmen wird somit wie folgt synthetisiert:
Es ist anzumerken, daß es sich hier im wesentlichen um eine inverse diskrete Fourier-Transformation handelt. Diskontinuitäten bei den Rahmengrenzen werden vermieden, indem die benachbarten Rahmen wie folgt kombiniert werden:
i(n) = W(n)yi-1(n) + W(n - T)yi(n - T) (5),
worin bedeuten: W(n) ein Überlappungs- und Additionsfenster, das beispielsweise dreieckig oder trapezförmig ist, T die Rahmendauer, die als Anzahl von Abtastperioden ausgedrückt ist, und
W(n) + W(n - T) = 1 (6).
In einer alternativen Lösung kann y(n) kontinuierlich durch Interpolation des Amplituden- und Phasenausdrucks in Gleichung 2 berechnet werden. In solchen Schemata wird die Größenkomponente Ak(n) oft linear zwischen den Aktualisierungen interpoliert, während von mehreren Techniken demgegenüber berichtet wurde, daß sie die Phasenkomponente interpolieren. In einer Lösung (McAulay und Quatieri) werden die momentane kombinierte Phase (Ψk(n) + Φ(n)) und die Pitchfrequenz ωo(n) an jedem Aktualisierungspunkt spezifiziert. Die interpolierte Phasentrajektorie kann dann durch ein kubisches Polynom dargestellt werden. In einer anderen Lösung (Kleijn) werden Ψk(n) und Φ(n) getrennt interpoliert. In diesem Fall wird Φ(n) direkt an den Aktualisierungspunkten spezifiziert und linear interpoliert, während die momentane lineare Phasenkomponente Φk(n) an den Aktualisierungspunkten als Pitchfrequenz ωo(n) spezifiziert wird und nur eine quadratische polynomische Interpolation benötigt.
Aus der obigen Beschreibung geht klar hervor, daß ein Sinussynthesizer als eine Einheit verallgemeinert werden kann, die aus den periodisch aktualisierten Werten Ak(n), ωo(n) und Φk(n) ein kontinuierliches Signal y(n) erzeugt.
Die Anzahl der Sinuswellen kann festgelegt oder zeitvariabel sein.
Somit besteht im Rahmen der vorliegenden Erfindung ein Interesse an Sinussyntheseschemata, bei denen die ursprüngliche Phaseninformation nicht verfügbar ist und Φk auf irgendeine Weise am Synthesiser erhalten werden muß.
Obwohl das System von Fig. 1 durchaus zufriedenstellende Ergebnisse liefert, bieten der Codierer und der Decodierer, die im folgenden beschrieben sind, alternative Annahmen im Hinblick auf das Phasenspektrum. Die Vorstellung, daß der menschliche Stimmapparat als Impulserregung e(n) angesehen werden kann, die aus einer regelmäßigen Reihe von Deltafunktionen besteht, die ein zeitvariables Filter H(z) antreiben (wobei z die z-Umwandlungsvariable darstellt), kann dadurch noch weiter verfeinert werden, daß H(z) als von drei Filtern erzeugt angesehen wird, wie in Fig. 2 gezeigt ist, nämlich durch ein Glottisfilter 20, das eine Transferfunktion G(z) aufweist, durch ein Stimmtraktfilter 21, das eine Transferfunktion V(z) aufweist und durch ein Lippenabstrahlfilter 22, das eine Transferfunktion L(z) aufweist. In der vorliegenden Beschreibung sind die Zeitbereichsdarstellungen der Variablen und die Impulsantworten der Filter unten dargestellt, während ihre z-Umwandlungen und die Frequenzbereichsdarstellungen oben Fall mit den gleichen Buchstaben bezeichnet sind. Daher kann für das Sprachsignal s(n):
s(n) = e (n) · h(n) = e(n) · g(n) · v(n) · l(n) (7)
oder
S(z) = E(z)H(z) = E(z)G(z)V(z)L(z) (8)
geschrieben werden.
Da das Spektrum e(n) eine Reihe von Linien an den Harmonischen der Pitchfrequenz aufweist, folgt daraus, daß die Größe s an der Frequenz jeder Harmonischen die folgende ist:
S(ejω) = E(ejω) H(ejω) = A H(ejω) (9),
wobei A eine Konstante ist, die durch die Amplitude von e(n) bestimmt wird und die Phase die folgende ist:
arg(S(ejω)) = arg(E(ejω))+arg(H(ejω)) = 2mπ + arg(H(ejω)) (10),
wobei m eine beliebige ganze Zahl ist.
Wenn angenommen wird, daß das Größenspektrum am Decoder von Fig. 1 H(ejω) entspricht, wird die regenerierte Sprache auf den Umfang verringert, daß sich das verwendete Phasenspektrum von arg (H(ejω)) unterscheidet.
Wenn nun die Komponenten G, V und L berücksichtigt werden, ist die Minimalphase eine gute Annahme für die Stimmtrakt- Transferfunktion V(z). Typischerweise kann durch ein Allpolmodell dargestellt werden, das die Transferfunktion
aufweist, wobei ρi die Pole der Transferfunktion darstellen und direkt auf die Sprachbildungsfrequenzen bezogen sind, und P die Anzahl der Pole bedeutet.
Das Lippenabstrahlfilter kann als Differentiator betrachtet werden, für den gilt:
L/z) = 1 - αz&supmin;¹ (12),
wobei α eine einzelne Null bedeutet, die einen Wert nahe an Eins (typischerweise 0,95) aufweist.
Während die Minimalphasenannahme für V(z) und L(z) gut ist, besteht die Ansicht, daß sie für G(z) weniger Gültigkeit besitzt. Wenn berücksichtigt wird, daß eine beliebige Filtertransferfunktion als Produkt einer Minimalphasenfunktion und eines Allpaßfilters dargestellt werden kann, ist die Annahme möglich, daß
G(z) = Gmin/z) Gap(z) (13).
Der Decodierer, der unter Bezugnahme auf Fig. 3 kurz beschrieben ist, beruht auf der Annahme, daß das mit G verbundene Größenspektrum das Größenspektrum ist, das
entspricht. Im Hinblick auf den Decodierer wird mit der Annahme fortgefahren, daß eine geeignete Transferfunktion für Gap ist:
Das entsprechende Phasenspektrum für Gap ist:
Beim Decodierer von Fig. 3 sind die Bezugsziffern 6, 7 und 8 die gleichen wie in Fig. 1. Das Phasenspektrum, das bei 7 berechnet wird, wird jedoch eingestellt. Eine Einheit 31 erhält die Pitchfrequenz und berechnet die Werte % gemäß Gleichung 16 für die relevanten Werte ω, d. h., für die Harmonischen der Pitchfrequenz für den gegenwärtigen Sprachrahmen. Diese werden dann vor dem Sinussyntheziser 8 in einem Addierer 32 zu den Minimalphasenwerten hinzu addiert.
Mit dem Decodierer von Fig. 3 wurden Experimente mit einem festen Wert β1 = β2 = 0,8 durchgeführt (obwohl - wie im folgenden beschrieben ist - ein variabler Wert β ebenfalls möglich ist). Diese Experimente haben eine Verbesserung des gemessenen Phasenfehlers (wie in Fig. 4 angeführt ist) sowie in subjektiven Tests (Fig. 5) ergeben, in denen Zuhörer gebeten wurden, sich die Ausgangssignale der vier Decodierer anzuhören und sie im Hinblick auf die Sprachqualität in einer Vorzugsreihenfolge anzuordnen. Die Auswahl wurde wie folgt bewertet: erster Platz = 4, zweiter Platz = 3, dritter Platz = 2 und vierter Platz = 1; danach wurden diese Bewertungen addiert.
Die Ergebnisse enthalten Zahlen für einen Rosenberg-Puls. Wie von A. E. Rosenberg in "Effect of Glottal Pulse Shape on the Quality of Natural Vowels", J. Acoust. Soc. of America. Bd. 49, Nr. 2, 1971, S. 583-590, beschrieben, ist dies eine Pulsform, die für das Ausgangssignal des Glot tisfilters G postuliert wird. Die Form eines Rosenberg- Pulses ist in Fig. 6 gezeigt und ist als
g(t) = A(3(t / Tp)² - 2(t / Tp)³) 0 ≤ t ≤ Tp
g(t) = 0 Tp + TN < t ≤ p
definiert, wobei p die Pitchperiode darstellt und Tp und TN die Glottisöffnungszeit bzw. die Glottisschließzeit darstellen.
Eine Alternative zur Gleichung 16 ist es daher, wie in Fig. 7 gezeigt, bei 31 eine berechnete Phase anzulegen, die gleich der Phase g(t) von Gleichung 17 ist. Damit jedoch die Komponente des Rosenberg-Pulsspektrums, die durch eine Minimalphasen-Transferfunktion dargestellt werden kann, nicht doppelt angelegt wird, wird bei 71 das Größenspektrum entsprechend der Gleichung 17 berechnet und von den Amplitudenwerten subtrahiert, bevor diese durch die Phasenspektrums-Berechnungseinheit 7 verarbeitet werden. Die Ergebnisse sind wie folgt: Tp = 0,33 P, TN = 0,1 P.
Die gleichen Überlegungen lassen sich auch auf Anordnungen anwenden, in denen ein Codierer versucht, die Glottiserregung und die Stimmtraktantwort zu zerlegen - die sogenannten lineare Vohersage-Codierer. Hier (Fig. 8) wird die eingegebene Sprache bei 60 rahmenweise analysiert, um die Parameter eines Filters zu bestimmen, das eine Spektrumsantwort aufweist, die der eingegebenen Sprache ähnlich ist. Der Codierer bildet dann mit der Umkehr dieser Antwort ein Filter 61, und das Sprachsignal wird so durch dieses Inversionsfilter geführt, daß ein Restsignal r(n) erzeugt wird, das idealerweise ein flaches Spektrum aufweist, das in der Praxis flacher als das Spektrum der ursprünglichen Sprache ist. Der Codierer überträgt Details der Filterantwort zusammen mit Information 63 in der Weise, daß der Decodierer befähigt wird, ein Erregungssignal zu konstruieren 64, das in gewisser Weise dem Restsignal gleicht und vom Decodierer zum Antrieb eines Synthesefilters 65 verwendet werden kann, um ein Ausgangssprachsignal zu erzeugen. Für die verschiedenen Wege zur Übertragung der Restinformation sind viele Vorschläge gemacht worden, wie z. B.:
(a) Sendung einer Pitchperiode und eines Verstärkungswertes zur Steuerung eines Pulsgenerators für die von einer menschlichen Stimme gesprochene Sprache und eines Verstärkungswertes zur Steuerung eines Rauschgenerators für die nicht von einer menschlichen Stimme gesprochene Sprache,
(b) eine quantisierte Version des Restes (RELP-Codierung),
(c) eine vektoriell quantisierte Version des Restes (CELP- Codierung)
(d) eine codierte Darstellung eines unregelmäßigen Pulsstranges (MPLPC-Codierung),
(e) Einzelheiten eines einzelnen Zyklus des Restes, mit dem der Decodierer eine Wiederholungsfrequenz der Rahmenlänge synthetisieren kann (Wellenforminterpolation eines Prototypen oder PWI) (S. W. B. Kleijn, "Encoding Speech using Prototype Waveforms", IEEE Trans. Speech and Audio Processing, Bd. 1, Nr. 4, Oktober 1993, S. 386-399, und W. B. Kleijn und J. Haagen, "A Speech Coder based on Decomposition of Characteristic Waveforms", Proc ICASSP, 1995, S. 508-511.
Falls die Phaseninformation über die Erregung von der Übertragung weggelassen wird, dann entsteht eine ähnliche Situation wie die Situation, die in Verbindung mit Fig. 2 beschrieben wurde, nämlich, daß Annahmen bezüglich des einzusetzenden Phasenspektrums zu machen sind. Ob die Pha seninformation für das Synthesefilter enthalten ist, ist hier nicht relevant, da die LPC-Analyse generell in jedem Fall eine Minimalphasen-Transferfunktion erzeugt, so daß es für die Zwecke dieser Beschreibung nicht von Bedeutung ist, ob die Phasenantwort in der übertragenen Filterinformation enthalten ist (typischerweise handelt es sich um einen Satz von Filterkoeffizienten), oder ob sie im Decodierer auf der Basis einer Minimalphasenannahme berechnet wird.
In diesem Zusammenhang sind Prototyp-Wellenforminterpolations-Codierer (PWI-Codierer) von besonderem Interesse, bei denen üblicherweise der gewonnene Rest- Pitschzyklus des Prototypen unter Anwendung einer Fourier- Transformation analysiert wird. Statt daß einfach die Fourier-Koeffizienten quantisiert werden, wird vielmehr eine Einsparung an Übertragungskapazität erreicht, indem nur die Größe und die Pitchperiode gesendet werden. Daher folgt in der Anordnung von Fig. 9, in denen die Gegenstände, die denen von Fig. 8 gleichen, mit den gleichen Bezugsziffern bezeichnet wurden, auf die Erregungseinheit 63 - die hier nach dem PWI-Prinzip funktioniert und an ihren Ausgängen Sätze von Fourier-Koeffizienten erzeugt - eine Einheit 80, die nur die Größeninformation und die Pitchperiode abfragt und sie zum Decodierer überträgt. Am Decodierer berechnet eine Einheit 91 - analog der Einheit 31 in Fig. 3 - die Phaseneinstellwerte ΦF unter Verwendung der Gleichung 16 und steuert die Phase eines Erregungsgenerators 64. In diesem Beispiel ist β&sub1; bei 0,95 festgelegt, während β&sub2; als Funktion der Pitchperiode p in Übereinstimmung mit der folgenden Tabelle gesteuert wird: Tabelle 1: Der in F(z) für den Bereich der Pitchperioden verwendete Wert β
Diese Werte werden so gewählt, daß die Allpaß-Transferfunktion der Gleichung 15 eine Phasenantwort aufweist, die dem Teil des Phasenspektrums eines Rosenberg-Pulses mit den folgenden Werten TP = 0,4 p und TN = 0,16 p äquivalent ist, der im LPC-Synthesefilter 65 nicht modelliert ist. Wie oben angegeben, wird die Einstellung vorher in einem Addierer 83 addiert und erneut in Fourier-Koeffizienten umgewandelt, bevor sie dem PWI-Erregungsgenerator 64 weitergeleitet wird.
Die Berechnungseinheit 91 kann durch eine digitale Signalverarbeitungseinheit realisiert werden, die zur Implementierung der Gleichung 16 programmiert wurde.
Es ist von Interesse, den Effekt dieser Einstellungen durch Pole und Nullen in der z-Ebene zu berücksichtigen.
Die angenommene totale Transferfunktion H(z) ist das Produkt von G, V und L und weist somit innerhalb des Einheitskreises P Pole an der Position ρi und eine Null an der Position α, und außerhalb des Einheitskreises zwei Pole an den Positionen 1/β&sub1;, 1/β&sub2; auf, wie in Fig. 10 angeführt ist. Der Effekt der inversen LPC-Analyse ist, daß ein Inversionsfilter 61 erzeugt wird, das das Spektrum mit Hilfe von Nullen abflacht, die etwa mit den Polen an der Position ρi zusammenfallen. Das Filter, das ein Minimalphasenfilter ist, kann außerhalb des Einheitskreises an den Positionen 1/β&sub1;, 1/β&sub2; keine Nullen erzeugen, erzeugt aber statt dessen Nullen an den Positionen β&sub1; und β&sub2;, die die Tendenz haben, die Größenantwort, nicht aber die Phasenantwort abzuflachen (das Filter kann keinen Pol erzeugen, um die Null bei Position α zu entfernen, da aber β&sub1; üblicherweise einen ähnlichen Wert, bezogen auf α aufweist, ist es üblich, anzunehmen, daß α Null und der 1/β&sub1; Pol im Größenspektrum gelöscht wird, so daß das Inversionsfilter gerade an den Positionen ρi und β&sub2; aufweist. Somit weist der Rest ein Phasenspektrum auf, das durch zwei Nullen an den Positionen β&sub1; und β&sub2; in der z-Ebene (wobei die β Werte aufweisen, die dem ursprünglichen Signal entsprechen) und Pole an den Positionen 1/β&sub1; und 1/β&sub2; dargestellt ist (wobei die β Werte aufweisen, so wie sie durch die LPC-Analyse bestimmt sind). Wenn diese Information verloren gegangen ist, wird sie durch die Näherungsrechnung des Allpaßfilters gemäß den Gleichungen 15 und 16 erzeugt, die Nullen und Pole an diesen Positionen aufweisen.
Die vorliegende Beschreibung geht von der Annahme einer Phaseneinstellung aus, die bei allen Frequenzen durch die Gleichung 16 bestimmt wird. Die Gleichung 16 kann allerdings auch nur im unteren Teil des Frequenzbereichs bis zu einer Grenze angewendet werden, die festgelegt oder von der Natur der Sprache abhängig sein kann, und eine willkürliche Phase kann auf die Komponenten einer höheren Frequenz angewendet werden.
Die oben für die Fig. 9 beschriebenen Anordnungen sind primär für die von einer menschlichen Stimme gesprochene Sprache vorgesehen. Um eine Sprache einzusetzen, die nicht von einer menschlichen Stimme gesprochen wird, weist der Codierer in herkömmlicher Weise einen Detektor 92 für menschliche/nicht menschliche Sprache auf, der den Decodierer veranlaßt, über einen Schalter 93 zwischen dem Erregungsschalter 64 und einem Rauschgenerator zu schalten, dessen Amplitude durch ein Verstärkungssignal vom Codierer gesteuert wird.
Obwohl die Einstellung durch Addition von Phasenwerten illustriert wurde, ist das nicht der einzige Weg zur Erzielung des erwünschten Ergebnisses, zum Beispiel könnte auf das Synthesefilter 65 statt dessen ein Allpaßfilter folgen (oder diesem vorausgehen), das das Ansprechverhalten von Gleichung 15 zeigt.
Es ist anzumerken, daß obwohl Decodierer beschrieben wurden, die codierte und ihnen übertragene Signale decodieren, ist es auch ebenso gut möglich, sie dazu zu verwenden, Sprache aus codierten, gespeicherten und später wieder aufgerufenen Signalen zu erzeugen, d. h., sie können einen Teil eines Sprachsynthesisers bilden.

Claims

1. Decodierer für Sprachsignale, der umfaßt:

eine Einrichtung zum Empfang einer Größenspektrumsinformation zur Synthese eines zeitvariablen Signals,

eine Einrichtung zur Berechnung einer Phasenspektrumsinformation aus der Größenspektrumsinformation, die einem Minimalphasenfilter entspricht, die ein Größenspektrum aufweist, das der Größenspektrumsinformation entspricht, eine Einrichtung zur Erzeugung des zeitvariablen Signals aus der Größenspektrumsinformation und der Phasenspektrumsinformation und

eine Phaseneinstelleinrichtung, die zur Modifizierung des Phasenspektrums des Signals betrieben werden kann, wobei die Phaseneinstelleinrichtung so betrieben werden kann, daß die Phase in Übereinstimmung mit der Transferfunktion eines Allpaßfilters eingestellt wird, die in einer z- Ebenendarstellung mindestens einen Pol aufweist, der sich außerhalb des Einheitskreises befindet.

2. Decodierer zur Decodierung von Sprachsignalen, die Information, die das Ansprechen eines Minimalphasensynthesefilters definiert und Größenspektrumsinformation zur Synthese eines Erregungssignals enthält, wobei der Decodierer aufweist:

eine Einrichtung zur Erzeugung eines Erregungssignals aus der Größenspektrumsinformation,

ein Synthesefilter, das über die Ansprechinformation gesteuert wird und zur Filterung des Erregungssignals vorgesehen ist, und

eine Phaseneinstelleinrichtung zur Abschätzung eines Phaseneinstellsignals zur Modifizierung der Phase des Signals, wobei die Phaseneinstelleinrichtung zur Einstellung der Phase in Übereinstimmung mit der Transferfunktion eines Allpaßfilters betrieben werden kann, die in einer z- Ebenendarstellung mindestens einen Pol aufweist, der sich außerhalb des Einheitskreises befindet.

3. Decodierer nach Anspruch 2, bei dem die Einrichtung zur Erzeugung der Erregung zum Empfang des Phaseneinstellsignals so vorgesehen ist, daß eine Erregung erzeugt wird, durch die ein Phasenspektrum bestimmt wird.

4. Decodierer nach Anspruch 1 oder 2, bei dem die Phaseneinstelleinrichtung so angeordnet ist, daß sie im Betrieb die Phase des Signals nach seiner Erzeugung modifiziert.

5. Decodierer nach einem der vorhergehenden Ansprüche, bei dem die Phaseneinstelleinrichtung so betrieben werden kann, daß die Phase in Übereinstimmung mit der Transferfunktion eines Allpaßfilters eingestellt wird, die in einer z-Ebenendarstellung zwei reelle Nullen an den Positionen β&sub1;, β&sub2; innerhalb des Einheitskreises und zwei Pole an den Positionen 1/β&sub1;, 1/β&sub2; außerhalb des Einheitskreises aufweist.

6. Decodierer nach einem der vorhergehenden Ansprüche, bei dem die Position des Pols oder jedes Pols konstant ist.

7. Decodierer nach einem der vorhergehenden Ansprüche, bei dem die Einstelleinrichtung so ausgeführt ist, daß sie im Betrieb die Position des Pols oder eines Pols als Funktion der vom Decodierer erhaltenen Information über die Pitchperiode ändert.

8. Verfahren zur Codierung und Decodierung von Sprachsignalen, das die folgenden Schritte aufweist:

(a) Erzeugung von Signalen, die das Größenspektrum des Sprachsignals darstellen,

(b) Empfangen der Signale,

(c) Erzeugung eines synthetischen Sprachsignals aus den empfangenen Signalen, das ein Größenspektrum aufweist, das durch die empfangenen Signale bestimmt wird und das ein Phasenspektrum aufweist, das einer Transferfunktion entspricht, die bei graphischer Darstellung in einer z-Ebene mindestens einen Pol außerhalb des Einheitskreises aufweist.

9. Verfahren nach Anspruch 8, bei dem das Phasenspektrum des synthetischen Sprachsignals durch Berechnen eines Minimalphasenspektrums aus den empfangenen Signalen und durch Bilden eines zusammengesetzten Phasenspektrums bestimmt wird, das eine Kombination des Minimalphasenspektrums und eines Spektrums darstellt, das dem Pol bzw. den Polen entspricht.

10. Verfahren nach Anspruch 8, bei dem in den Signalen solche Signale enthalten sind, die ein Minimalphasensynthesefilter vorgeben und das Phasenspektrum des synthetischen Sprachsignals durch das vorgegebene Synthesefilter und durch ein Phasenspektrum bestimmt wird, das dem Pol bzw. den Polen entspricht.