DE69702261T2 - Sprachkodierung - Google Patents
SprachkodierungInfo
- Publication number
- DE69702261T2 DE69702261T2 DE69702261T DE69702261T DE69702261T2 DE 69702261 T2 DE69702261 T2 DE 69702261T2 DE 69702261 T DE69702261 T DE 69702261T DE 69702261 T DE69702261 T DE 69702261T DE 69702261 T2 DE69702261 T2 DE 69702261T2
- Authority
- DE
- Germany
- Prior art keywords
- phase
- spectrum
- signal
- pole
- decoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000001228 spectrum Methods 0.000 claims description 66
- 238000012546 transfer Methods 0.000 claims description 18
- 230000005284 excitation Effects 0.000 claims description 16
- 230000015572 biosynthetic process Effects 0.000 claims description 15
- 238000003786 synthesis reaction Methods 0.000 claims description 15
- 238000000034 method Methods 0.000 claims description 10
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 239000002131 composite material Substances 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 230000001755 vocal effect Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 101100445834 Drosophila melanogaster E(z) gene Proteins 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 210000004704 glottis Anatomy 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 101001096074 Homo sapiens Regenerating islet-derived protein 4 Proteins 0.000 description 1
- 102100037889 Regenerating islet-derived protein 4 Human genes 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
- Die vorliegende Erfindung betrifft Sprachcodierung und Sprachdecodierung und insbesondere Systeme, in denen im Codierungsprozeß unterlassen wird, alle Phaseninformationen oder eine beliebige Phaseninformation zu übertragen, die in dem codierten Signal enthalten sind/ist.
- Gemäß einem Aspekt der vorliegenden Erfindung ist ein Decodierer für Sprachsignale angegeben, der umfaßt:
- eine Einrichtung zum Empfang einer Größenspektrumsinformation zur Synthese eines zeitvariablen Signals, eine Einrichtung zur Berechnung einer Phasenspektrumsinformation aus der Größenspektrumsinformation, die einem Minimalphasenfilter entspricht, die ein Größenspektrum aufweist, das der Größenspektrumsinformation entspricht, eine Einrichtung zur Erzeugung des zeitvariablen Signals aus der Größenspektrumsinformation und der Phasenspektrumsinformation und
- eine Phaseneinstelleinrichtung, die zur Modifizierung des Phasenspektrums des Signals betrieben werden kann.
- Gemäß einem weiten Aspekt der vorliegenden Erfindung ist ein Decodierer zur Decodierung von Sprachsignalen angegeben, die das Ansprechen eines Minimalphasensynthesefilters definiert und Größenspektrumsinformationen zur Synthese eines Erregungssignals enthält, wobei der Decodierer aufweist:
- eine Einrichtung zur Erzeugung eines Erregungssignals aus der Größenspektrumsinformation,
- ein Synthesefilter, das über die Ansprechinformation gesteuert wird und zur Filterung des Erregungssignals vorgesehen ist, und
- eine Phaseneinstelleinrichtung zur Abschätzung eines Phaseneinstellsignals zur Modifizierung der Phase des Signals.
- Gemäß einem weiten Aspekt der vorliegenden Erfindung ist ein Verfahren zur Codierung und Decodierung von Sprachsignalen angegeben, das die folgenden Schritte aufweist:
- (a) Erzeugung von Signalen, die das Größenspektrum des Sprachsignals darstellen,
- (b) Empfangen der Signale,
- (c) Erzeugung eines synthetischen Sprachsignals aus den empfangenen Signalen, das ein Größenspektrum aufweist, das durch die empfangenen Signale bestimmt wird, und das ein Phasenspektrum aufweist, das einer Transferfunktion entspricht, die bei graphischer Darstellung in einer z-Ebene, mindestens einen Pol außerhalb des Einheitskreises aufweist.
- Einige Ausführungsformen der vorliegenden Erfindung sind im folgenden unter Bezug auf die beigefügten Zeichnungen beispielhaft beschrieben, in denen zeigen:
- Fig. 1 ein Blockdiagramm eines bekannten Sprachcodierers und Sprachdecodierers,
- Fig. 2 ein Modell für das menschliche Stimmsystem,
- Fig. 3 ein Blockdiagramm eines Sprachdecodierers gemäß einer Ausführungsform der vorliegenden Erfindung,
- Fig. 4 und 5 Diagramme, die die vom Decodierer von Fig. 3 erhaltenen Testergebnisse zeigen,
- Fig. 6 ein Diagramm der Form eines (bekannten) Rosenberg-Pulses,
- Fig. 7 ein Blockdiagramm einer zweiten Form eines erfindungsgemäßen Sprachdecodierers,
- Fig. 8 ein Blockdiagramm eines bekannten Typs eines Sprachcodierers,
- Fig. 9 ein Blockdiagramm einer dritten Ausführungsform des erfindungsgemäßen Decodierers zur Verwendung mit dem Codierer von Fig. 9 und
- Fig. 10 eine graphische Darstellung einer z-Ebene zur Erläuterung der Erfindung.
- Bei diesem ersten Beispiel wurde angenommen, daß beim Codieren und Decodieren von Sprachsignalen eine Sinusumwandlungs-Codierungstechnik (STC) eingesetzt wurde. Diese Technik wurde von R. J. McAulay und T. F. Quatieri vorgeschlagen und ist in ihrer Veröffentlichung: "Speech Analysis/Synthesis based on a Sinusoidal Representation", IEEE Trans. Acoust. Speech Signal Process. ASSP-34, SS. 744- 754, 1986, und in "Low-rate Speech Coding based on the Sinusoidal Model" der gleichen Autoren, in "Advances in Speech Signal Processing", Hrsg. S. Furui und M. M. Sondhi, Marcel Dekker Inc., 1992, beschrieben. Die Prinzipien sind in Fig. 1 erläutert, in der ein Codierer Sprachbeispiele s(n) in digitaler Form an einem Eingang 1 erhält und Sprachsegmente von typischerweise 20 ms Dauer in einer Einheit 2 zur schnellen Fourier-Transformation einer Fourier-Analyse unterworfen werden, um das Kurzzeitfrequenzspektrum der Sprache zu bestimmen. Im einzelnen sind es die Amplituden und Frequenzen der Peaks im Größenspektrum, die von Interesse sind, wobei die Frequenzen - bei einer von einer menschlichen Stimme gesprochenen Sprache - unterstelltermaßen Harmonische einer Pitchfrequenz sind, die durch einen Pitch-Detektor 3 abgeleitet werden. Das Phasenspektrum wird im Interesse der Übertragungseffektivität nicht übertragen und eine Darstellung des Größenspektrums wird für die Übertragung zu einem Decodierer in diesen Beispiel durch Anpassung einer Hüllkurve an das Größenspektrum und durch Kennzeichnung dieser Hüllkurve durch einen Satz von Koeffizienten (z. B. LSP-Koeffizienten (Linienspektralpaar-Koeffizienten)) erhalten. Diese Funktion wird von einer Umwandlungseinheit 4, die die Fourier- Koeffizienten erhält und die die Kurvenanpassung durchführt, und durch eine Einheit 5 realisiert, die die Hüllkurve in LSP-Koeffizienten umwandelt, die den Ausgang des Codierers bilden.
- Der entsprechende Decodierer ist auch in Fig. 1 gezeigt. Er erhält die Hüllkurveninformation; da ihm aber die Phaseninformation fehlt, muß er das Phasenspektrum aufgrund von Annahmen rekonstruieren. Die verwendete Annahme ist die, daß das durch die erhaltenen LSP-Koeffizienten dargestellte Größenspektrum das Größenspektrum einer Minimalphasen-Transferfunktion ist, - was zu der Annahme führt, daß das menschliche Stimmsystem als impulsiv erregtes Minimalphasenfilter angesehen werden kann. Somit leitet eine Einheit 6 das Größenspektrum aus den erhaltenen LSP- Koeffizienten ab, und eine Einheit 7 berechnet auf der Basis der Minimalphasenannahme das Phasenspektrum, das diesem Größenspektrum entspricht. Aus den zwei Spektren erzeugt ein Sinussynthesizer 8 die Summe eines Satzes sinusförmiger Harmonischer mit der Pitchfrequenz, die Amplituden und Phasen aufweisen, die durch die Spektren bestimmt sind.
- Bei der Sinussprachsynthese wird ein synthetisches Sprachsignal y(n) durch die Summe der Sinuswellen gebildet:
- worin Ak und Φk die Amplitude und Phase jeder Sinuswellenkomponente bedeuten, die mit der Frequenzspur ωk verbunden ist, und N die Anzahl der Sinuskurven bedeutet.
- Obwohl es keine Vorbedingung darstellt, ist es allgemein gebräuchlich, anzunehmen, daß die Sinuskurven in einer harmonischen Beziehung stehen, daher:
- wobei ψk(n) = kωo(n)n (3)
- und worin bedeuten: Φk(n) die momentane relative Phase der Harmonischen, Ψk(n) die momentane lineare Phasenkomponente und ωo(n) die momentane Grundpitchfrequenz.
- Ein einfaches Beispiel für eine Sinussynthese ist die Überlappungs- und Additionstechnik. In diesem Schema werden Ak(n), ωo(n) und Ψk(n) periodisch aktualisiert und es wird angenommen, daß sie während eines kurzen Zeitrahmens von beispielsweise 10 ms konstant sind. Der i-te Signalrahmen wird somit wie folgt synthetisiert:
- Es ist anzumerken, daß es sich hier im wesentlichen um eine inverse diskrete Fourier-Transformation handelt. Diskontinuitäten bei den Rahmengrenzen werden vermieden, indem die benachbarten Rahmen wie folgt kombiniert werden:
- i(n) = W(n)yi-1(n) + W(n - T)yi(n - T) (5),
- worin bedeuten: W(n) ein Überlappungs- und Additionsfenster, das beispielsweise dreieckig oder trapezförmig ist, T die Rahmendauer, die als Anzahl von Abtastperioden ausgedrückt ist, und
- W(n) + W(n - T) = 1 (6).
- In einer alternativen Lösung kann y(n) kontinuierlich durch Interpolation des Amplituden- und Phasenausdrucks in Gleichung 2 berechnet werden. In solchen Schemata wird die Größenkomponente Ak(n) oft linear zwischen den Aktualisierungen interpoliert, während von mehreren Techniken demgegenüber berichtet wurde, daß sie die Phasenkomponente interpolieren. In einer Lösung (McAulay und Quatieri) werden die momentane kombinierte Phase (Ψk(n) + Φ(n)) und die Pitchfrequenz ωo(n) an jedem Aktualisierungspunkt spezifiziert. Die interpolierte Phasentrajektorie kann dann durch ein kubisches Polynom dargestellt werden. In einer anderen Lösung (Kleijn) werden Ψk(n) und Φ(n) getrennt interpoliert. In diesem Fall wird Φ(n) direkt an den Aktualisierungspunkten spezifiziert und linear interpoliert, während die momentane lineare Phasenkomponente Φk(n) an den Aktualisierungspunkten als Pitchfrequenz ωo(n) spezifiziert wird und nur eine quadratische polynomische Interpolation benötigt.
- Aus der obigen Beschreibung geht klar hervor, daß ein Sinussynthesizer als eine Einheit verallgemeinert werden kann, die aus den periodisch aktualisierten Werten Ak(n), ωo(n) und Φk(n) ein kontinuierliches Signal y(n) erzeugt.
- Die Anzahl der Sinuswellen kann festgelegt oder zeitvariabel sein.
- Somit besteht im Rahmen der vorliegenden Erfindung ein Interesse an Sinussyntheseschemata, bei denen die ursprüngliche Phaseninformation nicht verfügbar ist und Φk auf irgendeine Weise am Synthesiser erhalten werden muß.
- Obwohl das System von Fig. 1 durchaus zufriedenstellende Ergebnisse liefert, bieten der Codierer und der Decodierer, die im folgenden beschrieben sind, alternative Annahmen im Hinblick auf das Phasenspektrum. Die Vorstellung, daß der menschliche Stimmapparat als Impulserregung e(n) angesehen werden kann, die aus einer regelmäßigen Reihe von Deltafunktionen besteht, die ein zeitvariables Filter H(z) antreiben (wobei z die z-Umwandlungsvariable darstellt), kann dadurch noch weiter verfeinert werden, daß H(z) als von drei Filtern erzeugt angesehen wird, wie in Fig. 2 gezeigt ist, nämlich durch ein Glottisfilter 20, das eine Transferfunktion G(z) aufweist, durch ein Stimmtraktfilter 21, das eine Transferfunktion V(z) aufweist und durch ein Lippenabstrahlfilter 22, das eine Transferfunktion L(z) aufweist. In der vorliegenden Beschreibung sind die Zeitbereichsdarstellungen der Variablen und die Impulsantworten der Filter unten dargestellt, während ihre z-Umwandlungen und die Frequenzbereichsdarstellungen oben Fall mit den gleichen Buchstaben bezeichnet sind. Daher kann für das Sprachsignal s(n):
- s(n) = e (n) · h(n) = e(n) · g(n) · v(n) · l(n) (7)
- oder
- S(z) = E(z)H(z) = E(z)G(z)V(z)L(z) (8)
- geschrieben werden.
- Da das Spektrum e(n) eine Reihe von Linien an den Harmonischen der Pitchfrequenz aufweist, folgt daraus, daß die Größe s an der Frequenz jeder Harmonischen die folgende ist:
- S(ejω) = E(ejω) H(ejω) = A H(ejω) (9),
- wobei A eine Konstante ist, die durch die Amplitude von e(n) bestimmt wird und die Phase die folgende ist:
- arg(S(ejω)) = arg(E(ejω))+arg(H(ejω)) = 2mπ + arg(H(ejω)) (10),
- wobei m eine beliebige ganze Zahl ist.
- Wenn angenommen wird, daß das Größenspektrum am Decoder von Fig. 1 H(ejω) entspricht, wird die regenerierte Sprache auf den Umfang verringert, daß sich das verwendete Phasenspektrum von arg (H(ejω)) unterscheidet.
- Wenn nun die Komponenten G, V und L berücksichtigt werden, ist die Minimalphase eine gute Annahme für die Stimmtrakt- Transferfunktion V(z). Typischerweise kann durch ein Allpolmodell dargestellt werden, das die Transferfunktion
- aufweist, wobei ρi die Pole der Transferfunktion darstellen und direkt auf die Sprachbildungsfrequenzen bezogen sind, und P die Anzahl der Pole bedeutet.
- Das Lippenabstrahlfilter kann als Differentiator betrachtet werden, für den gilt:
- L/z) = 1 - αz&supmin;¹ (12),
- wobei α eine einzelne Null bedeutet, die einen Wert nahe an Eins (typischerweise 0,95) aufweist.
- Während die Minimalphasenannahme für V(z) und L(z) gut ist, besteht die Ansicht, daß sie für G(z) weniger Gültigkeit besitzt. Wenn berücksichtigt wird, daß eine beliebige Filtertransferfunktion als Produkt einer Minimalphasenfunktion und eines Allpaßfilters dargestellt werden kann, ist die Annahme möglich, daß
- G(z) = Gmin/z) Gap(z) (13).
- Der Decodierer, der unter Bezugnahme auf Fig. 3 kurz beschrieben ist, beruht auf der Annahme, daß das mit G verbundene Größenspektrum das Größenspektrum ist, das
- entspricht. Im Hinblick auf den Decodierer wird mit der Annahme fortgefahren, daß eine geeignete Transferfunktion für Gap ist:
- Das entsprechende Phasenspektrum für Gap ist:
- Beim Decodierer von Fig. 3 sind die Bezugsziffern 6, 7 und 8 die gleichen wie in Fig. 1. Das Phasenspektrum, das bei 7 berechnet wird, wird jedoch eingestellt. Eine Einheit 31 erhält die Pitchfrequenz und berechnet die Werte % gemäß Gleichung 16 für die relevanten Werte ω, d. h., für die Harmonischen der Pitchfrequenz für den gegenwärtigen Sprachrahmen. Diese werden dann vor dem Sinussyntheziser 8 in einem Addierer 32 zu den Minimalphasenwerten hinzu addiert.
- Mit dem Decodierer von Fig. 3 wurden Experimente mit einem festen Wert β1 = β2 = 0,8 durchgeführt (obwohl - wie im folgenden beschrieben ist - ein variabler Wert β ebenfalls möglich ist). Diese Experimente haben eine Verbesserung des gemessenen Phasenfehlers (wie in Fig. 4 angeführt ist) sowie in subjektiven Tests (Fig. 5) ergeben, in denen Zuhörer gebeten wurden, sich die Ausgangssignale der vier Decodierer anzuhören und sie im Hinblick auf die Sprachqualität in einer Vorzugsreihenfolge anzuordnen. Die Auswahl wurde wie folgt bewertet: erster Platz = 4, zweiter Platz = 3, dritter Platz = 2 und vierter Platz = 1; danach wurden diese Bewertungen addiert.
- Die Ergebnisse enthalten Zahlen für einen Rosenberg-Puls. Wie von A. E. Rosenberg in "Effect of Glottal Pulse Shape on the Quality of Natural Vowels", J. Acoust. Soc. of America. Bd. 49, Nr. 2, 1971, S. 583-590, beschrieben, ist dies eine Pulsform, die für das Ausgangssignal des Glot tisfilters G postuliert wird. Die Form eines Rosenberg- Pulses ist in Fig. 6 gezeigt und ist als
- g(t) = A(3(t / Tp)² - 2(t / Tp)³) 0 ≤ t ≤ Tp
- g(t) = 0 Tp + TN < t ≤ p
- definiert, wobei p die Pitchperiode darstellt und Tp und TN die Glottisöffnungszeit bzw. die Glottisschließzeit darstellen.
- Eine Alternative zur Gleichung 16 ist es daher, wie in Fig. 7 gezeigt, bei 31 eine berechnete Phase anzulegen, die gleich der Phase g(t) von Gleichung 17 ist. Damit jedoch die Komponente des Rosenberg-Pulsspektrums, die durch eine Minimalphasen-Transferfunktion dargestellt werden kann, nicht doppelt angelegt wird, wird bei 71 das Größenspektrum entsprechend der Gleichung 17 berechnet und von den Amplitudenwerten subtrahiert, bevor diese durch die Phasenspektrums-Berechnungseinheit 7 verarbeitet werden. Die Ergebnisse sind wie folgt: Tp = 0,33 P, TN = 0,1 P.
- Die gleichen Überlegungen lassen sich auch auf Anordnungen anwenden, in denen ein Codierer versucht, die Glottiserregung und die Stimmtraktantwort zu zerlegen - die sogenannten lineare Vohersage-Codierer. Hier (Fig. 8) wird die eingegebene Sprache bei 60 rahmenweise analysiert, um die Parameter eines Filters zu bestimmen, das eine Spektrumsantwort aufweist, die der eingegebenen Sprache ähnlich ist. Der Codierer bildet dann mit der Umkehr dieser Antwort ein Filter 61, und das Sprachsignal wird so durch dieses Inversionsfilter geführt, daß ein Restsignal r(n) erzeugt wird, das idealerweise ein flaches Spektrum aufweist, das in der Praxis flacher als das Spektrum der ursprünglichen Sprache ist. Der Codierer überträgt Details der Filterantwort zusammen mit Information 63 in der Weise, daß der Decodierer befähigt wird, ein Erregungssignal zu konstruieren 64, das in gewisser Weise dem Restsignal gleicht und vom Decodierer zum Antrieb eines Synthesefilters 65 verwendet werden kann, um ein Ausgangssprachsignal zu erzeugen. Für die verschiedenen Wege zur Übertragung der Restinformation sind viele Vorschläge gemacht worden, wie z. B.:
- (a) Sendung einer Pitchperiode und eines Verstärkungswertes zur Steuerung eines Pulsgenerators für die von einer menschlichen Stimme gesprochene Sprache und eines Verstärkungswertes zur Steuerung eines Rauschgenerators für die nicht von einer menschlichen Stimme gesprochene Sprache,
- (b) eine quantisierte Version des Restes (RELP-Codierung),
- (c) eine vektoriell quantisierte Version des Restes (CELP- Codierung)
- (d) eine codierte Darstellung eines unregelmäßigen Pulsstranges (MPLPC-Codierung),
- (e) Einzelheiten eines einzelnen Zyklus des Restes, mit dem der Decodierer eine Wiederholungsfrequenz der Rahmenlänge synthetisieren kann (Wellenforminterpolation eines Prototypen oder PWI) (S. W. B. Kleijn, "Encoding Speech using Prototype Waveforms", IEEE Trans. Speech and Audio Processing, Bd. 1, Nr. 4, Oktober 1993, S. 386-399, und W. B. Kleijn und J. Haagen, "A Speech Coder based on Decomposition of Characteristic Waveforms", Proc ICASSP, 1995, S. 508-511.
- Falls die Phaseninformation über die Erregung von der Übertragung weggelassen wird, dann entsteht eine ähnliche Situation wie die Situation, die in Verbindung mit Fig. 2 beschrieben wurde, nämlich, daß Annahmen bezüglich des einzusetzenden Phasenspektrums zu machen sind. Ob die Pha seninformation für das Synthesefilter enthalten ist, ist hier nicht relevant, da die LPC-Analyse generell in jedem Fall eine Minimalphasen-Transferfunktion erzeugt, so daß es für die Zwecke dieser Beschreibung nicht von Bedeutung ist, ob die Phasenantwort in der übertragenen Filterinformation enthalten ist (typischerweise handelt es sich um einen Satz von Filterkoeffizienten), oder ob sie im Decodierer auf der Basis einer Minimalphasenannahme berechnet wird.
- In diesem Zusammenhang sind Prototyp-Wellenforminterpolations-Codierer (PWI-Codierer) von besonderem Interesse, bei denen üblicherweise der gewonnene Rest- Pitschzyklus des Prototypen unter Anwendung einer Fourier- Transformation analysiert wird. Statt daß einfach die Fourier-Koeffizienten quantisiert werden, wird vielmehr eine Einsparung an Übertragungskapazität erreicht, indem nur die Größe und die Pitchperiode gesendet werden. Daher folgt in der Anordnung von Fig. 9, in denen die Gegenstände, die denen von Fig. 8 gleichen, mit den gleichen Bezugsziffern bezeichnet wurden, auf die Erregungseinheit 63 - die hier nach dem PWI-Prinzip funktioniert und an ihren Ausgängen Sätze von Fourier-Koeffizienten erzeugt - eine Einheit 80, die nur die Größeninformation und die Pitchperiode abfragt und sie zum Decodierer überträgt. Am Decodierer berechnet eine Einheit 91 - analog der Einheit 31 in Fig. 3 - die Phaseneinstellwerte ΦF unter Verwendung der Gleichung 16 und steuert die Phase eines Erregungsgenerators 64. In diesem Beispiel ist β&sub1; bei 0,95 festgelegt, während β&sub2; als Funktion der Pitchperiode p in Übereinstimmung mit der folgenden Tabelle gesteuert wird: Tabelle 1: Der in F(z) für den Bereich der Pitchperioden verwendete Wert β
- Diese Werte werden so gewählt, daß die Allpaß-Transferfunktion der Gleichung 15 eine Phasenantwort aufweist, die dem Teil des Phasenspektrums eines Rosenberg-Pulses mit den folgenden Werten TP = 0,4 p und TN = 0,16 p äquivalent ist, der im LPC-Synthesefilter 65 nicht modelliert ist. Wie oben angegeben, wird die Einstellung vorher in einem Addierer 83 addiert und erneut in Fourier-Koeffizienten umgewandelt, bevor sie dem PWI-Erregungsgenerator 64 weitergeleitet wird.
- Die Berechnungseinheit 91 kann durch eine digitale Signalverarbeitungseinheit realisiert werden, die zur Implementierung der Gleichung 16 programmiert wurde.
- Es ist von Interesse, den Effekt dieser Einstellungen durch Pole und Nullen in der z-Ebene zu berücksichtigen.
- Die angenommene totale Transferfunktion H(z) ist das Produkt von G, V und L und weist somit innerhalb des Einheitskreises P Pole an der Position ρi und eine Null an der Position α, und außerhalb des Einheitskreises zwei Pole an den Positionen 1/β&sub1;, 1/β&sub2; auf, wie in Fig. 10 angeführt ist. Der Effekt der inversen LPC-Analyse ist, daß ein Inversionsfilter 61 erzeugt wird, das das Spektrum mit Hilfe von Nullen abflacht, die etwa mit den Polen an der Position ρi zusammenfallen. Das Filter, das ein Minimalphasenfilter ist, kann außerhalb des Einheitskreises an den Positionen 1/β&sub1;, 1/β&sub2; keine Nullen erzeugen, erzeugt aber statt dessen Nullen an den Positionen β&sub1; und β&sub2;, die die Tendenz haben, die Größenantwort, nicht aber die Phasenantwort abzuflachen (das Filter kann keinen Pol erzeugen, um die Null bei Position α zu entfernen, da aber β&sub1; üblicherweise einen ähnlichen Wert, bezogen auf α aufweist, ist es üblich, anzunehmen, daß α Null und der 1/β&sub1; Pol im Größenspektrum gelöscht wird, so daß das Inversionsfilter gerade an den Positionen ρi und β&sub2; aufweist. Somit weist der Rest ein Phasenspektrum auf, das durch zwei Nullen an den Positionen β&sub1; und β&sub2; in der z-Ebene (wobei die β Werte aufweisen, die dem ursprünglichen Signal entsprechen) und Pole an den Positionen 1/β&sub1; und 1/β&sub2; dargestellt ist (wobei die β Werte aufweisen, so wie sie durch die LPC-Analyse bestimmt sind). Wenn diese Information verloren gegangen ist, wird sie durch die Näherungsrechnung des Allpaßfilters gemäß den Gleichungen 15 und 16 erzeugt, die Nullen und Pole an diesen Positionen aufweisen.
- Die vorliegende Beschreibung geht von der Annahme einer Phaseneinstellung aus, die bei allen Frequenzen durch die Gleichung 16 bestimmt wird. Die Gleichung 16 kann allerdings auch nur im unteren Teil des Frequenzbereichs bis zu einer Grenze angewendet werden, die festgelegt oder von der Natur der Sprache abhängig sein kann, und eine willkürliche Phase kann auf die Komponenten einer höheren Frequenz angewendet werden.
- Die oben für die Fig. 9 beschriebenen Anordnungen sind primär für die von einer menschlichen Stimme gesprochene Sprache vorgesehen. Um eine Sprache einzusetzen, die nicht von einer menschlichen Stimme gesprochen wird, weist der Codierer in herkömmlicher Weise einen Detektor 92 für menschliche/nicht menschliche Sprache auf, der den Decodierer veranlaßt, über einen Schalter 93 zwischen dem Erregungsschalter 64 und einem Rauschgenerator zu schalten, dessen Amplitude durch ein Verstärkungssignal vom Codierer gesteuert wird.
- Obwohl die Einstellung durch Addition von Phasenwerten illustriert wurde, ist das nicht der einzige Weg zur Erzielung des erwünschten Ergebnisses, zum Beispiel könnte auf das Synthesefilter 65 statt dessen ein Allpaßfilter folgen (oder diesem vorausgehen), das das Ansprechverhalten von Gleichung 15 zeigt.
- Es ist anzumerken, daß obwohl Decodierer beschrieben wurden, die codierte und ihnen übertragene Signale decodieren, ist es auch ebenso gut möglich, sie dazu zu verwenden, Sprache aus codierten, gespeicherten und später wieder aufgerufenen Signalen zu erzeugen, d. h., sie können einen Teil eines Sprachsynthesisers bilden.
Claims (10)
1. Decodierer für Sprachsignale, der umfaßt:
eine Einrichtung zum Empfang einer
Größenspektrumsinformation zur Synthese eines zeitvariablen Signals,
eine Einrichtung zur Berechnung einer
Phasenspektrumsinformation aus der Größenspektrumsinformation, die einem
Minimalphasenfilter entspricht, die ein Größenspektrum
aufweist, das der Größenspektrumsinformation entspricht,
eine Einrichtung zur Erzeugung des zeitvariablen Signals
aus der Größenspektrumsinformation und der
Phasenspektrumsinformation und
eine Phaseneinstelleinrichtung, die zur Modifizierung des
Phasenspektrums des Signals betrieben werden kann, wobei
die Phaseneinstelleinrichtung so betrieben werden kann,
daß die Phase in Übereinstimmung mit der Transferfunktion
eines Allpaßfilters eingestellt wird, die in einer z-
Ebenendarstellung mindestens einen Pol aufweist, der sich
außerhalb des Einheitskreises befindet.
2. Decodierer zur Decodierung von Sprachsignalen, die
Information, die das Ansprechen eines
Minimalphasensynthesefilters definiert und Größenspektrumsinformation zur
Synthese eines Erregungssignals enthält, wobei der
Decodierer aufweist:
eine Einrichtung zur Erzeugung eines Erregungssignals aus
der Größenspektrumsinformation,
ein Synthesefilter, das über die Ansprechinformation
gesteuert wird und zur Filterung des Erregungssignals
vorgesehen ist, und
eine Phaseneinstelleinrichtung zur Abschätzung eines
Phaseneinstellsignals zur Modifizierung der Phase des
Signals, wobei die Phaseneinstelleinrichtung zur Einstellung
der Phase in Übereinstimmung mit der Transferfunktion
eines Allpaßfilters betrieben werden kann, die in einer z-
Ebenendarstellung mindestens einen Pol aufweist, der sich
außerhalb des Einheitskreises befindet.
3. Decodierer nach Anspruch 2, bei dem die Einrichtung
zur Erzeugung der Erregung zum Empfang des
Phaseneinstellsignals so vorgesehen ist, daß eine Erregung erzeugt wird,
durch die ein Phasenspektrum bestimmt wird.
4. Decodierer nach Anspruch 1 oder 2, bei dem die
Phaseneinstelleinrichtung so angeordnet ist, daß sie im
Betrieb die Phase des Signals nach seiner Erzeugung
modifiziert.
5. Decodierer nach einem der vorhergehenden Ansprüche,
bei dem die Phaseneinstelleinrichtung so betrieben werden
kann, daß die Phase in Übereinstimmung mit der
Transferfunktion eines Allpaßfilters eingestellt wird, die in
einer z-Ebenendarstellung zwei reelle Nullen an den
Positionen β&sub1;, β&sub2; innerhalb des Einheitskreises und zwei Pole an
den Positionen 1/β&sub1;, 1/β&sub2; außerhalb des Einheitskreises
aufweist.
6. Decodierer nach einem der vorhergehenden Ansprüche,
bei dem die Position des Pols oder jedes Pols konstant
ist.
7. Decodierer nach einem der vorhergehenden Ansprüche,
bei dem die Einstelleinrichtung so ausgeführt ist, daß sie
im Betrieb die Position des Pols oder eines Pols als
Funktion der vom Decodierer erhaltenen Information über die
Pitchperiode ändert.
8. Verfahren zur Codierung und Decodierung von
Sprachsignalen, das die folgenden Schritte aufweist:
(a) Erzeugung von Signalen, die das Größenspektrum des
Sprachsignals darstellen,
(b) Empfangen der Signale,
(c) Erzeugung eines synthetischen Sprachsignals aus den
empfangenen Signalen, das ein Größenspektrum aufweist, das
durch die empfangenen Signale bestimmt wird und das ein
Phasenspektrum aufweist, das einer Transferfunktion
entspricht, die bei graphischer Darstellung in einer z-Ebene
mindestens einen Pol außerhalb des Einheitskreises
aufweist.
9. Verfahren nach Anspruch 8, bei dem das Phasenspektrum
des synthetischen Sprachsignals durch Berechnen eines
Minimalphasenspektrums aus den empfangenen Signalen und
durch Bilden eines zusammengesetzten Phasenspektrums
bestimmt wird, das eine Kombination des
Minimalphasenspektrums und eines Spektrums darstellt, das dem Pol bzw. den
Polen entspricht.
10. Verfahren nach Anspruch 8, bei dem in den Signalen
solche Signale enthalten sind, die ein
Minimalphasensynthesefilter vorgeben und das Phasenspektrum des
synthetischen Sprachsignals durch das vorgegebene Synthesefilter
und durch ein Phasenspektrum bestimmt wird, das dem Pol
bzw. den Polen entspricht.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP96305576 | 1996-07-30 | ||
PCT/GB1997/002037 WO1998005029A1 (en) | 1996-07-30 | 1997-07-28 | Speech coding |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69702261D1 DE69702261D1 (de) | 2000-07-13 |
DE69702261T2 true DE69702261T2 (de) | 2001-01-25 |
Family
ID=8225033
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69702261T Expired - Lifetime DE69702261T2 (de) | 1996-07-30 | 1997-07-28 | Sprachkodierung |
Country Status (6)
Country | Link |
---|---|
US (1) | US6219637B1 (de) |
EP (1) | EP0917709B1 (de) |
JP (1) | JP2000515992A (de) |
AU (1) | AU3702497A (de) |
DE (1) | DE69702261T2 (de) |
WO (1) | WO1998005029A1 (de) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3644263B2 (ja) * | 1998-07-31 | 2005-04-27 | ヤマハ株式会社 | 波形形成装置及び方法 |
EP0987680B1 (de) * | 1998-09-17 | 2008-07-16 | BRITISH TELECOMMUNICATIONS public limited company | Audiosignalverarbeitung |
DE69939086D1 (de) | 1998-09-17 | 2008-08-28 | British Telecomm | Audiosignalverarbeitung |
US6397175B1 (en) * | 1999-07-19 | 2002-05-28 | Qualcomm Incorporated | Method and apparatus for subsampling phase spectrum information |
US7039581B1 (en) * | 1999-09-22 | 2006-05-02 | Texas Instruments Incorporated | Hybrid speed coding and system |
US20030048129A1 (en) * | 2001-09-07 | 2003-03-13 | Arthur Sheiman | Time varying filter with zero and/or pole migration |
US7353168B2 (en) * | 2001-10-03 | 2008-04-01 | Broadcom Corporation | Method and apparatus to eliminate discontinuities in adaptively filtered signals |
WO2004006225A1 (en) * | 2002-07-08 | 2004-01-15 | Koninklijke Philips Electronics N.V. | Sinusoidal audio coding |
RU2353980C2 (ru) * | 2002-11-29 | 2009-04-27 | Конинклейке Филипс Электроникс Н.В. | Аудиокодирование |
GB2398981B (en) * | 2003-02-27 | 2005-09-14 | Motorola Inc | Speech communication unit and method for synthesising speech therein |
US8145477B2 (en) * | 2005-12-02 | 2012-03-27 | Sharath Manjunath | Systems, methods, and apparatus for computationally efficient, iterative alignment of speech waveforms |
JP6011039B2 (ja) * | 2011-06-07 | 2016-10-19 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
KR101475894B1 (ko) * | 2013-06-21 | 2014-12-23 | 서울대학교산학협력단 | 장애 음성 개선 방법 및 장치 |
KR20160087827A (ko) | 2013-11-22 | 2016-07-22 | 퀄컴 인코포레이티드 | 고대역 코딩에서의 선택적 위상 보상 |
CN107851433B (zh) * | 2015-12-10 | 2021-06-29 | 华侃如 | 基于谐波模型和声源-声道特征分解的语音分析合成方法 |
CN113114160B (zh) * | 2021-05-25 | 2024-04-02 | 东南大学 | 一种基于时变滤波器的线性调频信号降噪方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4475227A (en) * | 1982-04-14 | 1984-10-02 | At&T Bell Laboratories | Adaptive prediction |
JPS6031325A (ja) * | 1983-07-29 | 1985-02-18 | Nec Corp | 予測停止adpcm符号化方式およびその回路 |
EP0243561B1 (de) * | 1986-04-30 | 1991-04-10 | International Business Machines Corporation | Verfahren und Einrichtung zur Tonerkennung |
US4771465A (en) | 1986-09-11 | 1988-09-13 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech sinusoidal vocoder with transmission of only subset of harmonics |
US4969192A (en) * | 1987-04-06 | 1990-11-06 | Voicecraft, Inc. | Vector adaptive predictive coder for speech and audio |
JP3528258B2 (ja) | 1994-08-23 | 2004-05-17 | ソニー株式会社 | 符号化音声信号の復号化方法及び装置 |
GB9417185D0 (en) * | 1994-08-25 | 1994-10-12 | Adaptive Audio Ltd | Sounds recording and reproduction systems |
-
1997
- 1997-07-28 JP JP10508614A patent/JP2000515992A/ja active Pending
- 1997-07-28 EP EP97933782A patent/EP0917709B1/de not_active Expired - Lifetime
- 1997-07-28 US US09/029,832 patent/US6219637B1/en not_active Expired - Lifetime
- 1997-07-28 DE DE69702261T patent/DE69702261T2/de not_active Expired - Lifetime
- 1997-07-28 WO PCT/GB1997/002037 patent/WO1998005029A1/en active IP Right Grant
- 1997-07-28 AU AU37024/97A patent/AU3702497A/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
EP0917709B1 (de) | 2000-06-07 |
JP2000515992A (ja) | 2000-11-28 |
DE69702261D1 (de) | 2000-07-13 |
US6219637B1 (en) | 2001-04-17 |
AU3702497A (en) | 1998-02-20 |
EP0917709A1 (de) | 1999-05-26 |
WO1998005029A1 (en) | 1998-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69702261T2 (de) | Sprachkodierung | |
EP1979901B1 (de) | Verfahren und anordnungen zur audiosignalkodierung | |
DE69032168T2 (de) | Dynamisches codebuch zur wirksamen sprachcodierung unter anwendung von algebraischen coden | |
DE69518452T2 (de) | Verfahren für die Transformationskodierung akustischer Signale | |
DE69700084T2 (de) | Verfahren zur Transformierung eines periodischen Signales unter Verwendung eines geplätteten Spectrogrammes, Verfahren zur Transformierung von Schall bei Verwendung von Phasenkomponenten und Verfahren zur Analyse eines Signales unter Verwendung einer optimalen Interpolationsfunktion | |
DE4237563C2 (de) | Verfahren zum Synthetisieren von Sprache | |
DE69029120T2 (de) | Stimmenkodierer | |
DE69227401T2 (de) | Verfahren zum Kodieren und Dekodieren von Sprachsignalen | |
DE69910240T2 (de) | Vorrichtung und verfahren zur wiederherstellung des hochfrequenzanteils eines überabgetasteten synthetisierten breitbandsignals | |
DE69916321T2 (de) | Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen | |
DE68907629T2 (de) | Vektorquantisierung für eine Anordnung zur harmonischen Sprachcodierung. | |
DE3789476T2 (de) | Digitaler Vocoder. | |
DE69604526T2 (de) | Verfahren zur Anpassung des Rauschmaskierungspegels in einem Analyse-durch-Synthese-Sprachkodierer mit einem wahrnehmunggebundenen Kurzzeitfilter | |
DE69317958T2 (de) | Kodierer von Audiosignalen mit niedriger Verzögerung, unter Verwendung von Analyse-durch-Synthese-Techniken | |
DE69431445T2 (de) | Verfahren und Vorrichtung zur Sprachkodierung | |
DE602005003358T2 (de) | Audiokodierung | |
DE69329569T2 (de) | Digitale Kodierung von Sprachsignalen | |
DE69328064T2 (de) | Zeit-Frequenzinterpolation mit Anwendung zur Sprachkodierung mit niedriger Rate | |
DE69720861T2 (de) | Verfahren zur Tonsynthese | |
DE69121411T2 (de) | Methode und gerät zur codierung von analogen signalen | |
DE102006051673A1 (de) | Vorrichtung und Verfahren zum Nachbearbeiten von Spektralwerten und Encodierer und Decodierer für Audiosignale | |
DE69618408T2 (de) | Verfahren und Vorrichtung zur Sprachkodierung | |
DE69612958T2 (de) | Verfahren und vorrichtung zur resynthetisierung eines sprachsignals | |
EP1023777B1 (de) | Verfahren und vorrichtung zur erzeugung eines bitratenskalierbaren audio-datenstroms | |
DE69017842T2 (de) | Verfahren und Einrichtung zur Codierung von Prädiktionsfiltern in Vocodern mit sehr niedriger Datenrate. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition |