DE2622423C3

DE2622423C3 - Elektrische Anordnung zur Übertragung oder Speicherung eines Sprachoder Tonsignals in kodierter Form

Info

Publication number: DE2622423C3
Application number: DE2622423A
Authority: DE
Inventors: Edwin A. Los Altos Calif. Sloane (V.St.A.)
Original assignee: Gen Rad Inc Time/data Division Santa Clara Calif (vsta)
Current assignee: Gen Rad Inc Time/data Division Santa Clara Calif (vsta)
Priority date: 1975-05-23
Filing date: 1976-05-20
Publication date: 1980-02-07
Also published as: JPS5536160B2; GB1528344A; DE2622423B2; JPS51144104A; DE2622423A1; GB1528345A; US4045616A

Description

4 j

Die Erfindung bezieht sich auf eine elektrische Anordnung /ur Übertragung oder Speicherung eines w Sprach- oder Tonsignals in kodierter Form, mit einer Eingabeeinrichtung und einer dieser nachgeordneten

Zeitbereichs/Frequcnzbereichs-Transformationseinrichtung.

Die Umformung analoger Signale, insbesondere -,■; Sprach- oder Tonsignale in digitale Form hat mit der raschen Entwicklung digitaler Schaltungen und aufgrund der Vorzüge der digitalen Übertragung und Speicherung in jüngster Zeit zunehmend Bedeutung gewonnen. Bei bekannten Methoden zur Sprachanalyse to Und ^synthese werden in der Regel stimmhafte Und Stimmlose Laute unterschiedlich Verarbeitet.

Aus IEEE Spectrum, August 1970, Seilen 57 bis 62, ist ein Vocodersystem bekannt, beii dem die Tonhöhen- und Forriiantdalen als Voraussetzung für die Sprachanalyse getrennt gebildet werden müssen. Dieser notwendige getrennte Entwickltingsvorgalig bedingt einen erhebliehen baulichen Aufwand und erschwert die nach der digitalen Übertragung oder Speicherung der Daten erforderliche Wiedergewinnung in der Sprachsynthese.

Aus der CH-PS 4 70 044 ist eine Einrichtung zur Analyse und Synthese von Sprachsignalen bekannt, bei der stimmlose und stimmhafte Abschnitte in unterschiedlicher Weise verarbeitet werden.

Bei einer aus der US-PS 33 60 610 bekannten Vocoder-Anordnung wird die Sprache in aufeinanderfolgende Frequenzbänder unterteilt, welche die Formanten der Sprache, d. h. die Resonanzfrequenzen des Schallwegs bei der Sprachbildung darstellen, und die analytischen Versionen dieser Bänder werden sodann mit analytischen Mitteln unter Verwendung der Hilbert-Transformation komprimiert. Diese Bestimmung der die Sprachformanten darstellenden Frequenzbänder mit Aufteilung des Sprachsignals in die benötigten Frequenzbänder und nachträglicher Komprimierung derselben ist außerordentlich aufwendig.

Der Erfindung liegt die Aufgabe zugrunde, die Anordnung der eingangs genannten Art so zu verbessern, daß die gesamte Wellenform des als Eingangssignal zugeführten Sprach- oder Tonsignals verarbeitet und in die s-Ebenen-Frequenzbereichsdar-Stellungen umgesetzt wird und stimmlose Laute in gleicher Weise verarbeitet werden wie stimmhafte Laute. Es soll also im Gegensatz zu den bekannten Sprachanalysesystemen eine getrennte Gewinnung und Verarbeitung der Tonhöhen- und Formantfrequenzen vermieden werden.

Diese Aufgabe wird erfindungsgemäß durch eine Laplace-Transformationseinrichtung, deren Ausgangssignal in an sich bekannter Weise die Polpaare des Eingangssignals in der vEbene darstellt, und durch einen dieser nachgeschalteten Diskriminator, der Polpaare zur Übertragung oder Speicherung auswählt, gelöst.

Im Gegensatz zu herkömmlichen Sprachanalysebzw. Vocodersystemen wird mit der erfindungsgemäßen Anordnung das F.ingangssignar als Ganzes verarbeitet, wobei die Polpaare in der s-Ebene bestimmt werden und die Polpaare mit dem höchsten Energiegehalt für die Übertragung bzw. Speicherung (mit nachfolgender Sprachsynthese) ausgewählt werden. Die Erfindung führt /u einer einfachen, da einheitlichen Sprach- bzw. Tonverarbeitung, wodurch auch der bauliche Aufwand der Anordnung vergleichsweise gering gehalten werden kann. Ein weiterer Vorteil der erfindungsgemäßer. Anordnung besteht darin, daß die Qualität der Sprach- bzw. Tonsynthesekurven dadurch verbessert werden kann, daß eine beliebig hohe Anzahl von Polpaaren übertragen wird. Soweit also eine größere Bandbreite für die Übertragung zur Verfugung steht, kann die Reproduktionsqualität ohne komplizierte Systemänderung geeignet verbessert werden. Somit wird durch die Erfindung eine variable Bitgeschwindigkeitsübertragung ermöglicht.

Bei in der Praxis durchgeführten Untersuchungen hat sich die erfindungsgemäße Anordnung selbst bei Hintergrundgeräuschen und mit zwei (gleichzeitigen) Stimmen als gut funktions* und unterscheidungsfähig erwiesen. Die Sprächwiedergabe hätte eine ausgezeichnete Qualität bei einer Fölgefreqüenü von 12 000 Bits pro Sekunde (entsprechend 16 Polpaaren), und eine gute Synthese wurde bereits bei 2400 Bits pro Sekunde erreicht.

Im folgenden wird anstelle dös Ausdrucks »Pölpaar« häufig der Ausdruck »Pol« verwendet; wie aus dem Modell der Sprachkurve zu sehen sein wird, handelt es

sich bei jedem Pol tatsächlich um ein Polpaar in der 5-Ebene.

Im folgenden werden Ausführungsbeispiele der Erfindung anhand der Zeichnung näher erläutert. In der Zeichnung zeigt

Fig. la eine schematische Darstellung der Wellenform einer stimmhaften Sprache; dieses besondere Sprachmodell dient der Erläuterung der mathematischen Grundlagen der beschriebenen Anordnung,

Fig. Ib eine graphische Darstellung der der Wellenform nach F i g. 1 a zugeordneten Tonhöhenfunktion,

F i g. 2 ein Blockdiagramm eines Ausführungsbeispiels der Anordnung zur Analyse und Synthese von Sprachsignalen,

Fig. 3 ein genaueres Blockdiagramm einer bevorzugten Ausführungsform des Analyseteils der Anordnung und

F i g. 4 ein genaueres Blockdiagramm einer bevorzugten Ausführungsform des Syntheseteils der Gesamtanordnung.

Im folgenden wird eine Vocoderanordnung unter Verwendung einer Laplace-Transformationsemrichtung zur Durchführung der Laplace-Transform&tion beschrieben. Generell werden die Polpaare jedes Sprachrahmens nach ihrem Energiegehalt geordnet, und eine Anzahl der am höchsten bewerteten Polpaardaten (Frequenz, Stärke, Dämpfungsrate und Phasenwinkel) wird übertragen und zur Sprachsynthese verwendet. Grundsätzlich kann dieselbe Einrichtung auch zur Verarbeitung und Übertragung anderer analoger Signale, z. B. von Tonsignalen (Musik) verwendet werden.

Die folgende Beschreibung, insbesondere die mathematische Analyse, basiert auf einem besonderen Modell von stimmbehafteter Sprache entsprechend F i g. 1. Die 3' Mittel zur Verarbeitung stimmhafter und stimmloser Sprache unterscheiden sich dabei nicht; vielmehr wird die stimmlose Sprache in der gleichen Weise und mit den gleichen Mitteln wie die stimmhafte Sprache verarbeitet. Wenn auch in der folgenden Beschreibung auf die komplizierte mathematische Analyse als Beweis dafür verzichtet wird, daß die stimmlose Sprache von der beschriebenen Einrichtung reproduziert wird, ist dies tatsächlich der Fall, wenn auch die Qualität der stimmlosen Sprache überwiegend weniger gut als für die stimmhafte Sprache ist. Da jedoch der gesamte durch die Sprache hervorgerufene Klangeindruck in erster Linie aus der stimmhaften Sprache resultiert, stellt die erfindungsgemäß gestaltete Anordnung ein ausgezeichnetes Vocodersystem dar.

In Fig. la, auf die im folgenden Bezug genommen wird, ist ein stimmhaftes Sprachmodeil entlang der Linie 10 gezeigt, und eine mathematische Analyse dieses Sprachmodells verdeutlicht die vorliegende Erfindung und deren Unterschiede zum Stande der Technik. Das Sprach- oder Sprechsignal bzw. der Wellenverlaiif v(t) hat nach der Darstellung eine periodische Struktur und ist von einer die Hüllkurve bildenden Gewichts- oder Bewertungsfunkiion x(t) moduliert. Das Sprachmodeil weist eine periodische Tonhohenfunktion p(t) mit einer Periode von 7"(getrennt in Fig. Ib dargestellt) und eine Formantfunktion f(t) auf. Das Sprachmodell nach F i g. 1 a kann wie folgt gescnrieben werden:

Ht) = i/(i)*y>(i-»T»y.(r),

η - 0

wobei das Symbol »*« eine Faltung darstellt. Wenn die Formantfunktion in komplexer Exponentialform wie folgt geschrieben wird:

so ergibt sich für Werte von t größer als Null die Laplace-Transformierte aus der Gleichung (1) wie folgt:

In dieser Gleichung stellt das Symbol »*« wiederum eine Faltung, jetzt jedoch im Frequenzbereich dar. Da die Tonhöheripole (pitch poles) auf die j ω Achs; fallen, kann die Tonhöhen- bzw. »pitch-« Ausdruck wie folgt geschrieben werden:

1
L

1 -c-

daher ergibt sich aus Gleichung (3):

V{s) = 1

ΣΣ

(s -■ Rm

'XU)

oder Gleichung (5) in Partialbruchform:

it-r <<*-*,„ L*-* ' - vl

_xl5i

ßk=J

.Ink

T '

bo Aus Gldchung (5) wird;

)4ΣΣ7^-[^(ί-ω-λ(ί-α (8)

Diese Gleichung läßt sich ohne Faltung ausdrucken, Aus Gleichung (8) ist zu sehen, daß bei dem vorausgesetzten Sprachmodell die stimmhafte Sprache

Sj = X (s — y). [I) als sich periodische verschiebene Pole der umgebenden

^s ~ y Gewichtsfunktion ausgedrückt werden kann.

da generell gilt:
1

Die jedem Pol zugeordnete Energie ist angenähert proportional zum Quadrat der Größe des Residuums und umgekehrt proportional zur Dämpfuhgsrate bzw. -geschwindigkeit.

Gleichungen (5) und (8) zeigen, daß die Tonhöhenpole für die Energie charakteristischer als die Formantpole sind. Die Tonhöhenpole (ßj) sind ungedämpft (auf der y<D-Achse gelegen), während die Formantpole («„) außerhalb deryiu-Achse liegen; approximativ kann die Gleichung (7) unter Fortlassen der Formantpole wie folgt geschrieben werden:

J-VV ^m
k m Pk — <*«i

(9)

Aus Gleichung (9) ist zu schließen, daß die signifikanteren Pole die der Hüllfunktion x(t) zugeord-

Formanlpole bewertet. Daher bleibt die Formantinformation erhalten, obwohl die stärker gedämpften Formantpole nicht erhalten werden. Die Formantinformaliori ist implicite dargestellt durch die resultierenden komplexen Residuen; die Tonhöhen- bzw. pifch-lnfor* illation geht in die Residuum- und Pol-Verteilung ein.

In der Praxis ist die tatsächliche Anzahl von zur Approximation eines Spfachsegments erhaltenen PoI-paafen eine Untergruppe derjenigen nach Gleichung (8). Die Laplacc-Transformation gilt für die gesamte gewertete periodische Gnippe bzw. Menge und wählt eine Anzahl von Polpaaren zusammen mit deren komplexen Residuen so aus, daß die für die vorgegebene Anzahl von Polen mögliche Maximalenergie erhalten wird. Mit anderen Worten, das durch die Gleichung (8) dargestellte Sprach- bzw. Sprechsignal wird analysiert und eine Gruppe von Parametern gewonnen, die die

MCtC μϋΙ IVUI3UIIC VJIUpjJC UCII a LCIIClI. L/IC3C IWIC 3IIIU

jedoch durch die Residuen und Abstände von jedem der Für:

Hg \oj in 6ίΠβΓ r äriiäiürUCniöi Γπ um atcncii.

= V

V(S) = γ

A₁

	Σ	Σ m	A-«m	'Γ	Σ	ν	Λ,	**- m***
Σ		- λ - A			Α
				ν/

oder in der Annäherungsform entsprechend Gleichung (9):

Σ Σ

kl S- /._M

(12)

wobei [Kt, /} die Gruppe von komplexen Residuen und [/.ic, /} die Gruppe von Polstellen darstellen, welche die Sprache charakterisieren. Das System gibt eine Lösung für diese beiden Gruppen von komplexen Zahlen. Es kann in einigen Anwendungsfällen erwünscht sein, die Gleichung (11) zur Bestimmung der Polpaarstellen und Residuen unter der vereinfachten Annahme gemäß Gleichung (12) zu verwenden.

Die jedem Polpaar zugeordnete Energie ist angenähert proportional zu:

\R.

(13)

wobei R_n, die Amplitude des Residuum und a_m die Dämpfungsrate ist.

In der Praxis wird die Zahl der Polpaare am Ausgang der Laplace-Transformationseinrichtung für jeden Sprachrahmen mit der Zahl der zu übertragenden Polpaare verglichen. Wenn die Zahl der Polpaare von der Laplace-Transformationseinrichtung größer als die Zahl der zu übertragenden Polpaare ist, so wird die jedem Polpaar zugeordnete Energie berechnet, und die Polpaare werden nach ihrem Energiegehalt geordnet bzw. bewertet. Eine feste Anzahl der am höchsten bewerteten Polpaare (diejenigen mit der höchsten Energie) werden zur Übertragung erhalten.

Daher beruht das Vocodersystem auf der Gewinnung einer Laplace-Transformation-Partialbruchzerlegung von aufeinanderfolgenden Sprachsegmenten, wobei eine Anzahl von Polpaarparametern (Frequenz, Dämpfung, Stärke bzw. Amplitude und Phase) entsprechend einem Energie-Auswahlkriterium erhalten und übertragen wird und danach das Sprachsignal entsprechend den übertragenen Parametern rekonstruiert wird. Dies geschieht mit aufeinanderfolgenden gleichmäßigen Sprachdauern unter geeigneter Glättung zwischen den Segmenten; zur Erzielung einer Glättung zwischen den Rahmen können die Sprachrahmen überlappt werden.

Die oben erläuterte mathematische Analyse zeigt, daß auch ohne VprwpnHnntr der stärker pedärnnften Polpaare die Formantinformation erhalten bleibt, so daß also das vorliegende System von der getrennten Tonhöhen- und Formantbestimmung keinen Gebrauch macht.

Im folgenden wird auf Fig.2 Bezug genommen, in der die erfindungsgemäß gestaltete Anordnung in Form eines Blockdiagramms dargestellt ist Der Analysatorteil umfaßt einen Analog/Digital-Umsetzer 13, einen

so Puffer 14, eine Laplace-Transformationseinrichiüng 15, einen Energie-Schwellwertdiskriminator 16 und einen Kodier-Ausgangspuffer 17. Dieser Teil des Systems nimmt ein analoges Sprachsignal (Eingangssignal) auf, das zur Übertragung oder Speicherung analysiert bzw. zerlegt wird. Eine als Leitung 18 in Fig.2 dargestellte Nachrichtenverbindung koppelt den Analysatorteil des Systems mit dem Syntheseteil. Der Syntheseteil weist einen Eingangspuffer 19, ein Synthesegerät 20, eine Glättungseinrichtung 21, einen Digital/Analog-Umsetzer 22 und ein Filter 23 auf. Die Nachrichtenverbindung wird nicht genauer erläutert; sie kann eine von vielen möglichen Übertragungseinrichtungen, z. B. eine Funkoder Mikrowellenverbindung oder auch ein Aufzeichnungsgerät zum Aufzeichnen der vom Vocoder verarbeiteten Information sein.

Das Eingangssprachsignal ist als analoges Sprachsignal angenommen, das dem Analog/Digital-Umsetzer 13 zugeführt wird. Der Umsetzer oder Konverter 13

lastet das Eirigangssprachsignal periodisch ab und sdlz.1 jeden Abtastwert in digitale Form um. Die umgesetzten Abtastwerfe werden zum Puffer 14 geleitet,

Bei dem beschriebenen Ausführungsbeispiel speichert der Puffer 14 eine vorgegebene Anzahl von Abiastwerten entsprechend einem Rahmen, z. ß. können tausend Abi^itwerte für jeden der Vielzahl benachbarter Rahmen verwendet werden. Bei einem Ausführungsbeispiel ist das Eingangssprachsighal vcrsläfkungs- oder ampliuidennormiert. %vobci ein Gctreri/iter Vcrstär- to kungsfaklor durch das System zum Synthesegerät übertragen wird. Als Umsetzer 13 und Puffer 14 können bekannte Geräte verwendet werden.

leder Rahmen mit digitaler Information vom Puffer 14 wird an die l.aplace-Transformationseinrichtung 15 angelegt. F.ine Laplace-Transformation wird an jedem Datenrahmen in der Einrichtung 15 durchgeführt, und

CIUl UIL3V

WtIUCII UIC

tr·..- .. * ι ι. f (ICIIIIICI I (U. II. UItT

Lage und das komplexe Residuum jedes Pols wird bestimmt). Die Laplace Transformationseinrichtung 15 kann als Digitalrechner ausgebildet sein, der zur Durchführung einer Laplace-Transforrnation program fniert ist. oder es kann sich um eine Einrichtung für diesen speziellen Zweck handeln. Bekannte Programme öder Algorithmen können in der Laplace-Transformationscinrichlung 15 verwendet werden.

Die Polpaarinformation aus der Laplacc-Transformationseinrichtung 15 wird sodann zur Energie-Schwcll Werteinrichtung bzw. zum Energie-Schwellwertdiskrimi .ator 16 übertragen. In dieser Einrichtung werden eine Anzahl von Polpaaren zur Übertragung an den Kodier-Ausgangspuffer 17 ausgewählt. Diese Auswahl erfolgt auf der Basis der jedem Polpaar zugeordneten Energie. Vorzugsweise wird eine von zwei Auswahlmethoden zur Übertragung der Polpaare verwendet. Bei einem Beispiel, das besonders günstig bei einer Verstärkungsnormierung des Eingangssprachsignals ist, wird ein vorgegebener Energieschwellwert in der Einrichtung 16 eingestellt, und nur diejenigen Polpaare, deren Energie diesen Schwellwert übersteigt, werden zum Puffer 17 durchgekoppelt. Bei einem anderen Beispiel wird eine feste oder variable Anzahl von Polpaaren von der Energie-Schwellwerteinrichtung 16 ausgewählt und zum Puffer 17 übertragen. Es sei beispielsweise angenommen, daß die Nachrichtenverbindung 12 000 Bits pro Sekunde übertragen soll und daß diese Bitzahl angenähert 16 Polpaaren der Information pro Rahmen entspricht. Die Energie-Schwellwerteinrichtung 16 bewertet bzw. ordnet die aus der Transformationseinrichtung 15 kommenden Polpaare nach ihrem Energiegehalt entsprechend Gleichung (13) und wählt die ersten 16 Polpaare, d.h. diejenigen mit dem größten Energiegehalt, zur Weiterleitung an den Puffer 17 aus. Es ist verständlich, daß bei einigen Eingangsrahmen in der Laplace-Transformationseinrichtung 15 keine 16 Polpaare zur Übertragung an die Energie-Schwellwerteinrichtung 16 definiert oder festgestellt werden können. Dieser Fall kann während einer Ruheperiode oder bei unkomplizierten Sprechwellenformen auftreten.

Der Kodier-Ausgangspuffer 17 nimmt die Polpaarinformation aus dem Energie-Schwellwertdiskriminator 16 auf und kodiert sie zur Übertragung über die Nachrichtenverbindung. Hierzu kann eine von zahlreichen Kodiermethoden verwendet werden. So kann es beispielsweise zweckmäßig sein, die Frequenzinformation in logarithmischer Form zu übertragen, oder es kann ein Teil der Polpaarinformation in Form einer Differenz übertragen werden, wenn die Information mit der Polpaarinformation des vorhergehenden Rahmens verglichen werden soll.

Der Eingangspuffer 19 nimmt die Information aus der Nachfichtenvefbiridurig öder aus einem Speicher auf und dekodiert sie gegebenenfalls. Das Ausgangssignal des Eingangspuffers wird art ein SynthesegCfät 20 angelegt.

Bei dem beschriebenen Allsführungsbeispiel findet, wie nachfolgend noch genauer erläutert werden wird, ein Rekursivfilter Verwendung, das die Verwendung digitaler Schaltungen zur Synthese der Wellenform ohne vorhergehende Gewinnung einer I.aplace-Umkehrtransformation ermöglicht.

Fun anderes System, das zur Sprachsynthese aus der Polpaarinformation verwendet werden kann, weist eine Einrichtung zum Umsetzen des das Synthesegerät 20 crfcichcuucfi uirigtingsSignü!?» in eine ^tiiLfCrCiCnSiünK-tion unter Verwendung einer Laplace-Umkehrtransformation oder einer anderen Transformation und einen Rechner zur Berechnung der jedem der Polpaare für jedes Zeitinkrement zugeordneten Amplitudenwertc auf Durch Summieren des Amplitudenbeitrags für jedes, den einzelnen Polpaaren zugeordnete Zeitinkre ment kann die Sprachsignalsynthese durchgeführt werden. Da jedes der Polpaarc im Zeitbercich durch eine gedämpfte Sinuswelle dargestellt werden kann, können die Polpaare regeneriert und (mit dem geeigneten Phasenwinkel) mit anderen gedämpften Sinuswellen für andere Polpaare zur Erzeugung des Sprachsignals summiert werden.

Die Glättungseinrichtung 21 kann irgendeine geeignete Einrichtung zur Schaffung eines glatten Übergangs von einem zum nächstfolgenden Rahmen sein. Eine Methode zur Schaffung eines glatten Übergangs besieht darin, einander überlappende Rahmen anstelle von aufeinanderfolgenden Rahmen zu benutzen. Der A/D-Umselzer 13 kann zusammen mit dem Puffer 14 zur Bildung einander überlappender Rahmen verwendet werden, die der Laplace-Transformationseinrichtiin? 15 zugeführt werden. In der Glättuneseinrichtuns 21 werden das Ende jedes Rahmens und der Beginn des nächsten Rahmens zugespitzt und sodann für die Überlappungsperiode zum Zwecke der Glättung summiert. Diese Glättungsmethode wurde bei Vibrationssteuersystemen verwendet und ist in der US-PS 38 48 115 beschrieben. Andere Glättungsmethoden. z. B. normierte Verstärkungsmethoden können verwendet werden.

Das Ausgangssignal der Glättungseinrichtung 21 wird an den D/A-Umsetzer 22 angelegt, in welchem die digitalen Informationsrahmen in üblicher Weise in analoge Form umgesetzt werden. Das analoge Ausgangssignal des D/A-Umsetzers 22 wird an das Filter 23 angelegt und in üblicher Weise gefiltert. Das Filter 23 kann zum Ausfiltern der von dem System in das Signal eingeführten Frequenzkomponenten benutzt werden. So beseitigt das Filter 23 beispielsweise die Abtastfrequenz des A/D-Umsetzers 13 und deren Harmonische oder andere Signale dieser Art.

Das anhand F i g. 2 beschriebene System bildet also einen Vocoder für ein Eingangssignal und synthetisiert das kodierte Signal ohne eine getrennte Tonhöhenbestimmung; ferner wird stimmhafte und stimmlose Sprache in übereinstimmender Weise verarbeitet.

In F i g. 3 ist der Analysatorteil der Gesamteinrichtung genauer dargestellt. Der Analysator nimmt ein Eingangssignal, z. B. ein analoges Sprachsignal v(t) über

die Leitung 30 auf und gibt ein Ausgangssignal (Leitung 36) am Ausgang des Ausgangspuffers und Kodierers 63 ab. Dieses Ausgangssignal kann auf eine Nachrichtenverbindung oder ein Atifzeichnungssyslcm gegeben werden. Im Falle des in Fig.2 dargestellten Systems stellt das Ausgangssignal auf der Leitung 36 eine Vielzahl von Polpaaren dar, clic so gewählt sind, daß eine maximaie Energie des Eingangssignals zur Verfügung steht. Bei dem beschriebenen Ausführungsbeispiel wird eine Laplace-TYansformierte unter Ver- Wendung einer Fourier-Transformation bestimmt.

Das Eingangssignal zum Analysator wird an eine Abtast- und Halteeinrichtung 31 angelegt. Die Abtast und Haltceinrichuing 31 kann durch eine der bekannten Schaltungen gebildet sein, die /um Abtasten eines is Eingangssignals und zum Halten des Abtastwerts über eine fUr die Umsetzung in die Digilalform mittels des A/D-Konveriers 33 ausreichende Zeit geeignet ausgebildet sind. Das Ausgangssignal der Abtast- und Halteeinrichtung 31 wird daher zum Eingang eines A/D-Unisetzers 33 übertragen. Als Umsetzer 33 kann ein A/D-Umsetzer bekannter Bauart dienen.

Die Ausgangsleitung vom A/D-Umsetzer 33 ist mit einem Eingangsanschluß einer Multipliziereinrichlung 35 verbunden. Die Multipliziereinrichtung 35 weist mit Leitungen 39,40 und 48 verbundene Eingangsanschlüsse und einen mit der Leitung 41 verbundenen Ausgangsanschluß auf. Die Multipliziereinrichtung 35 multipliziert das digitale Signal von der Leitung 39 oder der Leitung 48 mit dem Digitalsignal auf der Leitung 40 und entwickelt ein Produktsignal auf der Leitung 41. Als Multipliziereinrichtung 35 kann eine bekannte digitale Multiplizier- und Multiplexeinrichtung verwendet werden.

Der Ausgangsanschluß der Multipliziereinrichtung 35 ist mit einem Puffer 43 verbunden. Bei dem Puffer 43 handelt es sich um einen Speicher zur Speicherung digitaler Information. Der Ausgang des Puffers 43 ist über eine Leitung 42 mit dem Umsetzer 45 verbunden. Als Puffer 43 kann beispielsweise ein Schieberegister, ein Speicher mit wahlfreiem Zugriff, ein Kernspeicher

OU. UgI. UtCMCfL

Ein Funktionsgenerator 37 erzeugt eine bekannte Funktion darstellende Digitalsignale. Bei dem beschriebenen Ausführungsbeispiel erzeugt der Funktionsgenerator 37 eine Sinusfunktion, weiche über die Leitung 40 in die Multipliziereinrichtung 35 eingegeben wird. Diese Funktion ist mit

sin

π .τ 7

in Fig.3 angegeben, wobei τ die Abtastperiode der Abtast- und Halteeinrichtung 31 ist.

Der Umsetzer 45 ist eine geeignete Recheneinrichtung, mit der eine Fourier-Transformierte bzw. Fourier-Transformation aus einem Eingangssignal gewonnen werden kann. Es sind zahlreiche schnelle Fourier-Transformationseinrichtungenbekannt, die entweder maschinenmäßtgi.oder durch ein Programm auf die besondere Funktion abgestellt sein können. So kann der Umsetzer 45 beispielsweise ein Allzweck-Digitalrechner sein, der mit einem FFT (Fourier-Transformations-) Programm ausgestaltet isL Bei dem beschriebenen Ausfuhrungsbeispiel weist der Fourier-Transformationsumsetzer 45 vorzugsweise das in der US-PS 36 38 004 beschriebene System auf. Verschiedene andere FFT-Methoden sind in der Beschreibu! »seinleitung dieser Patentschrift angegeben. Auch in der US-PS 36 38 004 ist in Fig. 7 ein Funktionsgenerator gezeigt, der als Funktionsgenerator 37 der vorliegenden Erfindung verwendet werden kann: dasselbe gilt für die Abtast- und Halteeinrichtung 31 und den A/D-Umsetzer 33, die in Fig. 6 dieser Druckschrift dargestellt sind.

Wie noch genauer beschrieben werden wird, entwikkelt der Umsetzer 45 eine Fourier-Transformation des Signals auf der Leitung 42. Das Signal auf der Leitung 42 ist jedoch nicht einfach die digitale Form des an die Leitung 30 angelegten Eingangssignal, sondern dessen Darstellung nach dessen Verarbeitung mit dem Ausgangssignnl des Funktionsgenerators 37 in der Multipliziereinrichtung 35.

Die Ausgangsanschlüsse des Fourier-Transfortrui-(ionsumsetzers 45 sind über eine Leitung 46 mit den Eingangsanschluß eines Spitzendetektors 49 und über eine Leitung47 mit einem Speicher 53 verbunden.

Als Spitzendetektor 49 kann eine geeignete digitale Einrichtung zur Bestimmung der Spitzen eines Signals verwendet werden. Der Spitzendetektor 49 bestimmt die Spitzen für jeden Rahmen der über die Leitung 46 von ihm aufgenommenen Eingangsdaten. Der Ausgangsanschluß des Spitzendetektors 49 ist über die Leitung 51 mit dem anderen Eingangsanschluß des Speichers 53 verbunden.

Als Speicher 53 kann ein Digitalspeicher in Form eines Speichers mit wahlfreiem Zugriff, eine Mehrzahl von Schieberegistern, ein Magnetkernspeicher od. dgl. verwendet werden.

Eine arithmetische Einrichtung 56 dient zur Durchführung gewöhnlicher arithmetischer Funktionen und kann daher durch einen Allzweck-Digitalrechner, einen Festprogrammrechner oder eine andere digitale Ein richtung gebildet werden. Der Eingangsanschluß der arithmetischen Einrichtung 56 ist mit dem Ausgangsanschluß des Speichers 53 über eine Leitung 54 verbunden. Bei dem beschriebenen Ausführungsbeispiel wird ein Allzweck-Digitalrechner zur Durchführung der arithmetischen Funktionen verwendet, wie sie in dem der

Ibt-HCfl L.HI1 IV-IIlUIIg -tu ttlgl.tyttjti\.n.ii utv^vtv

gezeigt sind. Diese Gleichungen umfassen herkömmliche arithmetische Funktionen, wie Multiplikation, Division, Addition, logarithmische Berechnung usw., so daß bekannte Algorithmen für diesen Zweck geeignet sind. Der Ausgangsanschluß 58 der arithmetischen Einrichtung 56 ist mit einem Energiedetektor und Ordner 61 verbunden.

Der Energiedetektor und Ordner 61 ist eine digitale Schaltung zur Bestimmung der jedem Polpaar zugeordneten Energie aus der über den Eingangsanschluß des Ordners 61 zugeführten Polpaarinformation. Die jedem Pol zugeordnete Energie wird durch Multiplikations- und Divisionsoperationen berechnet, welche in dem beschriebenen Ausführungsbeispiel durch einen Allzweck-Digitalrechner durchgeführt werden, der mit der arithmetischen Einrichtung 56 bei dem beschriebenen Ausführungsbeispiel kombiniert ist Der Ordner 61 bewertet bzw. ordnet auch die Pole nach der Energie, und zwar durch Vergleich der Energie jedes Polpaars innerhalb eines Rahmens, und überträgt sodann die Polpaarparameter der Pole höherer Energie zum Ausgangspuffer und Kodierer 63.

■bS Bei einer Datengeschwändigkeitssteuerung 59 handelt es sich um ein von Hand betätigbares oder automatisch gesteuertes Gerät, das dem Ordner 61 ein für die Anzahl der zum Ausgangspuffer und Kodierer 63 zu übertra-

gendcn Polpaare repräsentatives Signal zuführt. Wenn auch bei dzm beschriebenen Ausfiihrungsbeispiel Cine feste Anzahl (z.B. 16) Von Pölpaaren aus jedem Eingangssignalrahmen ausgewählt wird, kann es in manchen Anwendungsfällen erwünscht sein, die Zahl 5 der für jeden Rahmen Zu übertragenden Polpaare zu ändern.

Der Ausgangspuffer und Kodiefef 63 nimmt aus dem Energiedetektor und Ordner information auf und kodiert die Information in geeignete Form zur Übertragung über die Leitung 36. Hierzu sind geeignete Schaltungen bekannt.

Selbstverständlich werden Zeitgabesignale und Steuersignalt un alle in Fig. 3 dargestellten Schaltungen gegeben; diese sind jedoch in Fig. 3 nicht angegeben, um diese Darstellung nicht zu kompliziert zu machen. Bekannte Zeitgabeschaltungen und Binäreinrichtungen können zur Steuerung des Datenflusses durch den in F i g. 3 dargestellten Analysator verw endet werden. Im Setrieb wird ein analoges Sprachsignal über die Leitung 30 an die Abtast- und Halteeinrichtung 31 angelegt. Bei dem beschriebenen Ausführungsbeispiel (F i g. 3) findet die zuvor erwähnte Verstärkungseinstellung zur Normierung der Verstärkung in der Abtast- und Halteeinrichtung 31 nicht statt. Wenn eine solche Einstellung oder Normierung des Eingangssprachsignals vorgenommen werden soll, so wird ein getrenntes Signal, das für die Verstärkung des Eingangssignals charakteristiscii ist, für jeden Rahmen zum Ausgangspuffer und Kodierer 63 zusammen mit der die Polpaare darstellenden Information übertragen. Bei einem derartigen System kann der Energiedetektor und Ordner 61 einfach einen Schwellwert bilden und die Übertragung zum Ausgangspuffer und Kodierer 63 für alle Polpaare freigeben, deren Energiepegel über einem vorgegebenen Sollwert liegt. Bei dem beschriebenen Ausführungsbeispiel finden in der Abtast- und Halteeinrichtung beispielsweise 500 Abtastungen pro Rahmen (5-10 Millisekunden fortlaufende Rahmen) statt. Im A/D-Umsetzer 33 wird jeder Abtastwert in digitale Form umgesetzt und sodann zur Multipliziereinrichtung 35 übertragen.

Es ist zu sehen, daß jeder Rahmen des Eingangssprachsignals getrennt verarbeitet wird, wobei dessen Polpaare bestimmt werden, wenn auch ein »Rohrleitungs« Schema verwendet wird. Das heißt, während der Fourier-Transformationsumsetzer45 einen Rahmen des Eingangssignals verarbeitet, können die Abtast- und Halteeinrichtung 31, der A/D-Umsetzer 33. der Funktionsgenerator 37 und die Multipliziereinrichtung 35 bereits den nächsten Rahmen des Eingangssignals verarbeiten.

Im folgenden wird die Funktionsweise des Generators 37, der Multipliziereinrichtung 35, des Puffers 43, des Umsetzers 45, des Spitzendetektors 49, des Speichers 53 und der arithmetischen Einrichtung 56 kurz beschrieben.

Jeder Eingangssignalrahmen wird nach der Umsetzung in Digitalform in der Multipliziereinrichtung 35 mit einer vom Funktionsgenerator 37 erzeugten Sinusfunktion multipliziert und das sich ergebende Produktsignal wird dem Puffer 43 zugeführt. Dieses Produktsignal gelangt sodann über die Leitung 42 zum Fourier-Transformationsumsetzer 45 und wird außerdem über die Leitung 48 zur rviultipitziereinrichtung 35 zurückgeführt. An der Multipliziereinrichtung wird das Produktsignal «■wiederum mit einer vom Funktionsgenerator 37 -«erzeugten SinusFunktion multipliziert. Dieses zweite Produktsignal wird (über die Leitung 41) zum Puffer 43 und von dort über die Leitung 42 in den.Fourier-Transformationsumselzer 45 übertragen.

Der Fourier-Transformationsumsetzer 45 entwickelt eine Pourier-Transformierte sowohl aus dem ersten als auch aus dem zweiten Produktsigna!, das ihm über den Puffer 43 in jedem Eingangssignalrahmeri zugeführt wird. Die Ergebnisse der beiden Fourier^Transformationen werden üfcer die Leitung 47 direkt zum Speicher 53 und die Ergebnisse der Transformation für das zweite Produktsignal über die Leitung 46 zum Spitzendetektor 49 geleitel. Die mathematischen Darstellungen dieser Signale sind ne'ben der Leitung 47 in F i g. 3 angegeben. Zu beachten ist, daß Δ den endlichen Differentialoperator bei dem beschriebenen Ausführungsbeispiel darstellt.

Durch die von der Multipliziereinrichtung 35 durchgeführte Multiplikation im Zeitbereich werden die Spitzen der Frequenzbereichsdarstellung des Eingangssignals verschärft. Diese Verschärfung verringert die Wechselwirkung an den auslaufenden Flanken benachbarter Spitzen und ermöglicht die Bestimmung der Frequenz der Pole entlang der ./ω-Achse im Spitzendetektor 49. Daher bestimmt der Spitzendetektor 49 für jeden Eingangsdatenrahmen die Frequenzen, an denen Pole auftreten. Diese Frequenzen werden über die Leitung 51 zum Speicher 53 übertragen, wo sie abgespeichert werden. Die ersten und zweiten »Differenzierungen« oder Faltungen (die sich aus den ersten und zweiten Produktsignalen ergeben) werden im Analysator gemäß Fig.3 benutzt; es können jedoch auch Differenzierungen höherer Ordnung verwendet werden.

Von dem Speicher 53 werden die Frequenzen und die Ergebnisse der Founer-Transformationsumsetzungen über die Leitung 54 zur arithmetischen Einrichtung 56 übertragen. Die arithmetische Einrichtung löst die beiden im zugehörigen Block des Blockschaltbilds gemäß F i g. 3 angegebenen Gleichungen für jeden Datenrahmen. In der »Sigma« Gleichung bedeuten N die Anzahl von Proben pro Rahmen und C einen

»* r> , ι. (·.)..„ i_ j :* /^i«:„u,,„„ ;_rf „d„„loi^l·,

der absoluten Höhe der Amplitude (des Pols' und des Phasenwinkels des Pols.

Die Information, d. h. die Frequenz. Dämpfungsrate, Amplitude und der Phasenwinkel für jedes Polpaar wird sodann über die Leitung 58 zum Energiedetektor und Ordner 61 übertragen. In dieser Einrichtung wird die jedem der Polpaare zugeordnete Energie bestimmt und danach die Polpaare geordnet, d.h. gespeichert und nach ihrem relativen Energiegehalt identifiziert. Die Steuereinrichtung 59 bestimmt die Anzahl der zum Ausgangspufl'er und Kodierer 63 übertragenen Pole, so daß in jedem Rahmen eine vorgegebene Anzahl von Polpaardaten zum Ausgangspuffer und Kodierer 63 übertragen wird. Wie oben erwähnt, ergeben 16 Polpaare eine ausgezeichnete Reproduktion bei einer Rahmendauer von 50 Millisekunden.

Der Ausgangspuffer und Kodierer 63 dient als Schnittstelle für den Analysator und die Nachrichtenverbindung bzw. das Aufzeichnungsgerät und bringt die Polpaarinforraation in identifizierbare Form. Ein identifiziertes Wort; kann zur Kennzeichnung des Beginns jedes Rahmens verwendet werden, und andere Identifikationsworte können zur Kennzeichnung des Beginns der jedes Polpaar definierenden Daten benutzt werden.

Bei einigen Anwendungsfällen hat es sich als zweckmäßiger erwiesen, die Polpaarinformation in zwei

Durchlaufen zu berechnen. Zunächst erfolgt eine Grobberechnung der Polpaarinfcrmation. wobei die energiereicheren Pole ausgewählt werden. In einem zweiten Durchlauf wird eine genauere Definition der gewählten Pole üurchgeführt. Es ist einzusehen, daß während des zweiten Durchlaufs die Rechenvorgänge reduziert sind, da Einzelberechnungen nur zur genaueren Definition der gewählten Polpaare erforderlich sind. Bei anderen Anwendungen kann es erwünscht sein, die Frequenzen der Pole aus einer Fourier-Transformation ohne vorhergehenden Verschärfungsvorgang zu gewinnen.

Bei dem beschriebenen Ausführungsbeispiel wird die Sprachsynthese ohne Gewinnung einer Fourier-Umkehrtransformation oder einer Laplace-Umkehrtransformation durchgeführt, indem Sinusfunktionen und Exponentialfunktionen entsprechend der Polpaarinformation erzeugt werden. Ein Rekursivfilter (F i g. 4) wird zu diesem Zweck benutzt. Die Eingangsinformation

wird dem Filter von der Nachrichtenverbindung oder einem Speicher über die Leitung 71 zugeführt. Diese Leitung ist mit dem Eingangsanschluß eines Eingangspuffers und Dekodierers 65 verbunden. Das Ausgangssignal wird von einer Summierschaltung 76 auf eine

ίο Leitung 103 gegeben. Die Schaltung gemäß F ig. 4 kann mit bekannten Digitalschaltungen realisiert werden.

Es ist zu sehen, daß die synthetische bzw. reproduzierte Sprache durch die folgende Gleichung dargestellt werden kann, wobei Zden Z-Transformationsoperator

'5 darstellt:

R,

cos H₁ - C ~t ' cos (-~ - + H₁) Z

wobei τ das Ablastintervall darstellt und die Frequenz /t und die Dämpfungskonstante n_k durch die folgenden Beziehungen gegeben sind:

k T

115)

30

Verschiedene Ausdrucke dieser Gleichung sind im Blockschaltbild gemäß Fig. 4 angegeben, um die Schaltung und deren Funktion im Sinne einer Lösung der obengenannten Gleichung (14) zu verdeutlichen.

Der Eingangspuffer und Dekodierer 65 weist fünf mit den Leitungen 66 ... 70 verbundene Ausgangsanschlüsse auf. Der Eingangspuffer und Dekodierer 65 nimmt die ein Polpaar darstellende Information auf und gibt die Amplitude auf der Leitung 66. den Kosinus des Phasenwinkels auf die Leitung 67. die Dämpfungsrate auf die Leitung 68. den Phasenwinkel auf die Leitung 69 und die Frequenz auf die Leitung 70.

Eine Additionsschaltung 73 weist zwei Eingangsan-Schlüsse und einen Ausgangsanschluß auf. wobei die Eingangsanschlüsse mit der Leitung 66 und mit einer Leitung 77 und der Ausgangsanschluß mit einer Leitung 91 verbunden sind. Verzögerungsschallungen 88 und 89 können als Schieberegister oder andere Schaltungen zur Verzögerung digitaler Signale ausgebildet sein. Die Ver7ögerungsschaltungen dienen zur Verzögerung des an ihrem Eingang anstehenden Signals um eine der Abtastperiode entsprechende Zeil. Der Eingangsanschluß der Verzögerungsschallung 88 isi mit der Leitung 91 und der Eingangsanschluß der Verzögerungsschaltung 89 mit einer Leitung 93 verbunden Der Ausgangsanschluß der Verzögerungsschaltung 88 ist mit einer Leitung 99 und der Ausgangsanschluß der Verzögerungsschallung 89 mil einer Leitung 95 verbunden.

Fünf Multiplizierschaltungcn 79...83 werden im Rekursivfilter gemäß Fig.4 verwendet. Jede dieser Multiplizierschaltungen hat zwei Eingangsanschlüsse und einen Ausgangs- oder Produklanschluß. Die Multiplizierschaliung 79 ist eingangsseitig mit der Leitung 93 und einer Leitung 101 und ausgangsseitig mit einer Leitung 100 verbunden. Die Eingangsanschlüsse der Multipli/ierschaltung 80 sind mit Leitungen 95 und 97 und der Ausgangsanschluß der Multiplizierschaltung 80 mit einer Leitung 9b verbunden. Die Multiplizierschaltui.g 82 ist eingangsseitig mit Leitung 98 und 99 und ausgangsseitig mit der Leitung 93 verbunden. Die Eingangsanschlüsse der Multiplizierschaltung 81 sind mit den Leitungen 91 und 67 und der Ausgangsanschluß der Muhiplizierschaltung 81 ist mit der Leitung 92 verbunden. Die Multiplizierschaltung 83 ist mit ihren P.ingangsanschlüssen an die Leitungen 93 und 94 und mit ihrem Ausgangsanschluß an die Leitung 84 angeschaltet.

Zusätzlich zur Additionsschaltung 73 weist das Rekursivfilter gemaR Fig. 4 Additionsschaltungen 74 und 75 auf. die jeweils mit zwei Eingangsanschlüssen und einem Ausgangsanschluß versehen sind. Die Additionsschaltung 74 ist mit ihren beiden Eingangsanschlüssen an die Leitungen % und 100 und mil ihrem Ausgangsanschluß an die Leitung 77 angeschalte!, während die Addilionsschaltung 75 mit ihren beiden F.ingangsanschlüssen an die Leitungen 92 und 84 und mil ihrem Ausgangsanschluß an den Eingangsanschluß der Summierschaltung 76 angeschaltet ist.

Ein Sinusgenerator 86 erzeugt konstante Digitalsignale, welche die neben den Leitungen 94 und 101 in Fig. 4 angegebenen Funktionen darstellen Dieser Generator nimmt eine Eingangsfrequenz entsprechend der Frequenz eines Pols über die Leitung 70 und em Phasenwinkelsignal über die Leitung 69 auf. Die beiden Vom Sinusgenerator 86 erzeugten Sinusfunktionen werden auf die Leitungen 94 und 101 gegeben. Beide Ausgangssignale des Sinusgencrators 86 sind in F ι g 4 in Form einer Kosinusfunktion dargestellt. Eines dieser Signale (Leitung 94) ist um den Phasenwinkel des Pols verschoben

Ein Exponentialfunktionsgenerator 87 er/eugl in digitaler Form ein konstantes Signal entsprechend den im zugehörigen Block der Fig 4 angegebenen F.xpoheilten.

In der Zeichnung nicht dargestellte Zeitgabeeinrichtungen sind mit jeder SchaltUflgskomponentc der Schaltung gemäß Fig.4 verbunden und steuern den Informationsfluß von einer zur anderen Schaltuttgskömponente.

Die Schaltung nach Fig.4 verarbeitet die ihr eingegebenen Charakteristiken eines einzelnen Polpaars und erzeugt ein Ausgangssignal aiii Ausgang der

Addtitionsschaltung 75· Pie Schaltung wird mit der der Abtastrpte des Eingangsanalogsignals entsprechenden Folge getaktet und nimmt daher eine neue Polpaarinformation für jeden Rahmen des Eingangssignals auf. Ein Rekursivfilter entsprechend Fig.4 kann für jedes Polpaar verwendet werden, und das Ausgangssignal jedes dieser Filter wird in der Summierschaltung 76 summiert. Wenn beispielsweise 16 Polpaare übertragen werden, so finden 16 Schaltungen entsprechend Fig.4

Verwendung, wobei die Ausgangssignale dieser Riter auf Leitungen 104 gegeben werden und in der Summierschaltung 76 summiert werden. Das Ausgangssignal der Summierschaltung 76 (Leitung 103) wird sodann in analoge Form umgesetzt.

Der zuvor beschriebene Vocoder erfordert keine getrennte Tonhöhenbestimmung und verarbeitet die stimmlose Sprache in gleicher Weise wie die stimmhafte Sprache.

Hierzu 3 Blatt Zeichnungen

Claims

Patentansprüche:

1. Elektrische Anordnung zur Übertragung oder Speicherung eines Sprach- oder Tonsignals in kodierter Form, mit einer Eingabeeinrichtung und einer dieser nachgeordneten Zeitbereichs/Frequepzbereichs-Transformationseinrichtung, g e kennzeichnet durch eine Laplace-Transformationseinrichtung (15), deren Ausgangssignal in an sich bekannter Weise die Polpaare des Eingangssignals in der s-Ebene darstellt, und durch einen dieser nachgeschalteten Diskriminator (16), der Polpaare zur Übertragung oder Speicherung auswählt, π

2. Elektrische Anordnung nach Anspruch I₁ dadurch gekennzeichnet, daß der Diskriminator ein Amplitudendiskriminator(16)ist

3. Elektrische Anordnung nach Anspruch I oder 2, dadurch gekennzeichnet, daß mit der Laplace-Transformationseinnchtung (15) eine die jedem Pol zugeordnete Energie bestimmende Recheneinrichtung (56) verbunden ist und daß der Diskriminator als Energiedetektor und Ordner (61) ausgebildet ist, der die Pole mit der höchsten Energie in jedem von der Eingangseinrichtung (13,1J; 31,33) festgelegten Rahmen auswählt und mit der Recheneinrichtung (56) verbunden ist.

4. Elektrische Anordnung nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß die Laplace-Trai.sformationseinrichtung einen Spitzendetektor (49) aufweist.

5. Elektrische Anordnung nach einem der Ansprüche 1 bis 4 mit ein·" nachgeschalteten Syntheseeinrichtung, dadurch gekennzeichnet, daß die Syntheseeinrichtung ein oder mehrere Rekursivfilter (Fi g. 4) aufweist.

6. Elektrische Anordnung nach Anspruch 5. dadurch gekennzeichnet, daß die Syntheseeinrichtung eine Glättungseinrichtung (21) zur Glättung des 4u Ausgangssignals aufweist.