DE3781393T2

DE3781393T2 - Verfahren und einrichtung zur komprimierung von sprachsignaldaten.

Info

Publication number: DE3781393T2
Application number: DE8787904461T
Authority: DE
Inventors: Khaled Jibbe
Original assignee: NCR International Inc
Current assignee: SK Hynix Inc; NCR International Inc
Priority date: 1986-07-21
Filing date: 1987-06-25
Publication date: 1993-04-01
Anticipated expiration: 2007-06-26
Also published as: WO1988000754A1; EP0275273A1; JP3048150B2; JPH01500463A; CA1307590C; US4802221A; DE3781393D1; EP0275273B1

Description

Technisches Gebiet

Diese Erfindung betrifft ein Verfahren und ein System zum Komprimieren eines Sprachsignale darstellenden seriellen Bitstromes.

Stand der Technik

Mehrere Verfahren zum Umwandeln analoger Sprachsignale in digitale Datensignale sind bekannt.
Ein derartiges Verfahren, das eine Deltamodulation verwendet, ist allgemein bekannt als CVSD (kontinuierliche Datenmodulation mit variabler Steigung).
Ein anderes derartiges Verfahren ist in dem US-Patent Nr. 4,271,332 offenbart. Dieses bekannte Verfahren verwendet ein Filter mit einem augenblicklich variablen Band, und es wird nachstehend hierauf Bezug genommen als die MIMIC-Technik.
Noch ein anderes derartiges Verfahren ist in dem US-Patent Nr. 4,594,575 offenbart. Dieses bekannte Verfahren verwendet eine Wobbel-Technik, und auf sie wird hier Bezug genommen als die SPFE-(Sprachprozessorvorderende-)Technik.
Die bekannten Umwandlungsverfahren erzeugen serielle Bitströme digitaler Daten, die Kompressionstechniken unterworfen werden können, wodurch die Gesamtmenge digitaler Daten reduziert wird, die in einem Sprachverarbeitungssystem gespeichert und/oder übertragen werden muß.
Aus IEEE Transactions on Acoustics, Speech, and Signal Processing, Band ASSP-31, Nr. 1, Februar 1983, IEEE (New York, US), K. Inoue et al.: "A single CMOS Speech Synthesis Chip and New Synthesis Techniques", Seiten 335 bis 338 ist eine Sprachverarbeitungstechnik bekannt, bei der Sprachdaten digitalisiert und komprimiert werden. Stimmlose Ausdrücke werden in Nulldurchgangsform kodiert. Stimmhafte Ausdrücke werden zuerst in mehrere Blöcke aufgeteilt, wobei eng übereinstimmende Tonhöhenperioden in einen einzigen Block gruppiert werden. Für jeden Block wird diejenige Tonhöhenperiode, die am repräsentativsten ist für die Frequenz, Amplitude und Wellenform der Tonhöhenperioden in der Gruppe als die repräsentative Tonhöhenperiode ausgewählt. Auch wird die Amplitude eingestellt, um die Einhüllende des Originalsignals beizubehalten, wobei die Amplitudenänderungsinformation getrennt kodiert wird.
Aus IEEE Transactions on Communications, Band COM-30, Nr. 2, Februar 1982, IEEE, (New York, US), J. A. Flanagan et al.: "Digital Voice Storage in a Microprocessor", Seiten 336 bis 345 ist eine Technik zur digitalen Sprachspeicherung bekannt, wobei Stille-Intervalle eliminiert werden. Die Stille wird festgestellt, wenn der integrierte Absolutwert unter einen gegebenen Schwellenwert fällt, wobei ein Zähler aktiviert wird, um die Dauer des Stille-Intervalls aufzuzeichnen.
Aus IEEE Transactions on Acoustics, Speech, and Signal Processing, Band ASSP-28, Nr. 4, August 1980, IEEE (New York, US), C. K. Un et al.: "Voiced/Unvoiced/Silence Discrimination of Speech by Delta Modulation", Seiten 398 bis 407 ist eine Technik zur stimmhaften/stimmlosen/stillen Diskriminierung von Sprache bekannt, die basiert auf den Ergebnissen von Zählbitalternierungen des Bitstromes von der LDM (lineare Deltamodulation) des Sprachsignals und Nulldurchgängen eines bandpaßgefilterten Ausgangssignals des dekodierten LDM-Signals, basierend auf entsprechenden Paaren von Schwellenwertpegeln.

Offenbarung der Erfindung

Es ist eine Aufgabe der vorliegenden Erfindung, ein Verfahren und ein System zum Komprimieren eines Sprachsignale darstellenden seriellen Bitstromes anzugeben, bei denen ein hoher Komprimierungsgrad erzielt wird, wobei jedoch eine genaue Wiedergabe des ursprünglichen Signals erreicht werden kann.
Gemäß einem Gesichtspunkt der vorliegenden Erfindung wird somit ein Verfahren zum Komprimieren eines Sprachsignale enthaltenden Bitstroms angegeben, das die Schritte aufweist: (a) Speichern der Bits des seriellen Bitstromes; (b) Lesen der gespeicherten Bits in festen Rahmenlängen; (c) Klassifizieren jedes Rahmens von gelesenen Bits als stimmhaft, stimmlos oder Stille, wobei ein Rahmen als Stille klassifiziert wird, wenn der Rahmen zumindest eine vorbestimmte Anzahl von Wiederholungen eines vorbestimmten Bitmusters enthält; (d) Komprimieren der Bits eines als Stille klassifizierten Rahmens durch Speichern des vorbestimmten Bitmusters und einer der Anzahl von Malen entsprechenden Anzahl von Wiederholungen des vorbestimmten Musters in einem Rahmen; (e) Bestimmen einer Tonhöhenperiode für einen als stimmhaft klassifizierten Rahmen; (f) Bestimmen eines Bezugstonhöhenmusters entsprechend der Tonhöhenperiode; (g) Vergleichen der Bits eines stimmhaften Rahmens mit den Bits des Bezugstonhöhenmusters, um eine Wiederholung festzustellen; (h) wenn der unmittelbar vorhergehende Rahmen als stimmhaft klassifiziert wurde, Bewirken des Schritts Vergleichen unter Verwendung des für den unmittelbar vorhergehenden Rahmen bestimmten Bezugstonhöhenmusters; (i) Bestimmen einer Wiederholungszählung, die die festgestellte Wiederholung darstellt; (j) wenn der unmittelbar vorhergehende Rahmen als stimmhaft klassifiziert wurde, Verwenden der für den unmittelbar vorhergehenden Rahmen bestimmten Wiederholungszählung als eine Anfangswiederholungszählung für den augenblicklichen Rahmen; (k) Speichern der Wiederholungszählung, der Tonhöhenperiode und des Bezugstonhöhenmusters und (l) Wiederholen der Schritte (b) bis (k), um den seriellen Bitstrom zu komprimieren.
Gemäß einem anderen Gesichtspunkt der vorliegenden Erfindung wird ein System zum Komprimieren eines Sprachsignale darstellenden seriellen Bitstroms angegeben, das aufweist: eine erste Speichervorrichtung, die geeignet ist, den seriellen Bitstrom zu speichern; eine Empfängervorrichtung, die geeignet ist, den seriellen Bitstrom von der Speichervorrichtung in Rahmen mit fester Länge zu lesen; eine Kompressionsvorrichtung, die geeignet ist, jeden Rahmen als stimmhaft, stimmlos oder Stille zu klassifizieren und einen stimmhaften Rahmen unter Bestimmen und Speichern einer Tonhöhenperiode, eines Bezugstonhöhenmusters und einer Wiederholungszählung zu speichern, die eine Anzahl von Wiederholungen des Bezugstonhöhenmusters darstellt; eine Vergleichsvorrichtung, die geeignet ist, die Bits eines stimmhaften Rahmens mit den Bits des Bezugstonhöhenmusters zu vergleichen, um eine Wiederholung festzustellen, wobei, wenn der unmittelbar vorhergehende Rahmen als stimmhaft klassifiziert wurde, das Bezugstonhöhenmuster für den unmittelbar vorhergehenden Rahmen durch die Vergleichsvorrichtung verwendet wird, wobei die Kompressionsvorrichtung geeignet ist, einen Rahmen als Stille zu klassifizieren, wenn der Rahmen zumindest eine vorbestimmte Anzahl von Wiederholungen eines vorbestimmten Bitmusters enthält, und einen Stille-Rahmen durch Speichern des vorbestimmten Bitmusters und einer der Anzahl von Malen entsprechenden Anzahl von Wiederholungen des vorbestimmten Bitmusters in dem Rahmen zu komprimieren; und eine zweite Speichervorrichtung (50), die geeignet ist, die komprimierten Rahmen zu speichern.
Ein zusätzlicher Vorteil der vorliegenden Erfindung ist, daß die Stimmhaft/Stimmlos-Entscheidung abgekoppelt, d. h. getrennt ist von der Tonhöhenfeststellung. Dies unterstützt die Minimierung der Systemkomplexität und die Verbesserung der Systemleistung beim Übergang zwischen stimmhafter und stimmloser Sprache.

Kurze Beschreibung der Zeichnungen

Fig. 1 veranschaulicht als Systemdiagramm das bevorzugte Ausführungsbeispiel der vorliegenden Erfindung.
Fig. 2 veranschaulicht das bevorzugte Ausführungsbeispiel der Erfindung in Blockschaltbildform.
Fig. 3 ist ein ausführliches Blockschaltbild, das einen Prozessorkodiererteil des Systems der Fig. 1 veranschaulicht.
Fig. 4 ist ein Flußdiagramm, das die Arbeitsweise einer Stimmhaft/Stimmlos-Detektor-Untereinheit der Fig. 3 veranschaulicht.
Fig. 5A und 5B veranschaulichen ein Flußdiagramm, das die Arbeitsweise einer Tonhöhendetektor-Untereinheit der Fig. 3 veranschaulicht.
Fig. 6 veranschaulicht verschiedene Arten von komprimierten Datenblöcken.
Fig. 7A-7C, angeordnet wie in der Karte gemäß Fig. 7, veranschaulichen ein Flußdiagramm entsprechend dem Tonhöhenintervall-Wiederhol-Algorithmus der Fig. 3.
Fig. 8A und 8B sind ein ausführliches Blockschaltbild bzw. ein Flußdiagramm, die den Prozessordekodierteil des Systems der Fig. 2 veranschaulichen.
Fig. 9A-9D sind Wellenformen, die das Wort "STAY" in Analogform, SPFE-, CVSD- bzw. MIMIC-Digitalform veranschaulichen.
Fig. 10A-10C sind Wellenformdarstellungen des gesprochen Wortes "STAY", verarbeitet durch einen SPFE-Kodierer.
Fig. 11A-11C sind Wellenformdarstellungen des gesprochenen Wortes "STAY", verarbeitet durch einen CVSD-Kodierer.
Fig. 12A-12c sind Wellenformdarstellungen des gesprochenen Wortes "STAY", verarbeitet durch einen MIMIC-Kodierer.
Fig. 13A-13C sind Wellenformdarstellungen zur Veranschaulichung der Tonhöhenfeststellung des gesprochenen Wortes "STAY" für SPFE-, CVSD- bzw. MIMIC-kodierte Sprachrahmen.

Beste Art, die Erfindung auszuführen

Gemäß Fig. 1 ist eine Quelle elektrischer Sprachsignale 10, die beispielsweise ein Bandaufzeichnungsgerät oder ein Mikrofon sein kann, derart verbunden, daß sie elektrische Analogsprachsignale an den Eingang eines bitseriellen Kodierers (Digitalisierers) 20 liefert. Der Digitalisierer 20 kann von einer Art sein, die einen seriellen Bitstrom entweder unter Verwendung eines SPFE-, eines CVSD- oder eines MIMIC-basierenden Systems abgibt. Der serielle Bitstrom von dem Digitalisiererausgang wird in einem Zwischenspeicher 30 gespeichert. Der serielle Bitstrom kann auf einer Wechselscheibe 32 gespeichert werden, die zu dem Scheibenleserteil 34 eines Prozessors 40 gebracht wird, wenn ein Lesen aus dem Speicher erforderlich ist. Der Prozessor 40, der ein NCR Decision Mate V sein kann, arbeitet an den gespeicherten Daten, um diese zu komprimieren, zwischenzuspeichern und einem bitseriellen Dekodierer 60 zuzuführen. Die komprimierte Information wird mittels des bitseriellen Dekodierers 60 in das ursprüngliche Analogsignal rekonstruiert. Das Analogsignal von dem Dekodierer 60 wird einer "Verstärker-Lautsprecher- Einheit" 70 oder einer anderen einsetzbaren Vorrichtung zum Erzeugen der rekonstruierten Analogsprache zugeführt.
Der Prozessor 40 liest die ursprünglichen Daten aus dem Zwischenspeicher 30 in Rahmen und verarbeitet die ursprünglichen Daten mit einem Kompressionsalgorithmus. Jeder dieser Rahmen hat eine feste Länge, IW-Bits lang. Experimentell wurde bestimmt, daß die Rahmenlänge abhängig ist von der Bitrate des Digitalisierers und zumindest zwei Tonhöhenperioden breiter sein sollte, wobei eine Tonhöhenperiode von 80 bis 300 Hz reicht.
Es wird nun auf Fig. 2 Bezug genommen, die die äquivalente Blockdarstellung der in Fig. 1 gezeigten Elemente ist; der Prozessor 40 umfaßt einen Empfänger 41, einen Kompressionsalgorithmus 42, einen Zwischenspeicher 50, einen Dekodieralgorithmus 43 und einen Sender 44. Der Empfänger 41 liest die durch die Zwischenspeicher-Untereinheit 30 gespeicherten ursprünglichen Daten in Rahmen konstanter Länge und leitet diese Rahmen zum Kompressionsalgorithmus 42. Ist eine Rekonstruktion erwünscht, dann dekodiert der Prozessor die gespeicherten komprimierten Daten und überträgt die dekodierten Daten als ein serieller Bitstrom zu dem bitseriellen Dekodierer 60. Jeder Rahmen wird als eine Matrixanordnung IB[] von dem Kompressionsalgorithmus 42 (in Fig. 3 in Blockform gezeigt) verarbeitet. IB ist eine IW·1-Anordnung. Der Verfahrensablauf des Kompressionsalgorithmus 42 ist in den Fig. 4, 5A, 5B, 7A, 7B und 7C dargelegt. Die Arbeitsweise des Kompressionsalgorithmus wird später in diesem Abschnitt der Beschreibung erläutert. Das Ausgangssignal des Kompressionsalgorithmus ist eine Folge von komprimierten Blöcken, deren Form in Fig. 6 veranschaulicht ist und die in dem Zwischenspeicher 50 gespeichert werden. Nach dem Auslesen bewirkt ein Dekodieralgorithmus 43 (in Blockform in Fig. 8A gezeigt) eine Wiederholungs-Wiedereinsetzung in die komprimierten Daten. Der Senderabschnitt 44 überträgt die Daten von dem Dekodieralgorithmus zu dem bitseriellen Dekodierer 60. Der Vorgangsablauf des Dekodieralgorithmus 43 ist in Fig. 8B dargestellt.
Gemäß Fig. 3 werden die vom Empfänger 41 empfangenen ursprünglichen Daten durch ein Element 45 zur Bildung von Rahmen mit fester Länge in Rahmen IB[] mit fester Länge geformt. Jede Rahmenanordnung IB[] wird an einen Stimmhaft/Stimmlos/Stille- (V/UNV/S)-Detektor 46, einen Tonhöhendetektor 47 und einen Tonhöhenintervall-Wiederhol-(P.I.R.)-Algorithmus 48 geleitet. Der V/UNV/S-Detektor 46 funktioniert so, daß er jede Rahmenanordnung IB[] durch Berechnen eines Wertes X&sub0; klassifiziert, wobei X&sub0; gleich der Anzahl aufeinanderfolgender Folgen ist, die die Muster "0000", "0101" oder "1010" haben. Es hat sich gezeigt, daß sich diese Muster in einem Stille-Rahmen beliebig wiederholen. X&sub0; wird mit Schwellenwerten verglichen, um die Klasse des Rahmens zu bestimmen. Ein stiller Rahmen wird als KLASSE 0 definiert. Ein stimmloser Rahmen wird als KLASSE 1 definiert, und ein stimmhafter Rahmen wird als KLASSE 2 definiert. Die Klassenbestimmung wird als Eingangssignal an den Tonhöhendetektor 47 und an den Tonhöhenintervall-Wiederhol- Algorithmus 48 angelegt. Der Tonhöhendetektor 47 verwendet die Anordnung IB[] zur Feststellung der Tonhöhe basierend darauf, von welcher Klasse der Rahmen ist. Eine ausführlichere Beschreibung der Arbeitsweise des Tonhöhendetektors wird bei der Beschreibung des Flusses der Fig. 5A und 5B gegeben. Das Ausgangssignal des Tonhöhendetektors 47 ist mit IP bezeichnet und wird als Eingangssignal an den Tonhöhenintervall-Wiederhol- Algorithmus 48 angelegt. Der P.I.R. funktioniert so, daß er einen Wert P berechnet, der gleich ist der Anzahl von Tonhöhenperioden in einem Rahmen. Der P.I.R. liefert als ein Ausgangssignal ein Rahmenrestsignal (falls überhaupt) in dem Rahmen IB[], das noch nicht verglichen wurde. Das Restsignal wird zurückgeleitet als ein Eingangssignal an das Element zur Bildung von Rahmen fester Länge 45. Ein FLAG-Signal, das gleich 2 ist, wenn der zuvor verarbeitete Rahmen stimmhaft ist und gleich 0 ist, wenn er nicht stimmhaft war, wird auch zurückgeleitet als ein Eingangssignal an das Element 45 zur Bildung von Rahmen mit fester Länge. Der P.I.R. gibt eine Folge von komprimierten Datenblöcken (siehe Fig. 6) zur Speicherung in dem Zwischenspeicher für komprimierte Daten 50 aus.
Gemäß Fig. 4 bearbeitet der Stimmhaft/Stimmlos/Stille Detektor 46 die Anordnung IB[] mit einem Ablauf, der mit dem START-Block 101 beginnt. Im Block 102 wird für jede IB[] der Wert X&sub0; berechnet. X&sub0; ist gleich der Zahl von "0000"-, "0101"- oder "1010"-Folgen in einem Rahmen. Ist X&sub0; berechnet, dann bestimmt ein Entscheidungsblock 103, ob X&sub0; größer oder gleich einem Wert X&sub2; ist. Ist die Antwort "ja", dann setzt ein Block 104 das KLASSE-Signal gleich 0. Ist die Antwort "nein", dann arbeitet ein Block 105, um S und S1 zu berechnen, die die Werte sind, die die Anzahl von Eins-Bits bzw. die Anzahl von Eins-Impulsen in einer Anordnung IB[] darstellen. Ein Eins- Impuls wird als ein Impuls definiert, der ein oder mehrere aufeinanderfolgende Eins-Bits aufweist. Eine "Nein"-Entscheidung vom Block 103 zeigt an, daß ein Rahmen stimmhaft oder stimmlos sein kann. Ist das Verhältnis von S/S1 (Durchschnittsbreite eines Impulses) geringer oder gleich X&sub1;, dann ist der Rahmen stimmlos und die KLASSE wird durch Block 107 auf 1 gesetzt, sonst ist der Rahmen stimmhaft und die KLASSE wird durch Block 108 gleich 2 gesetzt. Der Wert X&sub1; ist ein stimmloser Schwellenwertpegel, und der Wert X&sub2; ist ein Stille- Schwellenwertpegel, die empirisch durch Überprüfen einer Anzahl von stimmlosen bzw. Stille-Rahmenmustern festgestellt wurden. Der Ablauf endet dann im ENDE-Block 109, wobei das bestimmte KLASSE-Signal zu dem Tonhöhendetektor 47 und dem P.I.R.- Algorithmus 48 geleitet wird.
Gemäß dem Ablauf der Fig. 5A und 5B, der sich auf die Arbeitsweise des Tonhöhendetektors 47 bezieht, beginnt der Ablauf beim START-Block 201 und läuft zu dem Entscheidungsblock 202. Eine "Ja"-Entscheidung zeigt an, daß der Rahmen Stille, KLASSE=0 ist und es wird in einen Entscheidungsblock 203 eingetreten, um unter Feststellen, ob die FLAG gleich 2 ist zu bestimmen, ob der vorhergehende Rahmen stimmhaft war. Wenn der vorhergehende Rahmen stimmhaft war, dann wird die vorhergehende Tonhöhe unverändert gelassen, und der Ablauf geht zum ENDE-Block 220. Ist die FLAG nicht gleich 2, dann wird eine vorgegebene Tonhöhe IP im Aktionsblock 204 gleich 8 gesetzt. Wieder bezugnehmend auf Entscheidungsblock 202, wenn die Entscheidung "nein" ist, dann ist die KLASSE nicht gleich "0", und es wird in den Entscheidungsblock 206 eingetreten um zu bestimmen, ob die KLASSE gleich 1 ist. Ist die Entscheidung "ja", dann wird durch den Entscheidungsblock 207 eine weitere Prüfung vorgenommen um zu bestimmen, ob FLAG gleich 2 ist. Wenn "ja", dann ändert der Algorithmus nicht die vorherige Tonhöhe. Ist die Entscheidung "nein" (d. h., daß FLAG nicht gleich 2 ist), dann wird die Tonhöhe IP durch den Aktionsblock 208 gleich einer Rahmengröße IW (Anzahl der Bits in einem Rahmen) gesetzt und zum ENDE- Block 220 geleitet. Wieder bezugnehmend auf Entscheidungsblock 206, wenn der Rahmen stimmhaft ist, d. h. daß KLASSE=2, dann bezeichnet der Algorithmus die durchschnittliche Breite eines Eins-Impulses X6 im Aktionsblock 209 und dann die Position jedes Eins-Impulses in dem Rahmen IB[] im Aktionsblock 210. Im Aktionsblock 211 wird dann eine Anordnung P1[I] berechnet, die der Breite eines Eins-Impulses entspricht. Diese Breiten werden in der Anordnung P1[I] gesichert. Beim Aktionsblock 212 wählt der Algorithmus unter Verwendung der Anordnungen P1[I], W[I] und X6 nur die großen Eins-Impulse aus und sichert ihre Positionen in einer Anordnung P2[J] und ihre Breiten in einer Anordnung P3[] im Aktionsblock 213. Ein großer Eins-Impuls ist ein Impuls, dessen Breite größer oder gleich X6 ist. Beim Aktionsblock 218 werden unter Verwendung von P2[J] und P3[] die Abstände zwischen den großen Eins-Impulsen berechnet und in einer Anordnung P[I] gesichert. Unter Verwendung der Anordnung P[I] bestimmt beim Aktionsblock 219 der Algorithmus die Anordnung Q[] von Tonhöhenperiodenschätzungen derart, daß jede Schätzung gleich dem Abstand zwischen den großen Eins- Impulsen in jedem Paar von großen Eins-Impulsen im Rahmen ist, wobei folgende Einschränkungen erfüllt werden:
a) Der Abstand zwischen den großen Impulsen in jedem Paar ist größer oder gleich X3 und geringer oder gleich IW/2. X3 ist ein empirisch bestimmter Abstandsschwellenwert.
b) Die Breiten der beiden Impulse in dem Paar sind annähernd gleich innerhalb einer Toleranz von ±X4. X4 ist ein empirisch erhaltener Breitenschwellenwert.
Nach Bestimmung der Anordnung Q[] sortiert der Algorithmus beim Aktionsblock 214 die Eingaben von Q[] in aufsteigender Reihenfolge. Die sortierte Q[]-Anordnung wird beim Aktionsblock 215 in die definierten Klassen geteilt. Jede Klasse besteht aus Werten, die voneinander innerhalb von X5 differieren. X5 ist ebenfalls ein empirisch bestimmter Schwellenwert. Beim Aktionsblock 216 wählt dann der Algorithmus die größte Klasse aus (d. h. die Klasse, die die maximale Anzahl von Elementen hat) und greift beim Aktionsblock 217 den Minimumwert dieser Klasse als eine Tonhöhenperiodenschätzung (IP) heraus. Der Minimumwert wird dann zum ENDE-Block 220 geleitet, um diesen Teil des Flusses zu beenden.
Die Rahmen-KLASSE und die Tonhöhenschätzung IP werden dann dem P.I.R.-Algorithmus zugeführt, dessen Ablauf in den Fig. 7A, 7B und 7C dargestellt ist. Dieser Ablauf beginnt beim START- Block 300. Ein Entscheidungsblock 301 bestimmt, ob der Rahmen stimmhaft (d. h. KLASSE = 2) ist oder nicht. Wenn "ja", wird im Entscheidungsblock 302 eine Bestimmung vorgenommen, ob der vorherige Rahmen stimmhaft (d. h. FLAG = 2) war oder nicht. Wenn "nein", dann setzt der Aktionsblock 303 FLAG = 2, und beim Aktionsblock 304 wird N gleich 1 gesetzt und der Ablauf geht zu Aktionsblock 305, in dem der Wert P berechnet wird. Der Wert N ist eine Wiederholungszählung entsprechend der Anzahl von Malen, um die bei der Rekonstruktion die Daten wiederholt werden, und der Wert P gleicht der Anzahl von Tonhöhenperioden in dem in Verarbeitung befindlichen Rahmen. Eine Anordnung RP[] entsprechend den ersten IP-Bits des Rahmens IB[] wird beim Aktionsblock 306 als das Bezugstonhöhenperiodenmuster ausgewählt. Beim Aktionsblock 307 wird das RP[]-Muster mit dem Bitmuster in der nächsten Gruppe von IP-Bits in IB[] verglichen. Der Vergleich wird auf Bit-zu-Bit-Basis in einer kontinuierlichen Reihenfolge vorgenommen, beginnend mit dem ersten Bit in RP[] und dem ersten Bit in der zu vergleichenden Gruppe. Ein Wert SS wird gleich der Anzahl der Bits gesetzt, die mit dem vorherigen Vergleich nicht übereinstimmen. Beim Entscheidungsblock 308 wird der Wert N geprüft um zu bestimmen, ob er größer oder gleich 255 ist. Wenn "ja" (d. h. N > = 255), speichert der Algorithmus beim Aktionsblock 311 die Werte von N, IP und RP[] in dem Zwischenspeicher 50 in komprimiertem Datenformat, wie dies in Fig. 6 gezeigt ist. Dann wird beim Block 312 N gleich 1 gesetzt und beim Aktionsblock 313 wird das RP[]-Muster gleich der zuletzt verglichenen Gruppe von IP-Bits in IB[] gesetzt. Wenn N kleiner als 255 ist, dann vergleicht der Algorithmus beim Entscheidungsblock 309, ob SS kleiner als oder gleich XN ist, wobei XN ein annehmbarer Übereinstimmungsbitschwellenwert ist und wenn die Antwort "nein" ist, dann wird die gleiche Folge von Vorgängen durchgeführt wie wenn N größer oder gleich 255 ist. Wenn die Antwort "ja" ist, d. h., daß SS < = XN ist, dann erhöht der Algorithmus beim Aktionsblock 310 N um 1 und leitet den Ablauf zum Entscheidungsblock 314. Wenn beim Entscheidungsblock 314 mehr IP-Bits in IB[] zu vergleichen sind, dann läuft der Algorithmus zurück zum Aktionsblock 307, um die augenblickliche RP[] mit einer Gruppe von IP-Bits in IB[] zu vergleichen, die noch nicht verglichen worden sind und setzt die gleiche Prüfung wie zuvor beschrieben fort. Ist die Entscheidung "nein" (d. h., daß weniger als IP-Bits in IB[] übrig sind), dann wird beim Aktionsblock 315 IP1[] gleich dem Rahmenrest gesetzt, d. h. auf eine Restbitfolge (falls vorhanden) in IB[], die noch nicht verglichen wurde. Schließlich kehrt der Algorithmus zurück zu der Vorrichtung 45 zur Bildung von Rahmen mit fester Länge. Nun zurück zum Entscheidungsblock 302, wenn eine Klasse stimmhaft ist und der vorhergehende Rahmen stimmhaft ist (d. h. KLASSE = 2 und FLAG = 2), dann springt der Algorithmus zum Aktionsblock 307 für einen Vergleich von RP[] und der nächsten Gruppe von IP-Bits in IB[], und der gleiche Ablauf von Vorgängen (wie zuvor) wird mit diesen durchgeführt.
Wieder bezugnehmend auf den Entscheidungsblock 301, wenn der Rahmen nicht stimmhaft ist (d. h. KLASSE nicht gleich 2 ist), dann wird der Ablauf zum Entscheidungsblock 316 geleitet um zu bestimmen, ob der Rahmen stimmlos (d. h. KLASSE = 1) oder Stille (d. h. KLASSE = 0) ist. Ist der Rahmen stimmlos, dann wird der Ablauf zu einem Entscheidungsblock 317 geleitet um zu bestimmen, ob der vorhergehende Rahmen stimmhaft (d. h. FLAG = 2) war. Wenn "ja", dann speichert der Algorithmus N, IP und RP[] im Zwischenspeicher 50 in komprimiertem Datenformat bei Aktionsblock 318 und setzt beim Aktionsblock 321 IP gleich IW. IW ist gleich der Anzahl von Bits in einem Rahmen. Beim Aktionsblock 320 wird FLAG gleich 0 gesetzt, und N wird beim Aktionsblock 319 gleich 1 gesetzt. Ist beim Entscheidungsblock 317 die Entscheidung "nein" (FLAG nicht gleich 2), dann beginnt beim Aktionsblock 319 der stimmlose Hauptablauf der Verarbeitung unter Setzen von N gleich 1 und geht weiter mit Speichern von N, IP und IB[] in dem Zwischenspeicher 50 in komprimiertem Datenformat bei Aktionsblock 322. Ist der Rahmen nicht stimmlos (d. h. KLASSE nicht gleich 1), dann muß der Rahmen Stille sein (d. h. KLASSE = 0), wie dies durch den Entscheidungsblock 316 bestimmt wird. Für einen Stille-Rahmen prüft der Algorithmus beim Entscheidungsblock 323 um zu bestimmen, ob der vorhergehende Rahmen stimmhaft (d. h. FLAG = 2) ist, wenn "ja", speichert er beim Aktionsblock 324 die Werte N, IP, RP[] im Zwischenspeicher 50 in komprimiertem Datenformat und setzt beim Aktionsblock 325 IP gleich 8 und die FLAG im Aktionsblock 326 gleich 0. Der Ablauf geht dann beim Aktionsblock 327 in den stillen Hauptstrom der Verarbeitung über. Ist beim Entscheidungsblock 323 die Entscheidung "nein" (d. h. FLAG nicht gleich 2), dann beginnt der stille Hauptverarbeitungsablauf unter Setzen von IB[i] gleich bi für i = 1, 2, . . ., 8. Das Muster b&sub8; b&sub7; b&sub6; b&sub5; b&sub4; b&sub3; b&sub2; b&sub1; ist empirisch derart bestimmt worden, daß es sich selbst beliebig für den gesamten stillen Rahmen wiederholt. Nachdem IB[i] eingestellt wurde, setzt der Algorithmus N gleich dem ganzzahligen Teil des Verhältnisses IW/8, so daß das Muster b&sub8; b&sub7; b&sub6; b&sub5; b&sub4; b&sub3; b&sub2; b&sub1; N-mal wiederholt wird. Der Ablauf geht dann zum Entscheidungsblock 328 um zu bestimmen, ob C größer als 2 ist. Wenn "nein", dann wird C beim Aktionsblock 330 um 1 erhöht, und der Ablauf wird zum Aktionsblock 322 für ein Speichern des Wertes von N, IP und IB[] im Zwischenspeicher 50 in komprimiertem Datenformat geleitet, und von dort geht der Ablauf zurück zu der Vorrichtung 45 zur Rahmenbildung. Ist beim Entscheidungsblock 328 die Entscheidung "ja" (d. h. C < = 2), dann setzt der Algorithmus C gleich 0 im Aktionsblock 329 und geht dann zu der Vorrichtung 45 zur Rahmenbildung. Der Wert C ist eine Zählung der aufeinanderfolgenden stillen Rahmen und wird auf 1 gesetzt, wenn der erste Rahmen gelesen wird. Diese Zählung erlaubt es dem Algorithmus nicht, mehr als drei aufeinanderfolgende stille Rahmen zu speichern. Die Stille-Kriterien der Tonhöhenintervall- Wiederholung werden zu dem Algorithmus hinzugefügt, um Pausen zwischen Wörtern oder Sätzen zu entfernen.
Bezugnehmend nun auf Fig. 8A liest der Dekodierer die komprimierten Daten aus dem Zwischenspeicher 50 in der Reihenfolge, wie sie gespeichert wurden. Zuerst wird in Block 51 die Wiederholungszählung N aus dem ersten Byte der Bits gelesen. Als zweites wird in Block 51 IP in dem Datenfeld aus dem zweiten Byte gelesen. Als drittes werden die Datenfelder beim Datenfeldleser 52 vom dritten Byte bis zum n-ten Byte gelesen. Diese Information wird beim Block 53 dazu verwendet, wiederholt die IP-Bits N-mal in das Datenfeld zu lesen, was ein expandiertes Datenformat ergibt. Dieses expandierte Datenformat oder der serielle Bitstrom wird einen Ausgangstreiber 54 zugeführt, der Teil des Senders 44 ist, zum Senden des Bitstromes zu dem bitseriellen Dekodierer 60 für ein Playback. Dieser Vorgang der Wiederholung, Wiedereinsetzung, Übertragung und Playback der komprimierten Daten wird wiederholt, bis alle komprimierten Daten, die in dem Zwischenspeicher 50 gespeichert sind, verarbeitet sind.
Bezugnehmend auf Fig. 8B werden die komprimierten Datenblöcke aus dem Zwischenspeicher 50 jeweils einer zu einem Zeitpunkt ausgelesen, wobei der Aktionsblock 401 den Wert von N aus dem ersten Byte von komprimierten Daten ausliest. Der Aktionsblock 402 liest dann den Wert IP aus dem zweiten Byte von komprimierten Daten. Die Anzahl von Bytes in dem Datenfeld BN wird im Aktionsblock 403 bestimmt. Zählervariablen I und J werden gleich 1 bzw. 0 im Aktionsblock 404 gesetzt. Der Aktionsblock 405, der Entscheidungsblock 407 und der Zählungserhöhungsblock 406 arbeiten als eine "D0-Schleife", die die Wiederholung der Aktion des Aktionsblocks 405 fortsetzt, bis I größer als BN ist. Ist diese Bedingung erreicht, dann wird ein L-Zählerblock 408 gleich 1 gesetzt, und der Aktionsblock 409 speichert die Bytes in der Anordnung IB[M] in einer dekomprimierten Datei. Der Wert L wird beim Entscheidungsblock 410 geprüft um zu bestimmen, ob er größer oder gleich N ist (Wiederholungszählung). Der L-Zähler 411 wird dann um 1 für jede "nein"-Antwort vom Entscheidungsblock 410 erhöht. Ist die Entscheidung "ja" dann wird eine Prüfung beim Entscheidungsblock 412 vorgenommen um zu bestimmen, ob sich in dem Zwischenspeicher 50 noch weitere komprimierte Datenblöcke befinden. Ist die Antwort "ja", dann beginnt der Aktionsblock 401 das Lesen des nächsten komprimierten Datenblocks. Ist die Antwort "nein", dann werden die dekomprimierten Daten zu dem Ausgangstreiber 44 und dem bitseriellen Dekodierer 60 geleitet. Bei dem bevorzugten Ausführungsbeispiel der Erfindung ist der Ausgangstreiber 44 mit dem bitseriellen Dekodierer 60 über einen Centronics-Parallel- Drucker-I/O-Anschluß gekoppelt (der Einfachheit halber nicht gezeigt). Der Ausgangstreiber liest die durch den Wiederholungs- Wiedereinsetzungsblock 409 erzeugte Datei und überträgt die Daten zu dem bitseriellen Dekodierer 60. TABELLE 1 Experimentelle Schwellenwerte Kodierer Stimmloser Schwellenwert Stille-Schwellenwert Abstands-Schwellenwert Breiten-Schwellenwert Klassen-Schwellenwert
Die obige Tabelle zeigt die experimentellen Schwellenwertpegel für drei unterschiedliche Digitalisierer, die in diesem Kompressionssystem verwendet werden können, wobei R die Bitrate des Digitalisierers ist. Es ist zu beachten, daß XN (Übereinstimmungsschwellenwert) nicht in der Tabelle enthalten ist, da XN gleich 10, 15 oder 20 gesetzt werden kann, abhängig von dem erforderlichen Kompressionsfaktor und der vom Benutzer gewünschten Sprachqualität.
Die Bestimmung der experimentellen Schwellenwerte für den Stimmhaft/Stimmlos/Stille-Detektor und den Tonhöhendetektor wird nun beschrieben.
Es wird nun auf Fig. 9A Bezug genommen, die die Analogsignaldarstellung des gesprochenen Wortes "STAY" zeigt, aufgeteilt in ihre stimmlosen, Stille- und stimmhaften Teile. Der stimmhafte Teil enthält, wie zu sehen, die größten Amplitudenvariationen verglichen mit den anderen Teilen.
Die Fig. 9B, 9C und 9D veranschaulichen einen seriellen Bitstrom, der am Ausgang eines SPFE-, CVSD- bzw. MIMIC-Kodierers auftritt, wenn das Signal der Fig. 9A an ihre Eingänge angelegt wird.
Die Parameter für den Stimmhaft/Stimmlos/Stille-Detektor 46 und den Tonhöhendetektor 47 werden durch Analysieren des Bitmusters mehrerer Sprachwellenformen bestimmt, die durch unterschiedliche Kodierer, nämlich SPFE, CVSD und MIMIC digitalisiert wurden. Die Analyse wurde durchgeführt für unterschiedliche Sprecher und Bitraten (9, 6, 16 und 40 Kbit/Sek). Die Musteranalyse wurde unter Verwendung eines digitalen Sona-Graph zum Darstellen der Sprachwellenformen und der entsprechenden Bitmuster dieser Sprachsignale und unter Messung der folgenden Parameter durchgeführt:

1. Experimenteller stimmloser Schwellenwert "X&sub1;":

Nach Untersuchen des Bitmusters von stimmhaften Rahmen verglichen mit stimmlosen Rahmen hat sich gezeigt, daß die seriellen Bitströme jedes Kodierers während eines stimmlosen Rahmens sich von hoch auf niedrig (d. h. Eins auf Null und umgekehrt) rascher ändern als der serielle Bitstrom eines stimmhaften Rahmens. Dieses Kriterium von stimmlosen Rahmen bedingte eine Einschränkung der Breite der Eins-Impulse. Aus dieser Einschränkung wurde der stimmlose Schwellenwert "X&sub1;" als ein starker Parameter zur Unterscheidung zwischen einem stimmhaften Rahmen und einem stimmlosen Rahmen bestimmt. Diese Eigenschaft von stimmlosen Rahmen wird durch die Tatsache gerechtfertigt, daß stimmlose Töne erzeugt werden, wenn die Stimmbänder nicht vibrieren und ihr Energiespektrum wie das Spektrum eines breitbandigen weißen Geräusches aussieht. Diese Kriterien bewirken mehrere Nulldurchgänge in der Sprachwellenform eines stimmlosen Rahmens. Somit wird das digitale Ausgangssignal eines SPFE, CVSD und MIMIC aus Eins- Impulsen kurzer Dauer bestehen.
Die Fig. 10A-10C, 11A-11C und 12A-12C zeigen typische Stille-, Stimmlos- und Stimmhaft-Rahmen für SPFE, CVSD bzw. MIMIC. Diese Figuren stellen eine sehr auseinandergezogene Ansicht der Signale der Fig. 9A bis 9D dar. Die mit 1 bezeichneten Figuren entsprechen dem gleichermaßen bezeichneten Analogteil der Fig. 9A, während die mit 2 bezeichneten Figuren den gleichermaßen in Beziehung stehenden Digitalteilen des Kodierer-Seriell-Bitstroms entsprechen. Bezugnehmend nun insbesondere auf die Fig. 10-10C, 11A-11C und 12A-12C ist erkenntlich, daß das Bitmuster des stimmlosen Rahmens unter Verwendung von X&sub1; unterschieden werden kann von demjenigen eines stimmhaften Rahmens. Die folgende Tabelle listet die Änderungen von X&sub1; für unterschiedliche Sprecher und unterschiedliche Bitraten auf.

TABELLE 2

Sprecher: Zeitdauerbereich von X&sub1;
F1: Weiblich (Nr. 1) 0,10 bis 0,20 msek
F2: Weiblich (Nr. 2) 0,104 bis 0,205 msek
M1: Männlich (Nr. 1) 0,10 bis 0,201 msek
M2: Männlich (Nr. 2) 0,103 bis 0,208 msek Breite von Xl in Bits bei 9,6 kBit/s

2. Stille-Schwellenwertpegel "X&sub2;":

Dieser Parameter wird durch Analysieren der Bitmuster von stillen Rahmen gegenüber von solchen von stimmlosen Rahmen unter Verwendung der gleichen zuvor erwähnten Anordnung bestimmt. Es hat sich gezeigt, daß der SPFE eine Folge von Nullen für stille Rahmen abgibt, während der CVSD und der MIMIC einen Zug von 0101 oder 1010 für stille Rahmen abgibt. Diese Beobachtung wurde fortgesetzt, um das Nibble-Muster (1 Nibble = 4 Bits) während des Übergangs zwischen einem stillen Rahmen und einem stimmlosen Rahmen zu untersuchen.
Nach Untersuchung dieser Nibble-Muster wurde geschlossen, daß, wenn die Anzahl sich wiederholender Nibble für jeden Kodierer 90% der Gesamtzahl der Nibble in einem Rahmen überschreitet, dann der Rahmen als stiller Rahmen bezeichnet wurde. Der Parameter X&sub2; ist unabhängig von der Bitrate, er hängt jedoch von der Rahmengröße (IW) ab, wie dies in TABELLE 1 gezeigt ist.
Somit verwendet der Stimmhaft/Stimmlos/Stille-Detektor 46 X&sub2; zuerst zur Unterscheidung zwischen einem stillen Rahmen und einem stimmlosen Rahmen und verwendet dann X1 zur Unterscheidung zwischen einem stimmlosen Rahmen und einem stimmhaften Rahmen. Sind diese Tests erfolglos, dann ist der Rahmen stimmhaft.

3. Abstandsschwellenwert zwischen großen Eins-Impulsen "X&sub3;":

Der Abstandsschwellenwert zwischen großen Eins-Impulsen "X&sub3;" wird durch Messen der Tonhöhenkonturänderung für unterschiedliche Sprecher bestimmt. Diese Messungen wurden durchgeführt unter Korrelieren des Bitstromes jedes Kodierers mit der Sprachwellenform während eines stimmhaften Tonrahmens. Eine ausführliche Analyse der stimmhaften Töne hat gezeigt, daß bei Erzeugen eines stimmhaften Tones das Stimmband kleine Puffe von Luft erzeugt, deren Wiederholungsrate die Grundfrequenz bildet. Die Wiederholungsrate hängt im wesentlichen ab von der Masse, Länge und Elastizität von Faltungen in den Stimmbändern des Individuums. Somit ist die Tonhöhe eines Sprechers normalerweise fest in einem Bereich von etwa 50 Hz für Männer bis ungefähr 300 Hz für Frauen. Dieser Tonhöhenbereich erzeugt obere und untere Grenzen für die Tonhöhenperiode. Die untere Grenze der Tonhöhenperiode wird dazu verwendet, X&sub3; wie folgt zu berechnen:
X&sub3;= Bitrate x (1/300)
Da die Tonhöhenperiode in der Studie gleich der Anzahl von Bits zwischen zwei großen Eins-Impulsen ist, so ist X&sub3; gleich der minimalen Tonhöhenperiode (d. h. der minimalen Bitanzahl). Die obere Grenze der Tonhöhenperiode (80 Hz) und das Tonhöhenfeststellungsverfahren, wie es in diesem System verwendet wurde, haben der Rahmengröße eine Beschränkung auferlegt. Diese Beschränkung besteht darin, daß die Rahmengröße (IW) zumindest zwei Tonhöhenperioden breit sein muß. Die Rahmengröße wird wie folgt berechnet:
IW = [Bitrate x (1/80)]·2
Die Hälfte der Rahmengröße und X3 wurden in dem Tonhöhenfeststellungsalgorithmus als eine Obergrenze und eine Untergrenze bei den festgestellten Tonhöhenperioden verwendet, wie dies in Fig. 13A-13C gezeigt ist. TABELLE 3 zeigt die Tonhöhenvariation für jeden der Sprecher, die in dieser Analyse verwendet wurden.

TABELLE 3

Sprecher: Tonhöhenbereich
F1: Weiblich (Nr. 1) 3,3 bis 4,5 msek
F2: Weiblich (Nr. 2) 3,8 bis 5,1 msek
M1: Männlich (Nr. 1) 6,5 bis 10,8 msek
M2: Männlich (Nr. 2) 7,8 bis 12,5 msek

4. Breitenschwellenwert für die großen Eins-Impulse "X&sub4;":

Dieser Parameter wurde durch Vergleichen der Breiten der großen Eins-Impulse zu Beginn und am Ende von Tonhöhenperioden bestimmt, wie in Fig. 13A-13C gezeigt. Durch Analysieren mehrerer Tonhöhenkonturen hat sich gezeigt, daß diese Impulse annähernd die gleiche Dauer haben. Diese Beobachtung ist bei Bezugnahme auf die Fig. 13A-13C gerechtfertigt. Wenn die Sprachwellenform ansteigt, geben CVSD und MIMIC eine Folge von Einsen ab, bis die Wellenform die Spitze erreicht, während der SPFE eine Folge von Einsen so lange abgibt wie die Wellenform oberhalb der Achse ist. Da sich andererseits die Tonhöhenperiode zwischen zwei größeren Spitzen oder kleineren Spitzen befindet, die gleiche Amplituden haben, so sollten die großen Eins-Impulse entsprechend diesen Spitzen die gleiche Breite haben. Dieser Gesichtspunkt der Tonhöhenperiode erlaubt eine Toleranz, die mit X&sub4; bezeichnet wird.

5. Klassenschwellenwert für die geschätzte Tonhöhenperiode "X&sub5;":

Dieser Parameter wird durch Untersuchen der Tonhöhenperiodenvariationen zwischen aufeinanderfolgenden stimmhaften Rahmen für viele Sprecher bestimmt. Es hat sich gezeigt, daß die Tonhöhenperiode von 0,3 bis 0,5 msek variieren kann. Dieser Bereich bestimmt X&sub5; wie folgt:
X&sub5;= Bitrate · 0,5
Die Obergrenze wurde gewählt, da dies der schlechteste Fall war, der in der Tonhöhenkonturvariation festgestellt wurde.
Zusammenfassend ist erkenntlich, daß das bevorzugte Ausführungsbeispiel ein Verfahren verwendet, das einen Mustererkennungsprozeß zum Klassifizieren eines gegebenen Sprachsegments in drei Klassen verwendet: stimmhafte Sprache, stimmlose Sprache und Stille. Das Mustererkennungsverfahren stellt ein wirksames Verfahren zum Kombinieren der Beiträge einer Anzahl von Sprachmessungen dar, die als solche für eine Unterscheidung zwischen den Klassen ungenügend sein könnten und zwar in eine einzige Messung, die geeignet ist, eine zuverlässige Trennung zwischen den drei Klassen zu bieten. Das angewandte System und Verfahren basiert im wesentlichen auf der Rate der Nulldurchgänge der Sprachwellenform der für Digitalisierung der Sprachwellenformen verwendeten bitseriellen Kodierer, nämlich CVSD, MIMIC oder SPFE.
Die folgenden drei Messungen werden in dem System und dem Verfahren des bevorzugten Ausführungsbeispiels verwendet:
1. Die Anzahl der stillen Muster "X0" (0000, 0101 oder 1010) von SPFE, MIMIC bzw. CVSD.
2. Die Anzahl "S1" von Eins-Impulsen in einem Rahmen.
3. Die Anzahl "S" von Eins-Bits in einem Rahmen.
4. Die Breite "S/S1" des durchschnittlichen Eins-Impulses.
Die Wahl dieser besonderen Parameter basiert teilweise auf der experimentellen Tatsache, daß die Parameter von einer Klasse zur anderen konsistent variieren und teilweise auf der Kenntnis des Verfahrens, bei dem stimmhafte und stimmlose Sprachtöne im menschlichen Stimmtrakt erzeugt werden und wie jeder der bitseriellen Kodierer diese Sprachtöne digitalisiert. Das Komprimierungssystem und -verfahren trägt den Änderungen in den Spracheigenschaften während des Übergangs von stimmhafter zu stimmloser Sprache Rechnung und vermeidet eine Segmentierung, um die Qualität und Erkennbarkeit der rekonstruierten Sprache aufrechtzuerhalten. Obwohl bereits zuvor erwähnt wurde, daß das angewandte Verfahren teilweise auf der Rate der Nulldurchgänge der Sprachwellenform beruht, ist aus einem analogen Gesichtspunkt erkenntlich, daß aufgrund der Verwendung des digitalen Ausgangssignals eines bitseriellen Kodierers zur Klassifizierung von Sprache in die drei Klassen von Tönen die Rate der Nulldurchgänge der Sprachwellenform der Änderungsrate von hoch nach niedrig (Eins zu Null) oder umgekehrt in dem seriellen Bitstrom des Kodierers entspricht. Andererseits vereinfacht die Verwendung des digitalen Bitstromes zur zuverlässigen Unterscheidung zwischen den drei Klassen von Tönen für eine große Vielfalt von Sprechern den Feststellungsmechanismus. Das vorliegende System und Verfahren benötigt keine Messung der Energie des Signales, der größten Cepstral-Spitze und der Variation der Nulldurchgangszählung von einer Sprechumgebung zur anderen, die die veränderbaren Eigenschaften des Raumgeräusches reflektiert, da die seriellen Kodierer derart konstruiert sind, daß sie diese Gesichtspunkte berücksichtigen. Auch ist bei dem vorliegenden System die Stimmhaft/Stimmlos-Entscheidung losgelöst, d. h. getrennt von der Tonhöhenfeststellung.
Der Tonhöhenfeststellungsteil des vorliegenden Sprachkomprimierungssystems und -verfahrens bestimmt die Tonhöhe während eines stimmhaften Rahmens von Sprache und stützt sich auf die Zeit- und Frequenzhaupteigenschaften der Kodierer. Für diese Tonhöhenfeststellung sind diese Messungen Nulldurchgangsmessungen und Autokorrelationsmessungen. Die Nulldurchgangsmessungen werden durch Lokalisieren der großen Eins-Impulse in dem Bitstrom des Kodierers durchgeführt, während die Autokorrelationsmessung durch Zählen der Anzahl von Eins- Bits in einem Rahmen erfolgt. Die grundlegende Annahme bei der Schätzung der Tonhöhenperiode ist, daß, wenn die Sprachwellenform im Zeitbereich periodisch ist, dann der Digitalbitstrom der Kodierer aus einer Folge von großen Eins- Impulsen bei der Grundfrequenz und ihren Harmonischen bestehen wird. Somit kann eine einfache Messung am Bitstrom eines Rahmens erfolgen, um die Tonhöhenperiode abzuschätzen. Ein stimmhafter Rahmen gibt einen großen Eins-Impuls bei der Grundfrequenz der Sprachwellenform ab. Der Tonhöhendetektorteil plaziert Tonhöhenmarkierungen direkt auf den Bitstrom jedes Rahmens. Um für jeden stimmhaften Rahmen die interessierenden Tonhöhenmarkierungen zu erhalten, berechnet der Tonhöhendetektorteil die durchschnittliche Breite von Eins- Impulsen, die Position der Eins-Impulse innerhalb des Rahmens, die Breite jedes Eins-Impulses und schließlich die Anzahl dieser Eins-Impulse. Aus diesen Messungen wählt der Tonhöhendetektorteil diejenigen Eins-Impulse aus, deren Breite größer ist als ein durchschnittlicher Eins-Impuls und sichert so die Position dieser großen Eins-Impulse innerhalb des Rahmens. Der Rest des Systems isoliert und identifiziert die grundlegenden Ausschlagszyklen, d. h. diejenigen, die den wahren Tonhöhenperioden entsprechen. Dies wird durch eine Reihe von Schritten unter Verwendung des Bereichs der in der menschlichen Sprache beobachteten Grundfrequenz und der Beschränkung auf die Rahmengröße erzielt, die dazu zwingt, daß der Rahmen zumindest zwei Tonhöhenperioden hat. Die Ausschlagszyklen werden ferner dadurch identifiziert, daß der Abstand zwischen zwei aufeinanderfolgenden Tonhöhenmarkierungen, der gleich der geschätzten Tonhöhenperiode ist, als innerhalb des Grundfrequenzbereiches der menschlichen Sprache liegend und die Hälfte der Rahmengröße nicht überschreitend akzeptiert wird. Der Tonhöhendetektorbereich sortiert die geschätzten Tonhöhenperioden in aufsteigender Reihenfolge und teilt diese dann in Gruppen. Schließlich ist das kleinste Element der größten Gruppe die Tonhöhenperiode, die ausgewählt wird. Bei dem bevorzugten Ausführungsbeispiel der Erfindung wird aufgrund des in dem Bitstrom der bitseriellen Kodierer festgestellten sich wiederholenden Bytes die Tonhöhenperiode gleich 8 gesetzt. Für einen stimmlosen Rahmen wird aufgrund des Fehlens von Tonhöhenmarkierungen die Tonhöhenperiode gleich der Rahmengröße gesetzt.
Einer der Vorteile des Tonhöhendetektorteiles des bevorzugten Ausführungsbeispiels ist die Verwendung des Digitalbitstromes beim Abschätzen der Tonhöhenperiode anstelle der Verwendung der Sprachwellenform. Dies schaltet verschiedene Probleme aus, die bei Tonhöhendetektoren festgestellt wurden, die die analoge Sprachwellenform zur Schätzung der Tonhöhenperiode verwenden.
Die Arbeitsweise des bevorzugten Ausführungsbeispiels wurde im Zusammenhang mit dem digital kodierten Wort "STAY" beschrieben, es ist jedoch für den Fachmann ohne weiteres klar, daß diese Beschreibung lediglich beispielhaft ist und nicht als eine Beschränkung bezüglich der Möglichkeit der vorliegenden Erfindung angesehen werden darf.

Claims

1. Ein Verfahren zum Komprimieren eines Sprachsignale darstellenden seriellen Bitstromes mit den Schritten: (a) Speichern der Bits des seriellen Bitstromes; (b) Lesen der gespeicherten Bits in festen Rahmenlängen; (c) Klassifizieren jedes Rahmens von gelesenen Bits als stimmhaft, stimmlos oder Stille, wobei ein Rahmen als Stille klassifiziert wird, wenn der Rahmen zumindest eine vorbestimmte Anzahl von Wiederholungen eines vorbestimmten Bitmusters enthält; (d) Komprimieren der Bits eines als Stille klassifizierten Rahmens durch Speichern des vorbestimmten Bitmusters und einer der Anzahl von Malen entsprechenden Anzahl von Wiederholungen des vorbestimmten Musters in einem Rahmen; (e) Bestimmen einer Tonhöhenperiode (IP) für einen als stimmhaft klassifizierten Rahmen; (f) Bestimmen eines Bezugstonhöhenmusters (RP) entsprechend der Tonhöhenperiode; (g) Vergleichen der Bits eines stimmhaften Rahmens mit den Bits des Bezugstonhöhenmusters (RP), um eine Wiederholung festzustellen; (h) wenn der unmittelbar vorhergehende Rahmen als stimmhaft klassifiziert wurde (FLAG 2), Bewirken des Schritts Vergleichen unter Verwendung des für den unmittelbar vorhergehenden Rahmen bestimmten Bezugstonhöhenmusters (RP); (i) Bestimmen einer Wiederholungszählung (N), die die festgestellte Wiederholung darstellt; (j) wenn der unmittelbar vorhergehende Rahmen als stimmhaft klassifiziert wurde (FLAG 2), Verwenden der für den unmittelbar vorhergehenden Rahmen bestimmten Wiederholungszählung (N) als eine Anfangswiederholungszählung (N) für den augenblicklichen Rahmen; (k) Speichern der Wiederholungszählung (N), der Tonhöhenperiode (IP) und des Bezugstonhöhenmusters (RP) und (1) Wiederholen der Schritte (b) bis (k), um den seriellen Bitstrom zu komprimieren.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß der Schritt des Klassifizierens die Schritte einschließt: Identifizieren als "Eins-Impulse" Impulse, die ein oder mehrere aufeinanderfolgende Eins-Bits enthalten; Berechnen der Breite der Eins-Impulse; Berechnen der durchschnittlichen Breite der Eins-Impulse in einem Rahmen, der nicht als Stille klassifiziert ist; und Klassifizieren des Rahmens als stimmlos oder stimmhaft, abhängig davon, ob die durchschnittliche Breite geringer oder größer als ein vorbestimmter Wert (X&sub1;) ist.

3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß der Schritt Bestimmen einer Tonhöhenperiode die Schritte aufweist: Identifizieren als "Eins-Impulse" Impulse, die ein oder mehrere aufeinanderfolgende Eins-Bits enthalten; Berechnen der Breite der Eins-Impulse; Berechnen der durchschnittlichen Breite der Eins-Impulse in einem Rahmen; Berechnen der Position der Eins-Impulse; Berechnen der Anzahl der Eins-Impulse; Auswählen der großen Eins-Impulse, deren Breite größer ist als die durchschnittliche Breite der Eins-Impulse; Bestimmen des Abstands zwischen den großen Eins-Impulsen; Sortieren der großen Eins-Impulse in aufsteigender Ordnung in Paaren gemäß dem Abstand zwischen den großen Eins-Impulsen; Bilden von Klassen von Tonhöhenperioden unter Einordnen aller großen Eins-Impulse, die innerhalb eines festen Schwellenwerts zueinander sind, in jede Klasse; und Auswählen des Abstands des am wenigsten beabstandeten Paares von großen Eins-Impulsen aus der Klasse mit der größten Anzahl von großen Eins-Impulsen als die vorbestimmte Tonhöhenperiode.

4. Verfahren nach Anspruch 1, gekennzeichnet durch die Schritte: Lesen der gespeicherten Wiederholungszählung (N), der Tonhöhenperiode (IP) und des Bezugstonhöhenmusters (RP) und Wiederholen des Bezugstonhöhenmusters (RP) eine Anzahl von Malen entsprechend der Wiederholungszählung (N), um den seriellen Bitstrom wiederherzustellen.

5. Ein System zum Komprimieren eines Sprachsignale darstellenden seriellen Bitstromes mit einer ersten Speichervorrichtung (30), die geeignet ist, den seriellen Bitstrom zu speichern; einer Empfängervorrichtung (41), die geeignet ist, den seriellen Bitstrom von der Speichervorrichtung (30) in Rahmen mit fester Länge zu lesen; einer Kompressionsvorrichtung (42), die geeignet ist, jeden Rahmen als stimmhaft, stimmlos oder Stille zu klassifizieren und einen stimmhaften Rahmen unter Bestimmen und Speichern einer Tonhöhenperiode (IP), eines Bezugstonhöhenmusters (RP) und einer Wiederholungszählung (N) zu speichern, die eine Anzahl von Wiederholungen des Bezugstonhöhenmusters darstellt; einer Vergleichsvorrichtung, die geeignet ist, die Bits eines stimmhaften Rahmens mit den Bits des Bezugstonhöhenmusters (RP) zu vergleichen, um eine Wiederholung festzustellen, wobei, wenn der unmittelbar vorhergehende Rahmen als stimmhaft (FLAG 2) klassifiziert wurde, das Bezugstonhöhenmuster (RP) für den unmittelbar vorhergehenden Rahmen durch die Vergleichsvorrichtung verwendet wird, wobei die Kompressionsvorrichtung geeignet ist, einen Rahmen als Stille zu klassifizieren, wenn der Rahmen zumindest eine vorbestimmte Anzahl von Wiederholungen eines vorbestimmten Bitmusters enthält, und einen Stille-Rahmen durch Speichern des vorbestimmten Bitmusters und einer der Anzahl von Malen entsprechenden Anzahl von Wiederholungen des vorbestimmten Bitmusters in dem Rahmen zu komprimieren; und einer zweiten Speichervorrichtung (50), die geeignet ist, die komprimierten Rahmen zu speichern.

6. System nach Anspruch 5, gekennzeichnet durch eine Dekomprimierungsvorrichtung (43), die geeignet ist, den seriellen Bitstrom aus der Tonhöhenperiode (IP), dem Bezugstonhöhenmuster (RP) und der Wiederholungszählung (N) zu rekonstruieren, die in der zweiten Speichervorrichtung (50) gespeichert sind.

17. System nach Anspruch 6, gekennzeichnet durch eine Übertragungsvorrichtung (44), die geeignet ist, den dekomprimierten seriellen Bitstrom zu übertragen, und eine Dekodiervorrichtung (60), die geeignet ist, ein analoges Ausgangssprachsignal entsprechend dem seriellen Bitstrom zu konstruieren.