DE3781393T2 - Verfahren und einrichtung zur komprimierung von sprachsignaldaten. - Google Patents

Verfahren und einrichtung zur komprimierung von sprachsignaldaten.

Info

Publication number
DE3781393T2
DE3781393T2 DE8787904461T DE3781393T DE3781393T2 DE 3781393 T2 DE3781393 T2 DE 3781393T2 DE 8787904461 T DE8787904461 T DE 8787904461T DE 3781393 T DE3781393 T DE 3781393T DE 3781393 T2 DE3781393 T2 DE 3781393T2
Authority
DE
Germany
Prior art keywords
frame
pulses
voiced
bits
pitch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE8787904461T
Other languages
English (en)
Other versions
DE3781393D1 (de
Inventor
Khaled Jibbe
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SK Hynix Inc
NCR International Inc
Original Assignee
NCR International Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NCR International Inc filed Critical NCR International Inc
Application granted granted Critical
Publication of DE3781393D1 publication Critical patent/DE3781393D1/de
Publication of DE3781393T2 publication Critical patent/DE3781393T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/46Conversion to or from run-length codes, i.e. by representing the number of consecutive digits, or groups of digits, of the same kind by a code word and a digit indicative of that kind
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Description

    Technisches Gebiet
  • Diese Erfindung betrifft ein Verfahren und ein System zum Komprimieren eines Sprachsignale darstellenden seriellen Bitstromes.
  • Stand der Technik
  • Mehrere Verfahren zum Umwandeln analoger Sprachsignale in digitale Datensignale sind bekannt.
  • Ein derartiges Verfahren, das eine Deltamodulation verwendet, ist allgemein bekannt als CVSD (kontinuierliche Datenmodulation mit variabler Steigung).
  • Ein anderes derartiges Verfahren ist in dem US-Patent Nr. 4,271,332 offenbart. Dieses bekannte Verfahren verwendet ein Filter mit einem augenblicklich variablen Band, und es wird nachstehend hierauf Bezug genommen als die MIMIC-Technik.
  • Noch ein anderes derartiges Verfahren ist in dem US-Patent Nr. 4,594,575 offenbart. Dieses bekannte Verfahren verwendet eine Wobbel-Technik, und auf sie wird hier Bezug genommen als die SPFE-(Sprachprozessorvorderende-)Technik.
  • Die bekannten Umwandlungsverfahren erzeugen serielle Bitströme digitaler Daten, die Kompressionstechniken unterworfen werden können, wodurch die Gesamtmenge digitaler Daten reduziert wird, die in einem Sprachverarbeitungssystem gespeichert und/oder übertragen werden muß.
  • Aus IEEE Transactions on Acoustics, Speech, and Signal Processing, Band ASSP-31, Nr. 1, Februar 1983, IEEE (New York, US), K. Inoue et al.: "A single CMOS Speech Synthesis Chip and New Synthesis Techniques", Seiten 335 bis 338 ist eine Sprachverarbeitungstechnik bekannt, bei der Sprachdaten digitalisiert und komprimiert werden. Stimmlose Ausdrücke werden in Nulldurchgangsform kodiert. Stimmhafte Ausdrücke werden zuerst in mehrere Blöcke aufgeteilt, wobei eng übereinstimmende Tonhöhenperioden in einen einzigen Block gruppiert werden. Für jeden Block wird diejenige Tonhöhenperiode, die am repräsentativsten ist für die Frequenz, Amplitude und Wellenform der Tonhöhenperioden in der Gruppe als die repräsentative Tonhöhenperiode ausgewählt. Auch wird die Amplitude eingestellt, um die Einhüllende des Originalsignals beizubehalten, wobei die Amplitudenänderungsinformation getrennt kodiert wird.
  • Aus IEEE Transactions on Communications, Band COM-30, Nr. 2, Februar 1982, IEEE, (New York, US), J. A. Flanagan et al.: "Digital Voice Storage in a Microprocessor", Seiten 336 bis 345 ist eine Technik zur digitalen Sprachspeicherung bekannt, wobei Stille-Intervalle eliminiert werden. Die Stille wird festgestellt, wenn der integrierte Absolutwert unter einen gegebenen Schwellenwert fällt, wobei ein Zähler aktiviert wird, um die Dauer des Stille-Intervalls aufzuzeichnen.
  • Aus IEEE Transactions on Acoustics, Speech, and Signal Processing, Band ASSP-28, Nr. 4, August 1980, IEEE (New York, US), C. K. Un et al.: "Voiced/Unvoiced/Silence Discrimination of Speech by Delta Modulation", Seiten 398 bis 407 ist eine Technik zur stimmhaften/stimmlosen/stillen Diskriminierung von Sprache bekannt, die basiert auf den Ergebnissen von Zählbitalternierungen des Bitstromes von der LDM (lineare Deltamodulation) des Sprachsignals und Nulldurchgängen eines bandpaßgefilterten Ausgangssignals des dekodierten LDM-Signals, basierend auf entsprechenden Paaren von Schwellenwertpegeln.
  • Offenbarung der Erfindung
  • Es ist eine Aufgabe der vorliegenden Erfindung, ein Verfahren und ein System zum Komprimieren eines Sprachsignale darstellenden seriellen Bitstromes anzugeben, bei denen ein hoher Komprimierungsgrad erzielt wird, wobei jedoch eine genaue Wiedergabe des ursprünglichen Signals erreicht werden kann.
  • Gemäß einem Gesichtspunkt der vorliegenden Erfindung wird somit ein Verfahren zum Komprimieren eines Sprachsignale enthaltenden Bitstroms angegeben, das die Schritte aufweist: (a) Speichern der Bits des seriellen Bitstromes; (b) Lesen der gespeicherten Bits in festen Rahmenlängen; (c) Klassifizieren jedes Rahmens von gelesenen Bits als stimmhaft, stimmlos oder Stille, wobei ein Rahmen als Stille klassifiziert wird, wenn der Rahmen zumindest eine vorbestimmte Anzahl von Wiederholungen eines vorbestimmten Bitmusters enthält; (d) Komprimieren der Bits eines als Stille klassifizierten Rahmens durch Speichern des vorbestimmten Bitmusters und einer der Anzahl von Malen entsprechenden Anzahl von Wiederholungen des vorbestimmten Musters in einem Rahmen; (e) Bestimmen einer Tonhöhenperiode für einen als stimmhaft klassifizierten Rahmen; (f) Bestimmen eines Bezugstonhöhenmusters entsprechend der Tonhöhenperiode; (g) Vergleichen der Bits eines stimmhaften Rahmens mit den Bits des Bezugstonhöhenmusters, um eine Wiederholung festzustellen; (h) wenn der unmittelbar vorhergehende Rahmen als stimmhaft klassifiziert wurde, Bewirken des Schritts Vergleichen unter Verwendung des für den unmittelbar vorhergehenden Rahmen bestimmten Bezugstonhöhenmusters; (i) Bestimmen einer Wiederholungszählung, die die festgestellte Wiederholung darstellt; (j) wenn der unmittelbar vorhergehende Rahmen als stimmhaft klassifiziert wurde, Verwenden der für den unmittelbar vorhergehenden Rahmen bestimmten Wiederholungszählung als eine Anfangswiederholungszählung für den augenblicklichen Rahmen; (k) Speichern der Wiederholungszählung, der Tonhöhenperiode und des Bezugstonhöhenmusters und (l) Wiederholen der Schritte (b) bis (k), um den seriellen Bitstrom zu komprimieren.
  • Gemäß einem anderen Gesichtspunkt der vorliegenden Erfindung wird ein System zum Komprimieren eines Sprachsignale darstellenden seriellen Bitstroms angegeben, das aufweist: eine erste Speichervorrichtung, die geeignet ist, den seriellen Bitstrom zu speichern; eine Empfängervorrichtung, die geeignet ist, den seriellen Bitstrom von der Speichervorrichtung in Rahmen mit fester Länge zu lesen; eine Kompressionsvorrichtung, die geeignet ist, jeden Rahmen als stimmhaft, stimmlos oder Stille zu klassifizieren und einen stimmhaften Rahmen unter Bestimmen und Speichern einer Tonhöhenperiode, eines Bezugstonhöhenmusters und einer Wiederholungszählung zu speichern, die eine Anzahl von Wiederholungen des Bezugstonhöhenmusters darstellt; eine Vergleichsvorrichtung, die geeignet ist, die Bits eines stimmhaften Rahmens mit den Bits des Bezugstonhöhenmusters zu vergleichen, um eine Wiederholung festzustellen, wobei, wenn der unmittelbar vorhergehende Rahmen als stimmhaft klassifiziert wurde, das Bezugstonhöhenmuster für den unmittelbar vorhergehenden Rahmen durch die Vergleichsvorrichtung verwendet wird, wobei die Kompressionsvorrichtung geeignet ist, einen Rahmen als Stille zu klassifizieren, wenn der Rahmen zumindest eine vorbestimmte Anzahl von Wiederholungen eines vorbestimmten Bitmusters enthält, und einen Stille-Rahmen durch Speichern des vorbestimmten Bitmusters und einer der Anzahl von Malen entsprechenden Anzahl von Wiederholungen des vorbestimmten Bitmusters in dem Rahmen zu komprimieren; und eine zweite Speichervorrichtung (50), die geeignet ist, die komprimierten Rahmen zu speichern.
  • Ein zusätzlicher Vorteil der vorliegenden Erfindung ist, daß die Stimmhaft/Stimmlos-Entscheidung abgekoppelt, d. h. getrennt ist von der Tonhöhenfeststellung. Dies unterstützt die Minimierung der Systemkomplexität und die Verbesserung der Systemleistung beim Übergang zwischen stimmhafter und stimmloser Sprache.
  • Kurze Beschreibung der Zeichnungen
  • Fig. 1 veranschaulicht als Systemdiagramm das bevorzugte Ausführungsbeispiel der vorliegenden Erfindung.
  • Fig. 2 veranschaulicht das bevorzugte Ausführungsbeispiel der Erfindung in Blockschaltbildform.
  • Fig. 3 ist ein ausführliches Blockschaltbild, das einen Prozessorkodiererteil des Systems der Fig. 1 veranschaulicht.
  • Fig. 4 ist ein Flußdiagramm, das die Arbeitsweise einer Stimmhaft/Stimmlos-Detektor-Untereinheit der Fig. 3 veranschaulicht.
  • Fig. 5A und 5B veranschaulichen ein Flußdiagramm, das die Arbeitsweise einer Tonhöhendetektor-Untereinheit der Fig. 3 veranschaulicht.
  • Fig. 6 veranschaulicht verschiedene Arten von komprimierten Datenblöcken.
  • Fig. 7A-7C, angeordnet wie in der Karte gemäß Fig. 7, veranschaulichen ein Flußdiagramm entsprechend dem Tonhöhenintervall-Wiederhol-Algorithmus der Fig. 3.
  • Fig. 8A und 8B sind ein ausführliches Blockschaltbild bzw. ein Flußdiagramm, die den Prozessordekodierteil des Systems der Fig. 2 veranschaulichen.
  • Fig. 9A-9D sind Wellenformen, die das Wort "STAY" in Analogform, SPFE-, CVSD- bzw. MIMIC-Digitalform veranschaulichen.
  • Fig. 10A-10C sind Wellenformdarstellungen des gesprochen Wortes "STAY", verarbeitet durch einen SPFE-Kodierer.
  • Fig. 11A-11C sind Wellenformdarstellungen des gesprochenen Wortes "STAY", verarbeitet durch einen CVSD-Kodierer.
  • Fig. 12A-12c sind Wellenformdarstellungen des gesprochenen Wortes "STAY", verarbeitet durch einen MIMIC-Kodierer.
  • Fig. 13A-13C sind Wellenformdarstellungen zur Veranschaulichung der Tonhöhenfeststellung des gesprochenen Wortes "STAY" für SPFE-, CVSD- bzw. MIMIC-kodierte Sprachrahmen.
  • Beste Art, die Erfindung auszuführen
  • Gemäß Fig. 1 ist eine Quelle elektrischer Sprachsignale 10, die beispielsweise ein Bandaufzeichnungsgerät oder ein Mikrofon sein kann, derart verbunden, daß sie elektrische Analogsprachsignale an den Eingang eines bitseriellen Kodierers (Digitalisierers) 20 liefert. Der Digitalisierer 20 kann von einer Art sein, die einen seriellen Bitstrom entweder unter Verwendung eines SPFE-, eines CVSD- oder eines MIMIC-basierenden Systems abgibt. Der serielle Bitstrom von dem Digitalisiererausgang wird in einem Zwischenspeicher 30 gespeichert. Der serielle Bitstrom kann auf einer Wechselscheibe 32 gespeichert werden, die zu dem Scheibenleserteil 34 eines Prozessors 40 gebracht wird, wenn ein Lesen aus dem Speicher erforderlich ist. Der Prozessor 40, der ein NCR Decision Mate V sein kann, arbeitet an den gespeicherten Daten, um diese zu komprimieren, zwischenzuspeichern und einem bitseriellen Dekodierer 60 zuzuführen. Die komprimierte Information wird mittels des bitseriellen Dekodierers 60 in das ursprüngliche Analogsignal rekonstruiert. Das Analogsignal von dem Dekodierer 60 wird einer "Verstärker-Lautsprecher- Einheit" 70 oder einer anderen einsetzbaren Vorrichtung zum Erzeugen der rekonstruierten Analogsprache zugeführt.
  • Der Prozessor 40 liest die ursprünglichen Daten aus dem Zwischenspeicher 30 in Rahmen und verarbeitet die ursprünglichen Daten mit einem Kompressionsalgorithmus. Jeder dieser Rahmen hat eine feste Länge, IW-Bits lang. Experimentell wurde bestimmt, daß die Rahmenlänge abhängig ist von der Bitrate des Digitalisierers und zumindest zwei Tonhöhenperioden breiter sein sollte, wobei eine Tonhöhenperiode von 80 bis 300 Hz reicht.
  • Es wird nun auf Fig. 2 Bezug genommen, die die äquivalente Blockdarstellung der in Fig. 1 gezeigten Elemente ist; der Prozessor 40 umfaßt einen Empfänger 41, einen Kompressionsalgorithmus 42, einen Zwischenspeicher 50, einen Dekodieralgorithmus 43 und einen Sender 44. Der Empfänger 41 liest die durch die Zwischenspeicher-Untereinheit 30 gespeicherten ursprünglichen Daten in Rahmen konstanter Länge und leitet diese Rahmen zum Kompressionsalgorithmus 42. Ist eine Rekonstruktion erwünscht, dann dekodiert der Prozessor die gespeicherten komprimierten Daten und überträgt die dekodierten Daten als ein serieller Bitstrom zu dem bitseriellen Dekodierer 60. Jeder Rahmen wird als eine Matrixanordnung IB[] von dem Kompressionsalgorithmus 42 (in Fig. 3 in Blockform gezeigt) verarbeitet. IB ist eine IW·1-Anordnung. Der Verfahrensablauf des Kompressionsalgorithmus 42 ist in den Fig. 4, 5A, 5B, 7A, 7B und 7C dargelegt. Die Arbeitsweise des Kompressionsalgorithmus wird später in diesem Abschnitt der Beschreibung erläutert. Das Ausgangssignal des Kompressionsalgorithmus ist eine Folge von komprimierten Blöcken, deren Form in Fig. 6 veranschaulicht ist und die in dem Zwischenspeicher 50 gespeichert werden. Nach dem Auslesen bewirkt ein Dekodieralgorithmus 43 (in Blockform in Fig. 8A gezeigt) eine Wiederholungs-Wiedereinsetzung in die komprimierten Daten. Der Senderabschnitt 44 überträgt die Daten von dem Dekodieralgorithmus zu dem bitseriellen Dekodierer 60. Der Vorgangsablauf des Dekodieralgorithmus 43 ist in Fig. 8B dargestellt.
  • Gemäß Fig. 3 werden die vom Empfänger 41 empfangenen ursprünglichen Daten durch ein Element 45 zur Bildung von Rahmen mit fester Länge in Rahmen IB[] mit fester Länge geformt. Jede Rahmenanordnung IB[] wird an einen Stimmhaft/Stimmlos/Stille- (V/UNV/S)-Detektor 46, einen Tonhöhendetektor 47 und einen Tonhöhenintervall-Wiederhol-(P.I.R.)-Algorithmus 48 geleitet. Der V/UNV/S-Detektor 46 funktioniert so, daß er jede Rahmenanordnung IB[] durch Berechnen eines Wertes X&sub0; klassifiziert, wobei X&sub0; gleich der Anzahl aufeinanderfolgender Folgen ist, die die Muster "0000", "0101" oder "1010" haben. Es hat sich gezeigt, daß sich diese Muster in einem Stille-Rahmen beliebig wiederholen. X&sub0; wird mit Schwellenwerten verglichen, um die Klasse des Rahmens zu bestimmen. Ein stiller Rahmen wird als KLASSE 0 definiert. Ein stimmloser Rahmen wird als KLASSE 1 definiert, und ein stimmhafter Rahmen wird als KLASSE 2 definiert. Die Klassenbestimmung wird als Eingangssignal an den Tonhöhendetektor 47 und an den Tonhöhenintervall-Wiederhol- Algorithmus 48 angelegt. Der Tonhöhendetektor 47 verwendet die Anordnung IB[] zur Feststellung der Tonhöhe basierend darauf, von welcher Klasse der Rahmen ist. Eine ausführlichere Beschreibung der Arbeitsweise des Tonhöhendetektors wird bei der Beschreibung des Flusses der Fig. 5A und 5B gegeben. Das Ausgangssignal des Tonhöhendetektors 47 ist mit IP bezeichnet und wird als Eingangssignal an den Tonhöhenintervall-Wiederhol- Algorithmus 48 angelegt. Der P.I.R. funktioniert so, daß er einen Wert P berechnet, der gleich ist der Anzahl von Tonhöhenperioden in einem Rahmen. Der P.I.R. liefert als ein Ausgangssignal ein Rahmenrestsignal (falls überhaupt) in dem Rahmen IB[], das noch nicht verglichen wurde. Das Restsignal wird zurückgeleitet als ein Eingangssignal an das Element zur Bildung von Rahmen fester Länge 45. Ein FLAG-Signal, das gleich 2 ist, wenn der zuvor verarbeitete Rahmen stimmhaft ist und gleich 0 ist, wenn er nicht stimmhaft war, wird auch zurückgeleitet als ein Eingangssignal an das Element 45 zur Bildung von Rahmen mit fester Länge. Der P.I.R. gibt eine Folge von komprimierten Datenblöcken (siehe Fig. 6) zur Speicherung in dem Zwischenspeicher für komprimierte Daten 50 aus.
  • Gemäß Fig. 4 bearbeitet der Stimmhaft/Stimmlos/Stille Detektor 46 die Anordnung IB[] mit einem Ablauf, der mit dem START-Block 101 beginnt. Im Block 102 wird für jede IB[] der Wert X&sub0; berechnet. X&sub0; ist gleich der Zahl von "0000"-, "0101"- oder "1010"-Folgen in einem Rahmen. Ist X&sub0; berechnet, dann bestimmt ein Entscheidungsblock 103, ob X&sub0; größer oder gleich einem Wert X&sub2; ist. Ist die Antwort "ja", dann setzt ein Block 104 das KLASSE-Signal gleich 0. Ist die Antwort "nein", dann arbeitet ein Block 105, um S und S1 zu berechnen, die die Werte sind, die die Anzahl von Eins-Bits bzw. die Anzahl von Eins-Impulsen in einer Anordnung IB[] darstellen. Ein Eins- Impuls wird als ein Impuls definiert, der ein oder mehrere aufeinanderfolgende Eins-Bits aufweist. Eine "Nein"-Entscheidung vom Block 103 zeigt an, daß ein Rahmen stimmhaft oder stimmlos sein kann. Ist das Verhältnis von S/S1 (Durchschnittsbreite eines Impulses) geringer oder gleich X&sub1;, dann ist der Rahmen stimmlos und die KLASSE wird durch Block 107 auf 1 gesetzt, sonst ist der Rahmen stimmhaft und die KLASSE wird durch Block 108 gleich 2 gesetzt. Der Wert X&sub1; ist ein stimmloser Schwellenwertpegel, und der Wert X&sub2; ist ein Stille- Schwellenwertpegel, die empirisch durch Überprüfen einer Anzahl von stimmlosen bzw. Stille-Rahmenmustern festgestellt wurden. Der Ablauf endet dann im ENDE-Block 109, wobei das bestimmte KLASSE-Signal zu dem Tonhöhendetektor 47 und dem P.I.R.- Algorithmus 48 geleitet wird.
  • Gemäß dem Ablauf der Fig. 5A und 5B, der sich auf die Arbeitsweise des Tonhöhendetektors 47 bezieht, beginnt der Ablauf beim START-Block 201 und läuft zu dem Entscheidungsblock 202. Eine "Ja"-Entscheidung zeigt an, daß der Rahmen Stille, KLASSE=0 ist und es wird in einen Entscheidungsblock 203 eingetreten, um unter Feststellen, ob die FLAG gleich 2 ist zu bestimmen, ob der vorhergehende Rahmen stimmhaft war. Wenn der vorhergehende Rahmen stimmhaft war, dann wird die vorhergehende Tonhöhe unverändert gelassen, und der Ablauf geht zum ENDE-Block 220. Ist die FLAG nicht gleich 2, dann wird eine vorgegebene Tonhöhe IP im Aktionsblock 204 gleich 8 gesetzt. Wieder bezugnehmend auf Entscheidungsblock 202, wenn die Entscheidung "nein" ist, dann ist die KLASSE nicht gleich "0", und es wird in den Entscheidungsblock 206 eingetreten um zu bestimmen, ob die KLASSE gleich 1 ist. Ist die Entscheidung "ja", dann wird durch den Entscheidungsblock 207 eine weitere Prüfung vorgenommen um zu bestimmen, ob FLAG gleich 2 ist. Wenn "ja", dann ändert der Algorithmus nicht die vorherige Tonhöhe. Ist die Entscheidung "nein" (d. h., daß FLAG nicht gleich 2 ist), dann wird die Tonhöhe IP durch den Aktionsblock 208 gleich einer Rahmengröße IW (Anzahl der Bits in einem Rahmen) gesetzt und zum ENDE- Block 220 geleitet. Wieder bezugnehmend auf Entscheidungsblock 206, wenn der Rahmen stimmhaft ist, d. h. daß KLASSE=2, dann bezeichnet der Algorithmus die durchschnittliche Breite eines Eins-Impulses X6 im Aktionsblock 209 und dann die Position jedes Eins-Impulses in dem Rahmen IB[] im Aktionsblock 210. Im Aktionsblock 211 wird dann eine Anordnung P1[I] berechnet, die der Breite eines Eins-Impulses entspricht. Diese Breiten werden in der Anordnung P1[I] gesichert. Beim Aktionsblock 212 wählt der Algorithmus unter Verwendung der Anordnungen P1[I], W[I] und X6 nur die großen Eins-Impulse aus und sichert ihre Positionen in einer Anordnung P2[J] und ihre Breiten in einer Anordnung P3[] im Aktionsblock 213. Ein großer Eins-Impuls ist ein Impuls, dessen Breite größer oder gleich X6 ist. Beim Aktionsblock 218 werden unter Verwendung von P2[J] und P3[] die Abstände zwischen den großen Eins-Impulsen berechnet und in einer Anordnung P[I] gesichert. Unter Verwendung der Anordnung P[I] bestimmt beim Aktionsblock 219 der Algorithmus die Anordnung Q[] von Tonhöhenperiodenschätzungen derart, daß jede Schätzung gleich dem Abstand zwischen den großen Eins- Impulsen in jedem Paar von großen Eins-Impulsen im Rahmen ist, wobei folgende Einschränkungen erfüllt werden:
  • a) Der Abstand zwischen den großen Impulsen in jedem Paar ist größer oder gleich X3 und geringer oder gleich IW/2. X3 ist ein empirisch bestimmter Abstandsschwellenwert.
  • b) Die Breiten der beiden Impulse in dem Paar sind annähernd gleich innerhalb einer Toleranz von ±X4. X4 ist ein empirisch erhaltener Breitenschwellenwert.
  • Nach Bestimmung der Anordnung Q[] sortiert der Algorithmus beim Aktionsblock 214 die Eingaben von Q[] in aufsteigender Reihenfolge. Die sortierte Q[]-Anordnung wird beim Aktionsblock 215 in die definierten Klassen geteilt. Jede Klasse besteht aus Werten, die voneinander innerhalb von X5 differieren. X5 ist ebenfalls ein empirisch bestimmter Schwellenwert. Beim Aktionsblock 216 wählt dann der Algorithmus die größte Klasse aus (d. h. die Klasse, die die maximale Anzahl von Elementen hat) und greift beim Aktionsblock 217 den Minimumwert dieser Klasse als eine Tonhöhenperiodenschätzung (IP) heraus. Der Minimumwert wird dann zum ENDE-Block 220 geleitet, um diesen Teil des Flusses zu beenden.
  • Die Rahmen-KLASSE und die Tonhöhenschätzung IP werden dann dem P.I.R.-Algorithmus zugeführt, dessen Ablauf in den Fig. 7A, 7B und 7C dargestellt ist. Dieser Ablauf beginnt beim START- Block 300. Ein Entscheidungsblock 301 bestimmt, ob der Rahmen stimmhaft (d. h. KLASSE = 2) ist oder nicht. Wenn "ja", wird im Entscheidungsblock 302 eine Bestimmung vorgenommen, ob der vorherige Rahmen stimmhaft (d. h. FLAG = 2) war oder nicht. Wenn "nein", dann setzt der Aktionsblock 303 FLAG = 2, und beim Aktionsblock 304 wird N gleich 1 gesetzt und der Ablauf geht zu Aktionsblock 305, in dem der Wert P berechnet wird. Der Wert N ist eine Wiederholungszählung entsprechend der Anzahl von Malen, um die bei der Rekonstruktion die Daten wiederholt werden, und der Wert P gleicht der Anzahl von Tonhöhenperioden in dem in Verarbeitung befindlichen Rahmen. Eine Anordnung RP[] entsprechend den ersten IP-Bits des Rahmens IB[] wird beim Aktionsblock 306 als das Bezugstonhöhenperiodenmuster ausgewählt. Beim Aktionsblock 307 wird das RP[]-Muster mit dem Bitmuster in der nächsten Gruppe von IP-Bits in IB[] verglichen. Der Vergleich wird auf Bit-zu-Bit-Basis in einer kontinuierlichen Reihenfolge vorgenommen, beginnend mit dem ersten Bit in RP[] und dem ersten Bit in der zu vergleichenden Gruppe. Ein Wert SS wird gleich der Anzahl der Bits gesetzt, die mit dem vorherigen Vergleich nicht übereinstimmen. Beim Entscheidungsblock 308 wird der Wert N geprüft um zu bestimmen, ob er größer oder gleich 255 ist. Wenn "ja" (d. h. N > = 255), speichert der Algorithmus beim Aktionsblock 311 die Werte von N, IP und RP[] in dem Zwischenspeicher 50 in komprimiertem Datenformat, wie dies in Fig. 6 gezeigt ist. Dann wird beim Block 312 N gleich 1 gesetzt und beim Aktionsblock 313 wird das RP[]-Muster gleich der zuletzt verglichenen Gruppe von IP-Bits in IB[] gesetzt. Wenn N kleiner als 255 ist, dann vergleicht der Algorithmus beim Entscheidungsblock 309, ob SS kleiner als oder gleich XN ist, wobei XN ein annehmbarer Übereinstimmungsbitschwellenwert ist und wenn die Antwort "nein" ist, dann wird die gleiche Folge von Vorgängen durchgeführt wie wenn N größer oder gleich 255 ist. Wenn die Antwort "ja" ist, d. h., daß SS < = XN ist, dann erhöht der Algorithmus beim Aktionsblock 310 N um 1 und leitet den Ablauf zum Entscheidungsblock 314. Wenn beim Entscheidungsblock 314 mehr IP-Bits in IB[] zu vergleichen sind, dann läuft der Algorithmus zurück zum Aktionsblock 307, um die augenblickliche RP[] mit einer Gruppe von IP-Bits in IB[] zu vergleichen, die noch nicht verglichen worden sind und setzt die gleiche Prüfung wie zuvor beschrieben fort. Ist die Entscheidung "nein" (d. h., daß weniger als IP-Bits in IB[] übrig sind), dann wird beim Aktionsblock 315 IP1[] gleich dem Rahmenrest gesetzt, d. h. auf eine Restbitfolge (falls vorhanden) in IB[], die noch nicht verglichen wurde. Schließlich kehrt der Algorithmus zurück zu der Vorrichtung 45 zur Bildung von Rahmen mit fester Länge. Nun zurück zum Entscheidungsblock 302, wenn eine Klasse stimmhaft ist und der vorhergehende Rahmen stimmhaft ist (d. h. KLASSE = 2 und FLAG = 2), dann springt der Algorithmus zum Aktionsblock 307 für einen Vergleich von RP[] und der nächsten Gruppe von IP-Bits in IB[], und der gleiche Ablauf von Vorgängen (wie zuvor) wird mit diesen durchgeführt.
  • Wieder bezugnehmend auf den Entscheidungsblock 301, wenn der Rahmen nicht stimmhaft ist (d. h. KLASSE nicht gleich 2 ist), dann wird der Ablauf zum Entscheidungsblock 316 geleitet um zu bestimmen, ob der Rahmen stimmlos (d. h. KLASSE = 1) oder Stille (d. h. KLASSE = 0) ist. Ist der Rahmen stimmlos, dann wird der Ablauf zu einem Entscheidungsblock 317 geleitet um zu bestimmen, ob der vorhergehende Rahmen stimmhaft (d. h. FLAG = 2) war. Wenn "ja", dann speichert der Algorithmus N, IP und RP[] im Zwischenspeicher 50 in komprimiertem Datenformat bei Aktionsblock 318 und setzt beim Aktionsblock 321 IP gleich IW. IW ist gleich der Anzahl von Bits in einem Rahmen. Beim Aktionsblock 320 wird FLAG gleich 0 gesetzt, und N wird beim Aktionsblock 319 gleich 1 gesetzt. Ist beim Entscheidungsblock 317 die Entscheidung "nein" (FLAG nicht gleich 2), dann beginnt beim Aktionsblock 319 der stimmlose Hauptablauf der Verarbeitung unter Setzen von N gleich 1 und geht weiter mit Speichern von N, IP und IB[] in dem Zwischenspeicher 50 in komprimiertem Datenformat bei Aktionsblock 322. Ist der Rahmen nicht stimmlos (d. h. KLASSE nicht gleich 1), dann muß der Rahmen Stille sein (d. h. KLASSE = 0), wie dies durch den Entscheidungsblock 316 bestimmt wird. Für einen Stille-Rahmen prüft der Algorithmus beim Entscheidungsblock 323 um zu bestimmen, ob der vorhergehende Rahmen stimmhaft (d. h. FLAG = 2) ist, wenn "ja", speichert er beim Aktionsblock 324 die Werte N, IP, RP[] im Zwischenspeicher 50 in komprimiertem Datenformat und setzt beim Aktionsblock 325 IP gleich 8 und die FLAG im Aktionsblock 326 gleich 0. Der Ablauf geht dann beim Aktionsblock 327 in den stillen Hauptstrom der Verarbeitung über. Ist beim Entscheidungsblock 323 die Entscheidung "nein" (d. h. FLAG nicht gleich 2), dann beginnt der stille Hauptverarbeitungsablauf unter Setzen von IB[i] gleich bi für i = 1, 2, . . ., 8. Das Muster b&sub8; b&sub7; b&sub6; b&sub5; b&sub4; b&sub3; b&sub2; b&sub1; ist empirisch derart bestimmt worden, daß es sich selbst beliebig für den gesamten stillen Rahmen wiederholt. Nachdem IB[i] eingestellt wurde, setzt der Algorithmus N gleich dem ganzzahligen Teil des Verhältnisses IW/8, so daß das Muster b&sub8; b&sub7; b&sub6; b&sub5; b&sub4; b&sub3; b&sub2; b&sub1; N-mal wiederholt wird. Der Ablauf geht dann zum Entscheidungsblock 328 um zu bestimmen, ob C größer als 2 ist. Wenn "nein", dann wird C beim Aktionsblock 330 um 1 erhöht, und der Ablauf wird zum Aktionsblock 322 für ein Speichern des Wertes von N, IP und IB[] im Zwischenspeicher 50 in komprimiertem Datenformat geleitet, und von dort geht der Ablauf zurück zu der Vorrichtung 45 zur Rahmenbildung. Ist beim Entscheidungsblock 328 die Entscheidung "ja" (d. h. C < = 2), dann setzt der Algorithmus C gleich 0 im Aktionsblock 329 und geht dann zu der Vorrichtung 45 zur Rahmenbildung. Der Wert C ist eine Zählung der aufeinanderfolgenden stillen Rahmen und wird auf 1 gesetzt, wenn der erste Rahmen gelesen wird. Diese Zählung erlaubt es dem Algorithmus nicht, mehr als drei aufeinanderfolgende stille Rahmen zu speichern. Die Stille-Kriterien der Tonhöhenintervall- Wiederholung werden zu dem Algorithmus hinzugefügt, um Pausen zwischen Wörtern oder Sätzen zu entfernen.
  • Bezugnehmend nun auf Fig. 8A liest der Dekodierer die komprimierten Daten aus dem Zwischenspeicher 50 in der Reihenfolge, wie sie gespeichert wurden. Zuerst wird in Block 51 die Wiederholungszählung N aus dem ersten Byte der Bits gelesen. Als zweites wird in Block 51 IP in dem Datenfeld aus dem zweiten Byte gelesen. Als drittes werden die Datenfelder beim Datenfeldleser 52 vom dritten Byte bis zum n-ten Byte gelesen. Diese Information wird beim Block 53 dazu verwendet, wiederholt die IP-Bits N-mal in das Datenfeld zu lesen, was ein expandiertes Datenformat ergibt. Dieses expandierte Datenformat oder der serielle Bitstrom wird einen Ausgangstreiber 54 zugeführt, der Teil des Senders 44 ist, zum Senden des Bitstromes zu dem bitseriellen Dekodierer 60 für ein Playback. Dieser Vorgang der Wiederholung, Wiedereinsetzung, Übertragung und Playback der komprimierten Daten wird wiederholt, bis alle komprimierten Daten, die in dem Zwischenspeicher 50 gespeichert sind, verarbeitet sind.
  • Bezugnehmend auf Fig. 8B werden die komprimierten Datenblöcke aus dem Zwischenspeicher 50 jeweils einer zu einem Zeitpunkt ausgelesen, wobei der Aktionsblock 401 den Wert von N aus dem ersten Byte von komprimierten Daten ausliest. Der Aktionsblock 402 liest dann den Wert IP aus dem zweiten Byte von komprimierten Daten. Die Anzahl von Bytes in dem Datenfeld BN wird im Aktionsblock 403 bestimmt. Zählervariablen I und J werden gleich 1 bzw. 0 im Aktionsblock 404 gesetzt. Der Aktionsblock 405, der Entscheidungsblock 407 und der Zählungserhöhungsblock 406 arbeiten als eine "D0-Schleife", die die Wiederholung der Aktion des Aktionsblocks 405 fortsetzt, bis I größer als BN ist. Ist diese Bedingung erreicht, dann wird ein L-Zählerblock 408 gleich 1 gesetzt, und der Aktionsblock 409 speichert die Bytes in der Anordnung IB[M] in einer dekomprimierten Datei. Der Wert L wird beim Entscheidungsblock 410 geprüft um zu bestimmen, ob er größer oder gleich N ist (Wiederholungszählung). Der L-Zähler 411 wird dann um 1 für jede "nein"-Antwort vom Entscheidungsblock 410 erhöht. Ist die Entscheidung "ja" dann wird eine Prüfung beim Entscheidungsblock 412 vorgenommen um zu bestimmen, ob sich in dem Zwischenspeicher 50 noch weitere komprimierte Datenblöcke befinden. Ist die Antwort "ja", dann beginnt der Aktionsblock 401 das Lesen des nächsten komprimierten Datenblocks. Ist die Antwort "nein", dann werden die dekomprimierten Daten zu dem Ausgangstreiber 44 und dem bitseriellen Dekodierer 60 geleitet. Bei dem bevorzugten Ausführungsbeispiel der Erfindung ist der Ausgangstreiber 44 mit dem bitseriellen Dekodierer 60 über einen Centronics-Parallel- Drucker-I/O-Anschluß gekoppelt (der Einfachheit halber nicht gezeigt). Der Ausgangstreiber liest die durch den Wiederholungs- Wiedereinsetzungsblock 409 erzeugte Datei und überträgt die Daten zu dem bitseriellen Dekodierer 60. TABELLE 1 Experimentelle Schwellenwerte Kodierer Stimmloser Schwellenwert Stille-Schwellenwert Abstands-Schwellenwert Breiten-Schwellenwert Klassen-Schwellenwert
  • Die obige Tabelle zeigt die experimentellen Schwellenwertpegel für drei unterschiedliche Digitalisierer, die in diesem Kompressionssystem verwendet werden können, wobei R die Bitrate des Digitalisierers ist. Es ist zu beachten, daß XN (Übereinstimmungsschwellenwert) nicht in der Tabelle enthalten ist, da XN gleich 10, 15 oder 20 gesetzt werden kann, abhängig von dem erforderlichen Kompressionsfaktor und der vom Benutzer gewünschten Sprachqualität.
  • Die Bestimmung der experimentellen Schwellenwerte für den Stimmhaft/Stimmlos/Stille-Detektor und den Tonhöhendetektor wird nun beschrieben.
  • Es wird nun auf Fig. 9A Bezug genommen, die die Analogsignaldarstellung des gesprochenen Wortes "STAY" zeigt, aufgeteilt in ihre stimmlosen, Stille- und stimmhaften Teile. Der stimmhafte Teil enthält, wie zu sehen, die größten Amplitudenvariationen verglichen mit den anderen Teilen.
  • Die Fig. 9B, 9C und 9D veranschaulichen einen seriellen Bitstrom, der am Ausgang eines SPFE-, CVSD- bzw. MIMIC-Kodierers auftritt, wenn das Signal der Fig. 9A an ihre Eingänge angelegt wird.
  • Die Parameter für den Stimmhaft/Stimmlos/Stille-Detektor 46 und den Tonhöhendetektor 47 werden durch Analysieren des Bitmusters mehrerer Sprachwellenformen bestimmt, die durch unterschiedliche Kodierer, nämlich SPFE, CVSD und MIMIC digitalisiert wurden. Die Analyse wurde durchgeführt für unterschiedliche Sprecher und Bitraten (9, 6, 16 und 40 Kbit/Sek). Die Musteranalyse wurde unter Verwendung eines digitalen Sona-Graph zum Darstellen der Sprachwellenformen und der entsprechenden Bitmuster dieser Sprachsignale und unter Messung der folgenden Parameter durchgeführt:
  • 1. Experimenteller stimmloser Schwellenwert "X&sub1;":
  • Nach Untersuchen des Bitmusters von stimmhaften Rahmen verglichen mit stimmlosen Rahmen hat sich gezeigt, daß die seriellen Bitströme jedes Kodierers während eines stimmlosen Rahmens sich von hoch auf niedrig (d. h. Eins auf Null und umgekehrt) rascher ändern als der serielle Bitstrom eines stimmhaften Rahmens. Dieses Kriterium von stimmlosen Rahmen bedingte eine Einschränkung der Breite der Eins-Impulse. Aus dieser Einschränkung wurde der stimmlose Schwellenwert "X&sub1;" als ein starker Parameter zur Unterscheidung zwischen einem stimmhaften Rahmen und einem stimmlosen Rahmen bestimmt. Diese Eigenschaft von stimmlosen Rahmen wird durch die Tatsache gerechtfertigt, daß stimmlose Töne erzeugt werden, wenn die Stimmbänder nicht vibrieren und ihr Energiespektrum wie das Spektrum eines breitbandigen weißen Geräusches aussieht. Diese Kriterien bewirken mehrere Nulldurchgänge in der Sprachwellenform eines stimmlosen Rahmens. Somit wird das digitale Ausgangssignal eines SPFE, CVSD und MIMIC aus Eins- Impulsen kurzer Dauer bestehen.
  • Die Fig. 10A-10C, 11A-11C und 12A-12C zeigen typische Stille-, Stimmlos- und Stimmhaft-Rahmen für SPFE, CVSD bzw. MIMIC. Diese Figuren stellen eine sehr auseinandergezogene Ansicht der Signale der Fig. 9A bis 9D dar. Die mit 1 bezeichneten Figuren entsprechen dem gleichermaßen bezeichneten Analogteil der Fig. 9A, während die mit 2 bezeichneten Figuren den gleichermaßen in Beziehung stehenden Digitalteilen des Kodierer-Seriell-Bitstroms entsprechen. Bezugnehmend nun insbesondere auf die Fig. 10-10C, 11A-11C und 12A-12C ist erkenntlich, daß das Bitmuster des stimmlosen Rahmens unter Verwendung von X&sub1; unterschieden werden kann von demjenigen eines stimmhaften Rahmens. Die folgende Tabelle listet die Änderungen von X&sub1; für unterschiedliche Sprecher und unterschiedliche Bitraten auf.
  • TABELLE 2
  • Sprecher: Zeitdauerbereich von X&sub1;
  • F1: Weiblich (Nr. 1) 0,10 bis 0,20 msek
  • F2: Weiblich (Nr. 2) 0,104 bis 0,205 msek
  • M1: Männlich (Nr. 1) 0,10 bis 0,201 msek
  • M2: Männlich (Nr. 2) 0,103 bis 0,208 msek Breite von Xl in Bits bei 9,6 kBit/s
  • 2. Stille-Schwellenwertpegel "X&sub2;":
  • Dieser Parameter wird durch Analysieren der Bitmuster von stillen Rahmen gegenüber von solchen von stimmlosen Rahmen unter Verwendung der gleichen zuvor erwähnten Anordnung bestimmt. Es hat sich gezeigt, daß der SPFE eine Folge von Nullen für stille Rahmen abgibt, während der CVSD und der MIMIC einen Zug von 0101 oder 1010 für stille Rahmen abgibt. Diese Beobachtung wurde fortgesetzt, um das Nibble-Muster (1 Nibble = 4 Bits) während des Übergangs zwischen einem stillen Rahmen und einem stimmlosen Rahmen zu untersuchen.
  • Nach Untersuchung dieser Nibble-Muster wurde geschlossen, daß, wenn die Anzahl sich wiederholender Nibble für jeden Kodierer 90% der Gesamtzahl der Nibble in einem Rahmen überschreitet, dann der Rahmen als stiller Rahmen bezeichnet wurde. Der Parameter X&sub2; ist unabhängig von der Bitrate, er hängt jedoch von der Rahmengröße (IW) ab, wie dies in TABELLE 1 gezeigt ist.
  • Somit verwendet der Stimmhaft/Stimmlos/Stille-Detektor 46 X&sub2; zuerst zur Unterscheidung zwischen einem stillen Rahmen und einem stimmlosen Rahmen und verwendet dann X1 zur Unterscheidung zwischen einem stimmlosen Rahmen und einem stimmhaften Rahmen. Sind diese Tests erfolglos, dann ist der Rahmen stimmhaft.
  • 3. Abstandsschwellenwert zwischen großen Eins-Impulsen "X&sub3;":
  • Der Abstandsschwellenwert zwischen großen Eins-Impulsen "X&sub3;" wird durch Messen der Tonhöhenkonturänderung für unterschiedliche Sprecher bestimmt. Diese Messungen wurden durchgeführt unter Korrelieren des Bitstromes jedes Kodierers mit der Sprachwellenform während eines stimmhaften Tonrahmens. Eine ausführliche Analyse der stimmhaften Töne hat gezeigt, daß bei Erzeugen eines stimmhaften Tones das Stimmband kleine Puffe von Luft erzeugt, deren Wiederholungsrate die Grundfrequenz bildet. Die Wiederholungsrate hängt im wesentlichen ab von der Masse, Länge und Elastizität von Faltungen in den Stimmbändern des Individuums. Somit ist die Tonhöhe eines Sprechers normalerweise fest in einem Bereich von etwa 50 Hz für Männer bis ungefähr 300 Hz für Frauen. Dieser Tonhöhenbereich erzeugt obere und untere Grenzen für die Tonhöhenperiode. Die untere Grenze der Tonhöhenperiode wird dazu verwendet, X&sub3; wie folgt zu berechnen:
  • X&sub3;= Bitrate x (1/300)
  • Da die Tonhöhenperiode in der Studie gleich der Anzahl von Bits zwischen zwei großen Eins-Impulsen ist, so ist X&sub3; gleich der minimalen Tonhöhenperiode (d. h. der minimalen Bitanzahl). Die obere Grenze der Tonhöhenperiode (80 Hz) und das Tonhöhenfeststellungsverfahren, wie es in diesem System verwendet wurde, haben der Rahmengröße eine Beschränkung auferlegt. Diese Beschränkung besteht darin, daß die Rahmengröße (IW) zumindest zwei Tonhöhenperioden breit sein muß. Die Rahmengröße wird wie folgt berechnet:
  • IW = [Bitrate x (1/80)]·2
  • Die Hälfte der Rahmengröße und X3 wurden in dem Tonhöhenfeststellungsalgorithmus als eine Obergrenze und eine Untergrenze bei den festgestellten Tonhöhenperioden verwendet, wie dies in Fig. 13A-13C gezeigt ist. TABELLE 3 zeigt die Tonhöhenvariation für jeden der Sprecher, die in dieser Analyse verwendet wurden.
  • TABELLE 3
  • Sprecher: Tonhöhenbereich
  • F1: Weiblich (Nr. 1) 3,3 bis 4,5 msek
  • F2: Weiblich (Nr. 2) 3,8 bis 5,1 msek
  • M1: Männlich (Nr. 1) 6,5 bis 10,8 msek
  • M2: Männlich (Nr. 2) 7,8 bis 12,5 msek
  • 4. Breitenschwellenwert für die großen Eins-Impulse "X&sub4;":
  • Dieser Parameter wurde durch Vergleichen der Breiten der großen Eins-Impulse zu Beginn und am Ende von Tonhöhenperioden bestimmt, wie in Fig. 13A-13C gezeigt. Durch Analysieren mehrerer Tonhöhenkonturen hat sich gezeigt, daß diese Impulse annähernd die gleiche Dauer haben. Diese Beobachtung ist bei Bezugnahme auf die Fig. 13A-13C gerechtfertigt. Wenn die Sprachwellenform ansteigt, geben CVSD und MIMIC eine Folge von Einsen ab, bis die Wellenform die Spitze erreicht, während der SPFE eine Folge von Einsen so lange abgibt wie die Wellenform oberhalb der Achse ist. Da sich andererseits die Tonhöhenperiode zwischen zwei größeren Spitzen oder kleineren Spitzen befindet, die gleiche Amplituden haben, so sollten die großen Eins-Impulse entsprechend diesen Spitzen die gleiche Breite haben. Dieser Gesichtspunkt der Tonhöhenperiode erlaubt eine Toleranz, die mit X&sub4; bezeichnet wird.
  • 5. Klassenschwellenwert für die geschätzte Tonhöhenperiode "X&sub5;":
  • Dieser Parameter wird durch Untersuchen der Tonhöhenperiodenvariationen zwischen aufeinanderfolgenden stimmhaften Rahmen für viele Sprecher bestimmt. Es hat sich gezeigt, daß die Tonhöhenperiode von 0,3 bis 0,5 msek variieren kann. Dieser Bereich bestimmt X&sub5; wie folgt:
  • X&sub5;= Bitrate · 0,5
  • Die Obergrenze wurde gewählt, da dies der schlechteste Fall war, der in der Tonhöhenkonturvariation festgestellt wurde.
  • Zusammenfassend ist erkenntlich, daß das bevorzugte Ausführungsbeispiel ein Verfahren verwendet, das einen Mustererkennungsprozeß zum Klassifizieren eines gegebenen Sprachsegments in drei Klassen verwendet: stimmhafte Sprache, stimmlose Sprache und Stille. Das Mustererkennungsverfahren stellt ein wirksames Verfahren zum Kombinieren der Beiträge einer Anzahl von Sprachmessungen dar, die als solche für eine Unterscheidung zwischen den Klassen ungenügend sein könnten und zwar in eine einzige Messung, die geeignet ist, eine zuverlässige Trennung zwischen den drei Klassen zu bieten. Das angewandte System und Verfahren basiert im wesentlichen auf der Rate der Nulldurchgänge der Sprachwellenform der für Digitalisierung der Sprachwellenformen verwendeten bitseriellen Kodierer, nämlich CVSD, MIMIC oder SPFE.
  • Die folgenden drei Messungen werden in dem System und dem Verfahren des bevorzugten Ausführungsbeispiels verwendet:
  • 1. Die Anzahl der stillen Muster "X0" (0000, 0101 oder 1010) von SPFE, MIMIC bzw. CVSD.
  • 2. Die Anzahl "S1" von Eins-Impulsen in einem Rahmen.
  • 3. Die Anzahl "S" von Eins-Bits in einem Rahmen.
  • 4. Die Breite "S/S1" des durchschnittlichen Eins-Impulses.
  • Die Wahl dieser besonderen Parameter basiert teilweise auf der experimentellen Tatsache, daß die Parameter von einer Klasse zur anderen konsistent variieren und teilweise auf der Kenntnis des Verfahrens, bei dem stimmhafte und stimmlose Sprachtöne im menschlichen Stimmtrakt erzeugt werden und wie jeder der bitseriellen Kodierer diese Sprachtöne digitalisiert. Das Komprimierungssystem und -verfahren trägt den Änderungen in den Spracheigenschaften während des Übergangs von stimmhafter zu stimmloser Sprache Rechnung und vermeidet eine Segmentierung, um die Qualität und Erkennbarkeit der rekonstruierten Sprache aufrechtzuerhalten. Obwohl bereits zuvor erwähnt wurde, daß das angewandte Verfahren teilweise auf der Rate der Nulldurchgänge der Sprachwellenform beruht, ist aus einem analogen Gesichtspunkt erkenntlich, daß aufgrund der Verwendung des digitalen Ausgangssignals eines bitseriellen Kodierers zur Klassifizierung von Sprache in die drei Klassen von Tönen die Rate der Nulldurchgänge der Sprachwellenform der Änderungsrate von hoch nach niedrig (Eins zu Null) oder umgekehrt in dem seriellen Bitstrom des Kodierers entspricht. Andererseits vereinfacht die Verwendung des digitalen Bitstromes zur zuverlässigen Unterscheidung zwischen den drei Klassen von Tönen für eine große Vielfalt von Sprechern den Feststellungsmechanismus. Das vorliegende System und Verfahren benötigt keine Messung der Energie des Signales, der größten Cepstral-Spitze und der Variation der Nulldurchgangszählung von einer Sprechumgebung zur anderen, die die veränderbaren Eigenschaften des Raumgeräusches reflektiert, da die seriellen Kodierer derart konstruiert sind, daß sie diese Gesichtspunkte berücksichtigen. Auch ist bei dem vorliegenden System die Stimmhaft/Stimmlos-Entscheidung losgelöst, d. h. getrennt von der Tonhöhenfeststellung.
  • Der Tonhöhenfeststellungsteil des vorliegenden Sprachkomprimierungssystems und -verfahrens bestimmt die Tonhöhe während eines stimmhaften Rahmens von Sprache und stützt sich auf die Zeit- und Frequenzhaupteigenschaften der Kodierer. Für diese Tonhöhenfeststellung sind diese Messungen Nulldurchgangsmessungen und Autokorrelationsmessungen. Die Nulldurchgangsmessungen werden durch Lokalisieren der großen Eins-Impulse in dem Bitstrom des Kodierers durchgeführt, während die Autokorrelationsmessung durch Zählen der Anzahl von Eins- Bits in einem Rahmen erfolgt. Die grundlegende Annahme bei der Schätzung der Tonhöhenperiode ist, daß, wenn die Sprachwellenform im Zeitbereich periodisch ist, dann der Digitalbitstrom der Kodierer aus einer Folge von großen Eins- Impulsen bei der Grundfrequenz und ihren Harmonischen bestehen wird. Somit kann eine einfache Messung am Bitstrom eines Rahmens erfolgen, um die Tonhöhenperiode abzuschätzen. Ein stimmhafter Rahmen gibt einen großen Eins-Impuls bei der Grundfrequenz der Sprachwellenform ab. Der Tonhöhendetektorteil plaziert Tonhöhenmarkierungen direkt auf den Bitstrom jedes Rahmens. Um für jeden stimmhaften Rahmen die interessierenden Tonhöhenmarkierungen zu erhalten, berechnet der Tonhöhendetektorteil die durchschnittliche Breite von Eins- Impulsen, die Position der Eins-Impulse innerhalb des Rahmens, die Breite jedes Eins-Impulses und schließlich die Anzahl dieser Eins-Impulse. Aus diesen Messungen wählt der Tonhöhendetektorteil diejenigen Eins-Impulse aus, deren Breite größer ist als ein durchschnittlicher Eins-Impuls und sichert so die Position dieser großen Eins-Impulse innerhalb des Rahmens. Der Rest des Systems isoliert und identifiziert die grundlegenden Ausschlagszyklen, d. h. diejenigen, die den wahren Tonhöhenperioden entsprechen. Dies wird durch eine Reihe von Schritten unter Verwendung des Bereichs der in der menschlichen Sprache beobachteten Grundfrequenz und der Beschränkung auf die Rahmengröße erzielt, die dazu zwingt, daß der Rahmen zumindest zwei Tonhöhenperioden hat. Die Ausschlagszyklen werden ferner dadurch identifiziert, daß der Abstand zwischen zwei aufeinanderfolgenden Tonhöhenmarkierungen, der gleich der geschätzten Tonhöhenperiode ist, als innerhalb des Grundfrequenzbereiches der menschlichen Sprache liegend und die Hälfte der Rahmengröße nicht überschreitend akzeptiert wird. Der Tonhöhendetektorbereich sortiert die geschätzten Tonhöhenperioden in aufsteigender Reihenfolge und teilt diese dann in Gruppen. Schließlich ist das kleinste Element der größten Gruppe die Tonhöhenperiode, die ausgewählt wird. Bei dem bevorzugten Ausführungsbeispiel der Erfindung wird aufgrund des in dem Bitstrom der bitseriellen Kodierer festgestellten sich wiederholenden Bytes die Tonhöhenperiode gleich 8 gesetzt. Für einen stimmlosen Rahmen wird aufgrund des Fehlens von Tonhöhenmarkierungen die Tonhöhenperiode gleich der Rahmengröße gesetzt.
  • Einer der Vorteile des Tonhöhendetektorteiles des bevorzugten Ausführungsbeispiels ist die Verwendung des Digitalbitstromes beim Abschätzen der Tonhöhenperiode anstelle der Verwendung der Sprachwellenform. Dies schaltet verschiedene Probleme aus, die bei Tonhöhendetektoren festgestellt wurden, die die analoge Sprachwellenform zur Schätzung der Tonhöhenperiode verwenden.
  • Die Arbeitsweise des bevorzugten Ausführungsbeispiels wurde im Zusammenhang mit dem digital kodierten Wort "STAY" beschrieben, es ist jedoch für den Fachmann ohne weiteres klar, daß diese Beschreibung lediglich beispielhaft ist und nicht als eine Beschränkung bezüglich der Möglichkeit der vorliegenden Erfindung angesehen werden darf.

Claims (1)

1. Ein Verfahren zum Komprimieren eines Sprachsignale darstellenden seriellen Bitstromes mit den Schritten: (a) Speichern der Bits des seriellen Bitstromes; (b) Lesen der gespeicherten Bits in festen Rahmenlängen; (c) Klassifizieren jedes Rahmens von gelesenen Bits als stimmhaft, stimmlos oder Stille, wobei ein Rahmen als Stille klassifiziert wird, wenn der Rahmen zumindest eine vorbestimmte Anzahl von Wiederholungen eines vorbestimmten Bitmusters enthält; (d) Komprimieren der Bits eines als Stille klassifizierten Rahmens durch Speichern des vorbestimmten Bitmusters und einer der Anzahl von Malen entsprechenden Anzahl von Wiederholungen des vorbestimmten Musters in einem Rahmen; (e) Bestimmen einer Tonhöhenperiode (IP) für einen als stimmhaft klassifizierten Rahmen; (f) Bestimmen eines Bezugstonhöhenmusters (RP) entsprechend der Tonhöhenperiode; (g) Vergleichen der Bits eines stimmhaften Rahmens mit den Bits des Bezugstonhöhenmusters (RP), um eine Wiederholung festzustellen; (h) wenn der unmittelbar vorhergehende Rahmen als stimmhaft klassifiziert wurde (FLAG 2), Bewirken des Schritts Vergleichen unter Verwendung des für den unmittelbar vorhergehenden Rahmen bestimmten Bezugstonhöhenmusters (RP); (i) Bestimmen einer Wiederholungszählung (N), die die festgestellte Wiederholung darstellt; (j) wenn der unmittelbar vorhergehende Rahmen als stimmhaft klassifiziert wurde (FLAG 2), Verwenden der für den unmittelbar vorhergehenden Rahmen bestimmten Wiederholungszählung (N) als eine Anfangswiederholungszählung (N) für den augenblicklichen Rahmen; (k) Speichern der Wiederholungszählung (N), der Tonhöhenperiode (IP) und des Bezugstonhöhenmusters (RP) und (1) Wiederholen der Schritte (b) bis (k), um den seriellen Bitstrom zu komprimieren.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß der Schritt des Klassifizierens die Schritte einschließt: Identifizieren als "Eins-Impulse" Impulse, die ein oder mehrere aufeinanderfolgende Eins-Bits enthalten; Berechnen der Breite der Eins-Impulse; Berechnen der durchschnittlichen Breite der Eins-Impulse in einem Rahmen, der nicht als Stille klassifiziert ist; und Klassifizieren des Rahmens als stimmlos oder stimmhaft, abhängig davon, ob die durchschnittliche Breite geringer oder größer als ein vorbestimmter Wert (X&sub1;) ist.
3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß der Schritt Bestimmen einer Tonhöhenperiode die Schritte aufweist: Identifizieren als "Eins-Impulse" Impulse, die ein oder mehrere aufeinanderfolgende Eins-Bits enthalten; Berechnen der Breite der Eins-Impulse; Berechnen der durchschnittlichen Breite der Eins-Impulse in einem Rahmen; Berechnen der Position der Eins-Impulse; Berechnen der Anzahl der Eins-Impulse; Auswählen der großen Eins-Impulse, deren Breite größer ist als die durchschnittliche Breite der Eins-Impulse; Bestimmen des Abstands zwischen den großen Eins-Impulsen; Sortieren der großen Eins-Impulse in aufsteigender Ordnung in Paaren gemäß dem Abstand zwischen den großen Eins-Impulsen; Bilden von Klassen von Tonhöhenperioden unter Einordnen aller großen Eins-Impulse, die innerhalb eines festen Schwellenwerts zueinander sind, in jede Klasse; und Auswählen des Abstands des am wenigsten beabstandeten Paares von großen Eins-Impulsen aus der Klasse mit der größten Anzahl von großen Eins-Impulsen als die vorbestimmte Tonhöhenperiode.
4. Verfahren nach Anspruch 1, gekennzeichnet durch die Schritte: Lesen der gespeicherten Wiederholungszählung (N), der Tonhöhenperiode (IP) und des Bezugstonhöhenmusters (RP) und Wiederholen des Bezugstonhöhenmusters (RP) eine Anzahl von Malen entsprechend der Wiederholungszählung (N), um den seriellen Bitstrom wiederherzustellen.
5. Ein System zum Komprimieren eines Sprachsignale darstellenden seriellen Bitstromes mit einer ersten Speichervorrichtung (30), die geeignet ist, den seriellen Bitstrom zu speichern; einer Empfängervorrichtung (41), die geeignet ist, den seriellen Bitstrom von der Speichervorrichtung (30) in Rahmen mit fester Länge zu lesen; einer Kompressionsvorrichtung (42), die geeignet ist, jeden Rahmen als stimmhaft, stimmlos oder Stille zu klassifizieren und einen stimmhaften Rahmen unter Bestimmen und Speichern einer Tonhöhenperiode (IP), eines Bezugstonhöhenmusters (RP) und einer Wiederholungszählung (N) zu speichern, die eine Anzahl von Wiederholungen des Bezugstonhöhenmusters darstellt; einer Vergleichsvorrichtung, die geeignet ist, die Bits eines stimmhaften Rahmens mit den Bits des Bezugstonhöhenmusters (RP) zu vergleichen, um eine Wiederholung festzustellen, wobei, wenn der unmittelbar vorhergehende Rahmen als stimmhaft (FLAG 2) klassifiziert wurde, das Bezugstonhöhenmuster (RP) für den unmittelbar vorhergehenden Rahmen durch die Vergleichsvorrichtung verwendet wird, wobei die Kompressionsvorrichtung geeignet ist, einen Rahmen als Stille zu klassifizieren, wenn der Rahmen zumindest eine vorbestimmte Anzahl von Wiederholungen eines vorbestimmten Bitmusters enthält, und einen Stille-Rahmen durch Speichern des vorbestimmten Bitmusters und einer der Anzahl von Malen entsprechenden Anzahl von Wiederholungen des vorbestimmten Bitmusters in dem Rahmen zu komprimieren; und einer zweiten Speichervorrichtung (50), die geeignet ist, die komprimierten Rahmen zu speichern.
6. System nach Anspruch 5, gekennzeichnet durch eine Dekomprimierungsvorrichtung (43), die geeignet ist, den seriellen Bitstrom aus der Tonhöhenperiode (IP), dem Bezugstonhöhenmuster (RP) und der Wiederholungszählung (N) zu rekonstruieren, die in der zweiten Speichervorrichtung (50) gespeichert sind.
17. System nach Anspruch 6, gekennzeichnet durch eine Übertragungsvorrichtung (44), die geeignet ist, den dekomprimierten seriellen Bitstrom zu übertragen, und eine Dekodiervorrichtung (60), die geeignet ist, ein analoges Ausgangssprachsignal entsprechend dem seriellen Bitstrom zu konstruieren.
DE8787904461T 1986-07-21 1987-06-25 Verfahren und einrichtung zur komprimierung von sprachsignaldaten. Expired - Fee Related DE3781393T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US06/887,492 US4802221A (en) 1986-07-21 1986-07-21 Digital system and method for compressing speech signals for storage and transmission
PCT/US1987/001492 WO1988000754A1 (en) 1986-07-21 1987-06-25 Method and system for compressing speech signal data

Publications (2)

Publication Number Publication Date
DE3781393D1 DE3781393D1 (de) 1992-10-01
DE3781393T2 true DE3781393T2 (de) 1993-04-01

Family

ID=25391264

Family Applications (1)

Application Number Title Priority Date Filing Date
DE8787904461T Expired - Fee Related DE3781393T2 (de) 1986-07-21 1987-06-25 Verfahren und einrichtung zur komprimierung von sprachsignaldaten.

Country Status (6)

Country Link
US (1) US4802221A (de)
EP (1) EP0275273B1 (de)
JP (1) JP3048150B2 (de)
CA (1) CA1307590C (de)
DE (1) DE3781393T2 (de)
WO (1) WO1988000754A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10245107A1 (de) * 2002-09-27 2004-04-08 Siemens Ag Voice Activity Detection auf Basis von unüberwacht trainierten Clusterverfahren

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3888547T2 (de) * 1987-01-16 1994-06-30 Sharp Kk Gerät zur Sprachanalyse und -synthese.
JP2707564B2 (ja) * 1987-12-14 1998-01-28 株式会社日立製作所 音声符号化方式
US4890326A (en) * 1988-03-03 1989-12-26 Rubiyat Software, Inc. Method for compressing data
US5020058A (en) * 1989-01-23 1991-05-28 Stratacom, Inc. Packet voice/data communication system having protocol independent repetitive packet suppression
AU6877791A (en) * 1989-10-25 1991-05-31 Motorola, Inc. Speech waveform compression technique
FI91457C (fi) * 1991-03-08 1994-06-27 Nokia Mobile Phones Ltd Menetelmä puheen tallentamiseksi muistivälineelle ja tallennetun puheen toistamiseksi sekä menetelmää käyttävä laite
US5305420A (en) * 1991-09-25 1994-04-19 Nippon Hoso Kyokai Method and apparatus for hearing assistance with speech speed control function
FR2686183A1 (fr) * 1992-01-15 1993-07-16 Idms Sa Systeme de numerisation d'un signal audio, procede et dispositif de mise en óoeuvre pour constituer une base de donnees numeriques.
US5412719A (en) * 1992-01-17 1995-05-02 Hitachi, Ltd. Radio paging system with voice transfer function and radio pager
US5448679A (en) * 1992-12-30 1995-09-05 International Business Machines Corporation Method and system for speech data compression and regeneration
US7082106B2 (en) * 1993-01-08 2006-07-25 Multi-Tech Systems, Inc. Computer-based multi-media communications system and method
SE516521C2 (sv) * 1993-11-25 2002-01-22 Telia Ab Anordning och förfarande vid talsyntes
US5787387A (en) * 1994-07-11 1998-07-28 Voxware, Inc. Harmonic adaptive speech coding method and system
US5704000A (en) * 1994-11-10 1997-12-30 Hughes Electronics Robust pitch estimation method and device for telephone speech
US5687176A (en) * 1995-06-09 1997-11-11 Hubbell Incorporated Zero byte substitution method and apparatus for telecommunications equipment
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US5682462A (en) * 1995-09-14 1997-10-28 Motorola, Inc. Very low bit rate voice messaging system using variable rate backward search interpolation processing
JP3680380B2 (ja) * 1995-10-26 2005-08-10 ソニー株式会社 音声符号化方法及び装置
US5701391A (en) * 1995-10-31 1997-12-23 Motorola, Inc. Method and system for compressing a speech signal using envelope modulation
WO1997027578A1 (en) * 1996-01-26 1997-07-31 Motorola Inc. Very low bit rate time domain speech analyzer for voice messaging
US5864795A (en) * 1996-02-20 1999-01-26 Advanced Micro Devices, Inc. System and method for error correction in a correlation-based pitch estimator
US5696873A (en) * 1996-03-18 1997-12-09 Advanced Micro Devices, Inc. Vocoder system and method for performing pitch estimation using an adaptive correlation sample window
WO1997037345A1 (en) * 1996-03-29 1997-10-09 British Telecommunications Public Limited Company Speech processing
US5933805A (en) * 1996-12-13 1999-08-03 Intel Corporation Retaining prosody during speech analysis for later playback
KR100291584B1 (ko) * 1997-12-12 2001-06-01 이봉훈 피치 구간별 fo/f1률의 유사성에 의한 음성파형 압축방법
JP4308345B2 (ja) * 1998-08-21 2009-08-05 パナソニック株式会社 マルチモード音声符号化装置及び復号化装置
US6370500B1 (en) * 1999-09-30 2002-04-09 Motorola, Inc. Method and apparatus for non-speech activity reduction of a low bit rate digital voice message
US20040167772A1 (en) * 2003-02-26 2004-08-26 Engin Erzin Speech coding and decoding in a voice communication system
KR100571831B1 (ko) * 2004-02-10 2006-04-17 삼성전자주식회사 음성 식별 장치 및 방법
WO2009078093A1 (ja) * 2007-12-18 2009-06-25 Fujitsu Limited 非音声区間検出方法及び非音声区間検出装置
US10083682B2 (en) * 2015-10-06 2018-09-25 Yamaha Corporation Content data generating device, content data generating method, sound signal generating device and sound signal generating method

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3916105A (en) * 1972-12-04 1975-10-28 Ibm Pitch peak detection using linear prediction
US4015088A (en) * 1975-10-31 1977-03-29 Bell Telephone Laboratories, Incorporated Real-time speech analyzer
JPS5326761A (en) * 1976-08-26 1978-03-13 Babcock Hitachi Kk Injecting device for reducing agent for nox
US4412306A (en) * 1981-05-14 1983-10-25 Moll Edward W System for minimizing space requirements for storage and transmission of digital signals
JPS58140798A (ja) * 1982-02-15 1983-08-20 株式会社日立製作所 音声ピツチ抽出方法
JPS5925237A (ja) * 1982-08-03 1984-02-09 Hitachi Ltd 半導体装置
JPS5979296A (ja) * 1982-10-29 1984-05-08 株式会社東芝 音声デ−タ作成装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10245107A1 (de) * 2002-09-27 2004-04-08 Siemens Ag Voice Activity Detection auf Basis von unüberwacht trainierten Clusterverfahren
DE10245107B4 (de) * 2002-09-27 2006-01-26 Siemens Ag Voice Activity Detection auf Basis von unüberwacht trainierten Clusterverfahren

Also Published As

Publication number Publication date
WO1988000754A1 (en) 1988-01-28
EP0275273A1 (de) 1988-07-27
JP3048150B2 (ja) 2000-06-05
JPH01500463A (ja) 1989-02-16
CA1307590C (en) 1992-09-15
US4802221A (en) 1989-01-31
DE3781393D1 (de) 1992-10-01
EP0275273B1 (de) 1992-08-26

Similar Documents

Publication Publication Date Title
DE3781393T2 (de) Verfahren und einrichtung zur komprimierung von sprachsignaldaten.
DE3416238C2 (de) Extremschmalband-Übertragungssystem und Verfahren für eine Übertragung von Nachrichten
DE69626115T2 (de) Signalqualitätsbewertung
DE69329511T2 (de) Verfahren und Einrichtung zum Unterscheiden zwischen stimmhaften und stimmlosen Lauten
EP1405222B9 (de) Verfahren und vorrichtung zum erzeugen eines fingerabdrucks und verfahren und vorrichtung zum identifizieren eines audiosignals
DE3883799T2 (de) Codierungseinrichtung zur Sprachübertragung.
DE3884880T2 (de) Billige Spracherkennungseinrichtung und Verfahren.
DE69430872T2 (de) System und verfahren zur sprachkompression
EP1606798B1 (de) Vorrichtung und verfahren zum analysieren eines audio-informationssignals
DE60012198T2 (de) Kodierung der hüllkurve des spektrums mittels variabler zeit/frequenz-auflösung
DE68912692T2 (de) Zur Sprachqualitätsmodifizierung geeignetes Übertragungssystem durch Klassifizierung der Sprachsignale.
DE69613646T2 (de) Verfahren zur Sprachdetektion bei starken Umgebungsgeräuschen
DE69431622T2 (de) Verfahren und gerät zum kodieren von mit mehreren bits kodiertem digitalem ton durch subtraktion eines adaptiven zittersignals, einfügen von versteckten kanalbits und filtrierung, sowie kodiergerät zur verwendung bei diesem verfahren
DE69226594T2 (de) Spracherkennungseinrichtung mit Sprachkodierer, der Rangstufen von akustischen Prototypen ausgibt.
DE69607223T2 (de) Verfahren zur Tonhöhenerkennung, insbesondere für Zupf- oder Perkussionsinstrumente
DE2630424A1 (de) Sprachanalyse- und -synthesesystem
DE69706650T2 (de) System und verfahren zur fehlerkorrektur in einer auf korrelation basierenden grundfrequenzschätzvorrichtung
EP0296588A2 (de) Verfahren und Schaltungsanordnung zum automatischen Wiedererkennen von Signalfolgen
DE60015448T2 (de) Teilband-Audiokodiersystem
EP1371055A2 (de) Vorrichtung zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen des audiosignals unter verwendung einer autokorrelationsfunktion
DE69613611T2 (de) System zur Speicherung von und zum Zugriff auf Sprachinformation
EP1280138A1 (de) Verfahren zur Analyse von Audiosignalen
EP1388145A1 (de) Vorrichtung und verfahren zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen
DE2922091C2 (de) Verfahren zur Analog-Digital-Umwandlung von gestörten Analogsignalen
DE4218623C2 (de) Sprachsynthesizer

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: AT&T GLOBAL INFORMATION SOLUTIONS INTERNATIONAL IN

8327 Change in the person/name/address of the patent owner

Owner name: AT&T GLOBAL INFORMATION SOLUTIONS INTERNATIONAL IN

8327 Change in the person/name/address of the patent owner

Owner name: NCR INTERNATIONAL, INC. (N.D.GES.D.STAATES DELAWAR

8327 Change in the person/name/address of the patent owner

Owner name: NCR INTERNATIONAL, INC. (N.D.GES.D.STAATES DELAWAR

8328 Change in the person/name/address of the agent

Free format text: V. BEZOLD & SOZIEN, 80799 MUENCHEN

8339 Ceased/non-payment of the annual fee
8327 Change in the person/name/address of the patent owner

Owner name: HYNIX SEMICONDUCTOR INC., ICHON, KYONGGI, KR

Owner name: NCR INTERNATIONAL, INC. (N.D.GES.D.STAATES DEL, US