DE9006717U1

DE9006717U1 - Anrufbeantworter für die digitale Aufzeichnung und Wiedergabe von Sprachsignalen

Info

Publication number: DE9006717U1
Application number: DE9006717U
Authority: DE
Original assignee: Philips Patentverwaltung GmbH
Current assignee: Philips Intellectual Property and Standards GmbH
Priority date: 1990-06-15
Filing date: 1990-06-15
Publication date: 1991-10-10
Anticipated expiration: 2000-06-16
Also published as: US5251261A

Description

PHILIPS PATENTVER^ALTUNG GMBH % },\ ; PHD 90 105 GM G 90 06 717.7 '"' *.",■-* 14.09.1990

Neue Beschreibunqsseite 1

Anrufbeantworter für die digitale Aufzeichnung und Wiedergabe von Sprachsignalen

Die Erfindung betrifft einen Anrufbeantworter zur digitalen Aufzeichnung und Wiedergabe von Sprachsignalen mit einem Sprachcodierer und einem Sprachsynthetisierer.

Anrufbeantworter mit digitaler Sprachaufzeichnung- und Wiedergabe weisen den Vorteil auf, daß sie ohne bewegte mechanische Teile hergestellt werden können. Aus der DE-PS 32 32 398 ist beispielsweise ein Anrufbeantworter bekannt, bei dem ein Meldetext und/oder eine von einem Anrufer hinterlassene Nachricht in Deltamodulation gespeichert werden kann.

Aufgabe der vorliegenden Erfindung ist es, bei einem Anrufbeantworter der eingangs genannten Art bei akustisch kaum wahrnehmbarer Veränderung der Sprachqualität die zu speichernde Datenmenge zu reduzieren.

^;V ,./

Diese Aufgabe wird dadurch gelöst, daß der Sprachcodierer zur Aufzeichnung digitalisierte Sprachabtastwerte des analogen Sprachsignals jeweils in einem Zeitrahmen zusammenfaßt und für jeden Zeitrahmen ein digitales Gesamtcodewort bildet, das ein Codewort für die spektrale Einhüllende (STP-Codewort), ein Codewort für die Periodizität (LTP-Codewort) und ein Codewort für ein Restsignals (RPE-Codewort) enthalten kann, und daß die vom Sprachcodierer gebildeten Gesamtcodeworte in einem Speicher gespeichert werden und daß die gespeicherten Worte zur Wiedergabe dem Sprachsynthetisierer zugeführt werden.

PHD 9C-105 GM

Das Prinzip einer solchen an sich bekannten (z.B. P. Vary, K. Hellwig, R. Hofmann, R.J. Sluyter, C. Galand, M. Rosso: Speech Codec for the European Mobile Radio System. Proc. ICASSP, New York 1988, Seiten 227 bis 230) Restsignal-Sprachcodierers besteht darin, sich langsam ändernde Größen der Sprache getrennt zu analysieren und zu codieren. Solche Größen sind etwa die spektrale Einhüllende, die Periodizität und ein nach diesen Analysen durch inverse Filterung verbleibendes Restsignal. Zur Analyse werden hierzu eine Vielzahl von aufeinanderfolgenden Sprachabtastwerten in einem Zeitrahmen, beispielsweise mit der Länge von 20 ms zusammengefaßt. Aus jedem dieser Analyseschritte werden das Ergebnis der Analyse beschreibende Parameter gewonnen und als Binärdaten (Codewörter) codiert. Die Codewörter der einzelnen Analyseschritte werden in einem Code-Multiplexer zu einem einzigen Gesamtcodewort zusammengefaßt.

In einem ersten Analyseschritt werden die spektralen resonanzartigen Eigenschaften eines Sprachlautes analysiert und codiert. Diese codierten Parameter steuern sodann ein Filter, das dem Sprachsignal diese spektralen Informationen entzieht. Da dieses Verfahren auf der Vorhersage (Prädiktion) eines aktuellen Abtastwertes von einer Kombination der unmittelbar vorangegangenen Abtastwerte beruht, spricht man bei diesem Verfahren von einer Kurzzeit-Prädiktion (STP - Short Term Prediction).

Durch diese Filterung entsteht ein erstes Restsignal, das im folgenden als STP-Restsignal bezeichnet wird. Das STP-Restsignal enthält noch das Linenspektrum, welches durch Schwingen der Stimmbänder entstanden ist. Das STP-Restsignal läßt sich durch die Periodenlänge und die Ähnlichkeit aufeinanderfolgender Perioden beschreiben bzw. codieren. Da in diesem Schritt aktuelle Abtastwerte aus

PHILIPS PATENTVERftALTUNG ■ GMSH PHD 90 105 GM

Neue Beschreibungsseite 3

relativ weit zurückliegenden Abtastwerten geschätzt werden, spricht man von Langzeit-Prädiktion (LTP - Long Term Prediction). In einem weiteren Filter werden aus dem STP-Restsignal die bei der LTP-Analyse berücksichtigten Signalanteile herausgezogen.

Das nach Filterung des STP-Restsignals verbleibende zweite Restsignal wird im folgenden als LTP-Restsignal bezeichnet. Das LTP-Restsignal hat nunmehr rauschartigen Charakter und enthält nur noch wenig Information, so daß es sowohl zeitlich, als auch von der Auflösung grob quantisiert und codiert werden kann. Eine bekannte Möglichkeit zur Analyse und Codierung des LTP-Restsignals ist die Darstellung des LTP-Restsignals als regelmäßige PuIsfolge. Ein solches Analyse- und Codierungsverfahren wird dementsprechend als reguläre Puls-Anregung (RPE-Regular Pulse Excitation) bezeichnet.

Zur Decodierung, das heißt zur Synthetisierung eines Sprachsignals aus den auf vorstehende Weise erzeugten codierten Daten, wird das RPE-codierte Restsignal zunächst über ein LTP-Synthesefilter gegeben, das dem Signal wieder eine Periodizität aufprägt. Anschließend wird das Signal mit einem STP-Filter wieder spektral gefärbt und liegt danach als Sprachsignal vor.

Mit einer solchen Restsignal-Sprachcodierung läßt sich die zur Speicherung benötigte Datenmenge auf ca. 8,4 Kbit/s reduzieren. Hierdurch können in einem Speicher von 1 MB Speicherkapazität ca. 2 Minuten Sprachsignale gespeichert werden.

Mit besonderen Ausgestaltungen kann diese geringe Datenmenge noch weiter reduziert werden. 35

PHILIPS PATENTVERWALTUNG GMEtI ^ :; i PHD 90 105 GM
G 90 06 717.7 14.09.1990

Neue Beschreibungsseite 4

So ist es vorteilhaft, daß der Sprachcodierer für das
Gesamtcodewort ein Kennzeichen (STP-Parameterwiederholungskennzeichen) bildet, das anzeigt, daß das Gesamtcodewort ein STP-Codewort enthält oder nicht enthält, wobei der Inhalt des Kennzeichens in Abhängigkeit eines

Vergleichs zwischen Sprachabtastwerten eines ersten Zeitrahmens und Sprachabtastwerten eines zweiten bereits codierten Zeitrahmens gebildet wird.

Bei einem Restsignal-Sprachcodierer werden beispielsweise alle 20 ms neue Parameter für die Kurzzeit-Prädiktion
(STP-Parameter) berechnet und codiert. Bei einigen Lauten, wie etwa langen Vokalen, ändern sich jedoch die
spektralen Eigenschaften innerhalb von 20 ms nur so ge-

ring, daß als STP-Prädiktionswert die bereits in vorangegangenen Zeitrahmen codierten Parameter der STP verwendet werden können. Dies wird durch das Setzen des STP-Parameterwiederholungszeichens im Gesamtcodewort angezeigt. Bei gesetztem STP-Parameterwiederholungskennzeichen werden

beim Decodierungsvorgang im Decodierer die STP-Codierungsdaten des vorangegangenen Zeitrahmens verwendet.

Es hat sich gezeigt, daß in durchschnittlich der Hälfte
der Fälle eine STP-Parameterwiederholung möglich ist, ohne daß hierbei hörbare Unterschiede auftreten. Bei einem
Sprachcodierer/-decodierer (Sprachcodec) nach Anspruch 1, bei dem zur Codierung eines Zeitrahmens von 260 Datenbits jeweils 36 Datenbits für die STP-Parameter vorgesehen
sind, ergibt sich hierdurch im Durchschnitt eine Redu-

zierung um 18 Datenbits pro Zeitrahmen.

Als Vergleichsmaß eignet sich in besonderem Maße die Summe der quadratischen Distanzen der inversen Fourier-Transformation des logarithmierten Leistungsdichtspektrums (Cepstrum) der beiden zu vergleichenden Zeitrahmen. Das Cepstrum eines Zeitrahmens kann jedoch in einfa-

PHILIPS PATENTVERWALTUNG (oMSfi ' : PHD 90 105 GM G 90 06 717.7 14.09.1990

Neue Beschreibunqsseite 5

cherer Weise auch aus den bei der STP-Analyse anfallenden Parametern berechnet werden. Zur Berechnung des Vergleichsmaßes brauchen beispielsweise nur die ersten acht Cepstrumkoeffizienten verwendet werden. Zum Vergleich der beiden Zeitrahmen eignen sich die Cepstra der beiden Zeitrahmen besonders gut, weil sie über die quadratischen Distanzen direkt verglichen werden können, was mit anderen Parametern aus der STP nicht möglich ist.

Bei gesetztem STP-Parameterwiederholungskennzeichen muß dies bei der Decodierung, d.h. bei der Sprachsynthese, entsprechend berücksichtigt werden. Hierzu ist im Wiedergabeteil (Sprachsynthetisierer) des Anrufbeantworters ein Speicher vorzusehen, dessen Inhalt als STP-Codewort zur Sprachsynthese verwendet wird. Bei jedem neuen STP-Codewort, d.h. wenn das STP-Parameterwiederholungskennzeichen nicht gesetzt ist, wird der Inhalt des Speichers durch das neue STP-Codewort ersetzt. Ist jedoch das STP-Parameterwiederholunqskennzeichen gesetzt, so ist im neuesten Gesamtcodewort kein STP-Codewort enthalten und der alte Speicherinhalt wird beibehalten. Auf diese Weise enthält der Speicher immer das zuletzt geltende STP-Codewort, ohne daß in jedem Gesamtcodewort ein STP-Codewort enthalten sein muß.

Eine weitere Möglichkeit zur Reduzierung der Datenmenge eröffnet die Erfindung dadurch, daß bei einem Sprachcodierer nach Anspruch 1 im Gesamtcodewort ein Kennzeichen (LTP-Unterdrückungskennzeichen) vorgesehen ist, welches anzeigt, daß das Gesamtcodewort ein LTP-Codewort enthält bzw. nicht enthält, wobei der Inhalt des Kennzeichens in Abhängigkeit eines Vergleichs der Signale vor und nach der LTP-Analyse gebildet wird.

Bei der Sprachsynthese im Sprachsynthetisierer wird bei nicht gesetztem LTP-Unterdrückungskennzeichen das LTP-Codewort aus dem Gesamt-

PHD 9Ö-1Ö5 GM^

codewert extrahiert und in üblicher Weise zur Sprachsynthese verwendet. Bei gesetztem LTP-Unterdrückungskennzeichen hingegen ist im Gesamtcodewert kein LTP-Codewort enthalten. Zur Sprachsynthese wird nun das LTP-Synthesefilter überbrückt, oder, was eine äquivalente Möglichkeit darstellt, die Parameter des LTP-Synthesefilters so eingestellt, daß das durch das LTP-Filter durchgehende Signal nicht verändert wird.

Das LTP-Unterdrückungskennzeichen wird immer dann gesetzt, wenn die LTP keinerlei Periodizität erkennen kann, wie es vor allem am Beginn der Vokale und bei Zischlauten vorkommt. Es hat sich gezeigt, daß der Wegfall der LTP-Parameter in diesen Fällen keine hörbaren Verluste im wiedergegebenen synthetisierten Sprachsignal zur Folge hat. Bei einem Sprachcodec nach Anspruch 1, bei dem beispielsweise pro Zeitrahmen vier LTP-Parametersätze zu je neun Bit erzeugt werden, können so je nach Inhalt des Sprachsignals neun, achtzehn, siebenundzwanzig oder auch sechsunddreißig Bit eingespart werden.

Zur Entscheidung, ob die LTP-Parameter weggelassen werden können, werden die Energieinhalte des LTP-Restsignals und des STP-Restsignals zueinander ins Verhältnis gesetzt und mit einem Schwellwert verglichen. Bei Verhältniszahlen, die größer als dieser Schwellwert sind, wird das LTP-Unterdrückungskennzeichen gesetzt. Als geeigneter Schwellwert hat sich beispielsweise die Zahl 0,8 erwiesen.

Eine weitere Möglichkeit zur Reduzierung der Datenrate erreicht man mit der Erfindung dadurch, daß bei einer erkannten Pause ein Gesamtcodewort aus Codewörtern, die die Länge (T), den Energieinhalt (N1) des Rauschens in der Pause und die spektralen Eigenschaften (STP-Codewort) dieses Rauschens beschreiben, gebildet wird.

PfIDSi)-IOS GM

Etwa 20% der Sprache bestehen aus Pausen. Diese treten überall zwischen den Sätzen, den Wörtern und sogar innerhalb der Wörter auf. Bei erkannten Pausen werden daher nur die wenigen Parameter übertragen, die zur Beschreibung einer Pause notwendig sind. Hierdurch läßt sich die durchschnittliche Datenrate reduzieren.

Zur Beschreibung einer Pause eignet sich insbesondere die Länge einer Pause, so daß für Pausen, die sich über mehrere Zeitrahmen erstrecken, nur zu Beginn der Pause eine Codierung erforderlich ist.

In einer Pause herrscht jedoch entweder Stille oder man hört ein Hintergrundrauschen. Die Stille läßt sich aufgrund der geringen Leistung, das Hintergrundrauschen aufgrund seiner konstanten spektralen Eigenschaften mit geeigneten Algorithmen erkennen. Das Rauschen in einer Pause bietet zwar dem Empfänger der Sprachausgabe des Decodierers keine weiteren Informationen, es verhindert jedoch, daß die Empfangsperson irritiert wird, wenn bei einer Sprachpause völlige Stille herrscht, während beim Empfang von Sprachdaten meistens ein Hintergrundrauschen hörbar ist. Auf diese Weise erscheinen der Empfangsperson selbst die Pausen natürlich. Um diesen Effekt der Natürlichkeit zu erzielen ist es jedoch völlig ausreichend, nur annähernd die Eigenschaften des Rauschens auf der Coderseite auf der Decoderseite nachzuahmen.

Da Stille oder Rauschen nur wenig Informationen enthält, läßt es sich mit sehr geringen Bitraten codieren. Das Gesamtcodewort wird daher neben einem Codewort, das die Länge einer Pause angibt, aus einem weiteren Codewort, das den Energieinhalt des Rauschens in einer Pause und einem weiteren Codewort, das die spektralen Eigenschaften des Rauschens in einer Pause beschreibt, zusammenge-

PHILIPS PATENTVERWAITUNC- GMBH ' "; PHD 90 105 GM G 90 06 717.7 14.09.1990

Neue Beschreibunqsseite 8

setzt. Obwohl eine Pause mehrere Zeitrahmen andauern kann, werden zur Beschreibung des Rauschens nur die Daten eines einzigen Zeitrahniens verwendet. Unabhängig von der Länge einer Pause benötigt man zum Codieren der Pause nur wenige Bits.

Zur Sprachsynthese wird bei einem im Gesamtcodewort gesetzten Pausenkennzeichen aus dem Gesamtcodewort ein Codewort extrahiert, das einem Zeitglied zugeführt wird und weitere restliche Codewörter extrahiert, die einem Rauschgenerator zugeführt sind. Das dem Zeitglied zugeführte Codewort beschreibt die Länge der Pause. Während der Pause wird das synthetisierte Sprachsignal ausschließlich aus dem vom Rauschgenerator erzeugten Rauschsignal gebildet. Das Zeitglied läßt das Rauschen entsprechend der codierten Länge der Pause andauern. Nach Ablauf der Pause wird die Vorrichtung zur Sprachdecodierung wieder in üblicher Weise betrieben und das Sprachsignal aus den STP-, LTP- und REP-Codewörtern bzw. Teilen davon zusammengesetzt.

Zum anderen läßt sich die durchschnittliche Bitrate auch dadurch reduzieren, daß im Gesamtcodewort ein Kennzeichen (Stimmloskennzeichen) vorgesehen ist, das anzeigt, daß das Gesamtcodewort entweder nur aus einem STP-Codewort oder auch noch anderen Codewörtern zusammengesetzt ist, wobei der Inhalt des Kennzeichens in Abhängigkeit von einer Stimmhaft/Stimmlos-Entscheidung gebildet wird.

Zur Sprachsynthese wird in Abhängigkeit eines im Gesamtcodewort enthaltenen Kennzeichens keine LTP-Synthese vorgenommen. Anstelle der Erzeugung eines Restsignals wird mittels der Vorrichtung zur Restsignalerzeugung ein Rauschsignal erzeugt. Hierzu werden im Gesamtcodewort enthaltene Codewörter verwendet, die die

PHILIPS PATENTVERWALTUNG GMDH PHD 90 105 GM

Neue Beschreibunqsseite 9

Rauschenergien während einzelner Zeitabschnitte beschreiben. Das schließlich noch im Gesamtcodewort enthaltene STP-Codewort wird einer STP-Synthese unterzogen und färbt das erzeugte Rauschsignal entsprechend der mittels des STP-Codewortes eingestellten spektralen Eigenschaften des STP-Synthesefilters.

Etwa 20% bis 30% der (deutschen) Sprache besteht aus stimmosen Lauten, Zischlauten wie s, f oder sch. Diese Laute lassen sich vorteilhafter Weise einfach als gefärbtes Rauschen beschreiben. Hierzu sind die im STP-Codewort enthaltenen STP-Parameter und Teile der RPE-Parameter eine völlig ausreichende Beschreibung. Bei dem Sprachcodierer nach Anspruch 1 werden auf diese Weise von beispielsweise insgesamt 260 Bits pro Zeitrahmen nur noch 54 Bits benötigt.

Geht man von einer Bitrate von 8,4 kbit/s bei einem Sprachcodierer nach Anspruch 1 aus, ist durch Kombination der vorstehend beschriebenen weiteren Lösungsmöglichkeiten eine durchschnittliche Datenrate von 5 kbit/s erzielbar. Dies entspricht einer Reduzierung der Datenrate um ca. 40%. Mit einer durchschnittlichen Bitrate von 5 kbit/s lassen sich in ein Mbit RAM rund 3,5 Minuten Sprache speichern bzw. in 1,5 Mbit RAM ca. 5 Minuten.

5 Minuten Sprache sind ausreichend um ungefähr 10 Anrufe zu speichern.

Weitere Vorteile der digitalen Speicherung sind, daß mittels einer geeigneten Steuervorrichtung einzelne Anrufe gelöscht oder auf andere Datenträger übertragen werden können. Im Gegensatz zu mechanischen Anrufbeantwortern gibt es auch praktisch keine Verzögerung beim wahlfreien Zugriff auf beliebige Anrufe. 35

PHILIPS PATENTVEKWALTUNG GMEfJ PHD 90 105 GM

Neue Beschreibungsseite 10

Die Erfindung wird nun anhand eines Ausfuhrunqsbeispiels näher beschrieben und erläutert.

Es zeigen:
5

Fig. 1 einen Anrufbeantworter mit einem Restsignal-Sprachcodierer/-decodierer.

Fig. 2 von einem Code-Multiplexer erzeugte Gesamtcodewörter.

In Fig. 1 ist in schematischer Darstellung ein Anrufbeantworter mit einem Sprachcodierer 1, einer Anordnung zum Speichern der codierten Sprachsignale 2 und einem Restsignal-Decodierer zur Wiedergabe der gespeicherten Sprachsignale (Sprachsynthetisierer 3) wiedergegeben. Eine Steuerschaltung 20 steuert die anruferspezifischen Funktionen wie Aufnahme der Sprachsignale eines anrufenden Teilnehmers und Wiedergabe der gespeicherten Sprachsignale.

Über eine Eingangsbuchse 10 ist der Anrufbeantworter mit einem Fernsprechendgerät verbindbar. Hierbei ist es ohne Belang, ob der Anrufbeantworter ein eigenständiges Gerät bildet oder ob er in einem Fernsprechendgerät integriert ist. Die Steuerschaltung 20 ist ebenfalls mit dem Fernsprechendgerät in entsprechender Weise verbunden, um die Betriebszustände des Fernsprechendgerätes zu erfassen und von einem Benutzer, beispielsweise durch Tastendruck, vorgegebene Betriebsarten (Aufnahmebereitschaft, Wiedergabe) zu berücksichtigen. Der Aufbau einer solchen Steuerschaltung 20 ist dem Fachmann geläufig und nicht Teil der Erfindung. Auf die Steuerschaltung 20, soweit sie die Abläufe steuert, die in einem Anrufbeantworter der eigentlichen Aufnahme vorangehen (z.B. bei einem ankommen-

den Ruf wird zunächst ein Ansagetext ausgegeben), wird daher nicht weiter eingegangen.

Während der "Aufnahme" wird das über die Eingangsbuch- · se 10 anliegende Fernsprechsignal von einem Analog-Digital-Umsetzer 11 mit 8 kHz abgetastet. Die auf diese Weise erhaltenen Sprachabtastwerte werden mit 8 Bit pro Sprachabtastwert aufgelöst. Bei dieser sogenannten PCM-Codierung fallen somit pro Sekunde 64 kbit zu speichernde Informationen an. Zur Reduzierung dieser Datenmenge werden die Sprachabtastwerte zunächst in bekannter Weise in einem RPE-Restsignal-Codierer aufbereitet. Der Aufbau eines solchen RPE-Restsignal-Codierers mit einer Vorrichtung (12) zur Analyse und Codierung von sogenannten Short-Term-Prediction-Werten (STP 12), einer Vorrichtung (13) zur Analyse und Codierung von sogenannten Long-Term-Prediction-Werten (LTP) und einer Vorrichtung (14) zur Analyse und Codierung der Regular-Puls-Excitation-Werte (RPE) ist dem Fachmann geläufig und beispielsweise auch aus dem eingangs genannten Aufsatz bekannt. Auf den internen Aufbau dieser Anordnungen wird daher im folgenden nicht näher eingegangen. Im folgenden werden aber zunächst die von diesen Anordnungen erzeugten Codewörter aufgeführt.

Jeweils 160 Sprachabtastwerte werden in einem Zeitrahmen zusammengefaßt. Entsprechend der Abtastrate von 8 kHz ist die Dauer eines Zeitrahmens 20 ms. Bei der STP-Analyse/Codierung werden zur Beschreibung der spektralen Einhüllenden eines jeden Zeitrahmens sogenannte LAR-Koeffizienten (Log. Area Ratios) erzeugt. Im Ausführungsbeispiel sind zur Codierung dieser LAR-Koeffizienten genau 36 Bit vorgesehen.

Bei der Long-Term-Prediction wird der Zeitrahmen in der Mitte unterteilt, so daß auf diese Weise zwei Unterzeit-

PHILIPS PATENTVERWALTUNG= GMEH N i PHD 90 105 GM G 90 06 717.7 14.09.1990

Neue Beschreibunqsseite 12

rahmen, im folgenden als Halbrahmen bezeichnet, mit jeweils 80 Sprachabtastwerten erhalten werden. Für jeden Halbrahmen sind zur Beschreibung der Periodizität jeweils 10 Bit vorgesehen.

Das nach der LTP-Analyse verbleibende LTP-Restsignal wird bei der RPE-Analyse/Codierung in nochmals invertierten Blöcken von jeweils vierzig zusammenhängenden Sprachabtastwerten analysiert. Ein solcher Block wird, da er genau einem Viertel eines vollen Zeitrahmens entspricht, im folgenden als Viertel-Rahmen bezeichnet. Für jeden Unterblock von 40 Sprachabtastwerten sind zur Codierung 28 Bit vorgesehen, so daß zur Codierung eines vollen Zeitrahmens insgesamt 112 Bit benötigt werden. Die ersten sechs Bit eines jeweiligen RPE-Codewortes beschreiben hierbei die maximale Amplitude des LTP-Restsignals.

Die bei der einzelnen Analyse als Ergebnis anfallenden Codewörter sind einem Code-Multiplexer 19 zugeführt, der die einzelnen Codewörter zu einem Gesamtcodewort zusammensetzt. Würden nur diese Codewörter zur Gesamtcodewortbildung herangezogen, so hätte jedes Gesamtcodewort genau die Länge von 168 Bit.

Bei 50 Zeitrahmen pro Sekunde entspricht dies einer Datenrate von 8,4 kbit/s. Diese Datenrate ist etwas geringer als die Datenrate des in dem eingangs erwähnten Aufsatzes beschriebene Sprachcodierers.

Für die im folgenden beschriebene weitere Datenreduzierung sind die Anforderungen dementsprechend hoch, da auch nur jede weitere geringste Verschlechterung der Sprachqualität unbedingt zu vermeiden ist.

Zur weiteren Reduzierung der Datenrate sind im Sprachcodierer 1 eine STP-Vergleichsvorrichtung 15, eine LTP-Ent-

13 PHD".-90-1Gg GM

Scheidungsvorrichtung 16, ein Stimmhaft/Stimmlos-Entscheider 17 und ein Pausendetektor 18 vorgesehen, welche jeweils eigene Steuersignale erzeugen. Diese Steuersignale sind wie die Codewörter der einzelnen Analysatoren/Codierer 12, 13, 14 dem Code-Multiplexer 19 zugeführt, der aus all diesen Informationen für jeden Zeitrahmen ein Gesamtcodewort variabler Länge bildet.

In der STP-Vergleichsvorrichtung 15 wird hierzu aus den bei der STP-Codierung anfallenden Daten das Cepstrum eines jeden Zeitrahmens berechnet. Die Cepstra zweier aufeinanderfolgender Zeitrahmen werden miteinander verglichen, indem die quadratische Distanz der beiden Cepstra berechnet wird. Die jeweils berechnete quadratische Distanz wird mit einem vorgebbaren Schwellwert verglichen. Aus dem Vergleich wird ein STP-Parameterwiederholungssignal erzeugt, welches angibt, ob die quadratische Distanz der beiden Cepstra größer oder kleiner als der vorgebbare Schwellwert ist. Dieses STP-Parameterwiederholungssignal ist dem Code-Multiplexer 19 zugeführt.

Der LTP-Entscheidungsvorrichtung 16 ist sowohl das Ausgangssignal der STP-Analyse (das STP-Restsignal) als auch das Ausgangssignal nach der LTP-Analyse (LTP-Restsignal) zugeführt. In der LTP-Entscheidungsanordnung 16 werden die Energieinhalte dieser beiden Restsignale getrennt für jeden Halbrahmen berechnet. Für jeden Halbrahmen wird der Energieinhalt des LTP-Restsignals ins Verhältnis zum Energieinhalt des STP-Restsignals gesetzt und mit einem vorgebbaren Schwellwert, vorzugsweise dem Wert 0,8, für jeden Unterrahmen getrennt verglichen. Je nachdem, ob der Schwellwert unterschritten oder überschritten ist, wird gegebenenfalls getrennt für jeden Halbrahmen das LTP-Unterdrückungssignal erzeugt, welches ebenfalls dem Code-Multiplexer 19 zugeführt ist.

14 &Rgr;&EEgr;&Pgr; 90-105 GM

Der Aufbau im Stimmhaft/Stimmlos-Entscheider 17 wird eine Entscheidung darüber getroffen, ob die in Sprachabtastwerte eines Zeitrahmens einem stimmhaften oder einem stimmlosen Laut zugeordnet werden müssen. Der Aufbau eines solchen Stimmhaft/Stimmlos-Entscheiders ist dem Fachmann hinlänglich bekannt. Im Ausführungsbeispiel benutzt der Stimmhaft/Stimmlos-Entscheider 17 den Energieinhalt der tiefpaßgefilterten Sprachabtastwerte, die Null-Durchgangsdichte des Sprachsignals, die spektralen Eigenschaften des Sprachsignals beschrieben durch sogenannte Reflexionskoeffizienten (PARCOR-Koeffizienten) und das oben erwähnte Verhältnis von STP-Restsignalenergie zu LTP-Restsignalenergie. Aufgrund von vorher festgelegten Entscheidungskriterien wird eine entsprechende Entscheidung getroffen und gegebenenfalls ein Stimmlos-Signal erzeugt und dem Code-Multiplexer 19 zugeführt.

Zur Erkennung von Pausen wird in dem Pausendetektor 18 das von der STP-Vergleichsvorrichtung erzeugte STP-Parameterwiederholungssignal zugeführt. Im Pausendetektor ist ein Zähler realisiert, der die Anzahl aufeinanderfolgender STP-Parameterwiederholungskennzeichen zählt. Bei jedem gesetzten Kennzeichen werden die bei der Stimmhaft/ Stimmlos-Detektor beschriebenen Parameter gespeichert.

Ist das STP-Parameterwiederholungskennzeichen nicht gesetzt, wird der Zähler auf Null zurückgesetzt und die Parameter im Speicher gelöscht. Zählt der Zähler jedoch mehr als Zwanzig Kennzeichen, so kann das bis dahin vorliegende Signal als Hintergrundgeräusch angenommen werden. Aus den abgespeicherten Parametern wird dann ein Vergleichsmuster gebildet, welches im folgenden mit zukünftigen Parametern verglichen werden kann. Wie bei der Stimmhaft/Stimmlos-Entscheidung kann damit eine Sprache/Hintergrund-Entscheidung oder auch Pausendetektion durchgeführt werden.

15 PHD 90-"!05 --GM

Bei der Anwendung als Anrufbeantworter kann eine solche Hintergrundanpassung anfangs während der Ansage des Anrufbeantworters erfolgen, da der Anrufer zu diesem Zeitpunkt nicht spricht und das Hintergrundgeräusch jedoch hörbar ist.

Bei einer erkannten Pause wird ein Steuersignal erzeugt, welches im folgenden als Pausen-Steuersignal bezeichnet wird. Dieses Pausen-Steuersignal ist ebenfalls dem Code-Multiplexer 19 zugeführt.

Aufgrund der für jeden Zeitrahmen erzeugten verschiedenen Steuersignale bildet der Code-Multiplexer verschieden zusammengesetzte Gesamtcodeworte. Im folgenden wird nun der Aufbau der Gesamtcodeworte für die verschiedenen unterschiedlichen Fallgestaltungen gezeigt.

Fig. 2a zeigt ein Gesamtcodewort, wie es zur vollständigen Übertragung aller Codewörter zusammengesetzt ist. Eine vollständige Übertragung der Codewörter ist notwendig, wenn die Sprachabtastwerte eines Zeitrahmens stimmhaft sind, eine Parameterwiederholung nicht möglich ist und auch die LTP-Analyse relevante Codewörter liefert. Den ersten beiden Bits des Gesamtcodewortes werden hierzu jeweils die Werte Null zugeordnet. Es folgen dann in den nächsten 36 Bit das bei der STP-Analyse gewonnene STP-Codewort, dann jeweils 10 Bit für die LTP-Codeworte LTP1, LTP2 des ersten bzw. zweiten Viertel-Rahmens und dann jeweils 28 Bit für die RPE-Parameter RPE1, RPE2, RPE3, RPE4 des ersten, zweiten, dritten und vierten RPE-Viertel-Rahmens. Ein auf diese Weise zusammengesetztes vollständiges Gesamtcodewort besteht somit aus insgesamt 170 Binärstellen.

16 PHD 90- 105 GM

Bei einem aktiven LTP-Unterdrückungssignal und einem nichtaktiven STP-Parameterwiederholungssignal weist das erste Bit des Gesamtcodewortes den Binärwert Null und das zweite Bit des Gesamtcodewortes den Binärwert Eins auf.

Auf diese beiden Kennzeichenbit folgt das STP-Codewort in seiner gesamten Länge von 36 Bit. Die nächsten beiden Bit dienen zur Kennzeichnung, ob nur eines der beiden LTP-Codewörter oder gar beide LTP-Codewörter unterdrückt werden. Werden beide LTP-Codewörter unterdrückt, so haben diese LTP-Kennzeichen beide den Binärwert Null und es folgen auf sie die vier Codeworte für die RPE-Codierung (siehe Fig. 2b). Wird hingegen nur der erste LTP-Parametersatz unterdrückt, so weist das erste LTP-Kennzeichnungsbit den Binärwert Null und das zweite LTP-Kennzeichnungsbit den Binärwert Eins auf. Auf die beiden Kennzeichnungsbit folgen dann das 10-bit-lange zweite LTP-Codewort LTP2 und auf ihn wiederum die 28-bit-langen RPE-Codewörter (siehe Fig. 2c). Soll hingegen das zweite LTP-Codewort unterdrückt werden, so weisen die beiden LTP-Kennzeichnungsbit die Binärwerte Eins und Null auf. Auf die LTP-Kennzeichnungbit folgen die 10 Bits des ersten LTP-Parametersatzes (siehe Fig. 2d) und dann wiederum die 28-bit-langen RPE-Codewörter.

Sobald das Stimmlos-Steuersignal aktiv ist, werden unabhängig vom LTP-Unterdrückungssignal beide LTP-Codewörter unterdrückt. Zur Kennzeichnung dieses Zustandes werden den beiden LTP-Kennzeichenbits die Binärwerte 1 zugewiesen (siehe Fig. 2e). Auf die beiden gesetzten LTP-Kennzeichenbits folgen für jeden Viertel-Zeitrahmen getrennt vier Codeworte N1, N2, N3, N4, die den Energieinhalt in dem jeweiligen Viertel-Zeitrahmen angeben. Diese Codeworte für den Energieinhalt sind jeweils 6 Bit lang und entsprechen jeweils einem bestimmten Teil eines RPE-Codewortes. Mittels des im Gesamtcodewort enthaltenen STP-Code-

17 PHD SO-!05" GM

Wortes werden die spektralen Eigenschaften des Rauschens beschrieben. Ein auf diese Weise gebildetes Gesamtcodewort weist insgesamt nur noch die Länge von 54 Bit auf.

Die in den Fig. 2f bis 2h gezeigten Gesamtcodeworte werden gebildet, wenn ein stimmhafter Zeitrahmen vorliegt, bei dem eine STP-Parameterwiederholung durchgeführt werden kann. In diesem Fall weist das erste Bit des Gesamtcodewortes den Binärwert Eins und das zweite Bit des Gesamtcodewortes den Binärwert Null auf. Da dadurch das Fehlen eines STP-Codewortes im Gesamtcodewort angezeigt wird, folgen als nächstes bereits schon die Kennzeichnungsbits für eine LTP-Codewortunterdrückung. Können beide LTP-Codewörter unterdrückt werden, so weisen die beiden nächsten Bits jeweils den Binärwert Null auf und es folgen auf diese beiden Bits die vier Codewörter für die RPE-Codierung (siehe Fig. 2f).

Kann hingegen nur das erste LTP-Codewort unterdrückt werden, so weist das dritte Bit den Binärwert Eins und das vierte Bit den Binärwert Null auf. Auf diese Bits folgt dann das zweite LTP-Codewort LTP2 und daran anschließend die vier RPE-Codewörter (siehe Fig. 2g). Bei einer Unterdrückung des ersten LTP-Codewortes weist das dritte Bit den Binärwert Null und das vierte Bit den Binärwert Eins auf. Im Gegensatz zum vorangegangenen Beispiel ist dann anstelle des zweiten LTP-Codewortes LTP2 das erste LTP-Codewort LTP1 an der entsprechenden Stelle im Gesamtcodewort eingefügt (siehe Fig. 2h).

Für den Fall, daß gleichzeitig eine STP-Parameterwiederholung und ein stimmloser Zeitrahmen vorliegt, wird vom Code-Multiplexer 19 ein Gesamtcodewort gebildet, dessen erstes, drittes und viertes Bit den Binärwert Eins und dessen zweites Bit den Binärwert Null aufweist (siehe

18 .: PHß "9&Ogr;-1&THgr;5 ^:GM

Fig. 2i). Auf diese vier Kennzeichnungsbits folgen dann nur noch für jeden der vier Viertel-Zeitrahmen die Energieinhalte N1, N2, N3, N4 dieser Viertel-Zeitrahmen. Insgesamt ergibt sich somit ein Gesamtcodewort von nur 28 Bit Länge.

Sobald das Pausensignal aktiv ist, wird unabhängig von den anderen Steuersignalen ein Gesamtcodewort erzeugt, dessen erste beiden Bits die Binärwerte Eins erhalten (siehe Fig. 2j). In den darauffolgenden 36 Bits werden die STP-Parameter zur Kennzeichnung der spektralen Einhüllenden angehängt. Darauf folgen 6 Bits zur Beschreibung der Energie des Rauschens, wobei hierzu der Energiekoeffizient N1 des ersten REP-Codewortes verwendet wird.

In den letzten 8 Bits des auf diese Weise gebildeten Gesamtcodewortes wird die Dauer T der Pause als Anzahl der Zeitrahmen angegeben. Mit 8 Bit sind auf diese Weise beim Ausführungsbeispiel Pausen bis maximal 5,12 Sekunden codierbar. Dies ist völlig ausreichend, bei längeren Pausen kann jedoch ein zweites oder drittes Gesamtcodewort zur Beschreibung der Pause angehängt werden. Eine bis zu 5,12 Sekunden lange Pause kann auf diese Weise mit nur 52 Bits codiert werden.

Die vom Code-Multiplexer 19 gebildeten Gesamtcodewörter werden aufeinanderfolgend in einem Schreib-/Lese-Speicher 21 gespeichert. Das Einlesen bzw. Auslesen aus diesem Speicher wird ebenfalls von der Steuerungseinrichtung 20 gesteuert. Zur Berücksichtigung der variablen Längen der Gesamtcodeworte ist die Steuereinrichtung 20 auch noch mit dem Gesamtcodemultiplexer 19 über entsprechende Signalisierungs- und Steuerleitungen verbunden.

Zur Synthese eines Sprachsignals aus den gespeicherten Gesamtcodeworten werden diese einem Demultiplexer 31 zu-

PHILIPS PATENTVEFWA^TUW; GM3ET ^;^: PHD 90 105 GM G 90 06 717.7 14.09.1990

Neue Bescheibungsseite 19

geführt. In Abhängigkeit der gesetzten Kennzeichen extrahiert der Demultiplexer 31, soweit die entsprechenden Codeworte im Gesamtcodewort enthalten sind, die vier RPE-Codeworte RPE1, RPE2, RPE3, RPE4, bis zu zwei LTP-Codeworten LTP1, LTP2 und ein STP-Codewort STP sowie diverse Steuersignale. Die RPE-Codeworte sind einer Vorrichtung 32 zur RPE-Synthese zugeführt. Die Vorrichtung zur RPE-Synthese 32 erzeugt aus den Codeworten in jedem Viertel-Rahmen ein Anregungssignal bzw. wenn anstelle der RPE-Codeworte in dem Gesamtcodewort entsprechend der gesetzten Kennzeichen nur Codeworte N1, N2, N3, N4 für die Rauschleistung enthalten sind, ein dieser Rauschleistung entsprechendes Rauschsignal.

Das auf diese Weise gewonnene Anregungssignal ist einer Vorrichtung 33 zur LTP-Synthese zugeführt. Bei der LTP-Synthese wird mittels der gegebenenfalls im Gesamtcodewort enthaltenen LTP-Codeworte, die dieser Vorrichtung zugeführt sind, dem RPE-Anregungssignal noch entsprechende Periodizität hinzugefügt. Mittels eines symbolisch als Umschalter dargestellten Umschalters 34 kann die Vorrichtung zur LTP-Synthese 33 überbrückt werden, so daß wahlweise das Ausgangssignal der Vorrichtung zur LTP-Synthese oder das ursprüngliche RPE-Anregungssignal einer Vorrichtung zur STP-Synthese 35 zugeführt werden kann. Die Umschaltung zwischen diesen beiden Signalen erfolgt in Abhängigkeit von den im Gesamtcodewort enthaltenen Stimmlos-Kennzeichen.

Jedesmal, wenn im Gesamtcodewort ein STP-Codewort enthalten ist, wird dieses in einem Zwischenspeicher 36 abgelegt. Das Einschreiben dieses Codewortes erfolgt aus einem aus dem im Gesamtcodewort enthaltenen STP-Parameterwiederholunqskennzeichen gewonnenen Signal. Dieses Signal ist ebenfalls dem Zwischenspeicher 36 zugeführt und

20 PHD 90-105 GM

steuert den Zwischenspeicher 36 so, daß im Zwischenspeicher 36 das jeweils zuletzt vom Demultiplexer 31 extrahierte STP-Codewort solange zwischengespeichert wird, bis ein neues STP-Codewort aus dem jeweiligen Gesamtcodewort extrahiert werden kann. Das im Zwischenspeicher 36 zwischengespeicherte STP-Codewort wird jedoch in jedem Zeitrahmen dem STP-Synthesefilter 35 zugeführt. Auf diese Weise verwendet das STP-Synthesefilter 35, solange kein neues STP-Codewort in den Zwischenspeicher eingeschrieben wird, in aufeinanderfolgenden Zeitrahmen jeweils die gleichen Filterkoeffizienten. Das Ausgangssignal des STP-Synthesefilters 35 ist einem Digital-Analog-Umsetzer 37 zugeführt. Das bei dieser Umsetzung erhaltene Analogsignal wird gegebenenfalls nach Zwischenverstärkung über einen Lautsprecher 38 wiedergegeben.

Claims

PHILIPS PATENTVERWALTUNG GMBH PHD 90 105 GM Neue Ansprüche

1. Anrufbeantworter zur digitalen Aufzeichnung und Wiedergabe von Sprachsignalen mit einem Sprachcodierer (1) und einem Sprachsynthetisierer (3), dadurch gekennzeichnet,

daß der Sprachcodierer (1) zur Aufzeichnung digitalisierte Sprachabtastwerte des Sprachsignals jeweils in einem Zeitrahmen zusammenfaßt und für jeden Zeitrahmen ein digitales Gesamtcodewort bildet, das ein Codewort für die spektrale Einhüllende (STP-Codewort), ein Codewort für die Periodizität (LTP-Codewort) und ein Codewort für ein Restsignal (RPE-Codewort) enthalten kann, daß die vom Sprachcodierer gebildeten Gesamtcodeworte in einem Speicher (21) gespeichert werden und daß die gespeicherten Worte zur Wiedergabe dem Sprachsynthetisierer (3) zugeführt werden.

2. Anrufbeantworter nach Anspruch A, dadurch gekennzeichnet,

daß der Sprachcodierer (1) für das Gesamtcodewort ein Kennzeichen (STP-Parameterwiederholungskennzeichen) bildet, das anzeigt, daß das Gesamtcodewort ein STP-Codewort enthält oder nicht enthält, wobei der Inhalt des Kennzeichens in Abhängigkeit eines Vergleichs zwischen Sprachabtastwertep eines ersten Zeitrahmens und Sprachabtastwerten eines zweiten bereits codierten Zeitrahmens gebildet wird.

-2-30

PHILIPS PATENTVERWALTUNG GMBH PHD 90 105 GM

Neue Ansprüche

-2-

3. Anrufbeantworter nach Anspruch 1 oder 2, dadurch gekennzeichnet,

daß der Sprachcodierer (1) zum Vergleich der Sprachabtastwerte die Summe der quadratischen Distanzen der in- > versen Fourier-Transformation des logarithmierten Leistungsdichtespektrums (Cepstrum) der zu vergleichenden Zeitrahmen bildet.

4. Anrufbeantworter nach Anspruch 2 oder 3, dadurch gekennzeichnet,

daß der Sprachsynthetisierer (3) zur Wiedergabe der in dem Speicher (21) codiert gespeicherten Sprachsignale das STP-Codewort zwischengespeichert wird, und in Abhängigkeit vom Inhalt eines im Gesamtcodewort enthaltenen Kennzeichens (STP-Parameterwiederholungskennzeichen) das zwischengespeicherte STP-Codewort durch ein im Gesamtcodewort vorhandenes STP-Codewort erneuert wird.

5. Anrufbeantworter nach Anspruch 1 dadurch gekennzeichnet,

daß der Sprachcodierer (1) für das Gesamtcodewort ein Kennzeichen (LTP-Unterdrückungskennzeichen) bildet, welches anzeigt, daß das Gesamtcodewort ein LTP-Codewort enthält oder nicht enthält, wobei der Inhalt des Kennzeichens in Abhängigkeit eines Vergleichs der Signale vor und nach der LTP-Analyse gebildet wird.

6. Anrufbeantworter nach Anspruch 4, dadurch gekennzeichnet,

daß der Sprachcodierer (1) zum Vergleich der Signale das Verhältnis der Signalenergien nach und vor der LTP-Analyse mit einem vorgebbaren Schwellwert vergleicht.

-3-

PHILIPS PATENTVERWALTUNG GMBH PHD 90 105 GM

Neue Ansprüche

-3-

7. Anrufbeantworter nach Anspruch 1, dadurch gekennzeichnet,

daß der Sprachsynthetisierer (3) zur Wiedergabe der in dem Speicher (21) codiert gespeicherten Sprachsignale in &igr; Abhängigkeit von einem im Gesamtcodewort enthaltenen

Kennzeichen (LTP-Unterdrückungskennzeichen) eine LTP-Synthese aus dem im Gesamtcodewort enthaltenen LTP-Codewort durchgeführt bzw. eine LTP-Synthese nicht durchgeführt wird.
10

8. Anrufbeantworter nach Anspruch 1, dadurch gekennzeichnet,

daß der Sprachcodierer (1) für das Gesamtcodewort ein Kennzeichen (Stimmloskennzeichen) bildet, das anzeigt, daß das Gesamtcodewort entweder nur aus einem STP-Codewort oder auch noch anderen Codewörtern zusammengesetzt ist, wobei der Inhalt des Kennzeichens in Abhängigkeit von einer Stimmhaft/Stimmlos-Entscheidung gebildet wird.

9. Anrufbeantworter nach Anspruch 1, dadurch gekennzeichnet,

daß in dem Sprachsynthetisierer (3) zur Wiedergabe der in dem Speicher (21) codiert gespeicherten Sprachsignale in Abhängigkeit von einem im Gesamtcodewort enthaltenen Kennzeichen (Stimmloskennzeichen) kein Sprachsignal aus der Periodizität synthetisiert und das Restsignal auf die Erzeugung eines Rauschsignals reduziert wird.

10. Anrufbeantworter nach Anspruch 1, dadurch gekennzeichnet,

daß in dem Sprachcodierer (1) bei einer erkannten Pause ein Gesamtcodewort aus Codewörtern, die die Länge (T), den Energieinhalt (N1) des Rauschens in der Pause und die spektralen Eigenschaften (STP-Codewort) dieses Rauschens beschreiben, gebildet wird.

PHILIPS PATENTVERWALTUNG GMBH PHD 90 105 GM

Neue Ansprüche

-4-

11. Anrufbeantworter nach Anspruch 1, dadurch gekennzeichnet, daß in dem Sprachsynthetisierer (3) zur Wiedergabe der in dem Speicher (21) codiert gespeicherten Sprachsignale in &igr; Abhängigkeit eines im Gesamtcodewort gesetzten Kennzeichens (Pausenkennzeichen) ein Zeitglied mit einem im Gesamtcodewort enthaltenen ersten Codewort (T) initialisiert wird und für die dadurch vorgegebene Zeitdauer das Sprachsignal ausschließlich aus den restlichen Codewörtern (N1, STP-Codewort) des Gesamtcodewortes gebildet werden.