DE9006717U1 - Anrufbeantworter für die digitale Aufzeichnung und Wiedergabe von Sprachsignalen - Google Patents
Anrufbeantworter für die digitale Aufzeichnung und Wiedergabe von SprachsignalenInfo
- Publication number
- DE9006717U1 DE9006717U1 DE9006717U DE9006717U DE9006717U1 DE 9006717 U1 DE9006717 U1 DE 9006717U1 DE 9006717 U DE9006717 U DE 9006717U DE 9006717 U DE9006717 U DE 9006717U DE 9006717 U1 DE9006717 U1 DE 9006717U1
- Authority
- DE
- Germany
- Prior art keywords
- code word
- speech
- stp
- ltp
- identifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000015572 biosynthetic process Effects 0.000 claims description 25
- 238000003786 synthesis reaction Methods 0.000 claims description 25
- 238000004458 analytical method Methods 0.000 claims description 21
- 230000003595 spectral effect Effects 0.000 claims description 15
- 230000001629 suppression Effects 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 claims description 3
- 230000005284 excitation Effects 0.000 description 7
- 101710196810 Non-specific lipid-transfer protein 2 Proteins 0.000 description 5
- 238000000034 method Methods 0.000 description 5
- 101710196809 Non-specific lipid-transfer protein 1 Proteins 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 101100517196 Arabidopsis thaliana NRPE1 gene Proteins 0.000 description 2
- 101100190825 Bos taurus PMEL gene Proteins 0.000 description 2
- 101100528977 Cupriavidus necator (strain ATCC 17699 / DSM 428 / KCTC 22496 / NCIMB 10442 / H16 / Stanier 337) rpe2 gene Proteins 0.000 description 2
- 101100073341 Oryza sativa subsp. japonica KAO gene Proteins 0.000 description 2
- 101100091557 Oryza sativa subsp. japonica RPE gene Proteins 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 101150005492 rpe1 gene Proteins 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005034 decoration Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000001208 nuclear magnetic resonance pulse sequence Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/64—Automatic arrangements for answering calls; Automatic arrangements for recording messages for absent subscribers; Arrangements for recording conversations
- H04M1/65—Recording arrangements for recording a message from the calling party
- H04M1/6505—Recording arrangements for recording a message from the calling party storing speech in digital form
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/64—Automatic arrangements for answering calls; Automatic arrangements for recording messages for absent subscribers; Arrangements for recording conversations
- H04M1/65—Recording arrangements for recording a message from the calling party
- H04M1/6505—Recording arrangements for recording a message from the calling party storing speech in digital form
- H04M1/651—Recording arrangements for recording a message from the calling party storing speech in digital form with speech synthesis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
PHILIPS PATENTVER^ALTUNG GMBH % },\ ; PHD 90 105 GM
G 90 06 717.7 '"' *.",■-* 14.09.1990
Neue Beschreibunqsseite 1
Anrufbeantworter für die digitale Aufzeichnung und Wiedergabe
von Sprachsignalen
Die Erfindung betrifft einen Anrufbeantworter zur digitalen
Aufzeichnung und Wiedergabe von Sprachsignalen mit einem Sprachcodierer und einem Sprachsynthetisierer.
Anrufbeantworter mit digitaler Sprachaufzeichnung- und
Wiedergabe weisen den Vorteil auf, daß sie ohne bewegte mechanische Teile hergestellt werden können. Aus der
DE-PS 32 32 398 ist beispielsweise ein Anrufbeantworter bekannt, bei dem ein Meldetext und/oder eine von einem
Anrufer hinterlassene Nachricht in Deltamodulation gespeichert werden kann.
Aufgabe der vorliegenden Erfindung ist es, bei einem Anrufbeantworter
der eingangs genannten Art bei akustisch kaum wahrnehmbarer Veränderung der Sprachqualität die zu
speichernde Datenmenge zu reduzieren.
;V ,./
Diese Aufgabe wird dadurch gelöst, daß der Sprachcodierer zur Aufzeichnung digitalisierte Sprachabtastwerte des
analogen Sprachsignals jeweils in einem Zeitrahmen zusammenfaßt und für jeden Zeitrahmen ein digitales Gesamtcodewort
bildet, das ein Codewort für die spektrale Einhüllende (STP-Codewort), ein Codewort für die Periodizität
(LTP-Codewort) und ein Codewort für ein Restsignals (RPE-Codewort) enthalten kann, und daß die vom Sprachcodierer
gebildeten Gesamtcodeworte in einem Speicher gespeichert werden und daß die gespeicherten Worte zur Wiedergabe
dem Sprachsynthetisierer zugeführt werden.
PHD 9C-105 GM
Das Prinzip einer solchen an sich bekannten (z.B. P. Vary, K. Hellwig, R. Hofmann, R.J. Sluyter, C. Galand,
M. Rosso: Speech Codec for the European Mobile Radio System. Proc. ICASSP, New York 1988, Seiten 227 bis 230)
Restsignal-Sprachcodierers besteht darin, sich langsam ändernde Größen der Sprache getrennt zu analysieren und
zu codieren. Solche Größen sind etwa die spektrale Einhüllende, die Periodizität und ein nach diesen Analysen
durch inverse Filterung verbleibendes Restsignal. Zur Analyse werden hierzu eine Vielzahl von aufeinanderfolgenden
Sprachabtastwerten in einem Zeitrahmen, beispielsweise mit der Länge von 20 ms zusammengefaßt. Aus jedem
dieser Analyseschritte werden das Ergebnis der Analyse beschreibende Parameter gewonnen und als Binärdaten
(Codewörter) codiert. Die Codewörter der einzelnen Analyseschritte werden in einem Code-Multiplexer zu einem
einzigen Gesamtcodewort zusammengefaßt.
In einem ersten Analyseschritt werden die spektralen resonanzartigen Eigenschaften eines Sprachlautes analysiert
und codiert. Diese codierten Parameter steuern sodann ein Filter, das dem Sprachsignal diese spektralen
Informationen entzieht. Da dieses Verfahren auf der Vorhersage (Prädiktion) eines aktuellen Abtastwertes von
einer Kombination der unmittelbar vorangegangenen Abtastwerte beruht, spricht man bei diesem Verfahren von
einer Kurzzeit-Prädiktion (STP - Short Term Prediction).
Durch diese Filterung entsteht ein erstes Restsignal, das im folgenden als STP-Restsignal bezeichnet wird. Das
STP-Restsignal enthält noch das Linenspektrum, welches durch Schwingen der Stimmbänder entstanden ist. Das STP-Restsignal
läßt sich durch die Periodenlänge und die Ähnlichkeit aufeinanderfolgender Perioden beschreiben bzw.
codieren. Da in diesem Schritt aktuelle Abtastwerte aus
PHILIPS PATENTVERftALTUNG ■ GMSH PHD 90 105 GM
Neue Beschreibungsseite 3
relativ weit zurückliegenden Abtastwerten geschätzt werden, spricht man von Langzeit-Prädiktion (LTP - Long Term
Prediction). In einem weiteren Filter werden aus dem STP-Restsignal die bei der LTP-Analyse berücksichtigten
Signalanteile herausgezogen.
Das nach Filterung des STP-Restsignals verbleibende zweite
Restsignal wird im folgenden als LTP-Restsignal bezeichnet. Das LTP-Restsignal hat nunmehr rauschartigen
Charakter und enthält nur noch wenig Information, so daß es sowohl zeitlich, als auch von der Auflösung grob quantisiert
und codiert werden kann. Eine bekannte Möglichkeit zur Analyse und Codierung des LTP-Restsignals ist
die Darstellung des LTP-Restsignals als regelmäßige PuIsfolge. Ein solches Analyse- und Codierungsverfahren wird
dementsprechend als reguläre Puls-Anregung (RPE-Regular Pulse Excitation) bezeichnet.
Zur Decodierung, das heißt zur Synthetisierung eines Sprachsignals aus den auf vorstehende Weise erzeugten
codierten Daten, wird das RPE-codierte Restsignal zunächst über ein LTP-Synthesefilter gegeben, das dem Signal
wieder eine Periodizität aufprägt. Anschließend wird das Signal mit einem STP-Filter wieder spektral gefärbt
und liegt danach als Sprachsignal vor.
Mit einer solchen Restsignal-Sprachcodierung läßt sich die zur Speicherung benötigte Datenmenge auf ca.
8,4 Kbit/s reduzieren. Hierdurch können in einem Speicher von 1 MB Speicherkapazität ca. 2 Minuten Sprachsignale
gespeichert werden.
Mit besonderen Ausgestaltungen kann diese geringe Datenmenge noch weiter reduziert werden.
35
PHILIPS PATENTVERWALTUNG GMEtI ^ :; i PHD 90 105 GM
G 90 06 717.7 14.09.1990
G 90 06 717.7 14.09.1990
So ist es vorteilhaft, daß der Sprachcodierer für das
Gesamtcodewort ein Kennzeichen (STP-Parameterwiederholungskennzeichen) bildet, das anzeigt, daß das Gesamtcodewort ein STP-Codewort enthält oder nicht enthält, wobei der Inhalt des Kennzeichens in Abhängigkeit eines
Gesamtcodewort ein Kennzeichen (STP-Parameterwiederholungskennzeichen) bildet, das anzeigt, daß das Gesamtcodewort ein STP-Codewort enthält oder nicht enthält, wobei der Inhalt des Kennzeichens in Abhängigkeit eines
Vergleichs zwischen Sprachabtastwerten eines ersten Zeitrahmens und Sprachabtastwerten eines zweiten bereits codierten
Zeitrahmens gebildet wird.
Bei einem Restsignal-Sprachcodierer werden beispielsweise alle 20 ms neue Parameter für die Kurzzeit-Prädiktion
(STP-Parameter) berechnet und codiert. Bei einigen Lauten, wie etwa langen Vokalen, ändern sich jedoch die
spektralen Eigenschaften innerhalb von 20 ms nur so ge-
(STP-Parameter) berechnet und codiert. Bei einigen Lauten, wie etwa langen Vokalen, ändern sich jedoch die
spektralen Eigenschaften innerhalb von 20 ms nur so ge-
ring, daß als STP-Prädiktionswert die bereits in vorangegangenen Zeitrahmen codierten Parameter der STP verwendet
werden können. Dies wird durch das Setzen des STP-Parameterwiederholungszeichens
im Gesamtcodewort angezeigt. Bei gesetztem STP-Parameterwiederholungskennzeichen werden
beim Decodierungsvorgang im Decodierer die STP-Codierungsdaten des vorangegangenen Zeitrahmens verwendet.
Es hat sich gezeigt, daß in durchschnittlich der Hälfte
der Fälle eine STP-Parameterwiederholung möglich ist, ohne daß hierbei hörbare Unterschiede auftreten. Bei einem
Sprachcodierer/-decodierer (Sprachcodec) nach Anspruch 1, bei dem zur Codierung eines Zeitrahmens von 260 Datenbits jeweils 36 Datenbits für die STP-Parameter vorgesehen
sind, ergibt sich hierdurch im Durchschnitt eine Redu-
der Fälle eine STP-Parameterwiederholung möglich ist, ohne daß hierbei hörbare Unterschiede auftreten. Bei einem
Sprachcodierer/-decodierer (Sprachcodec) nach Anspruch 1, bei dem zur Codierung eines Zeitrahmens von 260 Datenbits jeweils 36 Datenbits für die STP-Parameter vorgesehen
sind, ergibt sich hierdurch im Durchschnitt eine Redu-
zierung um 18 Datenbits pro Zeitrahmen.
Als Vergleichsmaß eignet sich in besonderem Maße die Summe der quadratischen Distanzen der inversen Fourier-Transformation
des logarithmierten Leistungsdichtspektrums (Cepstrum) der beiden zu vergleichenden Zeitrahmen.
Das Cepstrum eines Zeitrahmens kann jedoch in einfa-
PHILIPS PATENTVERWALTUNG (oMSfi ' : PHD 90 105 GM
G 90 06 717.7 14.09.1990
Neue Beschreibunqsseite 5
cherer Weise auch aus den bei der STP-Analyse anfallenden
Parametern berechnet werden. Zur Berechnung des Vergleichsmaßes brauchen beispielsweise nur die ersten acht
Cepstrumkoeffizienten verwendet werden. Zum Vergleich der
beiden Zeitrahmen eignen sich die Cepstra der beiden Zeitrahmen besonders gut, weil sie über die quadratischen
Distanzen direkt verglichen werden können, was mit anderen Parametern aus der STP nicht möglich ist.
Bei gesetztem STP-Parameterwiederholungskennzeichen muß
dies bei der Decodierung, d.h. bei der Sprachsynthese, entsprechend berücksichtigt werden. Hierzu ist im Wiedergabeteil
(Sprachsynthetisierer) des Anrufbeantworters ein
Speicher vorzusehen, dessen Inhalt als STP-Codewort zur Sprachsynthese verwendet wird. Bei jedem neuen STP-Codewort,
d.h. wenn das STP-Parameterwiederholungskennzeichen nicht gesetzt ist, wird der Inhalt des Speichers durch
das neue STP-Codewort ersetzt. Ist jedoch das STP-Parameterwiederholunqskennzeichen
gesetzt, so ist im neuesten Gesamtcodewort kein STP-Codewort enthalten und der alte
Speicherinhalt wird beibehalten. Auf diese Weise enthält der Speicher immer das zuletzt geltende STP-Codewort,
ohne daß in jedem Gesamtcodewort ein STP-Codewort enthalten sein muß.
Eine weitere Möglichkeit zur Reduzierung der Datenmenge eröffnet die Erfindung dadurch, daß bei einem Sprachcodierer
nach Anspruch 1 im Gesamtcodewort ein Kennzeichen (LTP-Unterdrückungskennzeichen) vorgesehen ist, welches
anzeigt, daß das Gesamtcodewort ein LTP-Codewort enthält bzw. nicht enthält, wobei der Inhalt des Kennzeichens in
Abhängigkeit eines Vergleichs der Signale vor und nach der LTP-Analyse gebildet wird.
Bei der Sprachsynthese im Sprachsynthetisierer wird bei nicht gesetztem LTP-Unterdrückungskennzeichen das LTP-Codewort
aus dem Gesamt-
PHD 9Ö-1Ö5 GM^
codewert extrahiert und in üblicher Weise zur Sprachsynthese verwendet. Bei gesetztem LTP-Unterdrückungskennzeichen
hingegen ist im Gesamtcodewert kein LTP-Codewort enthalten. Zur Sprachsynthese wird nun das LTP-Synthesefilter
überbrückt, oder, was eine äquivalente Möglichkeit darstellt, die Parameter des LTP-Synthesefilters so eingestellt,
daß das durch das LTP-Filter durchgehende Signal nicht verändert wird.
Das LTP-Unterdrückungskennzeichen wird immer dann gesetzt,
wenn die LTP keinerlei Periodizität erkennen kann, wie es vor allem am Beginn der Vokale und bei Zischlauten
vorkommt. Es hat sich gezeigt, daß der Wegfall der LTP-Parameter in diesen Fällen keine hörbaren Verluste im
wiedergegebenen synthetisierten Sprachsignal zur Folge hat. Bei einem Sprachcodec nach Anspruch 1, bei dem
beispielsweise pro Zeitrahmen vier LTP-Parametersätze zu je neun Bit erzeugt werden, können so je nach Inhalt des
Sprachsignals neun, achtzehn, siebenundzwanzig oder auch sechsunddreißig Bit eingespart werden.
Zur Entscheidung, ob die LTP-Parameter weggelassen werden
können, werden die Energieinhalte des LTP-Restsignals und des STP-Restsignals zueinander ins Verhältnis gesetzt und
mit einem Schwellwert verglichen. Bei Verhältniszahlen, die größer als dieser Schwellwert sind, wird das LTP-Unterdrückungskennzeichen
gesetzt. Als geeigneter Schwellwert hat sich beispielsweise die Zahl 0,8 erwiesen.
Eine weitere Möglichkeit zur Reduzierung der Datenrate erreicht man mit der Erfindung dadurch, daß bei einer erkannten
Pause ein Gesamtcodewort aus Codewörtern, die die Länge (T), den Energieinhalt (N1) des Rauschens in der
Pause und die spektralen Eigenschaften (STP-Codewort) dieses Rauschens beschreiben, gebildet wird.
PfIDSi)-IOS GM
Etwa 20% der Sprache bestehen aus Pausen. Diese treten überall zwischen den Sätzen, den Wörtern und sogar innerhalb
der Wörter auf. Bei erkannten Pausen werden daher nur die wenigen Parameter übertragen, die zur Beschreibung
einer Pause notwendig sind. Hierdurch läßt sich die durchschnittliche Datenrate reduzieren.
Zur Beschreibung einer Pause eignet sich insbesondere die Länge einer Pause, so daß für Pausen, die sich über mehrere
Zeitrahmen erstrecken, nur zu Beginn der Pause eine Codierung erforderlich ist.
In einer Pause herrscht jedoch entweder Stille oder man hört ein Hintergrundrauschen. Die Stille läßt sich aufgrund
der geringen Leistung, das Hintergrundrauschen aufgrund seiner konstanten spektralen Eigenschaften mit geeigneten
Algorithmen erkennen. Das Rauschen in einer Pause bietet zwar dem Empfänger der Sprachausgabe des Decodierers
keine weiteren Informationen, es verhindert jedoch, daß die Empfangsperson irritiert wird, wenn bei einer
Sprachpause völlige Stille herrscht, während beim Empfang von Sprachdaten meistens ein Hintergrundrauschen
hörbar ist. Auf diese Weise erscheinen der Empfangsperson
selbst die Pausen natürlich. Um diesen Effekt der Natürlichkeit zu erzielen ist es jedoch völlig ausreichend,
nur annähernd die Eigenschaften des Rauschens auf der Coderseite auf der Decoderseite nachzuahmen.
Da Stille oder Rauschen nur wenig Informationen enthält,
läßt es sich mit sehr geringen Bitraten codieren. Das Gesamtcodewort wird daher neben einem Codewort, das die
Länge einer Pause angibt, aus einem weiteren Codewort, das den Energieinhalt des Rauschens in einer Pause und
einem weiteren Codewort, das die spektralen Eigenschaften des Rauschens in einer Pause beschreibt, zusammenge-
PHILIPS PATENTVERWAITUNC- GMBH ' "; PHD 90 105 GM
G 90 06 717.7 14.09.1990
setzt. Obwohl eine Pause mehrere Zeitrahmen andauern kann, werden zur Beschreibung des Rauschens nur die Daten
eines einzigen Zeitrahniens verwendet. Unabhängig von der
Länge einer Pause benötigt man zum Codieren der Pause nur wenige Bits.
Zur Sprachsynthese wird bei einem im Gesamtcodewort gesetzten Pausenkennzeichen aus dem Gesamtcodewort ein Codewort
extrahiert, das einem Zeitglied zugeführt wird und weitere restliche Codewörter extrahiert, die einem
Rauschgenerator zugeführt sind. Das dem Zeitglied zugeführte Codewort beschreibt die Länge der Pause. Während
der Pause wird das synthetisierte Sprachsignal ausschließlich aus dem vom Rauschgenerator erzeugten Rauschsignal
gebildet. Das Zeitglied läßt das Rauschen entsprechend der codierten Länge der Pause andauern. Nach Ablauf
der Pause wird die Vorrichtung zur Sprachdecodierung wieder in üblicher Weise betrieben und das Sprachsignal aus
den STP-, LTP- und REP-Codewörtern bzw. Teilen davon zusammengesetzt.
Zum anderen läßt sich die durchschnittliche Bitrate auch dadurch reduzieren, daß im Gesamtcodewort ein Kennzeichen
(Stimmloskennzeichen) vorgesehen ist, das anzeigt, daß das Gesamtcodewort entweder nur aus einem STP-Codewort
oder auch noch anderen Codewörtern zusammengesetzt ist, wobei der Inhalt des Kennzeichens in Abhängigkeit von einer
Stimmhaft/Stimmlos-Entscheidung gebildet wird.
Zur Sprachsynthese wird in Abhängigkeit eines im Gesamtcodewort enthaltenen Kennzeichens keine LTP-Synthese vorgenommen.
Anstelle der Erzeugung eines Restsignals wird mittels der Vorrichtung zur Restsignalerzeugung ein
Rauschsignal erzeugt. Hierzu werden im Gesamtcodewort enthaltene Codewörter verwendet, die die
PHILIPS PATENTVERWALTUNG GMDH PHD 90 105 GM
Neue Beschreibunqsseite 9
Rauschenergien während einzelner Zeitabschnitte beschreiben. Das schließlich noch im Gesamtcodewort enthaltene
STP-Codewort wird einer STP-Synthese unterzogen und färbt das erzeugte Rauschsignal entsprechend der mittels des
STP-Codewortes eingestellten spektralen Eigenschaften des STP-Synthesefilters.
Etwa 20% bis 30% der (deutschen) Sprache besteht aus stimmosen Lauten, Zischlauten wie s, f oder sch. Diese
Laute lassen sich vorteilhafter Weise einfach als gefärbtes Rauschen beschreiben. Hierzu sind die im STP-Codewort
enthaltenen STP-Parameter und Teile der RPE-Parameter eine
völlig ausreichende Beschreibung. Bei dem Sprachcodierer nach Anspruch 1 werden auf diese Weise von beispielsweise
insgesamt 260 Bits pro Zeitrahmen nur noch 54 Bits benötigt.
Geht man von einer Bitrate von 8,4 kbit/s bei einem Sprachcodierer nach Anspruch 1 aus, ist durch Kombination
der vorstehend beschriebenen weiteren Lösungsmöglichkeiten eine durchschnittliche Datenrate von 5 kbit/s erzielbar.
Dies entspricht einer Reduzierung der Datenrate um ca. 40%. Mit einer durchschnittlichen Bitrate von
5 kbit/s lassen sich in ein Mbit RAM rund 3,5 Minuten Sprache speichern bzw. in 1,5 Mbit RAM ca. 5 Minuten.
5 Minuten Sprache sind ausreichend um ungefähr 10 Anrufe zu speichern.
Weitere Vorteile der digitalen Speicherung sind, daß mittels einer geeigneten Steuervorrichtung einzelne Anrufe
gelöscht oder auf andere Datenträger übertragen werden können. Im Gegensatz zu mechanischen Anrufbeantwortern
gibt es auch praktisch keine Verzögerung beim wahlfreien Zugriff auf beliebige Anrufe.
35
PHILIPS PATENTVEKWALTUNG GMEfJ PHD 90 105 GM
Die Erfindung wird nun anhand eines Ausfuhrunqsbeispiels
näher beschrieben und erläutert.
Es zeigen:
5
5
Fig. 1 einen Anrufbeantworter mit einem Restsignal-Sprachcodierer/-decodierer.
Fig. 2 von einem Code-Multiplexer erzeugte Gesamtcodewörter.
In Fig. 1 ist in schematischer Darstellung ein Anrufbeantworter
mit einem Sprachcodierer 1, einer Anordnung zum Speichern der codierten Sprachsignale 2 und einem Restsignal-Decodierer
zur Wiedergabe der gespeicherten Sprachsignale (Sprachsynthetisierer 3) wiedergegeben.
Eine Steuerschaltung 20 steuert die anruferspezifischen Funktionen wie Aufnahme der Sprachsignale eines anrufenden
Teilnehmers und Wiedergabe der gespeicherten Sprachsignale.
Über eine Eingangsbuchse 10 ist der Anrufbeantworter mit
einem Fernsprechendgerät verbindbar. Hierbei ist es ohne Belang, ob der Anrufbeantworter ein eigenständiges Gerät
bildet oder ob er in einem Fernsprechendgerät integriert ist. Die Steuerschaltung 20 ist ebenfalls mit dem Fernsprechendgerät
in entsprechender Weise verbunden, um die Betriebszustände des Fernsprechendgerätes zu erfassen und
von einem Benutzer, beispielsweise durch Tastendruck, vorgegebene Betriebsarten (Aufnahmebereitschaft, Wiedergabe)
zu berücksichtigen. Der Aufbau einer solchen Steuerschaltung 20 ist dem Fachmann geläufig und nicht Teil
der Erfindung. Auf die Steuerschaltung 20, soweit sie die Abläufe steuert, die in einem Anrufbeantworter der eigentlichen
Aufnahme vorangehen (z.B. bei einem ankommen-
den Ruf wird zunächst ein Ansagetext ausgegeben), wird daher nicht weiter eingegangen.
Während der "Aufnahme" wird das über die Eingangsbuch- · se 10 anliegende Fernsprechsignal von einem Analog-Digital-Umsetzer
11 mit 8 kHz abgetastet. Die auf diese Weise erhaltenen Sprachabtastwerte werden mit 8 Bit pro Sprachabtastwert
aufgelöst. Bei dieser sogenannten PCM-Codierung fallen somit pro Sekunde 64 kbit zu speichernde Informationen
an. Zur Reduzierung dieser Datenmenge werden die Sprachabtastwerte zunächst in bekannter Weise in
einem RPE-Restsignal-Codierer aufbereitet. Der Aufbau eines solchen RPE-Restsignal-Codierers mit einer Vorrichtung
(12) zur Analyse und Codierung von sogenannten Short-Term-Prediction-Werten (STP 12), einer Vorrichtung
(13) zur Analyse und Codierung von sogenannten Long-Term-Prediction-Werten (LTP) und einer Vorrichtung
(14) zur Analyse und Codierung der Regular-Puls-Excitation-Werte
(RPE) ist dem Fachmann geläufig und beispielsweise auch aus dem eingangs genannten Aufsatz bekannt.
Auf den internen Aufbau dieser Anordnungen wird daher im folgenden nicht näher eingegangen. Im folgenden
werden aber zunächst die von diesen Anordnungen erzeugten Codewörter aufgeführt.
Jeweils 160 Sprachabtastwerte werden in einem Zeitrahmen zusammengefaßt. Entsprechend der Abtastrate von 8 kHz ist
die Dauer eines Zeitrahmens 20 ms. Bei der STP-Analyse/Codierung
werden zur Beschreibung der spektralen Einhüllenden eines jeden Zeitrahmens sogenannte LAR-Koeffizienten
(Log. Area Ratios) erzeugt. Im Ausführungsbeispiel sind zur Codierung dieser LAR-Koeffizienten genau
36 Bit vorgesehen.
Bei der Long-Term-Prediction wird der Zeitrahmen in der Mitte unterteilt, so daß auf diese Weise zwei Unterzeit-
PHILIPS PATENTVERWALTUNG= GMEH N i PHD 90 105 GM
G 90 06 717.7 14.09.1990
rahmen, im folgenden als Halbrahmen bezeichnet, mit jeweils 80 Sprachabtastwerten erhalten werden. Für jeden
Halbrahmen sind zur Beschreibung der Periodizität jeweils 10 Bit vorgesehen.
Das nach der LTP-Analyse verbleibende LTP-Restsignal wird
bei der RPE-Analyse/Codierung in nochmals invertierten Blöcken von jeweils vierzig zusammenhängenden Sprachabtastwerten
analysiert. Ein solcher Block wird, da er genau einem Viertel eines vollen Zeitrahmens entspricht, im
folgenden als Viertel-Rahmen bezeichnet. Für jeden Unterblock von 40 Sprachabtastwerten sind zur Codierung 28 Bit
vorgesehen, so daß zur Codierung eines vollen Zeitrahmens insgesamt 112 Bit benötigt werden. Die ersten sechs Bit
eines jeweiligen RPE-Codewortes beschreiben hierbei die maximale Amplitude des LTP-Restsignals.
Die bei der einzelnen Analyse als Ergebnis anfallenden Codewörter sind einem Code-Multiplexer 19 zugeführt, der
die einzelnen Codewörter zu einem Gesamtcodewort zusammensetzt. Würden nur diese Codewörter zur Gesamtcodewortbildung
herangezogen, so hätte jedes Gesamtcodewort genau die Länge von 168 Bit.
Bei 50 Zeitrahmen pro Sekunde entspricht dies einer Datenrate von 8,4 kbit/s. Diese Datenrate ist etwas geringer
als die Datenrate des in dem eingangs erwähnten Aufsatzes beschriebene Sprachcodierers.
Für die im folgenden beschriebene weitere Datenreduzierung sind die Anforderungen dementsprechend hoch, da auch
nur jede weitere geringste Verschlechterung der Sprachqualität unbedingt zu vermeiden ist.
Zur weiteren Reduzierung der Datenrate sind im Sprachcodierer 1 eine STP-Vergleichsvorrichtung 15, eine LTP-Ent-
13 PHD".-90-1Gg GM
Scheidungsvorrichtung 16, ein Stimmhaft/Stimmlos-Entscheider
17 und ein Pausendetektor 18 vorgesehen, welche jeweils eigene Steuersignale erzeugen. Diese Steuersignale
sind wie die Codewörter der einzelnen Analysatoren/Codierer 12, 13, 14 dem Code-Multiplexer 19 zugeführt, der
aus all diesen Informationen für jeden Zeitrahmen ein Gesamtcodewort
variabler Länge bildet.
In der STP-Vergleichsvorrichtung 15 wird hierzu aus den
bei der STP-Codierung anfallenden Daten das Cepstrum eines jeden Zeitrahmens berechnet. Die Cepstra zweier aufeinanderfolgender
Zeitrahmen werden miteinander verglichen, indem die quadratische Distanz der beiden Cepstra
berechnet wird. Die jeweils berechnete quadratische Distanz wird mit einem vorgebbaren Schwellwert verglichen.
Aus dem Vergleich wird ein STP-Parameterwiederholungssignal
erzeugt, welches angibt, ob die quadratische Distanz der beiden Cepstra größer oder kleiner als der vorgebbare
Schwellwert ist. Dieses STP-Parameterwiederholungssignal
ist dem Code-Multiplexer 19 zugeführt.
Der LTP-Entscheidungsvorrichtung 16 ist sowohl das Ausgangssignal der STP-Analyse (das STP-Restsignal) als auch
das Ausgangssignal nach der LTP-Analyse (LTP-Restsignal)
zugeführt. In der LTP-Entscheidungsanordnung 16 werden die Energieinhalte dieser beiden Restsignale getrennt für
jeden Halbrahmen berechnet. Für jeden Halbrahmen wird der Energieinhalt des LTP-Restsignals ins Verhältnis zum
Energieinhalt des STP-Restsignals gesetzt und mit einem vorgebbaren Schwellwert, vorzugsweise dem Wert 0,8, für
jeden Unterrahmen getrennt verglichen. Je nachdem, ob der Schwellwert unterschritten oder überschritten ist, wird
gegebenenfalls getrennt für jeden Halbrahmen das LTP-Unterdrückungssignal erzeugt, welches ebenfalls dem
Code-Multiplexer 19 zugeführt ist.
14 &Rgr;&EEgr;&Pgr; 90-105 GM
Der Aufbau im Stimmhaft/Stimmlos-Entscheider 17 wird eine
Entscheidung darüber getroffen, ob die in Sprachabtastwerte eines Zeitrahmens einem stimmhaften oder einem
stimmlosen Laut zugeordnet werden müssen. Der Aufbau eines solchen Stimmhaft/Stimmlos-Entscheiders ist dem
Fachmann hinlänglich bekannt. Im Ausführungsbeispiel benutzt der Stimmhaft/Stimmlos-Entscheider 17 den Energieinhalt
der tiefpaßgefilterten Sprachabtastwerte, die
Null-Durchgangsdichte des Sprachsignals, die spektralen Eigenschaften des Sprachsignals beschrieben durch sogenannte
Reflexionskoeffizienten (PARCOR-Koeffizienten) und
das oben erwähnte Verhältnis von STP-Restsignalenergie zu LTP-Restsignalenergie. Aufgrund von vorher festgelegten
Entscheidungskriterien wird eine entsprechende Entscheidung getroffen und gegebenenfalls ein Stimmlos-Signal erzeugt
und dem Code-Multiplexer 19 zugeführt.
Zur Erkennung von Pausen wird in dem Pausendetektor 18 das von der STP-Vergleichsvorrichtung erzeugte STP-Parameterwiederholungssignal
zugeführt. Im Pausendetektor ist ein Zähler realisiert, der die Anzahl aufeinanderfolgender
STP-Parameterwiederholungskennzeichen zählt. Bei jedem gesetzten Kennzeichen werden die bei der Stimmhaft/
Stimmlos-Detektor beschriebenen Parameter gespeichert.
Ist das STP-Parameterwiederholungskennzeichen nicht gesetzt,
wird der Zähler auf Null zurückgesetzt und die Parameter im Speicher gelöscht. Zählt der Zähler jedoch
mehr als Zwanzig Kennzeichen, so kann das bis dahin vorliegende Signal als Hintergrundgeräusch angenommen werden.
Aus den abgespeicherten Parametern wird dann ein Vergleichsmuster gebildet, welches im folgenden mit zukünftigen
Parametern verglichen werden kann. Wie bei der Stimmhaft/Stimmlos-Entscheidung kann damit eine
Sprache/Hintergrund-Entscheidung oder auch Pausendetektion durchgeführt werden.
15 PHD 90-"!05 --GM
Bei der Anwendung als Anrufbeantworter kann eine solche
Hintergrundanpassung anfangs während der Ansage des Anrufbeantworters
erfolgen, da der Anrufer zu diesem Zeitpunkt nicht spricht und das Hintergrundgeräusch jedoch
hörbar ist.
Bei einer erkannten Pause wird ein Steuersignal erzeugt, welches im folgenden als Pausen-Steuersignal bezeichnet
wird. Dieses Pausen-Steuersignal ist ebenfalls dem Code-Multiplexer 19 zugeführt.
Aufgrund der für jeden Zeitrahmen erzeugten verschiedenen Steuersignale bildet der Code-Multiplexer verschieden zusammengesetzte
Gesamtcodeworte. Im folgenden wird nun der Aufbau der Gesamtcodeworte für die verschiedenen unterschiedlichen
Fallgestaltungen gezeigt.
Fig. 2a zeigt ein Gesamtcodewort, wie es zur vollständigen Übertragung aller Codewörter zusammengesetzt ist. Eine
vollständige Übertragung der Codewörter ist notwendig, wenn die Sprachabtastwerte eines Zeitrahmens stimmhaft
sind, eine Parameterwiederholung nicht möglich ist und auch die LTP-Analyse relevante Codewörter liefert. Den
ersten beiden Bits des Gesamtcodewortes werden hierzu jeweils die Werte Null zugeordnet. Es folgen dann in den
nächsten 36 Bit das bei der STP-Analyse gewonnene STP-Codewort,
dann jeweils 10 Bit für die LTP-Codeworte LTP1, LTP2 des ersten bzw. zweiten Viertel-Rahmens und
dann jeweils 28 Bit für die RPE-Parameter RPE1, RPE2,
RPE3, RPE4 des ersten, zweiten, dritten und vierten RPE-Viertel-Rahmens. Ein auf diese Weise zusammengesetztes
vollständiges Gesamtcodewort besteht somit aus insgesamt 170 Binärstellen.
16 PHD 90- 105 GM
Bei einem aktiven LTP-Unterdrückungssignal und einem
nichtaktiven STP-Parameterwiederholungssignal weist das
erste Bit des Gesamtcodewortes den Binärwert Null und das zweite Bit des Gesamtcodewortes den Binärwert Eins auf.
Auf diese beiden Kennzeichenbit folgt das STP-Codewort in seiner gesamten Länge von 36 Bit. Die nächsten beiden Bit
dienen zur Kennzeichnung, ob nur eines der beiden LTP-Codewörter oder gar beide LTP-Codewörter unterdrückt werden.
Werden beide LTP-Codewörter unterdrückt, so haben diese LTP-Kennzeichen beide den Binärwert Null und es
folgen auf sie die vier Codeworte für die RPE-Codierung (siehe Fig. 2b). Wird hingegen nur der erste LTP-Parametersatz
unterdrückt, so weist das erste LTP-Kennzeichnungsbit den Binärwert Null und das zweite LTP-Kennzeichnungsbit
den Binärwert Eins auf. Auf die beiden Kennzeichnungsbit folgen dann das 10-bit-lange zweite LTP-Codewort
LTP2 und auf ihn wiederum die 28-bit-langen RPE-Codewörter (siehe Fig. 2c). Soll hingegen das zweite
LTP-Codewort unterdrückt werden, so weisen die beiden LTP-Kennzeichnungsbit die Binärwerte Eins und Null auf.
Auf die LTP-Kennzeichnungbit folgen die 10 Bits des ersten LTP-Parametersatzes (siehe Fig. 2d) und dann wiederum
die 28-bit-langen RPE-Codewörter.
Sobald das Stimmlos-Steuersignal aktiv ist, werden unabhängig vom LTP-Unterdrückungssignal beide LTP-Codewörter
unterdrückt. Zur Kennzeichnung dieses Zustandes werden den beiden LTP-Kennzeichenbits die Binärwerte 1 zugewiesen
(siehe Fig. 2e). Auf die beiden gesetzten LTP-Kennzeichenbits folgen für jeden Viertel-Zeitrahmen getrennt
vier Codeworte N1, N2, N3, N4, die den Energieinhalt in
dem jeweiligen Viertel-Zeitrahmen angeben. Diese Codeworte für den Energieinhalt sind jeweils 6 Bit lang und entsprechen
jeweils einem bestimmten Teil eines RPE-Codewortes. Mittels des im Gesamtcodewort enthaltenen STP-Code-
17 PHD SO-!05" GM
Wortes werden die spektralen Eigenschaften des Rauschens
beschrieben. Ein auf diese Weise gebildetes Gesamtcodewort weist insgesamt nur noch die Länge von 54 Bit auf.
Die in den Fig. 2f bis 2h gezeigten Gesamtcodeworte werden gebildet, wenn ein stimmhafter Zeitrahmen vorliegt,
bei dem eine STP-Parameterwiederholung durchgeführt werden kann. In diesem Fall weist das erste Bit des Gesamtcodewortes
den Binärwert Eins und das zweite Bit des Gesamtcodewortes den Binärwert Null auf. Da dadurch das
Fehlen eines STP-Codewortes im Gesamtcodewort angezeigt wird, folgen als nächstes bereits schon die Kennzeichnungsbits
für eine LTP-Codewortunterdrückung. Können beide LTP-Codewörter unterdrückt werden, so weisen die beiden
nächsten Bits jeweils den Binärwert Null auf und es folgen auf diese beiden Bits die vier Codewörter für die
RPE-Codierung (siehe Fig. 2f).
Kann hingegen nur das erste LTP-Codewort unterdrückt werden, so weist das dritte Bit den Binärwert Eins und das
vierte Bit den Binärwert Null auf. Auf diese Bits folgt dann das zweite LTP-Codewort LTP2 und daran anschließend
die vier RPE-Codewörter (siehe Fig. 2g). Bei einer Unterdrückung des ersten LTP-Codewortes weist das dritte Bit
den Binärwert Null und das vierte Bit den Binärwert Eins auf. Im Gegensatz zum vorangegangenen Beispiel ist dann
anstelle des zweiten LTP-Codewortes LTP2 das erste LTP-Codewort LTP1 an der entsprechenden Stelle im Gesamtcodewort
eingefügt (siehe Fig. 2h).
Für den Fall, daß gleichzeitig eine STP-Parameterwiederholung und ein stimmloser Zeitrahmen vorliegt, wird vom
Code-Multiplexer 19 ein Gesamtcodewort gebildet, dessen erstes, drittes und viertes Bit den Binärwert Eins und
dessen zweites Bit den Binärwert Null aufweist (siehe
18 .: PHß "9&Ogr;-1&THgr;5 :GM
Fig. 2i). Auf diese vier Kennzeichnungsbits folgen dann nur noch für jeden der vier Viertel-Zeitrahmen die
Energieinhalte N1, N2, N3, N4 dieser Viertel-Zeitrahmen.
Insgesamt ergibt sich somit ein Gesamtcodewort von nur 28 Bit Länge.
Sobald das Pausensignal aktiv ist, wird unabhängig von den anderen Steuersignalen ein Gesamtcodewort erzeugt,
dessen erste beiden Bits die Binärwerte Eins erhalten (siehe Fig. 2j). In den darauffolgenden 36 Bits werden
die STP-Parameter zur Kennzeichnung der spektralen Einhüllenden angehängt. Darauf folgen 6 Bits zur Beschreibung
der Energie des Rauschens, wobei hierzu der Energiekoeffizient N1 des ersten REP-Codewortes verwendet wird.
In den letzten 8 Bits des auf diese Weise gebildeten Gesamtcodewortes
wird die Dauer T der Pause als Anzahl der Zeitrahmen angegeben. Mit 8 Bit sind auf diese Weise beim
Ausführungsbeispiel Pausen bis maximal 5,12 Sekunden codierbar. Dies ist völlig ausreichend, bei längeren Pausen
kann jedoch ein zweites oder drittes Gesamtcodewort zur Beschreibung der Pause angehängt werden. Eine bis zu
5,12 Sekunden lange Pause kann auf diese Weise mit nur 52 Bits codiert werden.
Die vom Code-Multiplexer 19 gebildeten Gesamtcodewörter werden aufeinanderfolgend in einem Schreib-/Lese-Speicher
21 gespeichert. Das Einlesen bzw. Auslesen aus diesem Speicher wird ebenfalls von der Steuerungseinrichtung
20 gesteuert. Zur Berücksichtigung der variablen Längen der Gesamtcodeworte ist die Steuereinrichtung 20
auch noch mit dem Gesamtcodemultiplexer 19 über entsprechende Signalisierungs- und Steuerleitungen verbunden.
Zur Synthese eines Sprachsignals aus den gespeicherten Gesamtcodeworten werden diese einem Demultiplexer 31 zu-
PHILIPS PATENTVEFWA^TUW; GM3ET ^;: PHD 90 105 GM
G 90 06 717.7 14.09.1990
geführt. In Abhängigkeit der gesetzten Kennzeichen extrahiert der Demultiplexer 31, soweit die entsprechenden Codeworte
im Gesamtcodewort enthalten sind, die vier RPE-Codeworte RPE1, RPE2, RPE3, RPE4, bis zu zwei LTP-Codeworten
LTP1, LTP2 und ein STP-Codewort STP sowie diverse Steuersignale. Die RPE-Codeworte sind einer Vorrichtung
32 zur RPE-Synthese zugeführt. Die Vorrichtung zur RPE-Synthese 32 erzeugt aus den Codeworten in jedem Viertel-Rahmen
ein Anregungssignal bzw. wenn anstelle der RPE-Codeworte in dem Gesamtcodewort entsprechend der gesetzten
Kennzeichen nur Codeworte N1, N2, N3, N4 für die Rauschleistung enthalten sind, ein dieser Rauschleistung
entsprechendes Rauschsignal.
Das auf diese Weise gewonnene Anregungssignal ist einer Vorrichtung 33 zur LTP-Synthese zugeführt. Bei der LTP-Synthese
wird mittels der gegebenenfalls im Gesamtcodewort enthaltenen LTP-Codeworte, die dieser Vorrichtung
zugeführt sind, dem RPE-Anregungssignal noch entsprechende Periodizität hinzugefügt. Mittels eines symbolisch als
Umschalter dargestellten Umschalters 34 kann die Vorrichtung zur LTP-Synthese 33 überbrückt werden, so daß wahlweise
das Ausgangssignal der Vorrichtung zur LTP-Synthese oder das ursprüngliche RPE-Anregungssignal einer Vorrichtung
zur STP-Synthese 35 zugeführt werden kann. Die Umschaltung zwischen diesen beiden Signalen erfolgt in Abhängigkeit
von den im Gesamtcodewort enthaltenen Stimmlos-Kennzeichen.
Jedesmal, wenn im Gesamtcodewort ein STP-Codewort enthalten ist, wird dieses in einem Zwischenspeicher 36 abgelegt.
Das Einschreiben dieses Codewortes erfolgt aus einem aus dem im Gesamtcodewort enthaltenen STP-Parameterwiederholunqskennzeichen
gewonnenen Signal. Dieses Signal ist ebenfalls dem Zwischenspeicher 36 zugeführt und
20 PHD 90-105 GM
steuert den Zwischenspeicher 36 so, daß im Zwischenspeicher 36 das jeweils zuletzt vom Demultiplexer 31 extrahierte
STP-Codewort solange zwischengespeichert wird, bis ein neues STP-Codewort aus dem jeweiligen Gesamtcodewort
extrahiert werden kann. Das im Zwischenspeicher 36 zwischengespeicherte STP-Codewort wird jedoch in jedem Zeitrahmen
dem STP-Synthesefilter 35 zugeführt. Auf diese Weise verwendet das STP-Synthesefilter 35, solange kein
neues STP-Codewort in den Zwischenspeicher eingeschrieben wird, in aufeinanderfolgenden Zeitrahmen jeweils die
gleichen Filterkoeffizienten. Das Ausgangssignal des STP-Synthesefilters 35 ist einem Digital-Analog-Umsetzer
37 zugeführt. Das bei dieser Umsetzung erhaltene Analogsignal wird gegebenenfalls nach Zwischenverstärkung
über einen Lautsprecher 38 wiedergegeben.
Claims (11)
1. Anrufbeantworter zur digitalen Aufzeichnung und Wiedergabe
von Sprachsignalen mit einem Sprachcodierer (1) und einem Sprachsynthetisierer (3),
dadurch gekennzeichnet,
daß der Sprachcodierer (1) zur Aufzeichnung digitalisierte Sprachabtastwerte des Sprachsignals jeweils in einem
Zeitrahmen zusammenfaßt und für jeden Zeitrahmen ein digitales Gesamtcodewort bildet, das ein Codewort für die
spektrale Einhüllende (STP-Codewort), ein Codewort für
die Periodizität (LTP-Codewort) und ein Codewort für ein Restsignal (RPE-Codewort) enthalten kann, daß die vom
Sprachcodierer gebildeten Gesamtcodeworte in einem Speicher (21) gespeichert werden und daß die gespeicherten
Worte zur Wiedergabe dem Sprachsynthetisierer (3) zugeführt werden.
2. Anrufbeantworter nach Anspruch A, dadurch gekennzeichnet,
daß der Sprachcodierer (1) für das Gesamtcodewort ein
Kennzeichen (STP-Parameterwiederholungskennzeichen) bildet, das anzeigt, daß das Gesamtcodewort ein STP-Codewort
enthält oder nicht enthält, wobei der Inhalt des Kennzeichens in Abhängigkeit eines Vergleichs zwischen Sprachabtastwertep
eines ersten Zeitrahmens und Sprachabtastwerten eines zweiten bereits codierten Zeitrahmens gebildet
wird.
-2-30
PHILIPS PATENTVERWALTUNG GMBH PHD 90 105 GM
Neue Ansprüche
-2-
3. Anrufbeantworter nach Anspruch 1 oder 2, dadurch gekennzeichnet,
daß der Sprachcodierer (1) zum Vergleich der Sprachabtastwerte
die Summe der quadratischen Distanzen der in- > versen Fourier-Transformation des logarithmierten Leistungsdichtespektrums
(Cepstrum) der zu vergleichenden Zeitrahmen bildet.
4. Anrufbeantworter nach Anspruch 2 oder 3, dadurch gekennzeichnet,
daß der Sprachsynthetisierer (3) zur Wiedergabe der in dem Speicher (21) codiert gespeicherten Sprachsignale das
STP-Codewort zwischengespeichert wird, und in Abhängigkeit vom Inhalt eines im Gesamtcodewort enthaltenen Kennzeichens
(STP-Parameterwiederholungskennzeichen) das zwischengespeicherte
STP-Codewort durch ein im Gesamtcodewort vorhandenes STP-Codewort erneuert wird.
5. Anrufbeantworter nach Anspruch 1 dadurch gekennzeichnet,
daß der Sprachcodierer (1) für das Gesamtcodewort ein Kennzeichen (LTP-Unterdrückungskennzeichen) bildet, welches
anzeigt, daß das Gesamtcodewort ein LTP-Codewort enthält oder nicht enthält, wobei der Inhalt des Kennzeichens
in Abhängigkeit eines Vergleichs der Signale vor und nach der LTP-Analyse gebildet wird.
6. Anrufbeantworter nach Anspruch 4, dadurch gekennzeichnet,
daß der Sprachcodierer (1) zum Vergleich der Signale das
Verhältnis der Signalenergien nach und vor der LTP-Analyse mit einem vorgebbaren Schwellwert vergleicht.
-3-
PHILIPS PATENTVERWALTUNG GMBH PHD 90 105 GM
Neue Ansprüche
-3-
7. Anrufbeantworter nach Anspruch 1, dadurch gekennzeichnet,
daß der Sprachsynthetisierer (3) zur Wiedergabe der in dem Speicher (21) codiert gespeicherten Sprachsignale in
&igr; Abhängigkeit von einem im Gesamtcodewort enthaltenen
Kennzeichen (LTP-Unterdrückungskennzeichen) eine LTP-Synthese
aus dem im Gesamtcodewort enthaltenen LTP-Codewort durchgeführt bzw. eine LTP-Synthese nicht durchgeführt
wird.
10
10
8. Anrufbeantworter nach Anspruch 1, dadurch gekennzeichnet,
daß der Sprachcodierer (1) für das Gesamtcodewort ein
Kennzeichen (Stimmloskennzeichen) bildet, das anzeigt, daß das Gesamtcodewort entweder nur aus einem STP-Codewort
oder auch noch anderen Codewörtern zusammengesetzt ist, wobei der Inhalt des Kennzeichens in Abhängigkeit
von einer Stimmhaft/Stimmlos-Entscheidung gebildet wird.
9. Anrufbeantworter nach Anspruch 1, dadurch gekennzeichnet,
daß in dem Sprachsynthetisierer (3) zur Wiedergabe der in dem Speicher (21) codiert gespeicherten Sprachsignale in
Abhängigkeit von einem im Gesamtcodewort enthaltenen Kennzeichen (Stimmloskennzeichen) kein Sprachsignal aus
der Periodizität synthetisiert und das Restsignal auf die Erzeugung eines Rauschsignals reduziert wird.
10. Anrufbeantworter nach Anspruch 1, dadurch gekennzeichnet,
daß in dem Sprachcodierer (1) bei einer erkannten Pause
ein Gesamtcodewort aus Codewörtern, die die Länge (T), den Energieinhalt (N1) des Rauschens in der Pause und die
spektralen Eigenschaften (STP-Codewort) dieses Rauschens beschreiben, gebildet wird.
PHILIPS PATENTVERWALTUNG GMBH PHD 90 105 GM
Neue Ansprüche
-4-
11. Anrufbeantworter nach Anspruch 1,
dadurch gekennzeichnet, daß in dem Sprachsynthetisierer (3) zur Wiedergabe der in
dem Speicher (21) codiert gespeicherten Sprachsignale in &igr; Abhängigkeit eines im Gesamtcodewort gesetzten Kennzeichens
(Pausenkennzeichen) ein Zeitglied mit einem im Gesamtcodewort enthaltenen ersten Codewort (T) initialisiert
wird und für die dadurch vorgegebene Zeitdauer das Sprachsignal ausschließlich aus den restlichen Codewörtern
(N1, STP-Codewort) des Gesamtcodewortes gebildet werden.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE9006717U DE9006717U1 (de) | 1990-06-15 | 1990-06-15 | Anrufbeantworter für die digitale Aufzeichnung und Wiedergabe von Sprachsignalen |
US07/623,870 US5251261A (en) | 1990-06-15 | 1990-12-03 | Device for the digital recording and reproduction of speech signals |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE9006717U DE9006717U1 (de) | 1990-06-15 | 1990-06-15 | Anrufbeantworter für die digitale Aufzeichnung und Wiedergabe von Sprachsignalen |
Publications (1)
Publication Number | Publication Date |
---|---|
DE9006717U1 true DE9006717U1 (de) | 1991-10-10 |
Family
ID=6854678
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE9006717U Expired - Lifetime DE9006717U1 (de) | 1990-06-15 | 1990-06-15 | Anrufbeantworter für die digitale Aufzeichnung und Wiedergabe von Sprachsignalen |
Country Status (2)
Country | Link |
---|---|
US (1) | US5251261A (de) |
DE (1) | DE9006717U1 (de) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4425579A1 (de) * | 1994-07-20 | 1996-01-25 | Sel Alcatel Ag | Digitaler Anrufbeantworter |
DE19641619C1 (de) * | 1996-10-09 | 1997-06-26 | Nokia Mobile Phones Ltd | Verfahren zur Synthese eines Rahmens eines Sprachsignals |
US5675633A (en) * | 1994-07-20 | 1997-10-07 | Alcatel N.V. | Digital telephone answering set |
DE19730129A1 (de) * | 1997-07-14 | 1999-01-21 | Fraunhofer Ges Forschung | Verfahren zum Signalisieren einer Rauschsubstitution beim Codieren eines Audiosignals |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5537509A (en) * | 1990-12-06 | 1996-07-16 | Hughes Electronics | Comfort noise generation for digital communication systems |
DE9218980U1 (de) * | 1991-09-05 | 1996-08-22 | Motorola Inc., Schaumburg, Ill. | Fehlerschutz für Mehrmoden-Sprachcoder |
US5630016A (en) * | 1992-05-28 | 1997-05-13 | Hughes Electronics | Comfort noise generation for digital communication systems |
JPH07123067A (ja) * | 1993-10-20 | 1995-05-12 | Hitachi Ltd | 多重化装置 |
CA2149680A1 (en) * | 1994-06-30 | 1995-12-31 | John Charles Baumhauer Jr. | Direction finder |
DE4434255A1 (de) * | 1994-09-24 | 1996-03-28 | Sel Alcatel Ag | Vorrichtung zur Sprachaufzeichnung mit anschließender Texterstellung |
JP2728122B2 (ja) * | 1995-05-23 | 1998-03-18 | 日本電気株式会社 | 無音圧縮音声符号化復号化装置 |
WO1997014222A1 (en) * | 1995-10-13 | 1997-04-17 | Starbro Communications Inc | Personal audio message processor and method |
TW321810B (de) * | 1995-10-26 | 1997-12-01 | Sony Co Ltd | |
US6377919B1 (en) * | 1996-02-06 | 2002-04-23 | The Regents Of The University Of California | System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech |
EP1710787B1 (de) * | 1997-02-10 | 2011-09-21 | Koninklijke Philips Electronics N.V. | Kommunikationsnetzwerk zur Uebertragung von Sprachsignalen |
US20040260415A1 (en) * | 1999-09-08 | 2004-12-23 | Weiss Kenneth P. | Method and apparatus for achieving selected audio and other functions |
US20090322953A1 (en) * | 1999-09-08 | 2009-12-31 | Weiss Kenneth P | Method and apparatus for achieving selected audio/video and other functions |
US7016833B2 (en) * | 2000-11-21 | 2006-03-21 | The Regents Of The University Of California | Speaker verification system using acoustic data and non-acoustic data |
GB2370206A (en) * | 2000-12-15 | 2002-06-19 | Ericsson Telefon Ab L M | Storing a speech signal, e.g. in a mobile telephone |
US8605780B2 (en) * | 2006-06-02 | 2013-12-10 | Panasonic Corporation | Coding device and editing device |
CN101615395B (zh) * | 2008-12-31 | 2011-01-12 | 华为技术有限公司 | 信号编码、解码方法及装置、*** |
CN106214176B (zh) * | 2009-02-11 | 2019-12-31 | 瑞思迈私人有限公司 | 呼吸治疗装置的声波检测 |
US8933733B2 (en) * | 2013-01-07 | 2015-01-13 | Mediatek Singapore Pte. Ltd. | Method and system for fast synchronized dynamic switching of a reconfigurable phase locked loop (PLL) for near field communications (NFC) peer to peer (P2P) active communications |
DK3582514T3 (da) * | 2018-06-14 | 2023-03-06 | Oticon As | Lydbehandlingsapparat |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4698776A (en) * | 1983-05-30 | 1987-10-06 | Kabushiki Kaisha Kenwood | Recording/reproducing apparatus |
JPS60116000A (ja) * | 1983-11-28 | 1985-06-22 | ケイディディ株式会社 | 音声符号化装置 |
US4805217A (en) * | 1984-09-26 | 1989-02-14 | Mitsubishi Denki Kabushiki Kaisha | Receiving set with playback function |
US4797925A (en) * | 1986-09-26 | 1989-01-10 | Bell Communications Research, Inc. | Method for coding speech at low bit rates |
EP0280827B1 (de) * | 1987-03-05 | 1993-01-27 | International Business Machines Corporation | Verfahren zur Grundfrequenzbestimmung und Sprachkodierer unter Verwendung dieses Verfahrens |
US4896361A (en) * | 1988-01-07 | 1990-01-23 | Motorola, Inc. | Digital speech coder having improved vector excitation source |
US4817157A (en) * | 1988-01-07 | 1989-03-28 | Motorola, Inc. | Digital speech coder having improved vector excitation source |
DE3871369D1 (de) * | 1988-03-08 | 1992-06-25 | Ibm | Verfahren und einrichtung zur sprachkodierung mit niedriger datenrate. |
US5060269A (en) * | 1989-05-18 | 1991-10-22 | General Electric Company | Hybrid switched multi-pulse/stochastic speech coding technique |
-
1990
- 1990-06-15 DE DE9006717U patent/DE9006717U1/de not_active Expired - Lifetime
- 1990-12-03 US US07/623,870 patent/US5251261A/en not_active Expired - Fee Related
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4425579A1 (de) * | 1994-07-20 | 1996-01-25 | Sel Alcatel Ag | Digitaler Anrufbeantworter |
US5675633A (en) * | 1994-07-20 | 1997-10-07 | Alcatel N.V. | Digital telephone answering set |
DE19641619C1 (de) * | 1996-10-09 | 1997-06-26 | Nokia Mobile Phones Ltd | Verfahren zur Synthese eines Rahmens eines Sprachsignals |
EP0836176A2 (de) * | 1996-10-09 | 1998-04-15 | Nokia Mobile Phones Ltd. | Verfahren zur Synthese eines Rahmens eines Sprachsignals |
EP0836176A3 (de) * | 1996-10-09 | 1999-01-13 | Nokia Mobile Phones Ltd. | Verfahren zur Synthese eines Rahmens eines Sprachsignals |
US6041298A (en) * | 1996-10-09 | 2000-03-21 | Nokia Mobile Phones, Ltd. | Method for synthesizing a frame of a speech signal with a computed stochastic excitation part |
DE19730129A1 (de) * | 1997-07-14 | 1999-01-21 | Fraunhofer Ges Forschung | Verfahren zum Signalisieren einer Rauschsubstitution beim Codieren eines Audiosignals |
DE19730129C2 (de) * | 1997-07-14 | 2002-03-07 | Fraunhofer Ges Forschung | Verfahren zum Signalisieren einer Rauschsubstitution beim Codieren eines Audiosignals |
US6766293B1 (en) | 1997-07-14 | 2004-07-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Method for signalling a noise substitution during audio signal coding |
Also Published As
Publication number | Publication date |
---|---|
US5251261A (en) | 1993-10-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE9006717U1 (de) | Anrufbeantworter für die digitale Aufzeichnung und Wiedergabe von Sprachsignalen | |
DE69816221T2 (de) | Sprachschnellheitsveränderungsverfahren und vorrichtung | |
DE69736446T2 (de) | Audio Dekodierverfahren und -vorrichtung | |
DE69730779T2 (de) | Verbesserungen bei oder in Bezug auf Sprachkodierung | |
DE69233094T2 (de) | Verfahren und Anordnung zur Datenkompression bei welchem Quantisierungsbits einem Block in einem gegenwärtigen Rahmen in Abhängigkeit eines Blocks in einem vergangenen Rahmen zugeteilt werden | |
DE3534064C2 (de) | ||
DE69915830T2 (de) | Verbesserte verfahren zur rückgewinnung verlorener datenrahmen für ein lpc-basiertes, parametrisches sprachkodierungsystem. | |
DE60034484T2 (de) | Verfahren und vorrichtung in einem kommunikationssystem | |
DE60214358T2 (de) | Zeitskalenmodifikation von signalen mit spezifischem verfahren je nach ermitteltem signaltyp | |
EP0290581B1 (de) | Verfahren zum übertragen digitalisierter tonsignale | |
EP0076234B1 (de) | Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung | |
DE69534561T2 (de) | Sender-empfänger | |
EP1388147B1 (de) | Verfahren zur erweiterung der bandbreite eines schmalbandig gefilterten sprachsignals, insbesondere eines von einem telekommunikationsgerät gesendeten sprachsignals | |
DE3009677A1 (de) | Verfahren zur erkennung von sprache und sprachpausen | |
DE19715126C2 (de) | Sprachsignal-Codiervorrichtung | |
DE2626793A1 (de) | Verfahren zur bewertung stimmhafter und stimmloser zustaende eines sprachsignals | |
EP0508547B1 (de) | Schaltungsanordnung zur Spracherkennung | |
EP0993672B1 (de) | Verfahren zur codierung und/oder decodierung von sprachsignalen unter verwendung einer langzeitprädiktion und eines mehrimpulsanregungssignals | |
EP1023777B1 (de) | Verfahren und vorrichtung zur erzeugung eines bitratenskalierbaren audio-datenstroms | |
DE3006339C2 (de) | Sprachsyntesizer | |
EP0867074B1 (de) | Verfahren zur kompression eines analogen signals | |
DE4211945C1 (de) | ||
DE10022586A1 (de) | Verfahren zum Erzeugen einer Sprachdatenbank für einen Zielwortschatz zum Trainieren eines Spracherkennungssystems | |
DE60030069T2 (de) | Verschleierungsverfahren bei Verlust von Sprachrahmen | |
DE4343366C2 (de) | Verfahren und Schaltungsanordnung zur Vergrößerung der Bandbreite von schmalbandigen Sprachsignalen |