DE102004044649B3 - Speech synthesis using database containing coded speech signal units from given text, with prosodic manipulation, characterizes speech signal units by periodic markings - Google Patents

Speech synthesis using database containing coded speech signal units from given text, with prosodic manipulation, characterizes speech signal units by periodic markings Download PDF

Info

Publication number
DE102004044649B3
DE102004044649B3 DE200410044649 DE102004044649A DE102004044649B3 DE 102004044649 B3 DE102004044649 B3 DE 102004044649B3 DE 200410044649 DE200410044649 DE 200410044649 DE 102004044649 A DE102004044649 A DE 102004044649A DE 102004044649 B3 DE102004044649 B3 DE 102004044649B3
Authority
DE
Germany
Prior art keywords
speech signal
prosodic
period
manipulation
signal unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE200410044649
Other languages
German (de)
Inventor
Rüdiger Prof. Hoffmann
Oliver Jokisch
Guntram Strecha
Thomas Volk
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE200410044649 priority Critical patent/DE102004044649B3/en
Application granted granted Critical
Publication of DE102004044649B3 publication Critical patent/DE102004044649B3/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Start and end of a period (duration) of an uncoded speech signal unit are characterized by periodic markings in the coded speech signal unit and prosodic manipulation is effected synchronously with periodic marking. This prosodic manipulation takes place during decoding, which uses a dedicated decoding algorithm. Periodic marking of the coded speech signal unit is calculated from pitch delay. Marking is impressed during the coding operation for the speech signal unit. Periodic markings are determined with the aid of a Laryngograph signal. An independent claim is included for a computer program product causing a processor to carry out a prosodic manipulation of coded speech signals.

Description

Die vorliegende Erfindung betrifft ein Verfahren zur integrierten Sprachsynthese.The The present invention relates to a method for integrated speech synthesis.

Zur textbasierten, sprachlichen Informationsausgabe in technischen Anwendungen werden Systeme zur Sprachsynthese eingesetzt. Typische Anwendungen sind stationäre und mobile Telekommunikationssysteme, automatische Auskunftsdienste, Ansagedienste im Bereich Verkehrstelematik, sprachgestützte Bedienterminals, automatische Dolmetschsysteme sowie Vorlesesysteme für Sehbehinderte. Vor allem die beschränkte Displaygröße in typischen mobilen Geräten, wie Mobiltelefon oder PDA, erfordert eine sprachliche Informationsausgabe.to text-based, linguistic information output in technical applications systems are used for speech synthesis. Typical applications are stationary and mobile telecommunication systems, automatic directory inquiry services, announcement services in the field of traffic telematics, voice-based operator terminals, automatic Interpreting systems and reading systems for the visually impaired. Especially the limited Display size in typical mobile devices, like mobile phone or PDA, requires a linguistic information output.

Sprachsynthesesysteme sind sehr unterschiedlich konzipiert, beispielsweise als Text-to-Speech-(TTS) oder Concept-to-Speech-System (CTS). Sie benötigen aber stets einen akustischen Synthesemodul, welcher unter Verwendung einer zuvor aufgezeichneten und segmentierten Sprachsignaleinheiten-Datenbasis oder mittels gespeicherter, sprachlicher Ansteuerparameter ein geschlossenes Sprachsignal generiert. Um eine hohe Verständlichkeit und Natürlichkeit des akustischen Sprachsignals zu erzielen, werden seit den 1990iger Jahren in der Regel konkatenative Syntheseverfahren mittels Verkettung kürzerer Sprachsignaleinheiten verwendet. üblicherweise werden hierbei in einem ersten Schritt die Sprachsignaleinheiten decodiert. Die Decodierung basiert in der Regel auf folgenden klassischen Verfahren aus der Nachrichtentechnik, welche in den Recommendations der International Telecommunication Union beschrieben sind und als Quasi-Standard anzusehen sind:

  • – Nichtlineare Kennlinie gemäß a-Law oder u-Law (ITU-T G.711),
  • – ADPCM (ITU-T G.721, G.726, G.727).
Speech synthesis systems are designed very differently, for example as text-to-speech (TTS) or concept-to-speech system (CTS). However, they always require an acoustic synthesis module which generates a closed speech signal using a previously recorded and segmented speech signal unit database or by means of stored speech control parameters. In order to achieve a high degree of intelligibility and naturalness of the acoustic speech signal, concatenative synthesis methods by means of concatenation of shorter speech signal units have generally been used since the 1990s. Usually, in this case, the speech signal units are decoded in a first step. The decoding is usually based on the following classical methods of communications engineering, which are described in the Recommendations of the International Telecommunication Union and should be regarded as quasi-standard:
  • Non-linear characteristic according to a-Law or u-Law (ITU-T G.711),
  • - ADPCM (ITU-T G.721, G.726, G.727).

In einem zweiten Schritt werden auf die resultierenden Sprachsignaleinheiten bestimmte suprasegmentale – insbesondere prosodische – Zielparameter, wie der Grundfrequenzverlauf, die Segmentdauern oder der Intensitätsverlauf nachträglich aufgeprägt. In einem dritten Schritt werden die Verkettungsstellen zwischen den Sprachsignaleinheiten mittels einer Filterung bzw. Glättung einander angepasst. Der zweite und dritte Verarbeitungsschritt erfolgen konventionell mit folgenden Syntheseverfahren:

  • – Time-Domain Pitch-Synchronous Overlap-and-Add (TD-PSOLA). Dieses Verfahren wurde 1988 bzw. 1989 unter verschiedenen Namen durch die France Telecom angemeldet und später patentiert ( EP 0 363 233 B1 bzw. US 005327498 A bzw. DE 689 19 673 T2 ).
  • – Multiband Resynthesis Overlap-and-add (MBROLA) vormalig Multiband Resynthesis Pitch-Synchronous Overlap-and-Add (MBR-PSOLA). Dieses Verfahren wurde 1997 unter anderem Namen durch Thierry Dutoit et al. angemeldet sowie patentiert ( US 005987413 A bzw. DE 697 20 861 T2 ).
In a second step, certain suprasegmental - in particular prosodic - target parameters, such as the fundamental frequency characteristic, the segment durations or the intensity profile, are subsequently impressed on the resulting speech signal units. In a third step, the interlinking points between the speech signal units are adapted to each other by means of a filtering or smoothing. The second and third processing steps are conventionally carried out with the following synthesis methods:
  • - Time Domain Pitch-Synchronous Overlap-and-Add (TD-PSOLA). This process was filed in 1988 and 1989 under different names by France Telecom and later patented ( EP 0 363 233 B1 respectively. US 005327498 A respectively. DE 689 19 673 T2 ).
  • - Multiband resynthesis overlap-and-add (MBROLA) formerly multiband resynthesis pitch-synchronous overlap-and-add (MBR-PSOLA). This method was named in 1997 by Thierry Dutoit et al. registered and patented ( US 005987413 A respectively. DE 697 20 861 T2 ).

Nachteilig bei diesen Verfahren zur prosodischen Manipulation ist, dass aufgrund der sequentiellen Abfolge der Verarbeitungsschritte bei der Sprachsynthese, ein hoher Bedarf an Speicher- und Rechenleistungskapazitäten erforderlich wird. Dies erschwert einen breiten Einsatz von Sprachsynthesesystemen im Bereich integrierter Technologien. Außerdem führt die sequentielle Sprachsignalverarbeitung zu einer reduzierten Hörqualität, da jeder Verarbeitungsschritt potentiell zu einer Signalverschlechterung beiträgt.adversely in these methods for prosodic manipulation is that due the sequential sequence of processing steps in speech synthesis, a high demand for memory and computing power capacities is required becomes. This makes a wide use of speech synthesis systems difficult in the field of integrated technologies. In addition, the sequential voice signal processing leads to a reduced listening quality, since every processing step potentially contributes to signal degradation.

Ein weiteres Verfahren zur prosodischen Manipulation ist aus der Druckschrift DE 195 03 419 A1 bekannt, bei dem in Abhängigkeit von einer jeweils empfangenen Verkehrsmeldung aus mehreren gespeicherten Trägersätzen ein Trägersatz ausgewählt wird, und in offene Positionen des Trägersatzes ortsbezogene und ereignisbezogene Wörter und/oder Sätze eingesetzt werden, die von den Ortscodes und Ereigniscodes der empfangenen Verkehrsmeldung abgeleitet werden. Die ermittelten Sätze werden über ein Sprachsynthesesystem ausgegeben. Gemäß einem Ausführungsbeispiel werden hierzu codierte Sprachsignale verwendet, welche die Ort, die Ereignissätze und die Trägersätze darstellen. Die codierten Sprachsignale werden einer Übergangsformung innerhalb der Wörter unterzogen, worauf nach einem Zusammenfügen der Bestandteile der Verkehrsmeldung eine Übergangsformung zwischen den Wörtern erfolgt. Üblicherweise werden bei einer Übergangsformung die Verkettungsstellen zwischen den Sprachsignaleinheiten mittels einer Filterung bzw. Glättung einander angepasst. Eine Kenntnis von Periodenmarkierungen ist hierzu nicht erforderlich.Another method for prosodic manipulation is from the document DE 195 03 419 A1 in which, depending on a respective received traffic message from a plurality of stored carrier sets a carrier set is selected, and in open positions of the carrier set location-related and event-related words and / or sentences are used, which are derived from the location codes and event codes of the received traffic message. The determined sentences are output via a speech synthesis system. According to one embodiment, coded speech signals representing the location, the event sets and the carrier sets are used for this purpose. The coded speech signals undergo transitional shaping within the words, whereupon, after joining the components of the traffic message, there is transitional shaping between the words. Usually, in a transitional formation, the concatenation points between the speech signal units are matched to one another by means of a filtering or smoothing. A knowledge of period markers is not required.

Ein weiteres Verfahren zur koartikulationsgerechten Konkatination von Audiosegmenten ist in der Druckschrift WO 00/11647 A1 offenbart. Hierbei werden Informationen zu Koartikulationseffekten oder Sprachstilen (u.a. Flüstern, Betonung, emotionaler Ausdruck) in codierter Form zusammen mit den entsprechenden Audiosegmenten gespeichert, um so bei der Auswahl der Audiosegmentbereiche nur solche zu wählen, die den übergeordneten Koartikulationseigenschaften der zeitlich vor- und/oder nachgelagerten Audiosegmentbereichen entsprechen. Es werden demzufolge Informationen bezüglich der Prosodie, übergeordneten Koartikulationen und Übergangsfunktionen in codierter Form mit abgespeichert, um bei einer späteren Verwendung eine zusätzliche Verbesserung der Sprachqualität erzielen zu können.Another method for coarticulation-compatible concatination of audio segments is disclosed in the publication WO 00/11647 A1. Here, information on Koartikulationseffekten or speech styles (including whispering, stress, emotional expression) are stored in coded form together with the corresponding audio segments, so as to select in the selection of the audio segment areas only those that the parent Koartikulationseigenschaften the temporally upstream and / or downstream Correspond to audio segment ranges. Consequently, information relating to the prosody, superordinate co-articulations and transition functions is stored in coded form in order to be used in later use additional improvement in voice quality.

Ein weiteres Verfahren zur prosodischen Manipulation ist in der Druckschrift US 6,195,632 B1 offenbart, bei dem die Grundfrequenzperioden markiert werden und daraufhin die prosodische Manipulation durchgeführt wird.Another method for prosodic manipulation is in the document US 6,195,632 B1 discloses in which the fundamental frequency periods are marked and then the prosodic manipulation is performed.

Eine Aufgabe der vorliegenden Erfindung ist es daher, ein Verfahren anzugeben, mit dem eine integrierte Sprachsynthese ermöglicht wird, um somit den erforderlichen Speicherplatz und die benötigte Rechenleistung zu reduzieren.A The object of the present invention is therefore to specify a method with which an integrated speech synthesis is made possible, thus the required Storage space and the required computing power to reduce.

Eine weitere Aufgabe der vorliegenden Erfindung ist es, ein Verfahren anzugeben, mit dem auf ein Sprachsignal bestimmte suprasegmentale – vor allem prosodische – Zielparameter, wie der Grundfrequenzverlauf (Sprechmelodie), die Segmentdauer (rhythmische Struktur) oder der Intensitätsverlauf (Lautstärke) möglichst Speicherplatz und Rechenleistung sparend aufgeprägt werden können.A Another object of the present invention is a method specify with the suprasegmentale specific to a speech signal - especially prosodic - target parameters, as the fundamental frequency response (speech melody), the segment duration (rhythmic Structure) or the intensity curve (volume) as possible Memory and computing power can be impressed saving.

Erfindungsgemäß wird diese Aufgabe durch ein Verfahren mit den in Anspruch 1 angegebenen Merkmalen und ein Computerprogrammprodukt mit den in Anspruch 13 angegebenen Merkmalen gelöst. Vorteilhafte Weiterbildungen der vorliegenden Erfindung sind in den abhängigen Ansprüchen angegeben.According to the invention this Task by a method having the features specified in claim 1 and a computer program product as recited in claim 13 Characteristics solved. advantageous Further developments of the present invention are specified in the dependent claims.

Gemäß der vorliegenden Erfindung werden in einer Datenbasis codierte Sprachsignaleinheiten aus einem vorgebbaren Text gefunden. Anschließend wird eine prosodische Manipulation der codierten Sprachsignaleinheiten vorgenommen. Anfang und Ende einer Periodenlänge einer uncodierten Sprachsignaleinheit sind durch Periodenmarkierungen in der codierten Sprachsignaleinheit gekennzeichnet und die prosodische Manipulation erfolgt synchron zu den Periodenmarkierungen.According to the present Invention are in a database coded speech signal units Found a predefinable text. Subsequently, a prosodic Manipulation of the coded speech signal units made. Beginning and End of a period length an uncoded speech signal unit are by period marks in the coded speech signal unit and the prosodic Manipulation takes place synchronously with the period markings.

Entsprechend einer vorteilhaften Weiterbildung der vorliegenden Erfindung erfolgt die prosodische Manipulation während einer Decodierung durch einen Decodieralgorithmus. Durch die parallel ausgeführten Algorithmen kann die Rechenkomplexität erheblich reduziert werden, wodurch eine schnellere Verarbeitung ermöglicht wird. Außerdem entfällt die Zwischenspeicherung von Synthesezuständen der Sprachsignaleinheiten an Modulgrenzen, woraus eine Senkung des dynamischen Speicherplatzbedarfs und eine weitere Reduzierung der Rechenkomplexität resultiert.Corresponding an advantageous development of the present invention takes place the prosodic manipulation during a decoding by a decoding algorithm. Through the parallel executed Algorithms can significantly reduce the computational complexity, allowing for faster processing. In addition, caching is eliminated of synthetic states the speech signal units at module boundaries, resulting in a reduction of the dynamic storage space requirements and a further reduction of the computational complexity results.

Entsprechend einer weiteren vorteilhaften Weiterbildung der vorliegenden Erfindung wird der Decodieralgorithmus als Adaptive-Multi-Rate-Narrowband-(AMR-NB)-Algorithmus und/oder als Adaptive-Multi-Rate-Wideband-(AMR-WB)-Algorithmus ausgeführt. Die Verwendung dieser speicheroptimierten, skalierbaren Codierungs-/Decodierungsalgorithmen ermöglicht eine starke und variable Kompression der Sprachsignaleinheiten-Datenbasis, wobei die Struktur der Sprachsignaleinheiten weitgehend irrelevant ist.Corresponding a further advantageous embodiment of the present invention For example, the decoding algorithm is an Adaptive Multi-Rate Narrowband (AMR-NB) algorithm and / or as an adaptive multi-rate wideband (AMR-WB) algorithm. The Use of these memory-optimized, scalable encoding / decoding algorithms allows a strong and variable compression of the speech signal unit database, the structure of the speech signal units is largely irrelevant is.

Eine erste Möglichkeit die Periodenmarkierungen der codierten Sprachsignaleinheit zu bestimmen, ist die Berechnung aus der Pitch-Verzögerung. Die Pitch-Verzögerung gibt den Abstand vom Anfang/Ende einer Blocklänge des Decodieralgorithmus zum Anfang/Ende einer Periode an. Aus der Differenz der Abtastzeitpunkte am Anfang einer Blocklänge und der zugehörigen Pitch-Verzögerungen erhält man die Periodenmarkierungen.A first option to determine the period marks of the coded speech signal unit is the calculation from the pitch lag. The pitch delay gives the distance from the beginning / end of a block length of the decoding algorithm to the beginning / end of a period. From the difference of sampling times at the beginning of a block length and the associated Pitch lags receives one the period marks.

Eine zweite Möglichkeit ist, die Periodenmarkierungen der uncodierten Sprachsignaleinheiten beim Codierungsvorgang den codierten Sprachsignaleinheiten aufzuprägen. Die Periodenmarkierungen der uncodierten Sprachsignaleinheiten können beispielsweise mit Hilfe eines Laryngographsignals ermittelt werden. Mit einem Laryngograph kann man die periodischen Anteile eines Sprachsignals durch Messungen des elektrischen Widerstands am Kehlkopf eines Sprechers bestimmen. Des weiteren können die Periodenmarkierungen der uncodierten Sprachsignaleinheiten mit einem Pitch- Tracking Algorithmus bestimmt werden. Dieser ermittelt periodische Strukturen innerhalb eines Sprachsignalsegments mit einer speziellen Autokorrelationsfunktion.A second option is the period marks of the uncoded speech signal units in Imprint encoding process the coded speech signal units. The Period markers of the uncoded speech signal units may be, for example be determined by means of a laryngograph signal. With a Laryngograph one can see the periodic parts of a speech signal by measurements of the electrical resistance at the larynx of a speaker determine. Furthermore, you can the period marks of the uncoded speech signal units with be determined by a pitch tracking algorithm. This determined periodic structures within a speech signal segment with a special autocorrelation function.

Eine dritte Möglichkeit ist die Verwendung von einheitlichen Periodenlängen der codierten Sprachsignaleinheiten. Diese werden durch eine Vereinheitlichung der Periodenlängen der uncodierten Sprachsignaleinheiten vor dem Codiervorgang erhalten. Diese periodenmarkenfreie und äquidistante Abspeicherung der Sprachsignaleinheiten führt zu einer weiteren Reduktion des Speicherbedarfs und der Rechenzeit.A third possibility is the use of uniform period lengths of coded speech signal units. These are characterized by a standardization of the period lengths of received uncoded speech signal units before the encoding process. This period mark-free and equidistant Storing the speech signal units leads to a further reduction the memory requirement and the computing time.

Eine weitere vorteilhafte Wirkung ergibt sich, wenn die einheitlichen Periodenlängen der codierten Sprachsignaleinheiten mit der Blocklänge des Decodieralgorithmus übereinstimmen. Hierdurch laufen Decodierung und proiodische Manipulation vollsynchron ab, woraus eine weitere Verringerung der Rechenzeit resultiert.A further advantageous effect arises when the uniform period lengths the coded speech signal units with the block length of Decoding algorithm match. As a result, decoding and periodic manipulation are fully synchronized from which a further reduction of the computing time results.

Gemäß einer weiteren Ausbildung der vorliegenden Erfindung wird die für die prosodische Manipulation vorzunehmende Änderung der Periodenlänge der codierten Sprachsignaleinheiten mit einem Overlap-and-Add Verfahren im Frequenz- oder Zeitbereich durchgeführt. Hierbei teilt man beispielsweise das zu manipulierende Sprachsignalsegment durch eine Fensterung in Abschnitte auf, setzt die Abschnitte zeitversetzt zusammen und addiert die überlappenden Abtastwerte.According to a further embodiment of the present invention, the change of the period length of the coded speech signal units to be undertaken for the prosodic manipulation is carried out with an overlap-and-add method in the frequency or time domain. Here you divide beispielswei By segmenting the speech signal segment to be manipulated by windowing, the segments are time-shifted and add the overlapping samples.

Weitere Verfahren zur prosodischen Manipulation sind Resampling-Verfahren oder ein Auffüllen mit Nullwerten bzw. einem Beschneiden der codierten Sprachsignaleinheiten. Die Flexibilität bei der Auswahl eines Verfahrens zur prosodischen Manipulation der codierten Sprachsignaleinheiten hat die vorteilhafte Wirkung, dass je nach qualitativer Anforderung die notwendige Modifikation der Periodenlänge durch ein daran angepasstes Verfahren erfolgen kann.Further Methods for prosodic manipulation are resampling procedures or a padding with Zero values or a truncation of the coded speech signal units. The flexibility in the selection of a method for prosodic manipulation of coded speech signal units has the advantageous effect that depending on the qualitative requirement the necessary modification of the period length by a procedure adapted to it.

Bei der Ausführung des erfindungsgemäßen Computerprogrammprodukts wird eine prosodische Manipulation von codierten Sprachsignaleinheiten vorgenommen, wenn das Steuerungsprogramm in der Programmablaufsteuerungseinrichtung abläuft.at the execution of the computer program product according to the invention a prosodic manipulation of coded speech signal units is performed, if the control program in the program scheduler expires.

Die vorliegende Erfindung wird nachfolgend an einem Ausführungsbeispiel anhand der Zeichnungen näher erläutert. Es zeigtThe The present invention will become more apparent from an embodiment closer to the drawings explained. It shows

1 eine schematische Darstellung eines Adaptive-Multi-Rate-(AMR)-Codierungsverfahrens, 1 a schematic representation of an adaptive multi-rate (AMR) coding method,

2 eine schematische Darstellung eines integrierten Sprachsyntheseverfahrens mit AMR-Decodierung gemäß der vorliegenden Erfindung, 2 a schematic representation of an integrated speech synthesis method with AMR decoding according to the present invention,

3 eine schematische Darstellung eines integrierten Sprachsyntheseverfahrens mit AMR-WB-Decodierung gemäß der vorliegenden Erfindung. 3 a schematic representation of an integrated speech synthesis method with AMR-WB decoding according to the present invention.

Als Codierungs-/Decodierungsverfahren (Codec) werden in diesem Ausführungsbeispiel die zwischen 1999 und 2000 von der ETSI/3GPP standardisierten Codec-Verfahren Adaptive Multi-Rate Narrowband (AMR-NB) bzw. Adaptive Multi-Rate Wideband (AMR-WB, G.722.2) verwendet. Beide Verfahren basieren auf dem Verfahren Algebraic Code Excited Linear Prediction (ACELP, ITU-T G.723.1).When Coding / decoding methods (codec) are used in this embodiment the codec procedures standardized between 1999 and 2000 by the ETSI / 3GPP Adaptive Multi-Rate Narrowband (AMR-NB) or Adaptive Multi-Rate Wideband (AMR-WB, G.722.2). Both methods are based on the method Algebraic Code Excited Linear Prediction (ACELP, ITU-T G.723.1).

Der AMR-NB-Codec verarbeitet Signale mit einer Bandbreite von 8 kHz und ermöglicht acht verschiedene Kompressionsstufen bzw. Datenraten. Bei der Decodierung werden die hierfür benötigten Informationen paketweise an den Decoder übertragen. Aus diesen Informationen werden ein Residualsignal und Filterkoeffizienten für ein Synthesefilter extrahiert. Anhand des Residualsignals und der Filterkoeffizienten kann das Sprachsignal synthetisiert werden.Of the AMR NB codec processes signals with a bandwidth of 8 kHz and allows eight different compression levels or data rates. In the decoding Be the one for this required Transfer information in packets to the decoder. From this information become a residual signal and filter coefficients for a synthesis filter extracted. Based on the residual signal and the filter coefficients the speech signal can be synthesized.

Der AMR-WB-Codec verarbeitet Signale mit einer Bandbreite von 16 kHz und funktioniert analog dem AMR-NB-Codec. Wie oben beschrieben, wird das Sprachsignal durch Filtern des Residualsignals mit den Filterkoeffizienten in diesem Fall bei einer Bandbreite von 12,8 kHz synthetisiert. Anschließend wird das Signal auf eine Bandbreite von 16 kHz umgetastet.Of the AMR-WB codec processes signals with a bandwidth of 16 kHz and works in the same way as the AMR NB codec. As described above, the speech signal is filtered by filtering the residual signal with the Filter coefficients in this case at a bandwidth of 12.8 kHz synthesized. Subsequently, will the signal is keyed to a 16 kHz bandwidth.

Gemäß der vorliegenden Erfindung werden die Decodieralgorithmen AMR-NB bzw. AMR-WB so modifiziert, dass bereits während der Decodierung eine prosodische Manipulation von Sprachsignaleinheiten erfolgt. Die prosodische Manipulation erfolgt dabei direkt vor dem Filtern durch Manipulation des Residualsignals und synchron zu den Periodenmarkierungen, die Anfang und Ende der Periodenlänge einer Sprachsignaleinheit kennzeichnen. Hierzu muss das ursprüngliche Residualsignal mit konstanter Blocklänge (n = 40) zwischengepuffert werden, um die variablen Signallängen entsprechend den Periodenlängen zu generieren.According to the present Invention, the decoding algorithms AMR-NB and AMR-WB are modified that already during the decoding a prosodic manipulation of speech signal units he follows. The prosodic manipulation takes place directly before the Filter by manipulating the residual signal and in sync with the Period markers, the beginning and end of the period length of a Mark the speech signal unit. For this, the original must Residual signal with constant block length (n = 40) buffered be to the variable signal lengths according to the period lengths to generate.

In dem in 1 dargestellten Codierungsverfahren werden die uncodierten Sprachsignaleinheiten einer Datenbasis/eines Inventars 101, wie beispielsweise Diphone oder Triphone, durch einen AMR Codierer 102 codiert. Somit steht eine Datenbasis/ein Inventar 103 mit codierten Sprachsignaleinheiten zur Verfügung.In the in 1 The coding methods illustrated are the uncoded speech signal units of a database / an inventory 101 , such as diphones or triphones, through an AMR encoder 102 coded. Thus, there is a database / inventory 103 with coded speech signal units available.

Bei dem in 2 veranschaulichten Verfahren werden in einem ersten Schritt codierte Sprachsignaleinheiten eines vorgebaren Textes aus einer Datenbasis 201 ermittelt. In einem Sprachsyntheseblock 202 wird aus diesen Sprachsignaleinheiten ein Sprachsignal synthetisiert. In einem zweiten Schritt werden hierzu in einem Parameterdecoder 203 aus den codierten Sprachsignaleinheiten ein Residualsignal e(t) und Filterkoeffizienten A(z) extrahiert. In einem dritten Schritt wird die Periodenlänge des Residualsignals e(t) mit einem prosodischen Manipulator 204 modifiziert. Hierbei wird beispielsweise ein Overlap-and-Add Verfahren oder ein Resampling Verfahren angewendet. Das manipulierte Residualsignal und die Filterkoeffizienten A(z) werden einem Synthesefilter 205 zugeführt, der das Sprachsynthesesignal s(t) synthetisiert.At the in 2 Illustrated methods are in a first step encoded speech signal units of a vorgebaren text from a database 201 determined. In a speech synthesis block 202 From these speech signal units, a speech signal is synthesized. In a second step, this is done in a parameter decoder 203 extracted from the coded speech signal units a residual signal e (t) and filter coefficients A (z). In a third step, the period length of the residual signal e (t) with a prosodic manipulator 204 modified. In this case, for example, an overlap-and-add method or a resampling method is used. The manipulated residual signal and the filter coefficients A (z) become a synthesis filter 205 which synthesizes the speech synthesis signal s (t).

In 3 wird der Unterschied bei einer Verwendung eines AMR-WB Algorithmus anstatt eines AMR-NB Algorithmus für die integrierte Sprachsynthese veranschaulicht. Analog zum Verfahren mit einem AMR-NB Algorithmus zeigt es die Parameterdecodierung 301 mit einer Extrahierung des Residualsignals e(n) und der Filterkoeffizienten A(z), eine anschließende Modifikation der Periodenlängen der codierten Sprachsignaleinheiten durch einen prosodischen Manipulator 302 und die Synthetisierung des Sprachsignals anhand eines Synthesefilters 303. Zusätzlich wird bei einer integrierten Sprachsynthese unter Verwendung eines AMR-WB Algorithmus das synthetisierte Sprachsignal s'(n) mit einer Bandbreite von 12,8 kHz in einem weiteren Prozessschritt 304 umgetastet, so dass das resulierende synthetisierte Sprachsignal s(n) eine Bandbreite von 16 kHz aufweist.In 3 illustrates the difference in using an AMR-WB algorithm rather than an AMR-NB integrated speech synthesis algorithm. Analogous to the method with an AMR-NB algorithm, it shows the parameter decoding 301 with an extraction of the residual signal e (n) and the filter coefficients A (z), a subsequent modification of the period lengths of the coded speech signal units by a prosodic manipulator 302 and synthesizing the speech signal using a synthesis filter 303 , In addition, with an integrated speech synthesis using an AMR-WB algorithm, the synthesized speech signal s' (n) with a bandwidth of 12.8 kHz in a further process step 304 keyed so that the resulting synthesized speech signal s (n) has a bandwidth of 16 kHz.

Claims (13)

Verfahren zur Sprachsynthese mit einer Datenbasis, in der codierte Sprachsignaleinheiten aus einem vorgebbaren Text gefunden werden, eine prosodische Manipulation der codierten Sprachsignaleinheiten vorgenommen wird, dadurch gekennzeichnet dass Anfang und Ende einer Periodenlänge einer uncodierten Sprachsignaleinheit durch Periodenmarkierungen in der codierten Sprachsignaleinheit gekennzeichnet sind und die prosodische Manipulation synchron zu den Periodenmarkierungen erfolgt.Method for speech synthesis with a database in which coded speech signal units are found from a predefinable text, a prosodic manipulation of the coded speech signal units is performed, characterized in that the beginning and end of a period length of an uncoded speech signal unit by period marks in the coded speech signal unit and the prosodic manipulation takes place synchronously with the period markings. Verfahren nach Anspruch 1, wobei die prosodische Manipulation während einer Decodierung durch einen Decodieralgorithmus erfolgt.The method of claim 1, wherein the prosodic Manipulation during a decoding by a decoding algorithm. Verfahren nach Anspruch 2, wobei der Decodieralgorithmus als Adaptive-Multi-Rate-Narrowband Algorithmus und/oder als Adaptive-Multi-Rate-Wideband Algorithmus ausgeführt ist.The method of claim 2, wherein the decoding algorithm as an adaptive multi-rate narrowband algorithm and / or as an adaptive multi-rate wideband Algorithm executed is. Verfahren nach Anspruch 1, wobei die Periodenmarkierungen der codierten Sprachsignaleinheit aus der Pitch- Verzögerung berechnet werden.The method of claim 1, wherein the period marks of the coded speech signal unit calculated from the pitch delay become. Verfahren nach Anspruch 1, wobei die Periodenmarkierungen der uncodierten Sprachsignaleinheit beim Codierungsvorgang der codierten Sprachsignaleinheit aufgeprägt werden.The method of claim 1, wherein the period marks the uncoded speech signal unit in the encoding process of the coded Voice signal unit imprinted become. Verfahren nach Anspruch 5, wobei die Periodenmarkierungen der uncodierten Sprachsignaleinheit mit Hilfe eines Laryngographsignals ermittelt werden.The method of claim 5, wherein the period marks the uncoded speech signal unit with the aid of a laryngograph signal be determined. Verfahren nach Anspruch 5, wobei die Periodenmarkierungen der uncodierten Sprachsignaleinheit mit Hilfe eines Pitch-Tracking-Algorithmus ermittelt werden.The method of claim 5, wherein the period marks the uncoded speech signal unit using a pitch tracking algorithm be determined. Verfahren nach Anspruch 1, wobei einheitliche Periodenlängen der codierten Sprachsignaleinheiten verwendet werden, die durch eine Vereinheitlichung der Periodenlängen der uncodierten Sprachsignaleinheiten vor dem Codiervorgang erhalten werden.The method of claim 1, wherein uniform period lengths of coded speech signal units are used by a Unification of the period lengths the uncoded voice signal units obtained before the encoding process become. Verfahren nach Anspruch 8, wobei die einheitlichen Periodenlängen der codierten Sprachsignaleinheiten mit der Blocklänge des Decodieralgorithmus übereinstimmen.The method of claim 8, wherein the uniform period lengths the coded speech signal units with the block length of Decoding algorithm match. Verfahren nach mindestens einem der Ansprüche 1 bis 3, wobei die für die prosodische Manipulation vorzunehmende Änderung der Periodenlänge der codierten Sprachsignaleinheit mit einem Overlap-and-Add Verfahren im Frequenz- oder Zeitbereich durchgeführt wird.Method according to at least one of claims 1 to 3, where the for the prosodic manipulation change the period length of the coded speech signal unit with an overlap-and-add method is performed in the frequency or time domain. Verfahren nach mindestens einem der Ansprüche 1 bis 3, wobei die für die prosodische Manipulation vorzunehmende Änderung der Periodenlänge der codierten Sprachsignaleinheit mit einem Resampling Verfahren durchgeführt wird.Method according to at least one of claims 1 to 3, where the for the prosodic manipulation change the period length of the coded speech signal unit is performed with a resampling method. Verfahren nach mindestens einem der Ansprüche 1 bis 3, wobei die für die prosodische Manipulation vorzunehmende Änderung der Periodenlänge der codierten Sprachsignaleinheit mittels eines Auffüllen mit Nullwerten und/oder einem Beschneiden der codierten Sprachsignaleinheiten durchgeführt wird.Method according to at least one of claims 1 to 3, where the for the prosodic manipulation change the period length of the coded speech signal unit by means of a filling with zero values and / or a truncation of the coded speech signal units is performed. Computerprogrammprodukt, das in einen Arbeitspeicher einer Programmablaufsteuerungseinrichtung ladbar ist und zumindest einen Codeabschnitt aufweist, bei dessen Ausführung eine prosodische Manipulation von codierten Sprachsignaleinheiten vorgenommen wird, dadurch gekennzeichnet dass Anfang und Ende einer Periodenlänge einer uncodierten Sprachsignaleinheit durch Periodenmarkierungen in der codierten Sprachsignaleinheit gekennzeichnet sind und die prosodische Manipulation synchron zu den Periodenmarkierungen erfolgt, wenn das Steuerungsprogramm in der Programmablaufsteuerungseinrichtung abläuft.Computer program product stored in a working memory a program sequence control device is loadable and at least a code section, in its execution a prosodic manipulation made of coded speech signal units, characterized in that Beginning and end of a period length an uncoded speech signal unit by period marks are characterized in the coded speech signal unit and the prosodic manipulation takes place synchronously with the period marks when the control program in the program scheduler expires.
DE200410044649 2004-09-15 2004-09-15 Speech synthesis using database containing coded speech signal units from given text, with prosodic manipulation, characterizes speech signal units by periodic markings Expired - Fee Related DE102004044649B3 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE200410044649 DE102004044649B3 (en) 2004-09-15 2004-09-15 Speech synthesis using database containing coded speech signal units from given text, with prosodic manipulation, characterizes speech signal units by periodic markings

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE200410044649 DE102004044649B3 (en) 2004-09-15 2004-09-15 Speech synthesis using database containing coded speech signal units from given text, with prosodic manipulation, characterizes speech signal units by periodic markings

Publications (1)

Publication Number Publication Date
DE102004044649B3 true DE102004044649B3 (en) 2006-05-04

Family

ID=36202095

Family Applications (1)

Application Number Title Priority Date Filing Date
DE200410044649 Expired - Fee Related DE102004044649B3 (en) 2004-09-15 2004-09-15 Speech synthesis using database containing coded speech signal units from given text, with prosodic manipulation, characterizes speech signal units by periodic markings

Country Status (1)

Country Link
DE (1) DE102004044649B3 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102008028765A1 (en) * 2008-06-17 2009-12-24 Wladimir Baran Arterial blood pressure measuring device for use by e.g. blind person, has timer providing delay using additional command of processor, where command is registered in program for functioning of device

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE68919637T2 (en) * 1988-09-02 1995-07-20 France Telecom Method and device for speech synthesis by covering and summing waveforms.
DE19503419A1 (en) * 1995-02-03 1996-08-08 Bosch Gmbh Robert Method and device for outputting digitally coded traffic reports using synthetically generated speech
WO2000011647A1 (en) * 1998-08-19 2000-03-02 Christoph Buskies Method and device for the concatenation of audiosegments, taking into account coarticulation
US6195632B1 (en) * 1998-11-25 2001-02-27 Matsushita Electric Industrial Co., Ltd. Extracting formant-based source-filter data for coding and synthesis employing cost function and inverse filtering
DE69720861T2 (en) * 1996-06-10 2004-02-05 Faculté Polytechnique de Mons Methods of sound synthesis

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE68919637T2 (en) * 1988-09-02 1995-07-20 France Telecom Method and device for speech synthesis by covering and summing waveforms.
DE19503419A1 (en) * 1995-02-03 1996-08-08 Bosch Gmbh Robert Method and device for outputting digitally coded traffic reports using synthetically generated speech
DE69720861T2 (en) * 1996-06-10 2004-02-05 Faculté Polytechnique de Mons Methods of sound synthesis
WO2000011647A1 (en) * 1998-08-19 2000-03-02 Christoph Buskies Method and device for the concatenation of audiosegments, taking into account coarticulation
US6195632B1 (en) * 1998-11-25 2001-02-27 Matsushita Electric Industrial Co., Ltd. Extracting formant-based source-filter data for coding and synthesis employing cost function and inverse filtering

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102008028765A1 (en) * 2008-06-17 2009-12-24 Wladimir Baran Arterial blood pressure measuring device for use by e.g. blind person, has timer providing delay using additional command of processor, where command is registered in program for functioning of device

Similar Documents

Publication Publication Date Title
DE4237563C2 (en) Method for synthesizing speech
DE602004007786T2 (en) METHOD AND DEVICE FOR QUANTIZING THE GAIN FACTOR IN A VARIABLE BITRATE BROADBAND LANGUAGE CODIER
EP1825461B1 (en) Method and apparatus for artificially expanding the bandwidth of voice signals
DE69521955T2 (en) Method of speech synthesis by chaining and partially overlapping waveforms
DE60122203T2 (en) METHOD AND SYSTEM FOR GENERATING CONFIDENTIALITY IN LANGUAGE COMMUNICATION
DE69620399T2 (en) VOICE SYNTHESIS
DE60006271T2 (en) CELP VOICE ENCODING WITH VARIABLE BITRATE BY MEANS OF PHONETIC CLASSIFICATION
DE60214358T2 (en) TIME CALENDAR MODIFICATION OF SIGNALS WITH SPECIFIC PROCEDURE ACCORDING TO DETERMINED SIGNAL TYPE
DE69535723T2 (en) METHOD AND DEVICE FOR LANGUAGE CODING WITH REDUCED, VARIABLE BITRATE
DE60219351T2 (en) SIGNAL MODIFICATION METHOD FOR EFFICIENT CODING OF LANGUAGE SIGNALS
DE60012198T2 (en) ENCODING THE CORD OF THE SPECTRUM BY VARIABLE TIME / FREQUENCY RESOLUTION
DE69915830T2 (en) IMPROVED METHODS FOR RECOVERING LOST DATA FRAMES FOR AN LPC BASED, PARAMETRIC LANGUAGE CODING SYSTEM.
DE69727895T2 (en) Method and apparatus for speech coding
DE19610019C2 (en) Digital speech synthesis process
DE69900786T2 (en) VOICE CODING
DE60128479T2 (en) METHOD AND DEVICE FOR DETERMINING A SYNTHETIC HIGHER BAND SIGNAL IN A LANGUAGE CODIER
DE69713712T2 (en) Speech encoder with sinus analysis and fundamental frequency control
DE69524890T2 (en) Parametric speech coding
DE60309651T2 (en) Method for speech coding by means of generalized analysis by synthesis and speech coder for carrying out this method
DE69612958T2 (en) METHOD AND DEVICE FOR RESYNTHETIZING A VOICE SIGNAL
DE69615870T2 (en) Speech encoder with features extracted from current and previous frames
DE69629485T2 (en) COMPRESSION SYSTEM FOR REPEATING TONES
DE19861167A1 (en) Method and device for concatenation of audio segments in accordance with co-articulation and devices for providing audio data concatenated in accordance with co-articulation
DE69703233T2 (en) Methods and systems for speech coding
DE102004044649B3 (en) Speech synthesis using database containing coded speech signal units from given text, with prosodic manipulation, characterizes speech signal units by periodic markings

Legal Events

Date Code Title Description
8100 Publication of the examined application without publication of unexamined application
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee