DE102004044649B3

DE102004044649B3 - Speech synthesis using database containing coded speech signal units from given text, with prosodic manipulation, characterizes speech signal units by periodic markings

Info

Publication number: DE102004044649B3
Application number: DE200410044649
Authority: DE
Inventors: Rüdiger Prof. Hoffmann; Oliver Jokisch; Guntram Strecha; Thomas Volk
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2004-09-15
Filing date: 2004-09-15
Publication date: 2006-05-04
Anticipated expiration: 2024-09-16

Abstract

Start and end of a period (duration) of an uncoded speech signal unit are characterized by periodic markings in the coded speech signal unit and prosodic manipulation is effected synchronously with periodic marking. This prosodic manipulation takes place during decoding, which uses a dedicated decoding algorithm. Periodic marking of the coded speech signal unit is calculated from pitch delay. Marking is impressed during the coding operation for the speech signal unit. Periodic markings are determined with the aid of a Laryngograph signal. An independent claim is included for a computer program product causing a processor to carry out a prosodic manipulation of coded speech signals.

Description

Die vorliegende Erfindung betrifft ein Verfahren zur integrierten Sprachsynthese.The The present invention relates to a method for integrated speech synthesis.

Zur textbasierten, sprachlichen Informationsausgabe in technischen Anwendungen werden Systeme zur Sprachsynthese eingesetzt. Typische Anwendungen sind stationäre und mobile Telekommunikationssysteme, automatische Auskunftsdienste, Ansagedienste im Bereich Verkehrstelematik, sprachgestützte Bedienterminals, automatische Dolmetschsysteme sowie Vorlesesysteme für Sehbehinderte. Vor allem die beschränkte Displaygröße in typischen mobilen Geräten, wie Mobiltelefon oder PDA, erfordert eine sprachliche Informationsausgabe.to text-based, linguistic information output in technical applications systems are used for speech synthesis. Typical applications are stationary and mobile telecommunication systems, automatic directory inquiry services, announcement services in the field of traffic telematics, voice-based operator terminals, automatic Interpreting systems and reading systems for the visually impaired. Especially the limited Display size in typical mobile devices, like mobile phone or PDA, requires a linguistic information output.

Sprachsynthesesysteme sind sehr unterschiedlich konzipiert, beispielsweise als Text-to-Speech-(TTS) oder Concept-to-Speech-System (CTS). Sie benötigen aber stets einen akustischen Synthesemodul, welcher unter Verwendung einer zuvor aufgezeichneten und segmentierten Sprachsignaleinheiten-Datenbasis oder mittels gespeicherter, sprachlicher Ansteuerparameter ein geschlossenes Sprachsignal generiert. Um eine hohe Verständlichkeit und Natürlichkeit des akustischen Sprachsignals zu erzielen, werden seit den 1990iger Jahren in der Regel konkatenative Syntheseverfahren mittels Verkettung kürzerer Sprachsignaleinheiten verwendet. üblicherweise werden hierbei in einem ersten Schritt die Sprachsignaleinheiten decodiert. Die Decodierung basiert in der Regel auf folgenden klassischen Verfahren aus der Nachrichtentechnik, welche in den Recommendations der International Telecommunication Union beschrieben sind und als Quasi-Standard anzusehen sind:

– Nichtlineare Kennlinie gemäß a-Law oder u-Law (ITU-T G.711),
– ADPCM (ITU-T G.721, G.726, G.727).

Speech synthesis systems are designed very differently, for example as text-to-speech (TTS) or concept-to-speech system (CTS). However, they always require an acoustic synthesis module which generates a closed speech signal using a previously recorded and segmented speech signal unit database or by means of stored speech control parameters. In order to achieve a high degree of intelligibility and naturalness of the acoustic speech signal, concatenative synthesis methods by means of concatenation of shorter speech signal units have generally been used since the 1990s. Usually, in this case, the speech signal units are decoded in a first step. The decoding is usually based on the following classical methods of communications engineering, which are described in the Recommendations of the International Telecommunication Union and should be regarded as quasi-standard:

Non-linear characteristic according to a-Law or u-Law (ITU-T G.711),
- ADPCM (ITU-T G.721, G.726, G.727).

In einem zweiten Schritt werden auf die resultierenden Sprachsignaleinheiten bestimmte suprasegmentale – insbesondere prosodische – Zielparameter, wie der Grundfrequenzverlauf, die Segmentdauern oder der Intensitätsverlauf nachträglich aufgeprägt. In einem dritten Schritt werden die Verkettungsstellen zwischen den Sprachsignaleinheiten mittels einer Filterung bzw. Glättung einander angepasst. Der zweite und dritte Verarbeitungsschritt erfolgen konventionell mit folgenden Syntheseverfahren:

– Time-Domain Pitch-Synchronous Overlap-and-Add (TD-PSOLA). Dieses Verfahren wurde 1988 bzw. 1989 unter verschiedenen Namen durch die France Telecom angemeldet und später patentiert ( EP 0 363 233 B1 bzw. US 005327498 A bzw. DE 689 19 673 T2 ).
– Multiband Resynthesis Overlap-and-add (MBROLA) vormalig Multiband Resynthesis Pitch-Synchronous Overlap-and-Add (MBR-PSOLA). Dieses Verfahren wurde 1997 unter anderem Namen durch Thierry Dutoit et al. angemeldet sowie patentiert ( US 005987413 A bzw. DE 697 20 861 T2 ).

In a second step, certain suprasegmental - in particular prosodic - target parameters, such as the fundamental frequency characteristic, the segment durations or the intensity profile, are subsequently impressed on the resulting speech signal units. In a third step, the interlinking points between the speech signal units are adapted to each other by means of a filtering or smoothing. The second and third processing steps are conventionally carried out with the following synthesis methods:

- Time Domain Pitch-Synchronous Overlap-and-Add (TD-PSOLA). This process was filed in 1988 and 1989 under different names by France Telecom and later patented ( EP 0 363 233 B1 respectively. US 005327498 A respectively. DE 689 19 673 T2 ).
- Multiband resynthesis overlap-and-add (MBROLA) formerly multiband resynthesis pitch-synchronous overlap-and-add (MBR-PSOLA). This method was named in 1997 by Thierry Dutoit et al. registered and patented ( US 005987413 A respectively. DE 697 20 861 T2 ).

Nachteilig bei diesen Verfahren zur prosodischen Manipulation ist, dass aufgrund der sequentiellen Abfolge der Verarbeitungsschritte bei der Sprachsynthese, ein hoher Bedarf an Speicher- und Rechenleistungskapazitäten erforderlich wird. Dies erschwert einen breiten Einsatz von Sprachsynthesesystemen im Bereich integrierter Technologien. Außerdem führt die sequentielle Sprachsignalverarbeitung zu einer reduzierten Hörqualität, da jeder Verarbeitungsschritt potentiell zu einer Signalverschlechterung beiträgt.adversely in these methods for prosodic manipulation is that due the sequential sequence of processing steps in speech synthesis, a high demand for memory and computing power capacities is required becomes. This makes a wide use of speech synthesis systems difficult in the field of integrated technologies. In addition, the sequential voice signal processing leads to a reduced listening quality, since every processing step potentially contributes to signal degradation.

Ein weiteres Verfahren zur prosodischen Manipulation ist aus der Druckschrift DE 195 03 419 A1 bekannt, bei dem in Abhängigkeit von einer jeweils empfangenen Verkehrsmeldung aus mehreren gespeicherten Trägersätzen ein Trägersatz ausgewählt wird, und in offene Positionen des Trägersatzes ortsbezogene und ereignisbezogene Wörter und/oder Sätze eingesetzt werden, die von den Ortscodes und Ereigniscodes der empfangenen Verkehrsmeldung abgeleitet werden. Die ermittelten Sätze werden über ein Sprachsynthesesystem ausgegeben. Gemäß einem Ausführungsbeispiel werden hierzu codierte Sprachsignale verwendet, welche die Ort, die Ereignissätze und die Trägersätze darstellen. Die codierten Sprachsignale werden einer Übergangsformung innerhalb der Wörter unterzogen, worauf nach einem Zusammenfügen der Bestandteile der Verkehrsmeldung eine Übergangsformung zwischen den Wörtern erfolgt. Üblicherweise werden bei einer Übergangsformung die Verkettungsstellen zwischen den Sprachsignaleinheiten mittels einer Filterung bzw. Glättung einander angepasst. Eine Kenntnis von Periodenmarkierungen ist hierzu nicht erforderlich.Another method for prosodic manipulation is from the document DE 195 03 419 A1 in which, depending on a respective received traffic message from a plurality of stored carrier sets a carrier set is selected, and in open positions of the carrier set location-related and event-related words and / or sentences are used, which are derived from the location codes and event codes of the received traffic message. The determined sentences are output via a speech synthesis system. According to one embodiment, coded speech signals representing the location, the event sets and the carrier sets are used for this purpose. The coded speech signals undergo transitional shaping within the words, whereupon, after joining the components of the traffic message, there is transitional shaping between the words. Usually, in a transitional formation, the concatenation points between the speech signal units are matched to one another by means of a filtering or smoothing. A knowledge of period markers is not required.

Ein weiteres Verfahren zur koartikulationsgerechten Konkatination von Audiosegmenten ist in der Druckschrift WO 00/11647 A1 offenbart. Hierbei werden Informationen zu Koartikulationseffekten oder Sprachstilen (u.a. Flüstern, Betonung, emotionaler Ausdruck) in codierter Form zusammen mit den entsprechenden Audiosegmenten gespeichert, um so bei der Auswahl der Audiosegmentbereiche nur solche zu wählen, die den übergeordneten Koartikulationseigenschaften der zeitlich vor- und/oder nachgelagerten Audiosegmentbereichen entsprechen. Es werden demzufolge Informationen bezüglich der Prosodie, übergeordneten Koartikulationen und Übergangsfunktionen in codierter Form mit abgespeichert, um bei einer späteren Verwendung eine zusätzliche Verbesserung der Sprachqualität erzielen zu können.Another method for coarticulation-compatible concatination of audio segments is disclosed in the publication WO 00/11647 A1. Here, information on Koartikulationseffekten or speech styles (including whispering, stress, emotional expression) are stored in coded form together with the corresponding audio segments, so as to select in the selection of the audio segment areas only those that the parent Koartikulationseigenschaften the temporally upstream and / or downstream Correspond to audio segment ranges. Consequently, information relating to the prosody, superordinate co-articulations and transition functions is stored in coded form in order to be used in later use additional improvement in voice quality.

Ein weiteres Verfahren zur prosodischen Manipulation ist in der Druckschrift US 6,195,632 B1 offenbart, bei dem die Grundfrequenzperioden markiert werden und daraufhin die prosodische Manipulation durchgeführt wird.Another method for prosodic manipulation is in the document US 6,195,632 B1 discloses in which the fundamental frequency periods are marked and then the prosodic manipulation is performed.

Eine Aufgabe der vorliegenden Erfindung ist es daher, ein Verfahren anzugeben, mit dem eine integrierte Sprachsynthese ermöglicht wird, um somit den erforderlichen Speicherplatz und die benötigte Rechenleistung zu reduzieren.A The object of the present invention is therefore to specify a method with which an integrated speech synthesis is made possible, thus the required Storage space and the required computing power to reduce.

Eine weitere Aufgabe der vorliegenden Erfindung ist es, ein Verfahren anzugeben, mit dem auf ein Sprachsignal bestimmte suprasegmentale – vor allem prosodische – Zielparameter, wie der Grundfrequenzverlauf (Sprechmelodie), die Segmentdauer (rhythmische Struktur) oder der Intensitätsverlauf (Lautstärke) möglichst Speicherplatz und Rechenleistung sparend aufgeprägt werden können.A Another object of the present invention is a method specify with the suprasegmentale specific to a speech signal - especially prosodic - target parameters, as the fundamental frequency response (speech melody), the segment duration (rhythmic Structure) or the intensity curve (volume) as possible Memory and computing power can be impressed saving.

Erfindungsgemäß wird diese Aufgabe durch ein Verfahren mit den in Anspruch 1 angegebenen Merkmalen und ein Computerprogrammprodukt mit den in Anspruch 13 angegebenen Merkmalen gelöst. Vorteilhafte Weiterbildungen der vorliegenden Erfindung sind in den abhängigen Ansprüchen angegeben.According to the invention this Task by a method having the features specified in claim 1 and a computer program product as recited in claim 13 Characteristics solved. advantageous Further developments of the present invention are specified in the dependent claims.

Gemäß der vorliegenden Erfindung werden in einer Datenbasis codierte Sprachsignaleinheiten aus einem vorgebbaren Text gefunden. Anschließend wird eine prosodische Manipulation der codierten Sprachsignaleinheiten vorgenommen. Anfang und Ende einer Periodenlänge einer uncodierten Sprachsignaleinheit sind durch Periodenmarkierungen in der codierten Sprachsignaleinheit gekennzeichnet und die prosodische Manipulation erfolgt synchron zu den Periodenmarkierungen.According to the present Invention are in a database coded speech signal units Found a predefinable text. Subsequently, a prosodic Manipulation of the coded speech signal units made. Beginning and End of a period length an uncoded speech signal unit are by period marks in the coded speech signal unit and the prosodic Manipulation takes place synchronously with the period markings.

Entsprechend einer vorteilhaften Weiterbildung der vorliegenden Erfindung erfolgt die prosodische Manipulation während einer Decodierung durch einen Decodieralgorithmus. Durch die parallel ausgeführten Algorithmen kann die Rechenkomplexität erheblich reduziert werden, wodurch eine schnellere Verarbeitung ermöglicht wird. Außerdem entfällt die Zwischenspeicherung von Synthesezuständen der Sprachsignaleinheiten an Modulgrenzen, woraus eine Senkung des dynamischen Speicherplatzbedarfs und eine weitere Reduzierung der Rechenkomplexität resultiert.Corresponding an advantageous development of the present invention takes place the prosodic manipulation during a decoding by a decoding algorithm. Through the parallel executed Algorithms can significantly reduce the computational complexity, allowing for faster processing. In addition, caching is eliminated of synthetic states the speech signal units at module boundaries, resulting in a reduction of the dynamic storage space requirements and a further reduction of the computational complexity results.

Entsprechend einer weiteren vorteilhaften Weiterbildung der vorliegenden Erfindung wird der Decodieralgorithmus als Adaptive-Multi-Rate-Narrowband-(AMR-NB)-Algorithmus und/oder als Adaptive-Multi-Rate-Wideband-(AMR-WB)-Algorithmus ausgeführt. Die Verwendung dieser speicheroptimierten, skalierbaren Codierungs-/Decodierungsalgorithmen ermöglicht eine starke und variable Kompression der Sprachsignaleinheiten-Datenbasis, wobei die Struktur der Sprachsignaleinheiten weitgehend irrelevant ist.Corresponding a further advantageous embodiment of the present invention For example, the decoding algorithm is an Adaptive Multi-Rate Narrowband (AMR-NB) algorithm and / or as an adaptive multi-rate wideband (AMR-WB) algorithm. The Use of these memory-optimized, scalable encoding / decoding algorithms allows a strong and variable compression of the speech signal unit database, the structure of the speech signal units is largely irrelevant is.

Eine erste Möglichkeit die Periodenmarkierungen der codierten Sprachsignaleinheit zu bestimmen, ist die Berechnung aus der Pitch-Verzögerung. Die Pitch-Verzögerung gibt den Abstand vom Anfang/Ende einer Blocklänge des Decodieralgorithmus zum Anfang/Ende einer Periode an. Aus der Differenz der Abtastzeitpunkte am Anfang einer Blocklänge und der zugehörigen Pitch-Verzögerungen erhält man die Periodenmarkierungen.A first option to determine the period marks of the coded speech signal unit is the calculation from the pitch lag. The pitch delay gives the distance from the beginning / end of a block length of the decoding algorithm to the beginning / end of a period. From the difference of sampling times at the beginning of a block length and the associated Pitch lags receives one the period marks.

Eine zweite Möglichkeit ist, die Periodenmarkierungen der uncodierten Sprachsignaleinheiten beim Codierungsvorgang den codierten Sprachsignaleinheiten aufzuprägen. Die Periodenmarkierungen der uncodierten Sprachsignaleinheiten können beispielsweise mit Hilfe eines Laryngographsignals ermittelt werden. Mit einem Laryngograph kann man die periodischen Anteile eines Sprachsignals durch Messungen des elektrischen Widerstands am Kehlkopf eines Sprechers bestimmen. Des weiteren können die Periodenmarkierungen der uncodierten Sprachsignaleinheiten mit einem Pitch- Tracking Algorithmus bestimmt werden. Dieser ermittelt periodische Strukturen innerhalb eines Sprachsignalsegments mit einer speziellen Autokorrelationsfunktion.A second option is the period marks of the uncoded speech signal units in Imprint encoding process the coded speech signal units. The Period markers of the uncoded speech signal units may be, for example be determined by means of a laryngograph signal. With a Laryngograph one can see the periodic parts of a speech signal by measurements of the electrical resistance at the larynx of a speaker determine. Furthermore, you can the period marks of the uncoded speech signal units with be determined by a pitch tracking algorithm. This determined periodic structures within a speech signal segment with a special autocorrelation function.

Eine dritte Möglichkeit ist die Verwendung von einheitlichen Periodenlängen der codierten Sprachsignaleinheiten. Diese werden durch eine Vereinheitlichung der Periodenlängen der uncodierten Sprachsignaleinheiten vor dem Codiervorgang erhalten. Diese periodenmarkenfreie und äquidistante Abspeicherung der Sprachsignaleinheiten führt zu einer weiteren Reduktion des Speicherbedarfs und der Rechenzeit.A third possibility is the use of uniform period lengths of coded speech signal units. These are characterized by a standardization of the period lengths of received uncoded speech signal units before the encoding process. This period mark-free and equidistant Storing the speech signal units leads to a further reduction the memory requirement and the computing time.

Eine weitere vorteilhafte Wirkung ergibt sich, wenn die einheitlichen Periodenlängen der codierten Sprachsignaleinheiten mit der Blocklänge des Decodieralgorithmus übereinstimmen. Hierdurch laufen Decodierung und proiodische Manipulation vollsynchron ab, woraus eine weitere Verringerung der Rechenzeit resultiert.A further advantageous effect arises when the uniform period lengths the coded speech signal units with the block length of Decoding algorithm match. As a result, decoding and periodic manipulation are fully synchronized from which a further reduction of the computing time results.

Gemäß einer weiteren Ausbildung der vorliegenden Erfindung wird die für die prosodische Manipulation vorzunehmende Änderung der Periodenlänge der codierten Sprachsignaleinheiten mit einem Overlap-and-Add Verfahren im Frequenz- oder Zeitbereich durchgeführt. Hierbei teilt man beispielsweise das zu manipulierende Sprachsignalsegment durch eine Fensterung in Abschnitte auf, setzt die Abschnitte zeitversetzt zusammen und addiert die überlappenden Abtastwerte.According to a further embodiment of the present invention, the change of the period length of the coded speech signal units to be undertaken for the prosodic manipulation is carried out with an overlap-and-add method in the frequency or time domain. Here you divide beispielswei By segmenting the speech signal segment to be manipulated by windowing, the segments are time-shifted and add the overlapping samples.

Weitere Verfahren zur prosodischen Manipulation sind Resampling-Verfahren oder ein Auffüllen mit Nullwerten bzw. einem Beschneiden der codierten Sprachsignaleinheiten. Die Flexibilität bei der Auswahl eines Verfahrens zur prosodischen Manipulation der codierten Sprachsignaleinheiten hat die vorteilhafte Wirkung, dass je nach qualitativer Anforderung die notwendige Modifikation der Periodenlänge durch ein daran angepasstes Verfahren erfolgen kann.Further Methods for prosodic manipulation are resampling procedures or a padding with Zero values or a truncation of the coded speech signal units. The flexibility in the selection of a method for prosodic manipulation of coded speech signal units has the advantageous effect that depending on the qualitative requirement the necessary modification of the period length by a procedure adapted to it.

Bei der Ausführung des erfindungsgemäßen Computerprogrammprodukts wird eine prosodische Manipulation von codierten Sprachsignaleinheiten vorgenommen, wenn das Steuerungsprogramm in der Programmablaufsteuerungseinrichtung abläuft.at the execution of the computer program product according to the invention a prosodic manipulation of coded speech signal units is performed, if the control program in the program scheduler expires.

Die vorliegende Erfindung wird nachfolgend an einem Ausführungsbeispiel anhand der Zeichnungen näher erläutert. Es zeigtThe The present invention will become more apparent from an embodiment closer to the drawings explained. It shows

1 eine schematische Darstellung eines Adaptive-Multi-Rate-(AMR)-Codierungsverfahrens, 1 a schematic representation of an adaptive multi-rate (AMR) coding method,

2 eine schematische Darstellung eines integrierten Sprachsyntheseverfahrens mit AMR-Decodierung gemäß der vorliegenden Erfindung, 2 a schematic representation of an integrated speech synthesis method with AMR decoding according to the present invention,

3 eine schematische Darstellung eines integrierten Sprachsyntheseverfahrens mit AMR-WB-Decodierung gemäß der vorliegenden Erfindung. 3 a schematic representation of an integrated speech synthesis method with AMR-WB decoding according to the present invention.

Als Codierungs-/Decodierungsverfahren (Codec) werden in diesem Ausführungsbeispiel die zwischen 1999 und 2000 von der ETSI/3GPP standardisierten Codec-Verfahren Adaptive Multi-Rate Narrowband (AMR-NB) bzw. Adaptive Multi-Rate Wideband (AMR-WB, G.722.2) verwendet. Beide Verfahren basieren auf dem Verfahren Algebraic Code Excited Linear Prediction (ACELP, ITU-T G.723.1).When Coding / decoding methods (codec) are used in this embodiment the codec procedures standardized between 1999 and 2000 by the ETSI / 3GPP Adaptive Multi-Rate Narrowband (AMR-NB) or Adaptive Multi-Rate Wideband (AMR-WB, G.722.2). Both methods are based on the method Algebraic Code Excited Linear Prediction (ACELP, ITU-T G.723.1).

Der AMR-NB-Codec verarbeitet Signale mit einer Bandbreite von 8 kHz und ermöglicht acht verschiedene Kompressionsstufen bzw. Datenraten. Bei der Decodierung werden die hierfür benötigten Informationen paketweise an den Decoder übertragen. Aus diesen Informationen werden ein Residualsignal und Filterkoeffizienten für ein Synthesefilter extrahiert. Anhand des Residualsignals und der Filterkoeffizienten kann das Sprachsignal synthetisiert werden.Of the AMR NB codec processes signals with a bandwidth of 8 kHz and allows eight different compression levels or data rates. In the decoding Be the one for this required Transfer information in packets to the decoder. From this information become a residual signal and filter coefficients for a synthesis filter extracted. Based on the residual signal and the filter coefficients the speech signal can be synthesized.

Der AMR-WB-Codec verarbeitet Signale mit einer Bandbreite von 16 kHz und funktioniert analog dem AMR-NB-Codec. Wie oben beschrieben, wird das Sprachsignal durch Filtern des Residualsignals mit den Filterkoeffizienten in diesem Fall bei einer Bandbreite von 12,8 kHz synthetisiert. Anschließend wird das Signal auf eine Bandbreite von 16 kHz umgetastet.Of the AMR-WB codec processes signals with a bandwidth of 16 kHz and works in the same way as the AMR NB codec. As described above, the speech signal is filtered by filtering the residual signal with the Filter coefficients in this case at a bandwidth of 12.8 kHz synthesized. Subsequently, will the signal is keyed to a 16 kHz bandwidth.

Gemäß der vorliegenden Erfindung werden die Decodieralgorithmen AMR-NB bzw. AMR-WB so modifiziert, dass bereits während der Decodierung eine prosodische Manipulation von Sprachsignaleinheiten erfolgt. Die prosodische Manipulation erfolgt dabei direkt vor dem Filtern durch Manipulation des Residualsignals und synchron zu den Periodenmarkierungen, die Anfang und Ende der Periodenlänge einer Sprachsignaleinheit kennzeichnen. Hierzu muss das ursprüngliche Residualsignal mit konstanter Blocklänge (n = 40) zwischengepuffert werden, um die variablen Signallängen entsprechend den Periodenlängen zu generieren.According to the present Invention, the decoding algorithms AMR-NB and AMR-WB are modified that already during the decoding a prosodic manipulation of speech signal units he follows. The prosodic manipulation takes place directly before the Filter by manipulating the residual signal and in sync with the Period markers, the beginning and end of the period length of a Mark the speech signal unit. For this, the original must Residual signal with constant block length (n = 40) buffered be to the variable signal lengths according to the period lengths to generate.

In dem in 1 dargestellten Codierungsverfahren werden die uncodierten Sprachsignaleinheiten einer Datenbasis/eines Inventars 101, wie beispielsweise Diphone oder Triphone, durch einen AMR Codierer 102 codiert. Somit steht eine Datenbasis/ein Inventar 103 mit codierten Sprachsignaleinheiten zur Verfügung.In the in 1 The coding methods illustrated are the uncoded speech signal units of a database / an inventory 101 , such as diphones or triphones, through an AMR encoder 102 coded. Thus, there is a database / inventory 103 with coded speech signal units available.

Bei dem in 2 veranschaulichten Verfahren werden in einem ersten Schritt codierte Sprachsignaleinheiten eines vorgebaren Textes aus einer Datenbasis 201 ermittelt. In einem Sprachsyntheseblock 202 wird aus diesen Sprachsignaleinheiten ein Sprachsignal synthetisiert. In einem zweiten Schritt werden hierzu in einem Parameterdecoder 203 aus den codierten Sprachsignaleinheiten ein Residualsignal e(t) und Filterkoeffizienten A(z) extrahiert. In einem dritten Schritt wird die Periodenlänge des Residualsignals e(t) mit einem prosodischen Manipulator 204 modifiziert. Hierbei wird beispielsweise ein Overlap-and-Add Verfahren oder ein Resampling Verfahren angewendet. Das manipulierte Residualsignal und die Filterkoeffizienten A(z) werden einem Synthesefilter 205 zugeführt, der das Sprachsynthesesignal s(t) synthetisiert.At the in 2 Illustrated methods are in a first step encoded speech signal units of a vorgebaren text from a database 201 determined. In a speech synthesis block 202 From these speech signal units, a speech signal is synthesized. In a second step, this is done in a parameter decoder 203 extracted from the coded speech signal units a residual signal e (t) and filter coefficients A (z). In a third step, the period length of the residual signal e (t) with a prosodic manipulator 204 modified. In this case, for example, an overlap-and-add method or a resampling method is used. The manipulated residual signal and the filter coefficients A (z) become a synthesis filter 205 which synthesizes the speech synthesis signal s (t).

In 3 wird der Unterschied bei einer Verwendung eines AMR-WB Algorithmus anstatt eines AMR-NB Algorithmus für die integrierte Sprachsynthese veranschaulicht. Analog zum Verfahren mit einem AMR-NB Algorithmus zeigt es die Parameterdecodierung 301 mit einer Extrahierung des Residualsignals e(n) und der Filterkoeffizienten A(z), eine anschließende Modifikation der Periodenlängen der codierten Sprachsignaleinheiten durch einen prosodischen Manipulator 302 und die Synthetisierung des Sprachsignals anhand eines Synthesefilters 303. Zusätzlich wird bei einer integrierten Sprachsynthese unter Verwendung eines AMR-WB Algorithmus das synthetisierte Sprachsignal s'(n) mit einer Bandbreite von 12,8 kHz in einem weiteren Prozessschritt 304 umgetastet, so dass das resulierende synthetisierte Sprachsignal s(n) eine Bandbreite von 16 kHz aufweist.In 3 illustrates the difference in using an AMR-WB algorithm rather than an AMR-NB integrated speech synthesis algorithm. Analogous to the method with an AMR-NB algorithm, it shows the parameter decoding 301 with an extraction of the residual signal e (n) and the filter coefficients A (z), a subsequent modification of the period lengths of the coded speech signal units by a prosodic manipulator 302 and synthesizing the speech signal using a synthesis filter 303 , In addition, with an integrated speech synthesis using an AMR-WB algorithm, the synthesized speech signal s' (n) with a bandwidth of 12.8 kHz in a further process step 304 keyed so that the resulting synthesized speech signal s (n) has a bandwidth of 16 kHz.

Claims

Verfahren zur Sprachsynthese mit einer Datenbasis, in der codierte Sprachsignaleinheiten aus einem vorgebbaren Text gefunden werden, eine prosodische Manipulation der codierten Sprachsignaleinheiten vorgenommen wird, dadurch gekennzeichnet dass Anfang und Ende einer Periodenlänge einer uncodierten Sprachsignaleinheit durch Periodenmarkierungen in der codierten Sprachsignaleinheit gekennzeichnet sind und die prosodische Manipulation synchron zu den Periodenmarkierungen erfolgt.Method for speech synthesis with a database in which coded speech signal units are found from a predefinable text, a prosodic manipulation of the coded speech signal units is performed, characterized in that the beginning and end of a period length of an uncoded speech signal unit by period marks in the coded speech signal unit and the prosodic manipulation takes place synchronously with the period markings.

Verfahren nach Anspruch 1, wobei die prosodische Manipulation während einer Decodierung durch einen Decodieralgorithmus erfolgt.The method of claim 1, wherein the prosodic Manipulation during a decoding by a decoding algorithm.

Verfahren nach Anspruch 2, wobei der Decodieralgorithmus als Adaptive-Multi-Rate-Narrowband Algorithmus und/oder als Adaptive-Multi-Rate-Wideband Algorithmus ausgeführt ist.The method of claim 2, wherein the decoding algorithm as an adaptive multi-rate narrowband algorithm and / or as an adaptive multi-rate wideband Algorithm executed is.

Verfahren nach Anspruch 1, wobei die Periodenmarkierungen der codierten Sprachsignaleinheit aus der Pitch- Verzögerung berechnet werden.The method of claim 1, wherein the period marks of the coded speech signal unit calculated from the pitch delay become.

Verfahren nach Anspruch 1, wobei die Periodenmarkierungen der uncodierten Sprachsignaleinheit beim Codierungsvorgang der codierten Sprachsignaleinheit aufgeprägt werden.The method of claim 1, wherein the period marks the uncoded speech signal unit in the encoding process of the coded Voice signal unit imprinted become.

Verfahren nach Anspruch 5, wobei die Periodenmarkierungen der uncodierten Sprachsignaleinheit mit Hilfe eines Laryngographsignals ermittelt werden.The method of claim 5, wherein the period marks the uncoded speech signal unit with the aid of a laryngograph signal be determined.

Verfahren nach Anspruch 5, wobei die Periodenmarkierungen der uncodierten Sprachsignaleinheit mit Hilfe eines Pitch-Tracking-Algorithmus ermittelt werden.The method of claim 5, wherein the period marks the uncoded speech signal unit using a pitch tracking algorithm be determined.

Verfahren nach Anspruch 1, wobei einheitliche Periodenlängen der codierten Sprachsignaleinheiten verwendet werden, die durch eine Vereinheitlichung der Periodenlängen der uncodierten Sprachsignaleinheiten vor dem Codiervorgang erhalten werden.The method of claim 1, wherein uniform period lengths of coded speech signal units are used by a Unification of the period lengths the uncoded voice signal units obtained before the encoding process become.

Verfahren nach Anspruch 8, wobei die einheitlichen Periodenlängen der codierten Sprachsignaleinheiten mit der Blocklänge des Decodieralgorithmus übereinstimmen.The method of claim 8, wherein the uniform period lengths the coded speech signal units with the block length of Decoding algorithm match.

Verfahren nach mindestens einem der Ansprüche 1 bis 3, wobei die für die prosodische Manipulation vorzunehmende Änderung der Periodenlänge der codierten Sprachsignaleinheit mit einem Overlap-and-Add Verfahren im Frequenz- oder Zeitbereich durchgeführt wird.Method according to at least one of claims 1 to 3, where the for the prosodic manipulation change the period length of the coded speech signal unit with an overlap-and-add method is performed in the frequency or time domain.

Verfahren nach mindestens einem der Ansprüche 1 bis 3, wobei die für die prosodische Manipulation vorzunehmende Änderung der Periodenlänge der codierten Sprachsignaleinheit mit einem Resampling Verfahren durchgeführt wird.Method according to at least one of claims 1 to 3, where the for the prosodic manipulation change the period length of the coded speech signal unit is performed with a resampling method.

Verfahren nach mindestens einem der Ansprüche 1 bis 3, wobei die für die prosodische Manipulation vorzunehmende Änderung der Periodenlänge der codierten Sprachsignaleinheit mittels eines Auffüllen mit Nullwerten und/oder einem Beschneiden der codierten Sprachsignaleinheiten durchgeführt wird.Method according to at least one of claims 1 to 3, where the for the prosodic manipulation change the period length of the coded speech signal unit by means of a filling with zero values and / or a truncation of the coded speech signal units is performed.

Computerprogrammprodukt, das in einen Arbeitspeicher einer Programmablaufsteuerungseinrichtung ladbar ist und zumindest einen Codeabschnitt aufweist, bei dessen Ausführung eine prosodische Manipulation von codierten Sprachsignaleinheiten vorgenommen wird, dadurch gekennzeichnet dass Anfang und Ende einer Periodenlänge einer uncodierten Sprachsignaleinheit durch Periodenmarkierungen in der codierten Sprachsignaleinheit gekennzeichnet sind und die prosodische Manipulation synchron zu den Periodenmarkierungen erfolgt, wenn das Steuerungsprogramm in der Programmablaufsteuerungseinrichtung abläuft.Computer program product stored in a working memory a program sequence control device is loadable and at least a code section, in its execution a prosodic manipulation made of coded speech signal units, characterized in that Beginning and end of a period length an uncoded speech signal unit by period marks are characterized in the coded speech signal unit and the prosodic manipulation takes place synchronously with the period marks when the control program in the program scheduler expires.