EP0886853B1 - Auf mikrosegmenten basierendes sprachsyntheseverfahren - Google Patents

Auf mikrosegmenten basierendes sprachsyntheseverfahren Download PDF

Info

Publication number
EP0886853B1
EP0886853B1 EP97917259A EP97917259A EP0886853B1 EP 0886853 B1 EP0886853 B1 EP 0886853B1 EP 97917259 A EP97917259 A EP 97917259A EP 97917259 A EP97917259 A EP 97917259A EP 0886853 B1 EP0886853 B1 EP 0886853B1
Authority
EP
European Patent Office
Prior art keywords
vowel
speech
segments
microsegments
synthesis process
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
EP97917259A
Other languages
English (en)
French (fr)
Other versions
EP0886853A1 (de
Inventor
William Barry
Ralf BENZMÜLLER
Andreas LÜNING
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
G Data Software GmbH
Original Assignee
G Data Software GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by G Data Software GmbH filed Critical G Data Software GmbH
Publication of EP0886853A1 publication Critical patent/EP0886853A1/de
Application granted granted Critical
Publication of EP0886853B1 publication Critical patent/EP0886853B1/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Definitions

  • the invention relates to a digital speech synthesis method according to the preamble of claim 1.
  • the concatenation synthesis is known with parts of real spoken utterances like that be chained that new expressions arise.
  • the So individual parts of the language form building blocks for Speech generation.
  • the size of the parts can - depending by application - from words and phrases to Excerpts from sounds are sufficient.
  • For the artificial Generate language with unlimited vocabulary are offered as units of half syllables or smaller ones Cutouts. Larger units only make sense when a limited vocabulary is synthesized should.
  • Phonesis involves the concatenation of sounds or Phones made.
  • the storage space requirement is manageably small.
  • these speech signal modules are missing perceptually important transitions between the individual sounds that even incomplete by blending out individual ones Loud or more complex resynthesis processes can be modeled.
  • this Type of synthesis qualitatively unsatisfactory.
  • the Consideration of the phonetic context of individuals Lute by dropping sound variants of a Loud in their own speech signal modules in the so-called allophone synthesis improves this Speech result due to non-compliance with the articulatory-acoustic dynamics not essential.
  • Diphone synthesis uses signal modules from the middle of an acoustically defined speech up to range to the middle of the next speech. Thereby the perceptually important transitions from one According to the other, considered as acoustic Bear the movements of the speech organs in the speech signal occur. It also becomes the signal building blocks at spectrally relatively constant locations put together what the potentially existing Disturbances in the signal flow at the joints of the individual Diphone decreased.
  • the sound inventory of western European Languages consist of 35 to 50 sounds. For one language with 40 sounds, there are theoretically 1600 Diphone pairs, which are then identified by phonotactic Restrictions can actually be reduced to around 1000.
  • the cutting point is in the middle of the Lute.
  • larger units are recorded which takes larger phonetic contexts into account can be.
  • the number of combinations increases however proportional to.
  • half syllable synthesis is an intersection for the units used in the middle of the vowel of a syllable.
  • the other cutting point is at the beginning or end of a syllable, so depending on the structure of the syllable also sequences of several Consonants can be included in a language module.
  • German there are about 52 different sound sequences in initial syllables of morphemes and about 120 sound sequences counted for medial or final syllables of morphemes. This results in a theoretical number of 6240 Half syllables for German, some of which are uncommon. Since half-syllables are usually longer as a diphone, the storage space requirement for the Speech signal modules that the diphones a lot.
  • the speech part of the input characters determines whether two read unit speech waveforms either directly be connected when the input speech part of the Input character is unvoiced, or a given one first interpolation method is used if the input speech part of the input times voiced is the same unit waveform for both a voiced / g, d, b / as well as for his corresponding voiceless / k, t, p / sound used becomes.
  • unit speech waveforms should also be in the memory that the one Consonants following the vowel part or the one Represent consonants preceding vowel part.
  • the Transitional areas from a consonant to a vowel or from a vowel to a consonant can in each case for the consonants k and g, t and d as well as p and b be equated.
  • the space requirement will be thus reduced, but requires the specified Interpolation process a not insignificant Computing effort.
  • the disadvantage is that a sufficient naturalness of the Voice playback due to multiple playback same period pieces, possibly only shortened synthetically or extended, is not reached. Furthermore, the significantly reduced memory requirements by one bought more analysis and interpolation effort, what computing time costs.
  • the object of the invention is therefore based on the DE 27 40 520 A1 to specify a speech synthesis method, in the case of small storage space requirements without high Computing effort a high quality speech output is achieved.
  • Microsegments multiple times in different phonetic Contexts can be used. That is, at Sound transitions the perceptually important transitions from one sound to another without being considered that for each of the possible connections of two Speech loud own acoustic segments required are.
  • the division according to the invention into microsegments, that shares a sound transition enables use identical segments for different sound transitions for a group of consonants.
  • This principle of Generalization when using Speech signal modules is the one for storing the Speech signal modules reduced memory space required. Still, the quality is synthetic output language due to the consideration of the perceptually important sound transitions very well.
  • consonant segments for Plosive are divided into two microsegments, a first segment, which includes the closing phase and a second segment, that includes the solution phase becomes a further generalization of the language segments reached.
  • closure phase can be carried out for all plosives represent a time series of zeros. For this part the sound reproduction is therefore no storage space required.
  • the solution phase of the plosive is in context differentiated the following sound. It can be another Generalization can be achieved in solving for vowels only after the following four vowel groups - front, unrounded vowels; front, rounded Vowels; deep or centralized vowels and back, rounded vowels - and with a solution to consonants only after three different articulation points, labial, alveolar or velar, is distinguished so that for example, 42 microsegments for the German language for the six plosives / p, t, k, b, d, g / zu three consonant groups by articulation point and to four vowel groups must be saved. This reduced due to the multiple use of the Micro segments for different phonetic context the storage space requirement further.
  • pauses in speech are recognized.
  • the Phoneme chain is closed at these points with pause symbols a symbol chain added, whereby in the sequence of the micro segments on the digital break symbols Zeros are inserted in the time series signal.
  • the additional information about a break point and their pause duration is due to the sentence structure and predetermined rules determined.
  • the pause will be by the number of digital zeros to be inserted in Dependency of the sampling rate realized.
  • the Main information regarding the by the playing time word accent formed is in a lexicon.
  • the then for sentence accents to be selected with intonation Emphasis is placed on the analysis of language Text to be output from the sentence structure and predetermined rules determined. Depending on the determined Emphasis is placed on the relevant microsegment or by omitting certain microsegment sections abbreviated.
  • Intonation symbols are added to form a symbol chain, being in the sequence of the microsegments a change in fundamental frequency in the intonation symbols certain parts of the periods of microsegments in Time range is performed, the melody reproduced linguistic utterances.
  • the fundamental frequency change is preferably carried out by skipping and adding certain Samples. For this, the previously recorded voiced microsegments, i.e. Vowels and sonorants, marked. Every voting period is automatically included the spectrally important first part, in which the vocal folds are closed, and the less important second part, in which the vocal folds are open, treated separately.
  • the markings are set so that only the spectrally noncritical in the signal output second part of each period Fundamental frequency change shortened or extended are reproduced. This will take up space for the reproduction of intonations at the Not significantly increased and the Computational effort due to the manipulation in the time domain kept low.
  • the process steps of the speech synthesis system according to the invention are in a flowchart in Fig. 1 shown.
  • the input for the speech synthesis system is a text, for example a text file.
  • the Words in the text are saved using a computer stored lexicons assigned a phoneme chain that represents the pronunciation of each word.
  • word formation often takes place through composition of words and parts of words, e.g. with pre and Suffixes.
  • the pronunciation of words like "house building”, “Development”, “buildable” etc. can be from one trunk, here "bau", derived and with the pronunciation of the Vorund Suffixes are connected.
  • the sequence of parts of speech becomes with given rules determines the limit of phrases.
  • the implementation of the intonation is based on a Intonation and pause description system in which basically between intonation courses that Phrase boundaries take place (rising, falling, constant, falling-rising) and those that around Accents are localized (low, high, rising, falling).
  • the assignment of the Intonation courses are based on the syntactic and morphological analysis under Inclusion of certain keywords and characters in the text. For example, have questions with Bursting position (recognizable by the question mark on End and information that the first word of the sentence a finite verb is) a deep accent and one high rising limit tone. Normal statements have one high accent tone and a falling final phrase limit.
  • the course of the intonation is according to given Rules generated.
  • the phoneme-based symbol chain in a microsegment sequence converted.
  • the conversion of a sequence of two Phonemes in microsegment sequences are made using a Rule set in which each phoneme sequence is a sequence of Micro segments is assigned.
  • the voice output then takes place through digital / analog conversion the manipulated time series signal, for example, one arranged in the computer "Soundblaster" card.
  • Fig. 2 shows a spectrogram in the upper part and lower part the associated time signal for the Word example "Phonetics".
  • the word "phonetics” is used in Symbols as a phoneme sequence between slashes like shown as follows / fone: tIk /. This phoneme sequence is on the abscissa representing the time axis in the upper Part of Fig. 2 applied.
  • the ordinate of the Spectrogram of Fig. 2 denotes the frequency content of the speech signal, the degree of blackening to Amplitude of the corresponding frequency is proportional.
  • Corresponds to the time signal shown above in FIG. 2 the ordinate of the current amplitude of the signal. in the middle fields are the with vertical lines Microsegment boundaries shown. The specified therein Abbreviations give the designation or Symbolization of the respective microsegment.
  • the Example word "phonetics” thus consists of twelve Microsegments.
  • the names of the microsegments are chosen so that the lute outside the parentheses the context mark, in the brackets the sounding sound is specified. It will be the contextual Transitions of the speech sounds are taken into account.
  • the consonant segments ... (f) and (n) e are on segmented the respective sound limit.
  • the Plosive / t / and / k / are in a locking phase (t (t) and k (k)), the digitally by sampling values set to zero is reproduced and used for all plosives, and a short solution phase (here: (t) I and (k) 7), which is context sensitive, split.
  • the vowels are each divided into vowel halves, with the intersection points at the beginning and in the middle of the vowel.
  • Fig. 3 is another word example " womanizer" in Played time range.
  • the phoneme sequence is with / fraU @ nhElt / specified.
  • the word shown in Fig. 3 comprises 15 microsegments, here also quasi stationary microsegments occur.
  • the first two Microsegments ... (f) and (r) a are consonant Segments whose context is only on one side is specified.
  • the one Transition of the velar articulation point to the middle of the a includes, to form the diphthong / aU / die Starting position a (a).
  • AU (AU) includes the perceptual important transition between the start and the Target position u (U).
  • (U) @ contains the transition from / U / after / @ /, which is usually followed by @ (@) ought to. This would make / @ / take too long, so this The segment for / @ / and / 6 / is omitted for permanent reasons and only the second vowel half (@) n is played.
  • (n) h represents a consonant segment. The transition from consonants to / h / - unlike vowels - not specified. Therefore there is no segment n (h).
  • (h) E contains the breathed part of the vowel / E /, the followed by the quasi-stationary E (E).
  • (E) 1 contains the second vowel half of / E / with the transition to the dental articulation site.
  • E (1) is a consonant microsegment, in which only the Precontext is specified. The / t / is divided into a closure phase t (t) and a solution phase (t) ..., that goes to
  • the large number of possible articulation points is limited to three essential areas.
  • the grouping is based on the similar movements carried out by the articulators to form the sounds. Because of the comparable articulator movements, the spectral transitions between the sounds are similar within the three groups listed in Table 1.
  • a further generalization is achieved by grouping the postalveolar consonants / S / (as in Ma sch e) and / Z / (as in Ga g e) to the alveolar and labiodental consonates / f / and / v / with the labial, so that, as stated above, / fa (tS) /, / va (tS) /, / fa (dZ) / and / va (dZ) / can also contain the same vowel segments.
  • microsegment markings that a Shortening, stretching or frequency change on the microsegment allow in the time domain.
  • the markings are at the zero crossings with a positive slope of the time signal of the microsegments. All in all five reduction levels are carried out, so that Microsegment together with the unabridged rendering has six different levels of play time.
  • the intonation can be linguistic Comments by a change in the fundamental frequency of the periodic parts of vowels and sonorants become. This is done through a fundamental frequency manipulation performed in the time domain on the microsegment, although hardly tonal losses arise.
  • the digital signal has to limit the memory requirement for example a bandwidth of 8 bits and a sampling rate of 22 kHz.
  • microsegments separated in this way are addressed according to the sound and context and stored in a memory.
  • a text to be output as language is accompanied by the corresponding Address order fed to the system.
  • the order of sounds determines the selection of Addresses. According to this order of addresses the microsegments are read from the memory and strung together.
  • This digital time series is in a digital / analog converter, for example in one so-called Soundblaster card, in an analog signal converted that through speech devices, for example a speaker or headphones, can be spent.
  • the speech synthesis system according to the invention can be based on an ordinary PC, where a RAM of about 4 MB is sufficient.
  • the one with the System realizable vocabulary is practical unlimited.
  • the language is easy to understand, the computational effort for modifications of the Microsegments, for example cuts or Fundamental frequency changes, is small since that Voice signal is processed in the time domain.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

Die Erfindung betrifft ein digitales Sprachsyntheseverfahren nach dem Oberbegriff von Anspruch 1.
Bei der synthetischen Erzeugung von Sprache mit Computern sind im wesentlichen drei Verfahren bekannt.
Bei der Formantsynthese werden mit einer Anregungsquelle mit nachgeschalteten Filtern die Resonanzeigenschaften des menschlichen Ansatzrohres und deren Veränderungen beim Sprechen, die durch die Bewegungen der Artikulationsorgane verursacht werden, nachgebildet. Diese Resonanzen sind charakteristisch für die Struktur und Wahrnehmung von Vokalen. Zur Begrenzung des Rechenaufwandes werden die ersten drei bis fünf Formanten eines Sprachlautes synthetisch mit der Anregungsquelle erzeugt. Bei dieser Syntheseart ist daher für die verschiedenen Anregungswellenformen nur ein geringer Speicherplatzbedarf in einem Rechner vorzusehen. Ferner kann eine einfache Veränderung von Dauer und Grundfrequenzanregungswellenformen realisiert werden. Nachteilig ist jedoch, daß zur Sprachausgabe ein ausgedehnter Regelapparat benötigt wird, der oft den Einsatz von digitalen Verarbeitungsprozessoren notwendig macht. Ferner ist nachteilig, daß die ausgegebene Sprache unnatürlich und metallisch klingt und besondere Schwachpunkte bei Nasalen und Obstruenten, d. h. Plosiven /p, t, k, b, d, g/, Affrikaten /pf, ts,tS/ und Frikativen /f, v, s, z, S, Z, C, j, x, h/ aufweist.
In diesem Text stellen die zwischen Schrägstrichen // dargestellten Buchstaben Lautsymbole dar nach SAMPA-Notation, siehe: Wells, J.; Barry, W.J.; Grice, M.; Fourcin, A.; Gibbon D. (1992); Standard Computer-Compatible Transcription, in: ESPRIT PROJECT 2589 (SAM) Multi-lingual speech input/output assessment, methodology and standardisation; Final Report; Doc. SAM-UCL-037, Seiten 29ff.
Bei der artikulatorischen Synthese werden die akustischen Gegebenheiten im Ansatzrohr modelliert, so daß die artikulatorischen Positionen und Bewegungen beim Sprechen rechnerisch nachgebildet werden. Es wird also ein akustisches Modell des Ansatzrohres berechnet, was zu einem erheblichen Rechenaufwand führt und eine große Rechenkapazität erfordert. Dennoch klingt die so automatisch erzeugte Sprache unnatürlich und technisch.
Darüber hinaus ist die Konkatenationssynthese bekannt, bei der Teile von real gesprochenen Äußerungen so verkettet werden, daß neue Äußerungen entstehen. Die einzelnen Sprachteile bilden also Bausteine für die Erzeugung von Sprache. Die Größe der Teile kann - je nach Anwendungsgebiet - von Wörtern und Phrasen bis zu Ausschnitten aus Lauten reichen. Für die künstliche Erzeugung von Sprache bei unbegrenztem Wortschatz bieten sich als Einheiten Halbsilben oder kleinere Ausschnitte an. Größere Einheiten sind nur sinnvoll, wenn ein begrenzter Wortschatz synthetisiert werden soll.
In Systemen, die ohne Resynthese auskommen, ist die Wahl des richtigen Schneidepunktes der Sprachbausteine entscheidend für die Qualität der Synthese. Dabei gilt es, melodische und spektrale Brüche zu vermeiden. Konkatenative Syntheseverfahren erzielen dann - insbesondere mit großen Bausteinen - einen natürlicheren Klang als die anderen Verfahren. Der Regelaufwand für die Erzeugung der Laute ist außerdem recht gering. Die Beschränkungen dieses Verfahrens liegen im relativ großen Speicherplatzbedarf für die benötigten Sprachbausteine. Eine weitere Einschränkung dieses Verfahrens liegt darin, daß einmal aufgenommene Bausteine bei den bekannten Systemen nur mit aufwendigen Resyntheseverfahren (z. B. in der Dauer oder Frequenz) verändert werden können, die sich zudem nachteilig auf den Sprachklang und die Verständlichkeit auswirken. Es werden daher auch mehrere unterschiedliche Varianten eines Sprachbausteins aufgenommen, was den Speicherplatzbedarf erhöht.
Unter den Konkatenationssyntheseverfahren sind im wesentlichen vier Syntheseverfahren bekannt, die es erlauben, Sprache ohne Einschränkung des Wortschatzes zu synthetisieren.
Bei der Phonsynthese wird eine Konkatenation von Lauten oder Phonen vorgenommen. Bei westeuropäischen Sprachen mit einem Lautinventar von ca. 30-50 Lauten und einer durchschnittlichen Dauer der Laute von ca. 150 ms ist der Speicherplatzbedarf überschaubar klein. Allerdings fehlen diesen Sprachsignalbausteinen die perzeptiv wichtigen Übergänge zwischen den einzelnen Lauten, die auch nur unvollständig durch Überblenden von einzelnen Lauten bzw. aufwendigere Resyntheseverfahren nachempfunden werden können. Daher ist diese Syntheseart qualitativ nicht befriedigend. Auch die Berücksichtigung des phonetischen Kontextes einzelner Laute durch Ablegen von lautlichen Varianten eines Lautes in eigenen Sprachsignalbausteinen in der sogenannten Allophonsynthese verbessert das Sprachergebnis aufgrund der Nichtbeachtung der artikulatorisch-akustischen Dynamik nicht wesentlich.
Die gängigste Form der Konkatenationssynthese ist die Diphonsynthese; diese benutzt Signalbausteine, die von der Mitte eines akustisch definierten Sprachlautes bis zur Mitte des nächsten Sprachlautes reichen. Dadurch werden die perzeptorisch wichtigen Übergänge von einem Laut zum anderen berücksichtigt, die als akustische Folge der Bewegungen der Sprechorgane im Sprachsignal auftreten. Außerdem werden dadurch die Signalbausteine an spektral relativ gleichbleibenden Stellen aneinandergefügt, was die potentiell vorhandenen Störungen des Signalflusses an den Fugen der einzelnen Diphone verringert. Das Lautinventar westeuropäischer Sprachen besteht aus 35 bis 50 Lauten. Für eine Sprache mit 40 Lauten ergeben sich also theoretisch 1600 Diphonpaare, die dann durch phonotaktische Einschränkungen real auf etwa 1000 reduziert werden. In natürlicher Sprache unterscheiden sich unbetonte und betonte Laute sowohl klanglich als auch in der Dauer voneinander. Um diese Unterschiede in der Synthese adäquat zu berücksichtigen, werden in einigen Systemen für betonte und unbetonte Lautfolgen unterschiedliche Diphone aufgenommen. Je nach Ansatz werden also 1000 bis 2000 Diphone mit einer durchschnittlichen Dauer von ca. 150 ms benötigt, woraus sich je nach den Anforderungen an Dynamik und Signalbandbreite ein Speicherplatzbedarf für die Signalbausteine von bis zu 23 MB ergibt. Ein üblicher Wert liegt bei etwa 8 MB.
Auf einem ähnlichen Prinzip wie die Diphonsynthese beruhen auch die Triphon- und die Halbsilbensynthese. Auch hier liegt der Schneidepunkt in der Mitte der Laute. Allerdings werden größere Einheiten erfaßt, wodurch größere phonetische Kontexte berücksichtigt werden können. Die Anzahl der Kombinationen nimmt dabei allerdings proportional zu. Bei der Halbsilbensynthese liegt ein Schneidepunkt für die verwendeten Einheiten mitten im Vokal einer Silbe. Der andere Schneidepunkt liegt am Anfang bzw. Ende einer Silbe, wodurch je nach der Struktur der Silbe auch Sequenzen von mehreren Konsonanten in einem Sprachbaustein aufgenommen werden. Im Deutschen werden etwa 52 unterschiedliche Lautfolgen in Anfangssilben von Morphemen und ca. 120 Lautfolgen für mediale bzw. finale Silben von Morphemen gezählt. Daraus ergibt sich eine theoretische Anzahl von 6240 Halbsilben für das Deutsche, von denen einige ungebräuchlich sind. Da Halbsilben meist länger sind als Diphone, übersteigt der Speicherplatzbedarf für die Sprachsignalbausteine den bei den Diphonen um einiges.
Das größte Problem ist daher bei einem qualitativ hochwertigen Sprachsynthesesystem der erhebliche Speicherplatzbedarf. Zur Verringerung dieses Bedarfs wurde beispielsweise vorgeschlagen, die Stille im Verschluß von Plosiven für alle Plosivverschlüsse zu nutzen. Aus der EP 0 144 731 B1 ist ein Sprachsynthesesystem bekannt, in dem Teile von Diphonen für mehrere Laute benutzt werden. Dort wird ein Sprachsynthesizer beschrieben, der Einheits-Sprachsignalformen, die durch Teilen eines Doppellautes erzeugt werden, abspeichert und bestimmten Ausdruckssymbolen gleichsetzt. Eine Synthetisiereinrichtung liest die Einheits-Sprachsignalformen entsprechend den Ausgangssymbolen der konvertierten Sequenz von Ausdruckssymbolen aus dem Speicher. Auf der Basis des Sprachteils der Eingangszeichen wird bestimmt, ob zwei gelesene Einheits-Sprachsignalformen entweder direkt verbunden werden, wenn der Eingangs-Sprachteil der Eingangszeichen stimmlos ist, oder ein vorgegebenes erstes Interpolationsverfahren angewendet wird, wenn der Eingangs-Sprachteil der Eingangszeiten stimmhaft ist, wobei die gleiche Einheits-Signalform sowohl für einen stimmhaften /g, d, b/ als auch für seinen entsprechenden stimmlosen /k, t, p/ Laut verwendet wird. Ferner sollen in dem Speicher auch Einheits-Sprachsignalformen abgelegt werden, die den einem Konsonanten folgenden Vokalteil bzw. den einem Konsonanten vorangehenden Vokalteil repräsentieren. Die Übergangsbereiche von einem Konsonanten zu einem Vokal bzw. von einem Vokal zu einem Konsonanten kann jeweils für die Konsonanten k und g, t und d sowie p und b gleich gesetzt werden. Der Speicherplatzbedarf wird somit zwar reduziert, jedoch erfordert der angegebene Interpolationsvorgang einen nicht unerheblichen Rechenaufwand.
Aus der DE 27 40 520 Al ist ein Verfahren zur Synthese von Sprache bekannt, bei dem jedes Phonem von in einem Speicher gespeicherten Phonem-Elementen gebildet wird, wobei Perioden von Lautschwingungen aus natürlicher Sprache gewonnen oder künstlich synthetisiert sind. Der zu synthetisierende Text wird Satz für Satz grammatisch und phonetisch nach den Regeln der Sprache analysiert. Neben den Perioden der Lautschwingungen sind jedem Phonem bestimmte Arten und eine Anzahl von Zeit-Abschnitten von Rausch-Phonemen mit entsprechender Dauer, Amplituden und Spektralverteilung gegenübergestellt. Die Perioden der Lautschwingungen und die Elemente der Rausch-Phoneme sind in digitaler Form als Folge von Amplitudenwerten der entsprechenden Schwingung in einem Speicher abgelegt und werden beim Lesevorgang entsprechend der Frequenzcharakteristik und zum Erreichen der Natürlichkeit der Sprache verändert.
Demnach ist hieraus ein digitales Sprachsyntheseverfahren nach dem Konkatenationsprinzip entsprechend dem Oberbegriff des Patentanspruches 1 bekannt.
Um mit einem möglichst kleinen Speicherbedarf auszukommen, werden nach dem Syntheseverfahren der DE 27 40 520 A1 einzelne Perioden von Lautschwingungen mit charakteristischer Formant-Verteilung gespeichert. Die jedem Phonem bei Festhalten der Grundcharakteristik des Satzes bestimmte Arten und Anzahl von den gespeicherten Perioden von Lautschwingungen werden bestimmt und bilden dann zusammen den akustischen Spracheindruck. Danach werden also extrem kurze Zeitreihenelemente von der Länge einer Periode der Grundschwingung eines Lautes vom Speicher abgerufen und je nach vorher festgestellter Wiedergabeanzahl aufeinanderfolgend wiederholt. Zur Realisierung glatter Phonemübergänge werden Perioden (synthetische) mit Formant-Verteilungen, die dem Übergang zwischen den Phonemen entsprechen, verwendet oder die Amplituden im Bereich der betreffenden Übergänge vermindert.
Nachteilig ist, daß eine ausreichende Natürlichkeit der Sprachwiedergabe aufgrund der mehrfachen Wiedergabe gleicher Periodenstücke, ggf. nur synthetisch gekürzt oder verlängert, nicht erreicht wird. Ferner wird der erheblich verringerte Speicherbedarf durch einen vermehrten Analyse- und Interpolationsaufwand erkauft, was Rechenzeit kostet.
Ein zum Sprachsyntheseverfahren der DE 27 40 520 A1 ähnliches Verfahren ist aus der WO 85/04747 bekannt, bei dem jedoch von einer vollständig synthetischen Erzeugung der Sprachsegmente ausgegangen wird. Die Sprachsegmente, die Phoneme oder Übergänge darstellen, werden aus synthetischen Wellenformen, die nach einer vorbestimmten Art und Weise mehrfach, ggf. in der Länge gekürzt und/oder stimmhaft wiedergegeben werden, erzeugt. Insbesondere bei den Phonemübergängen wird auch von einer invertierten Wiedergabe von bestimmten Zeitreihen Gebrauch gemacht. Nachteilig ist auch hier, daß bei erheblich verringertem Speicherplatzbedarf aufgrund umfangreicher Analyse- und Synthetisiervorgänge eine erhebliche Rechenkapazität benötigt wird. Der Sprachwiedergabe fehlt gleichwohl die natürliche Varianz.
Aufgabe der Erfindung ist es daher, ausgehend von der DE 27 40 520 A1 ein Sprachsyntheseverfahren anzugeben, bei dem bei geringem Speicherplatzbedarf ohne hohen Rechenaufwand eine qualitativ hochwertige Sprachausgabe erreicht wird.
Gelöst wird diese Aufgabe mit einem Sprachsyntheseverfahren gemäß Anspruch 1.
Mit dem erfindungsgemäßen Sprachsyntheseverfahren wird eine Generalisierung bei der Verwendung der Sprachsignalbausteine in Form von Mikrosegmenten erreicht. Es wird damit die in der Diphonsynthese nötige Verwendung eines eigenen akustischen Segments für jede der möglichen Verbindungen zweier Sprachlaute vermieden. Die für die Sprachausgabe benötigten Mikrosegmente können in drei Kategorien aufgegliedert werden. Dies sind:
1.
Segmente für Vokalhälften und Halbvokalhälften: Sie geben in der Dynamik der spektralen Struktur die Bewegungen der Sprechorgane von bzw. zu der Artikulationsstelle des benachbarten Konsonanten an. Aufgrund der Silbenstruktur der meisten Sprachen ist häufig eine Konsonant-Vokal-Konsonant-Folge anzutreffen. Da die Bewegungen der Sprechorgane für eine gegebene Artikulationsstelle entsprechend den relativ unbeweglichen Teilen des menschlichen Ansatzrohres unabhängig von der Artikulationsart, d. h., unabhängig von den vorangehenden oder nachfolgenden Konsonanten, vergleichbar sind, ist daher für jeden Vokal nur ein Mikrosegment pro globaler Artikulationsstelle des vorherigen Konsonanten (= erste Hälfte des Vokals) und ein Mikrosegment pro Artikulationsstelle des folgenden Konsonanten (= zweite Hälfte des Vokals) nötig.
2.
Segmente für quasi stationäre Vokalteile: Diese Segmente sind aus der Mitte von langen Vokalrealisierungen, die klanglich relativ konstant wahrgenommen werden, herausgetrennt. Sie werden in verschiedenen Textpositionen bzw. Kontexten eingesetzt, beispielsweise am Wortanfang, nach den Halbvokalsegmenten, die bestimmten Konsonanten bzw. Konsonantfolgen folgen, im Deutschen beispielsweise nach /h/, /j/ sowie /?/, zur Enddehnung, zwischen nicht diphthongischen Vokal-Vokalfolgen und in Diphthongen als Start- und Zielpositionen.
3.
Konsonantische Segmente: Die konsonantischen Segmente sind so gebildet, daß sie unabhängig von der Art der Nachbarlaute für mehrere Vorkommen des Lautes entweder generell oder wie vornehmlich bei Plosiven im Kontext von bestimmten Lautgruppen verwendet werden können.
Wichtig ist, daß die in drei Kategorien aufgegliederten Mikrosegmente mehrfach in unterschiedlichen lautlichen Kontexten verwendet werden können. D. h., daß bei Lautübergängen die perzeptorisch wichtigen Übergänge von einem Laut zum anderen berücksichtigt werden, ohne daß dabei für jede der möglichen Verbindungen zweier Sprachlaute eigene akustische Segmente erforderlich sind. Die erfindungsgemäße Aufteilung in Mikrosegmente, die einen Lautübergang teilt, ermöglicht die Verwendung identischer Segmente für verschiedene Lautübergänge für eine Gruppe von Konsonanten. Bei diesem Prinzip der Generalisierung bei der Verwendung von Sprachsignalbausteinen wird der zur Abspeicherung der Sprachsignalbausteine benötigte Speicherplatz verringert. Dennoch ist die Qualität der synthetisch ausgegebenen Sprache aufgrund der Berücksichtigung der wahrnehmungsgemäß wichtigen Lautübergänge sehr gut.
Dadurch, daß die Segmente für Vokalhälften und Halbvokalhälften in einer Konsonant-Vokal- oder Vokal-Konsonant-Folge für jede der Artikulationsstellen der benachbarten Konsonanten, nämlich labial, alveolar oder velar, gleich sind, wird bei den Sprachsegmenten für Vokale eine Mehrfachnutzung der Mikrosegmente für unterschiedlichen lautlichen Kontext ermöglicht und damit eine erhebliche Speicherplatzverringerung erreicht.
Wenn die Segmente für quasi stationäre Vokalteile vorgesehen sind für Vokale an Wortanfängen sowie Vokal-Vokal-Folgen, wird mit einer geringen Anzahl von zusätzlichen Mikrosegmenten eine erhebliche Klangverbesserung der synthetischen Sprache für Wortanfänge, Diphthonge oder Vokal-Vokalfolgen erreicht.
Dadurch, daß die konsonantischen Segmente für Plosive in zwei Mikrosegmente geteilt sind, ein erstes Segment, das die Verschlußphase umfaßt, und ein zweites Segment, das die Lösungsphase umfaßt, wird eine weitere Generalisierung der Sprachsegmente erreicht. Insbesondere läßt sich die Verschlußphase für alle Plosive durch eine Zeitreihe von Nullen darstellen. Für diesen Teil der Lautwiedergabe ist daher kein Speicherplatz erforderlich.
Die Lösungsphase der Plosive wird nach dem im Kontext folgenden Laut differenziert. Dabei kann eine weitere Generalisierung erreicht werden, in dem bei der Lösung zu Vokalen nur nach den folgenden vier Vokalgruppen - vordere, ungerundete Vokale; vordere, gerundete Vokale; tiefe bzw. zentralisierte Vokale und hintere, gerundete Vokale - und bei einer Lösung zu Konsonanten nur nach drei unterschiedlichen Artikulationsstellen, labial, alveolar oder velar, unterschieden wird, so daß beispielsweise für die deutsche Sprache 42 Mikrosegmente für die sechs Plosive /p, t, k, b, d, g/ zu drei Konsonantengruppen nach Artikulationsstelle und zu vier Vokalgruppen abgespeichert werden müssen. Dies verringert aufgrund der Mehrfachverwendung der Mikrosegmente für unterschiedlichen lautlichen Kontext den Speicherplatzbedarf weiter.
Vorteilhaft wird zur Kürzung von Vokalsegmenten bei einem Vokalsegment, das von einer Artikulationsstelle zur Mitte des Vokals verläuft, die Start- und bei einem Vokalsegment, das von der Mitte des Vokals zur folgenden Artikulationsstelle verläuft, die Zielposition immer erreicht, während die Bewegung zur oder von der "Vokalmitte" verkürzt wird. Eine derartige Verkürzung der Mikrosegmente bildet beispielsweise unbetonte Silben nach, wobei die in der natürlichen, fließenden Rede zu findenden Abweichungen von der spektralen Zielqualität des jeweiligen Vokals wiedergegeben werden und somit die Natürlichkeit der Synthese erhöht wird. Vorteilhaft ist dabei ferner, daß für derartige sprachliche Abwandlungen bereits gespeicherter Segmente kein dem Segment entsprechender weiterer Speicherplatzbedarf benötigt wird.
Mit der Analyse des als Sprache auszugebenden Textes wird eine Manipulation der Mikrosegmente in Abhängigkeit des Analyseergebnisses erreicht. Damit können Abwandlungen der Aussprache in Abhängigkeit des Satzbaus und der Semantik sowohl Satz für Satz als auch in den Sätzen Wort für Wort nachgebildet werden, ohne daß zusätzliche Mikrosegmente für verschiedene Aussprachen nötig sind. Der Speicherplatzbedarf kann somit gering gehalten werden. Darüber hinaus erfordert die Manipulation im Zeitbereich keine aufwendigen Rechenoperationen. Gleichwohl hat die mit dem Sprachsyntheseverfahren erzeugte Sprache ein sehr natürliches Gepräge.
Insbesondere können mit der Analyse an dem als Sprache auszugebenden Text, Sprachpausen erkannt werden. Die Phonemkette wird an diesen Stellen mit Pausesymbolen zu einer Symbolkette ergänzt, wobei bei der Aneinanderreihung der Mikrosegmente an den Pausesymbolen digitale Nullen im Zeitreihensignal eingefügt werden. Die zusätzlichen Informationen über eine Pausenstelle und deren Pausendauer wird aufgrund des Satzbaus und vorbestimmten Regeln ermittelt. Die Pausendauer wird durch die Anzahl der einzufügenden digitalen Nullen in Abhängigkeit der Abtastrate realisiert.
Dadurch, daß mit der Analyse Phrasengrenzen erkannt werden und die Phonemkette an diesen Stellen mit Dehnungssymbolen zu einer Symbolkette ergänzt wird, wobei bei der Aneinanderreihung der Mikrosegmente die Mikrosegmente entsprechend der Symbole eine Abspieldauerdehnung im Zeitbereich erfahren, kann eine phrasenfinale Dehnung bei der synthetischen Sprachwiedergabe nachgebildet werden. Diese Manipulation im Zeitbereich wird an den bereits zugeordneten Mikrosegmenten ausgeführt. Es werden daher keine zusätzlichen Sprachbausteine zur Realisierung von Enddehnungen benötigt, was den Speicherplatzbedarf gering hält.
Dadurch, daß mit der Analyse Betonungen erkannt werden und die Phonemkette an diesen Stellen mit Betonungssymbolen für verschiedene Betonungswerte zu einer Symbolkette ergänzt wird, wobei bei der Aneinanderreihung der Mikrosegmente an den Mikrosegmenten mit Betonungssymbolen eine Veränderung der Dauer der Sprachlaute erfolgt, werden die in natürlicher Sprache vorkommenden Betonungsarten nachgebildet. Die Hauptinformation bezüglich des durch die Abspieldauer gebildeten Wortakzents steht in einem Lexikon. Die dann für intonatorisch getragene Satzakzente auszuwählende Betonung wird bei der Analyse des als Sprache auszugebenden Textes aus dem Satzaufbau und vorbestimmten Regeln ermittelt. Je nach ermittelter Betonung wird das betreffende Mikrosegment ungekürzt oder durch Fortlassen bestimmter Mikrosegmentabschnitte gekürzt wiedergegeben. Zur Erzeugung einer wandlungsreichen Sprache bei gleichzeitig vertretbarem Rechenaufwand haben sich fünf Kürzungsstufen für vokalische Mikrosegmente als ausreichend erwiesen, so daß insgesamt sechs Abspieldauermöglichkeiten zur Verfügung stehen. Diese Kürzungsstufen sind an dem vorab abgespeicherten Mikrosegment markiert und werden kontextabhängig bei der Textanalyse entsprechend des Analyseergebnisses, d. h. des zu wählenden Betonungswertes, angesteuert.
Sowohl die Abspieldauerdehnung bei phrasenfinalen Silben, wie auch die verschiedenen Kürzungsstufen für Betonungen kannen bevorzugt mit den gleichen Kürzungsstufen in den Mikrosegmenten realisiert werden. Im Gegensatz zu betonten Silben, bei denen sich die zeitliche Dehnung auf alle Mikrosegmente gleichmäßig verteilt, wird bei den Endsilben von Phrasen, nämlich von Spracheinheiten, die beispielsweise in der Schriftsprache mit den Satzzeichen Komma, Semikolon, Punkt und Doppelpunkt notiert sind, eine progressive Verlängerung der Abspieldauer vorgesehen. Dies wird erreicht durch eine Erhöhung der Abspieldauer der Mikrosegmente bei den phrasenfinalen Silben ab dem zweiten Mikrosegment um jeweils eine Stufe.
Beispeilsweise wird bei dem Satz "Er hat in Paris gewohnt." die letzte Silbe "-wohnt", ausgesprochen /vo:nt/, so gedehnt, daß die in der Tabelle in der ersten Zeile dargestellte Mikrosegmentkette mit der in Klammern angegebenen normalen Dauerstufe, wenn diese Silbe nicht am Phrasenende steht, gemäß den Dehnungssymbolen in die in der dritten Zeile dargestellte Mikrosegmentkette überführt wird. Der Wertebereich für die Dehnungsstufen geht von 1-6, wobei größere Zahlen einer längeren Dauer entsprechen. Das Symbol % erzeugt keine Dauerveränderung.
normal [2v]o v[5o] [5o]n [2n]t t[2t] [2t] . . .
Symbol % % +1 +2 +3 +4
gedehnt [2v]o v[5o] [6o]n [4n]t t[5t] [6t]...
Ähnlich ist die Bildung in anderen Sprachen oder Dialekten. In Englisch würde die Enddehnung beispielsweise vom Satz "He saw a shrimp." für das letzte Wort durch Mikrosegmente wie folgt gebildet werden:
normal [2S]r [2r]I r[3I] [3I]m [2m]p p[2p] [2p]...
Symbol % % % +1 +2 +3 +4
gedehnt [2S]r [2r]I r[3I] [4I]m [4m]p p[5p] [6p]...
Bei offenen Silben, d.h. die mit einem Vokal enden, wie beispielsweise "Er war da.", wird die Abspieldauer des zweiten Mikrosegmentes von "da", ausgesprochen /da:/, um 2 Stufen erhöht.
normal d[2d] [2d]a d[4a] [4a]...
Symbol % % % +2
gedehnt d[2d] [2d]a d[4a] [6a]...
Diese Prozedur wird so lange ausgeführt, bis die längste Dauerstufe (=6) erreicht ist.
Dadurch, daß mit der Analyse Intonationen zugeordnet werden und die Phonemkette an diesen Stellen mit Intonationssymbolen zu einer Symbolkette ergänzt wird, wobei bei der Aneinanderreihung der Mikrosegmente an den Intonationssymbolen eine Grundfrequenzveränderung bestimmter Teile der Perioden von Mikrosegmenten im Zeitbereich durchgeführt wird, wird die Melodie sprachlicher Äußerungen nachgebildet. Die Grundfrequenzveränderung erfolgt dabei vorzugsweise durch Überspringen und Hinzufügen bestimmter Abtastwerte. Dafür werden die vorab aufgenommenen stimmhaften Mikrosegmente, d.h. Vokale und Sonoranten, markiert. Dabei wird automatisch jede Stimmperiode mit dem spektral informationswichtigen ersten Teil, in dem die Stimmlippen geschlossen sind, und dem unwichtigeren zweiten Teil, in dem die Stimmlippen offen sind, getrennt behandelt. Die Markierungen werden so gesetzt, daß bei der Signalausgabe lediglich die spektralunkritischen zweiten Teile jeder Periode zur Grundfrequenzveränderung gekürzt oder verlängert wiedergegeben werden. Damit wird der Speicherplatzbedarf zur Nachbildung von Intonationen bei der Sprachausgabe nicht wesentlich erhöht und der Rechenaufwand aufgrund der Manipulation im Zeitbereich gering gehalten.
Bei der Aneinanderkettung verschiedener Mikrosegmente zur Sprachsynthese wird ein weitestgehend störungsfreier akustischer Übergang zwischen aufeinanderfolgenden Mikrosegmenten dadurch erreicht, daß die Mikrosegmente mit dem ersten Abtastwert nach dem ersten positiven Nulldurchgang, d. h. einem Nulldurchgang mit positivem Signalanstieg, beginnen und mit dem letzten Abtastwert vor dem letzten positiven Nulldurchgang enden. Die digital abgespeicherten Zeitreihen der Mikrosegmente reihen sich somit nahezu stetig aneinander. So werden aufgrund von Digitalsprüngen entstehende Knackgeräusche vermieden. Außerdem können jederzeit durch digitale Nullen wiedergegebene Verschlußphasen von Plosiven oder Wortunterbrechungen und allgemeine Sprachpausen im wesentlichen stetig eingefügt werden.
Nachfolgend wird ein Ausführungsbeispiel der Erfindung anhand der Zeichnungen detailliert beschrieben.
Darin zeigt:
Fig. 1
ein Ablaufdiagramm des Sprachsyntheseverfahrens,
Fig. 2
ein Spektrogramm und Zeitsignal des Wortes "Phonetik" und
Fig. 3
das Wort "Frauenheld" im Zeitbereich.
Die Verfahrensschritte des erfindungsgemäßen Sprachsynthesesystems sind in Fig. 1 in einem Ablaufdiagramm dargestellt. Die Eingabe für das Sprachsynthesesystem ist ein Text, beispielsweise eine Textdatei. Den Wörtern des Textes wird mittels eines im Rechner gespeicherten Lexikons eine Phonemkette zugeordnet, die die Aussprache des jeweiligen Wortes repräsentiert. In der Sprache, insbesondere in der deutschen Sprache, erfolgt die Wortneubildung häufig durch Zusammensetzung von Worten und Wortteilen, z.B. mit Vor- und Nachsilben. Die Aussprache von Wörtern, wie "Hausbau", "Bebauung", "bebaubar" usw., können aus einen Stamm, hier "bau", abgeleitet und mit der Aussprache der Vorund Nachsilben verbunden werden. Dabei können auch Verbindungslaute, wie "s" in "Gerichtsdiener", "es" in "Landessportschule" und "n" in "Grubenarbeiter", berücksichtigt werden. Somit greifen für den Fall, daß ein Wort nicht im Lexikon steht, verschiedene Ersatzmechanismen, um die Aussprache des Wortes zu verifizieren. Dabei wird zunächst versucht, das gesuchte Wort aus Teileinträgen des Lexikons, wie oben beschrieben, zusammenzusetzen. Falls dies nicht gelingt, wird versucht, über ein Silbenlexikon, in dem Silben mit ihren Aussprachen eingetragen sind, zu einer Aussprache zu gelangen. Mißlingt auch dies, so gibt es Regeln, wie Folgen von Buchstaben in Phonemfolgen umzusetzen sind.
Unter der, wie oben dargestellt, erzeugten Phonemkette ist in Fig. 1 die syntaktisch-semantische Analyse dargestellt. Dort sind zusätzlich zu den bekannten Ausspracheangaben im Lexikon syntaktische und morphologische Informationen enthalten, die zusammen mit bestimmten Schlüsselwörtern des Textes eine lokale linguistische Analyse ermöglichen, die Phrasengrenzen und akzentuierte Wörter ausgibt. Aufgrund dieser Analyse wird die Phonemkette, die aus den Ausspracheangaben des Lexikons stammt, modifiziert und zusätzliche Informationen über Pausendauer und Tonhöhenwerte der Mikrosegmente werden eingefügt. Es entsteht eine phonembasierte, prosodisch differenzierte Symbolkette, die die Eingabe für die eigentliche Sprachausgabe liefert.
Beispielsweise berücksichtigt die syntaktisch-semantische Analyse Wortakzente, Phrasengrenzen und Intonation. Die Abstufungen der Betontheit von Silben innerhalb eines Wortes sind in den Lexikoneinträgen markiert. Für die Wiedergabe der dieses Wort bildenden Mikrosegemente sind somit die Betonungsstufen vorgegeben. Die Betonungsstufe der Mikrosegmente einer Silbe ergibt sich aus:
  • der phonologischen Länge eines Lautes, die bei jedem Phonem bezeichnet ist, beispielsweise /e:/ für langes 'e' in /fo'ne:tIK/,
  • der Akzentuierung der Silbe, die in der Phonemkette vor der betonten Silbe bezeichnet ist, beispielsweise, /fo'ne:tIK/,
  • den Regeln für phrasenfinale Dehnung und
  • ggf. andere Regeln, die auf der Abfolge von akzentuierten Silben beruhen, wie beispielsweise die Längung von zwei betonten aufeinanderfolgenden Silben.
Die Phrasengrenzen, an denen neben bestimmten intonatorischen Verläufen die Phrasenenddehnung stattfindet, werden durch linguistische Analyse ermittelt. Aus der Folge von Wortarten wird mit vorgegebenen Regeln die Grenze von Phrasen bestimmt. Die Umsetzung der Intonation beruht auf einem Intonations- und Pausenbeschreibungssystem, bei dem grundsätzlich zwischen Intonationsverläufen, die an Phrasengrenzen stattfinden (steigend, fallend, gleichbleibend, fallend-steigend) und solchen, die um Akzente lokalisiert sind (tief, hoch, steigend, fallend), unterschieden wird. Die Zuordnung der Intonationsverläufe erfolgt auf der Basis der syntaktischen und morphologischen Analyse unter Einbeziehung von bestimmten Schlüsselwörtern und -zeichen im Text. So haben beispielsweise Fragen mit Verberststellung (erkennbar durch das Fragezeichen am Ende und die Information, daß das erste Wort des Satzes ein finites Verb ist) einen tiefen Akzentton und einen hoch steigenden Grenzton. Normale Aussagen haben einen hohen Akzentton und eine fallende finale Phrasengrenze. Der Verlauf der Intonation wird nach vorgegebenen Regeln erzeugt.
Für die eigentliche Sprachausgabe wird die phonembasierte Symbolkette in eine Mikrosegmentfolge umgewandelt. Die Umwandlung einer Folge von zwei Phonemen in Mikrosegmentfolgen erfolgt über einen Regelsatz, in dem jeder Phonemfolge eine Folge von Mikrosegmenten zugeordnet wird.
Dabei wird bei der Aneinanderreihung der durch die Mikrosegmentkette angegebenen nacheinanderfolgenden Mikrosegmente die zusätzlichen Informationen über Betonung, Pausendauer, Enddehnung und Intonation berücksichtigt. Die Modifikation der Mikrosegmentabfolge erfolgt dabei ausschließlich im Zeitbereich. In dem Zeitreihensignal der aneinandergereihten Mikrosegmente wird beispielsweis eine Sprachpause durch Einfügen von digitalen Nullen an der durch ein entsprechendes Pausensymbol markierten Stelle realisiert.
Die Sprachausgabe erfolgt dann durch digital/analog-Umwandlung des manipulierten Zeitreihensignals, beispielsweise über eine im Rechner angeordnete "Soundblaster"-Karte.
Fig. 2 zeigt im oberen Teil ein Spektrogramm und im unteren Teil das dazu gehörige Zeitsignal für das Wortbeispiel "Phonetik". Das Wort "Phonetik" wird in Symbolen als Phonemfolge zwischen Schrägstrichen wie folgt dargestellt /fone:tIk/. Diese Phonemfolge ist auf der die Zeitachse repräsentierenden Abszisse im oberen Teil der Fig. 2 aufgetragen. Die Ordinate des Spektrogramms der Fig. 2 bezeichnet den Frequenzinhalt des Sprachsignals, wobei der Grad der Schwärzung zur Amplitude der entsprechenden Frequenz proportional ist. Im in Fig. 2 oben dargestellten Zeitsignal entspricht die Ordinate der momentanen Amplitude des Signals. Im mittleren Feld sind mit senkrechten Strichen die Mikrosegmentgrenzen dargestellt. Die darin angegebenen Buchstabenkürzel geben die Bezeichnung oder Symbolisierung des jeweiligen Mikrosegmentes an. Das Beispielwort "Phonetik" besteht somit aus zwölf Mikrosegmenten.
Die Bezeichnungen der Mikrosegmente sind so gewählt, daß die Laute außerhalb der Klammer den Kontext kennzeichnen, wobei in der Klammer der klingende Laut angegebenen ist. Es werden damit die kontextabhängigen Übergänge der Sprachlaute berücksichtigt.
Die konsonantischen Segmente ... (f) und (n)e sind an der jeweiligen Lautgrenze segmentiert. Die Plosive /t/ und /k/ sind in eine Verschlußphase (t(t) und k(k)), die digital durch auf Null gesetzte Abtastwerte nachgebildet ist und für alle Plosive verwendet wird, und eine kurze Lösungsphase (hier: (t)I und (k)...), die kontextsensitiv ist, aufgeteilt. Die Vokale sind jeweils in Vokalhälften geteilt, wobei die Schnittpunkte am Anfang und in der Mitte des Vokals liegen.
In Fig. 3 ist ein weiteres Wortbeispiel "Frauenheld" im Zeitbereich wiedergegeben. Die Phonemfolge wird mit /fraU@nhElt/ angegeben. Das in Fig. 3 dargestellte Wort umfaßt 15 Mikrosegmente, wobei hier auch quasi stationäre Mikrosegmente vorkommen. Die ersten beiden Mikrosegmente ...(f) und (r)a sind konsonantische Segmente, deren Kontext nur nach einer Seite spezifiziert ist. Nach dem Halbvokal r(a), der einen Übergang der velaren Artikulationsstelle zur Mitte des a umfaßt, schließt zur Bildung des Diphthongs /aU/ die Startposition a(a) an. aU(aU) beinhaltet die perzeptiv wichtige Transition zwischen der Start- und der Zielposition u(U). (U)@ enthält den Übergang von /U/ nach /@/, der normalerweise von @(@) gefolgt werden müßte. Dadurch würde /@/ zu lange dauern, so daß dieses Segment aus Dauergründen bei /@/ und /6/ entfällt und nur die zweite Vokalhälfte (@)n abgespielt wird. (n)h stellt ein konsonantisches Segment dar. Der Übergang von Konsonanten zu /h/ wird - anders als bei Vokalen - nicht spezifiziert. Daher gibt es kein Segment n(h). (h)E enthält den behauchten Anteil des Vokals /E/, der von dem quasi-stationären E(E) gefolgt wird. (E)1 enthält die zweite Vokalhälfte von /E/ mit dem Übergang zur dentalen Artikulationsstelle. E(1) ist ein konsonantisches Mikrosegment, bei dem nur der Vorkontext spezifiziert ist. Das /t/ wird aufgeteilt in eine Verschlußphase t(t) und eine Lösungsphase (t)..., die zu Stille (...) geht.
Erfindungsgemäß wird die Vielzahl der möglichen Artikulationsstellen auf drei wesentliche Bereiche beschränkt. Die Zusammenfassung der Gruppen basiert auf den ähnlichen Bewegungen, die zur Bildung der Laute von den Artikulatoren ausgeführt werden. Wegen der vergleichbaren Artikulatorbewegungen ähneln sich die spektralen Übergänge zwischen den Lauten jeweils innerhalb der drei in Tabelle 1 genannten Gruppen.
Artikulatoren und Artikulationsstellen und deren Bezeichnung
Zusammenfassung Bezeichnung Artikulator Artikulationsstelle
labial bilabial Unterlippe Oberlippe
labiodental Unterlippe obere Schneidezähne
alveolar dental alveolar Zungenspitze ober Schneidezähne
Zungenspitze oder Zungenblatt Zahndamm, Alveolen
velar palatal vorderer Zungenrücken harter Gaumen, Palatum
velar mittlerer Zungenrücken weicher Gaumen, Velum
uvular hinterer Zungenrücken Zäpfchen, Uvulum
-- pharyngeal Zungenwurzel hintere Rachenwand
glottal Stimmlippe Stimmlippe
Daher wird für jeden Vokal nur ein Mikrosegment pro Artikulationsstelle des vorherigen Konsonanten (= 1. Hälfte des Vokals) und ein Mikrosegment pro Artikulationsstelle des folgenden Konsonanten (= 2. Hälfte des Vokals) gebraucht. Es können z. B., für die Silben
Figure 00240001
jeweils dieselben zwei Vokalhälften verwendet werden, weil der Anfangskonsonant jeweils mit dem Verschluß der beiden Lippen (bilabial) und der Endkonsonant durch Anhebung der Zungenspitze zum Zahndamm (= alveolar) gebildet werden. Neben der labialen und der alveolaren gibt es noch die velare Artikulationsstelle. Eine weitere Generalisierung wird durch die Gruppierung der postalveolaren Konsonanten /S/ ( wie in Ma sch e) und /Z/ (wie in Ga g e) zu den alveolaren und der labiodentalen Konsonaten /f/ und /v/ mit den labialen erreicht, so daß, wie oben angegeben, auch /fa(tS)/, /va(tS)/, /fa(dZ)/ und /va(dZ)/ dieselben Vokalsegmente enthalten können. Für die Mikrosegmente der o.g. Beispielsilben gilt also: p(a) = b(a) = m(a)a = (pf)(a) = f(a) = v(a) und
(a)t = (a)d = (a)s = (a)z = (a)(ts) = (a)(tS) = (a)(dZ)
= (a)n = (a)1.
Neben den eben beschriebenen Vokalhälften für den Vokal "a" gehören auch die nachfolgenden Mikrosegmente zur Kategorie der Vokalhälften und Halbvokalhälften:
  • die ersten Hälften der Monophthonge
    /i:, I, e:, E, E:, a(:), O, o:, U, u:, y:, Y, 2:, 9, @, 6/, die nach einem labial, alveolar bzw. velar gebildeten Laut auftreten;
  • die zweiten Hälften der Monophthonge
    /I:, I, e:, E, E:, a(:), O, o:, U, u:, y:, Y, 2:, 9, @, 6/ vor einem labialen, alveolaren oder velaren Laut;
  • Erste und zweite Hälften der Konsonanten /h/ und /j/ aus den Kontexten:
    • nicht-offener ungerundeter Vordervokal /i:, I, e, E, E:/,
    • nicht-offener gerunder Vordervorkal /y:, Y, 2:, 9/,
    • offener ungerundeter zentrale Vokal /a(:), @; 6/,
    • nicht-offener gerunderter Hinterzungenvokal /O, o:, U, u:/.
Darüber hinaus sind Segmente für quasi-stationäre Vokalteile zur Nachbildung der Mitte einer langen Vokalrealisierung erforderlich. Diese Mikrosegmente werden in folgenden Positionen eingesetzt:
  • wortinitial,
  • nach den Halbvokalsegmenten /h/, /j/ sowie um /?/,
  • zur Enddehnung, wenn auf einer Endsilbe komplexe Tonbewegungen realisiert werden müssen,
  • zwischen nicht diphthongischen Vokal-Vokal-Folgen, sowie
  • in Diphthongen als Start- und Zielpositionen.
Durch die mehrfache Verwendung der Mikrosegmente in unterschiedlichen lautlichen Kontexten wird der bei der Diphonsynthese entstehende Multiplikationseffekt der Lautkomibinatorik beträchtlich reduziert, ohne die Dynamik der Artikulation zu beeinträchtigen.
Bei der erfindungsgemäß dargestellten Verallgemeinerung in den Sprachbausteinen ist es theoretisch möglich, für die deutsche Sprache mit einer Anzahl von 266 Mikrosegmenten auszukommen, nämlich 16 Vokale zu 3 Artikulationsstellen, stationär, zu Ende; 6 Plosive zu 3 Konsonatengruppen nach Artikulationsstelle und zu 4 Vokalgruppen; /h/, /j/ und /?/ zu differenzierteren Vokalgruppen. Zur Verbesserung der Klangqualität der synthetisch gebildeten Sprache sollte die Anzahl der benötigten Mikrosegmente für die deutsche Sprache je nach Lautdifferenzierung zwischen 320 und 350 liegen. Dies entspricht aufgrund der zeitlich relativ kurzen Mikrosegmente einem Speicherplatzbedarf von ca. 700 kB bei 8 bit Auflösung und 22 kHz Abtastrate. Das liefert gegenüber der bekannten Diphonsynthese eine Reduktion um den Faktor 12 bis 32.
Zur weiteren Klangverbesserung der synthetisch gebildeten Sprache ist es vorgesehen, in den einzelnen Mikrosegmenten Markierungen anzubringen, die eine Kürzung, Dehnung oder Frequenzveränderung am Mikrosegment im Zeitbereich erlauben. Die Markierungen werden an den Nulldurchgängen mit positiver Steigung des Zeitsignals der Mikrosegmente gesetzt. Insgesamt werden fünf Kürzungsstufen ausgeführt, so daß das Mikrosegment zusammen mit der ungekürzten Wiedergabe sechs verschiedene Stufen der Abspieldauer hat. Bei den Kürzungen wird so verfahren, daß bei einem Vokalsegment, das von einer Artikulationsstelle zur Mitte des Vokals verläuft die Start-, und bei einem Vokalsegment, das von der Mitte des Vokals zur folgenden Artikulationsstelle verläuft, die Zielposition (= Artikulationsstelle des folgenden Konsonanten) immer erreicht wird, während die Bewegung zur oder von der "Vokalmitte" verkürzt wird. Durch dieses Verfahren wird eine weitere generalisierte Verwendung der Mikrosegmente ermöglicht. Dieselben Signalbausteine liefern die Grundelemente für lange und kurze Laute sowohl in betonten als auch in unbetonten Silben. Die Reduktionen in satzmäßig nicht akzentuierten Wörtern werden ebenfalls von denselben in satzakzentuierter Position aufgenommenen Mikrosegmenten abgeleitet.
Darüber hinaus kann die Intonation sprachlicher Äußerungen durch eine Grundfrequenzveränderung der periodischen Teile von Vokalen und Sonoranten erzeugt werden. Dies wird durch eine Grundfrequenzmanipulation im Zeitbereich am Mikrosegment durchgeführt, wobei kaum klangliche Einbußen entstehen. Der spektral informationswichtige Teil (1. Teil = Phase der geschlossenen Glottis) jeder Stimmperiode und der unwichtigere zweite Teil (= Phase der offenen Glottis) werden getrennt behandelt. Die erste Stimmperiode und die darin enthaltene, konstant zu haltende "geschlossene Phase" (1. Teil der Periode) wird markiert. Aufgrund der monotonen Sprechweise lassen sich alle anderen Perioden im Mikrosegment automatisch finden und damit die geschlossenen Phasen definieren. Bei der Signalausgabe werden die spektral unkritischen "offenen Phasen" zur Frequenzerhöhung proportional kürzer ausgegeben, was eine Verkürzung der Gesamtperioden bewirkt. Bei Frequenzsenknung wird die offene Phase proportional zum Senkungsgrad verlängert. Frequenzerhöhung und -senkung werden über ein Mikrosegment uniform durchgeführt. Die dadurch in Stufen verlaufende Intonation wird durch die natürliche "auditive Integration" des hörenden Menschen weitgehend geglättet. Prinzipiell ist es jedoch möglich, die Frequenzen auch innerhalb eines Mikrosegments zu verändern, bis hin zur Manipulation einzelner Perioden.
Nachfolgend wird die Aufnahme und Segmentation von Mikrosegmenten sowie die Sprachwiedergabe beschrieben.
Einzelwörter, die die entsprechenden Lautkombinationen beinhalten, werden von einer Person monoton und betont gesprochen. Diese real gesprochenen Äußerungen werden aufgenommen und digitalisiert. Aus diesen digitaliierten Sprachäußerungen werden die Mikrosegmente herausgeschnitten. Die Schnittpunkte der konsonantischen Segmente werden so gewählt, daß der Einfluß benachbarter Laute an den Mikrosegmentgrenzen minimiert wird und der Übergang zum nächsten Laut nicht mehr exakt wahrnehmbar ist. Die Vokalhälften werden aus der Umgebung von stimmhaften Plosiven geschnitten, wobei geräuschhafte Teile der Verschlußlösung eliminiert werden. Die quasi-stationären Vokalteile werden aus der Mitte von langen Lauten herausgetrennt.
Alle Segmente werden so aus dem digitalen Signal der sie enthaltenden Äußerung geschnitten, daß sie mit dem ersten Abtastwert nach dem ersten positiven Nulldurchgang beginnen und mit dem letzten Abtastwert vor dem letzten positiven Nulldurchgang enden. Damit werden Knackgeräusche vermieden.
Das digitale Signal hat zur Begrenzung des Speicherbedarfs beispielsweise eine Bandbreite von 8 bit und eine Abtastrate von 22 kHz.
Die so herausgetrennten Mikrosegmente werden entsprechend des Lautes und des Kontextes adressiert und in einem Speicher abgelegt.
Ein als Sprache auszugebender Text wird mit der entprechenden Adressenreihenfolge dem System zugeführt. Die Lautreihenfolge bestimmt dabei die Auswahl der Adressen. Entsprechend dieser Adressenreihenfolge werden die Mikrosegmente aus dem Speicher gelesen und aneinandergereiht. Diese digitale Zeitreihe wird in einem digital/analog-Wandler, beispielsweise in einer sogenannten Soundblaster-Karte, in ein analoges Signal umgewandelt, das über Sprachausgabevorrichtungen, beispielsweise einen Lautsprecher oder Kopfhörer, ausgegeben werden kann.
Das erfindungsgemäße Sprachsynthesesystem kann auf einem gewöhnlichen PC realisiert werden, wobei ein Arbeitsspeicher von etwa 4 MB ausreicht. Der mit dem System realisierbare Wortschatz ist praktisch unbegrenzt. Die Sprache ist dabei gut verständlich, wobei auch der Rechenaufwand für Abwandlungen der Mikrosegmente, beispielsweise Kürzungen oder Grundfrequenzveränderungen, gering ist, da das Sprachsignal im Zeitbereich bearbeitet wird.

Claims (15)

  1. Digitales Sprachsyntheseverfahren, bei dem vorab Äußerungen einer Sprache aufgenommen, die aufgenommenen Äußerungen in Sprachsegmente geteilt und die Segmente bestimmten Phonemen zuordbar abgespeichert werden, wobei dann jeweils ein als Sprache auszugebender Text in eine Phonemkette überführt wird und die abgespeicherten Segmente in einer durch diese Phonemkette definierten Reihenfolge aufeinanderfolgend ausgegeben werden, wobei eine Analyse an dem als Sprache auszugebenden Text erfolgt und damit der Phonemkette ergänzende Informationen liefert, die das Zeitreihensignal der für die Sprachausgabe aneinanderzureihenden Sprachsegmente beeinflussen, dadurch gekennzeichnet, daß Mikrosegmente als Sprachsegmente verwendet werden, die bestehen aus:
    Segmenten für Vokalhälften und Halbvokalhälften, wobei Vokale, die zwischen Konsonanten stehen, in zwei Mikrosegmente, eine erste Vokalhälfte beginnend kurz hinter dem Vokalanfang bis zur Mitte des Vokals und eine zweite Vokalhälfte von der Vokalmitte bis kurz vor das Vokalende, geteilt sind,
    Segmenten für quasi stationäre Vokalteile, die aus der Mitte eines Vokals herausgeschnitten werden,
    konsonantischen Segmenten, die kurz hinter der vorderen Lautgrenze beginnen und kurz vor der hinteren Lautgrenze enden, und
    Segmenten für Vokal-Vokal-Folgen, die aus der Mitte eines Vokal-Vokalübergangs herausgeschnitten werden.
  2. Sprachsyntheseverfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Segmente für Vokalhälften und Halbvokalhälften in einer Konsonant-Vokal- oder Vokal-Konsonant-Folge für jede der Artikulationsstellen des benachbarten Konsonanten, nämlich labial, alveolar oder velar, gleich sind.
  3. Sprachsyntheseverfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die Segmente für quasi stationäre Vokalteile vorgesehen sind für Vokale an Wortanfängen und Vokal-Vokal-Folgen sowie für die Laute /h/, /j/ und Glottalverschlüsse.
  4. Sprachsyntheseverfahren nach Anspruch 1, 2 oder 3, dadurch gekennzeichnet, daß die konsonantischen Segmente für Plosive in zwei Mikrosegmente geteilt sind, ein erstes Segment, das die Verschlußphase umfaßt, und ein zweites Segment, das die Lösungsphase umfaßt.
  5. Sprachsyntheseverfahren nach Anspruch 4, dadurch gekennzeichnet, daß die Verschlußphase für alle Plosive durch Aneinanderreihen von digitalen Nullen erreicht wird.
  6. Sprachsyntheseverfahren nach Anspruch 4 oder 5, dadurch gekennzeichnet, daß die Lösungsphase der Plosive nach dem im Kontext folgenden Laut wie folgt differenziert werden; Lösung zu Vokalen:
    vorderen, ungerundeten Vokalen;
    vorderen, gerundeten Vokalen;
    tiefen bzw. zentralisierten Vokalen und
    hinteren, gerundeten Vokalen sowie
    Lösung zu Konsonanten gemäß der globalen Artikulationsstelle:
    labial
    alveolar und
    velar.
  7. Sprachsyntheseverfahren nach Anspruch 1, 2, 3, 4, 5 oder 6, dadurch gekennzeichnet, daß mit der Analyse Sprachpausen erkannt werden und die Phonemkette an diesen Stellen mit Pausesymbolen zu einer Symbolkette ergänzt wird, wobei bei der Aneinanderreihung der Mikrosegmente an den Pausesymbolen digitale Nullen im Zeitreihensignal eingefügt werden.
  8. Sprachsyntheseverfahren nach Anspruch 1, 2, 3, 4, 5, 6 oder 7, dadurch gekennzeichnet, daß mit der Analyse Phrasengrenzen erkannt werden und die Phonemkette an diesen Stellen mit Dehnungssymbolen zu einer Symbolkette ergänzt wird, wobei bei der Aneinanderreihung der Mikrosegmente an den Markierungen eine Abspieldauerdehnung im Zeitbereich erfolgt.
  9. Sprachsyntheseverfahren nach Anspruch 1, 2, 3, 4, 5, 6, 7 oder 8, dadurch gekennzeichnet, daß mit der Analyse Betonungen erkannt werden und die Phonemkette an diesen Stellen mit Betonungssymbolen für verschiedene Betonungswerte zu einer Symbolkette ergänzt wird, wobei bei der Aneinanderreihung der Mikrosegmente entsprechend dem Betonungssymbol das Zeitsignal ungekürzt oder gekürzt wiedergegeben wird.
  10. Sprachsyntheseverfahren nach Anspruch 8 oder 9, dadurch gekennzeichnet, daß 5 Kürzungsstufen durch Markierungen am Zeitreihensignal der Mikrosegmente vorgesehen sind.
  11. Sprachsyntheseverfahren nach Anspruch 8 und 10, dadurch gekennzeichnet, daß die Abspieldauerdehnung für phrasenfinale Silben bei geschlossenen Silben ab dem zweiten Mikrosegment des Vokals durch Erhöhen der Kürzungsstufe zur längeren Abspieldauer um jeweils eine Stufe erfolgt und bei offenen Silben für das zweite Mikrosegment des Vokals durch Erhöhen der Kürzungsstufe zur längeren Abspieldauer um zwei Stufen erfolgt.
  12. Sprachsyntheseverfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß mit der Analyse Intonationen zugeordnet werden und die Phonemkette an diesen Stellen mit Intonationssymbolen zu einer Symbolkette ergänzt wird, wobei bei der Aneinanderreihung der Mikrosegmente an den Intonationssymbolen eine Grundfrequenzveränderung bestimmter Teile der Perioden von Mikrosegmenten im Zeitbereich durchgeführt wird.
  13. Sprachsyntheseverfahren nach Anspruch 12, dadurch gekennzeichnet, daß zur Senkung der Grundfrequenz bestimmte Abtastwerte ergänzt oder zur Erhöhung der Grundfrequenz Abtastwerte in der offenen Phase der Schwingungsperiode der Stimmlippen übersprungen werden.
  14. Sprachsyntheseverfahren nach Anspruch 8, 9, 10, 11, 12 oder 13, dadurch gekennzeichnet, daß die Symbolkette unter Berücksichtigung der Phonemreihenfolge und der Symbole in eine die Reihenfolge der Mikrosegmente und deren Abwandlungen repräsentierende Mikrosegmentkette überführt wird.
  15. Sprachsyntheseverfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß die Mikrosegmente mit dem ersten Abtastwert nach dem ersten positiven Nulldurchgang beginnen und mit dem letzten Abtastwert vor dem letzten positiven Nulldurchgang enden.
EP97917259A 1996-03-14 1997-03-08 Auf mikrosegmenten basierendes sprachsyntheseverfahren Expired - Lifetime EP0886853B1 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE19610019A DE19610019C2 (de) 1996-03-14 1996-03-14 Digitales Sprachsyntheseverfahren
DE19610019 1996-03-14
PCT/DE1997/000454 WO1997034291A1 (de) 1996-03-14 1997-03-08 Auf mikrosegmenten basierendes sprachsyntheseverfahren

Publications (2)

Publication Number Publication Date
EP0886853A1 EP0886853A1 (de) 1998-12-30
EP0886853B1 true EP0886853B1 (de) 1999-08-04

Family

ID=7788258

Family Applications (1)

Application Number Title Priority Date Filing Date
EP97917259A Expired - Lifetime EP0886853B1 (de) 1996-03-14 1997-03-08 Auf mikrosegmenten basierendes sprachsyntheseverfahren

Country Status (5)

Country Link
US (1) US6308156B1 (de)
EP (1) EP0886853B1 (de)
AT (1) ATE183010T1 (de)
DE (2) DE19610019C2 (de)
WO (1) WO1997034291A1 (de)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19841683A1 (de) * 1998-09-11 2000-05-11 Hans Kull Vorrichtung und Verfahren zur digitalen Sprachbearbeitung
US6928404B1 (en) * 1999-03-17 2005-08-09 International Business Machines Corporation System and methods for acoustic and language modeling for automatic speech recognition with large vocabularies
US7369994B1 (en) * 1999-04-30 2008-05-06 At&T Corp. Methods and apparatus for rapid acoustic unit selection from a large speech corpus
DE19939947C2 (de) * 1999-08-23 2002-01-24 Data Software Ag G Digitales Sprachsyntheseverfahren mit Intonationsnachbildung
US20030191625A1 (en) * 1999-11-05 2003-10-09 Gorin Allen Louis Method and system for creating a named entity language model
US7085720B1 (en) * 1999-11-05 2006-08-01 At & T Corp. Method for task classification using morphemes
US8392188B1 (en) 1999-11-05 2013-03-05 At&T Intellectual Property Ii, L.P. Method and system for building a phonotactic model for domain independent speech recognition
US7286984B1 (en) 1999-11-05 2007-10-23 At&T Corp. Method and system for automatically detecting morphemes in a task classification system using lattices
US7213027B1 (en) 2000-03-21 2007-05-01 Aol Llc System and method for the transformation and canonicalization of semantically structured data
JP2002221980A (ja) * 2001-01-25 2002-08-09 Oki Electric Ind Co Ltd テキスト音声変換装置
US20040030555A1 (en) * 2002-08-12 2004-02-12 Oregon Health & Science University System and method for concatenating acoustic contours for speech synthesis
US8768701B2 (en) * 2003-01-24 2014-07-01 Nuance Communications, Inc. Prosodic mimic method and apparatus
US7308407B2 (en) * 2003-03-03 2007-12-11 International Business Machines Corporation Method and system for generating natural sounding concatenative synthetic speech
JP2005031259A (ja) * 2003-07-09 2005-02-03 Canon Inc 自然言語処理方法
US20050125236A1 (en) * 2003-12-08 2005-06-09 International Business Machines Corporation Automatic capture of intonation cues in audio segments for speech applications
JP4265501B2 (ja) * 2004-07-15 2009-05-20 ヤマハ株式会社 音声合成装置およびプログラム
DE102005002474A1 (de) 2005-01-19 2006-07-27 Obstfelder, Sigrid Handy und Verfahren zur Spracheingabe in ein solches sowie Spracheingabebaustein und Verfahren zur Spracheingabe in einen solchen
US8924212B1 (en) * 2005-08-26 2014-12-30 At&T Intellectual Property Ii, L.P. System and method for robust access and entry to large structured data using voice form-filling
JP2008225254A (ja) * 2007-03-14 2008-09-25 Canon Inc 音声合成装置及び方法並びにプログラム
JP5119700B2 (ja) * 2007-03-20 2013-01-16 富士通株式会社 韻律修正装置、韻律修正方法、および、韻律修正プログラム
US7953600B2 (en) * 2007-04-24 2011-05-31 Novaspeech Llc System and method for hybrid speech synthesis
WO2008142836A1 (ja) * 2007-05-14 2008-11-27 Panasonic Corporation 声質変換装置および声質変換方法
CN101312038B (zh) * 2007-05-25 2012-01-04 纽昂斯通讯公司 用于合成语音的方法
US8321222B2 (en) * 2007-08-14 2012-11-27 Nuance Communications, Inc. Synthesis by generation and concatenation of multi-form segments
JP6047922B2 (ja) 2011-06-01 2016-12-21 ヤマハ株式会社 音声合成装置および音声合成方法
JP5914996B2 (ja) * 2011-06-07 2016-05-11 ヤマハ株式会社 音声合成装置およびプログラム
US9368104B2 (en) 2012-04-30 2016-06-14 Src, Inc. System and method for synthesizing human speech using multiple speakers and context
PL401371A1 (pl) * 2012-10-26 2014-04-28 Ivona Software Spółka Z Ograniczoną Odpowiedzialnością Opracowanie głosu dla zautomatyzowanej zamiany tekstu na mowę
PL401372A1 (pl) * 2012-10-26 2014-04-28 Ivona Software Spółka Z Ograniczoną Odpowiedzialnością Hybrydowa kompresja danych głosowych w systemach zamiany tekstu na mowę
JP2015014665A (ja) * 2013-07-04 2015-01-22 セイコーエプソン株式会社 音声認識装置及び方法、並びに、半導体集積回路装置
DE102013219828B4 (de) * 2013-09-30 2019-05-02 Continental Automotive Gmbh Verfahren zum Phonetisieren von textenthaltenden Datensätzen mit mehreren Datensatzteilen und sprachgesteuerte Benutzerschnittstelle
RU2692051C1 (ru) 2017-12-29 2019-06-19 Общество С Ограниченной Ответственностью "Яндекс" Способ и система для синтеза речи из текста
FR3087566B1 (fr) * 2018-10-18 2021-07-30 A I O Dispositif de suivi des mouvements et/ou des efforts d’une personne, methode d’apprentissage dudit dispositif et procede d’analyse des mouvements et/ou des efforts d’une personne
US11302300B2 (en) * 2019-11-19 2022-04-12 Applications Technology (Apptek), Llc Method and apparatus for forced duration in neural speech synthesis

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BG24190A1 (en) * 1976-09-08 1978-01-10 Antonov Method of synthesis of speech and device for effecting same
JPS5919358B2 (ja) * 1978-12-11 1984-05-04 株式会社日立製作所 音声内容伝送方式
JPH0642158B2 (ja) * 1983-11-01 1994-06-01 日本電気株式会社 音声合成装置
US4692941A (en) * 1984-04-10 1987-09-08 First Byte Real-time text-to-speech conversion system
DE69028072T2 (de) * 1989-11-06 1997-01-09 Canon Kk Verfahren und Einrichtung zur Sprachsynthese
KR940002854B1 (ko) * 1991-11-06 1994-04-04 한국전기통신공사 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치
JP3083640B2 (ja) * 1992-05-28 2000-09-04 株式会社東芝 音声合成方法および装置
US5878396A (en) * 1993-01-21 1999-03-02 Apple Computer, Inc. Method and apparatus for synthetic speech in facial animation
EP0681729B1 (de) 1993-01-30 1999-09-08 Korea Telecommunications Authority System zur sprachsynthese und spracherkennung
JP3085631B2 (ja) * 1994-10-19 2000-09-11 日本アイ・ビー・エム株式会社 音声合成方法及びシステム
US5864812A (en) * 1994-12-06 1999-01-26 Matsushita Electric Industrial Co., Ltd. Speech synthesizing method and apparatus for combining natural speech segments and synthesized speech segments

Also Published As

Publication number Publication date
WO1997034291A1 (de) 1997-09-18
DE59700315D1 (de) 1999-09-09
US6308156B1 (en) 2001-10-23
DE19610019A1 (de) 1997-09-18
ATE183010T1 (de) 1999-08-15
EP0886853A1 (de) 1998-12-30
DE19610019C2 (de) 1999-10-28

Similar Documents

Publication Publication Date Title
EP0886853B1 (de) Auf mikrosegmenten basierendes sprachsyntheseverfahren
DE69028072T2 (de) Verfahren und Einrichtung zur Sprachsynthese
DE69719654T2 (de) Grundfrequenzmuster enthaltende Prosodie-Datenbanken für die Sprachsynthese
DE69506037T2 (de) Audioausgabeeinheit und Methode
DE69909716T2 (de) Formant Sprachsynthetisierer unter Verwendung von Verkettung von Halbsilben mit unabhängiger Überblendung im Filterkoeffizienten- und Quellenbereich
DE69821673T2 (de) Verfahren und Vorrichtung zum Editieren synthetischer Sprachnachrichten, sowie Speichermittel mit dem Verfahren
Gårding A generative model of intonation
DE60112512T2 (de) Kodierung von Ausdruck in Sprachsynthese
WO2000011647A1 (de) Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten
EP0058130B1 (de) Verfahren zur Synthese von Sprache mit unbegrenztem Wortschatz und Schaltungsanordnung zur Durchführung des Verfahrens
EP1110203B1 (de) Vorrichtung und verfahren zur digitalen sprachbearbeitung
US6829577B1 (en) Generating non-stationary additive noise for addition to synthesized speech
KR101029493B1 (ko) 음성 신호 합성 방법, 컴퓨터 판독가능 저장 매체 및 컴퓨터 시스템
Kumar et al. Significance of durational knowledge for speech synthesis system in an Indian language
Furtado et al. Synthesis of unlimited speech in Indian languages using formant-based rules
JPH0580791A (ja) 音声規則合成装置および方法
DE19939947C2 (de) Digitales Sprachsyntheseverfahren mit Intonationsnachbildung
JPS62138898A (ja) 音声規則合成方式
JPS5972494A (ja) 規則合成方式
Takeda et al. Analysis of prominence in spoken Japanese sentences and application to text-to-speech synthesis
COLEMAN The Secret History of Prosodic and Autosegmental Phonology
JPS63174100A (ja) 音声規則合成方式
Zhu et al. A New Chinese Speech Synthesis Method Apply in Chinese Poetry Learning
Nooteboom et al. Speech synthesis by rule; Why, what and how?
Shetake anagri Text To Speech Conversion

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 19980912

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT CH DE FR GB LI

GRAG Despatch of communication of intention to grant

Free format text: ORIGINAL CODE: EPIDOS AGRA

GRAG Despatch of communication of intention to grant

Free format text: ORIGINAL CODE: EPIDOS AGRA

GRAH Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOS IGRA

17Q First examination report despatched

Effective date: 19990414

GRAH Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOS IGRA

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AT CH DE FR GB LI

REF Corresponds to:

Ref document number: 183010

Country of ref document: AT

Date of ref document: 19990815

Kind code of ref document: T

REG Reference to a national code

Ref country code: CH

Ref legal event code: EP

REF Corresponds to:

Ref document number: 59700315

Country of ref document: DE

Date of ref document: 19990909

REG Reference to a national code

Ref country code: CH

Ref legal event code: NV

Representative=s name: PATENTANWAELTE SCHAAD, BALASS, MENZL & PARTNER AG

GBT Gb: translation of ep patent filed (gb section 77(6)(a)/1977)

Effective date: 19990831

ET Fr: translation filed
PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

26N No opposition filed
REG Reference to a national code

Ref country code: GB

Ref legal event code: IF02

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20030305

Year of fee payment: 7

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GB

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20040308

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: AT

Payment date: 20040308

Year of fee payment: 8

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: CH

Payment date: 20040323

Year of fee payment: 8

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20040330

Year of fee payment: 8

GBPC Gb: european patent ceased through non-payment of renewal fee
PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: AT

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20050308

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LI

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20050331

Ref country code: CH

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20050331

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FR

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20051130

REG Reference to a national code

Ref country code: FR

Ref legal event code: ST

Effective date: 20051130

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20070321

Year of fee payment: 11

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20081001