DE19610019C2 - Digitales Sprachsyntheseverfahren - Google Patents
Digitales SprachsyntheseverfahrenInfo
- Publication number
- DE19610019C2 DE19610019C2 DE19610019A DE19610019A DE19610019C2 DE 19610019 C2 DE19610019 C2 DE 19610019C2 DE 19610019 A DE19610019 A DE 19610019A DE 19610019 A DE19610019 A DE 19610019A DE 19610019 C2 DE19610019 C2 DE 19610019C2
- Authority
- DE
- Germany
- Prior art keywords
- vowel
- segments
- speech
- synthesis method
- speech synthesis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000015572 biosynthetic process Effects 0.000 title abstract description 28
- 238000003786 synthesis reaction Methods 0.000 title abstract description 28
- 238000000034 method Methods 0.000 title abstract description 20
- 230000008569 process Effects 0.000 title abstract description 11
- 238000001308 synthesis method Methods 0.000 claims description 19
- 230000008859 change Effects 0.000 claims description 10
- 230000009467 reduction Effects 0.000 claims description 7
- 210000001260 vocal cord Anatomy 0.000 claims description 3
- 230000007704 transition Effects 0.000 abstract description 22
- 238000003860 storage Methods 0.000 description 14
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 9
- 230000003595 spectral effect Effects 0.000 description 6
- 230000005284 excitation Effects 0.000 description 4
- 210000000056 organ Anatomy 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000005520 cutting process Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000000630 rising effect Effects 0.000 description 3
- 238000004904 shortening Methods 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 210000004704 glottis Anatomy 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000010189 synthetic method Methods 0.000 description 2
- 241000208011 Digitalis Species 0.000 description 1
- 230000001944 accentuation Effects 0.000 description 1
- 230000009172 bursting Effects 0.000 description 1
- 238000005336 cracking Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 230000000414 obstructive effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 210000002640 perineum Anatomy 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 210000005182 tip of the tongue Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrically Operated Instructional Devices (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
Die Erfindung betrifft ein digitales Sprachsynthesever
fahren nach dem Oberbegriff von Anspruch 1.
Bei der synthetischen Erzeugung von Sprache mit Compu
tern sind im wesentlichen drei Verfahren bekannt.
Bei der Formantsynthese werden mit einer
Anregungsquelle mit nachgeschalteten Filtern die
Resonanzeigenschaften des menschlichen Ansatzrohres und
deren Veränderungen beim Sprechen, die durch die
Bewegungen der Artikulationsorgane verursacht werden,
nachgebildet. Diese Resonanzen sind charakteristisch
für die Struktur und Wahrnehmung von Vokalen. Zur
Begrenzung des Rechenaufwandes werden die ersten drei
bis fünf Formanten eines Sprachlautes synthetisch mit
der Anregungsquelle erzeugt. Bei dieser Syntheseart ist
daher für die verschiedenen Anregungswellenformen nur
ein geringer Speicherplatzbedarf in einem Rechner
vorzusehen. Ferner kann eine einfache Veränderung von
Dauer und Grundfrequenzanregungswellenformen realisiert
werden. Nachteilig ist jedoch, daß die ausgegebene
Sprache unnatürlich und metallisch klingt und besondere
Schwachpunkte bei Nasalen und Obstruenten, d. h.
Plosiven (p, t, k, b, d, g), Affrikaten (pf, ts und tS)
und Frikativen (f, v, s, z, S, Z, C, j, x, h) aufweist.
Ferner ist nachteilig, daß zur Sprachausgabe ein
ausgedehnter Regelapparat benötigt wird, der oft den
Einsatz von digitalen Verarbeitungsprozessoren
notwendig macht.
Bei der artikulatorischen Synthese werden die
akustischen Gegebenheiten im Ansatzrohr modelliert, so
daß die artikulatorischen Positionen und Bewegungen
beim Sprechen rechnerisch nachgebildet werden. Es wird
also ein akustisches Modell des Ansatzrohres berechnet,
was zu einem erheblichen Rechenaufwand führt und eine
große Rechenkapazität erfordert. Dennoch klingt die so
automatisch erzeugte Sprache unnatürlich und technisch.
Darüber hinaus ist die Konkatenationssynthese bekannt,
bei der Teile von real gesprochenen Äußerungen so
verkettet werden, daß neue Äußerungen entstehen. Die
einzelnen Sprachteile bilden also Bausteine für die
Erzeugung von Sprache. Die Größe der Teile kann - je
nach Anwendungsgebiet - von Wörtern und Phrasen bis zu
Ausschnitten aus Lauten reichen. Für die künstliche
Erzeugung von Sprache bei unbegrenztem Wortschatz
bieten sich als Einheiten Halbsilben oder kleinere
Ausschnitte an. Größere Einheiten sind nur sinnvoll,
wenn ein begrenzter Wortschatz synthetisiert werden
soll. In Systemen, die ohne Resynthese auskommen, ist
die Wahl des richtigen Schneidepunktes der
Sprachbausteine entscheidend für die Qualität der
Synthese. Dabei gilt es, melodische und spektrale
Brüche zu vermeiden. Konkatenative Syntheseverfahren
erzielen dann - insbesondere mit großen Bausteinen -
einen natürlicheren Klang als die anderen Verfahren.
Der Regelaufwand für die Erzeugung der Laute ist
außerdem recht gering. Die Beschränkungen dieses
Verfahrens liegen im relativ großen Speicherplatzbedarf
für die benötigten Sprachbausteine. Eine weitere
Einschränkung dieses Verfahrens liegt darin, daß einmal
aufgenommene Bausteine bei den bekannten Systemen nur
mit aufwendigen Resyntheseverfahren (z. B. in der Dauer
oder Frequenz) verändert werden können, die sich zudem
nachteilig auf den Sprachklang und die Verständlichkeit
auswirken. Es werden daher auch mehrere unterschied
liche Varianten eines Sprachbausteins aufgenommen, was
den Speicherplatzbedarf erhöht.
Unter den Konkatenationssyntheseverfahren sind im
wesentlichen vier Syntheseverfahren bekannt, die es
erlauben, Sprache ohne Einschränkung des Wortschatzes
zu synthetisieren.
Bei der Phonsynthese wird eine Konkatenation von Lauten
oder Phonen vorgenommen. Bei westeuropäischen Sprachen
mit einem Lautinventar von ca. 30-50 Lauten und einer
durchschnittlichen Dauer der Laute von ca. 150 ms ist
der Speicherplatzbedarf überschaubar klein. Allerdings
fehlen diesen Sprachsignalbausteinen die perzeptiv
wichtigen Übergänge zwischen den einzelnen Lauten, die
auch nur unvollständig durch Überblenden von einzelnen
Lauten bzw. aufwendigere Resyntheseverfahren
nachempfunden werden können. Daher ist diese
Syntheseart qualitativ nicht befriedigend. Auch die
Berücksichtigung des phonetischen Kontextes einzelner
Laute durch Ablegen von lautlichen Varianten eines
Lautes in eigenen Sprachsignalbausteinen in der
sogenannten Allophonsynthese verbessert das
Sprachergebnis aufgrund der Nichtbeachtung der
artikulatorisch-akustischen Dynamik nicht wesentlich.
Die gängigste Form der Konkatenationssynthese ist die
Diphonsynthese; diese benutzt Signalbausteine, die von
der Mitte eines akustisch definierten Sprachlautes bis
zur Mitte des nächsten Sprachlautes reichen. Dadurch
werden die perzeptorisch wichtigen Übergänge von einem
Laut zum anderen berücksichtigt, die als akustische
Folge der Bewegungen der Sprechorgane im Sprachsignal
auftreten. Außerdem werden dadurch die Signalbausteine
an spektral relativ gleichbleibenden Stellen
aneinandergefügt, was die potentiell vorhandenen
Störungen des Signalflusses an den Fugen der einzelnen
Diphone verringert. Das Lautinventar westeuropäischer
Sprachen besteht aus 35 bis 50 Lauten. Für eine Sprache
mit 40 Lauten ergeben sich also theoretisch 1600
Diphonpaare, die dann durch phonotaktische
Einschränkungen real auf etwa 1000 reduziert werden. In
natürlicher Sprache unterscheiden sich unbetonte und
betonte Laute sowohl klanglich als auch in der Dauer
voneinander. Um diese Unterschiede in der Synthese
adäquat zu berücksichtigen, werden in einigen Systemen
für betonte und unbetonte Lautfolgen unterschiedliche
Diphone aufgenommen. Je nach Ansatz werden also 1000
bis 2000 Diphone mit einer durchschnittlichen Dauer von
ca. 150 ms benötigt, woraus sich je nach den
Anforderungen an Dynamik und Signalbandbreite ein
Speicherplatzbedarf für die Signalbausteine von bis zu
23 MB ergibt. Ein üblicher Wert liegt bei etwa 8 MB.
Auf einem ähnlichen Prinzip wie die Diphonsynthese
beruhen auch die Triphon- und die Halbsilbensynthese.
Auch hier liegt der Schneidepunkt in der Mitte der
Laute. Allerdings werden größere Einheiten erfaßt,
wodurch größere phonetische Kontexte berücksichtigt
werden können. Die Anzahl der Kombinationen nimmt dabei
allerdings proportional zu. Bei der Halbsilbensynthese
liegt ein Schneidepunkt für die verwendeten Einheiten
mitten im Vokal einer Silbe. Der andere Schneidepunkt
liegt am Anfang bzw. Ende einer Silbe, wodurch je nach
der Struktur der Silbe auch Sequenzen von mehreren
Konsonanten in einem Sprachbaustein aufgenommen werden.
Im Deutschen werden etwa 52 unterschiedliche Lautfolgen
in Anfangssilben von Morphemen und ca. 120 Lautfolgen
für mediale bzw. finale Silben von Morphemen gezählt.
Daraus ergibt sich eine theoretische Anzahl von 6240
Halbsilben für das Deutsche, von denen einige
ungebräuchlich sind. Da Halbsilben meist länger sind
als Diphone, übersteigt der Speicherplatzbedarf für die
Sprachsignalbausteine den bei den Diphonen um einiges.
Das größte Problem ist daher bei einem qualitativ
hochwertigen Sprachsynthesesystem der erhebliche
Speicherplatzbedarf. Zur Verringerung dieses Bedarfs
wurde beispielsweise vorgeschlagen, die Stille im
Verschluß von Plosiven für alle Plosivverschlüsse zu
nutzen. Aus der EP 0 144 731 B1 ist ein
Sprachsynthesesystem bekannt, in dem Teile von Diphonen
für mehrere Laute benutzt werden. Dort wird ein
Sprachsynthesizer beschrieben, der Einheits-Sprachsig
nalformen, die durch Teilen eines Doppellautes erzeugt
werden, abspeichert und bestimmten Ausdruckssymbolen
gleichsetzt. Eine Synthetisiereinrichtung liest die
Einheits-Sprachsignalformen entsprechend den
Ausgangssymbolen der konvertierten Sequenz von
Ausdruckssymbolen aus dem Speicher. Auf der Basis des
Sprachteils der Eingangszeichen wird bestimmt, ob zwei
gelesene Einheits-Sprachsignalformen entweder direkt
verbunden werden, wenn der Eingangs-Sprachteil der
Eingangszeichen stimmlos ist, oder ein vorgegebenes
erstes Interpolationsverfahren angewendet wird, wenn
der Eingangs-Sprachteil der Eingangszeiten stimmhaft
ist, wobei die gleiche Einheits-Signalform sowohl für
einen stimmhaften (g, d, b) als auch für seinen
entsprechenden stimmlosen (k, t, p) Laut verwendet
wird. Ferner sollen in dem Speicher auch Einheits-
Sprachsignalformen abgelegt werden, die den einem
Konsonanten folgenden Vokalteil bzw. den einem
Konsonanten vorangehenden Vokalteil repräsentieren. Die
Übergangsbereiche von einem Konsonanten zu einem Vokal
bzw. von einem Vokal zu einem Konsonanten kann jeweils
für die Konsonanten k und g, t und d sowie p und b
gleich gesetzt werden. Der Speicherplatzbedarf wird
somit zwar reduziert, jedoch erfordert der angegebene
Interpolationsvorgang einen nicht unerheblichen
Rechenaufwand.
Aus der DE 27 40 520 A1 ist ein Verfahren zur Synthese
von Sprache bekannt, bei dem jedes Phonem von in einem
Speicher gespeicherten Phonem-Elementen gebildet wird,
wobei Perioden von Lautschwingungen aus natürlicher
Sprache gewonnen oder künstlich synthetisiert sind. Der
zu synthetisierende Text wird Satz für Satz grammatisch
und phonetisch nach den Regeln der Sprache analysiert.
Neben den Perioden der Lautschwingungen sind jedem
Phonem bestimmte Arten und eine Anzahl von Zeit-
Abschnitten von Rausch-Phonemen mit entsprechender
Dauer, Amplituden und Spektralverteilung gegenüber
gestellt. Die Perioden der Lautschwingungen und die
Elemente der Rausch-Phoneme sind in digitaler Form als
Folge von Amplitudenwerten der entsprechenden
Schwingung in einem Speicher abgelegt und werden beim
Lesevorgang entsprechend der Frequenzcharakteristik und
zum Erreichen der Natürlichkeit der Sprache verändert.
Demnach ist hieraus ein digitales Sprachsynthesever
fahren nach dem Konkatenationsprinzip entsprechend dem
Oberbegriff des Patentanspruches 1 bekannt.
Um mit einem möglichst kleinen Speicherbedarf
auszukommen, werden nach dem Syntheseverfahren der
DE 27 40 520 A1 einzelne Perioden von Lautschwingungen
mit charakteristischer Formant-Verteilung gespeichert.
Die jedem Phonem bei Festhalten der Grundcharakteristik
des Satzes bestimmte Arten und Anzahl von den gespei
cherten Perioden von Lautschwingungen werden bestimmt
und bilden dann zusammen den akustischen Sprachein
druck. Danach werden also extrem kurze Zeitreihenele
mente von der Länge einer Periode der Grundschwingung
eines Lautes vom Speicher abgerufen und je nach vorher
festgestellter Wiedergabeanzahl aufeinanderfolgend
wiederholt. Zur Realisierung glatter Phonemübergänge
werden Perioden (synthetische) mit Formant-Vertei
lungen, die dem Übergang zwischen den Phonemen
entsprechen, verwendet oder die Amplituden im Bereich
der betreffenden Übergänge vermindert.
Nachteilig ist, daß eine ausreichende Natürlichkeit der
Sprachwiedergabe aufgrund der mehrfachen Wiedergabe
gleicher Periodenstücke, ggf. nur synthetisch gekürzt
oder verlängert, nicht erreicht wird. Ferner wird der
erheblich verringerte Speicherbedarf durch einen
vermehrten Analyse- und Interpolationsaufwand erkauft,
was Rechenzeit kostet.
Ein zum Sprachsyntheseverfahren der DE 27 40 520 A1
ähnliches Verfahren ist aus der WO 85/04747 bekannt,
bei dem jedoch von einer vollständig synthetischen
Erzeugung der Sprachsegmente ausgegangen wird. Die
Sprachsegmente die Phoneme oder Übergänge darstellen,
werden aus synthetischen Wellenformen, die nach einer
vorbestimmten Art und Weise mehrfach, ggf. in der Länge
gekürzt und/oder stimmhaft wiedergegeben werden. Insbe
sondere bei den Phonemübergängen wird auch von einer
invertierten Wiedergabe von bestimmten Zeitreihen
Gebrauch gemacht. Nachteilig ist auch hier, daß bei
erheblich verringertem Speicherplatzbedarf aufgrund
umfangreicher Analyse- und Synthetisiervorgänge eine
erhebliche Rechenkapazität benötigt wird. Der Sprach
wiedergabe fehlt gleichwohl die natürliche Varianz.
Aufgabe der Erfindung ist es daher, ausgehend von der
DE 27 40 520 A1 ein Sprachsyntheseverfahren anzugeben,
bei dem bei geringem Speicherplatzbedarf ohne hohen
Rechenaufwand eine qualitativ hochwertige Sprachausgabe
erreicht wird.
Gelöst wird diese Aufgabe mit einem Sprachsynthese
verfahren gemäß Anspruch 1.
Mit dem erfindungsgemäßen Sprachsyntheseverfahren wird
eine Generalisierung bei der Verwendung der
Sprachsignalbausteine in Form von Mikrosegmenten
erreicht. Es wird damit die in der Diphonsynthese
nötige Verwendung eines eigenen akustischen Segments
für jede der möglichen Verbindungen zweier Sprachlaute
vermieden. Die für die Sprachausgabe benötigten
Mikrosegmente können in drei Kategorien aufgegliedert
werden. Dies sind:
- 1. Segmente für Vokalhälften und Halbvokalhälften: Sie geben in der Dynamik der spektralen Struktur die Bewegungen der Sprechorgane von bzw. zu der Artikulationsstelle des benach barten Konsonanten an. Aufgrund der Silben struktur der meisten Sprachen ist häufig eine Konsonant-Vokal-Konsonant-Folge anzutreffen. Da die Bewegungen der Sprechorgane für eine gegebene Artikulationsstelle entsprechend den relativ unbeweglichen Teilen des menschlichen Ansatzrohres unabhängig von der Artikulationsart, d. h., unabhängig von den vorangehenden oder nachfolgenden Konsonanten, vergleichbar sind, ist daher für jeden Vokal nur ein Mikrosegment pro globaler Artikulationsstelle des vorherigen Konsonanten (= erste Hälfte des Vokals) und ein Mikrosegment pro Artikulationsstelle des folgenden Konsonanten (= zweite Hälfte des Vokals) nötig.
- 2. Segmente für quasi stationäre Vokalteile: Diese Segmente sind aus der Mitte von langen Vokalrealisierungen, die klanglich relativ konstant wahrgenommen werden, herausgetrennt. Sie werden in verschiedenen Textpositionen bzw. Kontexten eingesetzt, beispielsweise am Wort anfang, nach den Halbvokalsegmenten, die be stimmten Konsonanten bzw. Konsonantfolgen folgen, im Deutschen beispielsweise nach /h/, /j/ sowie /?/, zur Enddehnung, zwischen nicht diphthongischen Vokal-Vokalfolgen und in Diphthongen als Start- und Zielpositionen.
- 3. Konsonantische Segmente:
Die konsonantischen Segmente sind so gebildet, daß sie unabhängig von der Art der Nachbarlaute für mehrere Vorkommen des Lautes entweder generell oder wie vornehmlich bei Plosiven im Kontext von bestimmten Lautgruppen verwendet werden können.
Wichtig ist, daß die in drei Kategorien aufgegliederten
Mikrosegmente mehrfach in unterschiedlichen lautlichen
Kontexten verwendet werden können. D. h., daß bei
Lautübergängen die perzeptorisch wichtigen Übergänge
von einem Laut zum anderen berücksichtigt werden, ohne
daß dabei für jede der möglichen Verbindungen zweier
Sprachlaute eigene akustische Segmente erforderlich
sind. Die erfindungsgemäße Aufteilung in Mikrosegmente,
die einen Lautübergang teilen, ermöglicht die
Verwendung identischer Segmente für verschiedene
Lautübergänge für eine Gruppe von Konsonanten. Bei
diesem Prinzip der Generalisierung bei der Verwendung
von Sprachsignalbausteinen wird der zur Abspeicherung
der Sprachsignalbausteine benötigte Speicherplatz ver
ringert. Dennoch ist die Qualität der synthetisch
ausgegebenen Sprache aufgrund der Berücksichtigung der
wahrnehmungsgemäß wichtigen Lautübergänge sehr gut.
Dadurch, daß die Segmente für Vokalhälften und
Halbvokalhälften in einer Konsonant-Vokal- oder Vokal-
Konsonant-Folge für jede der Artikulationsstellen der
benachbarten Konsonanten, nämlich labial, alveolar oder
velar, gleich sind, wird bei den Sprachsegmenten für
Vokale eine Mehrfachnutzung der Mikrosegmente für
unterschiedlichen lautlichen Kontext ermöglicht und
damit eine erhebliche Speicherplatzverringerung
erreicht.
Wenn die Segmente für quasi stationäre Vokalteile
vorgesehen sind für Vokale an Wortanfängen, Diphthonge
sowie Vokal-Vokal-Folgen, wird mit einer geringen
Anzahl von zusätzlichen Mikrosegmenten eine erhebliche
Klangverbesserung der synthetischen Sprache für
Wortanfänge, Diphthonge oder Vokal-Vokalfolgen
erreicht.
Dadurch, daß die konsonantischen Segmente für Plosive
in zwei Mikrosegmente geteilt sind, ein erstes Segment,
das die Verschlußphase umfaßt, und ein zweites Segment,
das die Lösungsphase umfaßt, wird eine weitere Gene
ralisierung der Sprachsegmente erreicht. Insbesondere
läßt sich die Verschlußphase für alle Plosive durch
eine Zeitreihe von Nullen darstellen. Für diesen Teil
der Lautwiedergabe ist daher kein Speicherplatz
erforderlich.
Die Lösungsphase der Plosive wird nach dem im Kontext
folgenden Laut differenziert. Dabei kann eine weitere
Generalisierung erreicht werden, in dem bei der Lösung
zu Vokalen nur nach den folgenden vier Vokalgruppen
- vordere, ungerundete Vokale; vordere, gerundete
Vokale; tiefe bzw. zentralisierte Vokale und hintere,
gerundete Vokale - und bei einer Lösung zu Konsonanten
nur nach drei unterschiedlichen Artikulationsstellen,
labial, alveolar oder velar, unterschieden wird, so daß
beispielsweise für die deutsche Sprache 42 Mikro
segmente für die sechs Plosive /p, t, k, b, d, g/ zu
drei Konsonantengruppen nach Artikulationsstelle und zu
vier Vokalgruppen abgespeichert werden müssen. Dies
verringert aufgrund der Mehrfachverwendung der
Mikrosegmente für unterschiedlichen lautlichen Kontext
den Speicherplatzbedarf weiter.
Vorteilhaft wird zur Kürzung von Vokalsegmenten bei
einem Vokalsegment, das von einer Artikulationsstelle
zur Mitte des Vokals verläuft, die Start- und bei einem
Vokalsegment, das von der Mitte des Vokals zur
folgenden Artikulationsstelle verläuft, die
Zielposition immer erreicht, während die Bewegung zur
oder von der "Vokalmitte" verkürzt wird. Eine derartige
Verkürzung der Mikrosegmente bildet beispielsweise
unbetonte Silben nach, wobei die in der natürlichen,
fließenden Rede zu findenden Abweichungen von der
spektralen Zielqualität des jeweiligen Vokals
wiedergegeben werden und somit die Natürlichkeit der
Synthese erhöht wird. Vorteilhaft ist dabei ferner, daß
für derartige sprachliche Abwandlungen bereits
gespeicherter Segmente kein dem Segment entsprechender
weiterer Speicherplatzbedarf benötigt wird.
Mit der Analyse des Textes wird eine Manipulation der entsprechend des als
Sprache auszugebenden Textes ausgewählten Mikrosegmente
in Abhängigkeit des Analyseergebnisses erreicht. Damit
können Abwandlungen der Aussprache in Abhängigkeit des
Satzbaus und der Semantik nachgebildet werden, ohne daß
zusätzliche Mikrosegmente für verschiedene Aussprachen
nötig sind. Der Speicherplatzbedarf kann somit gering
gehalten werden. Darüber hinaus erfordert die
Manipulation im Zeitbereich keine aufwendigen
Rechenoperationen. Gleichwohl hat die mit dem
Sprachsyntheseverfahren erzeugte Sprache ein sehr
natürliches Gepräge.
Insbesondere können mit der Analyse an dem als Sprache
auszugebenden Text, Sprachpausen erkannt werden. Die
Phonemkette wird an diesen Stellen mit Pausesymbolen zu
einer Symbolkette ergänzt, wobei bei der Aneinander
reihung der Mikrosegmente an den Pausesymbolen digitale
Nullen im Zeitreihensignal eingefügt werden. Die
zusätzlichen Informationen über eine Pausenstelle und
deren Pausendauer wird aufgrund des Satzbaus und
vorbestimmten Regeln ermittelt. Die Pausendauer wird
durch die Anzahl der einzufügenden digitalen Nullen in
Abhängigkeit der Abtastrate realisiert.
Dadurch, daß mit der Analyse Phrasengrenzen erkannt
werden und die Phonemkette an diesen Stellen mit
Dehnungssymbolen zu einer Symbolkette ergänzt wird,
wobei bei der Aneinanderreihung der Mikrosegmente an
den Markierungen eine Abspieldauerdehnung im
Zeitbereich erfolgt, kann eine phrasenfinale Dehnung
bei der synthetischen Sprachwiedergabe nachgebildet
werden. Diese Manipulation im Zeitbereich wird an den
bereits zugeordneten Mikrosegmenten ausgeführt. Es
werden daher keine zusätzlichen Sprachbausteine zur
Realisierung von Enddehnungen benötigt, was den
Speicherplatzbedarf gering hält.
Dadurch, daß mit der Analyse Betonungen erkannt werden
und die Phonemkette an diesen Stellen mit Betonungs
symbolen für verschiedene Betonungswerte zu einer
Symbolkette ergänzt wird, wobei bei der Aneinander
reihung der Mikrosegmente an den Mikrosegmenten mit
Betonungssymbolen eine Veränderung der Dauer der
Sprachlaute erfolgt, werden die in natürlicher Sprache
vorkommenden Betonungsarten nachgebildet. Die
auszuwählende Betonung wird bei der Analyse des als
Sprache auszugebenden Textes aus dem Satzaufbau und
vorbestimmten Regeln ermittelt. Je nach ermittelter
Betonung wird das betreffende Mikrosegment ungekürzt
oder durch Fortlassen bestimmter Mikrosegmentabschnitte
gekürzt wiedergegeben. Zur Erzeugung einer
wandlungsreichen Sprache bei gleichzeitig vertretbarem
Rechenaufwand haben sich fünf Kürzungsstufen für
vokalische Mikrosegmente als ausreichend erwiesen.
Diese Kürzungsstufen sind an dem vorab abgespeicherten
Mikrosegment markiert und werden kontextabhängig bei
der Textanalyse entsprechend des Analyseergebnisses, d.
h. des zu wählenden Betonungswertes, angesteuert.
Dadurch, daß mit der Analyse Intonationen zugeordnet
werden und die Phonemkette an diesen Stellen mit
Intonationssymbolen zu einer Symbolkette ergänzt wird,
wobei bei der Aneinanderreihung der Mikrosegmente an
den Intonationssymbolen eine Grundfrequenzveränderung
bestimmter Teile der Perioden von Mikrosegmenten im
Zeitbereich durchgeführt wird, wird die Melodie
sprachlicher Äußerungen nachgebildet. Die
Grundfrequenzveränderung erfolgt dabei vorzugsweise
durch zweifaches Oversampling und, wo benötigt,
überspringen und Hinzufügen bestimmter Abtastwerte.
Dafür werden die vorab aufgenommenen stimmhaften
Mikrosegmente, d. h. Vokale und Sonoranten, markiert.
Dabei wird automatisch jede Stimmperiode mit dem
spektral informationswichtigen ersten Teil, in dem die
Stimmlippen geschlossen sind, und dem unwichtigeren
zweiten Teil, in dem die Stimmlippen offen sind,
getrennt behandelt. Die Markierungen werden so gesetzt,
daß bei der Signalausgabe lediglich die spektralun
kritischen zweiten Teile jeder Periode zur
Grundfrequenzveränderung gekürzt oder verlängert
wiedergegeben werden. Damit wird der Speicherplatzbe
darf zur Nachbildung von Intonationen bei der
Sprachausgabe nicht wesentlich erhöht und der
Rechenaufwand aufgrund der Manipulation im Zeitbereich
gering gehalten.
Bei der Aneinanderkettung verschiedener Mikrosegmente
zur Sprachsynthese wird ein weitestgehend störungs
freier akustischer Übergang zwischen aufeinander
folgenden Mikrosegmenten dadurch erreicht, daß die
Mikrosegmente mit dem ersten Abtastwert nach dem ersten
positiven Nulldurchgang, d. h. einem Nulldurchgang mit
positivem Signalanstieg, beginnen und mit dem letzten
Abtastwert vor dem letzten positiven Nulldurchgang
enden. Die digital abgespeicherten Zeitreihen der
Mikrosegmente reihen sich somit nahezu stetig
aneinander. So werden aufgrund von Digitalsprüngen
entstehende Knackgeräusche vermieden. Außerdem können
jederzeit durch digitale Nullen wiedergegebene
Verschlußphasen von Plosiven oder Wortunterbrechungen
und allgemeine Sprachpausen im wesentlichen stetig
eingefügt werden.
Nachfolgend wird ein Ausführungsbeispiel der Erfindung
anhand der Zeichnungen detailliert beschrieben.
Darin zeigt:
Fig. 1 ein Ablaufdiagramm des Sprachsynthesever
fahrens,
Fig. 2 ein Spektrogramm und Zeitsignal des Wortes
"Phonetik" und
Fig. 3 das Wort "Frauenheld" im Zeitbereich.
Die Verfahrensschritte des erfindungsgemäßen Sprachsyn
thesesystems sind in Fig. 1 in einem Ablaufdiagramm
dargestellt. Die Eingabe für das Sprachsynthesesystem
ist ein Text, beispielsweise eine Textdatei. Den
Wörtern des Textes wird mittels eines im Rechner
gespeicherten Lexikons eine Phonemkette zugeordnet, die
die Aussprache des jeweiligen Wortes repräsentiert. Für
den Fall, daß ein Wort nicht im Lexikon steht, greifen
verschiedene Ersatzmechanismen, um die Aussprache des
Wortes zu verifizieren. Dabei wird zunächst versucht,
das gesuchte Wort aus Teileinträgen des Lexikons
zusammenzusetzen. Falls dies nicht gelingt, wird
versucht, über ein Silbenlexikon, in dem Silben mit
ihren Aussprachen eingetragen sind, zu einer Aussprache
zu gelangen. Mißlingt auch dies, so gibt es Regeln, wie
Folgen von Buchstaben in Phonemfolgen umzusetzen sind.
Unter der, wie oben dargestellt, erzeugten Phonemkette
ist in Fig. 1 die syntaktisch-semantische Analyse
dargestellt. Dort sind zusätzlich zu den bekannten
Ausspracheangaben im Lexikon syntaktische und
morphologische Informationen enthalten, die zusammen
mit bestimmten Schlüsselwörtern des Textes eine lokale
linguistische Analyse ermöglichen, die Phrasengrenzen
und akzentuierte Wörter ausgibt. Aufgrund dieser
Analyse wird die Phonemkette, die aus den Aussprache
angaben des Lexikons stammt, modifiziert und
zusätzliche Informationen über Pausendauer und
Tonhöhenwerte der Mikrosegmente werden eingefügt. Es
entsteht eine phonembasierte, prosodisch differenzierte
Symbolkette, die die Eingabe für die eigentliche
Sprachausgabe liefert.
Beispielsweise berücksichtigt die syntaktisch
semantische Analyse Wortakzente, Phrasengrenzen und
Intonation. Die Abstufungen der Betontheit von Silben
innerhalb eines Wortes sind in den Lexikoneinträgen
markiert. Für die Wiedergabe der dieses Wort bildenden
Mikrosegmente sind somit die Betonungsstufen
vorgegeben. Die Betonungsstufe der Mikrosegmente einer
Silbe ergibt sich aus:
- - der phonologischen Länge eines Lautes, die bei jedem Phonem bezeichnet ist, beispielsweise /e:/ für langes 'e' in /fo'ne:tIK/,
- - der Akzentuierung der Silbe, die in der Phonemkette vor der betonten Silbe bezeichnet ist, beispielsweise, /fo'ne:tIK/,
- - den Regeln für phrasenfinale Dehnung und
- - ggf. andere Regeln, die auf der Abfolge von akzentuierten Silben beruhen, wie beispielsweise die Längung von zwei betonten aufeinanderfolgenden Silben.
Die Phrasengrenzen, an denen neben bestimmten
intonatorischen Verläufen die Phrasenenddehnung
stattfindet, werden durch linguistische Analyse
ermittelt. Aus der Folge von Wortarten wird mit
vorgegebenen Regeln die Grenze von Phrasen bestimmt.
Die Umsetzung der Intonation beruht auf einem
Intonations- und Pausenbeschreibungssystem, bei dem
grundsätzlich zwischen Intonationsverläufen, die an
Phrasengrenzen stattfinden (steigend, fallend,
gleichbleibend, fallend-steigend) und solchen, die um
Akzente lokalisiert sind (tief, hoch, steigend,
fallend), unterschieden wird. Die Zuordnung der
Intonationsverläufe erfolgt auf der Basis der
syntaktischen und morphologischen Analyse unter
Einbeziehung von bestimmten Schlüsselwörtern und
-zeichen im Text. So haben beispielsweise Fragen mit
Verberststellung (erkennbar durch das Fragezeichen am
Ende und die Information, daß das erste Wort des Satzes
ein finites Verb ist) einen tiefen Akzentton und einen
hoch steigenden Grenzton. Normale Aussagen haben einen
hohen Akzentton und eine fallende finale Phrasengrenze.
Der Verlauf der Intonation wird nach vorgegebenen
Regeln erzeugt.
Für die eigentliche Sprachausgabe wird die
phonembasierte Symbolkette in eine Mikrosegmentfolge
umgewandelt. Die Umwandlung einer Folge von zwei
Phonemen in Mikrosegmentfolgen erfolgt über einen
Regelsatz, in dem jeder Phonemfolge eine Folge von
Mikrosegmenten zugeordnet wird.
Dabei wird bei der Aneinanderreihung der durch die
Mikrosegmentkette angegebenen nacheinanderfolgenden
Mikrosegmente die zusätzlichen Informationen über
Betonung, Pausendauer, Enddehnung und Intonation
berücksichtigt. Die Modifikation der Mikrosegmentab
folge erfolgt dabei ausschließlich im Zeitbereich. In
dem Zeitreihensignal der aneinandergereihten Mikroseg
mente wird beispielsweise eine Sprachpause durch
Einfügen von digitalen Nullen an der durch ein
entsprechendes Pausensymbol markierten Stelle
realisiert.
Die Sprachausgabe erfolgt dann durch digital/analog-
Umwandlung des manipulierten Zeitreihensignals,
beispielsweise über eine im Rechner angeordnete
"Soundblaster"-Karte.
Fig. 2 zeigt im oberen Teil ein Spektrogramm und im
unteren Teil das dazu gehörige Zeitsignal für das
Wortbeispiel "Phonetik". Das Wort "Phonetik" wird in
Symbolen als Phonemfolge zwischen Schrägstrichen wie
folgt dargestellt /fone:tIk/. Diese Phonemfolge ist auf
der die Zeitachse repräsentierenden Abszisse im oberen
Teil der Fig. 2 aufgetragen. Die Ordinate des
Spektrogramms der Fig. 2 bezeichnet den Frequenzinhalt
des Sprachsignals, wobei der Grad der Schwärzung zur
Amplitude der entsprechenden Frequenz proportional ist.
Im in Fig. 2 oben dargestellten Zeitsignal entspricht
die Ordinate der momentanen Amplitude des Signals. Im
mittleren Feld sind mit senkrechten Strichen die
Mikrosegmentgrenzen dargestellt. Die darin angegebenen
Buchstabenkürzel geben die Bezeichnung oder
Symbolisierung des jeweiligen Mikrosegmentes an. Das
Beispielwort "Phonetik" besteht somit aus zwölf
Mikrosegmenten.
Die Bezeichnungen der Mikrosegmente sind so gewählt,
daß die Laute außerhalb der Klammer den Kontext
kennzeichnen, wobei in der Klammer der klingende Laut
angegebenen ist. Es werden damit die kontextabhängigen
Übergänge der Sprachlaute berücksichtigt.
Die konsonantischen Segmente ...(f) und (n)e sind an
der jeweiligen Lautgrenze segmentiert. Die Plosive /t/
und /k/ sind in eine Verschlußphase (t(t) und k(k)),
die digital durch auf Null gesetzte Abtastwerte
nachgebildet ist und für alle Plosive verwendet wird,
und eine kurze Lösungsphase (hier: (t)I und (k)...),
die kontextsensitiv ist, aufgeteilt. Die Vokale sind
jeweils in Vokalhälften geteilt, wobei die Schnitt
punkte am Anfang und in der Mitte des Vokals liegen.
In Fig. 3 ist ein weiteres Wortbeispiel "Frauenheld" im
Zeitbereich wiedergegeben. Die Phonemfolge wird mit
/fraU@nhElt/ angegeben. Das in Fig. 2 dargestellte Wort
umfaßt 15 Mikrosegmente, wobei hier auch quasi
stationäre Mikrosegmente vorkommen. Die ersten beiden
Mikrosegmente ...(f) und (r)a sind konsonantische
Segmente, deren Kontext nur nach einer Seite
spezifiziert ist. Nach dem Halbvokal r(a), der einen
Übergang der velaren Artikulationsstelle zur Mitte des
a umfaßt, schließt zur Bildung des Diphthongs /aU/ die
Startposition a(a) an. aU(aU) beinhaltet die perzeptiv
wichtige Transition zwischen der Start- und der
Zielposition u(U). (U)@ enthält den Übergang von /U/
nach /@/, der normalerweise von @(@) gefolgt werden
müßte. Dadurch würde /@/ zu lange dauern, so daß dieses
Segment aus Dauergründen bei /@/ und /6/ entfällt und
nur die zweite Vokalhälfte (@)n abgespielt wird. (n)h
stellt ein konsonantisches Segment dar. Der Übergang
von Konsonanten zu /h/ wird - anders als bei Vokalen -
nicht spezifiziert. Daher gibt es kein Segment n(h).
(h)E enthält den behauchten Anteil des Vokals /E/, der
von dem quasi-stationären E(E) gefolgt wird. (E)1
enthält die zweite Vokalhälfte von /E/ mit dem Übergang
zur dentalen Artikulationsstelle. E(1) ist ein
konsonantisches Mikrosegment, bei dem nur der
Vorkontext spezifiziert ist. Das /t/ wird aufgeteilt in
eine Verschlußphase t(t) und eine Lösungsphase (t) . . .,
die zu Stille (. . .) geht.
Erfindungsgemäß wird die Vielzahl der möglichen
Artikulationsstellen auf drei wesentliche Bereiche
beschränkt. Die Zusammenfassung der Gruppen basiert auf
den ähnlichen Bewegungen, die zur Bildung der Laute von
den Artikulatoren ausgeführt werden. Wegen der
vergleichbaren Artikulatorbewegungen ähneln sich die
spektralen Übergänge zwischen den Lauten jeweils
innerhalb der drei in Tabelle 1 genannten Gruppen.
Daher wird für jeden Vokal nur ein Mikrosegment pro
Artikulationsstelle des vorherigen Konsonanten (= 1.
Hälfte des Vokals) und ein Mikrosegment pro
Artikulationsstelle des folgenden Konsonanten
(= 2. Hälfte des Vokals) gebraucht.
Es können z. B., für die Silben
jeweils dieselben zwei Vokalhälften verwendet werden,
weil der Anfangskonsonant jeweils mit dem Verschluß der
beiden Lippen (bilabial) und der Endkonsonant durch
Anhebung der Zungenspitze zum Zahndamm (= alveolar)
gebildet werden. Neben der labialen und der alveolaren
gibt es noch die velare Artikulationsstelle. Eine
weitere Generalisierung wird durch die Gruppierung der
postalveolaren Konsonanten /S/ (wie in Masche) und /Z/
(wie in Gage) zu den alveolaren und der labiodentalen
Konsonaten /f/ und /v/ mit den labialen erreicht.
D. h., daß neben den obigen 18 Silben auch /faS/,
/vaS/, /faZ/ und /vaZ/ dieselben Vokalsegmente
enthalten können. Für die Mikrosegmente der o. g.
Beispielsilben gilt also:
p(a) = b(a) = m(a) a = f(a) = v(a) und
(a)t = (a)d = (a)s = (a)z = (a)n = (a)l = (a)S = (a)Z.
p(a) = b(a) = m(a) a = f(a) = v(a) und
(a)t = (a)d = (a)s = (a)z = (a)n = (a)l = (a)S = (a)Z.
Neben den eben beschriebenen Vokalhälften für den Vokal
a gehören auch die nachfolgenden Mikrosegmente zur
Kategorie der Vokalhälften und Halbvokalhälften:
- - die ersten Hälften der Monophthonge /i:, I, e:, E, E:, a(:), O, o:, U, u:, y:, Y, 2:, 9, @, 6/, die nach einem labial, alveolar bzw. velar gebildeten Laut auftreten.
- - die zweiten Hälften der Monophthonge /I: I, e:, E, E:, a(:), O, o, U, u:, y:, Y, 2:, 9, @, 6/ vor einem labialen, alveolaren oder velaren Laut.
- - Erste und zweite Hälften der Konsonanten /h/ und
/j/ aus den Kontexten:
nicht-offener ungerundeter Vordervokal /i:, I, e, E, E:/
nicht-offener gerunder Vordervorkal /y:, Y, 2:, 9/
offener ungerundeter zentrale Vokal /a(:), @; 6/
nicht-offener gerunderter Hinterzungenvokal /O, o:, U, u:/.
Darüber hinaus sind Segmente für quasi stationäre
Vokalteile zur Nachbildung der Mitte einer langen
Vokalrealisierung erforderlich. Diese Mikrosegmente
werden in folgenden Positionen eingesetzt:
- - wortinitial
- - nach den Halbvokalsegmenten /h/, /j/ sowie um /?/
- - zur Enddehnung, wenn auf einer Endsilbe komplexe Tonbewegungen realisiert werden müssen
- - zwischen nicht diphthongischen Vokal-Vokal-Folgen
- - in Diphthongen als Start- und Zielpositionen.
Durch die mehrfache Verwendung der Mikrosegmente in
unterschiedlichen lautlichen Kontexten wird der bei der
Diphonsynthese entstehende Multiplikationseffekt der
Lautkomibinatorik beträchtlich reduziert, ohne die
Dynamik der Artikulation zu beeinträchtigen.
Bei der erfindungsgemäß dargestellten Verallgemeinerung
in den Sprachbausteinen ist es theoretisch möglich, für
die deutsche Sprache mit einer Anzahl von 266 Mikro
segmenten auszukommen, nämlich 16 Vokale zu 3 Artikula
tionsstellen, stationär, zu Ende; 6 Plosive zu 3
Konsonatengruppen nach Artikulationsstelle und zu 4
Vokalgruppen; /h/, /j/ und /?/ zu differenzierteren
Vokalgruppen. Zur Verbesserung der Klangqualität der
synthetisch gebildeten Sprache sollte die Anzahl der
benötigten Mikrosegmente für die deutsche Sprache je
nach Lautdifferenzierung zwischen 320 und 350 liegen.
Dies entspricht aufgrund der zeitlich relativ kurzen
Mikrosegmente einem Speicherplatzbedarf von ca. 700 kB
bei 8 bit Auflösung und 22 kHz Abtastrate. Das liefert
gegenüber der bekannten Diphonsynthese eine Reduktion
um den Faktor 12 bis 32.
Zur weiteren Klangverbesserung der synthetisch
gebildeten Sprache ist es vorgesehen, in den einzelnen
Mikrosegmenten Markierungen anzubringen, die eine
Kürzung, Dehnung oder Frequenzveränderung am Mikro
segment im Zeitbereich erlauben. Die Markierungen
werden an den Nulldurchgängen mit positiver Steigung
des Zeitsignals der Mikrosegmente gesetzt. Insgesamt
werden fünf Kürzungsstufen ausgeführt, so daß das
Mikrosegment zusammen mit der ungekürzten Wiedergabe
sechs verschiedene Stufen der Abspieldauer hat. Bei den
Kürzungen wird so verfahren, daß bei einem Vokal
segment, das von einer Artikulationsstelle zur Mitte
des Vokals verläuft die Start-, und bei einem
Vokalsegment, das von der Mitte des Vokals zur
folgenden Artikulationsstelle verläuft, die
Zielposition (= Artikulationsstelle des folgenden
Konsonanten) immer erreicht wird, während die Bewegung
zur oder von der "Vokalmitte" verkürzt wird. Durch
dieses Verfahren wird eine weitere generalisierte
Verwendung der Mikrosegmente ermöglicht. Dieselben
Signalbausteine liefern die Grundelemente für lange und
kurze Laute sowohl in betonten als auch in unbetonten
Silben. Die Reduktionen in satzmäßig nicht
akzentuierten Wörtern werden ebenfalls von denselben in
satzakzentuierter Position aufgenommenen Mikrosegmenten
abgeleitet.
Darüber hinaus kann die Intonation sprachlicher
Äußerungen durch eine Grundfrequenzveränderung der
periodischen Teile von Vokalen und Sonoranten erzeugt
werden. Dies wird durch eine Grundfrequenzmanipulation
im Zeitbereich am Mikrosegment durchgeführt, wobei kaum
klangliche Einbußen entstehen. Der spektral
informationswichtige Teil (1. Teil = Phase der
geschlossenen Glottis) jeder Stimmperiode und der
unwichtigere zweite Teil (= Phase der offenen Glottis)
werden getrennt behandelt. Die erste Stimmperiode und
die darin enthaltene, konstant zu haltende
"geschlossene Phase" (1. Teil der Periode) wird
markiert. Aufgrund der monotonen Sprechweise lassen
sich alle anderen Perioden im Mikrosegment automatisch
finden und damit die geschlossenen Phasen definieren.
Bei der Signalausgabe werden die spektral unkritischen
"offenen Phasen" zur Frequenzerhöhung proportional
kürzer ausgegeben, was eine Verkürzung der
Gesamtperioden bewirkt. Bei Frequenzsenknung wird die
offene Phase proportional zum Senkungsgrad verlängert.
Frequenzerhöhung und -senkung werden über ein
Mikrosegment uniform durchgeführt. Die dadurch in
Stufen verlaufende Intonation wird durch die natürliche
"auditive Integration" des hörenden Menschen weitgehend
geglättet. Prinzipiell ist es jedoch möglich, die
Frequenzen auch innerhalb eines Mikrosegments zu
verändern, bis hin zur Manipulation einzelner Perioden.
Nachfolgend wird die Aufnahme und Segmentation von
Mikrosegmenten sowie die Sprachwiedergabe beschrieben.
Einzelwörter, die die entsprechenden Lautkombinationen
beinhalten, werden von einer Person monoton und betont
gesprochen. Diese real gesprochenen Äußerungen werden
aufgenommen und digitalisiert. Aus diesen digitali
ierten Sprachäußerungen werden die Mikrosegmente
herausgeschnitten. Die Schnittpunkte der
konsonantischen Segmente werden so gewählt, daß der
Einfluß benachbarter Laute an den Mikrosegmentgrenzen
minimiert wird und der Übergang zum nächsten Laut nicht
mehr exakt wahrnehmbar ist. Die Vokalhälften werden aus
der Umgebung von stimmhaften Plosiven geschnitten,
wobei geräuschhafte Teile der Verschlußlösung
eliminiert werden. Die quasi-stationären Vokalteile
werden aus der Mitte von langen Lauten herausgetrennt.
Alle Segmente werden so aus dem digitalen Signal der
sie enthaltenden Äußerung geschnitten, daß sie mit dem
ersten Abtastwert nach dem ersten positiven
Nulldurchgang beginnen und mit dem letzten Abtastwert
vor dem letzten positiven Nulldurchgang enden. Damit
werden Knackgeräusche vermieden.
Das digitale Signal hat zur Begrenzung des Speicher
bedarfs beispielsweise eine Bandbreite von 8 bit und
eine Abtastrate von 22 kHz.
Die so herausgetrennten Mikrosegmente werden
entsprechend des Lautes und des Kontextes adressiert
und in einem Speicher abgelegt.
Ein als Sprache auszugebender Text wird mit der ent
sprechenden Adressenreihenfolge dem System zugeführt.
Die Lautreihenfolge bestimmt dabei die Auswahl der
Adressen. Entsprechend dieser Adressenreihenfolge
werden die Mikrosegmente aus dem Speicher gelesen und
aneinandergereiht. Diese digitale Zeitreihe wird in
einem digital/analog-Wandler, beispielsweise in einer
sogenannten Soundblaster-Karte, in ein analoges Signal
umgewandelt, das über Sprachausgabevorrichtungen,
beispielsweise einen Lautsprecher oder Kopfhörer,
ausgegeben werden kann.
Das erfindungsgemäße Sprachsyntheseverfahren kann auf
einem gewöhnlichen PC realisiert werden, wobei ein
Arbeitsspeicher von etwa 4 MB ausreicht. Der mit dem
System realisierbare Wortschatz ist praktisch
unbegrenzt. Die Sprache ist dabei gut verständlich,
wobei auch der Rechenaufwand für Abwandlungen der
Mikrosegmente, beispielsweise Kürzungen oder
Grundfrequenzveränderungen, gering ist, da das
Sprachsignal im Zeitbereich bearbeitet wird.
Claims (14)
1. Digitales Sprachsyntheseverfahren, bei dem vorab
Äußerungen einer Sprache aufgenommen, die aufge
nommenen Äußerungen in Sprachsegmente geteilt und
die Segmente bestimmten Phonemen zuordbar abge
speichert werden, wobei dann jeweils ein als
Sprache auszugebender Text in eine Phonemkette
überführt wird und die abgespeicherten Segmente in
einer durch diese Phonemkette definierten
Reihenfolge aufeinanderfolgend ausgegeben werden,
wobei eine Analyse an dem als Sprache auszugebenden
Text erfolgt und damit die Phonemkette ergänzende
Informationen liefert, die das Zeitreihensignal der
für die Sprachausgabe aneinanderzureihenden
Sprachsegmente beeinflussen, dadurch gekenn
zeichnet, daß Mikrosegmente als Sprachsegmente
verwendet werden, die bestehen aus:
- 1. Segmenten für Vokalhälften und Halbvokalhälften, wobei Vokale, die zwischen Konsonanten stehen, in zwei Mikrosegmente, eine erste Vokalhälfte beginnend kurz hinter dem Vokalanfang bis zur Mitte des Vokals und eine zweite Vokalhälfte von der Vokalmitte bis kurz vor das Vokalende, geteilt sind,
- 2. Segmenten für quasi stationäre Vokalteile, die aus der Mitte eines Vokals herausgeschnitten werden, und
- 3. konsonantischen Segmenten, die kurz hinter der vorderen Lautgrenze beginnen und kurz vor der hinteren Lautgrenze enden.
2. Sprachsyntheseverfahren nach Anspruch 1, dadurch
gekennzeichnet, daß die Segmente für Vokalhälften
und Halbvokalhälften in einer Konsonant-Vokal- oder
Vokal-Konsonant-Folge für jede der Artikulations
stellen des benachbarten Konsonanten, nämlich
labial, alveolar oder velar, gleich sind.
3. Sprachsyntheseverfahren nach Anspruch 1 oder 2,
dadurch gekennzeichnet, daß die Segmente für quasi
stationäre Vokalteile vorgesehen sind für Vokale an
Wortanfängen, Diphthonge und Vokal-Vokal-Folgen
sowie für die Laute /h/, /j/ und Glottalver
schlüsse.
4. Sprachsyntheseverfahren nach Anspruch 1, 2 oder 3,
dadurch gekennzeichnet, daß die konsonantischen
Segmente für Plosive in zwei Mikrosegmente geteilt
sind, ein erstes Segment, das die Verschlußphase
umfaßt, und ein zweites Segment, das die Lösungs
phase umfaßt.
5. Sprachsyntheseverfahren nach Anspruch 4, dadurch
gekennzeichnet, daß die Verschlußphase für alle
Plosive durch Aneinanderreihen von digitalen Nullen
erreicht wird.
6. Sprachsyntheseverfahren nach Anspruch 4 oder 5,
dadurch gekennzeichnet, daß die Lösungsphase der
Plosive nach dem im Kontext folgenden Laut wie
folgt differenziert werden;
Lösung zu Vokalen:
Lösung zu Vokalen:
- 1. vorderen, ungerundeten Vokalen;
- 2. vorderen, gerundeten Vokalen;
- 3. tiefen bzw. zentralisierten Vokalen und
- 4. hinteren, gerundeten Vokalen sowie
- 1. labial
- 2. alveolar und
- 3. velar.
7. Sprachsyntheseverfahren nach Anspruch 1, 2, 3, 4, 5
oder 6, dadurch gekennzeichnet, daß mit der Analyse
Sprachpausen erkannt werden und die Phonemkette an
diesen Stellen mit Pausesymbolen zu einer Symbol
kette ergänzt wird, wobei bei der Aneinanderreihung
der Mikrosegmente an den Pausesymbolen digitale
Nullen im Zeitreihensignal eingefügt werden.
8. Sprachsyntheseverfahren nach Anspruch 1, 2, 3, 4,
5, 6 oder 7, dadurch gekennzeichnet, daß mit der
Analyse Phrasengrenzen erkannt werden und die
Phonemkette an diesen Stellen mit Dehnungssymbolen
zu einer Symbolkette ergänzt wird, wobei bei der
Aneinanderreihung der Mikrosegmente an den
Markierungen eine Abspieldauerdehnung im Zeit
bereich erfolgt.
9. Sprachsyntheseverfahren nach Anspruch 1, 2, 3, 4,
5, 6, 7 oder 8, dadurch gekennzeichnet, daß mit der
Analyse Betonungen erkannt werden und die Phonem
kette an diesen Stellen mit Betonungssymbolen für
verschiedene Betonungswerte zu einer Symbolkette
ergänzt wird, wobei bei der Aneinanderreihung der
Mikrosegmente entsprechend dem Betonungssymbol das
Zeitsignal ungekürzt oder gekürzt wiedergegeben
wird.
10. Sprachsyntheseverfahren nach Anspruch 9, dadurch
gekennzeichnet, daß 5 Kürzungsstufen durch
Markierungen am Zeitreihensignal der Mikrosegmente
vorgesehen sind.
11. Sprachsyntheseverfahren nach Anspruch 1, 2, 3, 4,
5, 6, 7, 8, 9 oder 10, dadurch gekennzeichnet, daß
mit der Analyse Intonationen zugeordnet werden und
die Phonemkette an diesen Stellen mit
Intonationssymbolen zu einer Symbolkette ergänzt
wird, wobei bei der Aneinanderreihung der
Mikrosegmente an den Intonationssymbolen eine
Grundfrequenzveränderung bestimmter Teile der
Perioden von Mikrosegmenten im Zeitbereich
durchgeführt wird.
12. Sprachsyntheseverfahren nach Anspruch 11, dadurch
gekennzeichnet, daß die Grundfrequenzveränderung
durch zweifaches "Oversampling" und Überspringen
von Abtastwerten in der offenen Phase der
Schwingungsperiode der Stimmlippen erreicht wird.
13. Sprachsyntheseverfahren nach Anspruch 7, 8, 9, 10,
11 oder 12, dadurch gekennzeichnet, daß die Symbol
kette unter Berücksichtigung der Phonemreihenfolge
in eine die Reihenfolge der Mikrosegmente symboli
sierende Mikrosegmentkette überführt wird.
14. Sprachsyntheseverfahren nach einem der Ansprüche 1
bis 13, dadurch gekennzeichnet, daß die Mikro
segmente mit dem ersten Abtastwert nach dem ersten
positiven Nulldurchgang beginnen und mit dem
letzten Abtastwert vor dem letzten positiven
Nulldurchgang enden.
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19610019A DE19610019C2 (de) | 1996-03-14 | 1996-03-14 | Digitales Sprachsyntheseverfahren |
US09/142,728 US6308156B1 (en) | 1996-03-14 | 1997-03-08 | Microsegment-based speech-synthesis process |
DE59700315T DE59700315D1 (de) | 1996-03-14 | 1997-03-08 | Auf mikrosegmenten basierendes sprachsyntheseverfahren |
EP97917259A EP0886853B1 (de) | 1996-03-14 | 1997-03-08 | Auf mikrosegmenten basierendes sprachsyntheseverfahren |
PCT/DE1997/000454 WO1997034291A1 (de) | 1996-03-14 | 1997-03-08 | Auf mikrosegmenten basierendes sprachsyntheseverfahren |
AT97917259T ATE183010T1 (de) | 1996-03-14 | 1997-03-08 | Auf mikrosegmenten basierendes sprachsyntheseverfahren |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19610019A DE19610019C2 (de) | 1996-03-14 | 1996-03-14 | Digitales Sprachsyntheseverfahren |
Publications (2)
Publication Number | Publication Date |
---|---|
DE19610019A1 DE19610019A1 (de) | 1997-09-18 |
DE19610019C2 true DE19610019C2 (de) | 1999-10-28 |
Family
ID=7788258
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19610019A Expired - Fee Related DE19610019C2 (de) | 1996-03-14 | 1996-03-14 | Digitales Sprachsyntheseverfahren |
DE59700315T Expired - Fee Related DE59700315D1 (de) | 1996-03-14 | 1997-03-08 | Auf mikrosegmenten basierendes sprachsyntheseverfahren |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE59700315T Expired - Fee Related DE59700315D1 (de) | 1996-03-14 | 1997-03-08 | Auf mikrosegmenten basierendes sprachsyntheseverfahren |
Country Status (5)
Country | Link |
---|---|
US (1) | US6308156B1 (de) |
EP (1) | EP0886853B1 (de) |
AT (1) | ATE183010T1 (de) |
DE (2) | DE19610019C2 (de) |
WO (1) | WO1997034291A1 (de) |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19841683A1 (de) * | 1998-09-11 | 2000-05-11 | Hans Kull | Vorrichtung und Verfahren zur digitalen Sprachbearbeitung |
US6928404B1 (en) * | 1999-03-17 | 2005-08-09 | International Business Machines Corporation | System and methods for acoustic and language modeling for automatic speech recognition with large vocabularies |
US7369994B1 (en) * | 1999-04-30 | 2008-05-06 | At&T Corp. | Methods and apparatus for rapid acoustic unit selection from a large speech corpus |
DE19939947C2 (de) * | 1999-08-23 | 2002-01-24 | Data Software Ag G | Digitales Sprachsyntheseverfahren mit Intonationsnachbildung |
US8392188B1 (en) | 1999-11-05 | 2013-03-05 | At&T Intellectual Property Ii, L.P. | Method and system for building a phonotactic model for domain independent speech recognition |
US7286984B1 (en) | 1999-11-05 | 2007-10-23 | At&T Corp. | Method and system for automatically detecting morphemes in a task classification system using lattices |
US7085720B1 (en) * | 1999-11-05 | 2006-08-01 | At & T Corp. | Method for task classification using morphemes |
US20030191625A1 (en) * | 1999-11-05 | 2003-10-09 | Gorin Allen Louis | Method and system for creating a named entity language model |
US7213027B1 (en) | 2000-03-21 | 2007-05-01 | Aol Llc | System and method for the transformation and canonicalization of semantically structured data |
JP2002221980A (ja) * | 2001-01-25 | 2002-08-09 | Oki Electric Ind Co Ltd | テキスト音声変換装置 |
US20040030555A1 (en) * | 2002-08-12 | 2004-02-12 | Oregon Health & Science University | System and method for concatenating acoustic contours for speech synthesis |
US8768701B2 (en) * | 2003-01-24 | 2014-07-01 | Nuance Communications, Inc. | Prosodic mimic method and apparatus |
US7308407B2 (en) * | 2003-03-03 | 2007-12-11 | International Business Machines Corporation | Method and system for generating natural sounding concatenative synthetic speech |
JP2005031259A (ja) * | 2003-07-09 | 2005-02-03 | Canon Inc | 自然言語処理方法 |
US20050125236A1 (en) * | 2003-12-08 | 2005-06-09 | International Business Machines Corporation | Automatic capture of intonation cues in audio segments for speech applications |
JP4265501B2 (ja) * | 2004-07-15 | 2009-05-20 | ヤマハ株式会社 | 音声合成装置およびプログラム |
DE102005002474A1 (de) | 2005-01-19 | 2006-07-27 | Obstfelder, Sigrid | Handy und Verfahren zur Spracheingabe in ein solches sowie Spracheingabebaustein und Verfahren zur Spracheingabe in einen solchen |
US8924212B1 (en) | 2005-08-26 | 2014-12-30 | At&T Intellectual Property Ii, L.P. | System and method for robust access and entry to large structured data using voice form-filling |
JP2008225254A (ja) * | 2007-03-14 | 2008-09-25 | Canon Inc | 音声合成装置及び方法並びにプログラム |
JP5119700B2 (ja) * | 2007-03-20 | 2013-01-16 | 富士通株式会社 | 韻律修正装置、韻律修正方法、および、韻律修正プログラム |
US7953600B2 (en) * | 2007-04-24 | 2011-05-31 | Novaspeech Llc | System and method for hybrid speech synthesis |
JP4246792B2 (ja) * | 2007-05-14 | 2009-04-02 | パナソニック株式会社 | 声質変換装置および声質変換方法 |
CN101312038B (zh) * | 2007-05-25 | 2012-01-04 | 纽昂斯通讯公司 | 用于合成语音的方法 |
US8321222B2 (en) * | 2007-08-14 | 2012-11-27 | Nuance Communications, Inc. | Synthesis by generation and concatenation of multi-form segments |
JP6047922B2 (ja) * | 2011-06-01 | 2016-12-21 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
JP5914996B2 (ja) * | 2011-06-07 | 2016-05-11 | ヤマハ株式会社 | 音声合成装置およびプログラム |
US9368104B2 (en) | 2012-04-30 | 2016-06-14 | Src, Inc. | System and method for synthesizing human speech using multiple speakers and context |
PL401371A1 (pl) * | 2012-10-26 | 2014-04-28 | Ivona Software Spółka Z Ograniczoną Odpowiedzialnością | Opracowanie głosu dla zautomatyzowanej zamiany tekstu na mowę |
PL401372A1 (pl) * | 2012-10-26 | 2014-04-28 | Ivona Software Spółka Z Ograniczoną Odpowiedzialnością | Hybrydowa kompresja danych głosowych w systemach zamiany tekstu na mowę |
JP2015014665A (ja) * | 2013-07-04 | 2015-01-22 | セイコーエプソン株式会社 | 音声認識装置及び方法、並びに、半導体集積回路装置 |
DE102013219828B4 (de) * | 2013-09-30 | 2019-05-02 | Continental Automotive Gmbh | Verfahren zum Phonetisieren von textenthaltenden Datensätzen mit mehreren Datensatzteilen und sprachgesteuerte Benutzerschnittstelle |
RU2692051C1 (ru) | 2017-12-29 | 2019-06-19 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система для синтеза речи из текста |
FR3087566B1 (fr) * | 2018-10-18 | 2021-07-30 | A I O | Dispositif de suivi des mouvements et/ou des efforts d’une personne, methode d’apprentissage dudit dispositif et procede d’analyse des mouvements et/ou des efforts d’une personne |
US11302300B2 (en) * | 2019-11-19 | 2022-04-12 | Applications Technology (Apptek), Llc | Method and apparatus for forced duration in neural speech synthesis |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2740520A1 (de) * | 1976-09-08 | 1978-04-20 | Edinen Zentar Phys | Verfahren und anordnung zur synthese von sprache |
EP0144731A2 (de) * | 1983-11-01 | 1985-06-19 | Nec Corporation | Sprachsynthesizer |
WO1985004747A1 (en) * | 1984-04-10 | 1985-10-24 | First Byte | Real-time text-to-speech conversion system |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5919358B2 (ja) * | 1978-12-11 | 1984-05-04 | 株式会社日立製作所 | 音声内容伝送方式 |
DE69028072T2 (de) * | 1989-11-06 | 1997-01-09 | Canon Kk | Verfahren und Einrichtung zur Sprachsynthese |
KR940002854B1 (ko) * | 1991-11-06 | 1994-04-04 | 한국전기통신공사 | 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치 |
JP3083640B2 (ja) * | 1992-05-28 | 2000-09-04 | 株式会社東芝 | 音声合成方法および装置 |
US5878396A (en) * | 1993-01-21 | 1999-03-02 | Apple Computer, Inc. | Method and apparatus for synthetic speech in facial animation |
WO1994017519A1 (en) * | 1993-01-30 | 1994-08-04 | Korea Telecommunication Authority | Speech synthesis and recognition system |
JP3085631B2 (ja) * | 1994-10-19 | 2000-09-11 | 日本アイ・ビー・エム株式会社 | 音声合成方法及びシステム |
US5864812A (en) * | 1994-12-06 | 1999-01-26 | Matsushita Electric Industrial Co., Ltd. | Speech synthesizing method and apparatus for combining natural speech segments and synthesized speech segments |
-
1996
- 1996-03-14 DE DE19610019A patent/DE19610019C2/de not_active Expired - Fee Related
-
1997
- 1997-03-08 US US09/142,728 patent/US6308156B1/en not_active Expired - Fee Related
- 1997-03-08 WO PCT/DE1997/000454 patent/WO1997034291A1/de active IP Right Grant
- 1997-03-08 EP EP97917259A patent/EP0886853B1/de not_active Expired - Lifetime
- 1997-03-08 DE DE59700315T patent/DE59700315D1/de not_active Expired - Fee Related
- 1997-03-08 AT AT97917259T patent/ATE183010T1/de not_active IP Right Cessation
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2740520A1 (de) * | 1976-09-08 | 1978-04-20 | Edinen Zentar Phys | Verfahren und anordnung zur synthese von sprache |
EP0144731A2 (de) * | 1983-11-01 | 1985-06-19 | Nec Corporation | Sprachsynthesizer |
WO1985004747A1 (en) * | 1984-04-10 | 1985-10-24 | First Byte | Real-time text-to-speech conversion system |
Also Published As
Publication number | Publication date |
---|---|
DE19610019A1 (de) | 1997-09-18 |
ATE183010T1 (de) | 1999-08-15 |
WO1997034291A1 (de) | 1997-09-18 |
EP0886853A1 (de) | 1998-12-30 |
EP0886853B1 (de) | 1999-08-04 |
DE59700315D1 (de) | 1999-09-09 |
US6308156B1 (en) | 2001-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE19610019C2 (de) | Digitales Sprachsyntheseverfahren | |
Gårding | A generative model of intonation | |
DE69028072T2 (de) | Verfahren und Einrichtung zur Sprachsynthese | |
US6144939A (en) | Formant-based speech synthesizer employing demi-syllable concatenation with independent cross fade in the filter parameter and source domains | |
Flanagan et al. | Synthetic voices for computers | |
DE60112512T2 (de) | Kodierung von Ausdruck in Sprachsynthese | |
EP3010014B1 (de) | Verfahren zur interpretation von automatischer spracherkennung | |
WO2000011647A1 (de) | Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten | |
EP0058130B1 (de) | Verfahren zur Synthese von Sprache mit unbegrenztem Wortschatz und Schaltungsanordnung zur Durchführung des Verfahrens | |
EP1110203B1 (de) | Vorrichtung und verfahren zur digitalen sprachbearbeitung | |
Carlson | Models of speech synthesis. | |
KR101029493B1 (ko) | 음성 신호 합성 방법, 컴퓨터 판독가능 저장 매체 및 컴퓨터 시스템 | |
van Rijnsoever | A multilingual text-to-speech system | |
Furtado et al. | Synthesis of unlimited speech in Indian languages using formant-based rules | |
Khalil et al. | Arabic speech synthesis based on HMM | |
JPH0580791A (ja) | 音声規則合成装置および方法 | |
DE19939947C2 (de) | Digitales Sprachsyntheseverfahren mit Intonationsnachbildung | |
Takeda et al. | Analysis of prominence in spoken Japanese sentences and application to text-to-speech synthesis | |
Dessai et al. | Development of Konkani TTS system using concatenative synthesis | |
Zhu et al. | A New Chinese Speech Synthesis Method Apply in Chinese Poetry Learning | |
Hlaing et al. | Phoneme Concatenation method for Myanmar speech synthesis system | |
JPS63174100A (ja) | 音声規則合成方式 | |
JPH06138894A (ja) | 音声合成装置及び音声合成方法 | |
JPH08160990A (ja) | 音声合成装置 | |
Shetake | anagri Text To Speech Conversion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |