DE60311482T2 - Verfahren zur steuerung der dauer bei der sprachsynthese - Google Patents

Verfahren zur steuerung der dauer bei der sprachsynthese Download PDF

Info

Publication number
DE60311482T2
DE60311482T2 DE60311482T DE60311482T DE60311482T2 DE 60311482 T2 DE60311482 T2 DE 60311482T2 DE 60311482 T DE60311482 T DE 60311482T DE 60311482 T DE60311482 T DE 60311482T DE 60311482 T2 DE60311482 T2 DE 60311482T2
Authority
DE
Germany
Prior art keywords
speech signal
periods
dynamic
code
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60311482T
Other languages
English (en)
Other versions
DE60311482D1 (de
Inventor
F. Ercan GIGI
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Application granted granted Critical
Publication of DE60311482D1 publication Critical patent/DE60311482D1/de
Publication of DE60311482T2 publication Critical patent/DE60311482T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Input From Keyboards Or The Like (AREA)
  • Electrotherapy Devices (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephonic Communication Services (AREA)
  • Electric Clocks (AREA)

Description

  • Die vorliegende Erfindung bezieht sich auf das Gebiet der Sprachverarbeitung und im Besonderen ohne Einschränkung auf das Gebiet der Text/Sprache-Synthese.
  • Die Funktion eines Text/Sprache (TTS)-Synthesesystems besteht darin, Sprache von einem generischen Text in einer gegebenen Sprache zu synthetisieren. Heutzutage werden TTS-Systeme in vielen Anwendungsbereichen praktisch eingesetzt, beispielsweise für den Zugriff auf Datenbanken über das Telefonnetz oder als Hilfe für behinderte Personen. Ein Verfahren zum Synthetisieren von Sprache besteht darin, Elemente eines aufgezeichneten Satzes von Sprachteileinheiten wie Halbsilben oder Polyphone zu verketten. Die Mehrzahl erfolgreicher handelsüblicher Systeme verwendet die Verkettung von Polyphonen. Die Polyphone umfassen Gruppen von zwei (Diphone), drei (Triphone) oder mehr Phonen und können aus Unsinnwörtern ermittelt werden, indem die gewünschte Gruppierung von Phonen in stabilen spektralen Bereichen segmentiert wird. Bei einer Synthese auf der Basis der Verkettung ist die Erhaltung des Übergangs zwischen zwei benachbarten Phonen wesentlich für die Sicherstellung der Qualität der synthetisch erzeugten Sprache. Durch die Wahl der Polyphone als grundlegende Teileinheiten wird der Übergang zwischen zwei benachbarten Phonen in den aufgezeichneten Teileinheiten beibehalten, und die Verkettung erfolgt zwischen ähnlichen Phonen. Vor der Synthese muss jedoch die Dauer und die Tonhöhe der Phone verändert werden, damit die prosodischen Einschränkungen der neuen, derartige Phone enthaltenden Wörter erfüllt werden. Diese Verarbeitung ist erforderlich um zu vermeiden, dass die synthetisch erzeugte Sprache monoton klingt. In einem TTS-System wird diese Funktion durch ein prosodisches Modul ausgeführt. Damit die Dauer und die Tonhöhe in den aufgezeichneten Teileinheiten verändert werden kann, nutzen viele auf Verkettung basierende TTS-Systeme das TD-PSOLA-Synthesemodell (engl. time-domain pitch synchronous overlap-add, TD-PSOLA) (E. Moulines und F. Charpentier, „Pitch synchronous waveform processing techniques for text-to-speech synthesis using diphones", erschienen in Speech Commun., Band 9, S. 453–467, 1990). Bei dem TD-PSOLA-Modell wird das Sprachsignal zuerst einem die Tonhöhe kennzeichnenden Algorithmus unterzogen. Dieser Algorithmus ordnet den Spitzen des Signals in stimmhaften Segmenten und 10 ms entfernt in den stimmlosen Segmenten Marken zu. Die Synthese erfolgt durch Überlagerung von der Hanning-Fensterfunktion unterzogenen Segmenten, die an den Tonhöhenmarken zentriert sind und sich von der vorherigen Tonhöhenmarke bis zur nächsten erstrecken. Die Veränderung der Dauer erfolgt durch Löschen oder Replizieren einiger der gefensterten Segmente. Die Veränderung der Tonhöhenperiode erfolgt andererseits durch die Vergrößerung oder Reduzierung der Überlagerung zwischen den gefensterten Segmenten.
  • Trotz des in vielen handelsüblichen TTS-Systemen erzielten Erfolgs kann die unter Einsatz des TD-PSOLA-Synthesemodells erzeugte synthetische Sprache insbesondere bei starken prosodischen Schwankungen einige, im Folgenden dargelegte Nachteile aufweisen.
  • Beispiele für PSOLA-Verfahren sind in den Dokumenten EP-0363233, US-Patent Nr. 5.479.564 und EP-0706170 dargelegt. Ein spezielles Beispiel ist auch das MBR-PSOLA-Verfahren, wie es von T. Dutoit und H. Leich in Speech Communication, Elsevier Publisher, November 1993, veröffentlicht wurde. Das in der US-amerikanischen Patentschrift Nr. 5.479.564 beschriebene Verfahren schlägt Mittel vor zum Verändern der Frequenz eines Audiosignals mit konstanter Grundfrequenz durch die Überlappung und Addition von kurzzeitigen Signalen, die aus diesem Signal extrahiert werden. Die Breite der Gewichtungsfenster, die zur Erzielung der kurzzeitigen Signale eingesetzt werden, entspricht ungefähr der doppelten Periode des Audiosignals, und ihre Position innerhalb der Periode kann auf jeglichen Wert eingestellt werden (vorausgesetzt, dass die Zeitverschiebung zwischen aufeinander folgenden Fenstern der Periode des Audiosignals entspricht). In der US-amerikanischen Patentschrift Nr. 5.479.564 werden auch Mittel zum Interpolieren von Signalformen zwischen zu verkettenden Segmenten beschrieben, um Unstationärkeiten zu glätten. Derartige PSOLA-Verfahren ermöglichen es, die Dauer eines gegebenen Sprachsignals zu verändern. Dies kann durch Wiederholen oder Löschen von glockenförmigen Tonhöhenverläufen erfolgen, bevor ein Vorgang des Überlappens und Addierens für die Sprachsynthese durchgeführt wird. Die Informationen in einem glockenförmigen Tonhöhenverlauf sind nicht immer für eine Wiederholung geeignet, wie in einem Verschlusslaut. Ein geläufiger Nachteil der PSOLA-Verfahren nach dem Stand der Technik besteht darin, dass auf diese Weise Artefakte eingefügt werden. Diese Artefakte können zu einem metallischen Klang des synthetisch erzeugten Sprachsignals führen und sogar die Verständlichkeit des synthetisch erzeugten Signals erheblich beeinträchtigen oder verhindern.
  • In dem Dokument US-A-6.324.501 wird ein Verfahren zum Verändern eines eindimensionalen Eingangssignals dargelegt. Bei Sprachsignalen und ähnlichen eindimensionalen Signalen wird der Zeitmaßstab geändert, sie werden interpoliert und/oder falls erforderlich geglättet unter dem Einfluss eines Signals, das empfindlich für ein geringes stationäres Verhalten der Fenster des Signals ist, das verändert wird. Drei Maße für das stationäre Verhalten werden dargelegt: eines, das auf der Zeitbereichsanalyse basiert, eines, das auf der Frequenzbereichsanalyse basiert, und eines, das sowohl auf der Zeit- als auch der Frequenzbereichsanalyse basiert.
  • In dem Dokument US-A-6.208.960 ist ein Verfahren zum Entfernen von Periodizität aus einem langen Audiosignal dargelegt. Ein Eingangsaudiosignal wird in eine Folge von sich überlappenden oder benachbarten Signalsegmenten unterteilt. Ein langes Signal wird synthetisiert, indem entsprechende Signalsegmente der Folge von Segmenten systematisch erhalten oder wiederholt werden. Durch die Wiederholung nicht periodischer Segmente, beispielsweise eines stimmlosen Teils eines Sprachsignals oder Rauschen in Musik, ergeben sich hörbare Artefakte. Die eingeführte Periodizität wird unterbrochen, indem eine Signalsektion, die von einem nicht periodischen Quellensignalsegment herrührt, in eine zweite Folge von Signalsegmenten unterteilt wird, wobei mindestens eines der Signalsegmente eine Dauer hat, die ungleich einer Dauer des Quellensignalsegmentes und ungleich einem Vielfachen der Dauer des Quellensignalsegmentes ist. Die Signalsegmente der zweiten Folge werden umgeordnet.
  • Der vorliegenden Erfindung liegt die Aufgabe zugrunde, ein verbessertes Verfahren zum Verarbeiten eines Sprachsignals zu schaffen. Die Erfindung ist durch die unabhängigen Ansprüche 1, 8 und 9 definiert. Abhängige Ansprüche beschreiben bevorzugte Ausführungsformen.
  • Die vorliegende Erfindung schafft ein Verfahren, ein Computerprogrammprodukt und ein Computersystem zum Verarbeiten eines Sprachsignals. Im Wesentlichen ermöglicht es die vorliegende Erfindung, ein natürlich klingendes synthetisiertes Sprachsignal mit verbesserter Verständlichkeit synthetisch zu erzeugen.
  • Diese Aufgabe wird gelöst durch das Klassifizieren gewisser in dem Originalsprachsignal enthaltener Intervalle. Gemäß einem bevorzugten Ausführungsbeispiel der Erfindung werden in dem Originalsprachsignal „stationäre" und „dynamische" Intervalle gekennzeichnet. Diese Klassifizierung braucht lediglich einmal durchgeführt zu werden.
  • Sie wird dazu verwendet, ein Sprachsignal basierend auf dem Originalsprachsignal mit einer geänderten Dauer zu synthetisieren.
  • Die vorliegende Erfindung basiert auf der Beobachtung, dass die Wiederholung von glockenverlaufsförmigen dynamischen Intervallen, wie es bei den PSOLA-Verfahren nach dem Stand der Technik erfolgt, eine unbeabsichtigte Periodizität einführt, die zu Artefakten, wie beispielsweise einem metallisch klingenden synthetisierten Signal, und dazu führt, dass es weniger oder gar nicht verständlich ist.
  • Gemäß der vorliegenden Erfindung wird dieses Problem gelöst, indem die Verarbeitung von Glockenverläufen zum Zweck der Änderung der Dauer auf Glockenverläufe von stationären Intervallen des Originalsprachsignals beschränkt wird. Mit anderen Worten: Änderungen der Dauer werden nur an denjenigen Sprachintervallen vorgenommen, die eine unterschiedliche Dauer haben können. Dies gilt für die Mitte eines Vokals oder eines Konsonanten wie der Laut /s/. Es gibt jedoch Fälle, bei denen lokale Ereignisse auftreten, die kürzer als eine einzige Periode dauern. Dies sind plötzliche Veränderungen, wie beispielsweise der Beginn eines stimmlosen Verschlusslautes (/p/, /t/, /k/) oder die durch Zunge und Mund erzeugten Tick- und Schnalzlaute (/b/, /d/, /g/, /l/, /m/, /n, usw.). Perioden, die diese Ereignisse enthalten, sind wichtig für die Verständlichkeit und sollten bei der Bearbeitung nicht weggelassen werden. Ihre Wiederholung stellt auch ein Problem dar, da dadurch Artefakte eingefügt werden, die unnatürlich klingen. Auch die Perioden am Anfang eines Übergangs von einem stimmlosen Laut zu einem Vokal haben lokale Merkmale, die nicht verlängert oder verkürzt werden sollten. Zur Verhinderung von Artefakten werden alle Perioden mit einer speziellen Information zur Periodenklassenart gekennzeichnet. Diese Informationen werden dazu verwendet zu ermitteln, ob eine Periode wiederholt oder weggelassen werden kann. Somit werden Glockenverläufe, die durch Fensterung von dynamischen Intervallen des Originalsprachsignals erhalten werden, zur Änderung der Dauer nicht wiederholt. Glockenverläufe, die von Intervallen erzielt werden, die als dynamisch und wesentlich für die Verständlichkeit klassifiziert werden, werden in dem synthetisierten Signal beibehalten, um die Verständlichkeit aufrechtzuerhalten. Glockenverläufe, die durch Fensterung von Intervallen des Originalsprachsignals erhalten werden, die als dynamisch aber nicht wesentlich für die Verständlichkeit klassifiziert werden, können gelöscht werden oder nicht, bevor der Vorgang des Überlappens und Addierens durchgeführt wird, ohne dass die Qualität des resultierenden synthetisierten Sprachsignals erheblich beeinträchtigt wird.
  • Die vorliegende Erfindung findet bevorzugt Anwendung in Text/Sprache-Systemen, die eine große Anzahl von natürlichen Sprachaufzeichnungen speichern, die im Prozess der Text/Sprache-Synthese verändert werden.
  • Gemäß einer bevorzugten Ausführungsform der Erfindung wird ein angehobenes Kosinusfenster für die Fensterung des Sprachsignals eingesetzt. Vorzugsweise wird ein Sinusfenster für stationäre Intervalle eingesetzt, die stimmlose Sprache enthalten. Die für derartige stationäre Intervalle mit stimmloser Sprache erhaltenen Glockenverläufe werden randomisiert, um jegliche unbeabsichtigte Periodizität zu entfernen, die in dem Prozess der Änderung der Dauer eingefügt werden kann.
  • Bevorzugte Ausführungsbeispiele der Erfindung sind in den Zeichnungen dargestellt und werden im Folgenden näher beschrieben. Es zeigen:
  • 1 einen Ablaufplan eines bevorzugten Ausführungsbeispiels der vorliegenden Erfindung;
  • 2 die Synthese eines Sprachsignals basierend auf einem Originalsprachsignal gemäß einem Ausführungsbeispiel der vorliegenden Erfindung;
  • 3 ein Blockschaltbild eines Ausführungsbeispiels eines erfindungsgemäßen Computersystems.
  • 1 zeigt einen Ablaufplan zur Erläuterung eines bevorzugten Ausführungsbeispiels des erfindungsgemäßen Verfahrens. In Schritt 100 wird eine Aufzeichnung natürlicher Sprache geschaffen. In Schritt 102 werden Intervalle in der Aufzeichnung der natürlichen Sprache gekennzeichnet und klassifiziert. Für die Klassifizierung der Sprachintervalle wird in dem hier betrachteten Beispiel das folgende Klassifizierungssystem verwendet:
  • Pause
    .
    stimmlose Periode
    v
    stimmhafte Periode
    p
    wesentliche dynamische stimmlose Periode (sollte nur einmal verwendet werden)
    b
    wesentliche dynamische stimmhafte Periode (sollte nur einma verwendet werden)
    q
    dynamische stimmlose Periode (darf nur einmal verwendet werden)
    c
    dynamische stimmhafte Periode (darf nur einmal verwendet werden).
  • Die beiden grundlegenden Kategorien von Sprachintervallen sind „stationäre" und „dynamische" Sprachintervalle. Ein Sprachintervall wird als „stationär" klassifiziert, wenn es eine im Wesentlichen konstante Signalkennlinie für eine aufeinander folgende Anzahl von mindestens zwei Perioden der Grundfrequenz des natürlichen Sprachsignals aufweist. Im Gegensatz dazu wird das Sprachintervall der Originalsprachaufzeichnung als „dynamisch" klassifiziert, wenn seine Signalkennlinie nur innerhalb einer Periode der Grundfrequenz auftritt.
  • In dem hier betrachteten Klassifizierungssystem sind die Perioden '.' und 'v' stationäre Perioden. Die Perioden 'p', 'b', 'q' und 'c' sind dynamische Perioden, die in der nachfolgenden Verarbeitung anders behandelt werden.
  • In Schritt 104 wird ein natürliches Sprachsignal gefenstert, um Glockenverläufe zu erzielen. Die Fensterung wird vorzugsweise mit Hilfe eines angehobenen Kosinusfensters oder mit einem Sinusfenster für die Perioden '.' durchgeführt.
  • In Schritt 106 werden die aus Perioden, die als 'stationär' klassifiziert werden, erhaltenen Glockenverläufe verarbeitet, um die Dauer des Sprachsignals zu verändern. Dies kann durch Wiederholen oder Löschen von Glockenverläufen erfolgen, um die ursprüngliche Dauer zu verlängern bzw. zu verkürzen. Aus Perioden, die als 'dynamisch' klassifiziert werden, erhaltene Glockenverläufe werden nicht wiederholt, um das Einfügen von Artefakten zu verhindern. Aus Perioden, die als 'p' oder 'b' klassifiziert werden, erhaltene Glockenverläufe können nicht gelöscht werden, damit die Verständlichkeit der Originalsignals erhalten bleibt. Aus Perioden, die als 'q' oder 'c' klassifiziert werden, erhaltene Glockenverläufe werden ebenfalls nicht wiederholt, können jedoch gelöscht werden, ohne dass die Verständlichkeit des resultierenden synthetischen Signals wesentlich beeinflusst wird.
  • Vorzugsweise werden Glockenverläufe aus Perioden, die als '.' klassifiziert werden, randomisiert, um die Einführung von Periodizität zu verhindern. Dies wird außerdem unterstützt durch den Einsatz eines Sinusfensters für die Fensterung derartiger Perioden.
  • In Schritt 108 werden die verarbeiteten Glockenverläufe zur Erzeugung des synthetischen Signals überlappt und addiert.
  • 2 zeigt ein Beispiel für die Verarbeitung eines natürlichen Sprachsignals 200. Das natürliche Sprachsignal 200 weist dynamische Intervalle 202, 204, 206, 208, 210 und 212 auf. Das dynamische Intervall 202 enthält Perioden, die als 'b', 'c' klassifiziert werden. Das dynamische Intervall 204 enthält Perioden, die als 'c', 'q' klassifiziert werden. Das dynamische Intervall 206 enthält Perioden, die als 'q' klassifiziert werden. Das dynamische Intervall 208 enthält Perioden, die als 'q', 'c' und 'b' klassifiziert werden. Das dynamische Intervall 210 enthält Perioden, die als 'c', 'b' klassifiziert werden. Schließlich enthält das dynamische Intervall 212 Perioden, die als 'c' und 'b' klassifiziert werden. Ferner enthält das natürliche Sprachsignal 200 stationäre Intervalle 214, 216, 218, 220, 222 und 224. Das stationäre Intervall 214 enthält Perioden, die als 'v' klassifiziert werden, das stationäre Intervall 216 enthält Perioden, die als '.' klassifiziert werden, das stationäre Intervall 218 enthält Perioden, die als '.' klassifiziert werden, das stationäre Intervall 220 enthält Perioden, die als 'v' klassifiziert werden, das stationäre Intervall 222 enthält Perioden, die als 'v' klassifiziert werden, und das stationäre Intervall 224 enthält Perioden, die als 'v' klassifiziert werden. Diese Klassifizierung kann entweder manuell oder automatisch mittels eines geeigneten Signalanalyseprogramms durchgeführt werden. Vorzugsweise wird eine automatische Analyse mit Hilfe eines derartigen Programms durchgeführt, das dann von einem Fachmann gesteuert und, falls erforderlich, manuell korrigiert wird. Es ist anzumerken, dass diese Klassifizierung nur einmal durchgeführt zu werden braucht, um eine unbegrenzte Anzahl von Signalsynthesen zu ermöglichen.
  • Bei dem hier betrachteten Beispiel ist ein Signal auf der Grundlage des natürlichen Sprachsignals 200 zu synthetisieren, das eine längere Dauer im Vergleich zu dem Originalsprachsignal 200 aufweist. Zu diesem Zweck wird das natürliche Sprachsignal 200 mit Hilfe eines Fensters gefenstert, das synchron zur Grundfrequenz des natürlichen Sprachsignals 200 positioniert wird, wie es nach dem Stand der Technik bekannt ist und in Verfahren des PSOLA-Typs eingesetzt wird.
  • Als Fenster wird vorzugsweise ein angehobenes Kosinusfenster eingesetzt. Für Perioden, die als '.' klassifiziert werden, wird ein Sinusfenster eingesetzt, um eine unbeabsichtigte Periodizität zu reduzieren, die eventuell eingeführt wird, wenn Glockenverläufe des verrauschten Signalanteils wiederholt werden. Als weitere Maßnahme gegen eine unbeabsichtigte Periodizität werden die Glockenverläufe für die als '.' klassifizierten Perioden randomisiert erfasst. Bei dem hier betrachteten Beispiel wird das zu synthetisierende Signal folgendermaßen im Bereich der Zeitachse 226 zusammengesetzt:
    Das erste Intervall 228 des zu synthetisierenden Sprachsignals enthält die Glockenverläufe von dem dynamischen Intervall 202. Diese Glockenverläufe werden für das Intervall 228 ohne Veränderung verwendet, was impliziert, dass die Dauer des Intervalls 228 in Hinblick auf das dynamische Intervall 202 unverändert ist. Die Dauer des Intervalls 230 ist ungefähr das Doppelte der Dauer des entsprechenden stationären Intervalls 214. Dies wird durch Wiederholen jedes der für das stationäre Intervall 214 erfassten Glockenverläufe erreicht. Das Intervall 232 enthält die Glockenverläufe von dem dynamischen Intervall 204. Die Dauer von 232 ist unverändert im Vergleich zu dem dynamischen Intervall 204. Das Intervall 234 besteht aus Glockenverläufen, die von dem stationären Intervall 216 erfasst wurden. Wiederum wird jeder der in dem stationären Intervall 216 enthaltenen Glockenverläufe wiederholt, um die Dauer dieses Intervalls zu verdoppeln. In gleicher Weise werden die folgenden Intervalle 236, 238, 240, 242,... aus den Intervallen 206, 218, 208, 220, 210, 222, 212, 242 erzielt. Danach werden die Glockenverläufe im Bereich der Zeitachse 226 überlappt, um das resultierende synthetisierte Signal zu erhalten. Als Alternative können die aus den als 'q' oder 'c' klassifizierten Perioden des natürlichen Sprachsignals 200 erzielten Glockenverläufe gelöscht werden. Auf keinen Fall werden die Glockenverläufe, die aus als 'dynamisch' klassifizierten Perioden des natürlichen Sprachsignals 200 erzielt wurden, wiederholt. Auf diese Weise kann eine Änderung der Dauer durchgeführt werden, ohne dass Artefakte eingefügt werden, die sonst einen erheblichen Einfluss auf die Qualität und Verständlichkeit des synthetisierten Signals hätten. Bei dem hier betrachteten Beispiel wird 'p' verwendet, um lokale (stimmlose) Ereignisse zu markieren, die wesentlich für die Verständlichkeit der gesprochenen Äußerung sind. Normalerweise gehört der Rauschburst nach dem Ablassen von Luft durch den Mund oder die Zunge zu diesem Typ. Die Phoneme /p/, /t/ und /k/ weisen mindestens eine derartige Periode auf. Mit 'p' markierte Perioden sollten unabhängig von der endgültigen Dauer der Phoneme nur einmal in der synthetischen Sprache auftauchen. Einige lokale (stimmlose) Ereignisse sind für die Verständlichkeit nicht wesentlich, jedoch so dynamisch, dass ihre Wiederholung eine Folge von unnatürlich klingenden Perioden einfügen würde. Diese Perioden werden mit dem Buchstaben 'q' markiert. Sie dürfen nur einmal verwendet werden, können jedoch auch weggelassen werden, ohne dass eine wesentliche Verschlechterung der Qualität oder der Verständlichkeit die Folge wäre. Die stimmhaften Gegenstücke zu 'p' und 'q' sind die mit 'b' und 'c' gekennzeichneten Arten. Die stimmhaften Verschlusslaute /b/, /d/ und /g/ weisen normalerweise mindestens eine mit 'b' markierte Perio de auf. Auch die Zunge kann Tick- und Schnalzlaute erzeugen, wenn sie andere Teile des Mundes trifft oder sich von ihnen löst. Das Phonem /l/ ist ein Beispiel, bei dem dies auftritt. Der Übergang von einer Pause zu Vokalen oder von stimmlosen Konsonanten zu Vokalen kann ebenfalls Perioden mit lokalen Ereignissen aufweisen. Die Perioden in der Mitte eines Vokals können zwar viele Male wiederholt werden, ohne dass die Natürlichkeit beeinträchtigt wird, die Perioden, die genau in die Mitte des Übergangs fallen, sind jedoch zu dynamisch für eine Wiederholung.
  • 3 zeigt ein Blockschaltbild eines Ausführungsbeispiels eines erfindungsgemäßen Computersystems. Das Computersystem ist vorzugsweise ein Text/Sprache-System, das die Prinzipien der vorliegenden Erfindung verkörpert. Das Computersystem 300 umfasst ein Modul 302, das zum Speichern natürlicher Sprachsignale dient. Das Modul 304 dient dazu, automatisch, manuell oder interaktiv Perioden der in dem Modul 302 gespeicherten natürlichen Sprachsignale zu klassifizieren. Das Modul 306 dient dazu, die Fensterung eines in dem Modul 302 gespeicherten natürlichen Sprachsignals durchzuführen. Auf diese Weise wird eine Anzahl von Glockenverläufen erzielt. Das Modul 308 dient zur Verarbeitung der Glockenverläufe. Die Verarbeitung von Glockenverläufen zur Änderung der Dauer wird nur an Glockenverläufen vorgenommen, die aus Intervallen erzielt werden, die als stationär klassifiziert werden. Zusätzlich können Glockenverläufe aus dynamischen Intervallen, die als nicht wesentlich für die Verständlichkeit klassifiziert wurden, durch das Modul 308 gelöscht werden, so dass sie in dem synthetisierten Signal nicht auftreten. Das Modul 310 dient dazu, einen Vorgang des Überlappens und Addierens an den resultierenden Glockenverläufen vorzunehmen, um das synthetische Signal zu erzeugen. Die gewünschte Änderung der Dauer des im Modul 302 gespeicherten natürlichen Originalsprachsignals wird in das Computersystem 300 eingegeben. Das resultierende synthetische Signal wird vom Computersystem 300 auf einer Trägerwelle oder als Datendatei ausgegeben. Text in den Figuren Figur 3
    Modification of duration Änderung der Dauer
    Synthesized signal Synthetisiertes Signal
  • 100
    Aufzeichnung natürlicher Sprache schaffen
    102
    Intervall klassifizieren
    104
    Tonhöhenperioden ermitteln
    106
    Dauer der stationären Tonhöhenperioden verändern
    108
    für Synthese überlappen und addieren
    200
    natürliches Sprachsignal
    202
    dynamisches Intervall
    204
    dynamisches Intervall
    206
    dynamisches Intervall
    208
    dynamisches Intervall
    210
    dynamisches Intervall
    212
    dynamisches Intervall
    214
    stationäres Intervall
    216
    stationäres Intervall
    218
    stationäres Intervall
    220
    stationäres Intervall
    222
    stationäres Intervall
    224
    stationäres Intervall
    226
    Zeitachsenintervall
    230
    Intervall
    232
    Intervall
    234
    Intervall
    236
    Intervall
    238
    Intervall
    240
    Intervall
    242
    Intervall
    300
    Computersystem
    302
    Modul
    304
    Modul
    306
    Modul
    308
    Modul
    310
    Modul

Claims (9)

  1. Verfahren zum Synthetisieren eines Sprachsignals, das Folgendes umfasst: – Zuordnen eines ersten Identifikators zu stationären Intervallen eines Originalsprachsignals, – Zuordnen eines zweiten Identifikators zu dynamischen Intervallen des Originalsprachsignals, – Kennzeichnen dynamischer stimmloser Perioden (q) und dynamischer stimmhafter Perioden (c), – Fenstern des Originalsprachsignals zum Erzeugen einer Anzahl von Tonhöhenperioden, gekennzeichnet durch – Löschen der Tonhöhenperioden, die dynamischen stimmlosen Perioden (q) und dynamischen stimmhaften Perioden (c) entsprechen, – Verarbeiten der Tonhöhenperioden mit dem ihnen zugeordneten ersten Identifikator zum Verändern einer Dauer des Sprachsignals, – Durchführen eines Vorgangs des Überlappens und Addierens an den verarbeiteten Tonhöhenperioden.
  2. Verfahren nach Anspruch 1, wobei ein erster Code oder ein zweiter Code als erster Identifikator verwendet wird, wobei der erste Code eine stimmlose Periode und der zweite Code eine stimmhafte Periode kennzeichnet.
  3. Verfahren nach einem der vorherigen Ansprüche, wobei ein dritter Code, ein vierter Code, ein fünfter Code oder ein sechster Code als zweiter Identifikator verwendet wird, wobei der dritte Code eine stimmlose Periode kennzeichnet, die wesentlich für die Verständlichkeit des Sprachsignals ist, der vierte Code eine stimmhafte Periode kennzeichnet, die wesentlich für die Verständlichkeit des Sprachsignals ist, und der fünfte Code eine stimmlose Periode kennzeichnet, die nicht wesentlich für die Verständlichkeit des Sprachsignals ist, und der sechste Code eine stimmhafte Periode kennzeichnet, die nicht wesentlich für die Verständlichkeit des Sprachsignals ist.
  4. Verfahren nach einem der vorhergehenden Ansprüche, wobei eine angehobene Kosinusfunktion für die Fensterung des Sprachsignals verwendet wird.
  5. Verfahren nach einem der vorhergehenden Ansprüche, wobei ein Sinusfenster für die Fensterung stationärer stimmloser Intervalle des Sprachsignals verwendet wird.
  6. Verfahren nach einem der vorhergehenden Ansprüche, das ferner das Randomisieren der Tonhöhenperioden von stationären, stimmlosen Perioden umfasst, bevor der Vorgang des Überlappens und Addierens durchgeführt wird.
  7. Verfahren nach einem der vorhergehenden Ansprüche, wobei die Fensterung mit Hilfe eines Fensters durchgeführt wird, das synchron mit einer Grundfrequenz des Sprachsignals positioniert wird.
  8. Computerprogrammprodukt, das Programmcodemittel umfasst, die einen Computer veranlassen, alle Schritte des Verfahrens nach Anspruch 1 auszuführen, wenn das genannte Programm auf einem Computer läuft.
  9. Computersystem, im Besonderen Text/Sprache-System, das Folgendes umfasst: – Mittel (2302) zum Speichern eines Sprachsignals, – Mittel (304) zum Speichern erster Identifikatoren, die stationären Intervallen eines Originalsprachsignals zugeordnet sind, und zum Speichern zweiter Identifikatoren, die dynamischen Intervallen des Originalsprachsignals zugeordnet sind, – Mittel zum Kennzeichnen dynamischer stimmloser Perioden (q) und dynamischer stimmhafter Perioden (c), – Mittel (306) zum Fenstern des Sprachsignals zum Erzeugen einer Anzahl von Tonhöhenperioden, dadurch gekennzeichnet, das sie Folgendes umfassen: – Mittel zum Löschen der Tonhöhenperioden, die dynamischen stimmlosen Perioden (q) und dynamischen stimmhaften Perioden (c) entsprechen, – Mittel (308) zum Verarbeiten der Tonhöhenperioden mit dem ihnen zugeordneten ersten Identifikator, um die Dauer des Sprachsignals zu verändern, und – Mittel (310) zum Durchführen eines Vorgangs des Überlappens und Addierens an den verarbeiteten Tonhöhenperioden.
DE60311482T 2002-09-17 2003-08-05 Verfahren zur steuerung der dauer bei der sprachsynthese Expired - Lifetime DE60311482T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP02078847 2002-09-17
EP02078847 2002-09-17
PCT/IB2003/003360 WO2004027758A1 (en) 2002-09-17 2003-08-05 Method for controlling duration in speech synthesis

Publications (2)

Publication Number Publication Date
DE60311482D1 DE60311482D1 (de) 2007-03-15
DE60311482T2 true DE60311482T2 (de) 2007-10-25

Family

ID=32010976

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60311482T Expired - Lifetime DE60311482T2 (de) 2002-09-17 2003-08-05 Verfahren zur steuerung der dauer bei der sprachsynthese

Country Status (10)

Country Link
US (1) US7912708B2 (de)
EP (1) EP1543503B1 (de)
JP (1) JP5175422B2 (de)
KR (1) KR101029493B1 (de)
CN (1) CN1682281B (de)
AT (1) ATE352837T1 (de)
AU (1) AU2003249443A1 (de)
DE (1) DE60311482T2 (de)
TW (1) TWI307875B (de)
WO (1) WO2004027758A1 (de)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100343893C (zh) * 2002-09-17 2007-10-17 皇家飞利浦电子股份有限公司 用于稳定音信号合成的方法和文本到语音转换的合成***
US20050227657A1 (en) * 2004-04-07 2005-10-13 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for increasing perceived interactivity in communications systems
US8036903B2 (en) * 2006-10-18 2011-10-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Analysis filterbank, synthesis filterbank, encoder, de-coder, mixer and conferencing system
JP6047922B2 (ja) * 2011-06-01 2016-12-21 ヤマハ株式会社 音声合成装置および音声合成方法
CN109712634A (zh) * 2018-12-24 2019-05-03 东北大学 一种自动声音转换方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63199399A (ja) 1987-02-16 1988-08-17 キヤノン株式会社 音声合成装置
US5189702A (en) 1987-02-16 1993-02-23 Canon Kabushiki Kaisha Voice processing apparatus for varying the speed with which a voice signal is reproduced
JP2612868B2 (ja) 1987-10-06 1997-05-21 日本放送協会 音声の発声速度変換方法
FR2636163B1 (fr) 1988-09-02 1991-07-05 Hamon Christian Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde
DE69228211T2 (de) 1991-08-09 1999-07-08 Koninkl Philips Electronics Nv Verfahren und Apparat zur Handhabung von Höhe und Dauer eines physikalischen Audiosignals
US5884253A (en) * 1992-04-09 1999-03-16 Lucent Technologies, Inc. Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter
SE516521C2 (sv) 1993-11-25 2002-01-22 Telia Ab Anordning och förfarande vid talsyntes
US5787398A (en) * 1994-03-18 1998-07-28 British Telecommunications Plc Apparatus for synthesizing speech by varying pitch
JP3528258B2 (ja) * 1994-08-23 2004-05-17 ソニー株式会社 符号化音声信号の復号化方法及び装置
IT1266943B1 (it) 1994-09-29 1997-01-21 Cselt Centro Studi Lab Telecom Procedimento di sintesi vocale mediante concatenazione e parziale sovrapposizione di forme d'onda.
WO1999010719A1 (en) * 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
DE69822618T2 (de) * 1997-12-19 2005-02-10 Koninklijke Philips Electronics N.V. Beseitigung der periodizität in einem gestreckten audio-signal
US6324501B1 (en) 1999-08-18 2001-11-27 At&T Corp. Signal dependent speech modifications
US6963833B1 (en) * 1999-10-26 2005-11-08 Sasken Communication Technologies Limited Modifications in the multi-band excitation (MBE) model for generating high quality speech at low bit rates
JP2001350500A (ja) 2000-06-07 2001-12-21 Mitsubishi Electric Corp 話速変更装置

Also Published As

Publication number Publication date
EP1543503B1 (de) 2007-01-24
EP1543503A1 (de) 2005-06-22
KR101029493B1 (ko) 2011-04-18
US20060004578A1 (en) 2006-01-05
CN1682281A (zh) 2005-10-12
CN1682281B (zh) 2010-05-26
AU2003249443A1 (en) 2004-04-08
KR20050057409A (ko) 2005-06-16
JP2005539261A (ja) 2005-12-22
WO2004027758A1 (en) 2004-04-01
ATE352837T1 (de) 2007-02-15
TW200416668A (en) 2004-09-01
DE60311482D1 (de) 2007-03-15
US7912708B2 (en) 2011-03-22
TWI307875B (en) 2009-03-21
JP5175422B2 (ja) 2013-04-03

Similar Documents

Publication Publication Date Title
DE60112512T2 (de) Kodierung von Ausdruck in Sprachsynthese
EP0886853B1 (de) Auf mikrosegmenten basierendes sprachsyntheseverfahren
DE60004420T2 (de) Erkennung von Bereichen überlappender Elemente für ein konkatenatives Sprachsynthesesystem
DE60305716T2 (de) Verfahren zum synthetisieren eines nicht stimmhaften sprachsignals
DE69932786T2 (de) Tonhöhenerkennung
DE69909716T2 (de) Formant Sprachsynthetisierer unter Verwendung von Verkettung von Halbsilben mit unabhängiger Überblendung im Filterkoeffizienten- und Quellenbereich
AT400646B (de) Sprachsegmentkodierungs- und tonlagensteuerungsverfahren für sprachsynthesesysteme und synthesevorrichtung
DE60118874T2 (de) Prosodiemustervergleich für Text-zu-Sprache Systeme
DE69926462T2 (de) Bestimmung des von einer phasenänderung herrührenden rauschanteils für die audiokodierung
DE2115258A1 (de) Sprachsynthese durch Verkettung von in Formant Form codierten Wortern
DE69627865T2 (de) Sprachsynthesizer mit einer datenbank für akustische elemente
DE69720861T2 (de) Verfahren zur Tonsynthese
EP1105867B1 (de) Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten
DE60307965T2 (de) Vorrichtung und Verfahren zum Ändern der Wiedergabegeschwindigkeit von gespeicherten Sprachsignalen
DE69722585T2 (de) Synthese von wellenformen
DE60311482T2 (de) Verfahren zur steuerung der dauer bei der sprachsynthese
DE60305944T2 (de) Verfahren zur synthese eines stationären klangsignals
EP1110203B1 (de) Vorrichtung und verfahren zur digitalen sprachbearbeitung
DE60303688T2 (de) Sprachsynthese durch verkettung von sprachsignalformen
DE60316678T2 (de) Verfahren zum synthetisieren von sprache
DE4441906C2 (de) Anordnung und Verfahren für Sprachsynthese
EP1078354B1 (de) Verfahren und anordnung zur bestimmung spektraler sprachcharakteristika in einer gesprochenen äusserung
EP1170723B1 (de) Verfahren zum Erzeugen einer Statistik von Phondauern und Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese
DE60025120T2 (de) Amplitudensteuerung für die Sprachsynthese
DE60131521T2 (de) Verfahren und Vorrichtung zur Steuerung des Betriebs eines Geräts bzw. eines Systems sowie System mit einer solchen Vorrichtung und Computerprogramm zur Ausführung des Verfahrens

Legal Events

Date Code Title Description
8364 No opposition during term of opposition