DE69715175T2 - Bildsynthetisierung - Google Patents

Bildsynthetisierung

Info

Publication number
DE69715175T2
DE69715175T2 DE69715175T DE69715175T DE69715175T2 DE 69715175 T2 DE69715175 T2 DE 69715175T2 DE 69715175 T DE69715175 T DE 69715175T DE 69715175 T DE69715175 T DE 69715175T DE 69715175 T2 DE69715175 T2 DE 69715175T2
Authority
DE
Germany
Prior art keywords
vowel
representations
phonetic
consonant
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69715175T
Other languages
English (en)
Other versions
DE69715175D1 (de
Inventor
Emma Jane Bowers
Andrew Paul Breen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Application granted granted Critical
Publication of DE69715175D1 publication Critical patent/DE69715175D1/de
Publication of DE69715175T2 publication Critical patent/DE69715175T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Processing Or Creating Images (AREA)

Description

  • Die vorliegende Erfindung bezieht sich auf die Synthese bewegter Bilder, z. B. um synthetische Sprache zu begleiten.
  • Bisher hat sich die Synthese eines Bildes eines Gesichts, um eine Äußerung zu begleiten, auf die Auswahl von Bildern von Gesichtern gestützt, die den Phonemen in der Äußerung entsprechen - die dazwischenliegenden Bilder werden durch Interpolation zwischen diesen Bildern von Gesichtern geschaffen. Ein Beispiel einer derartigen Bildsynthetisiereinrichtung ist in einem Artikel von Shigeo Morishima u. a. mit dem Titel 'A Facial Motion Synthesis for Intelligent Man-Machine interface' auf den Seiten 50-59 in Systems and Computers in Japan, 22 (1991), Nr. 5 dargestellt. Ein weiteres Beispiel ist im US-Patent Nr. 5.313.522 offenbart.
  • Gemäß der vorliegenden Erfindung wird ein Verfahren zum Erzeugen von Signalen geschaffen, die ein bewegtes Bild eines Gesichts darstellen, das eine einer Sprachäußerung entsprechende sichtbare Artikulation aufweist, wobei das Verfahren umfaßt:
  • Empfangen einer Folge phonetischer Darstellungen, die aufeinanderfolgenden Abschnitten der Äußerung entsprechen, wobei die Darstellungen eine erste Menge von Darstellungen, die Abschnitte einer ersten phonetischen Art darstellen, sowie eine zweite Menge von Darstellungen, die Abschnitte einer zweiten phonetischen Art darstellen, umfassen;
  • Identifizieren einer Folge von Maximalmundformen in Übereinstimmung mit der Folge von Darstellungen;
  • Erzeugen eines Maximalmundform-Befehls, der für jede identifizierte Maximalmundform diese Form spezifiziert;
  • Erzeugen von Zwischenbefehlen, wovon jeder eine Zwischenform spezifiziert, die zwischen den durch die vorhergehenden und folgenden Maximalmundform-Befehle spezifizierten Maximalmundformen liegen; und
  • Erzeugen einer Folge von Bildern, die die identifizierten Formen enthalten;
  • wobei das Verfahren dadurch gekennzeichnet ist, daß die Identifizierung einer Folge von Maximalmundformen umfaßt:
  • Identifizieren einer Maximalmundform für jede Darstellung in der ersten Menge; und
  • Identifizieren einer Maximalmundform für jeden Übergang von einer phonetischen Darstellung in der ersten Menge zu einer phonetischen Darstellung in der zweiten Menge, für jeden Übergang von einer phonetischen Darstellung in der zweiten Menge zu einer phonetischen Darstellung in der ersten Menge und für jeden Übergang von einer phonetischen Darstellung in der zweiten Menge zu einer phonetischen Darstellung in der zweiten Menge.
  • In einigen Ausführungsformen stellen die Darstellungen Phoneme dar, wobei die erste Menge von Darstellungen Vokale darstellt und die zweite Menge von Darstellungen Konsonanten darstellt.
  • Die Identifizierung einer Maximalmundform für jeden Übergang zwischen Konsonanten- und Vokalphonemen kann in Abhängigkeit von dem Vokalphonem und dem Konsonantenphonem ausgeführt werden, während die Identifizierung einer Maximalmundform für jeden Übergang zwischen zwei Konsonantenphonemen in Abhängigkeit von dem ersten der beiden Konsonantenphoneme und von dem Vokalphonem, der ihm am nächsten folgt oder vorhergeht, ausgeführt werden kann. Alternativ kann die Identifizierung einer Maximalmundform für jeden Übergang zwischen zwei Konsonantenphonemen in Abhängigkeit von dem ersten der beiden Konsonantenphoneme und von dem Vokalphonem, der ihm am nächsten folgt oder, falls ein solcher nicht vorhanden ist, der ihm vorhergeht, ausgeführt werden.
  • Vorzugsweise wird die Identifizierung für jeden Übergang in Abhängigkeit nur von jenen Phonemen, die oben in bezug auf diese Übergänge spezifiziert sind, ausgeführt. Alternativ könnte die Identifizierung außerdem in Abhängigkeit von wenigstens einem weiteren Phonem innerhalb desselben Wortes ausgeführt werden.
  • In einem weiteren Aspekt der Erfindung wird eine Vorrichtung zum Erzeugen von Signalen geschaffen, die ein bewegtes Bild eines Gesichts darstellen, das eine einer Sprachäußerung entsprechende sichtbare Artikulation aufweist, mit:
  • Mitteln, die so beschaffen sind, daß sie im Betrieb eine Folge phonetischer Darstellungen empfangen, wobei die Darstellungen eine erste Menge von Darstellungen, die Abschnitte einer ersten phonetischen Art darstellen, und eine zweite Menge von Darstellungen, die Abschnitte einer zweiten phonetischen Art darstellen, umfassen, wobei die Darstellungen aufeinanderfolgenden Abschnitten der Äußerung entsprechen, und als Antwort auf den Empfang dieser Folge
  • eine Folge von Maximalmundformen in Übereinstimmung mit der Folge phonetischer Darstellungen identifizieren;
  • für jede identifizierte Maximalmundform einen diese Form spezifizierenden Maximalmundform-Befehl erzeugen;
  • Zwischenbefehle erzeugen, wovon jeder eine Zwischenform zwischen den Maximalmundformen, die durch die vorhergehenden und folgenden Maximalmundform-Befehlen spezifiziert sind, spezifiziert; und
  • eine Folge von die identifizierten Formen enthaltenden Bildern erzeugen;
  • wobei die Vorrichtung dadurch gekennzeichnet ist, daß die Mittel ferner so beschaffen sind, daß sie im Betrieb die Folge von Maximalmundformen identifizieren, indem sie:
  • eine Maximalmundform für jede phonetische Darstellung in der ersten Menge identifizieren; und
  • für jeden Übergang von einer phonetischen Darstellung in der ersten Menge zu einer phonetischen Darstellung in der zweiten Menge, für jeden Übergang von einer phonetischen Darstellung in der zweiten Menge zu einer phonetischen Darstellung in der ersten Menge und für jeden Übergang von einer phonetischen Darstellung in der zweiten Menge zu einer phonetischen Darstellung in der zweiten Menge eine Maximalmundform identifizieren.
  • Eine Ausführungsform der Erfindung wird nun beispielhaft unter Bezugnahme auf die beigefügte Zeichnung beschrieben, worin:
  • Fig. 1 ein funktionaler Blockschaltplan ist, der die Elemente der Ausführungsform zeigt;
  • Fig. 2 einen Grundriß und Vorder- und Seitenansichten des 'Drahtmodells' zeigt, das beim Synthetisieren eines Bildes eines menschlichen Kopfes verwendet wird;
  • Fig. 3 ähnliche Ansichten eines 'Drahtmodells' zeigt, das beim Synthetisieren am Mundabschnitt eines Bildes eines menschlichen Kopfes verwendet wird;
  • Fig. 4 zeigt, wo die Maximal-Vokalmundformen bei der Synthese einer Folge von Bildern auftreten, um einen menschlichen Kopf darzustellen, der 'affluence' sagt;
  • Fig. 5 zeigt, wo die maximalen Vokal-Konsonant-Übergangsmundformen (und umgekehrt) im Wort 'affluence' auftreten;
  • Fig. 6 die verbleibenden Mundformen bei der Artikulation des Wortes 'affluence' veranschaulicht;
  • Fig. 7 die Übergänge zwischen den Mundformen bei der Artikulation des Wortes 'affluence' veranschaulicht;
  • Fig. 8 ein Blockschaltplan ist, der die Komponenten der Einheit für das Umsetzen phonetischer Signale in Befehlssignale für die Bildsyntheseeinheit schematisch veranschaulicht;
  • Fig. 9 ein Ablaufplan ist, der den Betrieb der Vorrichtung der Ausführungsform veranschaulicht;
  • Fig. 10 ein Ablaufplan ist, der die Prozedur für die Umsetzung von Diphthongen und Affrikaten in ihre konstituierenden Phoneme veranschaulicht;
  • Fig. 11A bis 11D die Prozedur für das Erzeugen einer Zwischenausgabedatei auf der Grundlage der eingegebenen Phonemdatei veranschaulichen;
  • Fig. 12 die Prozedur für das Erzeugen einer Datei veranschaulicht, die den Zeitablauf und die Art der Maximalmundformen auf der Grundlage der Zwischenausgabedatei spezifiziert; und
  • Fig. 13A und 13B die Prozedur zum Erzeugen einer Datei veranschaulichen, die sowohl die Maximalmundformen als auch die Zwischenmundformen spezifiziert.
  • Die Vorrichtung nach Fig. 1 besitzt die Funktion, die zu sprechenden Wörter in der Form von Text zu empfangen und die entsprechende Sprache in der Form eines Audiosignals und ein entsprechendes Videosignal für die Anzeige eines bewegten Bildes eines Gesichts (z. B. Mensch oder Karikatur) mit Artikulation des Mundes, die der gleichen Sprache entspricht, zu erzeugen. In dieser Beschreibung wird oft auf die Artikulation des Mundes Bezug genommen; es ist selbstverständlich, daß diese Artikulation die Bewegung der Lippen, des Inneren des Mundes (einschließlich, falls gewünscht, der Zähne und der Zunge), des Kiefers und der umgebenden Bereiche enthalten kann. Andere Bewegungen, wie z. B. Bewegung oder Drehung des gesamten Kopfes, die Bewegung der Augenbrauen usw. können außerdem enthalten sein, um zu erreichen, daß das resultierende Bild realistischer erscheint.
  • Der Text wird aus einer gespeicherten Textdatei oder einer anderen gewünschten Quelle am Eingang 1 in der Form von Zeichencodes entsprechend irgendeiner zweckmäßigen Standarddarstellung (z. B. ASCII-Code) empfangen. Er wird durch eine Sprachsynthetisiereinrichtung mit herkömmlicher Konstruktionen empfangen, die aber hier als zwei getrennte Teile gezeigt ist, nämlich einen Text-Phonetik- Umsetzer 2, der die herkömmliche Orthographie in eine phonetische Darstellung umsetzt, z. B. eine Liste von Phonemen und die Dauer jedes Phonems, und die richtige Sprachsynthetisiereinrichtung 3, die die Liste in eine Audiofrequenz-Signalform umsetzt. Es kann irgendeine Phonemmenge verwendet werden, aber für die Zwecke dieser Beschreibung wird die Verwendung der britischen RP-SAMPA-Menge vorausgesetzt, die 38 verschiedene Phoneme des britischen Englisch identifiziert, wie in der Tabelle 1 im folgenden dargelegt ist.
  • Tabelle 1
  • britisch RP-SAMPA Wordbeispiel
  • Konsonanten
  • /b/ beax
  • /D/ this
  • /d/ dear
  • /f/ fear
  • /g/ gear
  • /h/ hear
  • /j/ year
  • /k/ king
  • /l/ lead
  • /m/ men
  • /N/ wing
  • /n/ near
  • /p/ pear
  • /r/ rear
  • /S sheer
  • /s/ sing
  • /T/ thing
  • /t/ tear
  • /v/ very
  • /w/ wear
  • /Z/ treasure
  • /z/ zoo
  • Affrikaten
  • /dZ/ leer
  • /tS/ cheer
  • kurze Vokale
  • /@/ ago
  • /{/ bat
  • /E/ bet
  • /I/ bit
  • /Q/ cod
  • /U/ good
  • /V/ bud
  • lange Vokale
  • /3/ bird
  • /A/ bard
  • /i/ bead
  • /O/ bore
  • /u/ boot
  • Diphthonge
  • /@U/ zero
  • /aI/ pie
  • /aU/ cow
  • /E@/ hair
  • /eI/ pay
  • /I@/ peer
  • /OI/ boy
  • /U@/ contour
  • andere
  • /#:/ Stille
  • /#/ Wortgrenze
  • Da die Sprachsynthetisiereinrichtung herkömmlich ist, wird sie nicht weiter beschrieben.
  • Die Phonemliste wird von einer Umsetzungseinheit 4 empfangen, die im folgenden ausführlicher beschrieben wird. Sie dient dazu, um aus der Phonemliste eine Folge von Befehlsignalen zu erzeugen, die die Artikulation des Mundes spezifizieren, die für das Gesicht erforderlich ist, damit es sich in einer Weise bewegt, die der Phonemliste und folglich dem von der Synthetisiereinrichtung 3 erzeugten Sprachsignal entspricht.
  • Diese Befehlsignale werden von einer Bildsyntheseeinheit 5 empfangen. In dieser Einheit ist ein einzelnes Videobild oder ein Pixelmusterbild eines Standbildes des gewünschten Gesichts gespeichert, wobei sie dazu dient, ein kontinuierliches Videosignal zu erzeugen, das dieses Gesicht, aber mit Bewegung, zeigt. Offensichtlich kann dieses Videosignal irgendeinem gewünschten Standard entsprechen; hier wird ein System-I-Signal mit 25 Bildern pro Sekunde angenommen. Die Bewegung wird mit Hilfe eines dreidimensionalen Drahtrahmenmodells erzeugt. Ein typisches derartiges Modell ist in Fig. 2 gezeigt, wobei der Mundbereich in Fig. 3 vergrößert gezeigt ist. Es besitzt eine Anzahl von Punkten (Scheitelpunkten) im dreidimensionalen Raum, wobei Linien, die diese Scheitelpunkte verbinden, dreidimensionale Bereiche definieren, die als Facetten bezeichnet werden. In der tatsächlichen Vorrichtung besteht das Modell aus einer Menge gespeicherter Daten, nämlich, für jeden Scheitelpunkt eine Scheitelpunktnummer und seine x-, y- und z-Koordinaten, und für jede Facette eine Facettennummer und die Nummern der dreidimensionalen Scheitelpunkte, die die Ecken der Facette bilden. Während einer Initialisierungsphase bestimmt die Einheit 5 die Abbildung zwischen jeder Facette dieses Referenzmodells und eines entsprechenden Bereichs im Pixelmusterbild. Die Bewegung wird erzeugt, indem wiederholt ein geändertes Modell definiert wird, in dem einer oder mehrere der Scheitelpunkte eine von der Position verschiedene Position annimmt bzw. annehmen, die er bzw. sie im Referenzmodell besetzt bzw. besetzen. Die Einheit 5 muß dann ein neues zweidimensionales Pixelmusterbild erzeugen. Dies führt sie aus, indem sie für jede Facette des geänderten Modells einen oder mehrere der Scheitelpunkte von denen, die sich bezüglich des Referenzmodells bewegt haben, identifiziert; für jede derartige Facette verwendet sie einen Interpolationsprozeß, in dem der dreieckige Bereich des ursprünglichen Pixelmusters, der ihr in Übereinstimmung mit der Abbildung entspricht, bewegt und/oder verzerrt ist, um im neuen Pixelmusterbild einen dreieckigen Bereich zu besetzen, der in Übereinstimmung mit dieser Abbildung der Facette des geänderten Modells entspricht. Ein derartiges neues Pixelmusterbild wird für jedes Bild des Ausgangssignals (d. h. alle 40 ms) erzeugt. Für weitere Einzelheiten des Betriebs und der Implementierung der Bildsyntheseeinheit 5 wird auf W. J. Welsh, S. Searby und J. B. Waite, "Model Based Image Coding", Br. Telecom Technol. J., Bd. 8, Nr. 3, Juli 1990 verwiesen.
  • Die Befehle, die notwendig sind, um die Bildsyntheseeinheit 5 anzusteuern, könnten im Prinzip darin bestehen, alle 40 ms die Nummer von jedem Scheitelpunkt, dessen Position sich vom Referenzmodell unterscheidet, begleitet von seinen neuen Koordinaten an die Einheit zu senden. Im Interesse der Betriebsgeschwindigkeit enthält die Einheit 5 jedoch eine gespeicherte Menge von Aktionseinheiten, wobei jede von diesen ein Dateneintrag ist, der aus
  • - einer Nummer der Aktionseinheit (z. B. 0 bis 255) (1 Byte),
  • - der Anzahl der durch die Aktionseinheit beeinflußten Scheitelpunkte,
  • - für jeden derartigen Scheitelpunkt:
  • der Scheitelpunktnummer (2 Bytes),
  • der Verschiebung seiner x-Koordinate von seiner Position im Referenzmodell (2 Bytes),
  • der Verschiebung seiner y-Koordinate von seiner Position im Referenzmodell (2 Bytes), und
  • der Verschiebung seiner z-Koordinate von seiner Position im Referenzmodell (2 Bytes)
  • besteht. (Es könnten selbstverständlich die x-, y-, z-Verschiebungen bezüglich des vorhergehenden Bildes verwendet werden, falls das bevorzugt ist.)
  • Jeder Befehl kann dann einfach aus einer Nummer der Aktionseinheit, gefolgt von einem Skalierungsfaktor (z. B. von 0 bis 255) bestehen, um den Betrag der durch die Aktionseinheit spezifizierten Bewegung zu variieren; oder er kann, falls gewünscht, einige (in einem Prototyp waren bis zu fünf Aktionseinheiten erlaubt) enthalten. Auf den Empfang des Befehls sieht die Einheit 5 die Aktionseinheit(en) ein und verwendet die gespeicherten Koordinatenverschiebungen (die geeignet skaliert sind) für die spezifizierten Scheitelpunkte. Wenn der Befehl zwei Aktionseinheiten enthält, von denen beide die Verschiebung eines speziellen Scheitelpunktes spezifizieren, dann ist die Verschiebung einfach die Vektorsumme der zwei Verschiebungen.
  • Nun wird zur Untersuchung des Betriebs der Umsetzungseinheit 4 zurückgekehrt, wobei es zweckmäßig ist, das Konzept eines Visemes einzuführen. Gerade wie gesprochene Wörter als aus elementaren Einheiten, die als Phoneme bezeichnet werden, bestehend betrachtet werden können, kann die visuelle Sprache als aus Visemen bestehend betrachtet werden - den minimalen Einheiten der visuellen Sprache oder "der kleinsten wahrnehmbaren Einheit der visuellen Artikulationseinheit". Im wesentlichen ist ein Visem eine Mundform; die Aufgabe der Umsetzungseinheit besteht darin, zu bestimmen, welche Viseme erforderlich sind, und die Zeitpunkte zu bestimmen, bei denen sie auftreten (quantisiert in vielfachen von 40 ms), und dann die Befehle in 40-ms-Intervallen zu erzeugen, wie z. B. um die erforderlichen Viseme in den erforderlichen Intervallen zu erzeugen und um die geeigneten Zwischenformen für die dazwischenliegenden Bilder zu erzeugen.
  • Für den Betrieb der Umsetzungseinheit ist die Idee wesentlich, daß es keine 1 : 1-Entsprechung zwischen Phonemen und Visemen gibt. Zuerst sind einige Phoneme visuell ähnlich oder sogar ununterscheidbar; z. B. die Konsonanten /p/ und /b/ sind visuell völlig gleich, weil sie sich nur im Grad der stimmhaften Aussprache unterscheiden, wobei die Artikulation des Stimmapparats die gleiche ist. Folglich können die Phoneme gruppiert werden, wobei die Phoneme der gleichen Gruppe als völlig gleich betrachtet werden, soweit wie die Erzeugung der Viseme betroffen ist. Es sind verschiedene Gruppierungen möglich; eine typische Gruppierung ist in der Tabelle 2 im folgenden gezeigt:
  • Tabelle 2
  • Phoneme Gruppe
  • p, b, m Konsonantengruppe 1
  • f, V Konsonantengruppe 2
  • D, T Konsonantengruppe 3
  • s, z Konsonantengruppe 4
  • S, Z Konsonantengruppe 5
  • k, g, N Konsonantengruppe 6
  • t, d, l, n, r Konsonantengruppe 7
  • w, U, u, O "Beides"-Gruppe
  • Q, V, A Vokalgruppe 1
  • 3, i, j Vokalgruppe 2
  • @, E, I, { Vokalgruppe 3
  • (Es wird angemerkt, daß die Diphthonge fehlen, weil diese vor der Verarbeitung in ihre konstituierenden Vokale unterteilt werden.)
  • Während es möglich ist, einer Zuordnung zwischen dem Klang eines Vokals und einer Mundform zu definieren, ist es zweitens bei einem Konsonanten nicht so, bei dem sich die Mundform in Abhängigkeit von den Phonemen in der Nähe ändert, insbesondere in der Nähe von Vokalphonemen. In der vorliegenden Ausführungsform sind die Mundformen sowohl den Vokalen als auch den Kombinationen aus einem Konsonanten und einem Phonem zugeordnet. Es gibt eine signifikante Anzahl von Übergängen, die Konsonanten enthalten. Es kann jedoch eine erste Vereinfachung vorgenommen werden, indem beachtet wird, daß ein Konsonant-Konsonant-Übergang stark durch den folgenden Vokal beeinflußt wird (oder, am Ende eines Wortes vor einer Pause, dem vorhergehenden Vokal), und während der zweite Konsonant der beiden irgendeine Wirkung besitzt, ist diese ganz subtil und kann ignoriert werden. Die vorliegende Ausführungsform nutzt dies aus, indem eine Konsonant-Vokal- oder Vokal-Konsonant- Kombination jedem Konsonant-Konsonant-Übergang zugeordnet wird. In dieser Weise wird die Anzahl der Mundformen, die durch das System behandelt werden müssen, niedrig gehalten.
  • Es wird der Betrieb der vorliegenden Ausführungsform beispielhaft veranschaulicht, falls die Text-Phonetik-Einheit 2 ein Signal empfangen würde, das das Wort 'affluence' darstellt, dabei würde sie arbeiten, um die Phonemliste /#:/ /{/ /f/ /l/ /u/ /@/ /n/ /s/ /#:/ an die Umsetzungseinheit 4 auszugeben. Auf den Empfang dieser Phonemliste würde die Umsetzungseinheit 4 betreibbar sein, um die Phonemliste zu verarbeiten, um eine Folge von Befehlssignalen auszugeben. Die ausgegebenen Befehlssignale sind in den Fig. 4 bis 7 veranschaulicht, von denen jede außerdem die Inhalte der eingegebenen Phonemliste veranschaulicht, d. h. die Phoneme selbst und ihre Dauer in Abtastwerten (in diesem Beispiel beträgt die Abtastrate 8 kHz).
  • Zuerst enthält die Ausgabe drei Befehlssignale, die den Vokalen in dem Wort entsprechen. Diese sind in Fig. 4 gezeigt, wo in der unteren graphischen Darstellung die Vokale /{/, /u/ und /@/ identifiziert worden sind, wobei jeder mit einem Strich markiert ist, der anzeigt, daß das diesem Vokal zugeordnete Visem bestimmt worden ist; es wird angenommen, daß es am Mittelpunkt des Vokals auftritt.
  • Die Ausgabe enthält ferner Befehlssignale, die die Mundformen spezifizieren, die den Vokal-Konsonant- und Konsonant-Vokal-Übergangen zugeordnet sind; dies ist in Fig. 5 veranschaulicht, in der die Striche die Mundformen an den Vokal-Konsonant- oder Konsonant- Vokal-Grenzen zeigen. Dies hinterläßt die Vokal-Vokal-Übergänge. Wie früher erwähnt ist, wird der Übergang als hauptsächlich durch den ersten Konsonanten und den nächsten folgenden Vokal charakterisiert betrachtet; folglich wird der Übergang von /f/ zu /l/ (in Fig. 6) als die Mundform für die Konsonant-Vokal-Kombination von /f/ zu /u/ dargestellt. Der Übergang von /n/ zu /s/ besitzt keinen folgenden Vokal, wobei deshalb die verwendete Mundform diejenige ist, die der Vokal-Konsonant-Kombination von /@/ zu /s/ entspricht - d. h., der Verwendung des vorhergehenden Vokals. Die vorhergehenden und folgenden Stilleperioden /#:/ werden selbstverständlich durch ein Gesicht mit geschlossenem Mund dargestellt - d. h. mit dem Referenz-Drahtrahmenmodell.
  • Zu den Zeitpunkten, die in Fig. 6 mit den Strichen markiert sind (oder statt dessen in der zu diesen Zeitpunkten nächsten 40-ms- Periode) sendet die Umsetzungseinheit 4 an die Bildsyntheseeinheit 5 einen Befehl, der die Aktionseinheit und den Skalierungsfaktor spezifiziert, die für den fraglichen Mund geeignet sind. In den 40-ms- Intervallen zwischen diesen Zeitpunkten ist es notwendig, einen Befehl zu senden, der die Mundform zwischen den zwei Mundformen spezifiziert. Zwischen dem mit {f markierten Zeitpunkt und dem mit fu markierten Zeitpunkt sendet sie z. B. einen Befehl, der die zwei Aktionseinheiten spezifiziert, die der Vokal-Konsonant-Kombination von /{/ zu /f/ bzw. der Konsonant-Vokal-Kombination von /f/ zu /u/ entspricht, obgleich mit verringerten Skalierungsfaktoren, um einen glatten Übergang zwischen den zwei Formen zu erreichen. Folglich würde an einem Punkt x% des Weges zwischen den zwei Zeitpunkten an die Aktionseinheit für die Kombination von /{/ zu /f/ein Skalierungsfaktor des (1 - x/100)-fachen ihres Skalierungsfaktors am {f-Punkt gesendet, wobei damit zusammen an die Aktionseinheit für die Kombination von /f/ zu /u/ ein Skalierungsfaktor von x/100- fachen ihres Skalierungsfaktors am fu-Punkt gesendet wird. Fig. 7 zeigt diesen Prozeß graphisch. Es ist ersichtlich, daß für die Zwecke des Erzeugens von Zwischenbefehlssignalen die dem Stillephonem zugeordnete Mundform durch die folgende Mundform nicht beeinflußt wird, bevor die Mitte des Stillephonems erreicht ist.
  • Aus den 11 Gruppen der obigen Tabelle 2 gibt es 7 Konsonantengruppen, drei Vokalgruppen und eine sogenannte "Beides"-Gruppe. Die "Beides"-Gruppe enthält sowohl Vokalphoneme als auch Konsonantenphoneme. Folglich können, wenn die Übergänge, die Stille enthalten, ignoriert werden, alle erforderlichen Vokale und Vokal- Konsonant- und Konsonant-Vokal-Kombinationen durch die Vokalgruppen und die Vokalgruppen-Konsonantengruppen- und Konsonantengruppen-Vokalgruppen-Kombinationen dargestellt werden, die in der Tabelle 3 im folgenden gezeigt sind:
  • Tabelle 3
  • Vokale 4
  • Konsonantengruppe-Vokalgruppe-Kombinationen 21
  • Vokalgruppe-Konsonantengruppe-Kombinationen 21
  • Kombinationen aus der Beide-Gruppe und anderen Gruppen 10
  • Kombinationen aus anderen Gruppen und der Beide-Gruppe 10
  • Kombinationen aus der Beide-Gruppe und der Beide-Gruppe 2
  • gesamt 68
  • Einige dieser 68 Vokalgruppen und Gruppenkombinationen entsprechen völlig gleichen Mundformen; außerdem sind einige Mundformen zu anderen ähnlich, wobei sie sich hauptsächlich in den Proportionen unterscheiden - d. h., sie können durch die gleiche Aktionseinheit aber mit einem anderen Skalierungsfaktor erzeugt werden. Während der Bestimmung der Aktionseinheiten (die im folgenden beschrieben ist) wurde festgestellt, daß diese 68 Vokalgruppen und Gruppenkombinationen durch elf Aktionseinheiten und einen geeigneten Skalierungsfaktor dargestellt werden könnten. Die Tabelle 4 legt diese mit einer Beschreibung der Aktionseinheit, einer Anmerkung des Merkmals, das mit dem Skalierungsfaktor zunimmt, und einer Liste der Vokalgruppen und Gruppenkombinationen, die durch diese Aktionseinheit dargestellt werden können, dar. Die bei der Erzeugung der entsprechenden Mundformen, die den gegebenen Vokalgruppen und Gruppenkombinationen entsprechen, zu verwendenden Skalierungsfaktoren sind außerdem gezeigt.
  • Es wird von den Fachleuten auf dem Gebiet erkannt werden, daß eine große Anzahl von Aktionseinheiten definiert werden könnte, wobei die Vokalgruppen und die Gruppenkombinationen unter diesen Aktionseinheiten feiner aufgeteilt sind. Tabelle 4
  • Die Umsetzungseinheit 4 kann mittels einer geeignet programmierten Verarbeitungseinheit implementiert sein, wobei sie folglich in Fig. 8 als einen Prozessor 10, einen Programmspeicher 11 und eine Anzahl von Speichern, die Nachschlagetabellen enthalten, gezeigt ist. Spezieller umfassen diese eine Diphthongtabelle 12, eine Phonemgruppentabelle 13 und eine Aktionseinheitstabelle 14. Diese sind für die Klarheit getrennt gezeigt, selbstverständlich könnte in der Praxis ein einzelner Speicher das Programm und die Nachschlagetabellen enthalten. Der Betrieb des im Speicher 11 gespeicherten Programms wird nun unter Bezugnahme auf die in den Fig. 9 bis 13 gezeigten Ablaufpläne ausführlicher beschrieben.
  • Der Ablaufplan nach Fig. 9 veranschaulicht einfach den Betrieb der Vorrichtung als Ganzes, wobei er den Kontext setzt, innerhalb dessen der in den Fig. 10 bis 13 dargestellte Algorithmus auftritt. Der Algorithmus ist im Programmspeicher 11 gespeichert, wobei er ausführbar ist, um eine Aktionseinheitendatei (die die Aktionseinheiten und die Skalierungsfaktoren enthält) zu erzeugen, die die Grundlage für die Befehlssignale bildet, die zur Bildsyntheseeinheit 5 zu senden sind. Folglich wird nach der Initialisierung im Schritt 100 eine Textnachricht von der Text-Phonetik-Einheit 2 der Sprachsynthetisiereinrichtung empfangen 102, die bei 104 eine Phonemdatei erzeugt. Wenn der Empfang dieser Datei durch die Umsetzungseinheit 4 erkannt wird (Schritt 106), findet die Umsetzung der Phonemliste in eine (bei 110 erzeugte) Aktionseinheitsdatei statt (Schritt 108). Dies bildet die Grundlage für die Befehlssignale, die zur Bildsyntheseeinheit 5 übertragen werden (Schritt 112), während die Phonemdatei zur Synthetisiereinrichtung 3 gesendet wird. Falls gewünscht, können während Stille (Schritt 114) oder während Sprache (Schritt 116) zusätzliche Aktionseinheiten erzeugt werden, um eine zufällige (oder andere) Kopfbewegung zu erzeugen.
  • Die Operation des Schrittes 108 beginnt mit der Ausdehnung der Diphthonge und Affrikaten unter Verwendung der Programmschritte, die durch den in Fig. 10 gezeigten Ablaufplan veranschaulicht sind. Das Programm liest (Schritt 120) wiederum jedes Element der Phonemdatei und bestimmt (Schritt 122), ob dieses Phonem durch zwei Zeichen dargestellt ist. Falls es das ist, veranlaßt das Programm den Prozessor (Schritt 124), das Element in seine konstituierenden Zeichen zu teilen, wobei es das Element durch die zwei durch diese Zeichen dargestellten Phoneme ersetzt. Die Dauer von jedem wird auf die Hälfte der Dauer des Diphthong- oder Affrikata-Phonems gesetzt, das aufgespalten worden ist. Eine Variable (noofphonemes), die die Anzahl der Phoneme in der ausgegebenen Liste der Phoneme mißt, wird dann um eins inkrementiert (Schritt 126). Ansonsten wird das Element zur Phonemliste hinzugefügt (Schritt 128).
  • Es ist zu sehen, wie die veranschaulichten Programmschritte ausführbar sind, um die Diphthonge, wie z. B. /aI/, /aU/ und /eI/, mit der Hilfe der Diphthongtabelle 12 in die Phonempaare /{/ + /I/, /{/ + /U/ bzw. /E/ + /I/ umzusetzen. Ähnlich ist das Programm ausführbar, um die Affrikaten /dZ/ und /tS/ in zwei Phoneme aufzuteilen.
  • Diesem folgt die elementweise Untersuchung der durch den in Fig. 10 veranschaulichten Prozeß erzeugten Phonemliste (Fig. 11A-11D). Für jedes Element nach dem anfänglichen Stillephonem wird in einer Zwischenausgabedatei eine Phonemkombination oder ein Vokal und ein zugeordnetes Zeitintervall aufgezeichnet. Folglich identifiziert jeder Eintrag die Phonemkombination oder den Vokal zusammen mit einem Zeitintervall, das zwischen dem vorhergehenden Zeitpunkt der Mundform und dem aktuellen Zeitpunkt der Mundform zu erzeugen ist (d. h., das Zeitintervall entspricht den Entfernungen zwischen den Streifen in Fig. 6). Falls im folgenden nicht anders angegeben ist, kehrt das Programm nach jedem Eintrag zu einem Entscheidungsschritt 180 zurück, um zu bestimmen, ob das letzte Element der Phonemliste erreicht worden ist. Wenn es erreicht worden ist, dann endet die Untersuchung der Phonemliste. Falls es nicht erreicht worden ist, kehrt das Programm zu einem Klassifizierungsschritt 130 für das aktuelle Element zurück.
  • Um die Phonemliste zu untersuchen, wird zuerst für jedes Element bestimmt, ob das Element ein Vokal, ein Konsonant oder Stille ist (Fig. 11A - Schritt 130).
  • Wenn im Klassifizierungsschritt 130 für das aktuelle Element ein Vokal festgestellt wird, werden die Schritte ausgeführt, die in Fig. 11B veranschaulicht sind. Zuerst wird festgestellt, ob das vorhergehende Phonem in der Phonemliste Stille, ein Konsonant oder ein Vokal ist (Schritt 140). Wenn das vorhergehende Phonem ein Stillephonem ist, dann wird das Zeitintervall vor der Vokalmundform auf die Summe aus der Hälfte der Vokaldauer und der Hälfte der Stilledauer gesetzt (Schritt 141). Dann wird der Stille-Vokal-Übergang zusammen mit dem berechneten Zeitintervall in die Zwischenausgabedatei eingegeben (Schritt 142). Wenn das vorhergehende Phonem ein Vokalphonem ist, dann wird das Zeitintervall zwischen den Vokalmundformen auf die Summe aus der Hälfte der Dauer des aktuellen Vokals und der Hälfte der Dauer des vorhergehenden Vokals gesetzt (Schritt 143). Abermals werden dann der Vokal selbst (z. B. /@/) und das zugeordnete Zeitintervall in die Zwischenausgabedatei eingegeben (Schritt 144). Wenn das vorhergehende Phonem ein Konsonantenphonem ist, dann wird bestimmt, ob das Phonem vor dem vorhergehenden Phonem Stille ist (Schritt 145). Wenn es Stille ist, dann wird das Zeitintervall von der vorhergehenden Mundform auf die Hälfte der Dauer des aktuellen Vokals gesetzt (Schritt 146), wobei der Vokal zusammen mit dem berechneten Zeitintervall in die Zwischenausgabedatei eingegeben wird (Schritt 147). Wenn es keine Stille ist, dann wird das Zeitintervall von der vorhergehenden Mundform auf die Dauer des Konsonanten gesetzt (Schritt 148), wobei die Vokal-Konsonant-Kombination (z. B. /I/ zu /u/) und das zugeordnete Zeitintervall in die Zwischenausgabedatei eingegeben werden (Schritt 149). An diesem Punkt kehrt das Programm nicht zum Entscheidungsschritt 180 zurück, sondern es veranlaßt, daß ein weiterer Eintrag in der Übergangsdatei vorgenommen wird (Schritt 146, 147), wobei der Eintrag ein Zeitintervall enthält, das gleich der Hälfte der Dauer des aktuellen Vokals und des Vokals selbst ist (z. B. /u/).
  • Eine Wirkung der Schritte nach Fig. 11B besteht darin, zu sichern, daß die Mundform, die dem aktuellen Vokal entspricht, mit der Mitte des Vokalphonems zusammenfällt.
  • Wenn im Klassifizierungsschritt für das aktuelle Phonem Stille festgestellt wird (Schritt 130), dann werden die Schritte nach Fig. 11C ausgeführt. Es wird zuerst festgestellt, ob das vorhergehende Phonem in der Phonemliste Stille, ein Konsonant oder ein Vokal ist (Schritt 150). Wenn das vorhergehende Phonem Stille ist, dann wird ein Fehler angezeigt (Schritt 151). Wenn der Stille ein Vokal vorhergeht, dann wird ein Zeitintervall von der vorhergehenden Mundform auf die Summe aus der Hälfte der Vokaldauer und der Hälfte der Stilledauer gesetzt (Schritt 152), wobei der Vokal-Stille-Übergang zusammen mit dem Zeitintervall in der Zwischenausgabedatei aufgezeichnet wird (Schritt 153). Wenn das vorhergehende Phonem ein Konsonant ist, dann wird das Zeitintervall von der letzten Mundform auf die Summe der Dauer des Konsonanten und der Hälfte der Dauer der aktuellen Stille gesetzt (Schritt 154). In diesem Fall werden der Übergang von der Vokal-Konsonant-Kombination zum Vokal (z. B. /@s/ zu /#:/) und das zugeordnete Zeitintervall in die Zwischenausgabedatei eingegeben (Schritt 155).
  • Falls im Schritt 130 ein Konsonant festgestellt wird, werden die in Fig. 11D veranschaulichten Schritte ausgeführt. Zuerst wird das vorhergehende Phonem als ein Vokal, Stille oder ein Konsonant klassifiziert (Schritt 160). Wenn es ein Vokal ist, dann wird das Zeitintervall auf die Hälfte der Dauer des Vokals gesetzt (Schritt 161), wobei die Vokal-Konsonant-Kombination (z. B. /{/ zu /f/) zusammen mit dem Zeitintervall in der Zwischenausgabedatei aufgezeichnet wird (Schritt 162). Wenn das vorhergehende Phonem ein Konsonant ist, dann sucht das Programm vorwärts durch die Phonemliste nach einem Vokalphonem (Schritt 163). Falls eines gefunden wird, werden die Konsonant-Vokal-Kombination (des vorhergehenden Konsonanten und des späteren Vokals) (z. B. /f/ zu /u/) und das zugeordnete Zeitintervall (das gleich der Dauer des vorhergehenden Konsonanten ist) in die Zwischenausgabedatei eingegeben (Schritt 164, 165). Wenn bei der Vorwärtssuche kein Vokal gefunden wird (Schritt 163), dann veranlaßt das Programm den Prozessor, rückwärts nach einem Vokal zu suchen (Schritt 166). Wenn diese Suche erfolgreich ist, dann wird die Vokal-Konsonant-Kombination (aus dem früheren Vokal und dem aktuellen Konsonanten - z. B. /@/ zu /s/) zusammen mit einem zugeordneten Zeitintervall (das gleich der Dauer des vorhergehenden Konsonanten ist) aufgezeichnet (Schritte 167, 168). Wenn weder eine Vorwärtssuche noch eine Rückwärtssuche einen Vokal findet, ergibt sich eine Fehleranzeige (Schritt 169). Wenn festgestellt wird, daß das Phonem, das dem aktuellen Konsonanten unmittelbar vorhergeht, Stille ist, dann wird eine Vorwärtssuche nach einem Vokal ausgeführt (Schritt 170); falls ein Vokal gefunden wird, wird ein Zeitintervall, das gleich der Summe der Dauer des aktuellen Konsonanten und der Hälfte der Dauer der vorhergehenden Stille ist, zusammen mit einem Übergang von der Stille zur Konsonant-Vokal-Kombination in der Zwischenausgabedatei aufgezeichnet (Schritte 171, 172). Wenn in dem Wort kein Vokal gefunden wird, dann wird ein Fehler angezeigt (Schritt 173).
  • In Fig. 12 werden die Vokale und Phonemkombinationen in der Zwischenausgabedatei in Vokalgruppen und Phonemgruppenkombinationen umgesetzt, indem auf die Nachschlagetabelle 13 zugegriffen wird. Im Prinzip könnten deren Inhalte sein, wie oben in Tabelle 2 dargelegt ist, so daß jeder Vokal oder jede Phonemkombination in eine Gruppennummer umgesetzt wird. Es ist jedoch festgestellt worden, daß es zweckmäßiger ist, jede Gruppe nicht durch eine Gruppennummer sondern durch ein bezeichnetes Phonem der Gruppe darzustellen; z. B. werden die Phoneme /p/, /b/ und /m/alle in /p/ umgesetzt. Um dies zu erreichen, wird der Prozessor durch das Programm gesteuert, das in Fig. 12 veranschaulicht ist. Für jedes Element in der Zwischenausgabedatei wird der Typ des Elements bestimmt (Schritt 190), der entweder: ein Vokal (die Schritte 192 werden ausgeführt); eine Vokal/Konsonant-Kombination (die Schritte 194 werden ausgeführt); ein Vokal/ Stille-Übergang (die Schritte 196 werden ausgeführt); oder ein Kombination-Stille-Übergang (die Schritte 198 werden ausgeführt) ist. Die Schritte (192, 194, 196, 198) sind effektiv, um jeden der konstituierenden Vokale oder Konsonanten in einen Vokal oder Konsonanten umzusetzen, der gewählt wurde, um die Gruppe zu repräsentieren. Diese Prozedur schickt eine Gruppe/Gruppe-Kombinationsliste zurück, die nun maximal 68 verschiedene Vokalgruppen und Phonemgruppen-Kombinationen enthält, wie oben erörtert ist.
  • In den Fig. 13A und 13B wird die resultierende Gruppenliste unter Verwendung der Aktionseinheit-Nachschlagetabelle 14 (deren Inhalte so sind, wie in den Spalten 3, 1 und 4 der obigen Tabelle 3 dargelegt ist - oder mit repräsentativen Phonemen in der Spalte 3, falls dies die bevorzugte Option ist), um die Aktionseinheit festzustellen, die jedes Element in der Gruppe/Gruppe-Kombinationsliste repräsentiert, in eine Aktionseinheitsdatei umgesetzt. Die Aktionseinheitsdatei kann dann verwendet werden, um eine Folge von Befehlssignalen zu schaffen, die in 40-ms-Intervallen erzeugt werden.
  • Ausführlicher beginnt die Umsetzungsprozedur mit dem Abrufen des ersten Elements aus der Gruppenliste (Schritt 200), wonach auf die Aktionseinheit-Nachschlagetabelle zugegriffen wird, um die Aktionseinheit und den Skalierungsfaktor zu bestimmen, die diesem Element zugeordnet sind (Schritt 201). Dann wird die Anzahl der ganzen 40-ms-Perioden innerhalb des dem ersten Element zugeordneten Zeitintervalls berechnet (Schritt 202). Der Skalierungsfaktor der anfänglichen Aktionseinheit wird dann durch die Anzahl der Perioden geteilt, um einen Inkrementwert anzugeben (Schritt 203). Die Prozedur tritt dann in eine Befehlsschleife ein (Schritt 204), die für jede 40-ms-Periode ein Befehlssignal erzeugt. Der Skalierungsfaktor im Befehlssignal wird jedesmal, wenn die Befehlsschleife ausgeführt wird, (von null) um das berechnete Inkrement vergrößert.
  • Dann wird das nächste Element in der Gruppenliste abgerufen (Fig. 13B - Schritt 205), wobei unter Verwendung der Aktionseinheit- Nachschlagetabelle 14 die entsprechende Aktionseinheit und der entsprechende Skalierungsfaktor festgestellt werden (Schritt 206). Wie im Schritt 202 wird dann die Anzahl der ganzen 40-ms-Perioden innerhalb des diesem Element der Gruppenliste zugeordneten Zeitintervalls festgestellt (Schritt 207). Wie vorher wird der Skalierungsfaktor der dem aktuellen Element zugeordneten Aktionseinheit durch die Anzahl der berechneten Perioden geteilt, um einen Inkrementwert anzugeben (Schritt 208). Der Skalierungsfaktor des vorhergehenden Elements in der Gruppenliste wird durch die gleiche Zahl geteilt, um einen Dekrementwert anzugeben (Schritt 209). Die Prozedur tritt dann in eine Befehlsschleife ein, um die auszugebenden Befehlssignale zu berechnen. Diese umfassen eine gewichtete Kombination der in Bezug auf das vorhergehende Element erzeugten Aktionseinheit und der dem aktuellen Element in der Gruppenliste zugeordneten Aktionseinheit. Das der vorhergehenden Aktionseinheit gegebene Gewicht wird verringert, indem der Skalierungsfaktor um den Dekrementwert für jede 40-ms-Periode verringert wird, wohingegen das der aktuellen Aktionseinheit gegebene Gewicht vergrößert wird, indem der Skalierungsfaktor (von null) für jede 40-ms-Periode um den Inkrementwert vergrößert wird. In dieser Weise schaffen die ausgegebenen Befehlssignale einen gestuften Übergang von einer Mundform zur nächsten.
  • Dann werden auf jedes nachfolgende Element in der Gruppenliste ähnliche Operationen angewendet (Schritte 206 bis 210), bis ein Abbruchelement erreicht wird.
  • Die Befehlssignale werden auf der Grundlage der Aktionseinheitsdatei erzeugt und in 40-ms-Intervallen zur Bildsyntheseeinheit 5 übertragen, um die Erzeugung eines Bildes eines Kopfes zu ermöglichen, der eine Artikulation aufweist, die der Ausgabe der Text-Sprache- Synthetisiereinrichtung entspricht.
  • Es wird aus der obigen Erörterung angemerkt, daß das Visem oder die Mundform, das bzw. die für einen Vokal gewählt wird, ein Visem oder eine Mundform ist, das bzw. die diesem Vokal im voraus zugeordnet ist, daß die für eine Vokal-Konsonant-Kombinationen (oder umgekehrt) gewählte Mundform eine Mundform ist, die dieser Kombination im voraus zugeordnet ist, und daß die für einen Konsonant- Konsonant-Übergang gewählte Mundform eine Mundform ist, die im voraus dem ersten der Konsonanten im gleichen Kontext zugeordnet ist - d. h. in diesem Beispiel, das dem gleichen folgenden (oder bei Abwesenheit vorhergehenden) Vokal besitzt. Falls gewünscht - obgleich mit der Strafe der Vergrößerung der Anzahl der erforderlichen Aktionseinheiten - kann die Auswahl der Mundformen kontextabhängiger ausgeführt werden. Es könnte z. B. für einen Konsonant-Vokal-Übergang eine Mundform gewählt werden, wobei die Auswahl nicht nur von dem Konsonanten und dem folgenden Vokal, sondern außerdem vom vorhergehenden Vokal (d. h. der Konsonant-Vokal-Konsonant-Kombination) abhängig ist. Die Wahl für einen Konsonant-Konsonant-Übergang könnte getroffen werden, damit sie vom ersten Konsonanten und sowohl von den folgenden als auch den vorhergehenden Vokalen (falls sie vorhanden sind) oder in der Tat von den zwei Konsonanten und den zwei Vokalen abhängt.
  • Es ist bis jetzt wenig darüber ausgesagt worden, wie die in der Bildsyntheseeinheit 5 gespeicherten Aktionseinheiten erzeugt werden. Dies wurde im Prototyp erreicht, indem von einer Person, die die Wörter spricht, die alle erforderlichen 68 Vokalgruppen und Vokalgruppe/Konsonantgruppe-Kombinationen enthält, eine Videoaufzeichnung angefertigt wurde, und indem eine Bildfangschaltung verwendet wurde, um Standbilder der Aufzeichnung anzuzeigen, so daß diejenigen Bilder, die den Vokalen entsprechen, und diejenigen Bilder, die den Konsonant/Vokal-Kombinationen entsprechen, manuell identifiziert werden konnten. Sobald diese Bilder (in Pixelmusterform) identifiziert worden waren, war es dann notwendig, die Verschiebungen vom Referenz-Drahtrahmenmodell zu bestimmen, die diese Bilder repräsentierten. Dies wurde unter Verwendung eines Anpassungsprogramms ausgeführt, das die erforderliche Deformation eines Drahtrahmenmodells berechnet, um ein gegebenes Pixelmusterbild anzupassen.

Claims (8)

1. Verfahren zum Erzeugen von Signalen, die ein bewegtes Bild eines Gesichts darstellen, das eine einer Sprachäußerung entsprechende sichtbare Artikulation aufweist, wobei das Verfahren umfaßt:
Empfangen einer Folge phonetischer Darstellungen, die aufeinanderfolgenden Abschnitten der Äußerung entsprechen, wobei die Darstellungen eine erste Menge von Darstellungen, die Abschnitte einer ersten phonetischen Art darstellen, sowie eine zweite Menge von Darstellungen, die Abschnitte einer zweiten phonetischen Art darstellen, umfassen;
Identifizieren einer Folge von Maximalmundformen in Übereinstimmung mit der Folge von Darstellungen;
Erzeugen (108) eines Maximalmundform-Befehls, der für jede identifizierte Maximalmundform diese Form spezifiziert;
Erzeugen (201) von Zwischenbefehlen, wovon jeder eine Zwischenform spezifiziert, die zwischen den durch die vorhergehenden und folgenden Maximalmundform-Befehle spezifizierten Maximalmundformen liegen; und
Erzeugen einer Folge von Bildern, die die identifizierten Formen enthalten;
wobei das Verfahren dadurch gekennzeichnet ist, daß die Identifizierung einer Folge von Maximalmundformen umfaßt:
Identifizieren (144) einer Maximalmundform für jede Darstellung in der ersten Menge; und
Identifizieren einer Maximalmundform für jeden Übergang von einer phonetischen Darstellung in der ersten Menge zu einer phonetischen Darstellung in der zweiten Menge (162), für jeden Übergang von einer phonetischen Darstellung in der zweiten Menge zu einer phonetischen Darstellung in der ersten Menge (149) und für jeden Übergang von einer phonetischen Darstellung in der zweiten Menge zu einer phonetischen Darstellung in der zweiten Menge (165, 168).
2. Verfahren nach Anspruch 1, bei dem die Darstellungen Phoneme darstellen, wobei die erste Menge von Darstellungen Vokale darstellt und die zweite Menge von Darstellungen Konsonanten darstellt.
3. Verfahren nach Anspruch 2, bei dem die Identifizierung (149, 162) einer Maximalmundform für jeden Übergang zwischen Konsonanten- und Vokalphonemen in Abhängigkeit von dem Vokalphonem und dem Konsonantenphonem ausgeführt wird.
4. Verfahren nach Anspruch 2 oder 3, bei dem die Identifizierung (165, 168) einer Maximalmundform für jeden Übergang zwischen zwei Konsonantenphonemen in Abhängigkeit von dem ersten der beiden Konsonantenphoneme und von dem Vokalphonem, der ihm am nächsten folgt oder vorhergeht, ausgeführt wird.
5. Verfahren nach Anspruch 2 oder 3, bei dem die Identifizierung (165, 168) einer Maximalmundform für jeden Übergang zwischen zwei Konsonantenphonemen in Abhängigkeit von dem ersten der beiden Konsonantenphoneme und von dem Vokalphonem, der ihm am nächsten folgt oder, falls ein solcher nicht vorhanden ist, der ihm vorhergeht, ausgeführt wird.
6. Verfahren nach Anspruch 3, 4 oder 5, bei dem die Identifizierung in Abhängigkeit nur von jenen Phonemen, die in diesem Anspruch spezifiziert sind, ausgeführt wird.
7. Verfahren nach Anspruch 3, 4 oder 5, bei dem die Identifizierung außerdem in Abhängigkeit von wenigstens einem weiteren Phonem innerhalb desselben Wortes ausgeführt wird.
8. Vorrichtung zum Erzeugen von Signalen, die ein bewegtes Bild eines Gesichts darstellen, das eine einer Sprachäußerung entsprechende sichtbare Artikulation aufweist, mit:
Mitteln, die so beschaffen sind, daß sie im Betrieb eine Folge phonetischer Darstellungen empfangen, wobei die Darstellungen eine erste Menge von Darstellungen, die Abschnitte einer ersten phonetischen Art darstellen, und eine zweite Menge von Darstellungen, die Abschnitte einer zweiten phonetischen Art darstellen, umfassen, wobei die Darstellungen aufeinanderfolgenden Abschnitten der Äußerung entsprechen, und als Antwort auf den Empfang dieser Folge
eine Folge von Maximalmundformen in Übereinstimmung mit der Folge phonetischer Darstellungen identifizieren;
für jede identifizierte Maximalmundform einen diese Form spezifizierenden Maximalmundform-Befehl erzeugen (108);
Zwischenbefehle erzeugen, wovon jeder eine Zwischenform zwischen den Maximalmundformen, die durch die vorhergehenden und folgenden Maximalmundform-Befehlen spezifiziert sind, spezifiziert; und
eine Folge von die identifizierten Formen enthaltenden Bildern erzeugen;
wobei die Vorrichtung dadurch gekennzeichnet ist, daß die Mittel ferner so beschaffen sind, daß sie im Betrieb die Folge von Maximalmundformen identifizieren, indem sie:
eine Maximalmundform für jede phonetische Darstellung in der ersten Menge identifizieren (144); und
für jeden Übergang von einer phonetischen Darstellung in der ersten Menge zu einer phonetischen Darstellung in der zweiten Menge (162), für jeden Übergang von einer phonetischen Darstellung in der zweiten Menge zu einer phonetischen Darstellung in der ersten Menge (149) und für jeden Übergang von einer phonetischen Darstellung in der zweiten Menge zu einer phonetischen Darstellung in der zweiten Menge (165, 168) eine Maximalmundform identifizieren.
DE69715175T 1996-03-26 1997-03-24 Bildsynthetisierung Expired - Lifetime DE69715175T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP96302060 1996-03-26
PCT/GB1997/000818 WO1997036288A1 (en) 1996-03-26 1997-03-24 Image synthesis

Publications (2)

Publication Number Publication Date
DE69715175D1 DE69715175D1 (de) 2002-10-10
DE69715175T2 true DE69715175T2 (de) 2003-05-15

Family

ID=8224860

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69715175T Expired - Lifetime DE69715175T2 (de) 1996-03-26 1997-03-24 Bildsynthetisierung

Country Status (8)

Country Link
EP (1) EP0890168B1 (de)
JP (1) JP4037455B2 (de)
KR (1) KR20000005183A (de)
CN (1) CN1214784A (de)
AU (1) AU2167097A (de)
CA (1) CA2249016C (de)
DE (1) DE69715175T2 (de)
WO (1) WO1997036288A1 (de)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2346527B (en) * 1997-07-25 2001-02-14 Motorola Inc Virtual actor with set of speaker profiles
WO1999046732A1 (fr) * 1998-03-11 1999-09-16 Mitsubishi Denki Kabushiki Kaisha Dispositif de generation d'images en mouvement et dispositif d'apprentissage via reseau de controle d'images
AU2998099A (en) * 1998-03-11 1999-09-27 Entropic, Inc. Face synthesis system and methodology
IT1314671B1 (it) * 1998-10-07 2002-12-31 Cselt Centro Studi Lab Telecom Procedimento e apparecchiatura per l'animazione di un modellosintetizzato di volto umano pilotata da un segnale audio.
SG87837A1 (en) * 1998-10-08 2002-04-16 Sony Computer Entertainment Inc Portable toy, portable information terminal, intertainment system, and recording medium
WO2001001353A1 (en) * 1999-06-24 2001-01-04 Koninklijke Philips Electronics N.V. Post-synchronizing an information stream
KR100395491B1 (ko) * 1999-08-16 2003-08-25 한국전자통신연구원 아바타 기반 음성 언어 번역 시스템에서의 화상 통신 방법
US6766299B1 (en) * 1999-12-20 2004-07-20 Thrillionaire Productions, Inc. Speech-controlled animation system
GB0008537D0 (en) * 2000-04-06 2000-05-24 Ananova Ltd Character animation
GB0030148D0 (en) * 2000-12-11 2001-01-24 20 20 Speech Ltd Audio and video synthesis method and system
JP4067762B2 (ja) 2000-12-28 2008-03-26 ヤマハ株式会社 歌唱合成装置
US6661418B1 (en) 2001-01-22 2003-12-09 Digital Animations Limited Character animation system
DE10214431B4 (de) * 2002-03-30 2005-11-10 Ralf Dringenberg Verfahren und Vorrichtung zur Visualisierung von Audiodaten
KR100754430B1 (ko) * 2004-10-08 2007-08-31 비쥬텍쓰리디(주) 음성 기반 자동 립싱크 애니메이션 장치와 방법 및 기록매체
CN1991982A (zh) * 2005-12-29 2007-07-04 摩托罗拉公司 一种使用语音数据激励图像的方法
GB2468140A (en) 2009-02-26 2010-09-01 Dublin Inst Of Technology A character animation tool which associates stress values with the locations of vowels
JP2018091954A (ja) * 2016-12-01 2018-06-14 オリンパス株式会社 音声認識装置、及び音声認識方法
CN108847234B (zh) * 2018-06-28 2020-10-30 广州华多网络科技有限公司 唇语合成方法、装置、电子设备及存储介质
CN111260761B (zh) * 2020-01-15 2023-05-09 北京猿力未来科技有限公司 一种生成动画人物口型的方法及装置
CN113205797B (zh) * 2021-04-30 2024-03-05 平安科技(深圳)有限公司 虚拟主播生成方法、装置、计算机设备及可读存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4913539A (en) * 1988-04-04 1990-04-03 New York Institute Of Technology Apparatus and method for lip-synching animation
JP2518683B2 (ja) * 1989-03-08 1996-07-24 国際電信電話株式会社 画像合成方法及びその装置
US5313522A (en) * 1991-08-23 1994-05-17 Slager Robert P Apparatus for generating from an audio signal a moving visual lip image from which a speech content of the signal can be comprehended by a lipreader
US5608839A (en) * 1994-03-18 1997-03-04 Lucent Technologies Inc. Sound-synchronized video system

Also Published As

Publication number Publication date
JP2000507377A (ja) 2000-06-13
CN1214784A (zh) 1999-04-21
AU2167097A (en) 1997-10-17
JP4037455B2 (ja) 2008-01-23
EP0890168B1 (de) 2002-09-04
DE69715175D1 (de) 2002-10-10
WO1997036288A1 (en) 1997-10-02
KR20000005183A (ko) 2000-01-25
CA2249016A1 (en) 1997-10-02
EP0890168A1 (de) 1999-01-13
CA2249016C (en) 2002-12-03

Similar Documents

Publication Publication Date Title
DE69715175T2 (de) Bildsynthetisierung
Kalra et al. Smile: A multilayered facial animation system
DE69719270T2 (de) Sprachsynthese unter Verwendung von Hilfsinformationen
DE69127818T2 (de) System zur verarbeitung kontinuierlicher sprache
DE102019001775B4 (de) Nutzung von Maschinenlernmodellen zur Bestimmung von Mundbewegungen entsprechend Live-Sprache
DE69632901T2 (de) Vorrichtung und Verfahren zur Sprachsynthese
DE60101540T2 (de) Verfahren zur Animation eines künstlichen Modells eines menschlichen Gesichts unter Verwendung akustischer Signale
DE69832663T2 (de) Verfahren zum Erstellen von photo-realistischen beweglichen Figuren
DE69718284T2 (de) Sprachsynthesesystem und Wellenform-Datenbank mit verringerter Redundanz
DE69719654T2 (de) Grundfrequenzmuster enthaltende Prosodie-Datenbanken für die Sprachsynthese
DE69031165T2 (de) System und methode zur text-sprache-umsetzung mit hilfe von kontextabhängigen vokalallophonen
DE3687915T2 (de) Änderung von Gesichtsausdrücken in der Kinematographie.
DE69936620T2 (de) Verfahren und Vorrichtung zum Segmentieren von Handgebärden
DE69519887T2 (de) Verfahren und Vorrichtung zur Verarbeitung von Sprachinformation
DE69917415T2 (de) Sprachsynthese mit Prosodie-Mustern
DE69232407T2 (de) Sprach-Dialog-System zur Erleichterung von Rechner-Mensch-Wechselwirkung
DE60105995T2 (de) Animation von personen
DE69512568T2 (de) Verfahren zur Herstellung einer Datenbank mit skalierbaren Schrifttypen
DE69600392T2 (de) Vorrichtung und verfahren zum gestalten von bahndefiniertenkurven
DE60118874T2 (de) Prosodiemustervergleich für Text-zu-Sprache Systeme
DE69607003T2 (de) Verfahren und vorrichtung zum steuern eines beweglichen geräts
DE60119496T2 (de) Verfahren und Vorrichtung um eine mittels eines Klangs übermittelte Emotion zu synthetisieren
DE19753453B4 (de) System zum Synchronisieren eines Films mit einem Text/Sprache-Umsetzer
DE69917960T2 (de) Phonembasierte Sprachsynthese
KR100300962B1 (ko) 음성합성을위한립싱크방법및그장치

Legal Events

Date Code Title Description
8364 No opposition during term of opposition