DE69715175T2

DE69715175T2 - Bildsynthetisierung

Info

Publication number: DE69715175T2
Application number: DE69715175T
Authority: DE
Inventors: Emma Jane Bowers; Andrew Paul Breen
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 1996-03-26
Filing date: 1997-03-24
Publication date: 2003-05-15
Anticipated expiration: 2017-03-25
Also published as: JP2000507377A; CN1214784A; AU2167097A; JP4037455B2; EP0890168B1; DE69715175D1; WO1997036288A1; KR20000005183A; CA2249016A1; EP0890168A1; CA2249016C

Description

Die vorliegende Erfindung bezieht sich auf die Synthese bewegter Bilder, z. B. um synthetische Sprache zu begleiten.
Bisher hat sich die Synthese eines Bildes eines Gesichts, um eine Äußerung zu begleiten, auf die Auswahl von Bildern von Gesichtern gestützt, die den Phonemen in der Äußerung entsprechen - die dazwischenliegenden Bilder werden durch Interpolation zwischen diesen Bildern von Gesichtern geschaffen. Ein Beispiel einer derartigen Bildsynthetisiereinrichtung ist in einem Artikel von Shigeo Morishima u. a. mit dem Titel 'A Facial Motion Synthesis for Intelligent Man-Machine interface' auf den Seiten 50-59 in Systems and Computers in Japan, 22 (1991), Nr. 5 dargestellt. Ein weiteres Beispiel ist im US-Patent Nr. 5.313.522 offenbart.
Gemäß der vorliegenden Erfindung wird ein Verfahren zum Erzeugen von Signalen geschaffen, die ein bewegtes Bild eines Gesichts darstellen, das eine einer Sprachäußerung entsprechende sichtbare Artikulation aufweist, wobei das Verfahren umfaßt:
Empfangen einer Folge phonetischer Darstellungen, die aufeinanderfolgenden Abschnitten der Äußerung entsprechen, wobei die Darstellungen eine erste Menge von Darstellungen, die Abschnitte einer ersten phonetischen Art darstellen, sowie eine zweite Menge von Darstellungen, die Abschnitte einer zweiten phonetischen Art darstellen, umfassen;
Identifizieren einer Folge von Maximalmundformen in Übereinstimmung mit der Folge von Darstellungen;
Erzeugen eines Maximalmundform-Befehls, der für jede identifizierte Maximalmundform diese Form spezifiziert;
Erzeugen von Zwischenbefehlen, wovon jeder eine Zwischenform spezifiziert, die zwischen den durch die vorhergehenden und folgenden Maximalmundform-Befehle spezifizierten Maximalmundformen liegen; und
Erzeugen einer Folge von Bildern, die die identifizierten Formen enthalten;
wobei das Verfahren dadurch gekennzeichnet ist, daß die Identifizierung einer Folge von Maximalmundformen umfaßt:
Identifizieren einer Maximalmundform für jede Darstellung in der ersten Menge; und
Identifizieren einer Maximalmundform für jeden Übergang von einer phonetischen Darstellung in der ersten Menge zu einer phonetischen Darstellung in der zweiten Menge, für jeden Übergang von einer phonetischen Darstellung in der zweiten Menge zu einer phonetischen Darstellung in der ersten Menge und für jeden Übergang von einer phonetischen Darstellung in der zweiten Menge zu einer phonetischen Darstellung in der zweiten Menge.
In einigen Ausführungsformen stellen die Darstellungen Phoneme dar, wobei die erste Menge von Darstellungen Vokale darstellt und die zweite Menge von Darstellungen Konsonanten darstellt.
Die Identifizierung einer Maximalmundform für jeden Übergang zwischen Konsonanten- und Vokalphonemen kann in Abhängigkeit von dem Vokalphonem und dem Konsonantenphonem ausgeführt werden, während die Identifizierung einer Maximalmundform für jeden Übergang zwischen zwei Konsonantenphonemen in Abhängigkeit von dem ersten der beiden Konsonantenphoneme und von dem Vokalphonem, der ihm am nächsten folgt oder vorhergeht, ausgeführt werden kann. Alternativ kann die Identifizierung einer Maximalmundform für jeden Übergang zwischen zwei Konsonantenphonemen in Abhängigkeit von dem ersten der beiden Konsonantenphoneme und von dem Vokalphonem, der ihm am nächsten folgt oder, falls ein solcher nicht vorhanden ist, der ihm vorhergeht, ausgeführt werden.
Vorzugsweise wird die Identifizierung für jeden Übergang in Abhängigkeit nur von jenen Phonemen, die oben in bezug auf diese Übergänge spezifiziert sind, ausgeführt. Alternativ könnte die Identifizierung außerdem in Abhängigkeit von wenigstens einem weiteren Phonem innerhalb desselben Wortes ausgeführt werden.
In einem weiteren Aspekt der Erfindung wird eine Vorrichtung zum Erzeugen von Signalen geschaffen, die ein bewegtes Bild eines Gesichts darstellen, das eine einer Sprachäußerung entsprechende sichtbare Artikulation aufweist, mit:
Mitteln, die so beschaffen sind, daß sie im Betrieb eine Folge phonetischer Darstellungen empfangen, wobei die Darstellungen eine erste Menge von Darstellungen, die Abschnitte einer ersten phonetischen Art darstellen, und eine zweite Menge von Darstellungen, die Abschnitte einer zweiten phonetischen Art darstellen, umfassen, wobei die Darstellungen aufeinanderfolgenden Abschnitten der Äußerung entsprechen, und als Antwort auf den Empfang dieser Folge
eine Folge von Maximalmundformen in Übereinstimmung mit der Folge phonetischer Darstellungen identifizieren;
für jede identifizierte Maximalmundform einen diese Form spezifizierenden Maximalmundform-Befehl erzeugen;
Zwischenbefehle erzeugen, wovon jeder eine Zwischenform zwischen den Maximalmundformen, die durch die vorhergehenden und folgenden Maximalmundform-Befehlen spezifiziert sind, spezifiziert; und
eine Folge von die identifizierten Formen enthaltenden Bildern erzeugen;
wobei die Vorrichtung dadurch gekennzeichnet ist, daß die Mittel ferner so beschaffen sind, daß sie im Betrieb die Folge von Maximalmundformen identifizieren, indem sie:
eine Maximalmundform für jede phonetische Darstellung in der ersten Menge identifizieren; und
für jeden Übergang von einer phonetischen Darstellung in der ersten Menge zu einer phonetischen Darstellung in der zweiten Menge, für jeden Übergang von einer phonetischen Darstellung in der zweiten Menge zu einer phonetischen Darstellung in der ersten Menge und für jeden Übergang von einer phonetischen Darstellung in der zweiten Menge zu einer phonetischen Darstellung in der zweiten Menge eine Maximalmundform identifizieren.
Eine Ausführungsform der Erfindung wird nun beispielhaft unter Bezugnahme auf die beigefügte Zeichnung beschrieben, worin:
Fig. 1 ein funktionaler Blockschaltplan ist, der die Elemente der Ausführungsform zeigt;
Fig. 2 einen Grundriß und Vorder- und Seitenansichten des 'Drahtmodells' zeigt, das beim Synthetisieren eines Bildes eines menschlichen Kopfes verwendet wird;
Fig. 3 ähnliche Ansichten eines 'Drahtmodells' zeigt, das beim Synthetisieren am Mundabschnitt eines Bildes eines menschlichen Kopfes verwendet wird;
Fig. 4 zeigt, wo die Maximal-Vokalmundformen bei der Synthese einer Folge von Bildern auftreten, um einen menschlichen Kopf darzustellen, der 'affluence' sagt;
Fig. 5 zeigt, wo die maximalen Vokal-Konsonant-Übergangsmundformen (und umgekehrt) im Wort 'affluence' auftreten;
Fig. 6 die verbleibenden Mundformen bei der Artikulation des Wortes 'affluence' veranschaulicht;
Fig. 7 die Übergänge zwischen den Mundformen bei der Artikulation des Wortes 'affluence' veranschaulicht;
Fig. 8 ein Blockschaltplan ist, der die Komponenten der Einheit für das Umsetzen phonetischer Signale in Befehlssignale für die Bildsyntheseeinheit schematisch veranschaulicht;
Fig. 9 ein Ablaufplan ist, der den Betrieb der Vorrichtung der Ausführungsform veranschaulicht;
Fig. 10 ein Ablaufplan ist, der die Prozedur für die Umsetzung von Diphthongen und Affrikaten in ihre konstituierenden Phoneme veranschaulicht;
Fig. 11A bis 11D die Prozedur für das Erzeugen einer Zwischenausgabedatei auf der Grundlage der eingegebenen Phonemdatei veranschaulichen;
Fig. 12 die Prozedur für das Erzeugen einer Datei veranschaulicht, die den Zeitablauf und die Art der Maximalmundformen auf der Grundlage der Zwischenausgabedatei spezifiziert; und
Fig. 13A und 13B die Prozedur zum Erzeugen einer Datei veranschaulichen, die sowohl die Maximalmundformen als auch die Zwischenmundformen spezifiziert.
Die Vorrichtung nach Fig. 1 besitzt die Funktion, die zu sprechenden Wörter in der Form von Text zu empfangen und die entsprechende Sprache in der Form eines Audiosignals und ein entsprechendes Videosignal für die Anzeige eines bewegten Bildes eines Gesichts (z. B. Mensch oder Karikatur) mit Artikulation des Mundes, die der gleichen Sprache entspricht, zu erzeugen. In dieser Beschreibung wird oft auf die Artikulation des Mundes Bezug genommen; es ist selbstverständlich, daß diese Artikulation die Bewegung der Lippen, des Inneren des Mundes (einschließlich, falls gewünscht, der Zähne und der Zunge), des Kiefers und der umgebenden Bereiche enthalten kann. Andere Bewegungen, wie z. B. Bewegung oder Drehung des gesamten Kopfes, die Bewegung der Augenbrauen usw. können außerdem enthalten sein, um zu erreichen, daß das resultierende Bild realistischer erscheint.
Der Text wird aus einer gespeicherten Textdatei oder einer anderen gewünschten Quelle am Eingang 1 in der Form von Zeichencodes entsprechend irgendeiner zweckmäßigen Standarddarstellung (z. B. ASCII-Code) empfangen. Er wird durch eine Sprachsynthetisiereinrichtung mit herkömmlicher Konstruktionen empfangen, die aber hier als zwei getrennte Teile gezeigt ist, nämlich einen Text-Phonetik- Umsetzer 2, der die herkömmliche Orthographie in eine phonetische Darstellung umsetzt, z. B. eine Liste von Phonemen und die Dauer jedes Phonems, und die richtige Sprachsynthetisiereinrichtung 3, die die Liste in eine Audiofrequenz-Signalform umsetzt. Es kann irgendeine Phonemmenge verwendet werden, aber für die Zwecke dieser Beschreibung wird die Verwendung der britischen RP-SAMPA-Menge vorausgesetzt, die 38 verschiedene Phoneme des britischen Englisch identifiziert, wie in der Tabelle 1 im folgenden dargelegt ist.

Tabelle 1

britisch RP-SAMPA Wordbeispiel
Konsonanten
/b/ beax
/D/ this
/d/ dear
/f/ fear
/g/ gear
/h/ hear
/j/ year
/k/ king
/l/ lead
/m/ men
/N/ wing
/n/ near
/p/ pear
/r/ rear
/S sheer
/s/ sing
/T/ thing
/t/ tear
/v/ very
/w/ wear
/Z/ treasure
/z/ zoo
Affrikaten
/dZ/ leer
/tS/ cheer
kurze Vokale
/@/ ago
/{/ bat
/E/ bet
/I/ bit
/Q/ cod
/U/ good
/V/ bud
lange Vokale
/3/ bird
/A/ bard
/i/ bead
/O/ bore
/u/ boot
Diphthonge
/@U/ zero
/aI/ pie
/aU/ cow
/E@/ hair
/eI/ pay
/I@/ peer
/OI/ boy
/U@/ contour
andere
/#:/ Stille
/#/ Wortgrenze
Da die Sprachsynthetisiereinrichtung herkömmlich ist, wird sie nicht weiter beschrieben.
Die Phonemliste wird von einer Umsetzungseinheit 4 empfangen, die im folgenden ausführlicher beschrieben wird. Sie dient dazu, um aus der Phonemliste eine Folge von Befehlsignalen zu erzeugen, die die Artikulation des Mundes spezifizieren, die für das Gesicht erforderlich ist, damit es sich in einer Weise bewegt, die der Phonemliste und folglich dem von der Synthetisiereinrichtung 3 erzeugten Sprachsignal entspricht.
Diese Befehlsignale werden von einer Bildsyntheseeinheit 5 empfangen. In dieser Einheit ist ein einzelnes Videobild oder ein Pixelmusterbild eines Standbildes des gewünschten Gesichts gespeichert, wobei sie dazu dient, ein kontinuierliches Videosignal zu erzeugen, das dieses Gesicht, aber mit Bewegung, zeigt. Offensichtlich kann dieses Videosignal irgendeinem gewünschten Standard entsprechen; hier wird ein System-I-Signal mit 25 Bildern pro Sekunde angenommen. Die Bewegung wird mit Hilfe eines dreidimensionalen Drahtrahmenmodells erzeugt. Ein typisches derartiges Modell ist in Fig. 2 gezeigt, wobei der Mundbereich in Fig. 3 vergrößert gezeigt ist. Es besitzt eine Anzahl von Punkten (Scheitelpunkten) im dreidimensionalen Raum, wobei Linien, die diese Scheitelpunkte verbinden, dreidimensionale Bereiche definieren, die als Facetten bezeichnet werden. In der tatsächlichen Vorrichtung besteht das Modell aus einer Menge gespeicherter Daten, nämlich, für jeden Scheitelpunkt eine Scheitelpunktnummer und seine x-, y- und z-Koordinaten, und für jede Facette eine Facettennummer und die Nummern der dreidimensionalen Scheitelpunkte, die die Ecken der Facette bilden. Während einer Initialisierungsphase bestimmt die Einheit 5 die Abbildung zwischen jeder Facette dieses Referenzmodells und eines entsprechenden Bereichs im Pixelmusterbild. Die Bewegung wird erzeugt, indem wiederholt ein geändertes Modell definiert wird, in dem einer oder mehrere der Scheitelpunkte eine von der Position verschiedene Position annimmt bzw. annehmen, die er bzw. sie im Referenzmodell besetzt bzw. besetzen. Die Einheit 5 muß dann ein neues zweidimensionales Pixelmusterbild erzeugen. Dies führt sie aus, indem sie für jede Facette des geänderten Modells einen oder mehrere der Scheitelpunkte von denen, die sich bezüglich des Referenzmodells bewegt haben, identifiziert; für jede derartige Facette verwendet sie einen Interpolationsprozeß, in dem der dreieckige Bereich des ursprünglichen Pixelmusters, der ihr in Übereinstimmung mit der Abbildung entspricht, bewegt und/oder verzerrt ist, um im neuen Pixelmusterbild einen dreieckigen Bereich zu besetzen, der in Übereinstimmung mit dieser Abbildung der Facette des geänderten Modells entspricht. Ein derartiges neues Pixelmusterbild wird für jedes Bild des Ausgangssignals (d. h. alle 40 ms) erzeugt. Für weitere Einzelheiten des Betriebs und der Implementierung der Bildsyntheseeinheit 5 wird auf W. J. Welsh, S. Searby und J. B. Waite, "Model Based Image Coding", Br. Telecom Technol. J., Bd. 8, Nr. 3, Juli 1990 verwiesen.
Die Befehle, die notwendig sind, um die Bildsyntheseeinheit 5 anzusteuern, könnten im Prinzip darin bestehen, alle 40 ms die Nummer von jedem Scheitelpunkt, dessen Position sich vom Referenzmodell unterscheidet, begleitet von seinen neuen Koordinaten an die Einheit zu senden. Im Interesse der Betriebsgeschwindigkeit enthält die Einheit 5 jedoch eine gespeicherte Menge von Aktionseinheiten, wobei jede von diesen ein Dateneintrag ist, der aus
- einer Nummer der Aktionseinheit (z. B. 0 bis 255) (1 Byte),
- der Anzahl der durch die Aktionseinheit beeinflußten Scheitelpunkte,
- für jeden derartigen Scheitelpunkt:
der Scheitelpunktnummer (2 Bytes),
der Verschiebung seiner x-Koordinate von seiner Position im Referenzmodell (2 Bytes),
der Verschiebung seiner y-Koordinate von seiner Position im Referenzmodell (2 Bytes), und
der Verschiebung seiner z-Koordinate von seiner Position im Referenzmodell (2 Bytes)
besteht. (Es könnten selbstverständlich die x-, y-, z-Verschiebungen bezüglich des vorhergehenden Bildes verwendet werden, falls das bevorzugt ist.)
Jeder Befehl kann dann einfach aus einer Nummer der Aktionseinheit, gefolgt von einem Skalierungsfaktor (z. B. von 0 bis 255) bestehen, um den Betrag der durch die Aktionseinheit spezifizierten Bewegung zu variieren; oder er kann, falls gewünscht, einige (in einem Prototyp waren bis zu fünf Aktionseinheiten erlaubt) enthalten. Auf den Empfang des Befehls sieht die Einheit 5 die Aktionseinheit(en) ein und verwendet die gespeicherten Koordinatenverschiebungen (die geeignet skaliert sind) für die spezifizierten Scheitelpunkte. Wenn der Befehl zwei Aktionseinheiten enthält, von denen beide die Verschiebung eines speziellen Scheitelpunktes spezifizieren, dann ist die Verschiebung einfach die Vektorsumme der zwei Verschiebungen.
Nun wird zur Untersuchung des Betriebs der Umsetzungseinheit 4 zurückgekehrt, wobei es zweckmäßig ist, das Konzept eines Visemes einzuführen. Gerade wie gesprochene Wörter als aus elementaren Einheiten, die als Phoneme bezeichnet werden, bestehend betrachtet werden können, kann die visuelle Sprache als aus Visemen bestehend betrachtet werden - den minimalen Einheiten der visuellen Sprache oder "der kleinsten wahrnehmbaren Einheit der visuellen Artikulationseinheit". Im wesentlichen ist ein Visem eine Mundform; die Aufgabe der Umsetzungseinheit besteht darin, zu bestimmen, welche Viseme erforderlich sind, und die Zeitpunkte zu bestimmen, bei denen sie auftreten (quantisiert in vielfachen von 40 ms), und dann die Befehle in 40-ms-Intervallen zu erzeugen, wie z. B. um die erforderlichen Viseme in den erforderlichen Intervallen zu erzeugen und um die geeigneten Zwischenformen für die dazwischenliegenden Bilder zu erzeugen.
Für den Betrieb der Umsetzungseinheit ist die Idee wesentlich, daß es keine 1 : 1-Entsprechung zwischen Phonemen und Visemen gibt. Zuerst sind einige Phoneme visuell ähnlich oder sogar ununterscheidbar; z. B. die Konsonanten /p/ und /b/ sind visuell völlig gleich, weil sie sich nur im Grad der stimmhaften Aussprache unterscheiden, wobei die Artikulation des Stimmapparats die gleiche ist. Folglich können die Phoneme gruppiert werden, wobei die Phoneme der gleichen Gruppe als völlig gleich betrachtet werden, soweit wie die Erzeugung der Viseme betroffen ist. Es sind verschiedene Gruppierungen möglich; eine typische Gruppierung ist in der Tabelle 2 im folgenden gezeigt:

Tabelle 2

Phoneme Gruppe
p, b, m Konsonantengruppe 1
f, V Konsonantengruppe 2
D, T Konsonantengruppe 3
s, z Konsonantengruppe 4
S, Z Konsonantengruppe 5
k, g, N Konsonantengruppe 6
t, d, l, n, r Konsonantengruppe 7
w, U, u, O "Beides"-Gruppe
Q, V, A Vokalgruppe 1
3, i, j Vokalgruppe 2
@, E, I, { Vokalgruppe 3
(Es wird angemerkt, daß die Diphthonge fehlen, weil diese vor der Verarbeitung in ihre konstituierenden Vokale unterteilt werden.)
Während es möglich ist, einer Zuordnung zwischen dem Klang eines Vokals und einer Mundform zu definieren, ist es zweitens bei einem Konsonanten nicht so, bei dem sich die Mundform in Abhängigkeit von den Phonemen in der Nähe ändert, insbesondere in der Nähe von Vokalphonemen. In der vorliegenden Ausführungsform sind die Mundformen sowohl den Vokalen als auch den Kombinationen aus einem Konsonanten und einem Phonem zugeordnet. Es gibt eine signifikante Anzahl von Übergängen, die Konsonanten enthalten. Es kann jedoch eine erste Vereinfachung vorgenommen werden, indem beachtet wird, daß ein Konsonant-Konsonant-Übergang stark durch den folgenden Vokal beeinflußt wird (oder, am Ende eines Wortes vor einer Pause, dem vorhergehenden Vokal), und während der zweite Konsonant der beiden irgendeine Wirkung besitzt, ist diese ganz subtil und kann ignoriert werden. Die vorliegende Ausführungsform nutzt dies aus, indem eine Konsonant-Vokal- oder Vokal-Konsonant- Kombination jedem Konsonant-Konsonant-Übergang zugeordnet wird. In dieser Weise wird die Anzahl der Mundformen, die durch das System behandelt werden müssen, niedrig gehalten.
Es wird der Betrieb der vorliegenden Ausführungsform beispielhaft veranschaulicht, falls die Text-Phonetik-Einheit 2 ein Signal empfangen würde, das das Wort 'affluence' darstellt, dabei würde sie arbeiten, um die Phonemliste /#:/ /{/ /f/ /l/ /u/ /@/ /n/ /s/ /#:/ an die Umsetzungseinheit 4 auszugeben. Auf den Empfang dieser Phonemliste würde die Umsetzungseinheit 4 betreibbar sein, um die Phonemliste zu verarbeiten, um eine Folge von Befehlssignalen auszugeben. Die ausgegebenen Befehlssignale sind in den Fig. 4 bis 7 veranschaulicht, von denen jede außerdem die Inhalte der eingegebenen Phonemliste veranschaulicht, d. h. die Phoneme selbst und ihre Dauer in Abtastwerten (in diesem Beispiel beträgt die Abtastrate 8 kHz).
Zuerst enthält die Ausgabe drei Befehlssignale, die den Vokalen in dem Wort entsprechen. Diese sind in Fig. 4 gezeigt, wo in der unteren graphischen Darstellung die Vokale /{/, /u/ und /@/ identifiziert worden sind, wobei jeder mit einem Strich markiert ist, der anzeigt, daß das diesem Vokal zugeordnete Visem bestimmt worden ist; es wird angenommen, daß es am Mittelpunkt des Vokals auftritt.
Die Ausgabe enthält ferner Befehlssignale, die die Mundformen spezifizieren, die den Vokal-Konsonant- und Konsonant-Vokal-Übergangen zugeordnet sind; dies ist in Fig. 5 veranschaulicht, in der die Striche die Mundformen an den Vokal-Konsonant- oder Konsonant- Vokal-Grenzen zeigen. Dies hinterläßt die Vokal-Vokal-Übergänge. Wie früher erwähnt ist, wird der Übergang als hauptsächlich durch den ersten Konsonanten und den nächsten folgenden Vokal charakterisiert betrachtet; folglich wird der Übergang von /f/ zu /l/ (in Fig. 6) als die Mundform für die Konsonant-Vokal-Kombination von /f/ zu /u/ dargestellt. Der Übergang von /n/ zu /s/ besitzt keinen folgenden Vokal, wobei deshalb die verwendete Mundform diejenige ist, die der Vokal-Konsonant-Kombination von /@/ zu /s/ entspricht - d. h., der Verwendung des vorhergehenden Vokals. Die vorhergehenden und folgenden Stilleperioden /#:/ werden selbstverständlich durch ein Gesicht mit geschlossenem Mund dargestellt - d. h. mit dem Referenz-Drahtrahmenmodell.
Zu den Zeitpunkten, die in Fig. 6 mit den Strichen markiert sind (oder statt dessen in der zu diesen Zeitpunkten nächsten 40-ms- Periode) sendet die Umsetzungseinheit 4 an die Bildsyntheseeinheit 5 einen Befehl, der die Aktionseinheit und den Skalierungsfaktor spezifiziert, die für den fraglichen Mund geeignet sind. In den 40-ms- Intervallen zwischen diesen Zeitpunkten ist es notwendig, einen Befehl zu senden, der die Mundform zwischen den zwei Mundformen spezifiziert. Zwischen dem mit {f markierten Zeitpunkt und dem mit fu markierten Zeitpunkt sendet sie z. B. einen Befehl, der die zwei Aktionseinheiten spezifiziert, die der Vokal-Konsonant-Kombination von /{/ zu /f/ bzw. der Konsonant-Vokal-Kombination von /f/ zu /u/ entspricht, obgleich mit verringerten Skalierungsfaktoren, um einen glatten Übergang zwischen den zwei Formen zu erreichen. Folglich würde an einem Punkt x% des Weges zwischen den zwei Zeitpunkten an die Aktionseinheit für die Kombination von /{/ zu /f/ein Skalierungsfaktor des (1 - x/100)-fachen ihres Skalierungsfaktors am {f-Punkt gesendet, wobei damit zusammen an die Aktionseinheit für die Kombination von /f/ zu /u/ ein Skalierungsfaktor von x/100- fachen ihres Skalierungsfaktors am fu-Punkt gesendet wird. Fig. 7 zeigt diesen Prozeß graphisch. Es ist ersichtlich, daß für die Zwecke des Erzeugens von Zwischenbefehlssignalen die dem Stillephonem zugeordnete Mundform durch die folgende Mundform nicht beeinflußt wird, bevor die Mitte des Stillephonems erreicht ist.
Aus den 11 Gruppen der obigen Tabelle 2 gibt es 7 Konsonantengruppen, drei Vokalgruppen und eine sogenannte "Beides"-Gruppe. Die "Beides"-Gruppe enthält sowohl Vokalphoneme als auch Konsonantenphoneme. Folglich können, wenn die Übergänge, die Stille enthalten, ignoriert werden, alle erforderlichen Vokale und Vokal- Konsonant- und Konsonant-Vokal-Kombinationen durch die Vokalgruppen und die Vokalgruppen-Konsonantengruppen- und Konsonantengruppen-Vokalgruppen-Kombinationen dargestellt werden, die in der Tabelle 3 im folgenden gezeigt sind:

Tabelle 3

Vokale 4
Konsonantengruppe-Vokalgruppe-Kombinationen 21
Vokalgruppe-Konsonantengruppe-Kombinationen 21
Kombinationen aus der Beide-Gruppe und anderen Gruppen 10
Kombinationen aus anderen Gruppen und der Beide-Gruppe 10
Kombinationen aus der Beide-Gruppe und der Beide-Gruppe 2
gesamt 68
Einige dieser 68 Vokalgruppen und Gruppenkombinationen entsprechen völlig gleichen Mundformen; außerdem sind einige Mundformen zu anderen ähnlich, wobei sie sich hauptsächlich in den Proportionen unterscheiden - d. h., sie können durch die gleiche Aktionseinheit aber mit einem anderen Skalierungsfaktor erzeugt werden. Während der Bestimmung der Aktionseinheiten (die im folgenden beschrieben ist) wurde festgestellt, daß diese 68 Vokalgruppen und Gruppenkombinationen durch elf Aktionseinheiten und einen geeigneten Skalierungsfaktor dargestellt werden könnten. Die Tabelle 4 legt diese mit einer Beschreibung der Aktionseinheit, einer Anmerkung des Merkmals, das mit dem Skalierungsfaktor zunimmt, und einer Liste der Vokalgruppen und Gruppenkombinationen, die durch diese Aktionseinheit dargestellt werden können, dar. Die bei der Erzeugung der entsprechenden Mundformen, die den gegebenen Vokalgruppen und Gruppenkombinationen entsprechen, zu verwendenden Skalierungsfaktoren sind außerdem gezeigt.
Es wird von den Fachleuten auf dem Gebiet erkannt werden, daß eine große Anzahl von Aktionseinheiten definiert werden könnte, wobei die Vokalgruppen und die Gruppenkombinationen unter diesen Aktionseinheiten feiner aufgeteilt sind. Tabelle 4
Die Umsetzungseinheit 4 kann mittels einer geeignet programmierten Verarbeitungseinheit implementiert sein, wobei sie folglich in Fig. 8 als einen Prozessor 10, einen Programmspeicher 11 und eine Anzahl von Speichern, die Nachschlagetabellen enthalten, gezeigt ist. Spezieller umfassen diese eine Diphthongtabelle 12, eine Phonemgruppentabelle 13 und eine Aktionseinheitstabelle 14. Diese sind für die Klarheit getrennt gezeigt, selbstverständlich könnte in der Praxis ein einzelner Speicher das Programm und die Nachschlagetabellen enthalten. Der Betrieb des im Speicher 11 gespeicherten Programms wird nun unter Bezugnahme auf die in den Fig. 9 bis 13 gezeigten Ablaufpläne ausführlicher beschrieben.
Der Ablaufplan nach Fig. 9 veranschaulicht einfach den Betrieb der Vorrichtung als Ganzes, wobei er den Kontext setzt, innerhalb dessen der in den Fig. 10 bis 13 dargestellte Algorithmus auftritt. Der Algorithmus ist im Programmspeicher 11 gespeichert, wobei er ausführbar ist, um eine Aktionseinheitendatei (die die Aktionseinheiten und die Skalierungsfaktoren enthält) zu erzeugen, die die Grundlage für die Befehlssignale bildet, die zur Bildsyntheseeinheit 5 zu senden sind. Folglich wird nach der Initialisierung im Schritt 100 eine Textnachricht von der Text-Phonetik-Einheit 2 der Sprachsynthetisiereinrichtung empfangen 102, die bei 104 eine Phonemdatei erzeugt. Wenn der Empfang dieser Datei durch die Umsetzungseinheit 4 erkannt wird (Schritt 106), findet die Umsetzung der Phonemliste in eine (bei 110 erzeugte) Aktionseinheitsdatei statt (Schritt 108). Dies bildet die Grundlage für die Befehlssignale, die zur Bildsyntheseeinheit 5 übertragen werden (Schritt 112), während die Phonemdatei zur Synthetisiereinrichtung 3 gesendet wird. Falls gewünscht, können während Stille (Schritt 114) oder während Sprache (Schritt 116) zusätzliche Aktionseinheiten erzeugt werden, um eine zufällige (oder andere) Kopfbewegung zu erzeugen.
Die Operation des Schrittes 108 beginnt mit der Ausdehnung der Diphthonge und Affrikaten unter Verwendung der Programmschritte, die durch den in Fig. 10 gezeigten Ablaufplan veranschaulicht sind. Das Programm liest (Schritt 120) wiederum jedes Element der Phonemdatei und bestimmt (Schritt 122), ob dieses Phonem durch zwei Zeichen dargestellt ist. Falls es das ist, veranlaßt das Programm den Prozessor (Schritt 124), das Element in seine konstituierenden Zeichen zu teilen, wobei es das Element durch die zwei durch diese Zeichen dargestellten Phoneme ersetzt. Die Dauer von jedem wird auf die Hälfte der Dauer des Diphthong- oder Affrikata-Phonems gesetzt, das aufgespalten worden ist. Eine Variable (noofphonemes), die die Anzahl der Phoneme in der ausgegebenen Liste der Phoneme mißt, wird dann um eins inkrementiert (Schritt 126). Ansonsten wird das Element zur Phonemliste hinzugefügt (Schritt 128).
Es ist zu sehen, wie die veranschaulichten Programmschritte ausführbar sind, um die Diphthonge, wie z. B. /aI/, /aU/ und /eI/, mit der Hilfe der Diphthongtabelle 12 in die Phonempaare /{/ + /I/, /{/ + /U/ bzw. /E/ + /I/ umzusetzen. Ähnlich ist das Programm ausführbar, um die Affrikaten /dZ/ und /tS/ in zwei Phoneme aufzuteilen.
Diesem folgt die elementweise Untersuchung der durch den in Fig. 10 veranschaulichten Prozeß erzeugten Phonemliste (Fig. 11A-11D). Für jedes Element nach dem anfänglichen Stillephonem wird in einer Zwischenausgabedatei eine Phonemkombination oder ein Vokal und ein zugeordnetes Zeitintervall aufgezeichnet. Folglich identifiziert jeder Eintrag die Phonemkombination oder den Vokal zusammen mit einem Zeitintervall, das zwischen dem vorhergehenden Zeitpunkt der Mundform und dem aktuellen Zeitpunkt der Mundform zu erzeugen ist (d. h., das Zeitintervall entspricht den Entfernungen zwischen den Streifen in Fig. 6). Falls im folgenden nicht anders angegeben ist, kehrt das Programm nach jedem Eintrag zu einem Entscheidungsschritt 180 zurück, um zu bestimmen, ob das letzte Element der Phonemliste erreicht worden ist. Wenn es erreicht worden ist, dann endet die Untersuchung der Phonemliste. Falls es nicht erreicht worden ist, kehrt das Programm zu einem Klassifizierungsschritt 130 für das aktuelle Element zurück.
Um die Phonemliste zu untersuchen, wird zuerst für jedes Element bestimmt, ob das Element ein Vokal, ein Konsonant oder Stille ist (Fig. 11A - Schritt 130).
Wenn im Klassifizierungsschritt 130 für das aktuelle Element ein Vokal festgestellt wird, werden die Schritte ausgeführt, die in Fig. 11B veranschaulicht sind. Zuerst wird festgestellt, ob das vorhergehende Phonem in der Phonemliste Stille, ein Konsonant oder ein Vokal ist (Schritt 140). Wenn das vorhergehende Phonem ein Stillephonem ist, dann wird das Zeitintervall vor der Vokalmundform auf die Summe aus der Hälfte der Vokaldauer und der Hälfte der Stilledauer gesetzt (Schritt 141). Dann wird der Stille-Vokal-Übergang zusammen mit dem berechneten Zeitintervall in die Zwischenausgabedatei eingegeben (Schritt 142). Wenn das vorhergehende Phonem ein Vokalphonem ist, dann wird das Zeitintervall zwischen den Vokalmundformen auf die Summe aus der Hälfte der Dauer des aktuellen Vokals und der Hälfte der Dauer des vorhergehenden Vokals gesetzt (Schritt 143). Abermals werden dann der Vokal selbst (z. B. /@/) und das zugeordnete Zeitintervall in die Zwischenausgabedatei eingegeben (Schritt 144). Wenn das vorhergehende Phonem ein Konsonantenphonem ist, dann wird bestimmt, ob das Phonem vor dem vorhergehenden Phonem Stille ist (Schritt 145). Wenn es Stille ist, dann wird das Zeitintervall von der vorhergehenden Mundform auf die Hälfte der Dauer des aktuellen Vokals gesetzt (Schritt 146), wobei der Vokal zusammen mit dem berechneten Zeitintervall in die Zwischenausgabedatei eingegeben wird (Schritt 147). Wenn es keine Stille ist, dann wird das Zeitintervall von der vorhergehenden Mundform auf die Dauer des Konsonanten gesetzt (Schritt 148), wobei die Vokal-Konsonant-Kombination (z. B. /I/ zu /u/) und das zugeordnete Zeitintervall in die Zwischenausgabedatei eingegeben werden (Schritt 149). An diesem Punkt kehrt das Programm nicht zum Entscheidungsschritt 180 zurück, sondern es veranlaßt, daß ein weiterer Eintrag in der Übergangsdatei vorgenommen wird (Schritt 146, 147), wobei der Eintrag ein Zeitintervall enthält, das gleich der Hälfte der Dauer des aktuellen Vokals und des Vokals selbst ist (z. B. /u/).
Eine Wirkung der Schritte nach Fig. 11B besteht darin, zu sichern, daß die Mundform, die dem aktuellen Vokal entspricht, mit der Mitte des Vokalphonems zusammenfällt.
Wenn im Klassifizierungsschritt für das aktuelle Phonem Stille festgestellt wird (Schritt 130), dann werden die Schritte nach Fig. 11C ausgeführt. Es wird zuerst festgestellt, ob das vorhergehende Phonem in der Phonemliste Stille, ein Konsonant oder ein Vokal ist (Schritt 150). Wenn das vorhergehende Phonem Stille ist, dann wird ein Fehler angezeigt (Schritt 151). Wenn der Stille ein Vokal vorhergeht, dann wird ein Zeitintervall von der vorhergehenden Mundform auf die Summe aus der Hälfte der Vokaldauer und der Hälfte der Stilledauer gesetzt (Schritt 152), wobei der Vokal-Stille-Übergang zusammen mit dem Zeitintervall in der Zwischenausgabedatei aufgezeichnet wird (Schritt 153). Wenn das vorhergehende Phonem ein Konsonant ist, dann wird das Zeitintervall von der letzten Mundform auf die Summe der Dauer des Konsonanten und der Hälfte der Dauer der aktuellen Stille gesetzt (Schritt 154). In diesem Fall werden der Übergang von der Vokal-Konsonant-Kombination zum Vokal (z. B. /@s/ zu /#:/) und das zugeordnete Zeitintervall in die Zwischenausgabedatei eingegeben (Schritt 155).
Falls im Schritt 130 ein Konsonant festgestellt wird, werden die in Fig. 11D veranschaulichten Schritte ausgeführt. Zuerst wird das vorhergehende Phonem als ein Vokal, Stille oder ein Konsonant klassifiziert (Schritt 160). Wenn es ein Vokal ist, dann wird das Zeitintervall auf die Hälfte der Dauer des Vokals gesetzt (Schritt 161), wobei die Vokal-Konsonant-Kombination (z. B. /{/ zu /f/) zusammen mit dem Zeitintervall in der Zwischenausgabedatei aufgezeichnet wird (Schritt 162). Wenn das vorhergehende Phonem ein Konsonant ist, dann sucht das Programm vorwärts durch die Phonemliste nach einem Vokalphonem (Schritt 163). Falls eines gefunden wird, werden die Konsonant-Vokal-Kombination (des vorhergehenden Konsonanten und des späteren Vokals) (z. B. /f/ zu /u/) und das zugeordnete Zeitintervall (das gleich der Dauer des vorhergehenden Konsonanten ist) in die Zwischenausgabedatei eingegeben (Schritt 164, 165). Wenn bei der Vorwärtssuche kein Vokal gefunden wird (Schritt 163), dann veranlaßt das Programm den Prozessor, rückwärts nach einem Vokal zu suchen (Schritt 166). Wenn diese Suche erfolgreich ist, dann wird die Vokal-Konsonant-Kombination (aus dem früheren Vokal und dem aktuellen Konsonanten - z. B. /@/ zu /s/) zusammen mit einem zugeordneten Zeitintervall (das gleich der Dauer des vorhergehenden Konsonanten ist) aufgezeichnet (Schritte 167, 168). Wenn weder eine Vorwärtssuche noch eine Rückwärtssuche einen Vokal findet, ergibt sich eine Fehleranzeige (Schritt 169). Wenn festgestellt wird, daß das Phonem, das dem aktuellen Konsonanten unmittelbar vorhergeht, Stille ist, dann wird eine Vorwärtssuche nach einem Vokal ausgeführt (Schritt 170); falls ein Vokal gefunden wird, wird ein Zeitintervall, das gleich der Summe der Dauer des aktuellen Konsonanten und der Hälfte der Dauer der vorhergehenden Stille ist, zusammen mit einem Übergang von der Stille zur Konsonant-Vokal-Kombination in der Zwischenausgabedatei aufgezeichnet (Schritte 171, 172). Wenn in dem Wort kein Vokal gefunden wird, dann wird ein Fehler angezeigt (Schritt 173).
In Fig. 12 werden die Vokale und Phonemkombinationen in der Zwischenausgabedatei in Vokalgruppen und Phonemgruppenkombinationen umgesetzt, indem auf die Nachschlagetabelle 13 zugegriffen wird. Im Prinzip könnten deren Inhalte sein, wie oben in Tabelle 2 dargelegt ist, so daß jeder Vokal oder jede Phonemkombination in eine Gruppennummer umgesetzt wird. Es ist jedoch festgestellt worden, daß es zweckmäßiger ist, jede Gruppe nicht durch eine Gruppennummer sondern durch ein bezeichnetes Phonem der Gruppe darzustellen; z. B. werden die Phoneme /p/, /b/ und /m/alle in /p/ umgesetzt. Um dies zu erreichen, wird der Prozessor durch das Programm gesteuert, das in Fig. 12 veranschaulicht ist. Für jedes Element in der Zwischenausgabedatei wird der Typ des Elements bestimmt (Schritt 190), der entweder: ein Vokal (die Schritte 192 werden ausgeführt); eine Vokal/Konsonant-Kombination (die Schritte 194 werden ausgeführt); ein Vokal/ Stille-Übergang (die Schritte 196 werden ausgeführt); oder ein Kombination-Stille-Übergang (die Schritte 198 werden ausgeführt) ist. Die Schritte (192, 194, 196, 198) sind effektiv, um jeden der konstituierenden Vokale oder Konsonanten in einen Vokal oder Konsonanten umzusetzen, der gewählt wurde, um die Gruppe zu repräsentieren. Diese Prozedur schickt eine Gruppe/Gruppe-Kombinationsliste zurück, die nun maximal 68 verschiedene Vokalgruppen und Phonemgruppen-Kombinationen enthält, wie oben erörtert ist.
In den Fig. 13A und 13B wird die resultierende Gruppenliste unter Verwendung der Aktionseinheit-Nachschlagetabelle 14 (deren Inhalte so sind, wie in den Spalten 3, 1 und 4 der obigen Tabelle 3 dargelegt ist - oder mit repräsentativen Phonemen in der Spalte 3, falls dies die bevorzugte Option ist), um die Aktionseinheit festzustellen, die jedes Element in der Gruppe/Gruppe-Kombinationsliste repräsentiert, in eine Aktionseinheitsdatei umgesetzt. Die Aktionseinheitsdatei kann dann verwendet werden, um eine Folge von Befehlssignalen zu schaffen, die in 40-ms-Intervallen erzeugt werden.
Ausführlicher beginnt die Umsetzungsprozedur mit dem Abrufen des ersten Elements aus der Gruppenliste (Schritt 200), wonach auf die Aktionseinheit-Nachschlagetabelle zugegriffen wird, um die Aktionseinheit und den Skalierungsfaktor zu bestimmen, die diesem Element zugeordnet sind (Schritt 201). Dann wird die Anzahl der ganzen 40-ms-Perioden innerhalb des dem ersten Element zugeordneten Zeitintervalls berechnet (Schritt 202). Der Skalierungsfaktor der anfänglichen Aktionseinheit wird dann durch die Anzahl der Perioden geteilt, um einen Inkrementwert anzugeben (Schritt 203). Die Prozedur tritt dann in eine Befehlsschleife ein (Schritt 204), die für jede 40-ms-Periode ein Befehlssignal erzeugt. Der Skalierungsfaktor im Befehlssignal wird jedesmal, wenn die Befehlsschleife ausgeführt wird, (von null) um das berechnete Inkrement vergrößert.
Dann wird das nächste Element in der Gruppenliste abgerufen (Fig. 13B - Schritt 205), wobei unter Verwendung der Aktionseinheit- Nachschlagetabelle 14 die entsprechende Aktionseinheit und der entsprechende Skalierungsfaktor festgestellt werden (Schritt 206). Wie im Schritt 202 wird dann die Anzahl der ganzen 40-ms-Perioden innerhalb des diesem Element der Gruppenliste zugeordneten Zeitintervalls festgestellt (Schritt 207). Wie vorher wird der Skalierungsfaktor der dem aktuellen Element zugeordneten Aktionseinheit durch die Anzahl der berechneten Perioden geteilt, um einen Inkrementwert anzugeben (Schritt 208). Der Skalierungsfaktor des vorhergehenden Elements in der Gruppenliste wird durch die gleiche Zahl geteilt, um einen Dekrementwert anzugeben (Schritt 209). Die Prozedur tritt dann in eine Befehlsschleife ein, um die auszugebenden Befehlssignale zu berechnen. Diese umfassen eine gewichtete Kombination der in Bezug auf das vorhergehende Element erzeugten Aktionseinheit und der dem aktuellen Element in der Gruppenliste zugeordneten Aktionseinheit. Das der vorhergehenden Aktionseinheit gegebene Gewicht wird verringert, indem der Skalierungsfaktor um den Dekrementwert für jede 40-ms-Periode verringert wird, wohingegen das der aktuellen Aktionseinheit gegebene Gewicht vergrößert wird, indem der Skalierungsfaktor (von null) für jede 40-ms-Periode um den Inkrementwert vergrößert wird. In dieser Weise schaffen die ausgegebenen Befehlssignale einen gestuften Übergang von einer Mundform zur nächsten.
Dann werden auf jedes nachfolgende Element in der Gruppenliste ähnliche Operationen angewendet (Schritte 206 bis 210), bis ein Abbruchelement erreicht wird.
Die Befehlssignale werden auf der Grundlage der Aktionseinheitsdatei erzeugt und in 40-ms-Intervallen zur Bildsyntheseeinheit 5 übertragen, um die Erzeugung eines Bildes eines Kopfes zu ermöglichen, der eine Artikulation aufweist, die der Ausgabe der Text-Sprache- Synthetisiereinrichtung entspricht.
Es wird aus der obigen Erörterung angemerkt, daß das Visem oder die Mundform, das bzw. die für einen Vokal gewählt wird, ein Visem oder eine Mundform ist, das bzw. die diesem Vokal im voraus zugeordnet ist, daß die für eine Vokal-Konsonant-Kombinationen (oder umgekehrt) gewählte Mundform eine Mundform ist, die dieser Kombination im voraus zugeordnet ist, und daß die für einen Konsonant- Konsonant-Übergang gewählte Mundform eine Mundform ist, die im voraus dem ersten der Konsonanten im gleichen Kontext zugeordnet ist - d. h. in diesem Beispiel, das dem gleichen folgenden (oder bei Abwesenheit vorhergehenden) Vokal besitzt. Falls gewünscht - obgleich mit der Strafe der Vergrößerung der Anzahl der erforderlichen Aktionseinheiten - kann die Auswahl der Mundformen kontextabhängiger ausgeführt werden. Es könnte z. B. für einen Konsonant-Vokal-Übergang eine Mundform gewählt werden, wobei die Auswahl nicht nur von dem Konsonanten und dem folgenden Vokal, sondern außerdem vom vorhergehenden Vokal (d. h. der Konsonant-Vokal-Konsonant-Kombination) abhängig ist. Die Wahl für einen Konsonant-Konsonant-Übergang könnte getroffen werden, damit sie vom ersten Konsonanten und sowohl von den folgenden als auch den vorhergehenden Vokalen (falls sie vorhanden sind) oder in der Tat von den zwei Konsonanten und den zwei Vokalen abhängt.
Es ist bis jetzt wenig darüber ausgesagt worden, wie die in der Bildsyntheseeinheit 5 gespeicherten Aktionseinheiten erzeugt werden. Dies wurde im Prototyp erreicht, indem von einer Person, die die Wörter spricht, die alle erforderlichen 68 Vokalgruppen und Vokalgruppe/Konsonantgruppe-Kombinationen enthält, eine Videoaufzeichnung angefertigt wurde, und indem eine Bildfangschaltung verwendet wurde, um Standbilder der Aufzeichnung anzuzeigen, so daß diejenigen Bilder, die den Vokalen entsprechen, und diejenigen Bilder, die den Konsonant/Vokal-Kombinationen entsprechen, manuell identifiziert werden konnten. Sobald diese Bilder (in Pixelmusterform) identifiziert worden waren, war es dann notwendig, die Verschiebungen vom Referenz-Drahtrahmenmodell zu bestimmen, die diese Bilder repräsentierten. Dies wurde unter Verwendung eines Anpassungsprogramms ausgeführt, das die erforderliche Deformation eines Drahtrahmenmodells berechnet, um ein gegebenes Pixelmusterbild anzupassen.

Claims

1. Verfahren zum Erzeugen von Signalen, die ein bewegtes Bild eines Gesichts darstellen, das eine einer Sprachäußerung entsprechende sichtbare Artikulation aufweist, wobei das Verfahren umfaßt:

Empfangen einer Folge phonetischer Darstellungen, die aufeinanderfolgenden Abschnitten der Äußerung entsprechen, wobei die Darstellungen eine erste Menge von Darstellungen, die Abschnitte einer ersten phonetischen Art darstellen, sowie eine zweite Menge von Darstellungen, die Abschnitte einer zweiten phonetischen Art darstellen, umfassen;

Identifizieren einer Folge von Maximalmundformen in Übereinstimmung mit der Folge von Darstellungen;

Erzeugen (108) eines Maximalmundform-Befehls, der für jede identifizierte Maximalmundform diese Form spezifiziert;

Erzeugen (201) von Zwischenbefehlen, wovon jeder eine Zwischenform spezifiziert, die zwischen den durch die vorhergehenden und folgenden Maximalmundform-Befehle spezifizierten Maximalmundformen liegen; und

Erzeugen einer Folge von Bildern, die die identifizierten Formen enthalten;

wobei das Verfahren dadurch gekennzeichnet ist, daß die Identifizierung einer Folge von Maximalmundformen umfaßt:

Identifizieren (144) einer Maximalmundform für jede Darstellung in der ersten Menge; und

Identifizieren einer Maximalmundform für jeden Übergang von einer phonetischen Darstellung in der ersten Menge zu einer phonetischen Darstellung in der zweiten Menge (162), für jeden Übergang von einer phonetischen Darstellung in der zweiten Menge zu einer phonetischen Darstellung in der ersten Menge (149) und für jeden Übergang von einer phonetischen Darstellung in der zweiten Menge zu einer phonetischen Darstellung in der zweiten Menge (165, 168).

2. Verfahren nach Anspruch 1, bei dem die Darstellungen Phoneme darstellen, wobei die erste Menge von Darstellungen Vokale darstellt und die zweite Menge von Darstellungen Konsonanten darstellt.

3. Verfahren nach Anspruch 2, bei dem die Identifizierung (149, 162) einer Maximalmundform für jeden Übergang zwischen Konsonanten- und Vokalphonemen in Abhängigkeit von dem Vokalphonem und dem Konsonantenphonem ausgeführt wird.

4. Verfahren nach Anspruch 2 oder 3, bei dem die Identifizierung (165, 168) einer Maximalmundform für jeden Übergang zwischen zwei Konsonantenphonemen in Abhängigkeit von dem ersten der beiden Konsonantenphoneme und von dem Vokalphonem, der ihm am nächsten folgt oder vorhergeht, ausgeführt wird.

5. Verfahren nach Anspruch 2 oder 3, bei dem die Identifizierung (165, 168) einer Maximalmundform für jeden Übergang zwischen zwei Konsonantenphonemen in Abhängigkeit von dem ersten der beiden Konsonantenphoneme und von dem Vokalphonem, der ihm am nächsten folgt oder, falls ein solcher nicht vorhanden ist, der ihm vorhergeht, ausgeführt wird.

6. Verfahren nach Anspruch 3, 4 oder 5, bei dem die Identifizierung in Abhängigkeit nur von jenen Phonemen, die in diesem Anspruch spezifiziert sind, ausgeführt wird.

7. Verfahren nach Anspruch 3, 4 oder 5, bei dem die Identifizierung außerdem in Abhängigkeit von wenigstens einem weiteren Phonem innerhalb desselben Wortes ausgeführt wird.

8. Vorrichtung zum Erzeugen von Signalen, die ein bewegtes Bild eines Gesichts darstellen, das eine einer Sprachäußerung entsprechende sichtbare Artikulation aufweist, mit:

Mitteln, die so beschaffen sind, daß sie im Betrieb eine Folge phonetischer Darstellungen empfangen, wobei die Darstellungen eine erste Menge von Darstellungen, die Abschnitte einer ersten phonetischen Art darstellen, und eine zweite Menge von Darstellungen, die Abschnitte einer zweiten phonetischen Art darstellen, umfassen, wobei die Darstellungen aufeinanderfolgenden Abschnitten der Äußerung entsprechen, und als Antwort auf den Empfang dieser Folge

eine Folge von Maximalmundformen in Übereinstimmung mit der Folge phonetischer Darstellungen identifizieren;

für jede identifizierte Maximalmundform einen diese Form spezifizierenden Maximalmundform-Befehl erzeugen (108);

Zwischenbefehle erzeugen, wovon jeder eine Zwischenform zwischen den Maximalmundformen, die durch die vorhergehenden und folgenden Maximalmundform-Befehlen spezifiziert sind, spezifiziert; und

eine Folge von die identifizierten Formen enthaltenden Bildern erzeugen;

wobei die Vorrichtung dadurch gekennzeichnet ist, daß die Mittel ferner so beschaffen sind, daß sie im Betrieb die Folge von Maximalmundformen identifizieren, indem sie:

eine Maximalmundform für jede phonetische Darstellung in der ersten Menge identifizieren (144); und

für jeden Übergang von einer phonetischen Darstellung in der ersten Menge zu einer phonetischen Darstellung in der zweiten Menge (162), für jeden Übergang von einer phonetischen Darstellung in der zweiten Menge zu einer phonetischen Darstellung in der ersten Menge (149) und für jeden Übergang von einer phonetischen Darstellung in der zweiten Menge zu einer phonetischen Darstellung in der zweiten Menge (165, 168) eine Maximalmundform identifizieren.