-
TECHNISCHES
GEBIET
-
Die vorliegende Erfindung betrifft
die Reproduktion von Sprache und zur Sprache gehörende Gesichtsbewegungen einer
sprechenden Person. Die Erfindung soll in Zusammenhängen verwendet
werden, wo die Gesichtsbewegung einer Person zugleich mit dem erzeugten
Ton reproduziert werden sollen.
-
TECHNISCHES
PROBLEM
-
Bei der Sprachsynthese besteht die
Notwendigkeit, die Sprache mit den Gesichtsbewegungen einer sprechenden
Person zu synchronisieren. In der Patentanmeldung Nummer 9504367-5,
die EP-A-778560 entspricht, ist beschrieben, wie Bewegungsmuster
in einem Gesicht aufgezeichnet und zusammen mit einer Polyphonsammlung
(Tönen)
bei Verkettungssynthese, beruhend auf Halbsilben, gespeichert werden.
Das Aufzeichnen der Bewegungsmuster der Halbsilben des Subjekts
(der Person) beeinflusst danach Punkte in einem Polygonmodell des Gesichts.
Eine anderer Struktur, das heisst ein anderes Gesicht kann oben
auf das Polygonmodell angewendet werden, wodurch man Lippen- und
Gesichtsbewegungen von der Polyphonsynthese erhält.
-
Die britische Patentanmeldung GB-A-2231246
offenbart die Steuerung des Wertes eines Mundform-Parameters für jedes
Bild des bewegten Bildes in Übereinstimmung
mit der Dauer eines Phonems, wodurch ein bewegtes Gesichtsbild synthetisiert
wird, das Mundformveränderungen
hat, die mit der Sprachausgabe übereinstimmen.
-
Bei dem beschriebenen Modell ist
es erforderlich, dass Stimmen von Männern, Frauen und Kindern getrennt
aufgezeichnet werden. Solche Prozeduren sind teuer und umständlich.
-
DIE LÖSUNG
-
Die Erfindung ist im beigefügten Anspruch
1 ausgeführt.
Sie bezieht sich auf eine Verfahren bei Sprachsynthese für die Reproduktion
von Gesichtsbewegungen einer Person, der Sprache über Sprachsynthese
zugeordnet worden ist. Die Sprache wird aus Polyphonen zusammengesetzt,
die von einer Datenbasis geholt werden. Es wird weiter Datenbank
eingerichtet, die Polyphone mit den zu den Polyphonen gehörenden Bewegungsmustern
im Gesicht einer ersten Person enthält. Polyphone von einer zweiten
Person werden weiter in einer Datenbasis registriert und gespeichert.
Die Tonsegmente in entsprechenden Polyphonen in der Datenbank und der
Datenbasis werden verglichen, und die Gesichtsbewegungen der Datenbank
werden in Übereinstimmung
mit der Abweichung abgewandelt. Die abgewandelten Bewegungsmuster
werden in der Datenbasis gespeichert und zu dem betreffenden Polyphon in
Bezug gesetzt. Die aufgezeichneten Polyphone werden danach dafür verwendet,
um Worte und Sätze
zusammenzusetzen, während
gleichzeitig entsprechende Bewegungsmuster von einem Gesichtsmodell
von den Bewegungsmustern in der Datenbasis aufgebaut werden.
-
Sprache von einem Subjekt (einer
Person) wird gleichzeitig aufgezeigt, wie das Bewegungsmuster des
Subjekts registriert wird. Die aufgezeichnete Sprache besteht vorzugsweise
aus Unsinnworten, von denen Polyphone, Halbsilben aussortiert werden.
Die registrierten Polyphone werden in einer Polyphonbank gespeichert.
Zu jedem Polyphon werden weiter in einer Bewegungsbank die Gesichtsbewegungen
des Subjekts gespeichert. Für
eine zweite Person werden Polyphone in entsprechender Weise in einer
Polyphonbasis gespeichert. Die Bewegungen der zweiten Person werden
jedoch nicht registriert. Ein Vergleich zwischen den Tonsegmenten
in entsprechenden Polyphonen wird danach zwischen der Polyphonbasis
und der Polyphonbank durchgeführt.
Die registrierten Unterschiede werden danach verwendet, um das gegenwärtige Bewegungsmuster in
der Bewegungsbank zu modifizieren, wobei ein Modell mit einem Bewegungsmuster
erhalten wird, das der Aussprache der Polyphone des zweiten Sprechers
entspricht. Das abgewandelte Bewegungsmuster wird in einer Bewegungsbasis
gespeichert. Beim Zusammensetzen von Polyphonen von der Polyphonbasis
wird die Bewegungsbasis danach verwendet, ein Gesichtsmodell zu
schaffen, dessen Bewegungen der Art und Weise entsprechen, wie die Person
spricht. Das geschaffene Modell besteht aus einem Polygonmodell,
das auf dem Bewegungsmuster vom Bewegungsmuster des ersten Objekts
beruht. Um eine Ansicht davon zu schaffen, wie die zweite Person
spricht, wird ein Bild des Sprechers auf das Modell angewandt. Das
Polygonmodell wird daher abgewandelt, um an die zweite Person angepasst
zu werden. Das Bild, das auf das Modell angewendet wird, besteht
aus Standbildern oder Bewegungsbildern, die in der Datenbasis gespeichert
worden sind oder über
zum Beispiel das Telekommunikationsnetz übertragen worden sind. Auf
diese Weise wird ein dreidimensionales Bild geschaffen.
-
Die registrierten Bewegungen im ersten
Gesicht bestehen aus Punkten, die in einem dreidimensionalen Gesichtsmodell
angeordnet worden sind. Das Gesichtsmodell besteht aus einer Anzahl
von Polygonen, die durch Punkte zusammengesetzt sind. Die Punkte
bestehen aus Messpunkten im Gesicht eines Subjekts, welche Punkte
während
des Aufzeichnens von Tönen/Polyphonen
registriert werden. Das Registrieren der Punkte im Gesicht des Subjekts wird
vorzugsweise durch Markieren ausgewählter Punkte im Gesicht des
Subjekts durchgeführt.
Die Punkte werden danach mit Hilfe von zum Beispiel Lasertechnik
registriert, und eine Bank über
Töne und Bewegungsmuster
wird geschaffen.
-
Das Anwendungsgebiet der Erfindung
ist in allen Fällen,
wo der Reproduktion von Ton/Sprache ein naturgetreues Bewegungsmuster
des Gesichts einer sprechenden Person gegeben werden soll. Es kann
sich zum Beispiel auf eine Person beziehen, die eine erste Sprache
spricht, die jedoch mit Hilfe von Sprachsynthese so dargestellt
wird, dass sie eine zweite Sprache spricht. Solche Bedingungen sollten in
Zukunft mit Telefonie verknüpft
werden, wo das Telekommunikationssystem oder Ausrüstungen
der telefonierenden Personen die Sprache übersetzen und die sprechenden
Personen im Bild darstellen. Das Anwendungsgebiet der Erfindung
ist jedoch nicht nur Telefonie, sondern alle Zusammenhänge, wo
eine erste Sprache, die durch eine Person erzeugt wird in eine zweite
Sprache mit naturgetreuen Gesichtsbewegungen übersetzt werden soll und reproduziert werden
soll.
-
VORTEILE
-
Die angedeutete Erfindung ermöglicht es, dass
ein billigeres Verfahren bei der Animation von Sprache mit einem
dazugehörenden
Gesicht angewendet werden kann. Dies wird zum Beispiel bei der Übersetzung
der Sprache einer sprechenden Person bei der Übersetzung von einer ersten
Sprache in eine zweite Sprache verwendet. Beim Aufzeichnen ist nur ein
Subjekt erforderlich, dass für
die Erzeugung der Grundbewegungen im Gesicht verwendet wird. Die Person/Personen,
die das Bewegungsmuster von dem Subjekt ausleihen sollen, brauchen
nur eine Anzahl von Tonsequenzen aufzuzeichnen, von denen Polyphone
extrahiert werden können.
Indem Polyphone und dazugehörende
Gesichtsbewegungen einer geeigneten Auswahl von Personen registriert werden,
kann eine Bank erzeugt werden, die in unterschiedlichen Situationen
für Animation
unterschiedlicher Gesichter verwendet werden kann. Die registrierten
Gesichter können
sich zum Beispiel auf unterschiedliche Personen unterschiedlichen
Alters und unterschiedlichen Geschlechtes beziehen.
-
BESCHREIBUNG
DER FIGUREN
-
1 zeigt,
wie die Gesichtsbewegungen registriert werden;
-
2 zeigt,
wie ein Polygonmodell aufgebaut wird.
-
BEVORZUGTE
AUSFÜHRUNGSFORMEN
-
Im Folgenden wird die Erfindung aufgrund der
Figuren und der darin verwendeten Begriffe beschrieben.
-
Das Registrieren von Tönen mit
dazugehörende
Bewegungsmustern des Gesichtes eines Subjekts wird unter Verwendung
von zum Beispiel Unsinnworten oder von laufendem Text durchgeführt. Die
Verwendung von Unsinnworten hat Vorteile, indem das Subjekt sowohl
bei der Erzeugung von Worten als auch von Gesichtsausdrücken eine
neutrale Stellung einnimmt. Die Unsinnsworte bestehen im Prinzip
aus einsilbigen Worten, die in Halbsilben aufgeteilt sind. Die Halbsilben
werden zu Worten und Sätzen
verbunden. Das Verbinden von zwei Halbsilben wird in der Mitte des
Vokals für
entsprechende Halbsilben durchgeführt. Das Erzeugen eines Wortes wird
gemäss
dem Folgenden vorgenommen. Zuerst werden die Halbsilben, die Teil
des Wortes sein sollen, und auch die Betonung des fraglichen Wortes herausgefunden.
Ein einzelnes Wort, zum Beispiel "nod" (nu:d)
wird in die folgenden Silben aufgeteilt, "no", "od". Das Verbinden von "no" und "od" wird danach von
dem Vokal "o" vorgenommen. Von
einem Sprachwörterbuch
wird Information über
den lexikalischen Akzent des Wortes erhalten. Diese Töne werden
danach zu Worten und Sätzen
zusammengesetzt, wo der Akzent jedes Wortes erzeugt wird und auch
die Satzintonation des gesamten Satzes bestimmt wird. Das Aufbauen
von Worten und Sätzen gemäss dieser
Prozedur ist vorbekannt und zum Beispiel in Patentanmeldungsdokument
SE 950 43 67-5 beschrieben, das EP-A-778560 entspricht. Um eine Polyphonbank
zu schaffen, wird ein Subjekt verwendet, das eine grosse Anzahl
von Wörtern
spricht, zum Beispiel Unsinnwörter.
Alternative kann laufender Text verwendet werden. Gleichzeitig,
wie diese Worte registriert werden, werden auch die Gesichtsbewegungen
des Subjekts registriert. Diese Gesichtsbewegungen werden in einer
Bewegungsbasis gespeichert. Die aufgezeichneten Worte werden in
Polyphone, Halbsilben zusammen mit entsprechenden Bewegungen aufgeteilt.
Eine Verbindung zwischen den Polyphonen und entsprechenden Bewegungen
wird auf diese Weise geschaffen.
-
Das Registrieren der Gesichtsbewegungen wird
dadurch vorgenommen, dass unterschiedliche Punkte im Gesicht des
Subjekts markiert werden. Diese Punkte werden dichter angeordnet,
wo grosse Änderungen
stattfinden, und mit grösseren
Abständen
in Bereichen mit kleineren Abweichungen in den Bewegungen. Gebieter
mit grossen Abweichungen sind zum Beispiel das Gebiet um die Lippen
und die Bewegung der Lippen. Jeden der Punkte wird eine Position
in einer dreidimensionalen Reproduktion des Subjekts gegeben. Das
Bild bildet nur ein Polygonmodell des Gesichts. Indem das Gesicht
mit Polyphonen koordiniert wird, die zu Worten und Sätzen zusammengesetzt
werden, wird ein Bewegungsmuster erhalten, das dem Erzeugten entspricht.
-
Polyphone werden weiter von einer
zweiten Person registriert, ohne jedoch die Gesichtsbewegungen der
zweiten Person zu registrieren. Auch in diesem Falle werden vorzugsweise
Unsinnwörter verwendet,
es kann aber auch laufender Text verwendet werden. Auf diese Weise
wird eine Polyphonbasis für
die zweite Person erzeugt. Um eine Bewegungsbasis für die zweite
Person zu erzeugen, wird danach die Polyphonbank für das erste
Subjekt verwendet. Entsprechende Polyphone in der Polyphonbank und
der Polyphonbasis werden in Bezug auf die Dauer der Töne verglichen.
Abweichungen in der Dauer werden für die Polyphone registriert,
wonach dann entsprechende Bewegungen in der Bewegungsbank abgewandelt
werden. Die abgewandelte Bewegung wird danach in einer Bewegungsbasis
gespeichert. Die Bewegungsbasis und die Polyphonbasis sind daher
miteinander verbunden.
-
Wenn die Animation der zweiten Person durchgeführt werden
soll, werden Wörter
und Redewendungen erzeugt, indem Halbsilben zusammengesetzt werden,
die von den Polyphonen genommen werden. Gleichzeitig wird ein dreidimensionales
Polygonmodell mit entsprechenden Bewegungsmustern aufgebaut, die
von der Bewegungsbasis genommen worden sind. Das erzeugte Bild besteht
aus einem Fadenmodell, wo die Endpunkte in den Polygonen die Messpunkte
im Gesicht des ersten Subjekts darstellen.
-
Um ein Bild davon zu schaffen, dass
die zweite Person die erzeugte Sprache erzeugt, wird ein Bild der
zweiten Person auf das Polyphonmodell angewendet. Das Polygonmodell
wird in Verbindung damit abgewandelt, um an Gesichtsformen, Grösse des
Mundes und so weiter der zweiten Person anzupassen. Die erzeugte
Reproduktion ist dreidimensional und wird gleichzeitig mit der erzeugten
Sprache gezeigt, wo dann Sprache und Gesichtsbewegungen gut einander
entsprechen. Das aufgezeigte Verfahren erlaubt es jedoch nicht,
dass das Bewegungsmuster ganz dem normalen Bewegungsmuster der zweiten
Person entspricht, sondern ist durch das Bewegungsmuster der ersten
Person gekennzeichnet.
-
Eine Person B spricht eine erste
Sprache, die in eine zweite Sprache übersetzt werden soll, oder
ein Text wird gegeben und soll der Person B zugeteilt werden. Für die Person
B ist eine Polyphonbank erzeugt worden, es sind jedoch keine Bewegungsmuster
registriert worden. Die für
B registrierten Polyphone werden mit entsprechenden Polyphonen in
einer Polyphonbasis mit verknüpften
Bewegungsmustern der Person A verglichen. Es wird die genaue Länge der
Tonsegmente sowohl in der Polyphonbank als auch in der Polyphonbasis
herausgefunden. Die Abweichungen werden registriert, und es wird
ein Modelgesicht geschaffen, wobei die Bewegungsmuster von A verwendet
werden. Die Bewegungen werden jedoch in Bezug auf die Abweichung zwischen
den Polyphonen in der Polyphonbank und der Polyphonbasis abgewandelt.
Tonsegmente, die in der Polyphonbank länger sind als in der Polyphonbasis,
führen
dazu, dass entsprechende Bewegungsmuster im Gesichtsmodell ausgedehnt
werden. Für Tonsegmente,
die in der Polyphonbank kürzer
sind als in der Polyphonbasis, wird eine entsprechende Verkürzung von
entsprechenden Bewegungsmustern im Modellgesicht vorgenommen. Eine
Basis mit Bewegungsmustern, die mit der Polyphonbank verknüpft ist,
wird auf diese Weise geschaffen. Beim Zusammensetzen von Polyphonen
von B's Polyphonbank
zu Wörtern
und Sätzen
wird ein Modellgesicht mit Bewegungen erzeugt, die von der Basis
mit Bewegungsmustern genommen werden. Die erzeugten Bewegungsmuster
entsprechen der Art von B, entsprechende Teile der Polyphone auszusprechen,
jedoch mit dem Grundbewegungsmuster von A. Das Gesicht von B kann
danach auf das Modell angewendet werden, wobei dann B mit seiner/ihrer
eigenen Sprache spricht, aber doch ein Bewegungsmuster zugeteilt
bekommen hat, das zu A gehört,
wobei dann Bild und Ton einander entsprechen und eine naturgetreue
Erfahrung erhalten wird.
-
Die Erfindung ist nicht auf das oben
beschriebene Beispiel einer Ausführungsform
oder die folgenden Patentansprüche
begrenzt, sondern kann innerhalb des Rahmens der Erfindungsidee
abgewandelt werden.