DE69817550T2

DE69817550T2 - Verfahren zur sprachsynthese

Info

Publication number: DE69817550T2
Application number: DE69817550T
Authority: DE
Inventors: Bertil Lyberg; Mats Wiren
Original assignee: Telia AB
Current assignee: Telia AB
Priority date: 1997-03-25
Filing date: 1998-03-20
Publication date: 2004-06-17
Anticipated expiration: 2018-03-21
Also published as: SE9701102D0; DK0970467T3; EE9900420A; NO994600D0; US6385580B1; NO317597B1; WO1998043236A2; DE69817550D1; WO1998043236A3; NO994600L; SE9701102L; EP0970467B1; SE519679C2; JP2001517327A; EP0970467A2

Description

TECHNISCHES GEBIET
Die vorliegende Erfindung betrifft die Reproduktion von Sprache und zur Sprache gehörende Gesichtsbewegungen einer sprechenden Person. Die Erfindung soll in Zusammenhängen verwendet werden, wo die Gesichtsbewegung einer Person zugleich mit dem erzeugten Ton reproduziert werden sollen.
TECHNISCHES PROBLEM
Bei der Sprachsynthese besteht die Notwendigkeit, die Sprache mit den Gesichtsbewegungen einer sprechenden Person zu synchronisieren. In der Patentanmeldung Nummer 9504367-5, die EP-A-778560 entspricht, ist beschrieben, wie Bewegungsmuster in einem Gesicht aufgezeichnet und zusammen mit einer Polyphonsammlung (Tönen) bei Verkettungssynthese, beruhend auf Halbsilben, gespeichert werden. Das Aufzeichnen der Bewegungsmuster der Halbsilben des Subjekts (der Person) beeinflusst danach Punkte in einem Polygonmodell des Gesichts. Eine anderer Struktur, das heisst ein anderes Gesicht kann oben auf das Polygonmodell angewendet werden, wodurch man Lippen- und Gesichtsbewegungen von der Polyphonsynthese erhält.
Die britische Patentanmeldung GB-A-2231246 offenbart die Steuerung des Wertes eines Mundform-Parameters für jedes Bild des bewegten Bildes in Übereinstimmung mit der Dauer eines Phonems, wodurch ein bewegtes Gesichtsbild synthetisiert wird, das Mundformveränderungen hat, die mit der Sprachausgabe übereinstimmen.
Bei dem beschriebenen Modell ist es erforderlich, dass Stimmen von Männern, Frauen und Kindern getrennt aufgezeichnet werden. Solche Prozeduren sind teuer und umständlich.
DIE LÖSUNG
Die Erfindung ist im beigefügten Anspruch 1 ausgeführt. Sie bezieht sich auf eine Verfahren bei Sprachsynthese für die Reproduktion von Gesichtsbewegungen einer Person, der Sprache über Sprachsynthese zugeordnet worden ist. Die Sprache wird aus Polyphonen zusammengesetzt, die von einer Datenbasis geholt werden. Es wird weiter Datenbank eingerichtet, die Polyphone mit den zu den Polyphonen gehörenden Bewegungsmustern im Gesicht einer ersten Person enthält. Polyphone von einer zweiten Person werden weiter in einer Datenbasis registriert und gespeichert. Die Tonsegmente in entsprechenden Polyphonen in der Datenbank und der Datenbasis werden verglichen, und die Gesichtsbewegungen der Datenbank werden in Übereinstimmung mit der Abweichung abgewandelt. Die abgewandelten Bewegungsmuster werden in der Datenbasis gespeichert und zu dem betreffenden Polyphon in Bezug gesetzt. Die aufgezeichneten Polyphone werden danach dafür verwendet, um Worte und Sätze zusammenzusetzen, während gleichzeitig entsprechende Bewegungsmuster von einem Gesichtsmodell von den Bewegungsmustern in der Datenbasis aufgebaut werden.
Sprache von einem Subjekt (einer Person) wird gleichzeitig aufgezeigt, wie das Bewegungsmuster des Subjekts registriert wird. Die aufgezeichnete Sprache besteht vorzugsweise aus Unsinnworten, von denen Polyphone, Halbsilben aussortiert werden. Die registrierten Polyphone werden in einer Polyphonbank gespeichert. Zu jedem Polyphon werden weiter in einer Bewegungsbank die Gesichtsbewegungen des Subjekts gespeichert. Für eine zweite Person werden Polyphone in entsprechender Weise in einer Polyphonbasis gespeichert. Die Bewegungen der zweiten Person werden jedoch nicht registriert. Ein Vergleich zwischen den Tonsegmenten in entsprechenden Polyphonen wird danach zwischen der Polyphonbasis und der Polyphonbank durchgeführt. Die registrierten Unterschiede werden danach verwendet, um das gegenwärtige Bewegungsmuster in der Bewegungsbank zu modifizieren, wobei ein Modell mit einem Bewegungsmuster erhalten wird, das der Aussprache der Polyphone des zweiten Sprechers entspricht. Das abgewandelte Bewegungsmuster wird in einer Bewegungsbasis gespeichert. Beim Zusammensetzen von Polyphonen von der Polyphonbasis wird die Bewegungsbasis danach verwendet, ein Gesichtsmodell zu schaffen, dessen Bewegungen der Art und Weise entsprechen, wie die Person spricht. Das geschaffene Modell besteht aus einem Polygonmodell, das auf dem Bewegungsmuster vom Bewegungsmuster des ersten Objekts beruht. Um eine Ansicht davon zu schaffen, wie die zweite Person spricht, wird ein Bild des Sprechers auf das Modell angewandt. Das Polygonmodell wird daher abgewandelt, um an die zweite Person angepasst zu werden. Das Bild, das auf das Modell angewendet wird, besteht aus Standbildern oder Bewegungsbildern, die in der Datenbasis gespeichert worden sind oder über zum Beispiel das Telekommunikationsnetz übertragen worden sind. Auf diese Weise wird ein dreidimensionales Bild geschaffen.
Die registrierten Bewegungen im ersten Gesicht bestehen aus Punkten, die in einem dreidimensionalen Gesichtsmodell angeordnet worden sind. Das Gesichtsmodell besteht aus einer Anzahl von Polygonen, die durch Punkte zusammengesetzt sind. Die Punkte bestehen aus Messpunkten im Gesicht eines Subjekts, welche Punkte während des Aufzeichnens von Tönen/Polyphonen registriert werden. Das Registrieren der Punkte im Gesicht des Subjekts wird vorzugsweise durch Markieren ausgewählter Punkte im Gesicht des Subjekts durchgeführt. Die Punkte werden danach mit Hilfe von zum Beispiel Lasertechnik registriert, und eine Bank über Töne und Bewegungsmuster wird geschaffen.
Das Anwendungsgebiet der Erfindung ist in allen Fällen, wo der Reproduktion von Ton/Sprache ein naturgetreues Bewegungsmuster des Gesichts einer sprechenden Person gegeben werden soll. Es kann sich zum Beispiel auf eine Person beziehen, die eine erste Sprache spricht, die jedoch mit Hilfe von Sprachsynthese so dargestellt wird, dass sie eine zweite Sprache spricht. Solche Bedingungen sollten in Zukunft mit Telefonie verknüpft werden, wo das Telekommunikationssystem oder Ausrüstungen der telefonierenden Personen die Sprache übersetzen und die sprechenden Personen im Bild darstellen. Das Anwendungsgebiet der Erfindung ist jedoch nicht nur Telefonie, sondern alle Zusammenhänge, wo eine erste Sprache, die durch eine Person erzeugt wird in eine zweite Sprache mit naturgetreuen Gesichtsbewegungen übersetzt werden soll und reproduziert werden soll.
VORTEILE
Die angedeutete Erfindung ermöglicht es, dass ein billigeres Verfahren bei der Animation von Sprache mit einem dazugehörenden Gesicht angewendet werden kann. Dies wird zum Beispiel bei der Übersetzung der Sprache einer sprechenden Person bei der Übersetzung von einer ersten Sprache in eine zweite Sprache verwendet. Beim Aufzeichnen ist nur ein Subjekt erforderlich, dass für die Erzeugung der Grundbewegungen im Gesicht verwendet wird. Die Person/Personen, die das Bewegungsmuster von dem Subjekt ausleihen sollen, brauchen nur eine Anzahl von Tonsequenzen aufzuzeichnen, von denen Polyphone extrahiert werden können. Indem Polyphone und dazugehörende Gesichtsbewegungen einer geeigneten Auswahl von Personen registriert werden, kann eine Bank erzeugt werden, die in unterschiedlichen Situationen für Animation unterschiedlicher Gesichter verwendet werden kann. Die registrierten Gesichter können sich zum Beispiel auf unterschiedliche Personen unterschiedlichen Alters und unterschiedlichen Geschlechtes beziehen.
BESCHREIBUNG DER FIGUREN
1 zeigt, wie die Gesichtsbewegungen registriert werden;
2 zeigt, wie ein Polygonmodell aufgebaut wird.
BEVORZUGTE AUSFÜHRUNGSFORMEN
Im Folgenden wird die Erfindung aufgrund der Figuren und der darin verwendeten Begriffe beschrieben.
Das Registrieren von Tönen mit dazugehörende Bewegungsmustern des Gesichtes eines Subjekts wird unter Verwendung von zum Beispiel Unsinnworten oder von laufendem Text durchgeführt. Die Verwendung von Unsinnworten hat Vorteile, indem das Subjekt sowohl bei der Erzeugung von Worten als auch von Gesichtsausdrücken eine neutrale Stellung einnimmt. Die Unsinnsworte bestehen im Prinzip aus einsilbigen Worten, die in Halbsilben aufgeteilt sind. Die Halbsilben werden zu Worten und Sätzen verbunden. Das Verbinden von zwei Halbsilben wird in der Mitte des Vokals für entsprechende Halbsilben durchgeführt. Das Erzeugen eines Wortes wird gemäss dem Folgenden vorgenommen. Zuerst werden die Halbsilben, die Teil des Wortes sein sollen, und auch die Betonung des fraglichen Wortes herausgefunden. Ein einzelnes Wort, zum Beispiel "nod" (nu:d) wird in die folgenden Silben aufgeteilt, "no", "od". Das Verbinden von "no" und "od" wird danach von dem Vokal "o" vorgenommen. Von einem Sprachwörterbuch wird Information über den lexikalischen Akzent des Wortes erhalten. Diese Töne werden danach zu Worten und Sätzen zusammengesetzt, wo der Akzent jedes Wortes erzeugt wird und auch die Satzintonation des gesamten Satzes bestimmt wird. Das Aufbauen von Worten und Sätzen gemäss dieser Prozedur ist vorbekannt und zum Beispiel in Patentanmeldungsdokument SE 950 43 67-5 beschrieben, das EP-A-778560 entspricht. Um eine Polyphonbank zu schaffen, wird ein Subjekt verwendet, das eine grosse Anzahl von Wörtern spricht, zum Beispiel Unsinnwörter. Alternative kann laufender Text verwendet werden. Gleichzeitig, wie diese Worte registriert werden, werden auch die Gesichtsbewegungen des Subjekts registriert. Diese Gesichtsbewegungen werden in einer Bewegungsbasis gespeichert. Die aufgezeichneten Worte werden in Polyphone, Halbsilben zusammen mit entsprechenden Bewegungen aufgeteilt. Eine Verbindung zwischen den Polyphonen und entsprechenden Bewegungen wird auf diese Weise geschaffen.
Das Registrieren der Gesichtsbewegungen wird dadurch vorgenommen, dass unterschiedliche Punkte im Gesicht des Subjekts markiert werden. Diese Punkte werden dichter angeordnet, wo grosse Änderungen stattfinden, und mit grösseren Abständen in Bereichen mit kleineren Abweichungen in den Bewegungen. Gebieter mit grossen Abweichungen sind zum Beispiel das Gebiet um die Lippen und die Bewegung der Lippen. Jeden der Punkte wird eine Position in einer dreidimensionalen Reproduktion des Subjekts gegeben. Das Bild bildet nur ein Polygonmodell des Gesichts. Indem das Gesicht mit Polyphonen koordiniert wird, die zu Worten und Sätzen zusammengesetzt werden, wird ein Bewegungsmuster erhalten, das dem Erzeugten entspricht.
Polyphone werden weiter von einer zweiten Person registriert, ohne jedoch die Gesichtsbewegungen der zweiten Person zu registrieren. Auch in diesem Falle werden vorzugsweise Unsinnwörter verwendet, es kann aber auch laufender Text verwendet werden. Auf diese Weise wird eine Polyphonbasis für die zweite Person erzeugt. Um eine Bewegungsbasis für die zweite Person zu erzeugen, wird danach die Polyphonbank für das erste Subjekt verwendet. Entsprechende Polyphone in der Polyphonbank und der Polyphonbasis werden in Bezug auf die Dauer der Töne verglichen. Abweichungen in der Dauer werden für die Polyphone registriert, wonach dann entsprechende Bewegungen in der Bewegungsbank abgewandelt werden. Die abgewandelte Bewegung wird danach in einer Bewegungsbasis gespeichert. Die Bewegungsbasis und die Polyphonbasis sind daher miteinander verbunden.
Wenn die Animation der zweiten Person durchgeführt werden soll, werden Wörter und Redewendungen erzeugt, indem Halbsilben zusammengesetzt werden, die von den Polyphonen genommen werden. Gleichzeitig wird ein dreidimensionales Polygonmodell mit entsprechenden Bewegungsmustern aufgebaut, die von der Bewegungsbasis genommen worden sind. Das erzeugte Bild besteht aus einem Fadenmodell, wo die Endpunkte in den Polygonen die Messpunkte im Gesicht des ersten Subjekts darstellen.
Um ein Bild davon zu schaffen, dass die zweite Person die erzeugte Sprache erzeugt, wird ein Bild der zweiten Person auf das Polyphonmodell angewendet. Das Polygonmodell wird in Verbindung damit abgewandelt, um an Gesichtsformen, Grösse des Mundes und so weiter der zweiten Person anzupassen. Die erzeugte Reproduktion ist dreidimensional und wird gleichzeitig mit der erzeugten Sprache gezeigt, wo dann Sprache und Gesichtsbewegungen gut einander entsprechen. Das aufgezeigte Verfahren erlaubt es jedoch nicht, dass das Bewegungsmuster ganz dem normalen Bewegungsmuster der zweiten Person entspricht, sondern ist durch das Bewegungsmuster der ersten Person gekennzeichnet.
Eine Person B spricht eine erste Sprache, die in eine zweite Sprache übersetzt werden soll, oder ein Text wird gegeben und soll der Person B zugeteilt werden. Für die Person B ist eine Polyphonbank erzeugt worden, es sind jedoch keine Bewegungsmuster registriert worden. Die für B registrierten Polyphone werden mit entsprechenden Polyphonen in einer Polyphonbasis mit verknüpften Bewegungsmustern der Person A verglichen. Es wird die genaue Länge der Tonsegmente sowohl in der Polyphonbank als auch in der Polyphonbasis herausgefunden. Die Abweichungen werden registriert, und es wird ein Modelgesicht geschaffen, wobei die Bewegungsmuster von A verwendet werden. Die Bewegungen werden jedoch in Bezug auf die Abweichung zwischen den Polyphonen in der Polyphonbank und der Polyphonbasis abgewandelt. Tonsegmente, die in der Polyphonbank länger sind als in der Polyphonbasis, führen dazu, dass entsprechende Bewegungsmuster im Gesichtsmodell ausgedehnt werden. Für Tonsegmente, die in der Polyphonbank kürzer sind als in der Polyphonbasis, wird eine entsprechende Verkürzung von entsprechenden Bewegungsmustern im Modellgesicht vorgenommen. Eine Basis mit Bewegungsmustern, die mit der Polyphonbank verknüpft ist, wird auf diese Weise geschaffen. Beim Zusammensetzen von Polyphonen von B's Polyphonbank zu Wörtern und Sätzen wird ein Modellgesicht mit Bewegungen erzeugt, die von der Basis mit Bewegungsmustern genommen werden. Die erzeugten Bewegungsmuster entsprechen der Art von B, entsprechende Teile der Polyphone auszusprechen, jedoch mit dem Grundbewegungsmuster von A. Das Gesicht von B kann danach auf das Modell angewendet werden, wobei dann B mit seiner/ihrer eigenen Sprache spricht, aber doch ein Bewegungsmuster zugeteilt bekommen hat, das zu A gehört, wobei dann Bild und Ton einander entsprechen und eine naturgetreue Erfahrung erhalten wird.
Die Erfindung ist nicht auf das oben beschriebene Beispiel einer Ausführungsform oder die folgenden Patentansprüche begrenzt, sondern kann innerhalb des Rahmens der Erfindungsidee abgewandelt werden.

Claims

Verfahren zur Sprachsynthese, bei dem erste Polyphone und zugehörige Gewichtsbewegungen von einer ersten Person gespeichert werden und zweite Polyphone von einer zweiten Person gespeichert werden, dadurch gekennzeichnet, dass die Länge der Lautsegmente in den ersten und zweiten Polyphonen verglichen werden, worauf die Gesichtsbewegungen entsprechend der Beziehung zwischen den ersten und zweiten Polyphonen modifiziert werden, dass eine Basis mit modifizierten Gesichtsbewegungen geschaffen wird, und dass die Basis mit modifizierten Gesichtsbewegungen dazu dient, ein Gesichtsmodell mit zugehörigen Lauten zu schaffen, bei denen Bewegungsmuster und Laute einander entsprechen.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Polyphone für die erste Person in einer Polyphonbank gespeichert werden und dass das Bewegungsmuster im Gesicht der ersten Person in einer Bewegungsbank gespeichert wird.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Polyphone für die zweite Person in einer Polyphonbasis gespeichert werden.
Verfahren nach Anspruch 1, 2 und 3, dadurch gekennzeichnet, dass die Dauer der Lautsegmente in entsprechenden Polyphonen in der Polyphonbank und der Polyphonbasis ermittelt werden und dass die Differenz ermittelt wird.
Verfahren nach Anspruch 1, 2, 3 oder 4, dadurch gekennzeichnet, dass das Bewegungsmuster für ein Polyphon von der Bewegungsbank genommen wird und im Hinblick auf die unterschiedliche Dauer der Lautsegmente in den verschiedenen Teilen des Polyphons modifiziert wird.
Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass das modifizierte Bewegungsmuster in einer Bewegungsbasis gespeichert wird.
Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass Polyphone von der Polyphonbasis zu Wörtern und Sätzen zusammengefügt werden und dass das entsprechende Bewegungsmuster aus der Bewegungsbank genommen und auf das Gesichtsmodell angewendet wird, welches ein Bewegungsmuster entsprechend den Wörtern und Sätzen aufweisen wird.
Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass das Gesichtsmodell als ein Polygonmodell aufgebaut wird und dass ein Bild der zweiten Person auf das Polygonmodell angewendet wird, wobei die Gesichtsbewegungen der zweiten Person den erzeugten Lauten entsprechen.
Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass die Gesichtsbewegungen in dem ersten Gesicht registriert werden durch Markieren einer Anzahl von Punkten in dem ersten Gesicht, und dass die Registrierung der Gesichtsbewegungen gleichzeitig mit der Schallaufzeichnung erfolgt.
Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass die Gesichtsbewegungen registriert werden mittels einer Lasertechnik, die den markierten Punkten in dem ersten Gesicht folgen kann.
Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass das Bild des zweiten Gesichts aus einem stillen oder einem bewegten Bild besteht.
Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass das Polygonmodell dreidimensional ist, wobei nach Anlegen des Bildes ein dreidimensionales Bild des realen Gesichts erhalten wird, wobei das dreidimensionale Bild den Gesichtsbewegungen einer Person entspricht, deren Gesicht dem Bild entspricht.
Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass Punkte in den Polygonen Bereiche in dem ersten Gesicht repräsentieren, die sich abhängig voneinander bewegen, und dass die Einstellung der Bewegungen der Punkte einerseits sich auf einen Bewegungsumfang bezieht und andererseits darauf, welcher Abstand zwischen den Punkten in dem ersten Gesicht und dem realen Gesicht existiert.
Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass das Bild des zweiten Gesichtes eingeführt, übertragen oder von der Datenbank entnommen wird.