DE69817550T2 - Verfahren zur sprachsynthese - Google Patents

Verfahren zur sprachsynthese Download PDF

Info

Publication number
DE69817550T2
DE69817550T2 DE69817550T DE69817550T DE69817550T2 DE 69817550 T2 DE69817550 T2 DE 69817550T2 DE 69817550 T DE69817550 T DE 69817550T DE 69817550 T DE69817550 T DE 69817550T DE 69817550 T2 DE69817550 T2 DE 69817550T2
Authority
DE
Germany
Prior art keywords
face
person
movement
polyphones
polyphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69817550T
Other languages
English (en)
Other versions
DE69817550D1 (de
Inventor
Bertil Lyberg
Mats Wiren
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telia AB
Original Assignee
Telia AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telia AB filed Critical Telia AB
Publication of DE69817550D1 publication Critical patent/DE69817550D1/de
Application granted granted Critical
Publication of DE69817550T2 publication Critical patent/DE69817550T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Processing Or Creating Images (AREA)
  • Display Devices Of Pinball Game Machines (AREA)
  • Stringed Musical Instruments (AREA)
  • Adornments (AREA)

Description

  • TECHNISCHES GEBIET
  • Die vorliegende Erfindung betrifft die Reproduktion von Sprache und zur Sprache gehörende Gesichtsbewegungen einer sprechenden Person. Die Erfindung soll in Zusammenhängen verwendet werden, wo die Gesichtsbewegung einer Person zugleich mit dem erzeugten Ton reproduziert werden sollen.
  • TECHNISCHES PROBLEM
  • Bei der Sprachsynthese besteht die Notwendigkeit, die Sprache mit den Gesichtsbewegungen einer sprechenden Person zu synchronisieren. In der Patentanmeldung Nummer 9504367-5, die EP-A-778560 entspricht, ist beschrieben, wie Bewegungsmuster in einem Gesicht aufgezeichnet und zusammen mit einer Polyphonsammlung (Tönen) bei Verkettungssynthese, beruhend auf Halbsilben, gespeichert werden. Das Aufzeichnen der Bewegungsmuster der Halbsilben des Subjekts (der Person) beeinflusst danach Punkte in einem Polygonmodell des Gesichts. Eine anderer Struktur, das heisst ein anderes Gesicht kann oben auf das Polygonmodell angewendet werden, wodurch man Lippen- und Gesichtsbewegungen von der Polyphonsynthese erhält.
  • Die britische Patentanmeldung GB-A-2231246 offenbart die Steuerung des Wertes eines Mundform-Parameters für jedes Bild des bewegten Bildes in Übereinstimmung mit der Dauer eines Phonems, wodurch ein bewegtes Gesichtsbild synthetisiert wird, das Mundformveränderungen hat, die mit der Sprachausgabe übereinstimmen.
  • Bei dem beschriebenen Modell ist es erforderlich, dass Stimmen von Männern, Frauen und Kindern getrennt aufgezeichnet werden. Solche Prozeduren sind teuer und umständlich.
  • DIE LÖSUNG
  • Die Erfindung ist im beigefügten Anspruch 1 ausgeführt. Sie bezieht sich auf eine Verfahren bei Sprachsynthese für die Reproduktion von Gesichtsbewegungen einer Person, der Sprache über Sprachsynthese zugeordnet worden ist. Die Sprache wird aus Polyphonen zusammengesetzt, die von einer Datenbasis geholt werden. Es wird weiter Datenbank eingerichtet, die Polyphone mit den zu den Polyphonen gehörenden Bewegungsmustern im Gesicht einer ersten Person enthält. Polyphone von einer zweiten Person werden weiter in einer Datenbasis registriert und gespeichert. Die Tonsegmente in entsprechenden Polyphonen in der Datenbank und der Datenbasis werden verglichen, und die Gesichtsbewegungen der Datenbank werden in Übereinstimmung mit der Abweichung abgewandelt. Die abgewandelten Bewegungsmuster werden in der Datenbasis gespeichert und zu dem betreffenden Polyphon in Bezug gesetzt. Die aufgezeichneten Polyphone werden danach dafür verwendet, um Worte und Sätze zusammenzusetzen, während gleichzeitig entsprechende Bewegungsmuster von einem Gesichtsmodell von den Bewegungsmustern in der Datenbasis aufgebaut werden.
  • Sprache von einem Subjekt (einer Person) wird gleichzeitig aufgezeigt, wie das Bewegungsmuster des Subjekts registriert wird. Die aufgezeichnete Sprache besteht vorzugsweise aus Unsinnworten, von denen Polyphone, Halbsilben aussortiert werden. Die registrierten Polyphone werden in einer Polyphonbank gespeichert. Zu jedem Polyphon werden weiter in einer Bewegungsbank die Gesichtsbewegungen des Subjekts gespeichert. Für eine zweite Person werden Polyphone in entsprechender Weise in einer Polyphonbasis gespeichert. Die Bewegungen der zweiten Person werden jedoch nicht registriert. Ein Vergleich zwischen den Tonsegmenten in entsprechenden Polyphonen wird danach zwischen der Polyphonbasis und der Polyphonbank durchgeführt. Die registrierten Unterschiede werden danach verwendet, um das gegenwärtige Bewegungsmuster in der Bewegungsbank zu modifizieren, wobei ein Modell mit einem Bewegungsmuster erhalten wird, das der Aussprache der Polyphone des zweiten Sprechers entspricht. Das abgewandelte Bewegungsmuster wird in einer Bewegungsbasis gespeichert. Beim Zusammensetzen von Polyphonen von der Polyphonbasis wird die Bewegungsbasis danach verwendet, ein Gesichtsmodell zu schaffen, dessen Bewegungen der Art und Weise entsprechen, wie die Person spricht. Das geschaffene Modell besteht aus einem Polygonmodell, das auf dem Bewegungsmuster vom Bewegungsmuster des ersten Objekts beruht. Um eine Ansicht davon zu schaffen, wie die zweite Person spricht, wird ein Bild des Sprechers auf das Modell angewandt. Das Polygonmodell wird daher abgewandelt, um an die zweite Person angepasst zu werden. Das Bild, das auf das Modell angewendet wird, besteht aus Standbildern oder Bewegungsbildern, die in der Datenbasis gespeichert worden sind oder über zum Beispiel das Telekommunikationsnetz übertragen worden sind. Auf diese Weise wird ein dreidimensionales Bild geschaffen.
  • Die registrierten Bewegungen im ersten Gesicht bestehen aus Punkten, die in einem dreidimensionalen Gesichtsmodell angeordnet worden sind. Das Gesichtsmodell besteht aus einer Anzahl von Polygonen, die durch Punkte zusammengesetzt sind. Die Punkte bestehen aus Messpunkten im Gesicht eines Subjekts, welche Punkte während des Aufzeichnens von Tönen/Polyphonen registriert werden. Das Registrieren der Punkte im Gesicht des Subjekts wird vorzugsweise durch Markieren ausgewählter Punkte im Gesicht des Subjekts durchgeführt. Die Punkte werden danach mit Hilfe von zum Beispiel Lasertechnik registriert, und eine Bank über Töne und Bewegungsmuster wird geschaffen.
  • Das Anwendungsgebiet der Erfindung ist in allen Fällen, wo der Reproduktion von Ton/Sprache ein naturgetreues Bewegungsmuster des Gesichts einer sprechenden Person gegeben werden soll. Es kann sich zum Beispiel auf eine Person beziehen, die eine erste Sprache spricht, die jedoch mit Hilfe von Sprachsynthese so dargestellt wird, dass sie eine zweite Sprache spricht. Solche Bedingungen sollten in Zukunft mit Telefonie verknüpft werden, wo das Telekommunikationssystem oder Ausrüstungen der telefonierenden Personen die Sprache übersetzen und die sprechenden Personen im Bild darstellen. Das Anwendungsgebiet der Erfindung ist jedoch nicht nur Telefonie, sondern alle Zusammenhänge, wo eine erste Sprache, die durch eine Person erzeugt wird in eine zweite Sprache mit naturgetreuen Gesichtsbewegungen übersetzt werden soll und reproduziert werden soll.
  • VORTEILE
  • Die angedeutete Erfindung ermöglicht es, dass ein billigeres Verfahren bei der Animation von Sprache mit einem dazugehörenden Gesicht angewendet werden kann. Dies wird zum Beispiel bei der Übersetzung der Sprache einer sprechenden Person bei der Übersetzung von einer ersten Sprache in eine zweite Sprache verwendet. Beim Aufzeichnen ist nur ein Subjekt erforderlich, dass für die Erzeugung der Grundbewegungen im Gesicht verwendet wird. Die Person/Personen, die das Bewegungsmuster von dem Subjekt ausleihen sollen, brauchen nur eine Anzahl von Tonsequenzen aufzuzeichnen, von denen Polyphone extrahiert werden können. Indem Polyphone und dazugehörende Gesichtsbewegungen einer geeigneten Auswahl von Personen registriert werden, kann eine Bank erzeugt werden, die in unterschiedlichen Situationen für Animation unterschiedlicher Gesichter verwendet werden kann. Die registrierten Gesichter können sich zum Beispiel auf unterschiedliche Personen unterschiedlichen Alters und unterschiedlichen Geschlechtes beziehen.
  • BESCHREIBUNG DER FIGUREN
  • 1 zeigt, wie die Gesichtsbewegungen registriert werden;
  • 2 zeigt, wie ein Polygonmodell aufgebaut wird.
  • BEVORZUGTE AUSFÜHRUNGSFORMEN
  • Im Folgenden wird die Erfindung aufgrund der Figuren und der darin verwendeten Begriffe beschrieben.
  • Das Registrieren von Tönen mit dazugehörende Bewegungsmustern des Gesichtes eines Subjekts wird unter Verwendung von zum Beispiel Unsinnworten oder von laufendem Text durchgeführt. Die Verwendung von Unsinnworten hat Vorteile, indem das Subjekt sowohl bei der Erzeugung von Worten als auch von Gesichtsausdrücken eine neutrale Stellung einnimmt. Die Unsinnsworte bestehen im Prinzip aus einsilbigen Worten, die in Halbsilben aufgeteilt sind. Die Halbsilben werden zu Worten und Sätzen verbunden. Das Verbinden von zwei Halbsilben wird in der Mitte des Vokals für entsprechende Halbsilben durchgeführt. Das Erzeugen eines Wortes wird gemäss dem Folgenden vorgenommen. Zuerst werden die Halbsilben, die Teil des Wortes sein sollen, und auch die Betonung des fraglichen Wortes herausgefunden. Ein einzelnes Wort, zum Beispiel "nod" (nu:d) wird in die folgenden Silben aufgeteilt, "no", "od". Das Verbinden von "no" und "od" wird danach von dem Vokal "o" vorgenommen. Von einem Sprachwörterbuch wird Information über den lexikalischen Akzent des Wortes erhalten. Diese Töne werden danach zu Worten und Sätzen zusammengesetzt, wo der Akzent jedes Wortes erzeugt wird und auch die Satzintonation des gesamten Satzes bestimmt wird. Das Aufbauen von Worten und Sätzen gemäss dieser Prozedur ist vorbekannt und zum Beispiel in Patentanmeldungsdokument SE 950 43 67-5 beschrieben, das EP-A-778560 entspricht. Um eine Polyphonbank zu schaffen, wird ein Subjekt verwendet, das eine grosse Anzahl von Wörtern spricht, zum Beispiel Unsinnwörter. Alternative kann laufender Text verwendet werden. Gleichzeitig, wie diese Worte registriert werden, werden auch die Gesichtsbewegungen des Subjekts registriert. Diese Gesichtsbewegungen werden in einer Bewegungsbasis gespeichert. Die aufgezeichneten Worte werden in Polyphone, Halbsilben zusammen mit entsprechenden Bewegungen aufgeteilt. Eine Verbindung zwischen den Polyphonen und entsprechenden Bewegungen wird auf diese Weise geschaffen.
  • Das Registrieren der Gesichtsbewegungen wird dadurch vorgenommen, dass unterschiedliche Punkte im Gesicht des Subjekts markiert werden. Diese Punkte werden dichter angeordnet, wo grosse Änderungen stattfinden, und mit grösseren Abständen in Bereichen mit kleineren Abweichungen in den Bewegungen. Gebieter mit grossen Abweichungen sind zum Beispiel das Gebiet um die Lippen und die Bewegung der Lippen. Jeden der Punkte wird eine Position in einer dreidimensionalen Reproduktion des Subjekts gegeben. Das Bild bildet nur ein Polygonmodell des Gesichts. Indem das Gesicht mit Polyphonen koordiniert wird, die zu Worten und Sätzen zusammengesetzt werden, wird ein Bewegungsmuster erhalten, das dem Erzeugten entspricht.
  • Polyphone werden weiter von einer zweiten Person registriert, ohne jedoch die Gesichtsbewegungen der zweiten Person zu registrieren. Auch in diesem Falle werden vorzugsweise Unsinnwörter verwendet, es kann aber auch laufender Text verwendet werden. Auf diese Weise wird eine Polyphonbasis für die zweite Person erzeugt. Um eine Bewegungsbasis für die zweite Person zu erzeugen, wird danach die Polyphonbank für das erste Subjekt verwendet. Entsprechende Polyphone in der Polyphonbank und der Polyphonbasis werden in Bezug auf die Dauer der Töne verglichen. Abweichungen in der Dauer werden für die Polyphone registriert, wonach dann entsprechende Bewegungen in der Bewegungsbank abgewandelt werden. Die abgewandelte Bewegung wird danach in einer Bewegungsbasis gespeichert. Die Bewegungsbasis und die Polyphonbasis sind daher miteinander verbunden.
  • Wenn die Animation der zweiten Person durchgeführt werden soll, werden Wörter und Redewendungen erzeugt, indem Halbsilben zusammengesetzt werden, die von den Polyphonen genommen werden. Gleichzeitig wird ein dreidimensionales Polygonmodell mit entsprechenden Bewegungsmustern aufgebaut, die von der Bewegungsbasis genommen worden sind. Das erzeugte Bild besteht aus einem Fadenmodell, wo die Endpunkte in den Polygonen die Messpunkte im Gesicht des ersten Subjekts darstellen.
  • Um ein Bild davon zu schaffen, dass die zweite Person die erzeugte Sprache erzeugt, wird ein Bild der zweiten Person auf das Polyphonmodell angewendet. Das Polygonmodell wird in Verbindung damit abgewandelt, um an Gesichtsformen, Grösse des Mundes und so weiter der zweiten Person anzupassen. Die erzeugte Reproduktion ist dreidimensional und wird gleichzeitig mit der erzeugten Sprache gezeigt, wo dann Sprache und Gesichtsbewegungen gut einander entsprechen. Das aufgezeigte Verfahren erlaubt es jedoch nicht, dass das Bewegungsmuster ganz dem normalen Bewegungsmuster der zweiten Person entspricht, sondern ist durch das Bewegungsmuster der ersten Person gekennzeichnet.
  • Eine Person B spricht eine erste Sprache, die in eine zweite Sprache übersetzt werden soll, oder ein Text wird gegeben und soll der Person B zugeteilt werden. Für die Person B ist eine Polyphonbank erzeugt worden, es sind jedoch keine Bewegungsmuster registriert worden. Die für B registrierten Polyphone werden mit entsprechenden Polyphonen in einer Polyphonbasis mit verknüpften Bewegungsmustern der Person A verglichen. Es wird die genaue Länge der Tonsegmente sowohl in der Polyphonbank als auch in der Polyphonbasis herausgefunden. Die Abweichungen werden registriert, und es wird ein Modelgesicht geschaffen, wobei die Bewegungsmuster von A verwendet werden. Die Bewegungen werden jedoch in Bezug auf die Abweichung zwischen den Polyphonen in der Polyphonbank und der Polyphonbasis abgewandelt. Tonsegmente, die in der Polyphonbank länger sind als in der Polyphonbasis, führen dazu, dass entsprechende Bewegungsmuster im Gesichtsmodell ausgedehnt werden. Für Tonsegmente, die in der Polyphonbank kürzer sind als in der Polyphonbasis, wird eine entsprechende Verkürzung von entsprechenden Bewegungsmustern im Modellgesicht vorgenommen. Eine Basis mit Bewegungsmustern, die mit der Polyphonbank verknüpft ist, wird auf diese Weise geschaffen. Beim Zusammensetzen von Polyphonen von B's Polyphonbank zu Wörtern und Sätzen wird ein Modellgesicht mit Bewegungen erzeugt, die von der Basis mit Bewegungsmustern genommen werden. Die erzeugten Bewegungsmuster entsprechen der Art von B, entsprechende Teile der Polyphone auszusprechen, jedoch mit dem Grundbewegungsmuster von A. Das Gesicht von B kann danach auf das Modell angewendet werden, wobei dann B mit seiner/ihrer eigenen Sprache spricht, aber doch ein Bewegungsmuster zugeteilt bekommen hat, das zu A gehört, wobei dann Bild und Ton einander entsprechen und eine naturgetreue Erfahrung erhalten wird.
  • Die Erfindung ist nicht auf das oben beschriebene Beispiel einer Ausführungsform oder die folgenden Patentansprüche begrenzt, sondern kann innerhalb des Rahmens der Erfindungsidee abgewandelt werden.

Claims (14)

  1. Verfahren zur Sprachsynthese, bei dem erste Polyphone und zugehörige Gewichtsbewegungen von einer ersten Person gespeichert werden und zweite Polyphone von einer zweiten Person gespeichert werden, dadurch gekennzeichnet, dass die Länge der Lautsegmente in den ersten und zweiten Polyphonen verglichen werden, worauf die Gesichtsbewegungen entsprechend der Beziehung zwischen den ersten und zweiten Polyphonen modifiziert werden, dass eine Basis mit modifizierten Gesichtsbewegungen geschaffen wird, und dass die Basis mit modifizierten Gesichtsbewegungen dazu dient, ein Gesichtsmodell mit zugehörigen Lauten zu schaffen, bei denen Bewegungsmuster und Laute einander entsprechen.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Polyphone für die erste Person in einer Polyphonbank gespeichert werden und dass das Bewegungsmuster im Gesicht der ersten Person in einer Bewegungsbank gespeichert wird.
  3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Polyphone für die zweite Person in einer Polyphonbasis gespeichert werden.
  4. Verfahren nach Anspruch 1, 2 und 3, dadurch gekennzeichnet, dass die Dauer der Lautsegmente in entsprechenden Polyphonen in der Polyphonbank und der Polyphonbasis ermittelt werden und dass die Differenz ermittelt wird.
  5. Verfahren nach Anspruch 1, 2, 3 oder 4, dadurch gekennzeichnet, dass das Bewegungsmuster für ein Polyphon von der Bewegungsbank genommen wird und im Hinblick auf die unterschiedliche Dauer der Lautsegmente in den verschiedenen Teilen des Polyphons modifiziert wird.
  6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass das modifizierte Bewegungsmuster in einer Bewegungsbasis gespeichert wird.
  7. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass Polyphone von der Polyphonbasis zu Wörtern und Sätzen zusammengefügt werden und dass das entsprechende Bewegungsmuster aus der Bewegungsbank genommen und auf das Gesichtsmodell angewendet wird, welches ein Bewegungsmuster entsprechend den Wörtern und Sätzen aufweisen wird.
  8. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass das Gesichtsmodell als ein Polygonmodell aufgebaut wird und dass ein Bild der zweiten Person auf das Polygonmodell angewendet wird, wobei die Gesichtsbewegungen der zweiten Person den erzeugten Lauten entsprechen.
  9. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass die Gesichtsbewegungen in dem ersten Gesicht registriert werden durch Markieren einer Anzahl von Punkten in dem ersten Gesicht, und dass die Registrierung der Gesichtsbewegungen gleichzeitig mit der Schallaufzeichnung erfolgt.
  10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass die Gesichtsbewegungen registriert werden mittels einer Lasertechnik, die den markierten Punkten in dem ersten Gesicht folgen kann.
  11. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass das Bild des zweiten Gesichts aus einem stillen oder einem bewegten Bild besteht.
  12. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass das Polygonmodell dreidimensional ist, wobei nach Anlegen des Bildes ein dreidimensionales Bild des realen Gesichts erhalten wird, wobei das dreidimensionale Bild den Gesichtsbewegungen einer Person entspricht, deren Gesicht dem Bild entspricht.
  13. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass Punkte in den Polygonen Bereiche in dem ersten Gesicht repräsentieren, die sich abhängig voneinander bewegen, und dass die Einstellung der Bewegungen der Punkte einerseits sich auf einen Bewegungsumfang bezieht und andererseits darauf, welcher Abstand zwischen den Punkten in dem ersten Gesicht und dem realen Gesicht existiert.
  14. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass das Bild des zweiten Gesichtes eingeführt, übertragen oder von der Datenbank entnommen wird.
DE69817550T 1997-03-25 1998-03-20 Verfahren zur sprachsynthese Expired - Fee Related DE69817550T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
SE9701102A SE519679C2 (sv) 1997-03-25 1997-03-25 Metod vid talsyntes
SE9701102 1997-03-25
PCT/SE1998/000507 WO1998043236A2 (en) 1997-03-25 1998-03-20 Method of speech synthesis

Publications (2)

Publication Number Publication Date
DE69817550D1 DE69817550D1 (de) 2003-10-02
DE69817550T2 true DE69817550T2 (de) 2004-06-17

Family

ID=20406309

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69817550T Expired - Fee Related DE69817550T2 (de) 1997-03-25 1998-03-20 Verfahren zur sprachsynthese

Country Status (9)

Country Link
US (1) US6385580B1 (de)
EP (1) EP0970467B1 (de)
JP (1) JP2001517327A (de)
DE (1) DE69817550T2 (de)
DK (1) DK0970467T3 (de)
EE (1) EE9900420A (de)
NO (1) NO317597B1 (de)
SE (1) SE519679C2 (de)
WO (1) WO1998043236A2 (de)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7369994B1 (en) 1999-04-30 2008-05-06 At&T Corp. Methods and apparatus for rapid acoustic unit selection from a large speech corpus
CN1159702C (zh) 2001-04-11 2004-07-28 国际商业机器公司 具有情感的语音-语音翻译***和方法
JP4495886B2 (ja) * 2001-08-09 2010-07-07 株式会社日立製作所 音声入力認識文例集の管理方法
US7209882B1 (en) * 2002-05-10 2007-04-24 At&T Corp. System and method for triphone-based unit selection for visual speech synthesis
US10708545B2 (en) * 2018-01-17 2020-07-07 Duelight Llc System, method, and computer program for transmitting face models based on face data points
US9607609B2 (en) * 2014-09-25 2017-03-28 Intel Corporation Method and apparatus to synthesize voice based on facial structures
CN110730952B (zh) * 2017-11-03 2021-08-31 腾讯科技(深圳)有限公司 处理网络上的音频通信的方法和***

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8528143D0 (en) * 1985-11-14 1985-12-18 British Telecomm Image encoding & synthesis
JP2518683B2 (ja) 1989-03-08 1996-07-24 国際電信電話株式会社 画像合成方法及びその装置
GB9019829D0 (en) * 1990-09-11 1990-10-24 British Telecomm Speech analysis and image synthesis
SE9301596L (sv) * 1993-05-10 1994-05-24 Televerket Anordning för att öka talförståelsen vid översätttning av tal från ett första språk till ett andra språk
SE516526C2 (sv) * 1993-11-03 2002-01-22 Telia Ab Metod och anordning vid automatisk extrahering av prosodisk information
US5657426A (en) * 1994-06-10 1997-08-12 Digital Equipment Corporation Method and apparatus for producing audio-visual synthetic speech
AU3668095A (en) 1994-11-07 1996-05-16 At & T Corporation Acoustic-assisted image processing
SE519244C2 (sv) * 1995-12-06 2003-02-04 Telia Ab Anordning och metod vid talsyntes
SE9600959L (sv) 1996-03-13 1997-09-14 Telia Ab Metod och anordning vid tal-till-talöversättning
US6208356B1 (en) * 1997-03-24 2001-03-27 British Telecommunications Public Limited Company Image synthesis

Also Published As

Publication number Publication date
SE9701102D0 (sv) 1997-03-25
DK0970467T3 (da) 2003-12-15
EE9900420A (et) 2000-04-17
NO994600D0 (no) 1999-09-22
US6385580B1 (en) 2002-05-07
NO317597B1 (no) 2004-11-22
WO1998043236A2 (en) 1998-10-01
DE69817550D1 (de) 2003-10-02
WO1998043236A3 (en) 1998-12-23
NO994600L (no) 1999-11-23
SE9701102L (sv) 1998-09-26
EP0970467B1 (de) 2003-08-27
SE519679C2 (sv) 2003-03-25
JP2001517327A (ja) 2001-10-02
EP0970467A2 (de) 2000-01-12

Similar Documents

Publication Publication Date Title
DE69632901T2 (de) Vorrichtung und Verfahren zur Sprachsynthese
Jilka The contribution of intonation to the perception of foreign accent
DE69719270T2 (de) Sprachsynthese unter Verwendung von Hilfsinformationen
DE69909716T2 (de) Formant Sprachsynthetisierer unter Verwendung von Verkettung von Halbsilben mit unabhängiger Überblendung im Filterkoeffizienten- und Quellenbereich
DE60112512T2 (de) Kodierung von Ausdruck in Sprachsynthese
DE69821673T2 (de) Verfahren und Vorrichtung zum Editieren synthetischer Sprachnachrichten, sowie Speichermittel mit dem Verfahren
DE60119496T2 (de) Verfahren und Vorrichtung um eine mittels eines Klangs übermittelte Emotion zu synthetisieren
Martin et al. Short-term retention of lexical-semantic representations: Implications for speech production
DE69526805T2 (de) Verfahren und vorrichtung zur verbesserung des sprachverständnisses bei sprachbehinderten personen
EP0886853B1 (de) Auf mikrosegmenten basierendes sprachsyntheseverfahren
DE60216069T2 (de) Sprache-zu-sprache erzeugungssystem und verfahren
DE60014833T2 (de) Sprachverarbeitung
DE69506037T2 (de) Audioausgabeeinheit und Methode
DE2212472A1 (de) Verfahren und Anordnung zur Sprachsynthese gedruckter Nachrichtentexte
DE60019248T2 (de) Sprachgesteuertes Mundanimationssystem
DE69816049T2 (de) Vorrichtung und verfahren zur prosodie-erzeugung bei der visuellen synthese
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
Ferrand et al. The syllable’s role in speech production: Are syllables chunks, schemas, or both?
DE69817550T2 (de) Verfahren zur sprachsynthese
DE69318209T2 (de) Verfahren und Anordnung zur Sprachsynthese
DE69425874T2 (de) Verfahren und Anordnung zur automatischen Extraktion prosodischer Information
DE4441906C2 (de) Anordnung und Verfahren für Sprachsynthese
WO2000016310A1 (de) Vorrichtung und verfahren zur digitalen sprachbearbeitung
DE69816078T2 (de) Verbesserungen im bezug auf visuelle sprachsynthese
DE69721539T2 (de) Syntheseverfahren für stimmlose konsonanten

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee