NO317597B1 - Fremgangsmate for talesyntese - Google Patents

Fremgangsmate for talesyntese Download PDF

Info

Publication number
NO317597B1
NO317597B1 NO19994600A NO994600A NO317597B1 NO 317597 B1 NO317597 B1 NO 317597B1 NO 19994600 A NO19994600 A NO 19994600A NO 994600 A NO994600 A NO 994600A NO 317597 B1 NO317597 B1 NO 317597B1
Authority
NO
Norway
Prior art keywords
face
accordance
person
polyphones
movement
Prior art date
Application number
NO19994600A
Other languages
English (en)
Other versions
NO994600D0 (no
NO994600L (no
Inventor
Bertil Lyberg
Mats Wiren
Original Assignee
Teliasonera Ab Publ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Teliasonera Ab Publ filed Critical Teliasonera Ab Publ
Publication of NO994600D0 publication Critical patent/NO994600D0/no
Publication of NO994600L publication Critical patent/NO994600L/no
Publication of NO317597B1 publication Critical patent/NO317597B1/no

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Processing Or Creating Images (AREA)
  • Display Devices Of Pinball Game Machines (AREA)
  • Stringed Musical Instruments (AREA)
  • Adornments (AREA)

Description

Den foreliggende oppfinnelsen vedrører en fremgangsmåte ved talesyntese, hvor det lagres første polyfoner og tilhørende ansiktsbevegelser fra en første person, og det lagres andre polyfoner fra en andre person. Oppfinnelsen er tiltenkt å anvendes i forbindelser hvor en persons ansiktsbevegelser skal reproduseres samtidig med den frembrakte lyd.
Under talesynteser er det nødvendig å synkronisere talen med ansiktsbevegelsene til en talende person. I patentsøknad 9504367-5 er det beskrevet hvordan bevegel-sesmønsteret i et ansikt registreres og lagres sammen med en polyfonsamling (lyder) ved sammenkjedingssynteser basert på halvstavelser. Registreringen av bevegelsesmønsteret av halvstavelser til individet (personen) etter dette influ-erer på punktene i en polygonmodell av ansiktet. En annen tekstur, dvs. et annet ansikt, kan anbringes over polygonmodellen og ut fra dette oppnås leppe- og ansiktsbevegelser fra polyfonsynteser.
Med den beskrevne modellen er det nødvendig at stemmene til menn, kvinner og barn registreres separat. Slike prosedyrer er kostbare og omstendelige.
Videre er det kjent fra GB 2231246 A et system og fremgangsmåte for syntese av et bevegelig ansiktsbilde, der de forskjellige bevegelser av munn i ansiktet samsvarer med forskjellige foner og deres varighet som er lagret i systemet. EP 0710929 A2 beskriver et system og fremgangsmåte for generering av visuelle synteser av ansiktsanima-sjoner fra tale, hvor det i systemet lagres et antall foner i en tale og deres tilhørende bevegelsesmønster av ansiktet i et lager. Bevegelsesmønsteret er bygd på et antall utvalgte punkter i ansiktet som benyttes til å modellere ansiktsbevegelser i samsvar med talen.
Oppfinnelsen er kjennetegnet ved den karakteristiske delen av det selvstendige krav 1, mens foretrukne alter-native utførelser er kjennetegnet ved de uselvstendige kravene 2-14.
Den foreliggende oppfinnelse vedrører følgelig en fremgangsmåte for talesynteser for reprodusering av ansiktsbevegelsene til en person som har blitt tillagt en tale ved hjelp av talesyntese. Talen sammensettes av polyfoner som hentes ut fra en database. Det etableres videre en databank som inneholder polyfonene med de til polyfonene hørende bevegelsesmønstre i ansiktet til en første person. Polyfoner fra en andre person registreres deretter og lagres i en database. Lydsegmentene i korresponderende polyfoner i databanken og databasen sammenlignes, og ansiktsbevegelsene i databanken modifiseres i samsvar med avviket. De modifiserte bevegel-sesmønstre lagres i databasen og relateres til det aktuelle polyfon. De registrerte polyfoner anvendes deretter til å sammensette ord og setninger samtidig som at korresponderende bevegelsesmønstre bygger opp en ansiktsmodell utfra bevegelsesmønstrene i databasen.
Talen fra et individ (person) registreres samtidig som at individets bevegelsesmønster registreres. Den registrerte tale består fortrinnsvis av ord uten mening hvorfra polyfoner, halvstavelser, utsorteres. De registrerte polyfoner lagres i en polyfonbank. Til hver polyfon lagres videre, i en bevegelsesbank, individets ansiktsbevegelser. For en andre person registreres det polyfoner i en polyfonbase på tilsvarende måte. Den andre persons ansiktsbevegelser registreres imidlertid ikke. Deretter gjennom-føres det en sammenligning mellom lydsegmentene i korresponderende polyfoner mellom polyfonbasen og polyfonbanken. Deretter anvendes de registrerte forskjeller til å modi-fisere det aktuelle bevegelsesmønster i bevegelsesbanken, hvorved det oppnås en modell med et bevegelsesmønster som korresponderer med den andre talerens uttalelse av polyfonene. Det modifiserte bevegelsesmønster lagres i en bevegelsesbase. Etter at polyfonene fra polyfonbasen er sammensatt, anvendes bevegelsesbasen til å skape en ansiktsmodell, hvor dennes bevegelser korresponderer med måten den talende person taler. Den opprettede modell består av en polygonmodell basert på bevegelsesmønsteret fra bevegelsesmønsteret til det første individ. For å skape et bilde av det den andre person taler, tilpasses bildet av taleren til modellen. Polygonmodellen blir deretter modifi-sert for å tilpasses til en andre person. Bildet som er tillagt personen kan omfatte stillbilder eller bevegelige bilder som er lagret i databasen eller er overført via, f.eks., telekommunikasjonsnettet. På denne måte skapes det et tredimensjonalt bilde.
De registrerte bevegelsene i det første ansikt består av punkter som er arrangert i en tredimensjonal ansiktsmodell. Ansiktsmodellen består av et antall polygoner sammensatt av punkter. Punktene består av målepunkter i individets ansikt, hvilke punkter registreres under registrering av lyder/polyfoner. Registreringen av punktene i individets ansikt utføres fortrinnsvis ved at utvalgte punkter i individets ansikt markeres. Deretter registreres punktene ved hjelp av, f.eks. laserteknologi, og det opprettes en bank over lyder og bevegelsesmønstre.
Oppfinnelsens anvendelsesområde er alle tilfeller hvor en reproduksjon av lyd/tale skal gi et naturtro bevegelses-mønster i ansiktet til en talende person. Det kan f.eks. relateres til en person som taler et første språk, men som ved hjelp av talesyntese presenteres talende et andre språk. Slike forhold bør i fremtiden assosieres med telefoni hvor telekommunikasjonssystemet eller utstyret til den person som ringer, oversetter talen og presenterer den talende person billedmessig. Oppfinnelsens anvendelsesområde er imidlertid ikke utelukkende telefoni, men alle forbindelser hvor en første tale som produseres av en person skal oversettes og reproduseres i et andre språk med naturtro ansiktsbevegelser.
Den angitte oppfinnelse muliggjør at det kan anvendes en billigere prosedyre for å animere en tale med et tilhør-ende ansikt. Dette anvendes f.eks. ved oversettelse av en talende persons tale ved oversettelse fra et første språk til et andre språk. Ved registrering er det kun nødvendig med et individ som anvendes for å fremstille basisbevegel-sene i ansiktet. Personen/personene som skal låne bevegel-sesmønsteret fra individet trenger kun å registrere et antall lydsekvenser hvorfra det kan uttrekkes polyfoner. Ved å registrere polyfoner og tilhørende ansiktsbevegelser til et passende utvalg av personer, kan det opprettes en bank som kan anvendes under forskjellige situasjoner for animering av ulike ansikter. De registrerte ansikter kan f.eks. relatere til forskjellige personer i forskjellige aldre og av ulike kjønn. Figur 1 viser hvordan ansiktsbevegelsene registreres. Figur 2 viser hvordan det bygges opp en polygonmodell.
I det etterfølgende skal oppfinnelsen beskrives på basis av figurene og deres betegnelser.
Registrering av lyder med tilhørende bevegelsesmønstre i individets ansikt gjennomføres ved å anvende, f.eks. ord uten mening, eller fra en løpende tekst. Anvendelse av ord uten mening har den fordelen at individet både under dannelsen av ordene så vel som med sitt ansiktsuttrykk inntar en nøytral posisjon. Ordene uten mening består prin-sipielt av enstavelsesord som inndeles i halvstavelser. Halvstavelsene kobles sammen til ord og setninger. Koblingen mellom to halvstavelser gjennomføres i midten ved vokalen for respektive halvstavelse. Orddannelsen gjennom-føres ifølge det følgende; først finner man ut de halvstavelser som skal være deler av ordet, så vel som beton-ingen av det aktuelle ord. Et enkelt ord, f.eks. "nod"
(nu:d) inndeles i de følgende stavelser, "no", "od". Koblingen av "no" og "od" gjennomføres deretter via vokalen "o". Fra språkordboken innhentes så informasjon om ordets leksikale aksent. Deretter settes lydene sammen til ord og setninger hvor aksenten til hvert ord produseres, og hele setningens setningsintonasjon bestemmes. En oppbygning av
ord og setninger ifølge denne prosedyre er tidligere kjent og beskrevet i blant annet patentdokumentet SE 9504367-5. For å opprette en polyfonbank, anvendes det et individ som taler et stort antall ord, f.eks. ord uten mening. Alterna-tivt kan det anvendes løpende tekst. Samtidig som at en registrerer ordene, registrerer en også individets ansiktsbevegelser. Disse ansiktsbevegelser lagres i en bevegelsesbase. De registrerte ordene inndeles i polyfoner, halvstavelser sammen med korresponderende bevegelser. På denne måte opprettes det en forbindelse mellom polyfonene og korresponderende bevegelser.
Registrering av ansiktsbevegelser gjennomføres ved å markere forskjellige punkter i individets ansikt. Punktene plasseres tettere hvor det skjer store endringer, og med større avstand i områder hvor det er mindre avvik i bevegelser. Områder med store avvik er f.eks. området rundt leppene, og bevegelsen av leppene. Hvert av punktene gis en posisjon i en tredimensjonal reproduksjon av individet. Bildet består kun av en polygonmodell av ansiktet. Ved å koordinere modellen med polyfonene som sammensettes til ord og setninger, frembringes det et bevegelsesmønster som korresponderer med det produserte.
Det registreres ytterligere polyfoner fra en andre person, imidlertid uten å registrere ansiktsbevegelsene til den andre personen. Også i dette tilfellet anvendes det ord fortrinnsvis uten mening, men det kan også anvendes en bevegende tekst. På denne måte opprettes det en polyfonbase for den andre personen. For å lage en bevegelsesbase for den andre person, anvendes deretter polyfonbanken for det første individ. Korresponderende polyfoner i polyfonbanken og polyfonbasen sammenlignes med hensyn til varigheten av lydene. Avvik i varighet registreres for polyfonene hvor-etter korresponderende bevegelser i bevegelsesbanken modifiseres. Den modifiserte bevegelse lagres deretter i bevegelsesbasen. Bevegelsesbasen og polyfonbasen kobles deretter til hverandre.
Når den andre person skal animeres, produseres ord og fraser ved å sammensette halvstavelsene tatt fra polyfon ene. Samtidig bygges det opp en tredimensjonal polygonmodell med korresponderende bevegelsesmønstre som er hentet ut fra bevegelsesbasen. Det skapte bildet består av en trådmodell hvor endepunktene i polygonene representerer målepunktene i ansiktet til det første individ.
For å skape et bilde av at den andre person produserer den produserte tale, appliseres et bilde av den andre person til polyfonmodellen. Polygonmodellen modifiseres i forbindelse med dette for å justere ansiktsformene, munn-størrelsen etc, til den andre personen. Den produserte reproduksjon er tredimensjonal og vises simultant med den produserte tale, hvormed tale og ansiktsbevegelser sam-stemmer godt. Den angitte metode muliggjør imidlertid ikke at bevegelsesmønsteret helt korresponderer med den andre persons normale bevegelsesmønster, men erkarakterisertav bevegelsesmønsteret til den første person.
En person B taler et første språk som skal oversettes til et andre språk, eller en tekst gis og skal tildeles personen B. For personen B opprettes det en polyfonbank, men det er ikke registrert noen bevegelsesmønstre. Polyfonene registrert for B sammenlignes med korresponderende polyfoner i en polyfonbase med tilhørende bevegelses-mønsteret til en person A. Den eksakte lengde til lydsegmentene finnes ut både fra polyfonbanken og polyfonbasen. Avvikene registreres og et modellansikt skapes hvor beveg-elsesmønstrene fra A anvendes. Bevegelsene modifiseres imidlertid i relasjon til avviket mellom polyfonene i polyfonbanken og polyfonbasen. Lydsegmentene som er lengre i polyfonbanken enn i polyfonbasen resulterer i at korresponderende bevegelsesmønster i ansiktsmodellen forlenges. For lydsegmenter som er kortere i polyfonbanken enn i polyfonbasen, gjennomføres det en korresponderende reduksjon i korresponderende bevegelsesmønster i modellansiktet. På denne måte opprettes det en base med bevegelsesmønsteret assosiert med polyfonbanken. Ved å sammensette polyfoner fra B's polyfonbank til ord og setninger, produseres det et modellansikt med bevegelser tatt fra basen med bevegelses-mønstrene. De produserte bevegelsesmønstre korresponderer med B's måte å uttale korresponderende deler av polyfonene, men med A's grunnleggende bevegelsesmønster. B's ansikt tilpasses deretter til modellen, hvormed B taler med hans/- hennes egen stemme, men tildeles et bevegelsesmønster som hører til A, hvorved bilde og lyd korresponderer med hverandre, og det oppnås en virkelighetstro opplevelse. Oppfinnelsen skal ikke begrenses til det ovenfor beskrevne utførelseseksempel, eller til de etterfølgende patentkrav, men skal kunne underkastes modifiseringer innenfor rammen for oppfinnelsens idé.

Claims (14)

1. Fremgangsmåte ved talesyntese, hvor det lagres første polyfoner og tilhørende ansiktsbevegelser fra en første person, og det lagres andre polyfoner fra en andre person,karakterisert vedat lengden til lydsegmentene i de første og andre polyfoner sammenlignes, hvorved ansiktsbevegelsene modifiseres i forhold til relasjonen mellom de første og andre polyfoner, og at det opprettes en base med modifiserte ansiktsbevegelser, og at basen med modifiserte ansiktsbevegelser for å skape en ansiktsmodell med tilhørende lyder hvor bevegelsesmønstre og lyder samsvarer .
2. Fremgangsmåte i samsvar med krav 1,karakterisert vedat polyfonene for den første person lagres i en polyfonbank, og at bevegelses-mønsteret i ansiktet til den første person lagres i en bevege1sesbank.
3. Fremgangsmåte i samsvar med krav 1,karakterisert vedat polyfonene for den andre person lagres i en polyfonbase.
4. Fremgangsmåte i samsvar med krav 1, 2 og 3,karakterisert vedat varigheten til lydsegmentene i korresponderende polyfoner i polyfonbanken og polyfonbasen finnes, og at forskjellen finnes.
5. Fremgangsmåte i samsvar med krav 1, 2 og/eller 4,karakterisert vedat bevegelsesmønsteret for et polyfon hentes fra bevegelsesbanken og modifiseres med hensyn til varighetsforskjellen i lydsegmentene i ulike deler av polyfonen.
6. Fremgangsmåte i samsvar med krav 5,karakterisert vedat det modifiserte bevegelsesmønster lagres i en bevegelsesbase.
7. Fremgangsmåte i samsvar med et av de foregående krav,karakterisert vedat polyfonene fra polyfonbasen settes sammen til ord og setninger og at korresponderende bevegelsesmønster hentes fra bevegelsesbanken og tilpasses til ansiktsmodellen, som vil ha et bevegelses-mønster som korresponderer til ordene og setningene.
8. Fremgangsmåte i samsvar med et av de foregående krav,karakterisert vedat ansiktsmodellen er bygget opp i en polygon modell og at et bilde av den andre person tilpasses til polygonmodellen, hvorved ansiktsbevegelsene til den andre person korresponderer med de produserte lyder.
9. Fremgangsmåte i samsvar med et av de foregående krav,karakterisert vedat ansiktsbevegelsene i det første ansikt registreres ved markering av et antall punkter i det første ansikt, og at registrering av ansiktsbevegelsene gjennomføres samtidig som at lydregistreringen gjennomføres.
10. Fremgangsmåte i samsvar med krav 9,karakterisert vedat ansiktsbevegelsene registreres ved hjelp av laserteknologi, som kan følge de merkede punkter i det første ansikt.
11. Fremgangsmåte i samsvar med et av de foregående krav,karakterisert vedat bildet av det andre ansikt omfatter et stillbilde eller et bevegelig bilde.
12. Fremgangsmåte i samsvar med et av de foregående krav,karakterisert vedat polygonmodellen er tredimensjonal hvorved det, etter applisering av bildet, frembringes et tredimensjonalt bilde av det reelle ansikt, hvilket andre bilde korresponderer med ansiktsbevegelsene til en person hvis ansikt korresponderer med bildet.
13. Fremgangsmåte i samsvar med et av de foregående krav,karakterisert vedat punktene i polygonene representerer områder i det første ansikt som beveger seg i avhengighet av hverandre, og at reguleringen av bevegelsene i punktene på den ene side relateres til et bevegelses-område, og på den andre side til distansen mellom punktene i det første ansikt og det virkelige ansikt.
14. Fremgangsmåte i samsvar med et av de foregående krav,karakterisert vedat bildet av den andre ansikt introduseres, overføres eller tas fra databasen.
NO19994600A 1997-03-25 1999-09-22 Fremgangsmate for talesyntese NO317597B1 (no)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
SE9701102A SE519679C2 (sv) 1997-03-25 1997-03-25 Metod vid talsyntes
PCT/SE1998/000507 WO1998043236A2 (en) 1997-03-25 1998-03-20 Method of speech synthesis

Publications (3)

Publication Number Publication Date
NO994600D0 NO994600D0 (no) 1999-09-22
NO994600L NO994600L (no) 1999-11-23
NO317597B1 true NO317597B1 (no) 2004-11-22

Family

ID=20406309

Family Applications (1)

Application Number Title Priority Date Filing Date
NO19994600A NO317597B1 (no) 1997-03-25 1999-09-22 Fremgangsmate for talesyntese

Country Status (9)

Country Link
US (1) US6385580B1 (no)
EP (1) EP0970467B1 (no)
JP (1) JP2001517327A (no)
DE (1) DE69817550T2 (no)
DK (1) DK0970467T3 (no)
EE (1) EE9900420A (no)
NO (1) NO317597B1 (no)
SE (1) SE519679C2 (no)
WO (1) WO1998043236A2 (no)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7369994B1 (en) 1999-04-30 2008-05-06 At&T Corp. Methods and apparatus for rapid acoustic unit selection from a large speech corpus
CN1159702C (zh) 2001-04-11 2004-07-28 国际商业机器公司 具有情感的语音-语音翻译***和方法
JP4495886B2 (ja) * 2001-08-09 2010-07-07 株式会社日立製作所 音声入力認識文例集の管理方法
US7209882B1 (en) * 2002-05-10 2007-04-24 At&T Corp. System and method for triphone-based unit selection for visual speech synthesis
US10708545B2 (en) * 2018-01-17 2020-07-07 Duelight Llc System, method, and computer program for transmitting face models based on face data points
US9607609B2 (en) * 2014-09-25 2017-03-28 Intel Corporation Method and apparatus to synthesize voice based on facial structures
CN110730952B (zh) * 2017-11-03 2021-08-31 腾讯科技(深圳)有限公司 处理网络上的音频通信的方法和***

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8528143D0 (en) * 1985-11-14 1985-12-18 British Telecomm Image encoding & synthesis
JP2518683B2 (ja) 1989-03-08 1996-07-24 国際電信電話株式会社 画像合成方法及びその装置
GB9019829D0 (en) * 1990-09-11 1990-10-24 British Telecomm Speech analysis and image synthesis
SE9301596L (sv) * 1993-05-10 1994-05-24 Televerket Anordning för att öka talförståelsen vid översätttning av tal från ett första språk till ett andra språk
SE516526C2 (sv) * 1993-11-03 2002-01-22 Telia Ab Metod och anordning vid automatisk extrahering av prosodisk information
US5657426A (en) * 1994-06-10 1997-08-12 Digital Equipment Corporation Method and apparatus for producing audio-visual synthetic speech
AU3668095A (en) 1994-11-07 1996-05-16 At & T Corporation Acoustic-assisted image processing
SE519244C2 (sv) * 1995-12-06 2003-02-04 Telia Ab Anordning och metod vid talsyntes
SE9600959L (sv) 1996-03-13 1997-09-14 Telia Ab Metod och anordning vid tal-till-talöversättning
US6208356B1 (en) * 1997-03-24 2001-03-27 British Telecommunications Public Limited Company Image synthesis

Also Published As

Publication number Publication date
SE9701102D0 (sv) 1997-03-25
DK0970467T3 (da) 2003-12-15
EE9900420A (et) 2000-04-17
NO994600D0 (no) 1999-09-22
US6385580B1 (en) 2002-05-07
WO1998043236A2 (en) 1998-10-01
DE69817550D1 (de) 2003-10-02
WO1998043236A3 (en) 1998-12-23
NO994600L (no) 1999-11-23
DE69817550T2 (de) 2004-06-17
SE9701102L (sv) 1998-09-26
EP0970467B1 (en) 2003-08-27
SE519679C2 (sv) 2003-03-25
JP2001517327A (ja) 2001-10-02
EP0970467A2 (en) 2000-01-12

Similar Documents

Publication Publication Date Title
NO311546B1 (no) Anordning og fremgangsmåte ved talesyntese
EP0831460B1 (en) Speech synthesis method utilizing auxiliary information
Klatt Review of text‐to‐speech conversion for English
CN113781610B (zh) 一种虚拟人脸的生成方法
Attina et al. A pilot study of temporal organization in Cued Speech production of French syllables: rules for a Cued Speech synthesizer
JP2008052628A (ja) アニメーションデータ作成装置及びアニメーションデータ作成プログラム
NO317597B1 (no) Fremgangsmate for talesyntese
US6389396B1 (en) Device and method for prosody generation at visual synthesis
Železný et al. Design, implementation and evaluation of the Czech realistic audio-visual speech synthesis
JP2003337592A (ja) 音声合成方法及び音声合成装置及び音声合成プログラム
Ouni et al. Training Baldi to be multilingual: A case study for an Arabic Badr
Brooke et al. Two-and three-dimensional audio-visual speech synthesis
Minnis et al. Modeling visual coarticulation in synthetic talking heads using a lip motion unit inventory with concatenative synthesis
KR100754430B1 (ko) 음성 기반 자동 립싱크 애니메이션 장치와 방법 및 기록매체
Bailly et al. Lip-synching using speaker-specific articulation, shape and appearance models
Ekpenyong et al. Unsupervised visualization of Under-resourced speech prosody
JP2003296753A (ja) 聴覚障害者用対話システム
Theobald et al. 2.5 D Visual Speech Synthesis Using Appearance Models.
GB2328849A (en) System for animating virtual actors using linguistic representations of speech for visual realism.
Kato et al. CV-Mora Based Lip Sync Facial Animations for Japanese Speech
Brooke Computational aspects of visual speech: machines that can speechread and simulate talking faces
Safabakhsh et al. AUT-Talk: a farsi talking head
Hirose et al. Superpositional modeling of fundamental frequency contours for HMM-based speech synthesis
Fanelli et al. Acquisition of a 3d audio-visual corpus of affective speech
Theobald et al. Evaluation of a talking head based on appearance models