NO317597B1

NO317597B1 - Fremgangsmate for talesyntese

Info

Publication number: NO317597B1
Application number: NO19994600A
Authority: NO
Inventors: Bertil Lyberg; Mats Wiren
Original assignee: Teliasonera Ab Publ
Priority date: 1997-03-25
Filing date: 1999-09-22
Publication date: 2004-11-22
Also published as: SE9701102D0; DK0970467T3; EE9900420A; NO994600D0; US6385580B1; WO1998043236A2; DE69817550D1; WO1998043236A3; NO994600L; DE69817550T2; SE9701102L; EP0970467B1; SE519679C2; JP2001517327A; EP0970467A2

Description

Den foreliggende oppfinnelsen vedrører en fremgangsmåte ved talesyntese, hvor det lagres første polyfoner og tilhørende ansiktsbevegelser fra en første person, og det lagres andre polyfoner fra en andre person. Oppfinnelsen er tiltenkt å anvendes i forbindelser hvor en persons ansiktsbevegelser skal reproduseres samtidig med den frembrakte lyd.

Under talesynteser er det nødvendig å synkronisere talen med ansiktsbevegelsene til en talende person. I patentsøknad 9504367-5 er det beskrevet hvordan bevegel-sesmønsteret i et ansikt registreres og lagres sammen med en polyfonsamling (lyder) ved sammenkjedingssynteser basert på halvstavelser. Registreringen av bevegelsesmønsteret av halvstavelser til individet (personen) etter dette influ-erer på punktene i en polygonmodell av ansiktet. En annen tekstur, dvs. et annet ansikt, kan anbringes over polygonmodellen og ut fra dette oppnås leppe- og ansiktsbevegelser fra polyfonsynteser.

Med den beskrevne modellen er det nødvendig at stemmene til menn, kvinner og barn registreres separat. Slike prosedyrer er kostbare og omstendelige.

Videre er det kjent fra GB 2231246 A et system og fremgangsmåte for syntese av et bevegelig ansiktsbilde, der de forskjellige bevegelser av munn i ansiktet samsvarer med forskjellige foner og deres varighet som er lagret i systemet. EP 0710929 A2 beskriver et system og fremgangsmåte for generering av visuelle synteser av ansiktsanima-sjoner fra tale, hvor det i systemet lagres et antall foner i en tale og deres tilhørende bevegelsesmønster av ansiktet i et lager. Bevegelsesmønsteret er bygd på et antall utvalgte punkter i ansiktet som benyttes til å modellere ansiktsbevegelser i samsvar med talen.

Oppfinnelsen er kjennetegnet ved den karakteristiske delen av det selvstendige krav 1, mens foretrukne alter-native utførelser er kjennetegnet ved de uselvstendige kravene 2-14.

Den foreliggende oppfinnelse vedrører følgelig en fremgangsmåte for talesynteser for reprodusering av ansiktsbevegelsene til en person som har blitt tillagt en tale ved hjelp av talesyntese. Talen sammensettes av polyfoner som hentes ut fra en database. Det etableres videre en databank som inneholder polyfonene med de til polyfonene hørende bevegelsesmønstre i ansiktet til en første person. Polyfoner fra en andre person registreres deretter og lagres i en database. Lydsegmentene i korresponderende polyfoner i databanken og databasen sammenlignes, og ansiktsbevegelsene i databanken modifiseres i samsvar med avviket. De modifiserte bevegel-sesmønstre lagres i databasen og relateres til det aktuelle polyfon. De registrerte polyfoner anvendes deretter til å sammensette ord og setninger samtidig som at korresponderende bevegelsesmønstre bygger opp en ansiktsmodell utfra bevegelsesmønstrene i databasen.

Talen fra et individ (person) registreres samtidig som at individets bevegelsesmønster registreres. Den registrerte tale består fortrinnsvis av ord uten mening hvorfra polyfoner, halvstavelser, utsorteres. De registrerte polyfoner lagres i en polyfonbank. Til hver polyfon lagres videre, i en bevegelsesbank, individets ansiktsbevegelser. For en andre person registreres det polyfoner i en polyfonbase på tilsvarende måte. Den andre persons ansiktsbevegelser registreres imidlertid ikke. Deretter gjennom-føres det en sammenligning mellom lydsegmentene i korresponderende polyfoner mellom polyfonbasen og polyfonbanken. Deretter anvendes de registrerte forskjeller til å modi-fisere det aktuelle bevegelsesmønster i bevegelsesbanken, hvorved det oppnås en modell med et bevegelsesmønster som korresponderer med den andre talerens uttalelse av polyfonene. Det modifiserte bevegelsesmønster lagres i en bevegelsesbase. Etter at polyfonene fra polyfonbasen er sammensatt, anvendes bevegelsesbasen til å skape en ansiktsmodell, hvor dennes bevegelser korresponderer med måten den talende person taler. Den opprettede modell består av en polygonmodell basert på bevegelsesmønsteret fra bevegelsesmønsteret til det første individ. For å skape et bilde av det den andre person taler, tilpasses bildet av taleren til modellen. Polygonmodellen blir deretter modifi-sert for å tilpasses til en andre person. Bildet som er tillagt personen kan omfatte stillbilder eller bevegelige bilder som er lagret i databasen eller er overført via, f.eks., telekommunikasjonsnettet. På denne måte skapes det et tredimensjonalt bilde.

De registrerte bevegelsene i det første ansikt består av punkter som er arrangert i en tredimensjonal ansiktsmodell. Ansiktsmodellen består av et antall polygoner sammensatt av punkter. Punktene består av målepunkter i individets ansikt, hvilke punkter registreres under registrering av lyder/polyfoner. Registreringen av punktene i individets ansikt utføres fortrinnsvis ved at utvalgte punkter i individets ansikt markeres. Deretter registreres punktene ved hjelp av, f.eks. laserteknologi, og det opprettes en bank over lyder og bevegelsesmønstre.

Oppfinnelsens anvendelsesområde er alle tilfeller hvor en reproduksjon av lyd/tale skal gi et naturtro bevegelses-mønster i ansiktet til en talende person. Det kan f.eks. relateres til en person som taler et første språk, men som ved hjelp av talesyntese presenteres talende et andre språk. Slike forhold bør i fremtiden assosieres med telefoni hvor telekommunikasjonssystemet eller utstyret til den person som ringer, oversetter talen og presenterer den talende person billedmessig. Oppfinnelsens anvendelsesområde er imidlertid ikke utelukkende telefoni, men alle forbindelser hvor en første tale som produseres av en person skal oversettes og reproduseres i et andre språk med naturtro ansiktsbevegelser.

Den angitte oppfinnelse muliggjør at det kan anvendes en billigere prosedyre for å animere en tale med et tilhør-ende ansikt. Dette anvendes f.eks. ved oversettelse av en talende persons tale ved oversettelse fra et første språk til et andre språk. Ved registrering er det kun nødvendig med et individ som anvendes for å fremstille basisbevegel-sene i ansiktet. Personen/personene som skal låne bevegel-sesmønsteret fra individet trenger kun å registrere et antall lydsekvenser hvorfra det kan uttrekkes polyfoner. Ved å registrere polyfoner og tilhørende ansiktsbevegelser til et passende utvalg av personer, kan det opprettes en bank som kan anvendes under forskjellige situasjoner for animering av ulike ansikter. De registrerte ansikter kan f.eks. relatere til forskjellige personer i forskjellige aldre og av ulike kjønn. Figur 1 viser hvordan ansiktsbevegelsene registreres. Figur 2 viser hvordan det bygges opp en polygonmodell.

I det etterfølgende skal oppfinnelsen beskrives på basis av figurene og deres betegnelser.

Registrering av lyder med tilhørende bevegelsesmønstre i individets ansikt gjennomføres ved å anvende, f.eks. ord uten mening, eller fra en løpende tekst. Anvendelse av ord uten mening har den fordelen at individet både under dannelsen av ordene så vel som med sitt ansiktsuttrykk inntar en nøytral posisjon. Ordene uten mening består prin-sipielt av enstavelsesord som inndeles i halvstavelser. Halvstavelsene kobles sammen til ord og setninger. Koblingen mellom to halvstavelser gjennomføres i midten ved vokalen for respektive halvstavelse. Orddannelsen gjennom-føres ifølge det følgende; først finner man ut de halvstavelser som skal være deler av ordet, så vel som beton-ingen av det aktuelle ord. Et enkelt ord, f.eks. "nod"

(nu:d) inndeles i de følgende stavelser, "no", "od". Koblingen av "no" og "od" gjennomføres deretter via vokalen "o". Fra språkordboken innhentes så informasjon om ordets leksikale aksent. Deretter settes lydene sammen til ord og setninger hvor aksenten til hvert ord produseres, og hele setningens setningsintonasjon bestemmes. En oppbygning av

ord og setninger ifølge denne prosedyre er tidligere kjent og beskrevet i blant annet patentdokumentet SE 9504367-5. For å opprette en polyfonbank, anvendes det et individ som taler et stort antall ord, f.eks. ord uten mening. Alterna-tivt kan det anvendes løpende tekst. Samtidig som at en registrerer ordene, registrerer en også individets ansiktsbevegelser. Disse ansiktsbevegelser lagres i en bevegelsesbase. De registrerte ordene inndeles i polyfoner, halvstavelser sammen med korresponderende bevegelser. På denne måte opprettes det en forbindelse mellom polyfonene og korresponderende bevegelser.

Registrering av ansiktsbevegelser gjennomføres ved å markere forskjellige punkter i individets ansikt. Punktene plasseres tettere hvor det skjer store endringer, og med større avstand i områder hvor det er mindre avvik i bevegelser. Områder med store avvik er f.eks. området rundt leppene, og bevegelsen av leppene. Hvert av punktene gis en posisjon i en tredimensjonal reproduksjon av individet. Bildet består kun av en polygonmodell av ansiktet. Ved å koordinere modellen med polyfonene som sammensettes til ord og setninger, frembringes det et bevegelsesmønster som korresponderer med det produserte.

Det registreres ytterligere polyfoner fra en andre person, imidlertid uten å registrere ansiktsbevegelsene til den andre personen. Også i dette tilfellet anvendes det ord fortrinnsvis uten mening, men det kan også anvendes en bevegende tekst. På denne måte opprettes det en polyfonbase for den andre personen. For å lage en bevegelsesbase for den andre person, anvendes deretter polyfonbanken for det første individ. Korresponderende polyfoner i polyfonbanken og polyfonbasen sammenlignes med hensyn til varigheten av lydene. Avvik i varighet registreres for polyfonene hvor-etter korresponderende bevegelser i bevegelsesbanken modifiseres. Den modifiserte bevegelse lagres deretter i bevegelsesbasen. Bevegelsesbasen og polyfonbasen kobles deretter til hverandre.

Når den andre person skal animeres, produseres ord og fraser ved å sammensette halvstavelsene tatt fra polyfon ene. Samtidig bygges det opp en tredimensjonal polygonmodell med korresponderende bevegelsesmønstre som er hentet ut fra bevegelsesbasen. Det skapte bildet består av en trådmodell hvor endepunktene i polygonene representerer målepunktene i ansiktet til det første individ.

For å skape et bilde av at den andre person produserer den produserte tale, appliseres et bilde av den andre person til polyfonmodellen. Polygonmodellen modifiseres i forbindelse med dette for å justere ansiktsformene, munn-størrelsen etc, til den andre personen. Den produserte reproduksjon er tredimensjonal og vises simultant med den produserte tale, hvormed tale og ansiktsbevegelser sam-stemmer godt. Den angitte metode muliggjør imidlertid ikke at bevegelsesmønsteret helt korresponderer med den andre persons normale bevegelsesmønster, men erkarakterisertav bevegelsesmønsteret til den første person.

En person B taler et første språk som skal oversettes til et andre språk, eller en tekst gis og skal tildeles personen B. For personen B opprettes det en polyfonbank, men det er ikke registrert noen bevegelsesmønstre. Polyfonene registrert for B sammenlignes med korresponderende polyfoner i en polyfonbase med tilhørende bevegelses-mønsteret til en person A. Den eksakte lengde til lydsegmentene finnes ut både fra polyfonbanken og polyfonbasen. Avvikene registreres og et modellansikt skapes hvor beveg-elsesmønstrene fra A anvendes. Bevegelsene modifiseres imidlertid i relasjon til avviket mellom polyfonene i polyfonbanken og polyfonbasen. Lydsegmentene som er lengre i polyfonbanken enn i polyfonbasen resulterer i at korresponderende bevegelsesmønster i ansiktsmodellen forlenges. For lydsegmenter som er kortere i polyfonbanken enn i polyfonbasen, gjennomføres det en korresponderende reduksjon i korresponderende bevegelsesmønster i modellansiktet. På denne måte opprettes det en base med bevegelsesmønsteret assosiert med polyfonbanken. Ved å sammensette polyfoner fra B's polyfonbank til ord og setninger, produseres det et modellansikt med bevegelser tatt fra basen med bevegelses-mønstrene. De produserte bevegelsesmønstre korresponderer med B's måte å uttale korresponderende deler av polyfonene, men med A's grunnleggende bevegelsesmønster. B's ansikt tilpasses deretter til modellen, hvormed B taler med hans/- hennes egen stemme, men tildeles et bevegelsesmønster som hører til A, hvorved bilde og lyd korresponderer med hverandre, og det oppnås en virkelighetstro opplevelse. Oppfinnelsen skal ikke begrenses til det ovenfor beskrevne utførelseseksempel, eller til de etterfølgende patentkrav, men skal kunne underkastes modifiseringer innenfor rammen for oppfinnelsens idé.

Claims

1. Fremgangsmåte ved talesyntese, hvor det lagres første polyfoner og tilhørende ansiktsbevegelser fra en første person, og det lagres andre polyfoner fra en andre person,karakterisert vedat lengden til lydsegmentene i de første og andre polyfoner sammenlignes, hvorved ansiktsbevegelsene modifiseres i forhold til relasjonen mellom de første og andre polyfoner, og at det opprettes en base med modifiserte ansiktsbevegelser, og at basen med modifiserte ansiktsbevegelser for å skape en ansiktsmodell med tilhørende lyder hvor bevegelsesmønstre og lyder samsvarer .

2. Fremgangsmåte i samsvar med krav 1,karakterisert vedat polyfonene for den første person lagres i en polyfonbank, og at bevegelses-mønsteret i ansiktet til den første person lagres i en bevege1sesbank.

3. Fremgangsmåte i samsvar med krav 1,karakterisert vedat polyfonene for den andre person lagres i en polyfonbase.

4. Fremgangsmåte i samsvar med krav 1, 2 og 3,karakterisert vedat varigheten til lydsegmentene i korresponderende polyfoner i polyfonbanken og polyfonbasen finnes, og at forskjellen finnes.

5. Fremgangsmåte i samsvar med krav 1, 2 og/eller 4,karakterisert vedat bevegelsesmønsteret for et polyfon hentes fra bevegelsesbanken og modifiseres med hensyn til varighetsforskjellen i lydsegmentene i ulike deler av polyfonen.

6. Fremgangsmåte i samsvar med krav 5,karakterisert vedat det modifiserte bevegelsesmønster lagres i en bevegelsesbase.

7. Fremgangsmåte i samsvar med et av de foregående krav,karakterisert vedat polyfonene fra polyfonbasen settes sammen til ord og setninger og at korresponderende bevegelsesmønster hentes fra bevegelsesbanken og tilpasses til ansiktsmodellen, som vil ha et bevegelses-mønster som korresponderer til ordene og setningene.

8. Fremgangsmåte i samsvar med et av de foregående krav,karakterisert vedat ansiktsmodellen er bygget opp i en polygon modell og at et bilde av den andre person tilpasses til polygonmodellen, hvorved ansiktsbevegelsene til den andre person korresponderer med de produserte lyder.

9. Fremgangsmåte i samsvar med et av de foregående krav,karakterisert vedat ansiktsbevegelsene i det første ansikt registreres ved markering av et antall punkter i det første ansikt, og at registrering av ansiktsbevegelsene gjennomføres samtidig som at lydregistreringen gjennomføres.

10. Fremgangsmåte i samsvar med krav 9,karakterisert vedat ansiktsbevegelsene registreres ved hjelp av laserteknologi, som kan følge de merkede punkter i det første ansikt.

11. Fremgangsmåte i samsvar med et av de foregående krav,karakterisert vedat bildet av det andre ansikt omfatter et stillbilde eller et bevegelig bilde.

12. Fremgangsmåte i samsvar med et av de foregående krav,karakterisert vedat polygonmodellen er tredimensjonal hvorved det, etter applisering av bildet, frembringes et tredimensjonalt bilde av det reelle ansikt, hvilket andre bilde korresponderer med ansiktsbevegelsene til en person hvis ansikt korresponderer med bildet.

13. Fremgangsmåte i samsvar med et av de foregående krav,karakterisert vedat punktene i polygonene representerer områder i det første ansikt som beveger seg i avhengighet av hverandre, og at reguleringen av bevegelsene i punktene på den ene side relateres til et bevegelses-område, og på den andre side til distansen mellom punktene i det første ansikt og det virkelige ansikt.

14. Fremgangsmåte i samsvar med et av de foregående krav,karakterisert vedat bildet av den andre ansikt introduseres, overføres eller tas fra databasen.