NO318112B1 - System og fremgangsmate for tale-til-taleomforming - Google Patents

System og fremgangsmate for tale-til-taleomforming Download PDF

Info

Publication number
NO318112B1
NO318112B1 NO19985178A NO985178A NO318112B1 NO 318112 B1 NO318112 B1 NO 318112B1 NO 19985178 A NO19985178 A NO 19985178A NO 985178 A NO985178 A NO 985178A NO 318112 B1 NO318112 B1 NO 318112B1
Authority
NO
Norway
Prior art keywords
speech
information
accordance
language
input
Prior art date
Application number
NO19985178A
Other languages
English (en)
Other versions
NO985178L (no
NO985178D0 (no
Inventor
Bertil Lyberg
Original Assignee
Teliasonera Ab Publ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Teliasonera Ab Publ filed Critical Teliasonera Ab Publ
Publication of NO985178D0 publication Critical patent/NO985178D0/no
Publication of NO985178L publication Critical patent/NO985178L/no
Publication of NO318112B1 publication Critical patent/NO318112B1/no

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Use Of Switch Circuits For Exchanges And Methods Of Control Of Multiplex Exchanges (AREA)

Description

Foreliggende oppfinnelse vedrører en fremgangsmåte og et system, i et stemmeresponskommunikasjonssystem, for å tilveiebringe en talt respons til en innmatet tale, der nevnte fremgangsmåte omfatter trinnene å kjenne igjen og tolke den innmatete tale, og å utnytte tolkningen for å oppta taleinformasjonsdata fra en database for anvendelse til formuleringen av det talte svar, og tale-til-tale-omformingssystemet omfatter, ved utmatingen derav, talte svar på taleinnmatinger på minst to naturlige språk, omfattende talegjenkjenningsmidler for den innmatete tale, tolkningsmidler for å tolke innholdet i den gjenkjente innmatete tale, og en database som inneholder taleinformasjonsdata for anvendelse for formuleringen av nevnte talte svar.
Kjente tale-gjenkjenningssystemer som er tilpasset til å frembringe talte responser på innmatet tale, inkluderer database som inneholder taleinformasjon på mange ulike språk, og som tilveiebringer en gjenkjennelsesfunksjon for å kjenne igjen og tolke informasjon på de aktuelle språk. Imidlertid er de kjente talegjenkjennelsessystemer som kan utgjøre en del av et tale-til-tale-omformingssystem, eller lignende, dedikert for kun ett språk, dvs. de kommer kun til å reagere på innført tale f.eks. talte forespørsler/ spørsmål på det spesielle språk som systemet er tilpasset til å håndtere og bearbeide.
GB 02165969 omfatter et interaktivt dialogsystem som består av en talegjenkjenner for å analysere en brukers uttalelser og en talegenerator for å overføre beskjeder til brukeren.
Dessuten produseres taleinformasjonsdataene, som lagres i en database og som anvendes for formulering av egnete syn-tetiske talte svar til den innmatede tale, normalt med en dialekt som stemmer overens med en standard- riksdialekt. Derfor kan det når det finnes betydelige forskjeller mellom dialekten for den innførte tale og standard-riksdialekten under visse omstendigheter vise seg vanskelig for databasen i kjente tale-til-tale-omformingssystemer å korrekt tolke mottatt taleinformasjon, dvs. stemmeinnmatingen til systemet. Det kan også være vanskelig for personer som utfører stemmeinnmatingen å helt forstå det talte svar. Selv om slike svar kan forstås av en mottaker, vil det være mer anvendelig dersom dialekten i det talte svar er den samme som dialekten for den relaterte stemmeinnmating.
Selv ved artifisiell reproduksjon av et talt språk er det et behov at språket reproduseres naturlig og med korrekt aksentuering. Spesielt kan et ord ha svært forskjellig betydning avhengig av språkbetoningen. Likeledes kan betydningen for en og samme mening være avhengig av hvor betoningen er plassert. I tillegg bestemmer betoningen av meninger, eller deler derav, seksjoner som skal under-strekes i språket og som kan være av betydning når det gjelder å avgjøre den eksakte betydning av det talte språk.
Behovet for at artifiselt produsert tale skal være så naturlig som mulig, og ha korrekt aksentuering er av spesiell viktighet i stemmeresponsive kommunikasjonsutstyr og/eller -systemer som produserer tale i ulike sammen-henger. Med kjente stemmeresponsive arrangementer er den reproduserte tale iblant vanskelig å forstå og tolke. Det er derfor et behov for et tale-til-tale-omformingssystem hvori den artifisielle utgående tale er naturlig, og har den korrekte aksentuering, og er lett å forstå.
For språk som har godt utviklet setningsaksentbetoning og/eller tonehøyde på individuelle ord, er identifiseringen av den naturlige betydning av ord/meninger svært vanskelig. Det faktum at betoninger kan plasseres feil øker risikoen for feiltolkning, eller at meningen går helt tapt for den part som hører på.
Det er derfor et behov, for å unngå disse problemer, at det tilveiebringes et tale-til-tale-omformingssystem som har som formål å tolke den mottatte taleinformasjon, uavhengig av språk og/eller dialekt, og å kunne tilpasse språket og/eller dialekten i den utgående tale tilsvarende som for den respektive inngående tale. Likeledes vil det, for å kunne bestemme betydningen av enkelte ord, eller fraser på et ikke-tvetydig vis i en talt sekvens være nødvendig at tale-til-tale-omformingssystemet kan bestemme, og ta hensyn til, setningsaksent og setningsbetoning i den talte sekvens.
Et formål med den foreliggende oppfinnelse er å tilveiebringe en fremgangsmåte slik beskrevet i innledningen i krav 1, kjennetegnet ved at databasen inneholder tale-inf ormas jonsdata på minst to naturlige språk, og av at nevnte fremgangsmåte er tilpasset for å kjenne igjen og tolke innmatet tale på nevnte minst to språk, med anvendelse av statistikkbasert talegjenkjennings- og språkmodelleringsteknikk for å danne en leksikalisk og syntaktisk aksepterbar talemodell for foreliggende språk og å tilveiebringe talte svar på taleinnmatinger på nevnte språk, og av at nevnte fremgangsmåte inkluderer de ytterligere trinn å evaluere en gjenkjent taleinnmating for å bestemme språket for innmatingen, effektuere en dialog med databasen for å oppnå taleinformasjonsdata for formuleringen av et talt svar på den innmatete talens språk, og å omforme taleinformasjonsdataene, som opptas fra databasen, til nevnte talte svar.
Alternative utførelser av fremgangsmåten i den foreliggende oppfinnelsen er kjennetegnet ved karakteristikken i kravene 2-15.
Det er videre et formål med foreliggende oppfinnelse å tilveiebringe et stemmeresponsivt kommunikasjonssystem omfattende en tale-til-tale-omformingsmetode i samsvar med kravene 1-15.
Et annet formål med foreliggende oppfinnelse er å tilveiebringe et system for tale-til-tale-omforming slik beskrevet i innledningen i krav 17, kjennetegnet ved at taleinformasjonsdataene som er lagret i databasen er på de nevnte minst to naturlige språk, av at talegjenkjennings-og tolkningsmidlene er tilpasset for å kjenne igjen og tolke taleinnmatinger på nevnte minst to naturlige språk, og av at systemet ytterligere inkluderer evalueringsmidler for å evaluere de gjenkjente taleinnmatingene, og bestemme språket for innmatingene, dialogbehandlingsmidler for å effektuere en dialog med databasen for å oppta nevnte taleinformasjonsdata på den innmatete talens språk, og tekst-til-tale-omformingsmidler for å omforme tale-inf ormas jonsdatane, som opptas fra databasen, til et talt svar.
Alternative utførelser av oppfinnelsen er kjennetegnet ved karakteristikken i kravene 18-37.
Det er videre et formål med foreliggende oppfinnelse å tilveiebringe et stemmeresponsivt kommunikasjonssystem omfattende et tale-til-tale-omformingssystem i samsvar med kravene 17-37.
I en foretrukket fremgangsmåte kan separate databaser anvendes for hvert og et av de nevnte to språk, og dialog kan effektueres med kun den av databasene som inneholder taleinformasjonsdata på det innmatete talte språk. Imidlertid, i tilfelle av at minst en del av den nødvendige taleinformasjonsdata for en talt respons lagres i en annen av nevnte databaser, kan metoden inkludere de ytterligere trinn og effektuere en dialog med den andre database for å oppnå de nødvendige talte informasjonsdata, oversette informasjonsdataene til språket for en av databasene, kombinere taleinformasjonsdataene fra databasen, og omdanne de kombinerte taleinformasjonsdata til en talt respons (svar) på det innmatete talte språk.
I en annen foretrukket utførelse kan utfallet av vurderingsprosessen anvendes for å bestemme den databasen dialogen skal føres med for å oppnå taleinformasjonsdataene for et talt svar til den innmatete talen.
Dialogen med en database, og/eller mellom databaser, kan effektueres ved anvendelse av et databasekommunikasjonsspråk som f.eks. SQL (Structured Query Language).
I en foretrukket fremgangsmåte i samsvar med foreliggende oppfinnelse omfatter talegjenkjenningen og tolkningen trinnene å ekstrahere prosodiinformasjon, dvs. grunntonekurven, fra en taleinnmatning, og oppta dialektinformasjon fra nevnte prosodiinformasjon, der dialektinformasjonen anvendes ved omforming av taleinformasjonsdataene som opptas fra databasen, til et talesvar der tale-svaret er på det samme språk og dialekt som den innmatete tale. Denne foretrukne fremgangsmåte omfatter videre at prosodiinformasjonen som ekstraheres fra taleinnmatingen er grunntonekurven for den innmatede talen. Den foretrukne fremgangsmåten inkluderer de ytterligere trinn å bestemme intonasjonsmønsteret for grunntonen, og derigjennom maksimums- og minimumsverdiene for grunntonekurven for den immatete talen, å bestemme intonasjonsmønsteret for grunntonekurven for en talemodell og derigjennom maksimums- og minimumsverdiene for grunntonekurven og deres respektive posisjoner, å sammenligne intonasjonsmønsteret for den innmatete tale med intonasjonsmønsteret for talemodellen for å identifisere en tidsforskjell mellom forekomsten av maksimums- og minimumsverdiene for grunntonekurven for den innkommende tale i forhold til maksimums- og minimumsverdiene for grunntonekurven for talemodellen, der den identifiserte tidsdifferanse indikerer dialektkarakteristika for den innmatete tale. Tidsdifferansen kan bestemmes i relasjon til et referansepunkt i intonasjons-mønsteret, f.eks. ved et punkt ved hvilken en konsonant/vokalgrense inntreffer.
Fremgangsmåten i foreliggende oppfinnelse kan omfatte trinnet å evaluere informasjon om setningsaksenter fra prosodiinformasjonen.
Ordene i talemodellen kan kontrolleres leksikalt, og frasene i talemodellen kan kontrolleres syntaktisk. De ord og fraser som ikke er lingvistisk mulige utelukkes fra talemodellen. Dessuten kan ortografien og den fonetiske transkripsjon for ordene i talemodellen kontrolleres, der transkripsjonsinformasjonen omfatter leksikalisk abstrahert aksentinformasjon av typen betonte stavelser, og innforma-sjon som er egnet for plassering av sekundær aksent. Aksentinformasjonen kan vedrøre tonal ordaksent I og aksent
II.
Dessuten kan fremgangsmåten i samsvar med foreliggende oppfinnelse anvende setningsaksentinformasjon ved tolkningen av den innmatete tale.
Oppfinnelsen tilveiebringer også et tale-til-tale-omformingssystem som, ved utmatingen derav, gir talte svar på innmatet tale på minst to naturlige språk, inkluderende talegjenkjennelsesmiddel for taleinnmatinger, tolkningshjelpemiddel for tolkning av innholdet i de gjenkjente innmatet taler, og en database som inneholder taleinformasjonsdata for anvendelse til formuleringen av nevnte talesvar, kjennetegnet av at taleinformasjonsdataene som er lagret i databasen er på nevnte minst to naturlige språk, og at talegjenkjennings- og tolkningshjelpemidler er tilpasset å kjenne igjen og tolke taleinnmatinger på nevnte minst to naturlige språk, av at talegjenkjennelsesmiddel og tolkningshjelpemiddel er tilpasset til å kjenne igjen og tolke taleinnmatingen på nevnte minst to naturlige språk og at systemet ytterligere omfatter evalueringsmidler for å evaluere de gjenkjente taleinnmatingene og bestemme språket for innmatingene, dialogbehandlingsmidler for å effektuere en dialog med databasen for å oppnå nevnte taleinformasjonsdata på det innmatete talte språk, og midler for tale-til-tale-omf orming for å omforme taleinformasjonsdataene, som opptas fra databasen, til et talt svar.
Tale-til-tale-omformingssystemet, i samsvar med foreliggende oppfinnelse, som er tilpasset til å ta imot taleinnmatinger på to eller flere naturlige språk som omfatter talegjenkjenningsmidler for den innmatete talen, tolkningshjelpemidler for å tolke innholdet i den gjenkjente innmatete tale, og en database som inneholder taleinformasjonsdata for anvendelse for formuleringen av nevnte talte svar, kjennetegnet ved at taleinformasjonsdataene som er lagret i databasen er på de nevnte minst to naturlige språk, av at talegjenkjennings- og tolkningsmidlene kan være tilpasset for å kjenne igjen og tolke taleinnmatinger på nevnte minst to naturlige språk, og av at systemet ytterligere inkluderer evalueringsmidler for å evaluere de gjenkjente taleinnmatingene, og bestemme språket for innmatingene, dialogbehandlingsmidler for å effektuere en dialog med databasen for å oppta nevnte taleinformasjonsdata på den innmatete talens språk, og tekst-til-tale-omformingsmidler for å omforme taleinformasjonsdatane, som opptas fra databasen, til et talt svar.
Tale-til-tale-omformingssystemet kan også være kjennetegnet ved at systemet er tilpasset til å ta imot taleinnmatinger på to, eller flere, naturlige språk og for å tilveiebringe, ved utmatingen derfra, talte svar på respektive taleinnmatingsspråk, og at systemet omfatter, for hvert og et av de naturlige språk, talegjenkjenningsmidler der inngangene til hvert og et av talegjenkjenningsmidlene er tilkoplet til en felles inngang for systemet, tale-evalueringsmidler for å bestemme, i avhengighet av utmatingen fra hvert og et av talegjenkjennelsesmidlene, språket for en taleinnmating, en database som inneholder taleinformasjonsdata som anvendes ved formuleringen av talte svar på databasens språk, dialogbehandlingsmidler for tilkopling til et respektivt talegjenkjennelsesmiddel, i avhengighet av språket for den immatete tale, der behandlingsmidlene er tilpasset for å tolke innholdet i den gjenkjente tale, og på basis av tolkningen aksessere og oppta taleinformasjonsdata fra minst én av de respektive databasene, og tekst-til-tale-omformingsmiddel for å omforme taleinformasjonsdata som opptas fra behandlingsmidlene til talte svar til de respektive taleinnmatinger.
En ytterligere utførelse av foreliggende system kan være kjennetegnet ved at systemet omfatter separate databaser for hvert og et av nevnte minst to språk, at systemet kan omfatte separate dialogbehandlingsmidler for hver og en av databasene, der hvert dialogbehandlingsmiddel er tilpasset for å effektuere en dialog med minst én av respektive databaser, at hvert av dialogbehandlingsmidlene er tilpasset for å effektuere en dialog med hver og en av databasene.
Systemet kan omfatte oversettelsesmidler for oversettelse av de utgående taleinformasjonsdata fra hver og en av databasene til språket eller språkene for de andre databasene, og dersom minst én del av den nødvendige taleinformasjonsdata for et talt svar finnes lagret i en database på et annet språk enn det som er nødvendig for det talte svar, opptas nevnte informasjon fra nevnte database og oversettes av oversettelseshjelpemidler til det nødvendige språk for det talte svar, og at den oversatte taleinformasjon anvendes enten alene, eller i kombinasjon med annen taleinformasjon av dialogbehandlingsmidlet for å tilveiebringe en utmating for applisering på tekst-til-tale-omformingsmidlet.
Enda en ytterligere utførelse av systemet kan være kjennetegnet ved at systemet er tilpasset å ta imot taleinnmatinger på to språk, og at systemet omfatter, for hvert og et av to språk, en database, dialogbehandlingsmiddel og oversettelsesmiddel, og at hvert og et av dialogbehandlingsmidlene er tilpasset å kommunisere med hver og en av databasene, og at datautgangene fra hver og en av databasene er tilkoplet direkte til et av dialogbehandlingsmidlene og til det andre av behandlingsmidlene via et oversettelsesmiddel.
Systemet kan omfatte talegjenkjennings- og tolkningsmidler for hvert og et av de nevnte minst to naturlige språk, der inngangene til talegjenkjennings- og tolkningshjelpemidlene er tilkoplet til en felles systeminngang, og talegjenkjennings- og tolkningsmidlene omfatter ekstraksjonsmidler for ekstraksjon av prosodiinformasjon fra den innmatete tale, og midler for å oppta dialektinformasjon fra prosodiinformasjonen, hvor dialektinformasjonen anvendes av tekst-til-tale-omformingsmidlet ved omformingen av taleinformasjonsdata til det talte svar, der dialekten for det talte svar er tilpasset den innmatete tale.
En ytterligere utførelse av ovennevnte system kan være kjennetegnet ved at utmatingen fra evalueringsmidlet anvendes for å velge den database fra hvilke taleinformasjonsdataene skal opptas av dialogbehandlingsmidlet for formulering av det talte svar til taleinnmatingen. Midlene for å oppta dialektinformasjon fra prosodiinformasjonen kan omfatte første analysemiddel for å bestemme intonasjons-mønsteret for grunntonen i den innmatete tale, og derigjennom maksimums- og minimumsverdiene for grunntonekurven og deres respektive posisjoner, andre analysemiddel for å bestemme intonasjonsmønsteret for grunntonekurven for talemodellen og derigjennom maksimums- og minimumsverdiene for grunntonekurven og deres respektive posisjoner, sammenligningsmidler for å sammenligne intonasjonsmønsteret for den innmatete tale med intonasjonsmønsteret for talemodellen for å identifisere en tidsforskjell mellom forekomsten av maksimums- og minimumsverdiene for grunntonekurven for den innkommende tale i forhold til maksimums- og minimumsverdiene for grunntonekurven i talemodellen, idet den identifiserte tidsforskjell indikerer dialektkarakteristikken for den innmatete tale.
Videre kan tale-til-tale-omformingssystemet kjennetegnes ved at dialogen med en database, og/eller mellom databaser, effektueres med anvendelse av et databasekommunikasjonsspråk, som f.eks. SQL (Structured Query Language).
En annen ytterligere utførelse av tale-til-tale-omf ormingssystemet i den foreliggende oppfinnelsen kan kjennetegnes ved at tidsforskjellen bestemmes i forhold til et referansepunkt i intonasjonsmønsteret, at referansepunktet i intonasjonsmønsteret, mot hvilket tidsforskjellen måles, er det punkt ved hvilken en konsonant/vokalgrenser inntreffer, og at systemet dessuten omfatter midler for å oppta informasjon om setningsaksenter fra prosodiinforma-s jon.
Nok en ytterligere utførelse av oppfinnelsen kan kjennetegnes ved at talegjenkjenningsmidlet omfatter kontrollmiddel for å leksikalt kontrollere ordene i talemodellen, og for å syntaktisk kontrollere frasene i talemodellen, der de ord og fraser som ikke er lingvistisk mulige ekskluderes fra talemodellen, og at kontrollmidlet er tilpasset for å kontrollere ortografien og den fonetiske transkripsjonen av ordene i talemodellen, og at transkripsjonsinformasjonen inkluderer leksikalisk abstrahert aksentinformasjon, av typen betonte stavelser, og innforma-sjon i relasjon til plassering av sekundær aksent, hvor aksentinformasjonen relateres til tonal ordaksent I og aksent II, og setningsaksentinformasjonen anvendes ved tolkning av innholdet i den gjenkjente innmatete tale. Videre kan setningsbetoningene bestemmes og anvendes ved tolkningen av innholdet i den gjenkjente innmatete tale.
Den foreliggende oppfinnelsen kan også kjennetegnes ved et stemmeresponsivt kommunikasjonssystem som omfatter et tale-til-tale-omf ormingssystem i samsvar med ett av kravene 17-37.
Tale-til-tale-omformingssystemet i samsvar med foreliggende oppfinnelse er tilpasset for å tilveiebringe, ved utmat-inger derav, talte svar til taleinnmatinger på minst to naturlige språk. Språkkarakteristikken for de talte svar, f.eks. dialekt, setningsaksent og setningsbetoning, tilpasses i forbindelse med foreliggende oppfinnelse til tilsvarende for den innmatete tale for å tilveiebringe naturlig utgående tale som lett kan forstås, som har korrekt aksentuering og som dermed gir opphav til et brukeranvendelig system. Det vil fremgå av følgende beskrivelse at tilpasningen av språkkarakteristikken oppnås ved å ekstrahere prosodiinformasjon fra den innmatete tale, dvs. grunntonekurven for den innmatete tale, og anvende prosodiinformasjonen for å bestemme dialekt-, setningsaksent- og setningsbetoningsinformasjon for anvendelse i forbindelse med formulering av de talte svar.
Tale-til-tale-omformingssystemet kan derfor anvendes i mange applikasjoner, f.eks. i stemmesvarskommunikasjons-system for å effektuere en dialog mellom en bruker av systemet og en database som utgjør en del av systemets talegjenkjennelsesenhet og som inneholder taleinformasjonsdata for formulering av det talte svar til talte spørsmål/ forespørsler fra brukerne av systemet. Slike stemmesvars-kommunikasjonssystemer kan anvendes innen telekommunika-sjon, banksystem, eller sikkerhetssystem etc. for å tilveiebringe et lett forståelig, brukervennlig system. Tale-til-tale-omformingssystemet, som er illustrert i figuren, er tilpasset for å tilveiebringe, ved utmating derav, talte svar til taleinnmatinger på to naturlige språk, dvs. språk A og B, som kan være hvilke som helst naturlige språk, f.eks. svensk og engelsk.
Forklaringer til fig. 1:
A = Talegjenkjenning, Språk A.
B = Talegjenkjenning, Språk B.
C = Språk A, Leksikon + Syntaks.
D = Språk B, Leksikon + Syntaks.
E = Tekst-til-tale, Språk A.
F = Tekst-til-tale, Språk B.
G = Evaluering Språk A eller Språk B.
H = Dialogbehandling + Databaseaksess, Språk A.
I = Database, Språk A.
J = Dialogbehandling + Databaseaksess, Språk B.
K = Database, Språk B.
L = Overs. Språk.
M = Språk B.
N = Overs. Språk.
O = Språk B.
P = SQL
Q = Språk A.
R = Språk B.
Som det fremgår av den medfølgende figur omfatter systemet gjenkjennings- og tolkningsenheter for de respektive språk A og B. Inngangene på enhetene 1 og 2 er tilkoplet til en felles inngang til systemet. Talegjenkjennings- og tolkningsenhetene 1 og 2 anvendes for å kjenne igjen og tolke innholdet i taleinnmatingen på et vis som blir beskrevet senere.
En utgang på hver og en av enhetene 1 og 2 er tilkoplet til separate innganger i en evalueringsenhet 3 som er tilpasset for å evaluere de gjenkjente taleinnmatingene, og for å bestemme språket for innmatingene, dvs. språk A eller språk
B.
Systemet for foreliggende oppfinnelse omfatter også to omkoplingsenheter 4 og 5, hvis respektive innganger er tilkoplet til en utgang på talegjenkjennings- og tolkningsenhetene 1 og 2. Funksjonene for omkoplingsenhetene 4 og 5 styres, på et vis som blir beskrevet senere, av evalueringsenheten 3, dvs. styringsinngangene til respektive enheter 4 og 5 er tilkoplet separate utganger av evalueringsenheten 3.
Utgangene på omkoplingsenhetene 4 og 5 er hver for seg tilkoplet til en inngang på dialogbehandlingsenhetene 6 og 7. Det vil fremgå av den senere beskrivelse at dialogbehandlingsenheten 6 og 7 anvendes for å effektuere en dialog med database-enhetene 8 og 9 for å oppta tale-inf ormas jonsdata på det innmatete talte språk, for anvendelse for formulering av de talte svar.
En leksikon- og syntaksenhet 10 for språket A er tilkoplet til en annen utgang på talegjenkjennings- og tolkningsenheten 1, til dialogbehandlingsenheten 6 og til en inngang på en tekst-til-tale-omformingsenhet 12.
En leksikon- og syntaksenhet 11 for språket B er tilkoplet til en annen utgang på talegjenkjennings- og tolkningsenheten 2, til dialogbehandlingsenheten 7 og til en inngang på en tekst-til-tale-omformingsenhet 13.
Tekst-til-tale-omformingsenhetene 12 og 13 er også hver for seg tilkoplet, med en annen inngang derav, til en utgang på dialogbehandlingsenhetene 6 og 7.
Utgangene på tekst-til-tale-omformingsenhetene 12 og 13 er tilkoplet til en felles talutgang for systemet.
Som det fremgår av den medfølgende figur finnes det en toveiskommunikasjon mellom dialogbehandlingsenheten 6 og database-enheten 8, og mellom dialogbehandlingsenheten 7 og database-enheten 9. Disse kommunikasjonsveier anvendes for å effektuere, som forklart nedenfor, en dialog mellom respektive behandlings- og database-enheter for å tilveiebringe taleinformasjonsdata som skal anvendes for formuleringen av de talte svar. Toveiskommunikasjonsveiene er for-bundet innbyrdes for å muliggjøre at en dialog kan utføres mellom behandlingsenhet 6 og database-enhet 9, og/eller mellom behandlingsenhet 7 og database-enhet 8. I praksis effektueres dialogen med en database-enhet, og/eller mellom database-enheter, ved anvendelse av et databasekommunikasjonsspråk, som f.eks. SQL (Structured Query Language).
En oversettelsesenhet 14 tilveiebringes for oversettelse av språk A til språk B, og vice versa. Det fremgår av den medfølgende figur at en seksjon 14a av oversettelsesenheten 14 har en inngang for språk B som er tilkoplet til en utgang på database-enheten 9, og en utgang for språk A som er tilkoplet til en inngang på dialogbehandlingsenheten 6. En annen seksjon 14b på oversettelsesenheten 14 har en inngang for språk A som er tilkoplet til en utgang på database-enheten 8, og en utgang for språk B som er tilkoplet til en inngang på dialogbehandlingsenheten 7.
De påfølgende avsnitt viser på hvilket vis tale-til-tale-omf ormingssystemet er tilpasset for å ta imot taleinnmating på naturlige språk A og B, og tilveiebringe, ved utmating derav, talte svar på språket til de respektive taleinnmatinger.
En taleinnmating til tale-til-tale-omforingssystemet som kan være enten på språk A eller språk B gjenkjennes og tolkes av hver og en av talegjenkjennings- og tolkningsenhetene 1 og 2, i samvirke med respektive leksikon- og syntaksenheter 10 og 11, dvs. med anvendelse av statistikkbasert talegjenkjennings- og språkmodelleringsteknikk, og garanterer at de gjenkjente ordene og/eller ordkombinasjon-ene som anvendes for å forme en modell av den innmatete tale er akseptable både leksikalisk og syntaktisk. Formålet med leksikon/syntakskontrollen er å identifisere og ekskludere hvert ord fra talemodellen som ikke eksisterer i det aktuelle språk, og/eller hver frase viss syntaks ikke stemmer overens med det aktuelle språk.
De respektive språkmodeller som skapes av enhetene 1 og 10, og enhetene 2 og 11, appliseres, og evalueres av evalueringsenheten 3 som bestemmer hvilket av språkene A og B som er mest sannsynlig for den innmatete tale. Denne evaluering effektueres på basis av sannsynlighet, dvs. sannsynligheten for at taleinnmatingen er på det ene eller det andre av språkene A og B, forskjellene mellom språk-modellene, og hvorvidt språkmoduleringen for det ene eller det andre av språkene har blitt suksessfullt avsluttet. Jo større forskjellen er mellom språk-karakteristika for språk A og B, desto lettere vil oppgaven bli for evalueringsenheten 3.
Avhengig av utfallet på evalueringen som utføres av enhet 3, dvs. det valgte språk for den innmatete tale, kommer en av omkoplingsenhetene 4 og 5 å aktiveres for å tilkople talegjenkjennings- og tolkningsenheten for det valgte språk til motsvarende dialogbehandlingsenhet.
Dersom det antas, ut fra et beskrivelsessynspunkt, at språk A har blitt valgt som det mest sannsynlige språket for den innmatete tale, vil omkoplerenhet 4 aktiveres og utgangen på talegjenkjennings- og tolkningsenhet 1 vil bli tilkoplet til en inngang på dialogbehandlingsenheten 6. Således vil omkoplingsenheten 5 forbli i en ikke-aktivert tilstand, og ingen tilkopling kommer til å bli utført mellom dialogbehandlingsenheten 9 og talegjenkjennings- og tolkningsenheten 2.
I neste trinn av tale-til-tale-omformingsprosessen går behandlingsenheten 6 inn i en lingvistisk dialog med database-enheten 8, basert på den innmatete tales talemodell, for å oppta taleinformasjonsdata for formulering av et talt svar til taleinnmatingen. Taleinformasjonsdataene, som velges som et resultat av denne dialog, overføres via behandlingsenheten 6 til en inngang på tekst-til-tale-omf ormingsenheten 5 for formulering av et talt svar. Det vil fremgå av den senere beskrivelse at språk-karakteristikken for det talte svar tilpasses, så langt dette er mulig, til språk-karakteristikken for den innmatete tale.
I det tilfelle der minst én del av de nødvendige taleinformasjonsdata for et talt svar ikke finnes lagret i database-enhet 6, men kan finnes lagret i database-enhet 9, går dialogbehandlingsenheten 6 inn i en dialog med database-enhet 9 for å oppta de nødvendige taleinformasjonsdata. Dersom de nødvendige taleinformasjonsdata finnes lagret i database-enhet 9, aksesseres den og overføres til dialogbehandlingsenheten 6 via seksjon 14a av oversettelsesenheten 14, dvs. den oversettes fra språk B til A. De oversatte taleinformasjonsdata anvendes deretter enten alene eller i kombinasjon med taleinformasjonsdata som er opptatt fra database-enheten 8, for å formulere et talt svar, dvs. omformet av tekst-til-tale-omformingsenheten 12 til det talte svar.
Det er åpenbart at dersom språk B, i stedet for språk A, velges av evalueringsenheten 3 som det innmatete talespråk, vil enhetene 7, 9 og 13 anvendes, på samme vis som skissert ovenfor for enhetene 6, 8 og 12, for formulering av det talte svar. Hver informasjon som kan opptas fra database-enheten 8 vil aksesseres av og overføres til dialogbehandlingsenheten 7, og oversettelse av den over-førte informasjonsdata effektueres av seksjon 14b i oversettelsesenheten 14.
Gjenkjennelse og tolkning av tall kan gi opphav til tekniske problem, og dersom disse problem ikke overvinnes vil vanskeligheter oppstå i forbindelse med å oppta en korrekt og meningsfull tolkning av den innmatete tale. Spesielt dersom gjenkjennelsen og tolkningen av den innmatete tale er feilaktig vil det bli ekstremt vanskelig for evalueringsenheten 3 å bestemme språket for den innmatete tale, og det vil derfor ikke bli mulig å tilveiebringe korrekte svar til taleinnmatingene.
Derfor løses disse problem, i samsvar med foreliggende oppfinnelse, ved å ekstrahere prosodiinformasjon fra taleinnmatingene, og ved å anvende denne informasjon for å bestemme, på et vis som beskrives senere, dialekt-, setningsaksent- og setningsbetoningsinformasjon for anvendelse i gjenkjennelses- og tolkningsprosessen, og i formuleringen av de talte svar.
Ekstrahering av prosodiinformasjon, dvs. grunntonekurven, fra den innmatete tale effektueres gjennom posodi-ekstraksjonsmidler (ikke nærmere vist) som utgjør en del av talegjenkjennings- og tolkningsenhetene 1 og 2. Disse enheter inkluderer også midler (ikke vist) for å oppta dialektinformasjon fra prosodiinformasjonen.
Således er, ifølge foreliggende oppfinnelse, talegjenkjennings- og tolkningsenhetene 1 og 2 tilpasset for å arbeide på et vis som er kjent for fagkyndige, for å kjenne igjen og tolke taleinnmatinger i systemet. Talegjenkjennings- og tolkningsenhetene 1 og 2 kan f.eks. arbeide med anvendelse av en "Hidden Markov"-modell, eller en tilsvarende modell. I bunn og grunn er funksjonen til enhetene 1 og 2 å omforme innmatet tale til systemet til en form som er en rett representasjon av innholdet i den innmatete tale, og som er egnet for evaluering av evalueringsenheten 3, og til å anvendes av dialogbehandlingsenhetene 6 og 7. Med andre ord må innholdet i tekstinformasjonsdata-ene, med utgangen av hver og en av talegjenkjennings- og tolkningsenhetene 1 og 2, være:
- en eksakt representasjon av den innmatete tale, og
- anvendbar for databasebehandlingsenhetene 6 og 7 å respektivt aksesse og ekstrahere taleinformasjonsdata fra database-enhetene 8 og 9, for å anvendes ved formuleringen av et syntetisk, talt svar, dvs. igjennom en av de respektive tekst-til-tale-omformingsenhetene 12 og 13.
I praksis effektueres gjenkjennings- og tolkningsprosessen i bunn og grunn gjennom identifisering av et antall fonem fra et segment av den innmatete tale som kombineres til allofonstrenger, der fonemet tolkes som mulige ord, eller ordkombinasjoner, for å opprette en modell av talen. Den opprettete talemodell kommer til å ha ord og setningsaksenter i samsvar med et standardisert mønster for språket for den innmatete tale.
Informasjonen som gjelder gjenkjennelsesordene og ord-kombinas j onene som genereres av talegjenkjennings- og tolkningsenhetene 1 og 2, kontrolleres, på et vis som skissert ovenfor, både leksikalisk og syntaktisk. I praksis effektueres dette ved anvendelse av et leksikon med ortografi og transkripsjon.
Således, i samsvar med foreliggende oppfinnelse, sikrer talegjenkjennelses- og tolkningsenhetene 1 og 2 at kun de ord og ordkombinasjoner som finnes akseptable, både leksikalisk og syntaktisk, anvendes for å skape en modell av den innmatete tale. I praksis er intonasjonsmønsteret for talemodellen et standardisert intonasjonsmønster for det aktuelle språk, eller et intonasjonsmønster som etableres igjennom innlæring, eller rett og slett kunnskaper, med hjelp av et antall dialekter for det aktuelle språk.
Som nevnt ovenfor kan prosodiinformasjonen, dvs. grunntonekurven, ekstraheres fra den innmatete tale igjennom ekstraksjonsenheten 3, og anvendes for å oppta dialekt-, setningsaksent- og setningsbetoningsinformasjon for å anvendes av tale-til-tale-omformingssystemet og fremgangsmåten ifølge foreliggende oppfinnelse. Spesielt kan dialektinformasjonen anvendes av tale-til-tale-omformingssystemet og fremgangsmåten for å tilpasse dialekten av den utmatete tale til dialekten for den innmatete tale, og setningsaksent og betoningsinformasjon kan anvendes ved gjenkjennelse og tolkning av den innmatete tale.
I samsvar med foreliggende oppfinnelse omfattes midler for å oppta dialektinformasjon fra prosodiinformasjon: - et første analysemiddel for å bestemme intonasjons-mønsteret for grunntonen for den innmatete tale, og derigjennom maksimums- og minimumsverdiene for grunntonekurven og dens respektive nivå; - et andre analysemiddel for å bestemme intonasjons-mønsteret for grunntonekurven for talemodellen og derigjennom maksimums- og minimumsverdiene for grunntonekurven og dens respektive nivå, og et sammenligningsmiddel for å sammenligne intonasjonsmønstre for den innmatete tale med intonasjonsmønstre for talemodellen for å identifisere en tidsforskjell mellom forekomsten av maksimums- og minimumsverdiene for grunntonekurven for den innkommende tale i forhold til maksimums- og minimumsverdiene for grunntonekurven for talemodellen, der den identifiserte tidsforskjell indikerer dialektkarakteristikken for den innmatete tale.
Tidsforskjellen som henvises til ovenfor kan bestemmes i forhold til et referansepunkt i intonasjonsmønsteret.
For det svenske språk kan forskjellen, i termer av intona-sjonsmønster mellom ulike dialekter beskrives med ulike punkter i tiden for ord og setningsaksent, dvs. tidsforskjellen kan bestemmes i forhold til et punkt i intona-sjonsmønsteret, f.eks. det punkt ved hvilken en konsonant/vokalgrense inntreffer.
Således, i et foretrukket arrangement ifølge foreliggende oppfinnelse, er den referanse mot hvilken tidsforskjellen måles, det punkt hvor konsonant/vokal-grensen, dvs. K/V-grensen, inntreffer.
Den identifiserte tidsforskjell som er nevnt ovenfor indikerer dialekten for den innmatete tale, dvs. det talte språk, og appliseres på tekst-til-tale-omformingsenheten 12 og 13 for å gjøre det mulig for intonasjonsmønsteret, og derigjennom dialekten, for den utmatete tale i systemet å korrigeres slik at den motsvarer intonasjonsmønsteret for de motsvarende ordene og/eller frasene i den tale som mates inn. Således gjør denne korrigeringsprosess det mulig for dialektinformasjonen for den tale som mates inn å inkorpo-reres i den tale som mates ut.
Som nevnt ovenfor baseres grunntonekurven for talemodellen på informasjon som resulterer fra de leksikalske (ortografi og transkripsjon) og syntaktiske kontrollene. Dessuten inkluderer transkripsjonensinformasjonen leksikalt abstrahert aksentinformasjon av typen betonte stavelser, dvs. tonale ordaksenter I og II, og informasjon som er relatert til plassering av sekundære aksenter, dvs. informasjon som gis i f.eks. ordbøker. Denne informasjon kan anvendes for å justere gjenkjennelsesmønsteret for talegjenkjennelsesmodellen, f.eks. "Hidden Markov"-modellen, for å ta hensyn til transkripsjonsinformasjonen. En mer eksakt modell av den innmatete tale oppnås derfor under tolkningsprosessen.
En ytterligere konsekvens av denne talemodellkorrigerings-prosess er at talemodellen med tiden kommer til å få et informasjonsmønster som er etablert igjennom en innlærings-prosess.
Videre, ifølge systemet og metoden ifølge foreliggende oppfinnelse, sammenlignes talemodellen med en talt innmat-ingssekvens, og hver forskjell dem imellom kan bestemmes og anvendes for å bringe talemodellen i overensstemmelse med den talte sekvens og/eller for å bestemme betoningene i den talte sekvens.
Dessuten gjør identifiseringen av betoningene i en talt sekvens det mulig å bestemme den eksakte betydning for den talte sekvens på en utvetydig måte. Spesielt kan relative setningsbetoninger bestemmes igjennom å klassifisere forholdet mellom variasjoner og deklinasjon for grunntonekurven, hvorigjennom betonte seksjoner, eller individuelle ord, kan bestemmes. Dessuten kan tonehøyden på talen bestemmes ut fra deklinasjonen for grunntonekurven.
Således, for å ta hensyn til setningsbetoninger ved gjenkjennelse og tolkning av den innmatete tale til tale-til-tale-omf ormingssystemet ifølge foreliggende oppfinnelse, er prosodi-ekstraksjonshjelpemidler og den til-hørende talegjenkjennings- og tolkningsenhet, for hvert og et av språkene A og B, tilpasset for å bestemme: - et første forhold mellom variasjonen og deklinasjonen for grunntonekurven for den tale som mates inn; - et andre forhold mellom variasjonen og deklinasjonen for grunntonekurven for talemodellen, og - en sammenligning mellom de første og andre forhold, idet hver identifiserte forskjell anvendes for å bestemme setningsaksentplasseringer.
Videre gjør klassifiseringen av forholdet mellom variasjonen og deklinasjonen for grunntonekurven det mulig å identifisere/bestemme relative setningsbetoninger, og betonte seksjoner, eller ord.
Også forholdet mellom variasjonen og deklinasjonen for grunntonekurven kan utnyttes for å bestemme dynamikken i grunntonekurven.
Informasjon som oppnås i forhold til grunntonekurven i relasjon til dialekt, setningsaksent og betoning kan anvendes for tolkningen av den innmatete tale av enhetene 1 og 2, dvs. informasjonen kan anvendes på det vis som er skissert ovenfor for å oppta en bedre forståelse av innholdet i den innmatete tale, og å få intonasjonsmønsteret for talemodellen i overensstemmelse med den innmatete tale.
Ettersom den korrigerte talemodellen oppviser de språk-karakteristika (inkludert dialektinformasjon, setningsaksent og betoning) for den tale som mates inn, kan dette anvendes for å gi en økt forståelse av den tale som mates inn, og øke sannsynligheten for at evalueringsenheten 3 skal velge det rette språk for den tale som mates inn. Den korrigerte talemodell kan også anvendes av databehand-lingsenhetene 6 og 7 for å oppnå de nødvendige tale-inf ormas jonsdataene fra database-enhetene 8 og 9 for formuleringen av et svar på en stemmeinnmating i et tale-til-tale-omf ormingssystem.
Evnen til enkelt å tolke de forskjellige dialekter i et språk igjennom å anvende informasjon fra grunntonekurven er av en viss betydning, ettersom slike tolkninger kan effektueres uten at man behøver lære opp talegjenkjennings-systemet. Resultatet av dette er at størrelsen, og derigjennom kostnadene, for et talegjenkjenningssystem i samsvar med foreliggende oppfinnelse kan bli mye mindre enn det som er mulig med kjente systemer. Slike systemer har derfor klare fordeler sammenlignet med kjente talegjen-kj enningssysterner.
Systemet er derfor tilpasset for å kjenne igjen og eksakt tolke innholdet i den tale som mates inn på to, eller flere, naturlige språk, og å tilpasse språk-karakteristika, f.eks. dialekt for stemmeresponsen med den for stemmeinn-matingene. Denne prosess tilveiebringer et brukervennlig system ettersom språket i menneske/maskin-dialogen er i overensstemmelse med dialekten til den aktuelle bruker. Den foreliggende oppfinnelse er ikke begrenset til utførelseseksemplene som er skissert ovenfor, men kan modifiseres innen rammen av de medfølgende patentkrav og oppfinnelseskonseptet.

Claims (38)

1. Fremgangsmåte, i et stemmeresponskommunikasjonssystem, for å tilveiebringe en talt respons til en innmatet tale, der nevnte fremgangsmåte omfatter trinnene å kjenne igjen og tolke den innmatete tale, og å utnytte tolkningen for å oppta taleinformasjonsdata fra en database for anvendelse til formuleringen av det talte svar, karakterisert ved at databasen inneholder taleinformasjonsdata på minst to naturlige språk, og av at nevnte fremgangsmåte er tilpasset for å kjenne igjen og tolke innmatet tale på nevnte minst to språk, med anvendelse av statistikkbasert talegjenkjennings- og språkmodelleringsteknikk for å danne en leksikalisk og syntaktisk aksepterbar talemodell for foreliggende språk og å tilveiebringe talte svar på taleinnmatinger på nevnte språk, og av at nevnte fremgangsmåte inkluderer de ytterligere trinn å evaluere en gjenkjent taleinnmating for å bestemme språket for innmatingen, effektuere en dialog med databasen for å oppnå taleinformasjonsdata for formuleringen av et talt svar på den innmatete talens språk, og å omforme taleinformasjonsdataene, som opptas fra databasen, til nevnte talte svar.
2. Fremgangsmåte i samsvar med krav 1, karakterisert ved at separate databaser anvendes for hver og en av de minst to språk.
3. Fremgangsmåte i samsvar med krav 2, karakterisert ved at nevnte dialog effektueres med kun den ene av databasene som inneholder taleinformasjonsdataene på den innmatete talens språk.
4. Fremgangsmåte i samsvar med krav 2, karakterisert ved at dialogen effektueres med den av databasene som inneholder taleinformasjonen på den innmatete talens språk, og av at, idet minst én del av den nødvendige taleinformasjonsdataen for et talt svar finnes lagret i en annen av databasene, idet fremgangsmåten omfatter de ytterligere trinn å effektuere en dialog med den andre av databasene for å oppnå den nødvendige tale-inf ormas jonsdataen, og oversette informasjonsdataen til språket for den nevnte ene av databasene, å kombinere taleinformasjonsdataen fra databasene, og å omforme den kombinerte taleinformasjonsdataen til et talt svar på den innmatete talens språk.
5. Fremgangsmåte i samsvar med ett av de foregående krav, karakterisert ved at utfallet av vurderingsprosessen anvendes for å bestemme den databasen dialogen skal føres med for å oppnå taleinformasjonsdataen for et talt svar til den innmatete talen.
6. Fremgangsmåte i samsvar med ett av de foregående krav, karakterisert ved at dialogen med en database, og/eller mellom databaser, effektueres med anvendelse av ett databasekommunikasjonsspråk, som f.eks. DQL (Structured Query Language).
7. Fremgangsmåte i samsvar med ett av de foregående krav, karakterisert ved at talegjenkjenningen og tolkningen omfatter trinnene å ekstrahere prosodiinformasjon fra en taleinnmating, og å oppnå dialekt-inf ormas jon fra nevnte prosodiinformasjon, hvor nevnte dialektinformasjon anvendes i omformingen av taleinformasjonsdataen som frembringes av databasen, til et talt svar, hvor de talte svarene er på samme språk som den innmatete talen.
8. Fremgangsmåte i samsvar med krav 7, karakterisert ved at prosodiinformasjonen som ekstraheres fra taleinnmatingen er grunntonekurven for den innmatete talen.
9. Fremgangsmåte i samsvar med krav 8, karakterisert ved at trinnene å bestemme informasjonsmønsteret for grunntonekurven for den innmatete tale, og derigjennom maksimums- og minimumsverdiene for grunntonekurven og deres respektive posisjoner, å bestemme intonasjonsmønsteret for grunntonekurven for en talemodell, og derigjennom maksimums- og minimumsverdiene for grunntonekurven og deres respektive posisjoner, å sammenligne intonasjonsmønsteret for den innmatete tale med intona-sjonsmønsteret for talemodellen for å identifisere en tidsforskjell mellom forekomsten av maksimums- og minimumsverdiene for grunntonekurven for den innkommende tale i forhold til maksimums- og minimumsverdiene for grunntonekurven for talemodellen, der den identifiserte tidsforskjell indikerer dialektkarakteristika for den innmatete tale.
10. Fremgangsmåte i samsvar med krav 9, karakterisert ved at tidsforskjellen bestemmes i forhold til et referansepunkt i intonasjonsmønsteret.
11. Fremgangsmåte i samsvar med krav 10, karakterisert ved at referansepunktet i intonasjonsmønsteret, mot hvilket tidsforskjellen måles, er det punkt ved hvilken en konsonant/vokalgrense inntreffer.
12. Fremgangsmåte i samsvar med et av kravene 7-11, karakterisert ved at fremgangsmåten omfatter trinnene å oppta informasjon om setningsaksenter fra prosodiinformasjonen.
13. Fremgangsmåte i samsvar med krav 12, karakterisert ved at ordene i talemodellen kontrolleres leksikalisk, og at frasene i talemodellen kontrolleres syntaktisk, og av at ordene og frasene som ikke er lingvistisk mulige ekskluderes fra talemodellen, og at ortografien og den fonetiske transkripsjon av ordene i talemodellen kontrolleres, og av at transkripsjonsinformasjonen inkluderer leksikalt abstrahert aksentinformasjon, av typen betonte stavelser, og informasjon relatert til plasseringen av sekundære aksenter.
14. Fremgangsmåte i samsvar med krav 13, karakterisert ved at aksentinformasjonen vedrører tonal ordaksent I og -aksent II.
15. Fremgangsmåte i samsvar med et av kravene 12-14, karakterisert ved at fremgangsmåten omfatter trinnet å anvende setningsaksentinformasjonen for tolkning av den innmatete tale.
16. Stemmeresponsivt kommunikasjonssystem som utnytter en fremgangsmåte i samsvar med ett av de foregående krav, for å tilveiebringe et talt svar som en respons på en taleinnmating i systemet.
17. Tale-til-tale-omformingssystem for å tilveiebringe, ved utmatingen derav, talte svar på taleinnmatinger på minst to naturlige språk, omfattende talegjenkjenningsmidler for den innmatete tale, tolkningsmidler for å tolke innholdet i den gjenkjente innmatete tale, og en database som inneholder taleinformasjonsdata for anvendelse for formuleringen av nevnte talte svar, karakterisert ved at taleinformasjonsdataene som er lagret i databasen er på de nevnte minst to naturlige språk, av at talegjenkjennings- og tolkningsmidlene er tilpasset for å kjenne igjen og tolke taleinnmatinger på nevnte minst to naturlige språk, og av at systemet ytterligere inkluderer evalueringsmidler for å evaluere de gjenkjente taleinnmatingene, og bestemme språket for innmatingene, dialogbehandlingsmidler for å effektuere en dialog med databasen for å oppta nevnte taleinformasjonsdata på den innmatete talens språk, og tekst-til-tale-omformingsmidler for å omforme taleinformasjonsdatane, som opptas fra databasen, til et talt svar.
18. Tale-til-tale-omformingssystem i samsvar med krav 17, karakterisert ved at systemet er tilpasset til å ta imot taleinnmatinger på to, eller flere, naturlige språk og for å tilveiebringe, ved utmatingen derfra, talte svar på respektive taleinnmatingsspråk, og at systemet omfatter, for hvert og et av de naturlige språk, talegjenkjenningsmidler der inngangene til hvert og et av talegjenkjenningsmidlene er tilkoplet til en felles inngang for systemet, tale-evalueringsmidler for å bestemme, i avhengighet av utmatingen fra hvert og et av talegjenkjennelsesmidlene, språket for en taleinnmating, en database som inneholder taleinformasjonsdata som anvendes ved formuleringen av talte svar på databasens språk, dialogbehandlingsmidler for tilkopling til et respektivt talegjenkjennelsesmiddel, i avhengighet av språket for den immatete tale, der behandlingsmidlene er tilpasset for å tolke innholdet i den gjenkjente tale, og på basis av tolkningen aksessere og oppta taleinformasjonsdata fra minst én av de respektive databasene, og tekst-til-tale-om-formingsmiddel for å omforme taleinformasjonsdata som opptas fra behandlingsmidlene til talte svar til de respektive taleinnmatinger.
19. Tale-til-tale-omformingssystem i samsvar med krav 17, karakterisert ved at systemet omfatter separate databaser for hvert og et av nevnte minst to språk.
20. Tale-til-tale-omformingssystem i samsvar med krav 19, karakterisert ved at systemet omfatter separate dialogbehandlingsmidler for hver og en av databasene, der hvert dialogbehandlingsmiddel er tilpasset for å effektuere en dialog med minst én av respektive databaser .
21. Tale-til-tale-omformingssystem i samsvar med krav 20, karakterisert ved at hvert av dialogbehandlingsmidlene er tilpasset for å effektuere en dialog med hver og en av databasene.
22. Tale-til-tale-omformingssystem i samsvar med krav 21, karakterisert ved at systemet omfatter oversettelsesmidler for oversettelse av de utgående tale-inf ormas jonsdata fra hver og en av databasene til språket eller språkene for de andre databasene.
23. Tale-til-tale-omformingssystem i samsvar med krav 22, karakterisert ved at, dersom minst én del av den nødvendige taleinformasjonsdata for et talt svar finnes lagret i en database på et annet språk enn det som er nødvendig for det talte svar, opptas nevnte informasjon fra nevnte database og oversettes av oversettelseshjelpemidler til det nødvendige språk for det talte svar, og at den oversatte taleinformasjon anvendes enten alene, eller i kombinasjon med annen taleinformasjon av dialogbehandlingsmidlet for å tilveiebringe en utmating for applisering på tekst-til-tale-omformingsmidlet.
24. Tale-til-tale-omformingssystem i samsvar med krav 23, karakterisert ved at systemet er tilpasset å ta imot taleinnmatinger på to språk, og at systemet omfatter, for hvert og et av to språk, en database, dialogbehandlingsmiddel og oversettelsesmiddel, og at hvert og et av dialogbehandlingsmidlene er tilpasset å kommunisere med hver og en av databasene, og at datautgangene fra hver og en av databasene er tilkoplet direkte til et av dialogbehandlingsmidlene og til det andre av behandlingsmidlene via et oversettelsesmiddel.
25. Tale-til-tale-omformingssystem i samsvar med et av kravene 17-24, karakterisert ved at systemet omfatter talegjenkjennings- og tolkningsmidler for hvert og et av de nevnte minst to naturlige språk, der inngangene til talegjenkjennings- og tolkningshjelpemidlene er tilkoplet til en felles systeminngang.
26. Tale-til-tale-omformingssystem i samsvar med ett av kravene 17-25, karakterisert ved at utmatingen fra evalueringsmidlet anvendes for å velge den database fra hvilken taleinformasjonsdataene skal opptas av dialogbehandlingsmidlet for formulering av det talte svar til taleinnmatingen.
27. Tale-til-tale-omformingssystem i samsvar med ett av kravene 17-26, karakterisert ved at dialogen med en database, og/eller mellom databaser, effektueres med anvendelse av et databasekommunikasjonsspråk, som f.eks. SQL (Structured Query Language).
28. Tale-til-tale-omformingssystem i samsvar med ett av kravene 17-27, karakterisert ved at talegjenkjennings- og tolkningsmidlene omfatter ekstraksjonsmidler for ekstraksjon av prosodiinformasjon fra den innmatete tale, og midler for å oppta dialektinformasjon fra prosodiinformasjonen, hvor dialektinformasjonen anvendes av tekst-til-tale-omformingsmidlet ved omformingen av taleinformasjonsdata til det talte svar, der dialekten for det talte svar er tilpasset den innmatete tale.
29. Tale-til-tale-omformingssystem i samsvar med krav 28, karakterisert ved at prosodiinformasjons-utdraget fra den innmatete tale er grunntonekurven for den innmatete tale.
30. Tale-til-tale-omformingssystem i samsvar med krav 29, karakterisert ved at midlene for å oppta dialektinformasjon fra prosodiinformasjonen omfatter første analysemiddel for å bestemme intonasjonsmønsteret for grunntonen i den innmatete tale, og derigjennom maksimums-og minimumsverdiene for grunntonekurven og deres respektive posisjoner, andre analysemiddel for å bestemme intonasjons-mønsteret for grunntonekurven for talemodellen og derigjennom maksimums- og minimumsverdiene for grunntonekurven og deres respektive posisjoner, sammenligningsmidler for å sammenligne intonasjonsmønsteret for den innmatete tale med intonasjonsmønsteret for talemodellen for å identifisere en tidsforskjell mellom forekomsten av maksimums- og minimumsverdiene for grunntonekurven for den innkommende tale i forhold til maksimums- og minimumsverdiene for grunntonekurven i talemodellen, idet den identifiserte tidsforskjell indikerer dialektkarakteristikken for den innmatete tale.
31. Tale-til-tale-omformingssystem i samsvar med krav 30, karakterisert ved at tidsforskjellen bestemmes i forhold til et referansepunkt i intonasjons-mønsteret .
32. Tale-til-tale-omformingssystem i samsvar med krav 31, karakterisert ved at referansepunktet i intonasjonsmønsteret, mot hvilket tidsforskjellen måles, er det punkt ved hvilken en konsonant/vokalgrenser inntreffer.
33. Tale-til-tale-omformingssystem i samsvar med ett av kravene 28-32, karakterisert ved at systemet dessuten omfatter midler for å oppta informasjon om setningsaksenter fra prosodiinformasjon.
34. Tale-til-tale-omformingssystem i samsvar med krav 33, karakterisert ved at talegjenkjenningsmidlet omfatter kontrollmiddel for å leksikalt kontrollere ordene i talemodellen, og for å syntaktisk kontrollere frasene i talemodellen, der de ord og fraser som ikke er lingvistisk mulige ekskluderes fra talemodellen, og at kontrollmidlet er tilpasset for å kontrollere ortografien og den fonetiske transkripsjonen av ordene i talemodellen, og at transkripsjonsinformasjonen inkluderer leksikalisk abstrahert aksentinformasjon, av typen betonte stavelser, og informasjon i relasjon til plassering av sekundær aksent.
35. Tale-til-tale-omformingssystem i samsvar med krav 34, karakterisert ved at aksentinformasjonen relateres til tonal ordaksent I og aksent II.
36. Tale-til-tale-omformingssystem i samsvar med ett av kravene 33-35, karakterisert ved at setningsaksentinformasjonen anvendes ved tolkning av innholdet i den gjenkjente innmatete tale.
37. Tale-til-tale-omformingssystem i samsvar med ett av kravene 28-36, karakterisert ved at setningsbetoningene bestemmes og anvendes ved tolkningen av innholdet i den gjenkjente innmatete tale.
38. Stemmeresponsivt kommunikasjonssystem omfattende et tale-til-tale-omformingssystem i samsvar med ett av kravene 17-37.
NO19985178A 1996-05-13 1998-11-06 System og fremgangsmate for tale-til-taleomforming NO318112B1 (no)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
SE9601812A SE519273C2 (sv) 1996-05-13 1996-05-13 Förbättringar av , eller med avseende på, tal-till-tal- omvandling
PCT/SE1997/000584 WO1997043707A1 (en) 1996-05-13 1997-04-08 Improvements in, or relating to, speech-to-speech conversion

Publications (3)

Publication Number Publication Date
NO985178D0 NO985178D0 (no) 1998-11-06
NO985178L NO985178L (no) 1998-11-11
NO318112B1 true NO318112B1 (no) 2005-01-31

Family

ID=20402544

Family Applications (1)

Application Number Title Priority Date Filing Date
NO19985178A NO318112B1 (no) 1996-05-13 1998-11-06 System og fremgangsmate for tale-til-taleomforming

Country Status (4)

Country Link
EP (1) EP0976026A1 (no)
NO (1) NO318112B1 (no)
SE (1) SE519273C2 (no)
WO (1) WO1997043707A1 (no)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2284304A1 (en) * 1998-12-22 2000-06-22 Nortel Networks Corporation Communication systems and methods employing automatic language indentification
US7590538B2 (en) * 1999-08-31 2009-09-15 Accenture Llp Voice recognition system for navigating on the internet
JP2001101187A (ja) 1999-09-30 2001-04-13 Sony Corp 翻訳装置および翻訳方法、並びに記録媒体
GB2366940B (en) 2000-09-06 2004-08-11 Ericsson Telefon Ab L M Text language detection
DE10063148A1 (de) 2000-12-18 2002-06-20 Deutsche Telekom Ag Dialoganlage für eine Mensch-Maschine-Interaktion mit kooperierenden Dialogeinrichtungen
GB0111012D0 (en) 2001-05-04 2001-06-27 Nokia Corp A communication terminal having a predictive text editor application
DE102006057159A1 (de) * 2006-12-01 2008-06-05 Deutsche Telekom Ag Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2165969B (en) * 1984-10-19 1988-07-06 British Telecomm Dialogue system
DE3732849A1 (de) * 1987-09-29 1989-04-20 Siemens Ag System-architektur fuer ein akustisches mensch/maschine-dialogsystem
DE69232407T2 (de) * 1991-11-18 2002-09-12 Toshiba Kawasaki Kk Sprach-Dialog-System zur Erleichterung von Rechner-Mensch-Wechselwirkung
SE500277C2 (sv) * 1993-05-10 1994-05-24 Televerket Anordning för att öka talförståelsen vid översätttning av tal från ett första språk till ett andra språk
SE504177C2 (sv) * 1994-06-29 1996-12-02 Telia Ab Metod och anordning att adaptera en taligenkänningsutrustning för dialektala variationer i ett språk

Also Published As

Publication number Publication date
SE9601812D0 (sv) 1996-05-13
NO985178L (no) 1998-11-11
SE519273C2 (sv) 2003-02-11
EP0976026A1 (en) 2000-02-02
NO985178D0 (no) 1998-11-06
SE9601812L (sv) 1997-11-14
WO1997043707A1 (en) 1997-11-20

Similar Documents

Publication Publication Date Title
US5752227A (en) Method and arrangement for speech to text conversion
KR102191425B1 (ko) 인터랙티브 캐릭터 기반 외국어 학습 장치 및 방법
US6029132A (en) Method for letter-to-sound in text-to-speech synthesis
US7937262B2 (en) Method, apparatus, and computer program product for machine translation
US5384701A (en) Language translation system
EP0262938B1 (en) Language translation system
NO316847B1 (no) Fremgangsmate og anordning ved omvandling av tale til tekst
JP2002520664A (ja) 言語に依存しない音声認識
EP0767950B1 (en) Method and device for adapting a speech recognition equipment for dialectal variations in a language
KR20150065523A (ko) 상담 정보를 이용하여 상담 대화를 제공하는 방법 및 장치
KR20100068965A (ko) 자동 통역 장치 및 그 방법
KR100669241B1 (ko) 화행 정보를 이용한 대화체 음성합성 시스템 및 방법
JP6397641B2 (ja) 自動通訳装置及び方法
NO318112B1 (no) System og fremgangsmate for tale-til-taleomforming
EP0919052B1 (en) A method and a system for speech-to-speech conversion
RU2386178C2 (ru) Способ предварительной обработки текста
KR100484493B1 (ko) 다중 발음사전을 이용한 대화체 연속 음성인식 시스템 및방법
KR100369507B1 (ko) 표준 발음법 분석에 기반한 음성 인식/합성 시스템 및 방법
KR102405547B1 (ko) 딥러닝 기반의 발음 평가 시스템
Oliva-Juarez et al. Identification of vowel sounds of the Choapan variant of Zapotec language
Dobrovolskyi et al. An approach to synthesis of a phonetically representative english text of minimal length
Nazemi et al. Multilingual Text to Speech in embedded systems using RC8660
Liu et al. Prosodic word-based error correction in speech recognition using prosodic word expansion and contextual information.
de Campos et al. Translating Text to Phonemes for the Portuguese Language
Boves The ESPRIT project polyglot