NO318557B1 - Speech-to-speech conversion method and system - Google Patents

Speech-to-speech conversion method and system Download PDF

Info

Publication number
NO318557B1
NO318557B1 NO19985179A NO985179A NO318557B1 NO 318557 B1 NO318557 B1 NO 318557B1 NO 19985179 A NO19985179 A NO 19985179A NO 985179 A NO985179 A NO 985179A NO 318557 B1 NO318557 B1 NO 318557B1
Authority
NO
Norway
Prior art keywords
speech
information
accordance
input
model
Prior art date
Application number
NO19985179A
Other languages
Norwegian (no)
Other versions
NO985179L (en
NO985179D0 (en
Inventor
Bertil Lyberg
Original Assignee
Teliasonera Ab Publ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Teliasonera Ab Publ filed Critical Teliasonera Ab Publ
Publication of NO985179D0 publication Critical patent/NO985179D0/en
Publication of NO985179L publication Critical patent/NO985179L/en
Publication of NO318557B1 publication Critical patent/NO318557B1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Use Of Switch Circuits For Exchanges And Methods Of Control Of Multiplex Exchanges (AREA)

Description

Den foreliggende oppfinnelse vedrører systemer og en fremgangsmåte som angitt i den innledende del av de respektive selvstendige krav 1, 14, 15 og 26. The present invention relates to systems and a method as stated in the introductory part of the respective independent claims 1, 14, 15 and 26.

I kjente stemmeresponsive kommunikasjonssystem produseres taleinformasjonen, som lagres i en database og anvendes for å tilveiebringe egnete syntetiske talte svar til stemmeinnmatinger som anvender et tale-til-tale-omformingssystem, normalt med en dialekt som stemmer overens med standard riksdialekt. In known voice-responsive communication systems, the speech information, which is stored in a database and used to provide suitable synthetic spoken responses to voice inputs using a speech-to-speech conversion system, is produced, normally with a dialect that corresponds to the standard national dialect.

Således når det finnes betydelige avvik mellom dialekten for den innmatede tale og standard riksdialekt, kan det under visse omstendigheter vise seg vanskelig for databasen i kjente stemmeresponsive kommunikasjonssystem å tolke mottatt taleinformasjon, dvs. stemmeinnmatingene. Det kan også være vanskelig for personen som fremfører stemmeinnmatingene å helt forstå det talte svar. Selv om slike svar er forståelige for en mottaker, vil det være mer brukervennlig om dialekten på det talte svar er den samme som dialekten på den motsvarende stemmeinnmating. Thus, when there are significant deviations between the dialect of the entered speech and the standard national dialect, under certain circumstances it may prove difficult for the database in known voice-responsive communication systems to interpret received speech information, i.e. the voice inputs. It may also be difficult for the person performing the voice inputs to fully understand the spoken response. Although such responses are comprehensible to a recipient, it will be more user-friendly if the dialect of the spoken response is the same as the dialect of the corresponding voice input.

Likeledes ved artifisiell reproduksjon av et talt språk er det et behov at språket reproduseres naturlig og med den korrekte intonasjon. Spesielt kan betydningen av ord være vidt forskjellige i avhengighet av språkbetoningen. Også innholdet i en og samme setning kan gis en annerledes betydning avhengig av hvor betoningen plasseres. Dessuten bestemmer betoningen i setningene, eller deler derav, avsnitt som fremheves i språket og som kan være av betydning når det gjelder å fastsette den eksakte betydning av det uttalte språk. Likewise, with the artificial reproduction of a spoken language, there is a need for the language to be reproduced naturally and with the correct intonation. In particular, the meaning of words can be very different depending on the language emphasis. The content of one and the same sentence can also be given a different meaning depending on where the emphasis is placed. Moreover, the stress in the sentences, or parts of them, determines the sections that are emphasized in the language and which can be of importance when it comes to determining the exact meaning of the spoken language.

Behovet for at artifisielt produsert tale skai være så naturlig som mulig og ha den rette betoning er av spesiell viktighet ved stemmeresponsive kommunikasjonsanordninger og/eller systemer som produserer tale i ulike sammenhenger. Med kjente talesvarsarrangement er den reproduserte tale vanskelig å forstå og tolke. Det er derfor et behov for et tale-til-tale-omformingssystem hvor de artifisielle tale-utmatingene er naturlige, har den korrekte betoning og er enkle å forstå. The need for artificially produced speech to be as natural as possible and have the right emphasis is of particular importance for voice-responsive communication devices and/or systems that produce speech in various contexts. With known speech response arrangements, the reproduced speech is difficult to understand and interpret. There is therefore a need for a speech-to-speech conversion system where the artificial speech outputs are natural, have the correct emphasis and are easy to understand.

I språk som har godt utviklet setningsbetoning og/ eller tonehøyde i individuelle ord er identifiseringen av den naturlige betydning av ordene/setningene svært vanskelig. Det faktum at betoninger kan plasseres feil øker risikoen for feiltolking, eller at betydningen helt går tapt for den hørende part. In languages that have well-developed sentence stress and/or pitch in individual words, the identification of the natural meaning of the words/sentences is very difficult. The fact that emphasis can be placed incorrectly increases the risk of misinterpretation, or that the meaning is completely lost to the hearing party.

Forskjellige typer av talegjenkjenningssystemer er kjente. Det er i slike systemer vanlig at talegjenkjennings-anordningen læres til å kjenne igjen tale fra et stort antall personer. Taleinnlæringen følger også en spesiell dialekt eller dialekter. Den informasjon som samles gjennom denne prosess anvendes deretter av systemet for å tolke innkommende tale. Således kan slike system normalt ikke kjenne igjen dialektvariasjoner i tale som ligger utenfor den spesielle dialekt eller de dialekter for hvilket systemet er opplært. Various types of speech recognition systems are known. In such systems, it is common for the speech recognition device to be taught to recognize speech from a large number of people. Speech learning also follows a special dialect or dialects. The information gathered through this process is then used by the system to interpret incoming speech. Thus, such systems cannot normally recognize dialect variations in speech that lie outside the particular dialect or the dialects for which the system is trained.

I språk med tonet ordaksenter og tonet språk utgjør intonasjonsmønsteret i språket en svært viktig del av for-ståelsen av språket, men kjente system tar ingen hensyn til disse talekarakteristika. Som en følge av dette kan gjenkjennelsen av ord og fraser, med kjente talegjenkjennelsessystem, gi opphav til feiltolkninger. De kjente talegjenkjennelsessystemer som er tilpasset for å ta hensyn til dialekter i tale er spesifikt skreddersydd for en spesiell dialekt, og er derfor ikke tilpasset for å kjenne igjen forskjellige dialekter i et språk. In languages with toned word accents and toned language, the intonation pattern in the language constitutes a very important part of the understanding of the language, but known systems do not take these speech characteristics into account. As a result of this, the recognition of words and phrases, with known speech recognition systems, can give rise to misinterpretations. The known speech recognition systems which are adapted to take account of dialects in speech are specifically tailored for a particular dialect, and are therefore not adapted to recognize different dialects in a language.

I fremtiden vil talegjenkjennelsesanordninger i større grad anvendes i mange forskjellige applikasjoner der det finnes et behov for å kjenne igjen ulike dialekter i et språk. Dialektvariasjonene i et språk har, i det foregående, vært vanskelig å fastsette, og som en konsekvens av dette har man erfart problemer med å få en korrekt forståelse av en artifisiell produsert tale. Dessuten kan de kjente talegjenkjennelsesanordninger i alminnelighet ikke anvendes for ulike språk. In the future, speech recognition devices will be used to a greater extent in many different applications where there is a need to recognize different dialects of a language. The dialect variations in a language have, in the foregoing, been difficult to determine, and as a consequence of this, problems have been experienced in obtaining a correct understanding of an artificially produced speech. Moreover, the known speech recognition devices cannot generally be used for different languages.

Således, idet kjente talegjenkjennelsessystemer er tilpasset for å kjenne igjen, gjennom innlæring, en spesiell dialekt i et språk, er det ikke mulig for slike system å kjenne igjen forskjellige dialekter i språket, eller dialekter i ulike språk, ved anvendelse av samme talegjenkjennelsesanordning, uten ytterligere innlæring. Thus, as known speech recognition systems are adapted to recognize, through learning, a particular dialect in a language, it is not possible for such systems to recognize different dialects in the language, or dialects in different languages, using the same speech recognition device, without further learning.

Den artifisielle tolkning av tale har derfor vært vanskelig eller umulig å utføre med kjente talegjenkjennelsesanordninger, på grunn av slike systemers mang-lende evne til å kjenne igjen dialektvariasjoner. The artificial interpretation of speech has therefore been difficult or impossible to perform with known speech recognition devices, due to such systems' lack of ability to recognize dialect variations.

Bortsett fra de tekniske problem med å korrekt tolke tale, er det nødvendig, i stemmesvars-/styringssystem for de muntlige instruksjonene, eller kommandoene, å bli korrekt tolket, hvis ikke vil det ikke bli mulig å tilveiebringe korrekte svar, eller effektuere rett styrelse av ulike typer anordninger og/eller tjenester, f.eks. i et telekommunikasjonsnettverk. Apart from the technical problems of correctly interpreting speech, it is necessary, in the voice response/control system, for the spoken instructions, or commands, to be correctly interpreted, otherwise it will not be possible to provide correct answers, or effectuate the correct management of different types of devices and/or services, e.g. in a telecommunications network.

For å løse disse problemer er det nødvendig for et stemmeresponsivt kommunikasjonssystem å kunne tolke den mottatte taleinformasjon, uavhengig av dialekt, og å tilpasse dialekten for den utgående tale til dialekten for den respektive inngående tale. Likeledes er det, for på en utvetydig måte å kunne bestemme betydningen av enkelte ord eller fraser i en talt sekvens, nødvendig for tale-til-tale-omformerne som anvendes i et stemmeresponsivt kommunikasjonssystem å kunne bestemme, å ta hensyn til, betoninger i den talte sekvens. To solve these problems, it is necessary for a voice-responsive communication system to be able to interpret the received speech information, regardless of dialect, and to adapt the dialect of the outgoing speech to the dialect of the respective incoming speech. Likewise, in order to unambiguously determine the meaning of certain words or phrases in a spoken sequence, it is necessary for the speech-to-speech converters used in a voice-responsive communication system to be able to determine, to take into account, emphases in the spoken sequence.

Fra kjent teknikk skal blant annet EP 0 624 865 Al trekkes frem, og som omhandler et system for kunstig tale-oversettelse fra et språk til et annet. Systemet omfatter en talegjenkjenningsenhet som blant annet omformer et mottatt tale til tekst, en analyseringsenhet for analysering av en grunntone til et ført språk, en prosodi-tolkningsenhet som bestemmer og lager en første prosodi og talekarak-teristisk-informasjon relatert til det første språket, og en prosodi-genereringsenhet som generer en andre prosodi-informasjon. Fra GB 2165969 A er det kjent et system relatert til en taleservice hvor en bruker kommuniserer med et dialogsystem, omfattende blant annet en talegjenkjenningsenhet . Among other things, EP 0 624 865 Al should be highlighted from the prior art, which deals with a system for artificial speech translation from one language to another. The system comprises a speech recognition unit which, among other things, transforms a received speech into text, an analysis unit for analyzing a basic tone of a spoken language, a prosody interpretation unit which determines and creates a first prosody and speech characteristic information related to the first language, and a prosody generation unit that generates a second prosody information. From GB 2165969 A, a system related to a voice service is known where a user communicates with a dialog system, including a speech recognition unit.

Det er et formål med foreliggende oppfinnelse å tilveiebringe et system for tale-til-tale-omforming som kan tilpasse dialekten for den utmatede tale til dialekten for respektive taleinnmatinger. It is an object of the present invention to provide a system for speech-to-speech conversion which can adapt the dialect of the outputted speech to the dialect of respective speech inputs.

Et annet formål med foreliggende oppfinnelse er å tilveiebringe et system for tale-til-tale-omforming som er tilpasset for å kjenne igjen og tolke tale som mates inn, spesielt dialekter, satsbetoninger og betoningen i talte satser, med anvendelse av grunntonekurven i de talte sek-vensene . Another object of the present invention is to provide a system for speech-to-speech conversion which is adapted to recognize and interpret input speech, in particular dialects, sentence stress and the stress in spoken sentences, using the fundamental tone curve in the spoken the sequences.

Et ytterligere formål med foreliggende oppfinnelse er å tilveiebringe et stemmeresponsivt kommunikasjonssystem som inkluderer et tale-til-tale-omformingssystem som kan tilpasse dialektene for de utmatede taler med de for de respektive innmatede taler. A further object of the present invention is to provide a voice-responsive communication system which includes a speech-to-speech conversion system which can match the dialects of the outputted speeches with those of the respective inputted speeches.

Oppfinnelsen frembringer et tale-til-tale-omformingssystem som ved utmating fra det samme tilveiebringer talte svar på taleinnmatinger til systemet, og som omfatter talegjenkjennelsesmidler for den tale som mates inn, tolkningsmidler for å tolke innholdet i den gjenkjente innmatede tale, og en database som inneholder taleinformasjonsdata for anvendelse med formuleringen av nevnte talte svar, der utmatingen av nevnte tolkningshjelpemiddel anvendes for aksess til nevnte database og for å oppta taleinformasjonsdata derfra, samt at systemet ytterligere inkluderer ekstraksjonsmidler for å ekstrahere prosodi-informasjon fra den innmatede tale, midler for å oppta dialektinformasjon fra prosodi-informasjonen, og tekst-til-tale-omformings-midler for å omforme taleinformasjonsdataene som opptas fra nevnte database til et talt svar som anvender nevnte dialektinformasjon, idet dialekten for det talte svar tilpasses dialekten for den innmatede tale. Oppfinnelsen er kjennetegnet ved at midlet for å oppta dialektinformasjonen fra nevnte prosodi-informasjon inkluderer første analyseringsmiddel for å bestemme intonasjonsmønsteret for grunntonen for den innmatede tale og derigjennom maksimum- og minimumsverdiene for grunntonekurven og deres respektive posisjoner, andre analyseringsmiddel for å bestemme intona-sjonsmønsteret for grunntonekurven for talemodellen og derigjennom maksimum- og minimumsverdiene for grunntonekurven og deres respektive posisjoner, sammenligningsmidler for å sammenligne intonasjonsmønsteret for den tale som mates inn, med intonasjonsmønsteret for talemodellen, for å identifisere en tidsforskjell mellom forekomsten av maksimum- og minimumsverdiene for grunntonekurvene for den innkommende tale i forhold til maksimum- og minimumsverdiene for grunntonekurven for talemodellen, idet den identifiserte tidsforskjell indikerer dialektkarakteristikkene for den innmatede tale. The invention produces a speech-to-speech conversion system which, when outputted from the same, provides spoken responses to speech inputs to the system, and which includes speech recognition means for the speech that is fed in, interpretation means for interpreting the content of the recognized speech input, and a database which contains speech information data for use with the formulation of said spoken response, where the output of said interpretation aid is used for access to said database and for recording speech information data from there, and that the system further includes extraction means for extracting prosody information from the inputted speech, means for recording dialect information from the prosody information, and text-to-speech conversion means for transforming the speech information data recorded from said database into a spoken response using said dialect information, the dialect of the spoken response being adapted to the dialect of the inputted speech. The invention is characterized in that the means for recording the dialect information from said prosody information includes first analysis means for determining the intonation pattern for the base tone of the input speech and thereby the maximum and minimum values for the base tone curve and their respective positions, second analysis means for determining the intonation pattern for the pitch curve of the speech model and thereby the maximum and minimum values of the pitch curve and their respective positions, comparison means for comparing the intonation pattern of the input speech with the intonation pattern of the speech model, to identify a time difference between the occurrence of the maximum and minimum values of the pitch curves of the incoming speech in relation to the maximum and minimum values for the fundamental tone curve for the speech model, the identified time difference indicating the dialect characteristics of the input speech.

Talegjenkjennelsesmidlet er tilpasset for å identifisere et antall fonem fra et segment av den tale som mates inn og inkluderer tolkningsmiddel for å tolke fonemene som mulige ord, eller ordkombinasjoner for å opprette en modell av talen, der talemodellen har ord og setningsaksenter i samsvar med et standardisert mønster for språket for den tale som mates inn. The speech recognition means is adapted to identify a number of phonemes from a segment of the inputted speech and includes interpretation means for interpreting the phonemes as possible words, or word combinations to create a model of the speech, where the speech model has word and sentence accents in accordance with a standardized pattern for the language of the input speech.

Prosodi-informasjonen som ekstraheres fra talen som mates inn er grunntonekurven for den tale som mates inn. The prosody information extracted from the input speech is the pitch curve of the input speech.

Tidsforskjellen bestemmes i forhold til et referansepunkt i intonasj onsmønsteret. The time difference is determined in relation to a reference point in the intonation pattern.

Referansepunktet i intonasjonsmønsteret mot hvilket tidsdifferansen måles er det punkt ved hvilken en konsonant/vokal-grense forekommer. The reference point in the intonation pattern against which the time difference is measured is the point at which a consonant/vowel boundary occurs.

Systemet omfatter ytterligere midler for å oppta informasjon om setningsaksenter fra nevnte prosodi-informasjon. The system includes further means for recording information about sentence accents from said prosody information.

Talegjenkjennelsesmidlet inkluderer kontrollmidler for å leksikalistisk kontrollere ordene i talemodellen, og for syntaktisk kontroll av frasene i talemodellen, der ordene og frasene som ikke er lingvistisk mulige ekskluderes fra talemodellen idet kontrollmidlene er tilpasset for å kontrollere ortografien og den fonetiske transkripsjonen til ordene i talemodellen, og av at transkripsjonsinformasjonen inkluderer leksikalt abstrahert aksentinformasjon av typen betonete stavelser, og informasjon i avhengighet av plassering av sekundæraksent. The speech recognition means includes control means for lexically checking the words in the speech model, and for syntactic control of the phrases in the speech model, where the words and phrases that are not linguistically possible are excluded from the speech model, as the control means are adapted to check the orthography and the phonetic transcription of the words in the speech model, and that the transcription information includes lexically abstracted accent information of the type stressed syllables, and information depending on the placement of the secondary accent.

Aksentinformasjonen vedrører tonal ordaksent I og aksent The accent information relates to tonal word accent I and accent

II. II.

Setningsaksentinformasjonen anvendes ved tolkningen av innholdet i den gjenkjente innmatede tale. Setningsbetoningene bestemmes og anvendes ved tolkningen av innholdet i den gjenkjente innmatede tale. The sentence accent information is used when interpreting the content of the recognized input speech. The sentence stresses are determined and used when interpreting the content of the recognized input speech.

Systemet inkluderer dessuten dialogbehandlingsmidler for å behandle en dialog med databasen der dialogen initieres av tolkningsmidlet. The system also includes dialogue processing means for processing a dialogue with the database where the dialogue is initiated by the interpretation means.

Dialogen med databasen resulterer i appliseringen av taleinformasjonsdata fra tekst-til-tale-omformingsmidlet. The dialogue with the database results in the application of speech information data from the text-to-speech converter.

Dialogen med databasen effektueres ved anvendelse av SQL. The dialogue with the database is carried out using SQL.

Oppfinnelsen vedrører også et stemmeresponsivt kommunikasjonssystem, som omfatter et tale-til-tale-omf ormingssystem i samsvar med et av de foregående avsnitt, innrettet til å tilveiebringe et talt svar på en taleinnmating til systemet. The invention also relates to a voice-responsive communication system, which comprises a speech-to-speech conversion system in accordance with one of the preceding sections, arranged to provide a spoken response to a voice input to the system.

Oppfinnelsen vedrører også en fremgangsmåte, i et stemmeresponsivt kommunikasjonssystem, for å tilveiebringe et talt svar på en taleinnmating til systemet, idet svaret har en dialekt som er tilpasset den for den innmatede tale, der fremgangsmåten inkluderer trinnene å kjenne igjen og tolke den innmatede tale, og å utnytte tolkningen til å oppta taleinformasjonsdata fra en database for anvendelse for formuleringen av nevnte talte svar, fremgangsmåten omfatter ytterligere trinnene å ekstrahere prosodi-inf ormas jon fra den innmatede tale, å oppta dialekt-inf ormas jon fra nevnte prosodi-informasjon, og å omforme taleinformasjonsdataene som opptas fra databasen til nevnte talte svar med anvendelse av nevnte dialektinformasjon. Fremgangsmåten er kjennetegnet ved trinnene å bestemme intonasjonsmønsteret for grunntonen for den innmatede tale og derigjennom maksimum- og minimumsverdiene for grunntonekurven og dens respektive verdi, bestemme intonasjons-mønsteret for grunntonekurven for en talemodell og derigjennom maksimum- og minimumsverdiene for grunntonekurven og dens respektive posisjoner, sammenligne intonasjons-mønsteret for den innmatede tale med intonasjonsmønsteret for talemodellen for å identifisere en tidsforskjell mellom forekomsten av maksimum- og minimumsverdiene for grunntonekurven for den innkommende tale i forhold til maksimum-og minimumsverdiene for grunntonekurven for talemodellen, idet den identifiserte tidsforskjell indikerer dialektkarakteristikken for den innmatede tale. The invention also relates to a method, in a voice-responsive communication system, for providing a spoken response to a speech input to the system, the response having a dialect adapted to that of the inputted speech, wherein the method includes the steps of recognizing and interpreting the inputted speech, and utilizing the interpretation to record speech information data from a database for use in formulating said spoken response, the method further comprising the steps of extracting prosody information from the input speech, recording dialect information from said prosody information, and transforming the speech information data recorded from the database into said spoken response using said dialect information. The procedure is characterized by the steps of determining the intonation pattern for the fundamental tone of the input speech and thereby the maximum and minimum values of the fundamental tone curve and its respective value, determining the intonation pattern of the fundamental tone curve for a speech model and thereby the maximum and minimum values of the fundamental tone curve and its respective positions, comparing the intonation pattern of the input speech with the intonation pattern of the speech model to identify a time difference between the occurrence of the maximum and minimum values of the pitch curve of the incoming speech relative to the maximum and minimum values of the pitch curve of the speech model, the identified time difference indicating the dialect characteristic of the input speech.

Gjenkjennelsen og tolkningen av den innmatede tale inkluderer trinnene å identifisere et antall fonem fra et segment av den innmatede tale, og tolke fonemene som mulige ord, eller ordkombinasjoner for å etablere en modell av talen, der talemodellen har ord og setningsaksenter i samsvar med et standardisert mønster for språket for den innmatede tale. The recognition and interpretation of the input speech includes the steps of identifying a number of phonemes from a segment of the input speech, and interpreting the phonemes as possible words, or word combinations to establish a model of the speech, where the speech model has word and sentence accents in accordance with a standardized pattern for the language of the input speech.

Prosodi-informasjonen som ekstraheres fra den innmatede tale er grunntonekurven i den tale som mates inn. The prosody information extracted from the input speech is the pitch curve of the input speech.

Tidsforskjellen bestemmes i forhold til et referansepunkt i intonasj onsmønsteret. The time difference is determined in relation to a reference point in the intonation pattern.

Referansepunktet i intonasjonsmønsteret mot hvilken tidsforskjellen måles, er det punkt ved hvilken en konsonant/vokal-grense inntreffer. The reference point in the intonation pattern against which the time difference is measured is the point at which a consonant/vowel boundary occurs.

Fremgangsmåten omfatter trinnet å oppta informasjon om setningsaksenter fra prosodi-informasjonen. The method includes the step of capturing information about sentence accents from the prosody information.

Ordene i talemodellen kontrolleres leksikalistisk, og av at frasene i talemodellen kontrolleres syntaktisk, og at ordene og frasene som ikke er lingvistisk mulige ekskluderes fra talemodellen, og at ortografien og den fonetiske transkripsjon av ordene i talemodellen kontrolleres, og av at transkripsjonsinformasjonen inkluderer leksikalistisk abstrahert aksentinformasjon av typen betonete stavelser, og informasjon relatert til plasseringen av sekundær aksent. The words in the speech model are checked lexically, and that the phrases in the speech model are checked syntactically, and that the words and phrases that are not linguistically possible are excluded from the speech model, and that the orthography and the phonetic transcription of the words in the speech model are checked, and that the transcription information includes lexically abstracted accent information of the type of stressed syllables, and information related to the placement of the secondary accent.

Aksentinformasjonen vedrører total ordaksent I og II. The accent information relates to total word accent I and II.

Fremgangsmåten omfatter trinnet å anvende nevnte setningsaksentinformasjon til tolkningen av den innmatede tale. The method comprises the step of applying said sentence accent information to the interpretation of the inputted speech.

Fremgangsmåten omfatter trinnet å identifisere en dialog med databasen for å oppta taleinformasjonsdata for å formulere nevnte talte svar, der nevnte dialog initieres etter tolkningen av den innmatede tale. The method comprises the step of identifying a dialogue with the database to record speech information data to formulate said spoken response, wherein said dialogue is initiated after the interpretation of the inputted speech.

Dialogen med databasen resulterer i applisering av taleinformasjonsdata på tekst-til-tale-omformingsmidlet. Oppfinnelsen vedrører også et stemmeresponsivt kommunikasjonssystem, som utnytter en fremgangsmåte i samsvar med et av de foregående avsnitt, for å tilveiebringe et talt svar på en taleinnmating til systemet. The dialogue with the database results in the application of speech information data to the text-to-speech conversion means. The invention also relates to a voice-responsive communication system, which utilizes a method in accordance with one of the preceding paragraphs, to provide a spoken response to a voice input to the system.

Foregående og andre trekk i samsvar med følgende oppfinnelse vil fremgå tydeligere av følgende beskrivelse med henvisning til figuren i de medfølgende bilder som illustrerer, i form av et flytskjema, et tale-til-tale-omf ormingssystem i samsvar med oppfinnelsen. Previous and other features in accordance with the following invention will appear more clearly from the following description with reference to the figure in the accompanying images which illustrate, in the form of a flow chart, a speech-to-speech conversion system in accordance with the invention.

Det fremgår av figuren at tale-til-tale-omformingssystemet i samsvar med foreliggende oppfinnelse inkluderer, ved inngangen 1 derav, en talegjenkjennelsesanordning 2, og en ekstraksjonsenhet 3 for å ekstrahere prosodi-informasjon fra tale som appliseres på systeminngangen 1, dvs. grunntonekurven for den tale som mates inn. Således vil tale som appliseres på inngang 1 samtidig appliseres på enhetene 2 og 3. It appears from the figure that the speech-to-speech conversion system in accordance with the present invention includes, at the input 1 thereof, a speech recognition device 2, and an extraction unit 3 for extracting prosody information from speech that is applied to the system input 1, i.e. the fundamental tone curve for the speech that is input. Thus speech that is applied to input 1 will be applied to units 2 and 3 at the same time.

Utgangen på talegjenkjennelsesenheten 2 og en utgang på ekstraksjonsenheten 3 er koblet til separate innganger på en tolkningsenhet 4, hvilkens utgang er tilkoblet til en databasebehandlingsenhet 5. Databasebehandlingsenheten 5, som er tilpasset for toveis kommunikasjon med en database 6, er tilkoblet ved utgangen derav til inngangen på en tekst-til-tale-omformer 7. Dialogen mellom databasen 6 og databasebehandlingsenheten 5 kan effektueres med et hvert kjent databasekommunikasjonsspråk, f.eks. SQL (Structured Query Language). Utgangen av tekst-til-tale-omformeren 7 tilveiebringer en utgang med syntetisk tale til tale-til-tale-omf ormingssystemet . The output of the speech recognition unit 2 and an output of the extraction unit 3 are connected to separate inputs of an interpretation unit 4, the output of which is connected to a database processing unit 5. The database processing unit 5, which is adapted for two-way communication with a database 6, is connected at its output to the input on a text-to-speech converter 7. The dialogue between the database 6 and the database processing unit 5 can be effected with a known database communication language, e.g. SQL (Structured Query Language). The output of the text-to-speech converter 7 provides a synthetic speech output to the speech-to-speech conversion system.

Som vist i figuren er ytterligere en utgang på ekstraksjonsenheten 3 tilkoblet til inngangen på en prosodi-analyseenhet 8 som er tilkoblet for dobbelrettet kommunikasjon med tekst-til-tale-omformeren 7. Prosodi-analyseenheten 8 er tilpasset, som en del av tekst-til-tale-omf ormingsprosessen for omformerene 7, å analysere prosodi-informasjonen, dvs. grunntonekurven for den syntetiserte tale, å gjøre nødvendige korrigeringer i intonasjonsmønsteret for den syntetiserte tale i samsvar med den dialektinformasjon som er ekstrahert fra den innmatede tale. Således vil dialekten på utgangen for den syntetiserte tale i tale-til-tale-omformingssystemet tilpasses motsvarende for den innmatede tale. As shown in the figure, a further output of the extraction unit 3 is connected to the input of a prosody analysis unit 8 which is connected for bidirectional communication with the text-to-speech converter 7. The prosody analysis unit 8 is adapted, as part of text-to - the speech transformation process of the converters 7, to analyze the prosody information, i.e. the pitch curve of the synthesized speech, to make necessary corrections in the intonation pattern of the synthesized speech in accordance with the dialect information extracted from the input speech. Thus, the dialect at the output for the synthesized speech in the speech-to-speech conversion system will be adapted correspondingly for the input speech.

Det fremgår derfor av det foregående at den foreliggende oppfinnelse er tilpasset for å tilveiebringe et talt svar til en taleinnmating til tale-til-tale-omformingssystemet som har en dialekt som er tilpasset den for den innmatede tale, og at denne omformingsprosess inkluderer trinnene å kjenne igjen og tolke den innmatede tale, utnyttelse av tolkningen for å oppnå taleinformasjonsdata fra en database for anvendelse med formuleringen av det talte svar, ekstraksjon av prosodi-informasjon fra den innmatede tale, oppta dialektinformasjon fra prosodi-informasjonen, og omforming av tale-informasjonsdataene som opptas fra databasen til det talte svar ved hjelp av dialekt-inf ormas j onen. Den utførelse som dette kan effektueres med er skissert i de påfølgende avsnitt. It therefore appears from the foregoing that the present invention is adapted to provide a spoken response to a speech input to the speech-to-speech conversion system having a dialect adapted to that of the input speech, and that this conversion process includes the steps of knowing again and interpreting the input speech, exploiting the interpretation to obtain speech information data from a database for use with the formulation of the spoken response, extracting prosody information from the input speech, capturing dialect information from the prosody information, and transforming the speech information data as is recorded from the database of the spoken response using the dialect information. The execution with which this can be effected is outlined in the following paragraphs.

I praksis appliseres den tale som mates inn i tale-til-tale-omf ormingssystemet , og som kan finnes i mange ut-førelser, f.eks. beregnet på informasjon innen spesielle emner, så som bank eller teletjenester, eller allmenne forespørsler som gjelder slike tjenester, på inngang 1 og derigjennom på inngangene til enhetene 2 og 3. In practice, the speech that is fed into the speech-to-speech conversion system is applied, and which can be found in many versions, e.g. intended for information on special topics, such as banking or telecommunications services, or general inquiries relating to such services, on entrance 1 and thereby on the entrances to units 2 and 3.

Talegjenkjennelsesenheten 2 og tolkningsenheten 4 er tilpasset for å arbeide på et vis som er vel kjent for fag-kyndige, for å kjenne igjen og tolke taleinnmatingene til systemet. Talegjenkjennelsesenheten 2 kan f.eks., arbeide ved å anvende en "Hidden Markov"-modell, eller en til-svarende talemodell. I bunn og grunn er funksjonen for enhetene 2 og 4 å omforme taleinnmatingene til systemet til en form som utgjør en pålitelig representasjon av innholdet i taleinnmatingene, og som er egnet for å appliseres på inngangen til databasebehandlingsenheten 5. Med andre ord må innholdet i tekstinformasjonsdataene ved utgangen på tolkningsenheten 4 være en eksakt representasjon av taleinnmatingene, og kunne anvendes av databasebehandlingsenheten 5 for å aksessere og ekstrahere taleinformasjonsdata fra databasen 6 for anvendelse med formuleringen av et syntetisk talt svar til den innmatede tale. I praksis utføres denne fremgangsmåte i hovedsak gjennom identifisering av et antall fonem fra et segment av den innmatede tale som kombineres til allofonstrenger, der fonemene tolkes som mulige ord, eller ordkombinasjoner, for å etablere en modell av talen. Den etablerte talemodell vil ha ord og setningsaksenter som er i samsvar med et standardisert mønster for språket for den innmatede tale. The speech recognition unit 2 and the interpretation unit 4 are adapted to work in a way that is well known to experts, in order to recognize and interpret the speech inputs to the system. The speech recognition unit 2 can, for example, work by using a "Hidden Markov" model, or a corresponding speech model. Basically, the function of the units 2 and 4 is to transform the speech inputs to the system into a form which constitutes a reliable representation of the content of the speech inputs, and which is suitable for application to the input of the database processing unit 5. In other words, the content of the textual information data must at the output of the interpretation unit 4 be an exact representation of the speech inputs, and could be used by the database processing unit 5 to access and extract speech information data from the database 6 for use with the formulation of a synthetic spoken response to the input speech. In practice, this method is mainly carried out through the identification of a number of phonemes from a segment of the input speech which are combined into allophone strings, where the phonemes are interpreted as possible words, or word combinations, to establish a model of the speech. The established speech model will have word and sentence accents that are in accordance with a standardized pattern for the language of the inputted speech.

Informasjonen som vedrører de gjenkjente ordene og ordkombinasjonene som genereres av talegjenkjennelsesenheten 2 kan i praksis kontrolleres både leksikalistisk (med anvendelse av et leksikon, med ortografi og transkripsjon) og syntaktisk. Formålet med denne kontroll er å identifisere og ekskludere hvert ord som ikke eksisterer i det aktuelle språk, og/eller hver frase hvis syntaks ikke stemmer overens med det aktuelle språket. The information relating to the recognized words and word combinations generated by the speech recognition unit 2 can in practice be checked both lexically (using a lexicon, with orthography and transcription) and syntactically. The purpose of this check is to identify and exclude every word that does not exist in the language in question, and/or every phrase whose syntax does not match the language in question.

Således garanterer talegjenkjennelsesenheten 2 i samsvar med foreliggende oppfinnelse at kun de ord og ord-kombinas joner som anses som akseptable både leksikalistisk og syntaktisk anvendes for å skape en modell av den innmatede tale. I praksis er intonasjonsmønsteret for talemodellen et standardisert intonasjonsmønster for det aktuelle språk, eller et intonasjonsmønster som er blitt etablert gjennom innlæring, eller rett og slett kunnskap, med anvendelse av et antall dialekter på det aktuelle språk. Thus, the speech recognition unit 2 in accordance with the present invention guarantees that only those words and word-combinations which are considered acceptable both lexically and syntactically are used to create a model of the inputted speech. In practice, the intonation pattern for the speech model is a standardized intonation pattern for the language in question, or an intonation pattern that has been established through learning, or simply knowledge, using a number of dialects in the language in question.

Prosodi-informasjonen, dvs. grunntonekurven, som ekstraheres fra den innmatede tale med ekstraksjonsenheten 3, kan anvendes for å oppta dialekt-, setningsaksent- og setningsbetoningsinformasjon for å anvendes av tale-til-tale-omf ormingssystemet og fremgangsmåten for den aktuelle oppfinnelse. Spesielt kan dialektinformasjonen anvendes av tale-til-tale-omformingssystemet og fremgangsmåten for å tilpasse dialekten for den utmatede tale med den for den innmatede, og setningsaksenten og betoningsinformasjonen kan anvendes ved gjenkjennelse og tolkning av den innmatede tale. The prosody information, i.e. the pitch curve, which is extracted from the input speech with the extraction unit 3, can be used to record dialect, sentence accent and sentence stress information to be used by the speech-to-speech conversion system and method of the present invention. In particular, the dialect information can be used by the speech-to-speech conversion system and the method for matching the dialect of the outputted speech with that of the inputted speech, and the sentence accent and stress information can be used for recognition and interpretation of the inputted speech.

I samsvar med foreliggende oppfinnelse inkluderer midlet for å tilveiebringe dialektinformasjon fra prosodi-informasjonen : - første analysemidler for å bestemme intonasjons-mønsteret for grunntonen i den innmatede tale, og derigjennom maksimum- og minimumsverdiene for grunntonekurven og deres respektive posisjoner, - andre analysemidler for å bestemme intonasjons-mønsteret for grunntonekurven i talemodellen, og derigjennom maksimum- og minimumsverdiene for grunntonekurven og deres respektive posisjoner, - saramenligningsmidler for å sammenligne intonasjons-mønsteret på den innmatede tale med intonasjonsmønsteret for talemodellen, for å identifisere en tidsforskjell mellom forekomsten av maksimum- og minimumsverdiene i grunntonekurven for den innkommende tale i forhold til maksimum- og minimumsverdiene i grunntonekurven for talemodellen, der den identifiserte forskjell indikerer dialektkarakteristikken for den innmatede tale. In accordance with the present invention, the means for providing dialect information from the prosody information includes: - first analysis means for determining the intonation pattern for the base tone in the input speech, and thereby the maximum and minimum values for the base tone curve and their respective positions, - second analysis means for determine the intonation pattern of the fundamental tone curve in the speech model, and thereby the maximum and minimum values of the fundamental tone curve and their respective positions, - co-comparison means to compare the intonation pattern of the input speech with the intonation pattern of the speech model, to identify a time difference between the occurrence of the maximum and the minimum values in the pitch curve for the incoming speech in relation to the maximum and minimum values in the pitch curve for the speech model, where the identified difference indicates the dialect characteristic of the input speech.

Tidsforskjellen, som det henvises til ovenfor, kan bestemmes i relasjon til et referansepunkt i intonasjons-mønsteret . The time difference, as referred to above, can be determined in relation to a reference point in the intonation pattern.

I det svenske språket kan forskjellen, i termer av intonasjonsmønsteret, beskrives gjennom ulike punkt i tiden for ord og setningsaksenter, dvs. tidsforskjellen kan bestemmes i relasjon til et referansepunkt i intonasjons-mønsteret, f.eks. det punkt ved hvilken en konsonant/vokal-grense inntreffer. In the Swedish language, the difference, in terms of the intonation pattern, can be described through different points in time for word and sentence accents, i.e. the time difference can be determined in relation to a reference point in the intonation pattern, e.g. the point at which a consonant/vowel boundary occurs.

Således er, i et foretrukket arrangement ifølge foreliggende oppfinnelse, den referanse mot hvilken tidsforskjellen måles, det punkt ved hvilken konsonant/vokal-grensen, dvs. K/V-grensen, forekommer. Thus, in a preferred arrangement according to the present invention, the reference against which the time difference is measured is the point at which the consonant/vowel boundary, i.e. the K/V boundary, occurs.

Den identifiserte tidsforskjell som, hvilket er konstatert ovenfor, indikerer dialekten i den innmatede tale, dvs. det talte språk, appliseres på tekst-til-tale-omformeren 7 for å gjøre det mulig for intonasjonsmønsteret, og derigjennom dialekten for den utmatede tale i systemet, å korrigeres slik at den motsvarer intonasjonsmønsteret for de motsvarende ordene og/eller frasene i den innmatede tale. Således muliggjør denne korrigeringsprosess at dialektinformasjonen i den innmatede tale kan inkorporeres i den utmatede tale. The identified time difference which, as established above, indicates the dialect of the inputted speech, i.e. the spoken language, is applied to the text-to-speech converter 7 to enable the intonation pattern, and thereby the dialect of the outputted speech in the system , to be corrected so that it corresponds to the intonation pattern of the corresponding words and/or phrases in the input speech. Thus, this correction process enables the dialect information in the input speech to be incorporated into the output speech.

Som nevnt ovenfor er grunntonekurven for talemodellen basert på informasjon resulterende fra de leksikalistiske (ortografi og transkripsjon) og syntaktiske kontrollene. Dessuten omfatter transkripsjonsinformasjonen leksikalt abstrahert aksentinformasjon av typen betonete stavelser, dvs. tonale ordaksenter I og II, og informasjon som gjelder plasseringen av sekundær aksent, dvs. informasjon som gis f.eks. i ordbøker. Denne informasjon kan anvendes for å justere gjenkjennelsesmønsteret i talegjenkjennelses-modellen, f.eks. "Hidden Markov"-modellen, for å ta hensyn til transkripsjonsinformasjonen. En mer eksakt modell av den innmatede tale opptas derfor under tolkningsprosessen. As mentioned above, the pitch curve for the speech model is based on information resulting from the lexical (orthography and transcription) and syntactic controls. In addition, the transcription information includes lexically abstracted accent information of the stressed syllable type, i.e. tonal word accents I and II, and information relating to the placement of secondary accent, i.e. information given e.g. in dictionaries. This information can be used to adjust the recognition pattern in the speech recognition model, e.g. The "Hidden Markov" model, to take into account the transcriptional information. A more exact model of the input speech is therefore recorded during the interpretation process.

En ytterligere konsekvens av denne talemodellkorrigerende prosess er at, med tiden, vil talemodellen få et intonasjonsmønster som er etablert gjennom en innlærings-prosess. A further consequence of this speech model correcting process is that, over time, the speech model will acquire an intonation pattern that has been established through a learning process.

Likeledes, i samsvar med systemet og fremgangsmåten ifølge foreliggende oppfinnelse, sammenlignes talemodellen med en talt innmatningssekvens, og hver avvikelse dem imellom kan bestemmes og anvendes for å få talemodellen i overensstemmelse med den innmatede talesekvens og/eller for å bestemme betoninger i den innmatede talesekvens. Likewise, in accordance with the system and method according to the present invention, the speech model is compared with a spoken input sequence, and each deviation between them can be determined and used to make the speech model conform to the input speech sequence and/or to determine accents in the input speech sequence.

Identifiseringen av betoningene i en talt sekvens gjør det mulig å bestemme den eksakte betydning av den talte sekvens på et utvetydig vis. Spesielt kan relative setningsbetoninger bestemmes gjennom å klassifisere forholdet mellom variasjoner og deklinasjon for grunntonekurven, hvorigjennom betonte seksjoner, eller individuelle ord kan bestemmes. Dessuten kan tonehøyden for talen bestemmes ut fra deklinasjonen for grunntonekurven. The identification of the stresses in a spoken sequence makes it possible to determine the exact meaning of the spoken sequence in an unambiguous way. In particular, relative sentence stresses can be determined by classifying the relationship between variations and declination for the fundamental tone curve, through which stressed sections, or individual words, can be determined. In addition, the pitch of the speech can be determined from the declination of the fundamental tone curve.

Således, for å ta hensyn til setningsbetoninger i gjenkjennelsen og tolkningen av den innmatede tale i tale-til-tale-omf ormingsssystemet ifølge foreliggende oppfinnelse, er ekstraksjonsenheten 3, i samvirke med tolkningsenheten 4 tilpasset for å bestemme: - et første forhold mellom variasjonen og deklinasjonen for grunntonekurven for den innmatede tale, - et andre forhold mellom variasjonen og deklinasjonen for grunntonekurven for talemodellen, og - ved en sammenligning mellom første og andre forhold anvendes enhver identifisert forskjell for å bestemme plasseringen av setningsaksenter. Thus, in order to take into account sentence emphases in the recognition and interpretation of the input speech in the speech-to-speech conversion system according to the present invention, the extraction unit 3, in cooperation with the interpretation unit 4, is adapted to determine: - a first ratio between the variation and the declination of the pitch curve of the input speech, - a second ratio between the variation and the declination of the pitch curve of the speech model, and - in a comparison between the first and second ratios, any identified difference is used to determine the location of sentence accents.

Dessuten gjør klassifiseringen av forholdet mellom variasjonen og deklinasjonen for grunntonekurven det mulig å identifisere/bestemme relative setningsbetoninger og betonete seksjoner, eller ord. Also, the classification of the relationship between the variation and the declination of the fundamental tone curve makes it possible to identify/determine relative sentence stresses and stressed sections, or words.

Likeledes kan forholdet mellom variasjonen og deklinasjonen for grunntonekurven utnyttes for å bestemme dynamikken til grunntonekurven. Likewise, the relationship between the variation and the declination of the fundamental tone curve can be used to determine the dynamics of the fundamental tone curve.

Den informasjon som opptas i relasjon til grunntonekurven som vedrører dialekt, setningsaksent eller betoning, kan anvendes i forbindelse med tolkningen av talen av tolkningsenheten 4, dvs. informasjonen kan anvendes på det vis som er skissert ovenfor, for å oppta en bedre forståelse av innholdet i den tale som mates inn, og for å få intonasjonsmønsteret i talemodellen i overensstemmelse med den innmatede tale. The information recorded in relation to the fundamental tone curve relating to dialect, sentence accent or emphasis can be used in connection with the interpretation of the speech by the interpretation unit 4, i.e. the information can be used in the manner outlined above, to record a better understanding of the content of the speech that is fed in, and to get the intonation pattern in the speech model in accordance with the fed speech.

Ettersom den korrigerte talemodell oppviser språkkarakter-istika (inkludert dialektinformasjon, setningsaksent og betoning) som for den innmatede tale, kan dette anvendes for å gi en økt forståelse av den innmatede tale og anvendes effektivt av databasebehandlingsenheten 5 for å oppta de nødvendige taleinformasjonsdata fra databasen 6 for å formulere et svar på en stemmeinnmating i tale-til-tale-omf ormingssystemet . As the corrected speech model exhibits language characteristics (including dialect information, sentence accent and emphasis) as for the inputted speech, this can be used to provide an increased understanding of the inputted speech and is effectively used by the database processing unit 5 to record the necessary speech information data from the database 6 to formulate a response to a voice input in the speech-to-speech conversion system.

Evnen til enkelt å tolke forskjellige dialekter i et språk ved anvendelse av informasjon for grunntonekurven er av en viss betydning, ettersom slike tolkninger kan utføres uten å behøve å lære opp talegjenkjennelsessystemet. Resultatet av dette er at størrelsen, og dermed kostnadene, for et talegjenkjennelsessystem, utført i samsvar med foreliggende oppfinnelse kan bli mye lavere enn hva som er tilfelle med kjente systemer. Systemene ifølge foreliggende oppfinnelse har derfor til sammenligning med kjente talegjenkjennelsessystemer klare fordeler. The ability to easily interpret different dialects of a language using pitch curve information is of some importance, as such interpretations can be performed without the need to train the speech recognition system. The result of this is that the size, and thus the costs, of a speech recognition system made in accordance with the present invention can be much lower than what is the case with known systems. The systems according to the present invention therefore have clear advantages compared to known speech recognition systems.

Likeledes gjør evnen til å detektere en tale, uavhengig av dialektvariasjoner, i samsvar med systemet og fremgangsmåten ifølge foreliggende oppfinnelse, det mulig å anvende tale i mange forskjellige stemmeresponsive applika-sj oner. Likewise, the ability to detect speech, regardless of dialect variations, in accordance with the system and method according to the present invention, makes it possible to use speech in many different voice-responsive applications.

Systemet er derfor tilpasset for å kjenne igjen og nøyaktig tolke innholdet i den innmatede tale, og å skreddersy dialekten til stemmesvaret for å tilpasse dialekten for stemmeinnmatingen. Denne prosess tilveiebringer et brukervennlig system ettersom språket i menneske/maskin-dialogen er i samsvar med dialekten for den aktuelle bruker. Den foreliggende oppfinnelse er ikke begrenset til de utførelsesformer som er skissert ovenfor, men kan modi-fiseres innenfor rammen av de medfølgende patentkrav og oppfinnelseskonseptet. The system is therefore adapted to recognize and accurately interpret the content of the input speech, and to tailor the dialect of the voice response to adapt the dialect for the voice input. This process provides a user-friendly system as the language of the human/machine dialogue is consistent with the dialect of the user in question. The present invention is not limited to the embodiments outlined above, but can be modified within the framework of the accompanying patent claims and the invention concept.

Claims (26)

1. Tale-til-tale-omformingssystem som ved utmating fra det samme tilveiebringer talte svar på taleinnmatinger (1) til systemet, og som omfatter talegjenkjennelsesmidler (2) for den tale som mates inn, tolkningsmidler (4) for å tolke innholdet i den gjenkjente innmatede tale, og en database (6) som inneholder taleinformasjonsdata for anvendelse med formuleringen av nevnte talte svar, der utmatingen av nevnte tolkningshjelpemiddel (4) anvendes for aksess til nevnte database 6) og for å oppta taleinformasjonsdata derfra, samt at systemet ytterligere inkluderer ekstraksjonsmidler (3) for å ekstrahere prosodi-informasjon fra den innmatede tale, midler (8) for å oppta dialektinformasjon fra prosodi-informasjonen, og tekst-til-tale-omf ormingsmidler (7) for å omforme taleinformasjonsdataene som opptas fra nevnte database til et talt svar som anvender nevnte dialektinformasjon, idet dialekten for det talte svar tilpasses dialekten for den innmatede tale, karakterisert ved at midlet (8) for å oppta dialektinformasjonen fra nevnte prosodi-informasjon inkluderer første analyseringsmiddel for å bestemme intonasjonsmønsteret for grunntonen for den innmatede tale og derigjennom maksimum- og minimumsverdiene for grunntonekurven og deres respektive posisjoner, andre analyseringsmiddel for å bestemme intonasjonsmønsteret for grunntonekurven for talemodellen og derigjennom maksimum- og minimumsverdiene for grunntonekurven og deres respektive posisjoner, sammenligningsmidler for å sammenligne intona-sjonsmønsteret for den tale som mates inn, med intonasjons-mønsteret for talemodellen, for å identifisere en tidsforskjell mellom forekomsten av maksimum- og minimumsverdiene for grunntonekurvene for den innkommende tale i forhold til maksimum- og minimumsverdiene for grunntonekurven for talemodellen, idet den identifiserte tidsforskjell indikerer dialektkarakteristikkene for den innmatede tale.1. Speech-to-speech conversion system which, when outputted from the same, provides spoken responses to speech inputs (1) to the system, and which includes speech recognition means (2) for the speech that is fed in, interpretation means (4) for interpreting the content of the recognized inputted speech, and a database (6) containing speech information data for use with the formulation of said spoken response, where the output of said interpretation aid (4) is used for access to said database 6) and to record speech information data from there, and that the system further includes extraction means (3) for extracting prosody information from the input speech, means (8) for capturing dialect information from the prosody information, and text-to-speech transforming means (7) for transforming the speech information data captured from said database into a spoken response that uses said dialect information, the dialect of the spoken response being adapted to the dialect of the entered speech, characterized in that the means (8) to o the ppta dialect information from said prosody information includes first analysis means for determining the intonation pattern of the fundamental tone of the input speech and thereby the maximum and minimum values of the fundamental tone curve and their respective positions, second analysis means of determining the intonation pattern of the fundamental tone curve of the speech model and thereby the maximum and minimum values of the pitch curve and their respective positions, comparison means for comparing the intonation pattern of the input speech with the intonation pattern of the speech model to identify a time difference between the occurrence of the maximum and minimum values of the pitch curves of the incoming speech relative to the maximum and the minimum values for the fundamental tone curve for the speech model, the identified time difference indicating the dialect characteristics of the input speech. 2. Tale-til-tale-omformingssystem i samsvar med krav 1, karakterisert ved at talegjenkjennelsesmidlet er tilpasset for å identifisere et antall fonem fra et segment av den tale som mates inn og inkluderer tolkningsmiddel for å tolke fonemene som mulige ord, eller ordkombinasjoner for å opprette en modell av talen, der talemodellen har ord og setningsaksenter i samsvar med et standardisert mønster for språket for den tale som mates inn.2. Speech-to-speech conversion system in accordance with claim 1, characterized in that the speech recognition means is adapted to identify a number of phonemes from a segment of the inputted speech and includes interpretation means for interpreting the phonemes as possible words, or word combinations for creating a model of the speech, where the speech model has word and sentence accents in accordance with a standardized pattern for the language of the input speech. 3. Tale-til-tale-omformingssystem i samsvar med krav 2, karakterisert ved at prosodi-informasjonen som ekstraheres fra talen som mates inn er grunntonekurven for den tale som mates inn.3. Speech-to-speech conversion system in accordance with claim 2, characterized in that the prosody information extracted from the input speech is the fundamental tone curve for the input speech. 4. Tale-til-tale-omformingssystem i samsvar med krav 3, karakterisert ved at tidsforskjellen bestemmes i forhold til et referansepunkt i intonasjons-mønsteret .4. Speech-to-speech conversion system in accordance with claim 3, characterized in that the time difference is determined in relation to a reference point in the intonation pattern. 5. Tale-til-tale-omformingssystem i samsvar med krav 4, karakterisert ved at referansepunktet i intonasjonsmønsteret mot hvilket tidsdifferansen måles er det punkt ved hvilken en konsonant/vokal-grense forekommer.5. Speech-to-speech conversion system in accordance with claim 4, characterized in that the reference point in the intonation pattern against which the time difference is measured is the point at which a consonant/vowel boundary occurs. 6. Tale-til-tale-omformingssystem i samsvar med et av kravene 1-5, karakterisert ved at systemet ytterligere omfatter midler for å oppta informasjon om setningsaksenter fra nevnte prosodi-informasjon.6. Speech-to-speech conversion system in accordance with one of claims 1-5, characterized in that the system further comprises means for recording information about sentence accents from said prosody information. 7. Tale-til-tale-omformingssystem i samsvar med krav 6, karakterisert ved at talegjenkjennelsesmidlet inkluderer kontrollmidler for å leksikalistisk kontrollere ordene i talemodellen, og for syntaktisk kontroll av frasene i talemodellen, der ordene og frasene som ikke er lingvistisk mulige ekskluderes fra talemodellen idet kontrollmidlene er tilpasset for å kontrollere ortografien og den fonetiske transkripsjonen til ordene i talemodellen, og av at transkripsjonsinformasjonen inkluderer leksikalt abstrahert aksentinformasjon av typen betonete stavelser, og informasjon i avhengighet av plassering av sekundæraksent.7. Speech-to-speech conversion system in accordance with claim 6, characterized in that the speech recognition means includes control means for lexically checking the words in the speech model, and for syntactic control of the phrases in the speech model, where the words and phrases that are not linguistically possible are excluded from the speech model in that the control means are adapted to check the orthography and the phonetic transcription of the words in the speech model, and that the transcription information includes lexically abstracted accent information of the type stressed syllables, and information depending on the placement of the secondary accent. 8. Tale-til-tale-omformingssystem i samsvar med krav 7, karakterisert ved at aksentinformasjonen vedrører tonal ordaksent I og aksent II.8. Speech-to-speech conversion system in accordance with claim 7, characterized in that the accent information relates to tonal word accent I and accent II. 9. Tale-til-tale-omformingssystem i samsvar med et av kravene 7-8, karakterisert ved at setningsaksentinformasjonen anvendes ved tolkningen av innholdet i den gjenkjente innmatede tale.9. Speech-to-speech conversion system in accordance with one of claims 7-8, characterized in that the sentence accent information is used in the interpretation of the content of the recognized input speech. 10. Tale-til-tale-omformingssystem i samsvar med et av kravene 1-9, karakterisert ved at setningsbetoningene bestemmes og anvendes ved tolkningen av innholdet i den gjenkjente innmatede tale.10. Speech-to-speech conversion system in accordance with one of claims 1-9, characterized in that the sentence emphases are determined and used in the interpretation of the content of the recognized input speech. 11. Tale-til-tale-omformingssystem i samsvar med et av kravene 1-10, karakterisert ved at systemet dessuten inkluderer dialogbehandlingsmidler for å behandle en dialog med databasen der dialogen initieres av tolkningsmidlet.11. Speech-to-speech conversion system in accordance with one of claims 1-10, characterized in that the system also includes dialogue processing means for processing a dialogue with the database where the dialogue is initiated by the interpretation means. 12. Tale-til-tale-omformingssystem i samsvar med krav 11, karakterisert ved at dialogen med databasen resulterer i appliseringen av taleinformasjonsdata fra tekst-til-tale-omformingsmidlet.12. Speech-to-speech conversion system in accordance with claim 11, characterized in that the dialogue with the database results in the application of speech information data from the text-to-speech conversion means. 13. Tale-til-tale-omformingssystem i samsvar med et av kravene 11 eller 12, karakterisert ved at dialogen med databasen effektueres ved anvendelse av SQL.13. Speech-to-speech conversion system in accordance with one of claims 11 or 12, characterized in that the dialogue with the database is effected using SQL. 14. Stemmeresponsivt kommunikasjonssystem, karakterisert ved at det omfatter et tale-til-tale-omformingssystem i samsvar med et av de foregående patentkrav 1-13, innrettet til å tilveiebringe et talt svar på en taleinnmating til systemet.14. Voice-responsive communication system, characterized in that it comprises a speech-to-speech conversion system in accordance with one of the preceding patent claims 1-13, designed to provide a spoken response to a voice input to the system. 15. En fremgangsmåte, i et stemmeresponsivt kommunikasjonssystem, for å tilveiebringe et talt svar på en taleinnmating til systemet, idet svaret har en dialekt som er tilpasset den for den innmatede tale, der fremgangsmåten inkluderer trinnene å kjenne igjen og tolke den innmatede tale, og å utnytte tolkningen til å oppta taleinformasjonsdata fra en database for anvendelse for formuleringen av nevnte talte svar, fremgangsmåten omfatter ytterligere trinnene å ekstrahere prosodi-informasjon fra den innmatede tale, å oppta dialektinformasjon fra nevnte prosodi-infor-mas jon, og å omforme taleinformasjonsdataene som opptas fra databasen til nevnte talte svar med anvendelse av nevnte dialektinformasjon, karakterisert ved trinnene å bestemme intonasjonsmønsteret for grunntonen for den innmatede tale og derigjennom maksimum- og minimumsverdiene for grunntonekurven og dens respektive verdi, bestemme intonasjonsmønsteret for grunntonekurven for en talemodell og derigjennom maksimum- og minimumsverdiene for grunntonekurven og dens respektive posisjoner, sammenligne intonasjonsmønsteret for den innmatede tale med intona-sjonsmønsteret for talemodellen for å identifisere en tidsforskjell mellom forekomsten av maksimum- og minimumsverdiene for grunntonekurven for den innkommende tale i forhold til maksimum- og minimumsverdiene for grunntonekurven for talemodellen, idet den identifiserte tidsforskjell indikerer dialektkarakteristikken for den innmatede tale.15. A method, in a voice responsive communication system, for providing a spoken response to a speech input to the system, the response having a dialect adapted to that of the input speech, the method including the steps of recognizing and interpreting the input speech, and utilizing the interpretation to capture speech information data from a database for use in formulating said spoken response, the method further comprising the steps of extracting prosody information from the input speech, capturing dialect information from said prosody information, and transforming the speech information data as is recorded from the database of said spoken responses using said dialect information, characterized by the steps of determining the intonation pattern for the base tone of the input speech and thereby the maximum and minimum values for the base tone curve and its respective value, determining the intonation pattern of the base tone curve for a speech model and thereby the maximum and minimum the pitch curve values and their respective positions, compare the intonation pattern of the input speech with the intonation pattern of the speech model to identify a time difference between the occurrence of the maximum and minimum pitch curve values of the incoming speech relative to the maximum and minimum pitch curve values of the speech model, as the identified time difference indicates the dialect characteristic of the inputted speech. 16. Fremgangsmåte i samsvar med krav 15, karakterisert ved at gjenkjennelsen og tolkningen av den innmatede tale inkluderer trinnene å identifisere et antall fonem fra et segment av den innmatede tale, og tolke fonemene som mulige ord, eller ordkombinasjoner for å etablere en modell av talen, der talemodellen har ord og setningsaksenter i samsvar med et standardisert mønster for språket for den innmatede tale.16. Method according to claim 15, characterized in that the recognition and interpretation of the input speech includes the steps of identifying a number of phonemes from a segment of the input speech, and interpreting the phonemes as possible words, or word combinations to establish a model of the speech , where the speech model has word and sentence accents in accordance with a standardized pattern for the language of the input speech. 17. Fremgangsmåte i samsvar med krav 16, karakterisert ved at prosodi-informasjonen som ekstraheres fra den innmatede tale er grunntonekurven i den tale som mates inn.17. Method in accordance with claim 16, characterized in that the prosody information extracted from the inputted speech is the fundamental tone curve of the inputted speech. 18. Fremgangsmåte i samsvar med krav 17, karakterisert ved at tidsforskjellen bestemmes i forhold til et referansepunkt i intonasj onsmønsteret.18. Method in accordance with claim 17, characterized in that the time difference is determined in relation to a reference point in the intonation pattern. 19. Fremgangsmåte i samsvar med krav 18, karakterisert ved at referansepunktet i intonasjonsmønsteret mot hvilken tidsforskjellen måles, er det punkt ved hvilken en konsonant/vokal-grense inntreffer.19. Method in accordance with claim 18, characterized in that the reference point in the intonation pattern against which the time difference is measured is the point at which a consonant/vowel boundary occurs. 20. Fremgangsmåte i samsvar med et av kravene 15 - 19, karakterisert ved at den omfatter trinnet å oppta informasjon om setningsaksenter fra prosodi-informasjonen.20. Method in accordance with one of claims 15 - 19, characterized in that it includes the step of recording information about sentence accents from the prosody information. 21. Fremgangsmåte i samsvar med krav 20, karakterisert ved at ordene i talemodellen kontrolleres leksikalistisk, og av at frasene i talemodellen kontrolleres syntaktisk, og at ordene og frasene som ikke er lingvistisk mulige ekskluderes fra talemodellen, og at ortografien og den fonetiske transkripsjon av ordene i talemodellen kontrolleres, og av at transkripsjonsinformasjonen inkluderer leksikalistisk abstrahert aksentinformasjon av typen betonete stavelser, og informasjon relatert til plasseringen av sekundær aksent.21. Method in accordance with claim 20, characterized in that the words in the speech model are checked lexically, and that the phrases in the speech model are checked syntactically, and that the words and phrases that are not linguistically possible are excluded from the speech model, and that the orthography and the phonetic transcription of the words in the speech model is controlled, and that the transcription information includes lexically abstracted accent information of the type stressed syllables, and information related to the location of the secondary accent. 22. Fremgangsmåte i samsvar med krav 21, karakterisert ved at aksentinformasjonen vedrører total ordaksent I og II.22. Method in accordance with claim 21, characterized in that the accent information relates to total word accent I and II. 23. Fremgangsmåte i samsvar med et av kravene 20 - 22, karakterisert ved at den omfatter trinnet å anvende nevnte setningsaksentinformasjon til tolkningen av den innmatede tale.23. Method in accordance with one of claims 20 - 22, characterized in that it includes the step of applying said sentence accent information to the interpretation of the inputted speech. 24. Fremgangsmåte i samsvar med et av kravene 15 - 23, karakterisert ved at den omfatter trinnet å identifisere en dialog med databasen for å oppta tale-inf ormas jonsdata for å formulere nevnte talte svar, der nevnte dialog initieres etter tolkningen av den innmatede tale.24. Method in accordance with one of the claims 15 - 23, characterized in that it comprises the step of identifying a dialogue with the database to record speech information data to formulate said spoken responses, where said dialogue is initiated after the interpretation of the entered speech . 25. Fremgangsmåte i samsvar med krav 24, karakterisert ved at dialogen med databasen resulterer i applisering av taleinformasjonsdata på tekst-til-tale-omformingsmidlet.25. Method in accordance with claim 24, characterized in that the dialogue with the database results in the application of speech information data to the text-to-speech conversion means. 26. Stemmeresponsivt kommunikasjonssystem, karakterisert ved at det utnytter en fremgangsmåte i samsvar med et av kravene 15-25 for å tilveiebringe et talt svar på en taleinnmating til systemet.26. Voice-responsive communication system, characterized in that it utilizes a method in accordance with one of claims 15-25 to provide a spoken response to a voice input to the system.
NO19985179A 1996-05-13 1998-11-06 Speech-to-speech conversion method and system NO318557B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
SE9601811A SE506003C2 (en) 1996-05-13 1996-05-13 Speech-to-speech conversion method and system with extraction of prosody information
PCT/SE1997/000583 WO1997043756A1 (en) 1996-05-13 1997-04-08 A method and a system for speech-to-speech conversion

Publications (3)

Publication Number Publication Date
NO985179D0 NO985179D0 (en) 1998-11-06
NO985179L NO985179L (en) 1998-11-11
NO318557B1 true NO318557B1 (en) 2005-04-11

Family

ID=20402543

Family Applications (1)

Application Number Title Priority Date Filing Date
NO19985179A NO318557B1 (en) 1996-05-13 1998-11-06 Speech-to-speech conversion method and system

Country Status (6)

Country Link
EP (1) EP0919052B1 (en)
DE (1) DE69723449T2 (en)
DK (1) DK0919052T3 (en)
NO (1) NO318557B1 (en)
SE (1) SE506003C2 (en)
WO (1) WO1997043756A1 (en)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1159702C (en) * 2001-04-11 2004-07-28 国际商业机器公司 Feeling speech sound and speech sound translation system and method
US7181397B2 (en) 2005-04-29 2007-02-20 Motorola, Inc. Speech dialog method and system
DE102007011039B4 (en) * 2007-03-07 2019-08-29 Man Truck & Bus Ag Hands-free device in a motor vehicle
US8150020B1 (en) 2007-04-04 2012-04-03 At&T Intellectual Property Ii, L.P. System and method for prompt modification based on caller hang ups in IVRs
US8024179B2 (en) * 2007-10-30 2011-09-20 At&T Intellectual Property Ii, L.P. System and method for improving interaction with a user through a dynamically alterable spoken dialog system
JP5282469B2 (en) * 2008-07-25 2013-09-04 ヤマハ株式会社 Voice processing apparatus and program
CN108369804A (en) 2015-12-07 2018-08-03 雅马哈株式会社 Interactive voice equipment and voice interactive method
CN113470670B (en) * 2021-06-30 2024-06-07 广州资云科技有限公司 Method and system for rapidly switching electric tone basic tone

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2165969B (en) * 1984-10-19 1988-07-06 British Telecomm Dialogue system
JPH0772840B2 (en) * 1992-09-29 1995-08-02 日本アイ・ビー・エム株式会社 Speech model configuration method, speech recognition method, speech recognition device, and speech model training method
SE9301596L (en) * 1993-05-10 1994-05-24 Televerket Device for increasing speech comprehension when translating speech from a first language to a second language
SE504177C2 (en) * 1994-06-29 1996-12-02 Telia Ab Method and apparatus for adapting a speech recognition equipment for dialectal variations in a language

Also Published As

Publication number Publication date
DE69723449D1 (en) 2003-08-14
SE9601811L (en) 1997-11-03
EP0919052A1 (en) 1999-06-02
DK0919052T3 (en) 2003-11-03
SE9601811D0 (en) 1996-05-13
WO1997043756A1 (en) 1997-11-20
DE69723449T2 (en) 2004-04-22
NO985179L (en) 1998-11-11
NO985179D0 (en) 1998-11-06
EP0919052B1 (en) 2003-07-09
SE506003C2 (en) 1997-11-03

Similar Documents

Publication Publication Date Title
US5752227A (en) Method and arrangement for speech to text conversion
US5806033A (en) Syllable duration and pitch variation to determine accents and stresses for speech recognition
JP4536323B2 (en) Speech-speech generation system and method
US5208897A (en) Method and apparatus for speech recognition based on subsyllable spellings
AU2009249165B2 (en) Systems and methods of improving automated speech recognition accuracy using statistical analysis of search terms
US7937262B2 (en) Method, apparatus, and computer program product for machine translation
KR102191425B1 (en) Apparatus and method for learning foreign language based on interactive character
JP2002520664A (en) Language-independent speech recognition
EP0767950B1 (en) Method and device for adapting a speech recognition equipment for dialectal variations in a language
KR20100068965A (en) Automatic interpretation apparatus and its method
NO318557B1 (en) Speech-to-speech conversion method and system
JPH07181997A (en) Method and apparatus for automatic extraction of prosodic information
JP6397641B2 (en) Automatic interpretation device and method
US11817079B1 (en) GAN-based speech synthesis model and training method
KR102557092B1 (en) Automatic interpretation and translation and dialogue assistance system using transparent display
Chou et al. Automatic segmental and prosodic labeling of Mandarin speech database
NO318112B1 (en) Speech-to-speech conversion system and method
JP2001188556A (en) Method and device for voice recognition
KR102253015B1 (en) Apparatus and method of an automatic simultaneous interpretation using presentation scripts analysis
KR20220036237A (en) Guide voice system based on deep learning
Martin et al. Cross Lingual Modelling Experiments for Indonesian
Khaw et al. Automatic Phoneme Identification for Malay Dialects
Praveen et al. HANDLING SYSTEM APPLICATIONS THROUGH SPEECH RECOGNITION
JPS6240575A (en) Voice typewriter