NO318557B1 - Speech-to-speech conversion method and system - Google Patents
Speech-to-speech conversion method and system Download PDFInfo
- Publication number
- NO318557B1 NO318557B1 NO19985179A NO985179A NO318557B1 NO 318557 B1 NO318557 B1 NO 318557B1 NO 19985179 A NO19985179 A NO 19985179A NO 985179 A NO985179 A NO 985179A NO 318557 B1 NO318557 B1 NO 318557B1
- Authority
- NO
- Norway
- Prior art keywords
- speech
- information
- accordance
- input
- model
- Prior art date
Links
- 238000006243 chemical reaction Methods 0.000 title claims description 37
- 238000000034 method Methods 0.000 title claims description 37
- 230000004044 response Effects 0.000 claims description 34
- 230000006854 communication Effects 0.000 claims description 14
- 238000004891 communication Methods 0.000 claims description 14
- 238000013518 transcription Methods 0.000 claims description 11
- 230000035897 transcription Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 7
- 230000001131 transforming effect Effects 0.000 claims description 6
- 238000009472 formulation Methods 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 4
- 230000008569 process Effects 0.000 description 8
- 238000012937 correction Methods 0.000 description 2
- 230000007175 bidirectional communication Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000002103 transcriptional effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Use Of Switch Circuits For Exchanges And Methods Of Control Of Multiplex Exchanges (AREA)
Description
Den foreliggende oppfinnelse vedrører systemer og en fremgangsmåte som angitt i den innledende del av de respektive selvstendige krav 1, 14, 15 og 26. The present invention relates to systems and a method as stated in the introductory part of the respective independent claims 1, 14, 15 and 26.
I kjente stemmeresponsive kommunikasjonssystem produseres taleinformasjonen, som lagres i en database og anvendes for å tilveiebringe egnete syntetiske talte svar til stemmeinnmatinger som anvender et tale-til-tale-omformingssystem, normalt med en dialekt som stemmer overens med standard riksdialekt. In known voice-responsive communication systems, the speech information, which is stored in a database and used to provide suitable synthetic spoken responses to voice inputs using a speech-to-speech conversion system, is produced, normally with a dialect that corresponds to the standard national dialect.
Således når det finnes betydelige avvik mellom dialekten for den innmatede tale og standard riksdialekt, kan det under visse omstendigheter vise seg vanskelig for databasen i kjente stemmeresponsive kommunikasjonssystem å tolke mottatt taleinformasjon, dvs. stemmeinnmatingene. Det kan også være vanskelig for personen som fremfører stemmeinnmatingene å helt forstå det talte svar. Selv om slike svar er forståelige for en mottaker, vil det være mer brukervennlig om dialekten på det talte svar er den samme som dialekten på den motsvarende stemmeinnmating. Thus, when there are significant deviations between the dialect of the entered speech and the standard national dialect, under certain circumstances it may prove difficult for the database in known voice-responsive communication systems to interpret received speech information, i.e. the voice inputs. It may also be difficult for the person performing the voice inputs to fully understand the spoken response. Although such responses are comprehensible to a recipient, it will be more user-friendly if the dialect of the spoken response is the same as the dialect of the corresponding voice input.
Likeledes ved artifisiell reproduksjon av et talt språk er det et behov at språket reproduseres naturlig og med den korrekte intonasjon. Spesielt kan betydningen av ord være vidt forskjellige i avhengighet av språkbetoningen. Også innholdet i en og samme setning kan gis en annerledes betydning avhengig av hvor betoningen plasseres. Dessuten bestemmer betoningen i setningene, eller deler derav, avsnitt som fremheves i språket og som kan være av betydning når det gjelder å fastsette den eksakte betydning av det uttalte språk. Likewise, with the artificial reproduction of a spoken language, there is a need for the language to be reproduced naturally and with the correct intonation. In particular, the meaning of words can be very different depending on the language emphasis. The content of one and the same sentence can also be given a different meaning depending on where the emphasis is placed. Moreover, the stress in the sentences, or parts of them, determines the sections that are emphasized in the language and which can be of importance when it comes to determining the exact meaning of the spoken language.
Behovet for at artifisielt produsert tale skai være så naturlig som mulig og ha den rette betoning er av spesiell viktighet ved stemmeresponsive kommunikasjonsanordninger og/eller systemer som produserer tale i ulike sammenhenger. Med kjente talesvarsarrangement er den reproduserte tale vanskelig å forstå og tolke. Det er derfor et behov for et tale-til-tale-omformingssystem hvor de artifisielle tale-utmatingene er naturlige, har den korrekte betoning og er enkle å forstå. The need for artificially produced speech to be as natural as possible and have the right emphasis is of particular importance for voice-responsive communication devices and/or systems that produce speech in various contexts. With known speech response arrangements, the reproduced speech is difficult to understand and interpret. There is therefore a need for a speech-to-speech conversion system where the artificial speech outputs are natural, have the correct emphasis and are easy to understand.
I språk som har godt utviklet setningsbetoning og/ eller tonehøyde i individuelle ord er identifiseringen av den naturlige betydning av ordene/setningene svært vanskelig. Det faktum at betoninger kan plasseres feil øker risikoen for feiltolking, eller at betydningen helt går tapt for den hørende part. In languages that have well-developed sentence stress and/or pitch in individual words, the identification of the natural meaning of the words/sentences is very difficult. The fact that emphasis can be placed incorrectly increases the risk of misinterpretation, or that the meaning is completely lost to the hearing party.
Forskjellige typer av talegjenkjenningssystemer er kjente. Det er i slike systemer vanlig at talegjenkjennings-anordningen læres til å kjenne igjen tale fra et stort antall personer. Taleinnlæringen følger også en spesiell dialekt eller dialekter. Den informasjon som samles gjennom denne prosess anvendes deretter av systemet for å tolke innkommende tale. Således kan slike system normalt ikke kjenne igjen dialektvariasjoner i tale som ligger utenfor den spesielle dialekt eller de dialekter for hvilket systemet er opplært. Various types of speech recognition systems are known. In such systems, it is common for the speech recognition device to be taught to recognize speech from a large number of people. Speech learning also follows a special dialect or dialects. The information gathered through this process is then used by the system to interpret incoming speech. Thus, such systems cannot normally recognize dialect variations in speech that lie outside the particular dialect or the dialects for which the system is trained.
I språk med tonet ordaksenter og tonet språk utgjør intonasjonsmønsteret i språket en svært viktig del av for-ståelsen av språket, men kjente system tar ingen hensyn til disse talekarakteristika. Som en følge av dette kan gjenkjennelsen av ord og fraser, med kjente talegjenkjennelsessystem, gi opphav til feiltolkninger. De kjente talegjenkjennelsessystemer som er tilpasset for å ta hensyn til dialekter i tale er spesifikt skreddersydd for en spesiell dialekt, og er derfor ikke tilpasset for å kjenne igjen forskjellige dialekter i et språk. In languages with toned word accents and toned language, the intonation pattern in the language constitutes a very important part of the understanding of the language, but known systems do not take these speech characteristics into account. As a result of this, the recognition of words and phrases, with known speech recognition systems, can give rise to misinterpretations. The known speech recognition systems which are adapted to take account of dialects in speech are specifically tailored for a particular dialect, and are therefore not adapted to recognize different dialects in a language.
I fremtiden vil talegjenkjennelsesanordninger i større grad anvendes i mange forskjellige applikasjoner der det finnes et behov for å kjenne igjen ulike dialekter i et språk. Dialektvariasjonene i et språk har, i det foregående, vært vanskelig å fastsette, og som en konsekvens av dette har man erfart problemer med å få en korrekt forståelse av en artifisiell produsert tale. Dessuten kan de kjente talegjenkjennelsesanordninger i alminnelighet ikke anvendes for ulike språk. In the future, speech recognition devices will be used to a greater extent in many different applications where there is a need to recognize different dialects of a language. The dialect variations in a language have, in the foregoing, been difficult to determine, and as a consequence of this, problems have been experienced in obtaining a correct understanding of an artificially produced speech. Moreover, the known speech recognition devices cannot generally be used for different languages.
Således, idet kjente talegjenkjennelsessystemer er tilpasset for å kjenne igjen, gjennom innlæring, en spesiell dialekt i et språk, er det ikke mulig for slike system å kjenne igjen forskjellige dialekter i språket, eller dialekter i ulike språk, ved anvendelse av samme talegjenkjennelsesanordning, uten ytterligere innlæring. Thus, as known speech recognition systems are adapted to recognize, through learning, a particular dialect in a language, it is not possible for such systems to recognize different dialects in the language, or dialects in different languages, using the same speech recognition device, without further learning.
Den artifisielle tolkning av tale har derfor vært vanskelig eller umulig å utføre med kjente talegjenkjennelsesanordninger, på grunn av slike systemers mang-lende evne til å kjenne igjen dialektvariasjoner. The artificial interpretation of speech has therefore been difficult or impossible to perform with known speech recognition devices, due to such systems' lack of ability to recognize dialect variations.
Bortsett fra de tekniske problem med å korrekt tolke tale, er det nødvendig, i stemmesvars-/styringssystem for de muntlige instruksjonene, eller kommandoene, å bli korrekt tolket, hvis ikke vil det ikke bli mulig å tilveiebringe korrekte svar, eller effektuere rett styrelse av ulike typer anordninger og/eller tjenester, f.eks. i et telekommunikasjonsnettverk. Apart from the technical problems of correctly interpreting speech, it is necessary, in the voice response/control system, for the spoken instructions, or commands, to be correctly interpreted, otherwise it will not be possible to provide correct answers, or effectuate the correct management of different types of devices and/or services, e.g. in a telecommunications network.
For å løse disse problemer er det nødvendig for et stemmeresponsivt kommunikasjonssystem å kunne tolke den mottatte taleinformasjon, uavhengig av dialekt, og å tilpasse dialekten for den utgående tale til dialekten for den respektive inngående tale. Likeledes er det, for på en utvetydig måte å kunne bestemme betydningen av enkelte ord eller fraser i en talt sekvens, nødvendig for tale-til-tale-omformerne som anvendes i et stemmeresponsivt kommunikasjonssystem å kunne bestemme, å ta hensyn til, betoninger i den talte sekvens. To solve these problems, it is necessary for a voice-responsive communication system to be able to interpret the received speech information, regardless of dialect, and to adapt the dialect of the outgoing speech to the dialect of the respective incoming speech. Likewise, in order to unambiguously determine the meaning of certain words or phrases in a spoken sequence, it is necessary for the speech-to-speech converters used in a voice-responsive communication system to be able to determine, to take into account, emphases in the spoken sequence.
Fra kjent teknikk skal blant annet EP 0 624 865 Al trekkes frem, og som omhandler et system for kunstig tale-oversettelse fra et språk til et annet. Systemet omfatter en talegjenkjenningsenhet som blant annet omformer et mottatt tale til tekst, en analyseringsenhet for analysering av en grunntone til et ført språk, en prosodi-tolkningsenhet som bestemmer og lager en første prosodi og talekarak-teristisk-informasjon relatert til det første språket, og en prosodi-genereringsenhet som generer en andre prosodi-informasjon. Fra GB 2165969 A er det kjent et system relatert til en taleservice hvor en bruker kommuniserer med et dialogsystem, omfattende blant annet en talegjenkjenningsenhet . Among other things, EP 0 624 865 Al should be highlighted from the prior art, which deals with a system for artificial speech translation from one language to another. The system comprises a speech recognition unit which, among other things, transforms a received speech into text, an analysis unit for analyzing a basic tone of a spoken language, a prosody interpretation unit which determines and creates a first prosody and speech characteristic information related to the first language, and a prosody generation unit that generates a second prosody information. From GB 2165969 A, a system related to a voice service is known where a user communicates with a dialog system, including a speech recognition unit.
Det er et formål med foreliggende oppfinnelse å tilveiebringe et system for tale-til-tale-omforming som kan tilpasse dialekten for den utmatede tale til dialekten for respektive taleinnmatinger. It is an object of the present invention to provide a system for speech-to-speech conversion which can adapt the dialect of the outputted speech to the dialect of respective speech inputs.
Et annet formål med foreliggende oppfinnelse er å tilveiebringe et system for tale-til-tale-omforming som er tilpasset for å kjenne igjen og tolke tale som mates inn, spesielt dialekter, satsbetoninger og betoningen i talte satser, med anvendelse av grunntonekurven i de talte sek-vensene . Another object of the present invention is to provide a system for speech-to-speech conversion which is adapted to recognize and interpret input speech, in particular dialects, sentence stress and the stress in spoken sentences, using the fundamental tone curve in the spoken the sequences.
Et ytterligere formål med foreliggende oppfinnelse er å tilveiebringe et stemmeresponsivt kommunikasjonssystem som inkluderer et tale-til-tale-omformingssystem som kan tilpasse dialektene for de utmatede taler med de for de respektive innmatede taler. A further object of the present invention is to provide a voice-responsive communication system which includes a speech-to-speech conversion system which can match the dialects of the outputted speeches with those of the respective inputted speeches.
Oppfinnelsen frembringer et tale-til-tale-omformingssystem som ved utmating fra det samme tilveiebringer talte svar på taleinnmatinger til systemet, og som omfatter talegjenkjennelsesmidler for den tale som mates inn, tolkningsmidler for å tolke innholdet i den gjenkjente innmatede tale, og en database som inneholder taleinformasjonsdata for anvendelse med formuleringen av nevnte talte svar, der utmatingen av nevnte tolkningshjelpemiddel anvendes for aksess til nevnte database og for å oppta taleinformasjonsdata derfra, samt at systemet ytterligere inkluderer ekstraksjonsmidler for å ekstrahere prosodi-informasjon fra den innmatede tale, midler for å oppta dialektinformasjon fra prosodi-informasjonen, og tekst-til-tale-omformings-midler for å omforme taleinformasjonsdataene som opptas fra nevnte database til et talt svar som anvender nevnte dialektinformasjon, idet dialekten for det talte svar tilpasses dialekten for den innmatede tale. Oppfinnelsen er kjennetegnet ved at midlet for å oppta dialektinformasjonen fra nevnte prosodi-informasjon inkluderer første analyseringsmiddel for å bestemme intonasjonsmønsteret for grunntonen for den innmatede tale og derigjennom maksimum- og minimumsverdiene for grunntonekurven og deres respektive posisjoner, andre analyseringsmiddel for å bestemme intona-sjonsmønsteret for grunntonekurven for talemodellen og derigjennom maksimum- og minimumsverdiene for grunntonekurven og deres respektive posisjoner, sammenligningsmidler for å sammenligne intonasjonsmønsteret for den tale som mates inn, med intonasjonsmønsteret for talemodellen, for å identifisere en tidsforskjell mellom forekomsten av maksimum- og minimumsverdiene for grunntonekurvene for den innkommende tale i forhold til maksimum- og minimumsverdiene for grunntonekurven for talemodellen, idet den identifiserte tidsforskjell indikerer dialektkarakteristikkene for den innmatede tale. The invention produces a speech-to-speech conversion system which, when outputted from the same, provides spoken responses to speech inputs to the system, and which includes speech recognition means for the speech that is fed in, interpretation means for interpreting the content of the recognized speech input, and a database which contains speech information data for use with the formulation of said spoken response, where the output of said interpretation aid is used for access to said database and for recording speech information data from there, and that the system further includes extraction means for extracting prosody information from the inputted speech, means for recording dialect information from the prosody information, and text-to-speech conversion means for transforming the speech information data recorded from said database into a spoken response using said dialect information, the dialect of the spoken response being adapted to the dialect of the inputted speech. The invention is characterized in that the means for recording the dialect information from said prosody information includes first analysis means for determining the intonation pattern for the base tone of the input speech and thereby the maximum and minimum values for the base tone curve and their respective positions, second analysis means for determining the intonation pattern for the pitch curve of the speech model and thereby the maximum and minimum values of the pitch curve and their respective positions, comparison means for comparing the intonation pattern of the input speech with the intonation pattern of the speech model, to identify a time difference between the occurrence of the maximum and minimum values of the pitch curves of the incoming speech in relation to the maximum and minimum values for the fundamental tone curve for the speech model, the identified time difference indicating the dialect characteristics of the input speech.
Talegjenkjennelsesmidlet er tilpasset for å identifisere et antall fonem fra et segment av den tale som mates inn og inkluderer tolkningsmiddel for å tolke fonemene som mulige ord, eller ordkombinasjoner for å opprette en modell av talen, der talemodellen har ord og setningsaksenter i samsvar med et standardisert mønster for språket for den tale som mates inn. The speech recognition means is adapted to identify a number of phonemes from a segment of the inputted speech and includes interpretation means for interpreting the phonemes as possible words, or word combinations to create a model of the speech, where the speech model has word and sentence accents in accordance with a standardized pattern for the language of the input speech.
Prosodi-informasjonen som ekstraheres fra talen som mates inn er grunntonekurven for den tale som mates inn. The prosody information extracted from the input speech is the pitch curve of the input speech.
Tidsforskjellen bestemmes i forhold til et referansepunkt i intonasj onsmønsteret. The time difference is determined in relation to a reference point in the intonation pattern.
Referansepunktet i intonasjonsmønsteret mot hvilket tidsdifferansen måles er det punkt ved hvilken en konsonant/vokal-grense forekommer. The reference point in the intonation pattern against which the time difference is measured is the point at which a consonant/vowel boundary occurs.
Systemet omfatter ytterligere midler for å oppta informasjon om setningsaksenter fra nevnte prosodi-informasjon. The system includes further means for recording information about sentence accents from said prosody information.
Talegjenkjennelsesmidlet inkluderer kontrollmidler for å leksikalistisk kontrollere ordene i talemodellen, og for syntaktisk kontroll av frasene i talemodellen, der ordene og frasene som ikke er lingvistisk mulige ekskluderes fra talemodellen idet kontrollmidlene er tilpasset for å kontrollere ortografien og den fonetiske transkripsjonen til ordene i talemodellen, og av at transkripsjonsinformasjonen inkluderer leksikalt abstrahert aksentinformasjon av typen betonete stavelser, og informasjon i avhengighet av plassering av sekundæraksent. The speech recognition means includes control means for lexically checking the words in the speech model, and for syntactic control of the phrases in the speech model, where the words and phrases that are not linguistically possible are excluded from the speech model, as the control means are adapted to check the orthography and the phonetic transcription of the words in the speech model, and that the transcription information includes lexically abstracted accent information of the type stressed syllables, and information depending on the placement of the secondary accent.
Aksentinformasjonen vedrører tonal ordaksent I og aksent The accent information relates to tonal word accent I and accent
II. II.
Setningsaksentinformasjonen anvendes ved tolkningen av innholdet i den gjenkjente innmatede tale. Setningsbetoningene bestemmes og anvendes ved tolkningen av innholdet i den gjenkjente innmatede tale. The sentence accent information is used when interpreting the content of the recognized input speech. The sentence stresses are determined and used when interpreting the content of the recognized input speech.
Systemet inkluderer dessuten dialogbehandlingsmidler for å behandle en dialog med databasen der dialogen initieres av tolkningsmidlet. The system also includes dialogue processing means for processing a dialogue with the database where the dialogue is initiated by the interpretation means.
Dialogen med databasen resulterer i appliseringen av taleinformasjonsdata fra tekst-til-tale-omformingsmidlet. The dialogue with the database results in the application of speech information data from the text-to-speech converter.
Dialogen med databasen effektueres ved anvendelse av SQL. The dialogue with the database is carried out using SQL.
Oppfinnelsen vedrører også et stemmeresponsivt kommunikasjonssystem, som omfatter et tale-til-tale-omf ormingssystem i samsvar med et av de foregående avsnitt, innrettet til å tilveiebringe et talt svar på en taleinnmating til systemet. The invention also relates to a voice-responsive communication system, which comprises a speech-to-speech conversion system in accordance with one of the preceding sections, arranged to provide a spoken response to a voice input to the system.
Oppfinnelsen vedrører også en fremgangsmåte, i et stemmeresponsivt kommunikasjonssystem, for å tilveiebringe et talt svar på en taleinnmating til systemet, idet svaret har en dialekt som er tilpasset den for den innmatede tale, der fremgangsmåten inkluderer trinnene å kjenne igjen og tolke den innmatede tale, og å utnytte tolkningen til å oppta taleinformasjonsdata fra en database for anvendelse for formuleringen av nevnte talte svar, fremgangsmåten omfatter ytterligere trinnene å ekstrahere prosodi-inf ormas jon fra den innmatede tale, å oppta dialekt-inf ormas jon fra nevnte prosodi-informasjon, og å omforme taleinformasjonsdataene som opptas fra databasen til nevnte talte svar med anvendelse av nevnte dialektinformasjon. Fremgangsmåten er kjennetegnet ved trinnene å bestemme intonasjonsmønsteret for grunntonen for den innmatede tale og derigjennom maksimum- og minimumsverdiene for grunntonekurven og dens respektive verdi, bestemme intonasjons-mønsteret for grunntonekurven for en talemodell og derigjennom maksimum- og minimumsverdiene for grunntonekurven og dens respektive posisjoner, sammenligne intonasjons-mønsteret for den innmatede tale med intonasjonsmønsteret for talemodellen for å identifisere en tidsforskjell mellom forekomsten av maksimum- og minimumsverdiene for grunntonekurven for den innkommende tale i forhold til maksimum-og minimumsverdiene for grunntonekurven for talemodellen, idet den identifiserte tidsforskjell indikerer dialektkarakteristikken for den innmatede tale. The invention also relates to a method, in a voice-responsive communication system, for providing a spoken response to a speech input to the system, the response having a dialect adapted to that of the inputted speech, wherein the method includes the steps of recognizing and interpreting the inputted speech, and utilizing the interpretation to record speech information data from a database for use in formulating said spoken response, the method further comprising the steps of extracting prosody information from the input speech, recording dialect information from said prosody information, and transforming the speech information data recorded from the database into said spoken response using said dialect information. The procedure is characterized by the steps of determining the intonation pattern for the fundamental tone of the input speech and thereby the maximum and minimum values of the fundamental tone curve and its respective value, determining the intonation pattern of the fundamental tone curve for a speech model and thereby the maximum and minimum values of the fundamental tone curve and its respective positions, comparing the intonation pattern of the input speech with the intonation pattern of the speech model to identify a time difference between the occurrence of the maximum and minimum values of the pitch curve of the incoming speech relative to the maximum and minimum values of the pitch curve of the speech model, the identified time difference indicating the dialect characteristic of the input speech.
Gjenkjennelsen og tolkningen av den innmatede tale inkluderer trinnene å identifisere et antall fonem fra et segment av den innmatede tale, og tolke fonemene som mulige ord, eller ordkombinasjoner for å etablere en modell av talen, der talemodellen har ord og setningsaksenter i samsvar med et standardisert mønster for språket for den innmatede tale. The recognition and interpretation of the input speech includes the steps of identifying a number of phonemes from a segment of the input speech, and interpreting the phonemes as possible words, or word combinations to establish a model of the speech, where the speech model has word and sentence accents in accordance with a standardized pattern for the language of the input speech.
Prosodi-informasjonen som ekstraheres fra den innmatede tale er grunntonekurven i den tale som mates inn. The prosody information extracted from the input speech is the pitch curve of the input speech.
Tidsforskjellen bestemmes i forhold til et referansepunkt i intonasj onsmønsteret. The time difference is determined in relation to a reference point in the intonation pattern.
Referansepunktet i intonasjonsmønsteret mot hvilken tidsforskjellen måles, er det punkt ved hvilken en konsonant/vokal-grense inntreffer. The reference point in the intonation pattern against which the time difference is measured is the point at which a consonant/vowel boundary occurs.
Fremgangsmåten omfatter trinnet å oppta informasjon om setningsaksenter fra prosodi-informasjonen. The method includes the step of capturing information about sentence accents from the prosody information.
Ordene i talemodellen kontrolleres leksikalistisk, og av at frasene i talemodellen kontrolleres syntaktisk, og at ordene og frasene som ikke er lingvistisk mulige ekskluderes fra talemodellen, og at ortografien og den fonetiske transkripsjon av ordene i talemodellen kontrolleres, og av at transkripsjonsinformasjonen inkluderer leksikalistisk abstrahert aksentinformasjon av typen betonete stavelser, og informasjon relatert til plasseringen av sekundær aksent. The words in the speech model are checked lexically, and that the phrases in the speech model are checked syntactically, and that the words and phrases that are not linguistically possible are excluded from the speech model, and that the orthography and the phonetic transcription of the words in the speech model are checked, and that the transcription information includes lexically abstracted accent information of the type of stressed syllables, and information related to the placement of the secondary accent.
Aksentinformasjonen vedrører total ordaksent I og II. The accent information relates to total word accent I and II.
Fremgangsmåten omfatter trinnet å anvende nevnte setningsaksentinformasjon til tolkningen av den innmatede tale. The method comprises the step of applying said sentence accent information to the interpretation of the inputted speech.
Fremgangsmåten omfatter trinnet å identifisere en dialog med databasen for å oppta taleinformasjonsdata for å formulere nevnte talte svar, der nevnte dialog initieres etter tolkningen av den innmatede tale. The method comprises the step of identifying a dialogue with the database to record speech information data to formulate said spoken response, wherein said dialogue is initiated after the interpretation of the inputted speech.
Dialogen med databasen resulterer i applisering av taleinformasjonsdata på tekst-til-tale-omformingsmidlet. Oppfinnelsen vedrører også et stemmeresponsivt kommunikasjonssystem, som utnytter en fremgangsmåte i samsvar med et av de foregående avsnitt, for å tilveiebringe et talt svar på en taleinnmating til systemet. The dialogue with the database results in the application of speech information data to the text-to-speech conversion means. The invention also relates to a voice-responsive communication system, which utilizes a method in accordance with one of the preceding paragraphs, to provide a spoken response to a voice input to the system.
Foregående og andre trekk i samsvar med følgende oppfinnelse vil fremgå tydeligere av følgende beskrivelse med henvisning til figuren i de medfølgende bilder som illustrerer, i form av et flytskjema, et tale-til-tale-omf ormingssystem i samsvar med oppfinnelsen. Previous and other features in accordance with the following invention will appear more clearly from the following description with reference to the figure in the accompanying images which illustrate, in the form of a flow chart, a speech-to-speech conversion system in accordance with the invention.
Det fremgår av figuren at tale-til-tale-omformingssystemet i samsvar med foreliggende oppfinnelse inkluderer, ved inngangen 1 derav, en talegjenkjennelsesanordning 2, og en ekstraksjonsenhet 3 for å ekstrahere prosodi-informasjon fra tale som appliseres på systeminngangen 1, dvs. grunntonekurven for den tale som mates inn. Således vil tale som appliseres på inngang 1 samtidig appliseres på enhetene 2 og 3. It appears from the figure that the speech-to-speech conversion system in accordance with the present invention includes, at the input 1 thereof, a speech recognition device 2, and an extraction unit 3 for extracting prosody information from speech that is applied to the system input 1, i.e. the fundamental tone curve for the speech that is input. Thus speech that is applied to input 1 will be applied to units 2 and 3 at the same time.
Utgangen på talegjenkjennelsesenheten 2 og en utgang på ekstraksjonsenheten 3 er koblet til separate innganger på en tolkningsenhet 4, hvilkens utgang er tilkoblet til en databasebehandlingsenhet 5. Databasebehandlingsenheten 5, som er tilpasset for toveis kommunikasjon med en database 6, er tilkoblet ved utgangen derav til inngangen på en tekst-til-tale-omformer 7. Dialogen mellom databasen 6 og databasebehandlingsenheten 5 kan effektueres med et hvert kjent databasekommunikasjonsspråk, f.eks. SQL (Structured Query Language). Utgangen av tekst-til-tale-omformeren 7 tilveiebringer en utgang med syntetisk tale til tale-til-tale-omf ormingssystemet . The output of the speech recognition unit 2 and an output of the extraction unit 3 are connected to separate inputs of an interpretation unit 4, the output of which is connected to a database processing unit 5. The database processing unit 5, which is adapted for two-way communication with a database 6, is connected at its output to the input on a text-to-speech converter 7. The dialogue between the database 6 and the database processing unit 5 can be effected with a known database communication language, e.g. SQL (Structured Query Language). The output of the text-to-speech converter 7 provides a synthetic speech output to the speech-to-speech conversion system.
Som vist i figuren er ytterligere en utgang på ekstraksjonsenheten 3 tilkoblet til inngangen på en prosodi-analyseenhet 8 som er tilkoblet for dobbelrettet kommunikasjon med tekst-til-tale-omformeren 7. Prosodi-analyseenheten 8 er tilpasset, som en del av tekst-til-tale-omf ormingsprosessen for omformerene 7, å analysere prosodi-informasjonen, dvs. grunntonekurven for den syntetiserte tale, å gjøre nødvendige korrigeringer i intonasjonsmønsteret for den syntetiserte tale i samsvar med den dialektinformasjon som er ekstrahert fra den innmatede tale. Således vil dialekten på utgangen for den syntetiserte tale i tale-til-tale-omformingssystemet tilpasses motsvarende for den innmatede tale. As shown in the figure, a further output of the extraction unit 3 is connected to the input of a prosody analysis unit 8 which is connected for bidirectional communication with the text-to-speech converter 7. The prosody analysis unit 8 is adapted, as part of text-to - the speech transformation process of the converters 7, to analyze the prosody information, i.e. the pitch curve of the synthesized speech, to make necessary corrections in the intonation pattern of the synthesized speech in accordance with the dialect information extracted from the input speech. Thus, the dialect at the output for the synthesized speech in the speech-to-speech conversion system will be adapted correspondingly for the input speech.
Det fremgår derfor av det foregående at den foreliggende oppfinnelse er tilpasset for å tilveiebringe et talt svar til en taleinnmating til tale-til-tale-omformingssystemet som har en dialekt som er tilpasset den for den innmatede tale, og at denne omformingsprosess inkluderer trinnene å kjenne igjen og tolke den innmatede tale, utnyttelse av tolkningen for å oppnå taleinformasjonsdata fra en database for anvendelse med formuleringen av det talte svar, ekstraksjon av prosodi-informasjon fra den innmatede tale, oppta dialektinformasjon fra prosodi-informasjonen, og omforming av tale-informasjonsdataene som opptas fra databasen til det talte svar ved hjelp av dialekt-inf ormas j onen. Den utførelse som dette kan effektueres med er skissert i de påfølgende avsnitt. It therefore appears from the foregoing that the present invention is adapted to provide a spoken response to a speech input to the speech-to-speech conversion system having a dialect adapted to that of the input speech, and that this conversion process includes the steps of knowing again and interpreting the input speech, exploiting the interpretation to obtain speech information data from a database for use with the formulation of the spoken response, extracting prosody information from the input speech, capturing dialect information from the prosody information, and transforming the speech information data as is recorded from the database of the spoken response using the dialect information. The execution with which this can be effected is outlined in the following paragraphs.
I praksis appliseres den tale som mates inn i tale-til-tale-omf ormingssystemet , og som kan finnes i mange ut-førelser, f.eks. beregnet på informasjon innen spesielle emner, så som bank eller teletjenester, eller allmenne forespørsler som gjelder slike tjenester, på inngang 1 og derigjennom på inngangene til enhetene 2 og 3. In practice, the speech that is fed into the speech-to-speech conversion system is applied, and which can be found in many versions, e.g. intended for information on special topics, such as banking or telecommunications services, or general inquiries relating to such services, on entrance 1 and thereby on the entrances to units 2 and 3.
Talegjenkjennelsesenheten 2 og tolkningsenheten 4 er tilpasset for å arbeide på et vis som er vel kjent for fag-kyndige, for å kjenne igjen og tolke taleinnmatingene til systemet. Talegjenkjennelsesenheten 2 kan f.eks., arbeide ved å anvende en "Hidden Markov"-modell, eller en til-svarende talemodell. I bunn og grunn er funksjonen for enhetene 2 og 4 å omforme taleinnmatingene til systemet til en form som utgjør en pålitelig representasjon av innholdet i taleinnmatingene, og som er egnet for å appliseres på inngangen til databasebehandlingsenheten 5. Med andre ord må innholdet i tekstinformasjonsdataene ved utgangen på tolkningsenheten 4 være en eksakt representasjon av taleinnmatingene, og kunne anvendes av databasebehandlingsenheten 5 for å aksessere og ekstrahere taleinformasjonsdata fra databasen 6 for anvendelse med formuleringen av et syntetisk talt svar til den innmatede tale. I praksis utføres denne fremgangsmåte i hovedsak gjennom identifisering av et antall fonem fra et segment av den innmatede tale som kombineres til allofonstrenger, der fonemene tolkes som mulige ord, eller ordkombinasjoner, for å etablere en modell av talen. Den etablerte talemodell vil ha ord og setningsaksenter som er i samsvar med et standardisert mønster for språket for den innmatede tale. The speech recognition unit 2 and the interpretation unit 4 are adapted to work in a way that is well known to experts, in order to recognize and interpret the speech inputs to the system. The speech recognition unit 2 can, for example, work by using a "Hidden Markov" model, or a corresponding speech model. Basically, the function of the units 2 and 4 is to transform the speech inputs to the system into a form which constitutes a reliable representation of the content of the speech inputs, and which is suitable for application to the input of the database processing unit 5. In other words, the content of the textual information data must at the output of the interpretation unit 4 be an exact representation of the speech inputs, and could be used by the database processing unit 5 to access and extract speech information data from the database 6 for use with the formulation of a synthetic spoken response to the input speech. In practice, this method is mainly carried out through the identification of a number of phonemes from a segment of the input speech which are combined into allophone strings, where the phonemes are interpreted as possible words, or word combinations, to establish a model of the speech. The established speech model will have word and sentence accents that are in accordance with a standardized pattern for the language of the inputted speech.
Informasjonen som vedrører de gjenkjente ordene og ordkombinasjonene som genereres av talegjenkjennelsesenheten 2 kan i praksis kontrolleres både leksikalistisk (med anvendelse av et leksikon, med ortografi og transkripsjon) og syntaktisk. Formålet med denne kontroll er å identifisere og ekskludere hvert ord som ikke eksisterer i det aktuelle språk, og/eller hver frase hvis syntaks ikke stemmer overens med det aktuelle språket. The information relating to the recognized words and word combinations generated by the speech recognition unit 2 can in practice be checked both lexically (using a lexicon, with orthography and transcription) and syntactically. The purpose of this check is to identify and exclude every word that does not exist in the language in question, and/or every phrase whose syntax does not match the language in question.
Således garanterer talegjenkjennelsesenheten 2 i samsvar med foreliggende oppfinnelse at kun de ord og ord-kombinas joner som anses som akseptable både leksikalistisk og syntaktisk anvendes for å skape en modell av den innmatede tale. I praksis er intonasjonsmønsteret for talemodellen et standardisert intonasjonsmønster for det aktuelle språk, eller et intonasjonsmønster som er blitt etablert gjennom innlæring, eller rett og slett kunnskap, med anvendelse av et antall dialekter på det aktuelle språk. Thus, the speech recognition unit 2 in accordance with the present invention guarantees that only those words and word-combinations which are considered acceptable both lexically and syntactically are used to create a model of the inputted speech. In practice, the intonation pattern for the speech model is a standardized intonation pattern for the language in question, or an intonation pattern that has been established through learning, or simply knowledge, using a number of dialects in the language in question.
Prosodi-informasjonen, dvs. grunntonekurven, som ekstraheres fra den innmatede tale med ekstraksjonsenheten 3, kan anvendes for å oppta dialekt-, setningsaksent- og setningsbetoningsinformasjon for å anvendes av tale-til-tale-omf ormingssystemet og fremgangsmåten for den aktuelle oppfinnelse. Spesielt kan dialektinformasjonen anvendes av tale-til-tale-omformingssystemet og fremgangsmåten for å tilpasse dialekten for den utmatede tale med den for den innmatede, og setningsaksenten og betoningsinformasjonen kan anvendes ved gjenkjennelse og tolkning av den innmatede tale. The prosody information, i.e. the pitch curve, which is extracted from the input speech with the extraction unit 3, can be used to record dialect, sentence accent and sentence stress information to be used by the speech-to-speech conversion system and method of the present invention. In particular, the dialect information can be used by the speech-to-speech conversion system and the method for matching the dialect of the outputted speech with that of the inputted speech, and the sentence accent and stress information can be used for recognition and interpretation of the inputted speech.
I samsvar med foreliggende oppfinnelse inkluderer midlet for å tilveiebringe dialektinformasjon fra prosodi-informasjonen : - første analysemidler for å bestemme intonasjons-mønsteret for grunntonen i den innmatede tale, og derigjennom maksimum- og minimumsverdiene for grunntonekurven og deres respektive posisjoner, - andre analysemidler for å bestemme intonasjons-mønsteret for grunntonekurven i talemodellen, og derigjennom maksimum- og minimumsverdiene for grunntonekurven og deres respektive posisjoner, - saramenligningsmidler for å sammenligne intonasjons-mønsteret på den innmatede tale med intonasjonsmønsteret for talemodellen, for å identifisere en tidsforskjell mellom forekomsten av maksimum- og minimumsverdiene i grunntonekurven for den innkommende tale i forhold til maksimum- og minimumsverdiene i grunntonekurven for talemodellen, der den identifiserte forskjell indikerer dialektkarakteristikken for den innmatede tale. In accordance with the present invention, the means for providing dialect information from the prosody information includes: - first analysis means for determining the intonation pattern for the base tone in the input speech, and thereby the maximum and minimum values for the base tone curve and their respective positions, - second analysis means for determine the intonation pattern of the fundamental tone curve in the speech model, and thereby the maximum and minimum values of the fundamental tone curve and their respective positions, - co-comparison means to compare the intonation pattern of the input speech with the intonation pattern of the speech model, to identify a time difference between the occurrence of the maximum and the minimum values in the pitch curve for the incoming speech in relation to the maximum and minimum values in the pitch curve for the speech model, where the identified difference indicates the dialect characteristic of the input speech.
Tidsforskjellen, som det henvises til ovenfor, kan bestemmes i relasjon til et referansepunkt i intonasjons-mønsteret . The time difference, as referred to above, can be determined in relation to a reference point in the intonation pattern.
I det svenske språket kan forskjellen, i termer av intonasjonsmønsteret, beskrives gjennom ulike punkt i tiden for ord og setningsaksenter, dvs. tidsforskjellen kan bestemmes i relasjon til et referansepunkt i intonasjons-mønsteret, f.eks. det punkt ved hvilken en konsonant/vokal-grense inntreffer. In the Swedish language, the difference, in terms of the intonation pattern, can be described through different points in time for word and sentence accents, i.e. the time difference can be determined in relation to a reference point in the intonation pattern, e.g. the point at which a consonant/vowel boundary occurs.
Således er, i et foretrukket arrangement ifølge foreliggende oppfinnelse, den referanse mot hvilken tidsforskjellen måles, det punkt ved hvilken konsonant/vokal-grensen, dvs. K/V-grensen, forekommer. Thus, in a preferred arrangement according to the present invention, the reference against which the time difference is measured is the point at which the consonant/vowel boundary, i.e. the K/V boundary, occurs.
Den identifiserte tidsforskjell som, hvilket er konstatert ovenfor, indikerer dialekten i den innmatede tale, dvs. det talte språk, appliseres på tekst-til-tale-omformeren 7 for å gjøre det mulig for intonasjonsmønsteret, og derigjennom dialekten for den utmatede tale i systemet, å korrigeres slik at den motsvarer intonasjonsmønsteret for de motsvarende ordene og/eller frasene i den innmatede tale. Således muliggjør denne korrigeringsprosess at dialektinformasjonen i den innmatede tale kan inkorporeres i den utmatede tale. The identified time difference which, as established above, indicates the dialect of the inputted speech, i.e. the spoken language, is applied to the text-to-speech converter 7 to enable the intonation pattern, and thereby the dialect of the outputted speech in the system , to be corrected so that it corresponds to the intonation pattern of the corresponding words and/or phrases in the input speech. Thus, this correction process enables the dialect information in the input speech to be incorporated into the output speech.
Som nevnt ovenfor er grunntonekurven for talemodellen basert på informasjon resulterende fra de leksikalistiske (ortografi og transkripsjon) og syntaktiske kontrollene. Dessuten omfatter transkripsjonsinformasjonen leksikalt abstrahert aksentinformasjon av typen betonete stavelser, dvs. tonale ordaksenter I og II, og informasjon som gjelder plasseringen av sekundær aksent, dvs. informasjon som gis f.eks. i ordbøker. Denne informasjon kan anvendes for å justere gjenkjennelsesmønsteret i talegjenkjennelses-modellen, f.eks. "Hidden Markov"-modellen, for å ta hensyn til transkripsjonsinformasjonen. En mer eksakt modell av den innmatede tale opptas derfor under tolkningsprosessen. As mentioned above, the pitch curve for the speech model is based on information resulting from the lexical (orthography and transcription) and syntactic controls. In addition, the transcription information includes lexically abstracted accent information of the stressed syllable type, i.e. tonal word accents I and II, and information relating to the placement of secondary accent, i.e. information given e.g. in dictionaries. This information can be used to adjust the recognition pattern in the speech recognition model, e.g. The "Hidden Markov" model, to take into account the transcriptional information. A more exact model of the input speech is therefore recorded during the interpretation process.
En ytterligere konsekvens av denne talemodellkorrigerende prosess er at, med tiden, vil talemodellen få et intonasjonsmønster som er etablert gjennom en innlærings-prosess. A further consequence of this speech model correcting process is that, over time, the speech model will acquire an intonation pattern that has been established through a learning process.
Likeledes, i samsvar med systemet og fremgangsmåten ifølge foreliggende oppfinnelse, sammenlignes talemodellen med en talt innmatningssekvens, og hver avvikelse dem imellom kan bestemmes og anvendes for å få talemodellen i overensstemmelse med den innmatede talesekvens og/eller for å bestemme betoninger i den innmatede talesekvens. Likewise, in accordance with the system and method according to the present invention, the speech model is compared with a spoken input sequence, and each deviation between them can be determined and used to make the speech model conform to the input speech sequence and/or to determine accents in the input speech sequence.
Identifiseringen av betoningene i en talt sekvens gjør det mulig å bestemme den eksakte betydning av den talte sekvens på et utvetydig vis. Spesielt kan relative setningsbetoninger bestemmes gjennom å klassifisere forholdet mellom variasjoner og deklinasjon for grunntonekurven, hvorigjennom betonte seksjoner, eller individuelle ord kan bestemmes. Dessuten kan tonehøyden for talen bestemmes ut fra deklinasjonen for grunntonekurven. The identification of the stresses in a spoken sequence makes it possible to determine the exact meaning of the spoken sequence in an unambiguous way. In particular, relative sentence stresses can be determined by classifying the relationship between variations and declination for the fundamental tone curve, through which stressed sections, or individual words, can be determined. In addition, the pitch of the speech can be determined from the declination of the fundamental tone curve.
Således, for å ta hensyn til setningsbetoninger i gjenkjennelsen og tolkningen av den innmatede tale i tale-til-tale-omf ormingsssystemet ifølge foreliggende oppfinnelse, er ekstraksjonsenheten 3, i samvirke med tolkningsenheten 4 tilpasset for å bestemme: - et første forhold mellom variasjonen og deklinasjonen for grunntonekurven for den innmatede tale, - et andre forhold mellom variasjonen og deklinasjonen for grunntonekurven for talemodellen, og - ved en sammenligning mellom første og andre forhold anvendes enhver identifisert forskjell for å bestemme plasseringen av setningsaksenter. Thus, in order to take into account sentence emphases in the recognition and interpretation of the input speech in the speech-to-speech conversion system according to the present invention, the extraction unit 3, in cooperation with the interpretation unit 4, is adapted to determine: - a first ratio between the variation and the declination of the pitch curve of the input speech, - a second ratio between the variation and the declination of the pitch curve of the speech model, and - in a comparison between the first and second ratios, any identified difference is used to determine the location of sentence accents.
Dessuten gjør klassifiseringen av forholdet mellom variasjonen og deklinasjonen for grunntonekurven det mulig å identifisere/bestemme relative setningsbetoninger og betonete seksjoner, eller ord. Also, the classification of the relationship between the variation and the declination of the fundamental tone curve makes it possible to identify/determine relative sentence stresses and stressed sections, or words.
Likeledes kan forholdet mellom variasjonen og deklinasjonen for grunntonekurven utnyttes for å bestemme dynamikken til grunntonekurven. Likewise, the relationship between the variation and the declination of the fundamental tone curve can be used to determine the dynamics of the fundamental tone curve.
Den informasjon som opptas i relasjon til grunntonekurven som vedrører dialekt, setningsaksent eller betoning, kan anvendes i forbindelse med tolkningen av talen av tolkningsenheten 4, dvs. informasjonen kan anvendes på det vis som er skissert ovenfor, for å oppta en bedre forståelse av innholdet i den tale som mates inn, og for å få intonasjonsmønsteret i talemodellen i overensstemmelse med den innmatede tale. The information recorded in relation to the fundamental tone curve relating to dialect, sentence accent or emphasis can be used in connection with the interpretation of the speech by the interpretation unit 4, i.e. the information can be used in the manner outlined above, to record a better understanding of the content of the speech that is fed in, and to get the intonation pattern in the speech model in accordance with the fed speech.
Ettersom den korrigerte talemodell oppviser språkkarakter-istika (inkludert dialektinformasjon, setningsaksent og betoning) som for den innmatede tale, kan dette anvendes for å gi en økt forståelse av den innmatede tale og anvendes effektivt av databasebehandlingsenheten 5 for å oppta de nødvendige taleinformasjonsdata fra databasen 6 for å formulere et svar på en stemmeinnmating i tale-til-tale-omf ormingssystemet . As the corrected speech model exhibits language characteristics (including dialect information, sentence accent and emphasis) as for the inputted speech, this can be used to provide an increased understanding of the inputted speech and is effectively used by the database processing unit 5 to record the necessary speech information data from the database 6 to formulate a response to a voice input in the speech-to-speech conversion system.
Evnen til enkelt å tolke forskjellige dialekter i et språk ved anvendelse av informasjon for grunntonekurven er av en viss betydning, ettersom slike tolkninger kan utføres uten å behøve å lære opp talegjenkjennelsessystemet. Resultatet av dette er at størrelsen, og dermed kostnadene, for et talegjenkjennelsessystem, utført i samsvar med foreliggende oppfinnelse kan bli mye lavere enn hva som er tilfelle med kjente systemer. Systemene ifølge foreliggende oppfinnelse har derfor til sammenligning med kjente talegjenkjennelsessystemer klare fordeler. The ability to easily interpret different dialects of a language using pitch curve information is of some importance, as such interpretations can be performed without the need to train the speech recognition system. The result of this is that the size, and thus the costs, of a speech recognition system made in accordance with the present invention can be much lower than what is the case with known systems. The systems according to the present invention therefore have clear advantages compared to known speech recognition systems.
Likeledes gjør evnen til å detektere en tale, uavhengig av dialektvariasjoner, i samsvar med systemet og fremgangsmåten ifølge foreliggende oppfinnelse, det mulig å anvende tale i mange forskjellige stemmeresponsive applika-sj oner. Likewise, the ability to detect speech, regardless of dialect variations, in accordance with the system and method according to the present invention, makes it possible to use speech in many different voice-responsive applications.
Systemet er derfor tilpasset for å kjenne igjen og nøyaktig tolke innholdet i den innmatede tale, og å skreddersy dialekten til stemmesvaret for å tilpasse dialekten for stemmeinnmatingen. Denne prosess tilveiebringer et brukervennlig system ettersom språket i menneske/maskin-dialogen er i samsvar med dialekten for den aktuelle bruker. Den foreliggende oppfinnelse er ikke begrenset til de utførelsesformer som er skissert ovenfor, men kan modi-fiseres innenfor rammen av de medfølgende patentkrav og oppfinnelseskonseptet. The system is therefore adapted to recognize and accurately interpret the content of the input speech, and to tailor the dialect of the voice response to adapt the dialect for the voice input. This process provides a user-friendly system as the language of the human/machine dialogue is consistent with the dialect of the user in question. The present invention is not limited to the embodiments outlined above, but can be modified within the framework of the accompanying patent claims and the invention concept.
Claims (26)
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
SE9601811A SE506003C2 (en) | 1996-05-13 | 1996-05-13 | Speech-to-speech conversion method and system with extraction of prosody information |
PCT/SE1997/000583 WO1997043756A1 (en) | 1996-05-13 | 1997-04-08 | A method and a system for speech-to-speech conversion |
Publications (3)
Publication Number | Publication Date |
---|---|
NO985179D0 NO985179D0 (en) | 1998-11-06 |
NO985179L NO985179L (en) | 1998-11-11 |
NO318557B1 true NO318557B1 (en) | 2005-04-11 |
Family
ID=20402543
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
NO19985179A NO318557B1 (en) | 1996-05-13 | 1998-11-06 | Speech-to-speech conversion method and system |
Country Status (6)
Country | Link |
---|---|
EP (1) | EP0919052B1 (en) |
DE (1) | DE69723449T2 (en) |
DK (1) | DK0919052T3 (en) |
NO (1) | NO318557B1 (en) |
SE (1) | SE506003C2 (en) |
WO (1) | WO1997043756A1 (en) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1159702C (en) * | 2001-04-11 | 2004-07-28 | 国际商业机器公司 | Feeling speech sound and speech sound translation system and method |
US7181397B2 (en) | 2005-04-29 | 2007-02-20 | Motorola, Inc. | Speech dialog method and system |
DE102007011039B4 (en) * | 2007-03-07 | 2019-08-29 | Man Truck & Bus Ag | Hands-free device in a motor vehicle |
US8150020B1 (en) | 2007-04-04 | 2012-04-03 | At&T Intellectual Property Ii, L.P. | System and method for prompt modification based on caller hang ups in IVRs |
US8024179B2 (en) * | 2007-10-30 | 2011-09-20 | At&T Intellectual Property Ii, L.P. | System and method for improving interaction with a user through a dynamically alterable spoken dialog system |
JP5282469B2 (en) * | 2008-07-25 | 2013-09-04 | ヤマハ株式会社 | Voice processing apparatus and program |
CN108369804A (en) | 2015-12-07 | 2018-08-03 | 雅马哈株式会社 | Interactive voice equipment and voice interactive method |
CN113470670B (en) * | 2021-06-30 | 2024-06-07 | 广州资云科技有限公司 | Method and system for rapidly switching electric tone basic tone |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2165969B (en) * | 1984-10-19 | 1988-07-06 | British Telecomm | Dialogue system |
JPH0772840B2 (en) * | 1992-09-29 | 1995-08-02 | 日本アイ・ビー・エム株式会社 | Speech model configuration method, speech recognition method, speech recognition device, and speech model training method |
SE9301596L (en) * | 1993-05-10 | 1994-05-24 | Televerket | Device for increasing speech comprehension when translating speech from a first language to a second language |
SE504177C2 (en) * | 1994-06-29 | 1996-12-02 | Telia Ab | Method and apparatus for adapting a speech recognition equipment for dialectal variations in a language |
-
1996
- 1996-05-13 SE SE9601811A patent/SE506003C2/en unknown
-
1997
- 1997-04-08 DK DK97919840T patent/DK0919052T3/en active
- 1997-04-08 WO PCT/SE1997/000583 patent/WO1997043756A1/en active IP Right Grant
- 1997-04-08 EP EP97919840A patent/EP0919052B1/en not_active Expired - Lifetime
- 1997-04-08 DE DE69723449T patent/DE69723449T2/en not_active Expired - Fee Related
-
1998
- 1998-11-06 NO NO19985179A patent/NO318557B1/en unknown
Also Published As
Publication number | Publication date |
---|---|
DE69723449D1 (en) | 2003-08-14 |
SE9601811L (en) | 1997-11-03 |
EP0919052A1 (en) | 1999-06-02 |
DK0919052T3 (en) | 2003-11-03 |
SE9601811D0 (en) | 1996-05-13 |
WO1997043756A1 (en) | 1997-11-20 |
DE69723449T2 (en) | 2004-04-22 |
NO985179L (en) | 1998-11-11 |
NO985179D0 (en) | 1998-11-06 |
EP0919052B1 (en) | 2003-07-09 |
SE506003C2 (en) | 1997-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5752227A (en) | Method and arrangement for speech to text conversion | |
US5806033A (en) | Syllable duration and pitch variation to determine accents and stresses for speech recognition | |
JP4536323B2 (en) | Speech-speech generation system and method | |
US5208897A (en) | Method and apparatus for speech recognition based on subsyllable spellings | |
AU2009249165B2 (en) | Systems and methods of improving automated speech recognition accuracy using statistical analysis of search terms | |
US7937262B2 (en) | Method, apparatus, and computer program product for machine translation | |
KR102191425B1 (en) | Apparatus and method for learning foreign language based on interactive character | |
JP2002520664A (en) | Language-independent speech recognition | |
EP0767950B1 (en) | Method and device for adapting a speech recognition equipment for dialectal variations in a language | |
KR20100068965A (en) | Automatic interpretation apparatus and its method | |
NO318557B1 (en) | Speech-to-speech conversion method and system | |
JPH07181997A (en) | Method and apparatus for automatic extraction of prosodic information | |
JP6397641B2 (en) | Automatic interpretation device and method | |
US11817079B1 (en) | GAN-based speech synthesis model and training method | |
KR102557092B1 (en) | Automatic interpretation and translation and dialogue assistance system using transparent display | |
Chou et al. | Automatic segmental and prosodic labeling of Mandarin speech database | |
NO318112B1 (en) | Speech-to-speech conversion system and method | |
JP2001188556A (en) | Method and device for voice recognition | |
KR102253015B1 (en) | Apparatus and method of an automatic simultaneous interpretation using presentation scripts analysis | |
KR20220036237A (en) | Guide voice system based on deep learning | |
Martin et al. | Cross Lingual Modelling Experiments for Indonesian | |
Khaw et al. | Automatic Phoneme Identification for Malay Dialects | |
Praveen et al. | HANDLING SYSTEM APPLICATIONS THROUGH SPEECH RECOGNITION | |
JPS6240575A (en) | Voice typewriter |