SE514684C2 - Metod vid tal-till-textomvandling - Google Patents

Metod vid tal-till-textomvandling

Info

Publication number
SE514684C2
SE514684C2 SE9502202A SE9502202A SE514684C2 SE 514684 C2 SE514684 C2 SE 514684C2 SE 9502202 A SE9502202 A SE 9502202A SE 9502202 A SE9502202 A SE 9502202A SE 514684 C2 SE514684 C2 SE 514684C2
Authority
SE
Sweden
Prior art keywords
accent
information
speech
words
sentences
Prior art date
Application number
SE9502202A
Other languages
English (en)
Other versions
SE9502202D0 (sv
SE9502202L (sv
Inventor
Bertil Lyberg
Original Assignee
Telia Ab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telia Ab filed Critical Telia Ab
Priority to SE9502202A priority Critical patent/SE514684C2/sv
Publication of SE9502202D0 publication Critical patent/SE9502202D0/sv
Priority to DK96850108T priority patent/DK0749109T3/da
Priority to DE69618503T priority patent/DE69618503T2/de
Priority to EP96850108A priority patent/EP0749109B1/en
Priority to NO19962463A priority patent/NO316847B1/no
Priority to JP8175484A priority patent/JPH0922297A/ja
Priority to US08/665,728 priority patent/US5806033A/en
Publication of SE9502202L publication Critical patent/SE9502202L/sv
Publication of SE514684C2 publication Critical patent/SE514684C2/sv

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1807Speech classification or search using natural language modelling using prosody or stress

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

20 25 30 35 40 514 684 É Å! f analyseras logiskt för identifiering av fonemklasstillhörighet. Därefter analyseras frekvensspektrat hos segmentet för identifiering av specifikt fonem inom typen.
I patentskrift US 4489433 beskrivs en talinformationsöverföring med hjälp av telexutrustning. Efter överföringen kan taldata omvandlas till ett läsbart teckenmeddelande. Tekniken enligt skriften är främst avsedd att tillämpas pä japanska spräket. Accenttypen hos japanska ord är en tonhöjdsaccent och kan identifieras i beroende av positionen hos den tidpunkt mellan stavelserna vid vilken tonhöjdsfrekvensen ändras abrupt till en lag frekvens.
Ordaccentkoden indikerar en plötslig förändring i tonhöjds- och grundtonsfrekvensen, vanligtvis orsakad av accentent hos en särskild stavelse i ett ord.
Patentskrift US 4178472 behandlar ett röstinstruktionsidentifieringssystem vilket föreslar kommandon genom undersökning av ett mönster av förändringar i stavelseljud. Grundtonsfrekvensen används som ett symboliskt värde för tal/ljud.
Patentskrift EP l80047 hänför sig till igenkanning av talad text och efterföljande utprintning. För varje segment av den igenkända talade texten lagras en motsvarande karaktärsträng.
Man utnyttjar lexikal information.
REDoGöRELsE FöR UPPFINNINGEN TEKNISKT PROBLEM Vid taligenkänning föreligger behov att identifiera olika satsaccenter och betonade respektive obetonade stavelser i ord och meningar. Metoder eller anordningar för att generellt fastställa olika accenttyper respektive betonade/obetonade stavelser har hittills saknats. Den prosodiska informationen har hittills inte använts vid taligenkänning utan betraktas som en störning vid de statistiska metoder som används. Den prosodiska informationen är nödvändig vid avancerade talförstäelsesystem och vid tal till talöversättning. Genom 10 15 20 25 30 35 40 514 684 43 att analysera den prosodiska informationen och fastställa accenternas placering och accenternas typ i ord och meningar erhälles en ökad förstäelse för det givna talet samt en möjlighet att bättre översätta detsamma mellan olika spräk.
Problem föreligger vidare att fastställa betonade/obetonade stavelser i ord och meningar. Genom att kunna identifiera betonade respektive obetonade stavelsers placeringar i ord och meningar ges även en ökad möjlighet att identifiera en menings verkliga betydelse. Behov föreligger säledes att identifiera nämnda parametrar och utnyttja dessa i samband med taligenkánning.
Föreliggande uppfinning har för avsikt att ange metod och anordning för identifiering av ett givet tals egentliga betydelse.
LÖSNINGEN Föreliggande uppfinning avser en metod vid tal-till- textomvandling där grundtonen extraheras ur ett tal. Ur talet skapas en modell av talet. Ur modellen erhälles en durationsavbildning i ord och satser. Durationsavbildningen jämförs med en segmentduration i talet. Ur jämförelsen beslutas vilken accenttyp som föreligger och en text med satsaccentinformation produceras. Sastsaccenter av typ l och 2 är urskiljbara. Vidare är betonade och obetonade stavelser urskiljbara. Ur modellen modelleras en modell av grundtonen i ord och satser. Uppfinningen anger vidare att grundtonen jämförs med den modellerade grundtonen varvid indikation för möjliga accenter erhälls. De möjliga accenterna vid grundtonsjämförelsen och durationsjämförelsen jämförs och beslut fattas vilken typ av accent eller betonad/obetonad stavelse som föreligger. Beslutet utnyttjas för att korrigera modellen. En text produceras härvid som med stor sannolikhet erhàller en med talet överensstämmande betydelse. Vid bildandet av modellen utnyttjas lexikal information. Den lexikala informationen anger alternativa accenter i orden. Den lexikala informationen anger vidare alternativa durationer för olika segment i de ord som igenkänns. Syntaxanalys av modellen 10 15 20 25 30 35 40 514 684 4: utnyttjas vid modellering av grundtonen i satsen.
Syntaxanalysen av modellen utnyttjas vid modellering av satSerna .
Uppfinningen avser vidare en anordning vid tal-till-text omvandling. En grundton är extraherad ur ett tal i en taligenkänningsutrustning. En modell av talet är bildad i taligenkänningsutrustningen. Ur modellen är en durationsavbildning i ord och satser bildad. Anordningen är vidare anordnad att jämföra durationsavbildningen med en segmentduration i talet. Beslut beträffande accenttyp är utförd i anordningen utifrän jämförelsen. En text med satsaccentinformation produceras. Satsaccenter av typ l och 2 är urskiljbara liksom betonade och obetonade stavelser. Ur modellen är en modell av grundtonen i ord och satser producerad. Den extraherade grundtonen jämförs med den modellerade grundtonen och en indikation för möjliga placeringar för accenter erhälles. De möjliga accenterna vid grundtonsjämförelsen jämförs och beslut fattas beträffande vilken accenttyp eller betonade/obetonade stavelser som föreligger. Beslutet utnyttjas för korrigering av modellen och en text produceras vilken med stor sannolikhet överensstämmer med talets betydelse. Lexikal information utnyttjas vid bildandet av modellen. I den lexikala informationen ingar information om olika accenttyper respektive betonade/obetonade stavelser etc i olika ord och meningar. Med hjälp av den lexikala informationen erhälls alternativa accenter och accentplaceringar i de ord som erhällits ur den lexikala informationen. Alternativa durationer för olika segment i de igenkända orden erhälles ur den lexikala informationen. Vid modellering av grundtonen i satser är en syntaxanalys av modellen utnyttjad. Vid modellering av satserna är syntaxanalysen av modellen utnyttjad.
FÖRDELAR Uppfinningen medger att prosodisk information utnyttjas vid talanalys varvid en ökad förstaelse för talet erhälles. Den ökade förstäelsen ökar möjligheten att utnyttja talad 10 15 20 25 30 35 40 514 684 5 . information i olika sammanhang exempelvis översättning frän ett tal till ett annat tal vid automatisk talöversättning.
Uppfinningen medger vidare en ökad möjlighet att utnyttja talad information i olika sammanhang för styrning av olika tjänster i ett telenät, vid styrning av olika anordningar, datorer, etc.
FIGURBESKRIVNING Figur l visar uppfinningen i blockschemaform.
DETALJERAD UTFÖRINGSFORM I det följande beskrivs uppfinningen utifrän figurerna och beteckningarna däri.
Ett producerat tal inmatas i en taligenkänningsutrustning, 1.
I taligenkänningsutrustningen analyseras talet i dess beständsdelar. Härvid framkommer olika igenkända sekvenser som sammanställs till ord och sentenser. Den analys som sker i taligenkänningsutrustningen sker med för fackmannen inom omradet välkänt teknik. Således kan exempelvis hidden markov models, HMM, utnyttjas. I denna typ av analys betraktas grundtons och durationsinformationen som störningar.
Information beträffande segmentens duration är emellertid möjlig att härleda i markov modellen. Genom analysen i taligenkänningsutrustningen erhälles ett antal igenkànda ljud som sammanställs till ord och meningar. Man erhäller säledes en uppsättning stavelsekombinationer som är möjliga att kombinera till olika ord. Nämnda ord utgöres av ord som förekommer i språket respektive ord som ej finns i spräket. I en första kontroll av de igenkända orden överförs möjliga kombinationer till ett lexikon, 2. Lexikonet utgöres av ett normalt lexikon med uttals- och betoningsinformation. I lexikonet kontrolleras olika möjliga ord som kan bildas ur de ígenkànda talsegmenten. Fran lexikonet äterförs information om de möjliga ord som kan förekomma utifrän det igenkända talet.
I taligenkänningsutrustningen genomförs härefter en 10 15 20 25 30 35 40 514 684 6 sammanställning av orden till meningar och satser. Denna information överförs till en syntaxanalys, 3. I syntaxanalysen kontrolleras huruvida de förslag till meningar och satser som framkommit är språkligt gångbara i språket eller ej. Den lexikala och syntaktiska informationen överförs därefter till en grundtonsmodulerande enhet, 5, och en durationsmodulerande enhet, 6. I den grundtonsmodulerande enheten moduleras grundtonen utifrån den lexikala och syntaktiska informationen.
Härvid erhålles en grundtonsmodulering i ord och satser. Den erhållna informationen överförs till en komparator, 7, vilken även erhåller en information beträffande talets grundton som extraherats i grundtonsextraktorn, 4. Vid urjämförelsen i 7 erhålles information om möjliga placeringar av satsaccenten, accent l och accent 2.
Ur den lexikala och syntaktiska analysen framställs även en modell av durationen i ord och satser. Härvid innehåller lexikonet information om durationen för olika stavelser i de möjliga ord som framkommit vid analysen av talet. I syntaxanalyser framställs även möjliga durationer för olika delar i de satser som är möjliga samt i de olika orden. Ur den sammantagna informationen erhålles en segmentduration där vokalernas duration och eventuellt efterföljande konsonanter är viktigast. Den sålunda erhållna informationen överförs till en andra komparator, 8. Komparatorn, 8, erhåller även en information om segmentduration i det verkliga talet från taligenkänningsutrustningen. Vid jämförelsen i komparatorn, 8, erhålles information om möjliga placeringar för accent l, accent 2, betonande eller obetonade stavelser samt satsaccenter. Denna information överförs till en beslutsfattare, 9, som även mottagit information från den första komparatorn, 7, beträffande satsaccent, accent 1 och accent 2 ur grundtonsinformationen. Beslutsfattaren sammanställer härefter informationerna från de bägge komparatorerna och fastställer huruvida accent l, accent 2, betonad eller obetonad stavelse eller satsaccent förekommer.
Den erhållna informationen återförs därefter till taligenkänningsutrustningen som modifierar den ursprungliga modellen och därefter utmatar en text med satsaccentinformation. 10 15 514 684 7 Genom den föreslagna lösningen ges en möjlighet att med bättre noggrannhet än i tidigare kända metoder igenkänna ett tal och äterge detsamma pä ett korrekt sätt. Den i det ursprungliga talet givna innebörden kan härvid aterges pä ett korrekt sätt.
Vidare är informationen utnyttjbar i de fall det givna talet skall översättas till ett andra spräk. Vidare ges möjlighet att pä ett korrekt sätt finna rätt ord och uttryck och fastställa vilken av alternativa betydelser som skall utnyttjas vid analysen av ord och meningar. Osäkerheten vid tidigare metoder, i huvudsak statistiska metoder, att fastställa olika ords egentliga betydelse minskas med den föreslagna lösningen pä ett drastiskt sätt.
Uppfinningen är inte begränsad till i beskrivningen angivna utföringsformen eller av patentkraven utan kan underkastas modifikationer inom ramen för uppfinningstanken.

Claims (10)

10 15 20 25 30 35 40 514 684 H3? PATENTKRAV
1. Metod vid tal-till-texomvandling, varvid ett verk- ligt tal inmatas i en taligenkänningsutrustning (1) där grundtonen i nämnda verkliga tal extraheras av en grundton- sextraktor (4), varvid nämnda taligenkänningsutrustning (1) sammanställer ord frän nämnda verkliga tal till information avseende meningar och satser som är gàngbara i språket me- delst ett lexikon (2) (3), kännetecknad av att nämnda information överförs till en grundtonsmodule- och en syntaxanalys rande enhet (5) och en durationsmodulerande enhet (6), var- vid en av nämnda grundtonsmodulerande enhet (S) producerad modulerad grundton jämföres med nämnda extraherade grundton i en komparator (7), och vid jämförelsen i nämnda komparator (7) erhålles information om möjliga placeringar av satsac- Centen , accent 1 och accent 2, och av att nämnda durations- (6) av stavelser och ord till en andra komparator modulerande enhet överför en modulerad segmentduration (8), vilken komparator (8) även erhåller information avseende segmentdu- ration av stavelser och ord från nämnda taligenkänningsut- rustning (1), varvid vid jämförelsen i komparatorn (8) avse- ende segmentduration i verkligt tal respektive segmentdura- tion i modulerat tal erhålles information om möjliga place- ringar för accent 1, accent 2, betonade/obetonade stavelser samt satsaccenter, och av att nämnda information avseende accent 1, accent 2, betonade/obetonade stavelser samt sat- saccenter från komparatorn (8) överförs tillsammans med in- formation avseende satsaccent, accent 1, accent 2 från kom- paratorn (7) till en beslutsfattare (9) som sammanställer (7, 8) huruvida accent 1, accent 2, betonad/obetonad stavelse eller informationerna frän nämnda komparatorer och beslutar satsaccent gäller, varefter nämnda beslutsinformationer från (9) ningsutrustning vilken utrustning på basis av nämnda beslut- nämnda beslutsfattare överförs till nämnda taligenkän- sinformation modifierar ursprungliga ord och satser och där- efter matar ut en modifierad text med satsaccentinformation.
2. Metod enligt patentkravet 1, kånnetecknad av att i nämnda lexikon (2) kontrolleras olika möjliga ord som kan bildas ur igenkända talsegment, varvid information om möjli- ga ord áterförs till nämnda taligenkänningsutrustning (1).
3. Metod enligt något av patentkraven 1 eller 2, känne- 10 15 20 25 30 35 40 514 684 7 tecknad av att nämnda lexikon (2) anger alternativa accenter i orden.
4. Metod enligt något av föregående patentkrav, känne- tecknad av att nämnda lexikon anger alternativa durationer för olika segment i de ord som igenkänns.
5. Metod enligt något av föregående patentkrav, känne- tecknad av att nämnda syntaxanalys (3) kontrollerar huruvida de förslag till meningar och satser som framkommit är språk- ligt gångbara i språket eller ej.
6. Anordning vid tal-till-textomvandling där verkligt tal inmatas i en taligenkänningsutrustning (1), varvid en grundtonsextraktor (4) extraherar grundtonen ur nämnda verk- liga tal, och nämnda taligenkänningsutrustning sammanställer ord i nämnda verkliga tal till information avseende meningar och satser som är gàngbara i språket medelst en lexikonenhet (2) och en syntaxanalysenhet (3), kännetecknad av att nämnda lexikonenhet (2) och nämnda syntaxanalysenhet (3) överför nämnda information till en grundtonsmodulerande enhet (5) samt en durationsmodulerande enhet (6), varvid nämnda grund- tonsmodulerande enhet (5) är anordnad att producera en mo- dell av nämnda grundton på basis av stavelser och ord och att en komparator (7) jämför nämnda grundtonsmodell med grundtonen från grundtonsextraktorn (4), varvid nämnda kom- parator (7) ger information om möjliga placeringar av sat- saccenter, accent 1 och accent 2, och av att nämnda dura- tionsmodulerande enhet (6) är anordnad att producera en mo- dell av en segmentduration av stavelser och ord, varvid en komparator (8) jämför nämnda segmentdurationsmodell med en segmentduration i nämnda verkliga tal från taligenkännings- utrustningen (l), varvid nämnda komparator (8) ger informa- tion om möjliga placeringar för accent 1, accent 2, betona- de/obetonade stavelser samt satsaccenter, och av att en be- slutsfattande enhet (9) är anordnad att på basis av informa tionerna från nämnda komparator (7, 8) medelst ett förutbe- stämt godtyckligt kriterium besluta huruvida accent 1, ac- cent 2, betonad/obetonad stavelse eller satsaccent förekom- mer, varvid nämnda beslutsfattande enhet (9) överför nämnda beslutsinformation till nämnda taligenkänningsutrustning (1), vilken utrustning (1) på basis av denna beslutsinforma- tion modifierar ursprungliga ord och satser, och därefter 'fW-rynt-v 10 15 514les4 ill A d É /0 matar ut en modifierad text med satsaccentinformation.
7. Anordning enligt patentkravet 6, kännetecknad av att nämnda lexikonenhet (2) är ett normalt lexikon med ut- talsinformation och betoningsinformation, varvid nämnda lex- ikonenhet är anordnad att kontrollera olika möjliga ord som kan bildas ur igenkända talsegment, och att nämnda lexikon àterför information till taligenkänningsutrustningen om möj- liga ord som kan förekomma utifrån det igenkända talet.
8. Anordning enligt något av patentkraven 6 eller 7, kånnetecknad av att alternativa accenter i orden är erhållna från nämnda lexikonenhet (2).
9. Anordning enligt något av patentkraven 6-8, känne- tecknad av att alternativa durationer från olika segment i (2).
10. Anordning enligt något av patentkraven 6-9, känne- de igenkända orden är erhållna från nämnda lexikonenhet tecknad av att nämnda syntaxanalysenhet (3) kontrollerar hu- ruvida de förslag till meningar och satser som framkommit är språkligt gångbara i språket eller ej.
SE9502202A 1995-06-16 1995-06-16 Metod vid tal-till-textomvandling SE514684C2 (sv)

Priority Applications (7)

Application Number Priority Date Filing Date Title
SE9502202A SE514684C2 (sv) 1995-06-16 1995-06-16 Metod vid tal-till-textomvandling
DK96850108T DK0749109T3 (da) 1995-06-16 1996-06-04 Talegenkendelse for tonesprog
DE69618503T DE69618503T2 (de) 1995-06-16 1996-06-04 Spracherkennung für Tonsprachen
EP96850108A EP0749109B1 (en) 1995-06-16 1996-06-04 Speech recognition for tonal languages
NO19962463A NO316847B1 (no) 1995-06-16 1996-06-12 Fremgangsmate og anordning ved omvandling av tale til tekst
JP8175484A JPH0922297A (ja) 1995-06-16 1996-06-14 音声‐テキスト変換のための方法および装置
US08/665,728 US5806033A (en) 1995-06-16 1996-06-17 Syllable duration and pitch variation to determine accents and stresses for speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
SE9502202A SE514684C2 (sv) 1995-06-16 1995-06-16 Metod vid tal-till-textomvandling

Publications (3)

Publication Number Publication Date
SE9502202D0 SE9502202D0 (sv) 1995-06-16
SE9502202L SE9502202L (sv) 1996-12-17
SE514684C2 true SE514684C2 (sv) 2001-04-02

Family

ID=20398649

Family Applications (1)

Application Number Title Priority Date Filing Date
SE9502202A SE514684C2 (sv) 1995-06-16 1995-06-16 Metod vid tal-till-textomvandling

Country Status (7)

Country Link
US (1) US5806033A (sv)
EP (1) EP0749109B1 (sv)
JP (1) JPH0922297A (sv)
DE (1) DE69618503T2 (sv)
DK (1) DK0749109T3 (sv)
NO (1) NO316847B1 (sv)
SE (1) SE514684C2 (sv)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1039895A (ja) * 1996-07-25 1998-02-13 Matsushita Electric Ind Co Ltd 音声合成方法および装置
KR100238189B1 (ko) * 1997-10-16 2000-01-15 윤종용 다중 언어 tts장치 및 다중 언어 tts 처리 방법
JP4267101B2 (ja) 1997-11-17 2009-05-27 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声識別装置、発音矯正装置およびこれらの方法
US6941273B1 (en) * 1998-10-07 2005-09-06 Masoud Loghmani Telephony-data application interface apparatus and method for multi-modal access to data applications
US7283973B1 (en) 1998-10-07 2007-10-16 Logic Tree Corporation Multi-modal voice-enabled content access and delivery system
US6377927B1 (en) 1998-10-07 2002-04-23 Masoud Loghmani Voice-optimized database system and method of using same
AU763362B2 (en) * 1999-07-06 2003-07-17 James Quest Speech recognition system and method
WO2001003112A1 (en) * 1999-07-06 2001-01-11 James Quest Speech recognition system and method
US6526382B1 (en) 1999-12-07 2003-02-25 Comverse, Inc. Language-oriented user interfaces for voice activated services
US20080147404A1 (en) * 2000-05-15 2008-06-19 Nusuara Technologies Sdn Bhd System and methods for accent classification and adaptation
US7200142B1 (en) 2001-02-08 2007-04-03 Logic Tree Corporation System for providing multi-phased, multi-modal access to content through voice and data devices
US8000320B2 (en) * 2001-02-08 2011-08-16 Logic Tree Corporation System for providing multi-phased, multi-modal access to content through voice and data devices
US6948129B1 (en) 2001-02-08 2005-09-20 Masoud S Loghmani Multi-modal, multi-path user interface for simultaneous access to internet data over multiple media
ATE310302T1 (de) * 2001-09-28 2005-12-15 Cit Alcatel Kommunikationsvorrichtung und verfahren zum senden und empfangen von sprachsignalen unter kombination eines spracherkennungsmodules mit einer kodiereinheit
GB2388738B (en) 2001-11-03 2004-06-02 Dremedia Ltd Time ordered indexing of audio data
GB2388739B (en) 2001-11-03 2004-06-02 Dremedia Ltd Time ordered indexing of an information stream
US20030115169A1 (en) * 2001-12-17 2003-06-19 Hongzhuan Ye System and method for management of transcribed documents
US6990445B2 (en) * 2001-12-17 2006-01-24 Xl8 Systems, Inc. System and method for speech recognition and transcription
US7280968B2 (en) * 2003-03-25 2007-10-09 International Business Machines Corporation Synthetically generated speech responses including prosodic characteristics of speech inputs
US20050055197A1 (en) * 2003-08-14 2005-03-10 Sviatoslav Karavansky Linguographic method of compiling word dictionaries and lexicons for the memories of electronic speech-recognition devices
JP4264841B2 (ja) 2006-12-01 2009-05-20 ソニー株式会社 音声認識装置および音声認識方法、並びに、プログラム
WO2009025356A1 (ja) * 2007-08-22 2009-02-26 Nec Corporation 音声認識装置および音声認識方法
US8401856B2 (en) * 2010-05-17 2013-03-19 Avaya Inc. Automatic normalization of spoken syllable duration
US9009049B2 (en) * 2012-06-06 2015-04-14 Spansion Llc Recognition of speech with different accents
US9966064B2 (en) * 2012-07-18 2018-05-08 International Business Machines Corporation Dialect-specific acoustic language modeling and speech recognition
KR102084646B1 (ko) * 2013-07-04 2020-04-14 삼성전자주식회사 음성 인식 장치 및 음성 인식 방법
US10468050B2 (en) 2017-03-29 2019-11-05 Microsoft Technology Licensing, Llc Voice synthesized participatory rhyming chat bot
US11809958B2 (en) * 2020-06-10 2023-11-07 Capital One Services, Llc Systems and methods for automatic decision-making with user-configured criteria using multi-channel data inputs

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0029048B1 (en) * 1979-05-28 1985-05-29 The University Of Melbourne Speech processor
JPH05197389A (ja) * 1991-08-13 1993-08-06 Toshiba Corp 音声認識装置
SE500277C2 (sv) * 1993-05-10 1994-05-24 Televerket Anordning för att öka talförståelsen vid översätttning av tal från ett första språk till ett andra språk
SE516526C2 (sv) * 1993-11-03 2002-01-22 Telia Ab Metod och anordning vid automatisk extrahering av prosodisk information
SE504177C2 (sv) * 1994-06-29 1996-12-02 Telia Ab Metod och anordning att adaptera en taligenkänningsutrustning för dialektala variationer i ett språk

Also Published As

Publication number Publication date
DE69618503D1 (de) 2002-02-21
NO316847B1 (no) 2004-06-01
US5806033A (en) 1998-09-08
SE9502202D0 (sv) 1995-06-16
NO962463L (no) 1996-12-17
EP0749109A3 (en) 1998-04-29
EP0749109B1 (en) 2002-01-16
DK0749109T3 (da) 2002-03-25
DE69618503T2 (de) 2002-08-29
NO962463D0 (no) 1996-06-12
JPH0922297A (ja) 1997-01-21
SE9502202L (sv) 1996-12-17
EP0749109A2 (en) 1996-12-18

Similar Documents

Publication Publication Date Title
SE514684C2 (sv) Metod vid tal-till-textomvandling
EP0683483B1 (en) A method and arrangement for speech to text conversion
Norris et al. The possible-word constraint in the segmentation of continuous speech
US7937262B2 (en) Method, apparatus, and computer program product for machine translation
US7962341B2 (en) Method and apparatus for labelling speech
CN106297800B (zh) 一种自适应的语音识别的方法和设备
JP2559998B2 (ja) 音声認識装置及びラベル生成方法
Warnke et al. Integrated dialog act segmentation and classification using prosodic features and language models.
CN104464751B (zh) 发音韵律问题的检测方法及装置
JP2001100781A (ja) 音声処理装置および音声処理方法、並びに記録媒体
ATE389225T1 (de) Spracherkennung
KR20060052663A (ko) 음운 기반의 음성 인식 시스템 및 방법
EP1095371A1 (en) Language independent speech recognition
US5694520A (en) Method and device for speech recognition
US8870575B2 (en) Language learning system, language learning method, and computer program product thereof
Conkie et al. Prosody recognition from speech utterances using acoustic and linguistic based models of prosodic events
KR100930714B1 (ko) 음성인식 장치 및 방법
JPH06110494A (ja) 発音学習装置
CN115424604B (zh) 一种基于对抗生成网络的语音合成模型的训练方法
Taylor et al. Using prosodic information to constrain language models for spoken dialogue
NO318557B1 (no) Fremgangsmate og system for tale-til-taleomforming
SE519273C2 (sv) Förbättringar av , eller med avseende på, tal-till-tal- omvandling
Holmes et al. Why have HMMs been so successful for automatic speech recognition and how might they be improved
O'Brien Knowledge-based systems in speech recognition: a survey
KR102405547B1 (ko) 딥러닝 기반의 발음 평가 시스템