SE514684C2

SE514684C2 - Metod vid tal-till-textomvandling

Info

Publication number: SE514684C2
Application number: SE9502202A
Authority: SE
Inventors: Bertil Lyberg
Original assignee: Telia Ab
Priority date: 1995-06-16
Filing date: 1995-06-16
Publication date: 2001-04-02
Also published as: DE69618503D1; NO316847B1; US5806033A; SE9502202D0; NO962463L; EP0749109A3; EP0749109B1; DK0749109T3; DE69618503T2; NO962463D0; JPH0922297A; SE9502202L; EP0749109A2

Description

20 25 30 35 40 514 684 É Å! f analyseras logiskt för identifiering av fonemklasstillhörighet. Därefter analyseras frekvensspektrat hos segmentet för identifiering av specifikt fonem inom typen.

I patentskrift US 4489433 beskrivs en talinformationsöverföring med hjälp av telexutrustning. Efter överföringen kan taldata omvandlas till ett läsbart teckenmeddelande. Tekniken enligt skriften är främst avsedd att tillämpas pä japanska spräket. Accenttypen hos japanska ord är en tonhöjdsaccent och kan identifieras i beroende av positionen hos den tidpunkt mellan stavelserna vid vilken tonhöjdsfrekvensen ändras abrupt till en lag frekvens.

Ordaccentkoden indikerar en plötslig förändring i tonhöjds- och grundtonsfrekvensen, vanligtvis orsakad av accentent hos en särskild stavelse i ett ord.

Patentskrift US 4178472 behandlar ett röstinstruktionsidentifieringssystem vilket föreslar kommandon genom undersökning av ett mönster av förändringar i stavelseljud. Grundtonsfrekvensen används som ett symboliskt värde för tal/ljud.

Patentskrift EP l80047 hänför sig till igenkanning av talad text och efterföljande utprintning. För varje segment av den igenkända talade texten lagras en motsvarande karaktärsträng.

Man utnyttjar lexikal information.

REDoGöRELsE FöR UPPFINNINGEN TEKNISKT PROBLEM Vid taligenkänning föreligger behov att identifiera olika satsaccenter och betonade respektive obetonade stavelser i ord och meningar. Metoder eller anordningar för att generellt fastställa olika accenttyper respektive betonade/obetonade stavelser har hittills saknats. Den prosodiska informationen har hittills inte använts vid taligenkänning utan betraktas som en störning vid de statistiska metoder som används. Den prosodiska informationen är nödvändig vid avancerade talförstäelsesystem och vid tal till talöversättning. Genom 10 15 20 25 30 35 40 514 684 43 att analysera den prosodiska informationen och fastställa accenternas placering och accenternas typ i ord och meningar erhälles en ökad förstäelse för det givna talet samt en möjlighet att bättre översätta detsamma mellan olika spräk.

Problem föreligger vidare att fastställa betonade/obetonade stavelser i ord och meningar. Genom att kunna identifiera betonade respektive obetonade stavelsers placeringar i ord och meningar ges även en ökad möjlighet att identifiera en menings verkliga betydelse. Behov föreligger säledes att identifiera nämnda parametrar och utnyttja dessa i samband med taligenkánning.

Föreliggande uppfinning har för avsikt att ange metod och anordning för identifiering av ett givet tals egentliga betydelse.

LÖSNINGEN Föreliggande uppfinning avser en metod vid tal-till- textomvandling där grundtonen extraheras ur ett tal. Ur talet skapas en modell av talet. Ur modellen erhälles en durationsavbildning i ord och satser. Durationsavbildningen jämförs med en segmentduration i talet. Ur jämförelsen beslutas vilken accenttyp som föreligger och en text med satsaccentinformation produceras. Sastsaccenter av typ l och 2 är urskiljbara. Vidare är betonade och obetonade stavelser urskiljbara. Ur modellen modelleras en modell av grundtonen i ord och satser. Uppfinningen anger vidare att grundtonen jämförs med den modellerade grundtonen varvid indikation för möjliga accenter erhälls. De möjliga accenterna vid grundtonsjämförelsen och durationsjämförelsen jämförs och beslut fattas vilken typ av accent eller betonad/obetonad stavelse som föreligger. Beslutet utnyttjas för att korrigera modellen. En text produceras härvid som med stor sannolikhet erhàller en med talet överensstämmande betydelse. Vid bildandet av modellen utnyttjas lexikal information. Den lexikala informationen anger alternativa accenter i orden. Den lexikala informationen anger vidare alternativa durationer för olika segment i de ord som igenkänns. Syntaxanalys av modellen 10 15 20 25 30 35 40 514 684 4: utnyttjas vid modellering av grundtonen i satsen.

Syntaxanalysen av modellen utnyttjas vid modellering av satSerna .

Uppfinningen avser vidare en anordning vid tal-till-text omvandling. En grundton är extraherad ur ett tal i en taligenkänningsutrustning. En modell av talet är bildad i taligenkänningsutrustningen. Ur modellen är en durationsavbildning i ord och satser bildad. Anordningen är vidare anordnad att jämföra durationsavbildningen med en segmentduration i talet. Beslut beträffande accenttyp är utförd i anordningen utifrän jämförelsen. En text med satsaccentinformation produceras. Satsaccenter av typ l och 2 är urskiljbara liksom betonade och obetonade stavelser. Ur modellen är en modell av grundtonen i ord och satser producerad. Den extraherade grundtonen jämförs med den modellerade grundtonen och en indikation för möjliga placeringar för accenter erhälles. De möjliga accenterna vid grundtonsjämförelsen jämförs och beslut fattas beträffande vilken accenttyp eller betonade/obetonade stavelser som föreligger. Beslutet utnyttjas för korrigering av modellen och en text produceras vilken med stor sannolikhet överensstämmer med talets betydelse. Lexikal information utnyttjas vid bildandet av modellen. I den lexikala informationen ingar information om olika accenttyper respektive betonade/obetonade stavelser etc i olika ord och meningar. Med hjälp av den lexikala informationen erhälls alternativa accenter och accentplaceringar i de ord som erhällits ur den lexikala informationen. Alternativa durationer för olika segment i de igenkända orden erhälles ur den lexikala informationen. Vid modellering av grundtonen i satser är en syntaxanalys av modellen utnyttjad. Vid modellering av satserna är syntaxanalysen av modellen utnyttjad.

FÖRDELAR Uppfinningen medger att prosodisk information utnyttjas vid talanalys varvid en ökad förstaelse för talet erhälles. Den ökade förstäelsen ökar möjligheten att utnyttja talad 10 15 20 25 30 35 40 514 684 5 . information i olika sammanhang exempelvis översättning frän ett tal till ett annat tal vid automatisk talöversättning.

Uppfinningen medger vidare en ökad möjlighet att utnyttja talad information i olika sammanhang för styrning av olika tjänster i ett telenät, vid styrning av olika anordningar, datorer, etc.

FIGURBESKRIVNING Figur l visar uppfinningen i blockschemaform.

DETALJERAD UTFÖRINGSFORM I det följande beskrivs uppfinningen utifrän figurerna och beteckningarna däri.

Ett producerat tal inmatas i en taligenkänningsutrustning, 1.

I taligenkänningsutrustningen analyseras talet i dess beständsdelar. Härvid framkommer olika igenkända sekvenser som sammanställs till ord och sentenser. Den analys som sker i taligenkänningsutrustningen sker med för fackmannen inom omradet välkänt teknik. Således kan exempelvis hidden markov models, HMM, utnyttjas. I denna typ av analys betraktas grundtons och durationsinformationen som störningar.

Information beträffande segmentens duration är emellertid möjlig att härleda i markov modellen. Genom analysen i taligenkänningsutrustningen erhälles ett antal igenkànda ljud som sammanställs till ord och meningar. Man erhäller säledes en uppsättning stavelsekombinationer som är möjliga att kombinera till olika ord. Nämnda ord utgöres av ord som förekommer i språket respektive ord som ej finns i spräket. I en första kontroll av de igenkända orden överförs möjliga kombinationer till ett lexikon, 2. Lexikonet utgöres av ett normalt lexikon med uttals- och betoningsinformation. I lexikonet kontrolleras olika möjliga ord som kan bildas ur de ígenkànda talsegmenten. Fran lexikonet äterförs information om de möjliga ord som kan förekomma utifrän det igenkända talet.

I taligenkänningsutrustningen genomförs härefter en 10 15 20 25 30 35 40 514 684 6 sammanställning av orden till meningar och satser. Denna information överförs till en syntaxanalys, 3. I syntaxanalysen kontrolleras huruvida de förslag till meningar och satser som framkommit är språkligt gångbara i språket eller ej. Den lexikala och syntaktiska informationen överförs därefter till en grundtonsmodulerande enhet, 5, och en durationsmodulerande enhet, 6. I den grundtonsmodulerande enheten moduleras grundtonen utifrån den lexikala och syntaktiska informationen.

Härvid erhålles en grundtonsmodulering i ord och satser. Den erhållna informationen överförs till en komparator, 7, vilken även erhåller en information beträffande talets grundton som extraherats i grundtonsextraktorn, 4. Vid urjämförelsen i 7 erhålles information om möjliga placeringar av satsaccenten, accent l och accent 2.

Ur den lexikala och syntaktiska analysen framställs även en modell av durationen i ord och satser. Härvid innehåller lexikonet information om durationen för olika stavelser i de möjliga ord som framkommit vid analysen av talet. I syntaxanalyser framställs även möjliga durationer för olika delar i de satser som är möjliga samt i de olika orden. Ur den sammantagna informationen erhålles en segmentduration där vokalernas duration och eventuellt efterföljande konsonanter är viktigast. Den sålunda erhållna informationen överförs till en andra komparator, 8. Komparatorn, 8, erhåller även en information om segmentduration i det verkliga talet från taligenkänningsutrustningen. Vid jämförelsen i komparatorn, 8, erhålles information om möjliga placeringar för accent l, accent 2, betonande eller obetonade stavelser samt satsaccenter. Denna information överförs till en beslutsfattare, 9, som även mottagit information från den första komparatorn, 7, beträffande satsaccent, accent 1 och accent 2 ur grundtonsinformationen. Beslutsfattaren sammanställer härefter informationerna från de bägge komparatorerna och fastställer huruvida accent l, accent 2, betonad eller obetonad stavelse eller satsaccent förekommer.

Den erhållna informationen återförs därefter till taligenkänningsutrustningen som modifierar den ursprungliga modellen och därefter utmatar en text med satsaccentinformation. 10 15 514 684 7 Genom den föreslagna lösningen ges en möjlighet att med bättre noggrannhet än i tidigare kända metoder igenkänna ett tal och äterge detsamma pä ett korrekt sätt. Den i det ursprungliga talet givna innebörden kan härvid aterges pä ett korrekt sätt.

Vidare är informationen utnyttjbar i de fall det givna talet skall översättas till ett andra spräk. Vidare ges möjlighet att pä ett korrekt sätt finna rätt ord och uttryck och fastställa vilken av alternativa betydelser som skall utnyttjas vid analysen av ord och meningar. Osäkerheten vid tidigare metoder, i huvudsak statistiska metoder, att fastställa olika ords egentliga betydelse minskas med den föreslagna lösningen pä ett drastiskt sätt.

Uppfinningen är inte begränsad till i beskrivningen angivna utföringsformen eller av patentkraven utan kan underkastas modifikationer inom ramen för uppfinningstanken.

Claims

10 15 20 25 30 35 40 514 684 H3? PATENTKRAV

1. Metod vid tal-till-texomvandling, varvid ett verk- ligt tal inmatas i en taligenkänningsutrustning (1) där grundtonen i nämnda verkliga tal extraheras av en grundton- sextraktor (4), varvid nämnda taligenkänningsutrustning (1) sammanställer ord frän nämnda verkliga tal till information avseende meningar och satser som är gàngbara i språket me- delst ett lexikon (2) (3), kännetecknad av att nämnda information överförs till en grundtonsmodule- och en syntaxanalys rande enhet (5) och en durationsmodulerande enhet (6), var- vid en av nämnda grundtonsmodulerande enhet (S) producerad modulerad grundton jämföres med nämnda extraherade grundton i en komparator (7), och vid jämförelsen i nämnda komparator (7) erhålles information om möjliga placeringar av satsac- Centen , accent 1 och accent 2, och av att nämnda durations- (6) av stavelser och ord till en andra komparator modulerande enhet överför en modulerad segmentduration (8), vilken komparator (8) även erhåller information avseende segmentdu- ration av stavelser och ord från nämnda taligenkänningsut- rustning (1), varvid vid jämförelsen i komparatorn (8) avse- ende segmentduration i verkligt tal respektive segmentdura- tion i modulerat tal erhålles information om möjliga place- ringar för accent 1, accent 2, betonade/obetonade stavelser samt satsaccenter, och av att nämnda information avseende accent 1, accent 2, betonade/obetonade stavelser samt sat- saccenter från komparatorn (8) överförs tillsammans med in- formation avseende satsaccent, accent 1, accent 2 från kom- paratorn (7) till en beslutsfattare (9) som sammanställer (7, 8) huruvida accent 1, accent 2, betonad/obetonad stavelse eller informationerna frän nämnda komparatorer och beslutar satsaccent gäller, varefter nämnda beslutsinformationer från (9) ningsutrustning vilken utrustning på basis av nämnda beslut- nämnda beslutsfattare överförs till nämnda taligenkän- sinformation modifierar ursprungliga ord och satser och där- efter matar ut en modifierad text med satsaccentinformation.

2. Metod enligt patentkravet 1, kånnetecknad av att i nämnda lexikon (2) kontrolleras olika möjliga ord som kan bildas ur igenkända talsegment, varvid information om möjli- ga ord áterförs till nämnda taligenkänningsutrustning (1).

3. Metod enligt något av patentkraven 1 eller 2, känne- 10 15 20 25 30 35 40 514 684 7 tecknad av att nämnda lexikon (2) anger alternativa accenter i orden.

4. Metod enligt något av föregående patentkrav, känne- tecknad av att nämnda lexikon anger alternativa durationer för olika segment i de ord som igenkänns.

5. Metod enligt något av föregående patentkrav, känne- tecknad av att nämnda syntaxanalys (3) kontrollerar huruvida de förslag till meningar och satser som framkommit är språk- ligt gångbara i språket eller ej.

6. Anordning vid tal-till-textomvandling där verkligt tal inmatas i en taligenkänningsutrustning (1), varvid en grundtonsextraktor (4) extraherar grundtonen ur nämnda verk- liga tal, och nämnda taligenkänningsutrustning sammanställer ord i nämnda verkliga tal till information avseende meningar och satser som är gàngbara i språket medelst en lexikonenhet (2) och en syntaxanalysenhet (3), kännetecknad av att nämnda lexikonenhet (2) och nämnda syntaxanalysenhet (3) överför nämnda information till en grundtonsmodulerande enhet (5) samt en durationsmodulerande enhet (6), varvid nämnda grund- tonsmodulerande enhet (5) är anordnad att producera en mo- dell av nämnda grundton på basis av stavelser och ord och att en komparator (7) jämför nämnda grundtonsmodell med grundtonen från grundtonsextraktorn (4), varvid nämnda kom- parator (7) ger information om möjliga placeringar av sat- saccenter, accent 1 och accent 2, och av att nämnda dura- tionsmodulerande enhet (6) är anordnad att producera en mo- dell av en segmentduration av stavelser och ord, varvid en komparator (8) jämför nämnda segmentdurationsmodell med en segmentduration i nämnda verkliga tal från taligenkännings- utrustningen (l), varvid nämnda komparator (8) ger informa- tion om möjliga placeringar för accent 1, accent 2, betona- de/obetonade stavelser samt satsaccenter, och av att en be- slutsfattande enhet (9) är anordnad att på basis av informa tionerna från nämnda komparator (7, 8) medelst ett förutbe- stämt godtyckligt kriterium besluta huruvida accent 1, ac- cent 2, betonad/obetonad stavelse eller satsaccent förekom- mer, varvid nämnda beslutsfattande enhet (9) överför nämnda beslutsinformation till nämnda taligenkänningsutrustning (1), vilken utrustning (1) på basis av denna beslutsinforma- tion modifierar ursprungliga ord och satser, och därefter 'fW-rynt-v 10 15 514les4 ill A d É /0 matar ut en modifierad text med satsaccentinformation.

7. Anordning enligt patentkravet 6, kännetecknad av att nämnda lexikonenhet (2) är ett normalt lexikon med ut- talsinformation och betoningsinformation, varvid nämnda lex- ikonenhet är anordnad att kontrollera olika möjliga ord som kan bildas ur igenkända talsegment, och att nämnda lexikon àterför information till taligenkänningsutrustningen om möj- liga ord som kan förekomma utifrån det igenkända talet.

8. Anordning enligt något av patentkraven 6 eller 7, kånnetecknad av att alternativa accenter i orden är erhållna från nämnda lexikonenhet (2).

9. Anordning enligt något av patentkraven 6-8, känne- tecknad av att alternativa durationer från olika segment i (2).

10. Anordning enligt något av patentkraven 6-9, känne- de igenkända orden är erhållna från nämnda lexikonenhet tecknad av att nämnda syntaxanalysenhet (3) kontrollerar hu- ruvida de förslag till meningar och satser som framkommit är språkligt gångbara i språket eller ej.