FI118359B

FI118359B - Menetelmä puheentunnistuksessa ja puheentunnistuslaite ja langaton viestin

Info

Publication number: FI118359B
Application number: FI990078A
Authority: FI
Inventors: Kari Laurila; Juha Haekkinen; Ramalingam Hariharan
Original assignee: Nokia Corp
Priority date: 1999-01-18
Filing date: 1999-01-18
Publication date: 2007-10-15
Also published as: ATE355588T1; DE60033636D1; DE60033636T2; FI990078A; WO2000042600A2; FI990078A0; EP1153387A2; US7146318B2; EP1153387B1; JP2002535708A; WO2000042600A3; US20040236571A1; AU2295800A

Description

1 118359

Menetelmä puheentunnistuksessa, puheentunnistuslaite ja langaton viestin 5 Nyt esillä oleva keksintö kohdistuu oheisen patenttivaatimuksen 1 johdanto-osan mukaiseen menetelmään puheentunnistuksessa, oheisen patenttivaatimuksen 7 johdanto-osan mukaiseen puheentunnistuslait-teeseen ja oheisen patenttivaatimuksen 10 johdanto-osan mukaiseen puheella ohjattavaan langattomaan viestimeen.

10

Langattomien viestimien käytön helpottamiseksi on kehitetty puheen-tunnistuslaitteita, joiden avulla käyttäjä voi lausua puhekomentoja, jotka puheentunnistuslaite pyrkii tunnistamaan ja muuntamaan puhekomen-toa vastaavaksi toiminnoksi, esim. puhelinnumeron valintakomennoksi.

15 Hankaluutena puheohjauksen toteuttamisessa on mm. se, että eri käyttäjät lausuvat puhekomennot eri tavalla: puhenopeus voi olla erilainen eri käyttäjillä, samoin puheen voimakkuus, äänen sävy jne. Lisäksi puheentunnistusta häiritsee mahdollinen taustamelu, jonka häiritsevyys ulkona ja autossa voi olla huomattavaa. Taustamelu vaikeuttaa sanojen 20 tunnistusta sekä eri sanojen erottamista toisistaan esim. puhelinnumeroa lausuttaessa.

Joissakin puheentunnistuslaitteissa on käytetty kiinteään aika-ikkunaan perustuvaa tunnistusmenetelmää. Tällöin käyttäjällä on ennalta mää- • φ · 25 rätty aika, jonka kuluessa hänen on lausuttava haluamansa komento-sana. Aika-ikkunan kuluttua umpeen puheentunnistuslaite pyrkii selvit-tämään, minkä sanan/komennon käyttäjä lausui. Tällaiseen kiinteään • · · ’ aika-ikkunaan perustuvassa menetelmässä on kuitenkin mm. se epä- v : kohta, että kaikki lausuttavat sanat eivät ole yhtä pitkiä, esim. nimien 30 kohdalla etunimi on usein selvästi lyhyempi kuin sukunimi. Tällöin lyhy- ; ·· emmän sanan jälkeen kuluu enemmän aikaa tunnistukseen kuin pi- :"\· demmän sanan tunnistuksessa. Tämä on epämiellyttävää käyttäjän · kannalta. Lisäksi aika-ikkuna on asetettava hitaampien puhujien mu- :,!** kaan, ettei tunnistusta aloiteta, ennen kuin koko sana on lausuttu. No- • · 35 peammin sanoja lausuttaessa viive lausumisen ja tunnistuksen välillä j‘\: lisää epämiellyttävyyden tunnetta.

• · • · · • ·· • · 118359 2 sanaväliä voidaan käyttää muun informaation välitykseen. Julkaisussa esitetyssä menetelmässä tutkittava taajuusalue jaetaan ainakin kahteen taajuuskaistaan ja eri taajuuskaistojen energiatasoja tutkimalla pyritään havaitsemaan tauko. Menetelmässä eri taajuuskaistoista mitatuista 5 energiatasoista lasketaan vertailuluku, jota verrataan joko ensimmäiseen tai toiseen kynnysarvoon riippuen siitä, oliko edellisessä vertailussa puhetta vai tauko. Vertailulukujen laskeminen suoritetaan kiinteän aikaikkunan perusteella, siis kullakin laskentakerralla käytetään yhtä monta näytettä. Vaikka menetelmässä taajuusalue jaetaan 10 alikaistoihin, suoritetaan päätelmä tauon/puheen olemassaolosta eri alikaistoista yhdistetyn tuloksen perusteella. Tällöin kohinaisissa olosuhteissa voi jollakin alikaistalla energiataso olla niin korkea, että viitejulkaisun mukainen puheentunnistuslaite tekee virheellisen päätöksen puheen olemassa olosta.

15

Toinen tunnettu puheentunnistusmenetelmä perustuu puhesignaaleista muodostettuihin malleihin ja niiden vertailuun. Komentosanoista muodostetut mallit on etukäteen tallennettu tai käyttäjä on voinut opettaa haluamiaan sanoja, joista on muodostettu ja tallennettu mallit. Puheen-20 tunnistuslaite vertailee tallennettuja malleja käyttäjän lausumista äänteistä muodostettuihin piirrevektoreihin sanojen lausumisen aikana ja laskee todennäköisyyksiä puheentunnistuslaitteen sanaston eri sanoille : Y: (komentosanoille). Todennäköisyyden ylittäessä jollakin komentosanal- la ennalta asetetun arvon, puheentunnistuslaite valitsee tämän komen- .*···. 25 tosanan tunnistustulokseksi. Tällöin voi virheellisiä tunnistustuloksia • · .···. syntyä erityisesti sellaisten sanojen kohdalla, joissa sanan alku muistutti f taa äänteellisesti jotakin muuta sanastoon kuuluvaa sanaa. Esimerkiksi *:!.* käyttäjä on opettanut puheentunnistuslaitteelle sanat "Mari” ja ’’Marika”.

Jos käyttäjä lausuu sanaa ’’Marika”, saattaa puheentunnistuslaite tehdä 30 tunnistuspäätökseksi ’’Mari”, vaikka käyttäjä ei olisi ehtinyt lausua vielä :.:Y sanan loppua. Tällaisissa puheentunnistuslaitteissa käytetään usein ns.

:.,*ϊ Hidden-Markov-Model -puheentunnistusmenetelmää (HMM).

• · · • * · .·*·. Patentissa US-4,870,686 on esitetty puheentunnistusmenetelmä ja pu- 35 heentunnistuslaite, jossa käyttäjän sanojen lopun ilmaiseminen perus-tuu hiljaisuuteen, siis puheentunnistuslaite tutkii, onko äänisignaalia havaittavissa vai ei. Ongelmana tässä ratkaisussa on se, että liian voi 3 118359 makas taustamelu voi estää taukojen havaitsemisen, jolloin puheentunnistus ei onnistu.

Nyt esillä olevan keksinnön eräänä tarkoituksena on aikaansaada pa-5 rannettu menetelmä puheessa olevien taukojen havaitsemiseksi ja pu-heentunnistusiaite. Keksintö perustuu siihen ajatukseen, että jaetaan tutkittava äänikaista alikaistoihin ja tutkitaan signaalin tehoa kullakin alikaistalla. Mikäli riittävän usealla alikaistalla signaalin teho alittaa tietyn rajan riittävän pitkän ajan, tehdään päätelmä siitä, että puheessa on 10 tauko. Nyt esillä olevan keksinnön mukaiselle menetelmälle on tunnusomaista se, mitä on esitetty oheisen patenttivaatimuksen 1 tunnus-merkkiosassa. Nyt esillä olevan keksinnön mukaiselle puheentunnistus-laitteelle on tunnusomaista se, mitä on esitetty oheisen patenttivaatimuksen 7 tunnusmerkkiosassa. Nyt esillä olevan keksinnön mukaiselle 15 langattomalle viestimelle on tunnusomaista se, mitä on esitetty oheisen patenttivaatimuksen 10 tunnusmerkkiosassa.

Nyt esillä olevalla keksinnöllä saavutetaan merkittäviä etuja tunnetun tekniikan mukaisiin ratkaisuihin verrattuna. Keksinnön mukaisella me-20 netelmällä saadaan luotettavampi sanavälin ilmaisu kuin tunnetun tekniikan mukaisilla menetelmillä. Tällöin puheentunnistuksen luotettavuus paranee ja virheellisten tunnistusten ja epäonnistuneiden tunnistusten määrä pienenee. Lisäksi puheentunnistuslaite on joustavampi erilaisten • · :·. käyttäjien puhetottumusten suhteen, koska puhekomennot voidaan lau- .*···. 25 sua hitaammin tai nopeammin ilman, että tunnistuksessa on epämiellyt- « · tävää viivettä tai että tunnistus tapahtuisi kesken sanan lausumisen.

• · *»f ·♦ * * · «

Keksinnön mukaisella alikaistoihin jakamisella saadaan ulkoisten häiri-*·’*: öiden vaikutusta pienennettyä. Tyypillisesti häiriösignaalit esim. autossa 30 ovat suhteellisen matalataajuisia. Tunnetun tekniikan mukaisissa rat-kaisuissa koko käsiteltävän signaalin taajuusalueen sisältämää ener-giaa käytetään tunnistuksessa hyväksi, jolloin voimakkaat mutta kapea-. !·. kaistaiset signaalit heikentävät signaali-kohinasuhdetta merkittävästi.

Sen sijaan jaettaessa tutkittava taajuusalue keksinnön mukaisesti ali-’·;·* 35 kaistoihin, saadaan sellaisilla alikaistoilla, joilla häiritsevien signaalien osuus on suhteellisen pieni, signaali-kohinasuhdetta parannettua mer-·:··: kittävästi, mikä parantaa tunnistusvarmuutta.

4 118359

Nyt esillä olevaa keksintöä selostetaan seuraavassa tarkemmin viitaten samalla oheisiin piirustuksiin, joissa kuva 1 esittää vuokaaviona keksinnön erään edullisen suoritus-5 muodon mukaista menetelmää, kuva 2 esittää keksinnön erään edullisen suoritusmuodon mukaista puheentunnistuslaitetta pelkistettynä lohkokaaviona, 10 kuva 3 esittää keksinnön erään edullisen suoritusmuodon mukaisessa menetelmässä sovellettavaa sijalukusuodatusta (rank-order filtering) tilakonekaaviona, ja kuva 4 esittää vuokaaviona keksinnön erään edullisen suoritus-15 muodon mukaisessa menetelmässä sovellettavaa tauon päättelylogiikkaa.

Selostetaan seuraavassa keksinnön erään edullisen suoritusmuodon mukaisen menetelmän toimintaa viitaten samalla kuvan 1 vuokaavioon 20 käyttäen esimerkkinä kuvan 2 lohkokaavion mukaista puheella ohjattavaa langatonta viestintä MS. Puheentunnistuksessa suoritetaan sinänsä tunnetusti akustisen signaalin (puheen) muuntaminen sähköi-seksi signaaliksi mikrofonilla, kuten langattoman viestimen MS mikro- • · :·. ionilla 1a tai kaiutintoiminnon 2 mikrofonilla 1b. Puhesignaalin taajuus- .···. 25 vaste rajoittuu tyypillisesti alle 10 kHz:n taajuusalueelle, esim. taajuus- • · .I". alueelle 100 Hz—10 kHz. Puheen taajuusvaste ei kuitenkaan ole vakio :::* koko taajuusalueella, vaan siinä matalampia taajuuksia esiintyy enem- män kuin korkeampia taajuuksia. Lisäksi eri henkilöillä puheen taajuus- *·*: vaste on erilainen. Keksinnön mukaisessa menetelmässä tutkittava 30 taajuusalue jaetaan kapeampiin alitaajuusalueisiin (alikaistoihin, M kpl).

\:V Tätä esittää lohko 101 oheisessa kuvassa 1. Näitä alitaajuusalueita ei C’: tehdä tasalevyisiksi, vaan puheen ominaispiirteet huomioiden, jolloin . !·. osa alitaajuusalueista on kapeampia ja osa on leveämpiä. Puheelle • * * ominaisilla, alemmilla taajuuksilla jako on tiheämpi, eli alitaajuusalueet 35 ovat kapeampia, kuin puheessa harvemmin esiintyvillä, korkeammilla ..*·* taajuuksilla. Tähän perustuu myös sinänsä tunnettu mel-taajuusjako *:·*: (Mel Frequency Scale), jossa taajuuskaistojen leveys perustuu logarit miseen taajuuden funktioon.

5 118359

Alikaistoihin jakamisen yhteydessä alikaistojen signaalit muunnetaan pienemmälle näytetaajuudelle esim. alinäytteistämällä tai alipäästösuo-dattamalla. Tällöin lohkosta 101 näytteitä siirretään jatkokäsittelyyn tällä 5 alemmalla näytetaajuudella. Tämä näytetaajuus on edullisesti n. 100 Hz, mutta on selvää, että nyt esillä olevan keksinnön puitteissa myös muita näytetaajuuksia voidaan soveltaa. Näistä näytteistä muodostetaan mainittuja piirrevektoreita.

10 Mikrofonissa 1a, 1b muodostettu signaali vahvistetaan vahvistimessa 3a, 3b ja muunnetaan digitaaliseksi analogia-digitaalimuuntimessa 4. Analogia/digitaalimuunnoksen tarkkuus on tyypillisesti välillä 12—32 bittiä ja puhesignaalin muuntamisessa näytteitä otetaan edullisesti 8000—14000 kertaa sekunnissa, mutta keksintöä voidaan soveltaa 15 myös muilla näytteenottonopeuksilla. Kuvan 2 langattomassa viestimessä MS näytteenotto on järjestetty suoritettavaksi kontrollerin 5 ohjaamana. Digitaalisessa muodossa oleva äänisignaali siirretään langattoman viestimen MS kanssa toiminnallisessa yhteydessä olevaan pu-heentunnistuslaitteeseen 16, jossa suoritetaan keksinnön edullisen 20 suoritusmuodon mukaisen menetelmän eri vaiheita. Siirto suoritetaan esim. liityntälohkojen 6a, 6b ja liityntäväylän 7 kautta. Puheentunnistus-laite 16 voi käytännön sovelluksissa olla toteutettuna myös itse langat-; tomassa viestimessä MS tai muussa puheohjattavassa laitteessa, tai :·.* erillisenä lisälaitteena tai vastaavana.

• tl ... 25

Alikaistoihin jako tehdään edullisesti ensimmäisessä suodatinlohkos-sa 8, johon digitaaliseksi muunnettu signaali johdetaan. Tämä ensimmäinen suodatinlohko 8 koostuu useista, tässä edullisessa suoritus- ··· : muodossa digitaalitekniikalla toteutetuista, kaistanpäästösuodattimista, 30 joiden päästökaistan taajuusalueet sekä kaistanleveydet eroavat toisis-taan. Tällöin kunkin kaistanpäästösuodattimen läpäisee alkuperäisestä signaalista kaistanpäästösuodatettu osa. Selvyyden vuoksi ei kuvassa . \, 2 ole esitetty erillisinä näitä kaistanpäästösuodattimia. Nämä kaistan- päästösuodattimet on toteutettu edullisesti signaalinkäsittely-yksikön 13 ’*:·* 35 (DSP, Digital Signal Processor) sovellusohjelmistossa, kuten on si- nänsä tunnettua.

• · 6 118359

Seuraavassa vaiheessa 102 vähennetään alikaistojen lukumäärää edullisesti desinfioimalla desimointilohkossa 9, jolloin muodostuu L kappaletta alikaistoja (L<M), joiden energiatasot ovat mitattavissa. Näiden alitaajuusalueiden signaalinvoimakkuuksien perusteella voidaan määrit-5 tää signaalin energia kullakin alikaistalla. Myös desimointilohko 9 voidaan toteuttaa digitaalisen signaalinkäsittely-yksikön 13 sovellusohjelmistossa.

Etu, joka saavutetaan lohkon 1 mukaisella M aukaistaan jakamisella on 10 se, että näitä M:n eri alikaistan arvoja voidaan käyttää tunnistuksessa apuna tunnistustuloksen varmentamiseksi erityisesti sellaisessa sovelluksessa, jossa käytetään Mel-taajuusjaon mukaisia kertoimia. Lohko 101 voidaan kuitenkin toteuttaa myös siten, että siinä muodostetaan suoraan L kappaletta alikaistoja, jolloin lohkoa 102 ei tarvita.

15

Toisessa suodatinlohkossa 10 suoritetaan desimointivaiheessa muodostetuille alikaistojen signaaleille alipäästösuodatus (vaihe 103 kuvassa 1), jolloin lyhyet signaalinvoimakkuuden muutokset suodattuvat ja eivät pääse vaikuttamaan merkittävästi signaalin energiatason mää-20 rittämiseen jatkossa. Suodatuksen jälkeen lasketaan lohkossa 11 kunkin alikaistan energiatasosta logaritmifunktio (vaihe 104), jonka muodostamat laskentatulokset tallennetaan jatkokäsittelyä varten muistivä-lineisiin 14 muodostettuihin alikaistakohtaisiin puskureihin (ei esitetty). Nämä puskurit ovat edullisesti ns. FIFO-tyyppisiä (First In - First Out), .'···. 25 joihin laskentatulokset tallennetaan esim. 8- tai 16-bittisinä lukuina. Ku- • « .I», hunkin puskuriin mahtuu N kappaletta laskentatuloksia. Arvo N riippuu kulloisestakin sovelluksesta. Puskuriin tallennetut laskentatulokset p(t) • ♦ · *;[/ kuvaavat siis alikaistan suodatettua, logaritmista energiatasoa eri mit- :·: : tausajanhetkinä.

30 :.:V Järjestelylohko 12 suorittaa laskentatuloksille ns. rank-order -suodatuk- sen (vaihe 105), jossa eri laskentatulosten keskinäistä suuruutta vertail-. .**. laan. Tässä vaiheessa 105 tutkitaan alikaistoittain se, onko puheessa mahdollisesti tauko. Tämä tutkiminen on esitetty tilakonekaaviona ku-**:·* 35 vassa 3. Tämän tilakoneen toiminnot toteutetaan olennaisesti saman- Iäisinä kullekin alikaistalle. Tilakoneen eri toimintatiloja SO, S1, S2, S3 ·:**: ja S4 on esitetty ympyröillä. Näiden tilaympyröiden sisään on merkitty kussakin toimintatilassa suoritettavat toimenpiteet. Nuolet 301, 302, 7 118359 303, 304 ja 305 kuvaavat siirtymisiä toimintatiloista toiseen. Näiden nuolien yhteyteen on merkitty kriteerit, joiden toteutuminen aikaansaa tämän siirtymisen. Kaaret 306, 307 ja 308 kuvaavat tilannetta, jossa toimintatilaa ei vaihdeta. Myös näiden kaarien yhteyteen on merkitty 5 kriteerit toimintatilan säilyttämiseksi ennallaan.

Toimintatiloissa S1, S2 ja S3 on esitetty funktio f(), joka tarkoittaa seu-raavien toimenpiteiden suorittamista mainituissa toimintatiloissa: laskentatuloksia p(t) tallennetaan puskuriin edullisesti N kappaletta, joista 10 etsitään pienin maksimiarvo p_min(t) ja suurin minimiarvo p_min(t) edullisesti seuraavilla kaavoilla: p _ min(t) = min[max)p(i - N +1), p(i - N + 2)..., p(/)(], i = N,N + 1.....t p_max(t) = max[min)p(i -N + l),p(i -N + 2)...,p(/'X], i = N,N + 1,...,t 15

Funktiossa f() haetaan siis maksimiarvoksi p_max(t) eri alikaistapus-kureihin tallennetuista laskentatuloksista p(i) suurin minimiarvo ja minimiarvoksi p_min(t) pienin maksimiarvo. Tämän jälkeen lasketaan mediaaniteho p(t)m, joka on mediaaniarvo puskuriin tallennetuista las- 20 kentatuloksista p(t) sekä kynnysarvo thr kaavalla thr = p_min + k -(p_max -p_min), jossa 0 < k < 1. Seuraavaksi funktiossa f() suoritetaan mediaanitehon p(t)m vertailu edellä lasket- • · v.: tuun kynnysarvoon. Vertailun tulos aikaansaa erilaisia toimenpiteitä • t i '*· riippuen siltä, missä toimintatilassa tilakone kulloinkin on. Tätä kuva- :.*"·* 25 taan jäljempänä tarkemmin eri toimintatilojen kuvauksen yhteydessä.

··· • · • · l»«

Sen jälkeen kun puheesta on tallennettu joukko alikaistakohtaisia las-kentatuloksia p(t) (N kpl/alikaista), puheentunnistuslaite siirtyy suorittamaan mainittua tilakonetta, joka on toteutettu joko digitaalisen signaa-, ,·. 30 linkäsittely-yksikön 13 tai kontrollerin 5 sovellusohjelmistossa. Ajoitus voidaan muodostaa sinänsä tunnetusti edullisesti oskillaattorilla, kuten • * *':** kideoskillaattorilla (ei esitetty). Suoritus aloitetaan tilasta SO, jossa teh- dään tilakoneessa käytettävien muuttujien asettamiset alkuarvoihin (init()): taukolaskuri C nollataan, tehominimiarvo p_min aloitusajanhet-\t 35 kellä t-1 (pjnin(t=1)) asetetaan teoreettisesti arvoon oo, käytännössä puheentunnistuslaitteessa käytettävissä olevaksi suurimmaksi mahdolliseksi lukuarvoksi. Tähän maksimiarvoon vaikuttaa se, kuinka monella 8 118359 bitillä näitä tehoarvoja lasketaan. Vastaavasti tehomaksimiarvo pjnax aloitusajanhetkellä t=1 (p_max(t=1)) asetetaan teoreettisesti arvoon -oo, käytännössä puheentunnistuslaitteessa käytettävissä olevaksi pienimmäksi mahdolliseksi lukuarvoksi.

5

Alkuarvojen asetuksen jälkeen toiminta siirtyy tilaan S1, jossa suoritetaan mainitun funktion f() edellä esitetyt toimenpiteet, jolloin mm. tehojen minimiarvo p_min ja maksimiarvo p_max sekä mediaaniteho p(t)m lasketaan. Toimintatilassa S1 kasvatetaan lisäksi taukolaskuria C yh-10 dellä. Tässä toimintatilassa pysytään, kunnes ennalta määritetty alku-viive on kulunut umpeen. Tämä selvitetään vertailemalla taukolaskuria C ennalta asetettuun aloitusarvoon BEG. Siinä vaiheessa kun tauko-laskuri C on saavuttanut aloitusarvon BEG, toiminta siirtyy tilaan S2.

15 Toimintatilassa S2 taukolaskuri C nollataan ja suoritetaan funktion f() toimenpiteet, kuten uuden laskentatuloksen p(t) tallennus, tehominimin p_min, tehomaksimin p_max ja mediaanitehonpiO/r, sekä kynnysarvon thr laskenta. Laskettua kynnysarvoa ja mediaanitehoa verrataan keskenään ja mikäli mediaaniteho on pienempi kuin kynnysarvo, siirrytään 20 toimintatilaan S3, muussa tapauksessa toimintatilaa ei vaihdeta, vaan suoritetaan tämän toimintatilan S2 edellä esitetyt toimenpiteet uudelleen.

• » • · · • · · • *

Toimintatilassa S3 kasvatetaan taukolaskuria C yhdellä ja suoritetaan .'···. 25 funktio f(). Jos vertailu osoittaa, että mediaaniteho on edelleen pie- .···. nempi kuin kynnysarvo, tutkitaan taukolaskurin C arvo sen selvittämi- seksi, onko mediaaniteho ollut tietyn ajan alle tehon kynnysarvon. Tä-män aikarajan täyttyminen on selvitettävissä vertaamalla taukolaskurin *·* : C arvoa ilmaisuaikarajaan END. Jos laskurin arvo on suurempi tai yhtä- 30 suuri kuin mainittu ilmaisuaikaraja END, merkitsee se sitä, että kysei- %:.** sellä alikaistalla ei puhetta ole havaittavissa, jolloin poistutaan tilako- neesta.

* « • · · • » * ,·**. Jos toimintatilassa S3 kynnysarvon ja mediaanitehon vertailu kuitenkin 35 osoitti, että mediaaniteho on ylittänyt tehon kynnysarvon, voidaan tästä ...T tehdä päätelmä, että puhetta on tällä alikaistalla havaittavissa ja tila- *"·: kone palautuu toimintatilaan S2, jossa mm. taukolaskuri C nollataan ja laskenta aloitetaan alusta.

9 118359

Edellä oli siis kuvattu keksinnön erään edullisen suoritusmuodon mukaisessa menetelmässä käytettävän tilakoneen toimintaa yleisesti. Keksinnön mukaisessa puheentunnistuslaitteessa edellä esitetyt toimin-5 tavaiheet suoritetaan kunkin alikaistan osalta erikseen.

Näytteenotto puhesignaalista suoritetaan edullisesti määrävälein, jolloin vaiheet 101—104 suoritetaan kunkin piirrevektorin laskennan jälkeen, edullisesti n. 10 ms:n välein. Vastaavasti kunkin alikaistan tilakoneessa 10 suoritetaan kulloinkin aktiivisena olevan toimintatilan mukaiset toimenpiteet kerran (yksi laskentakierros), esim. tilassa S3 kasvatetaan ao. alikanavan taukolaskuria C(s), suoritetaan funktio f(s), jossa mm. tehdään mediaanitehon ja kynnysarvon välinen vertailu ja sen perusteella joko säilytetään toimintatila ennallaan tai muutetaan toimintatilaa.

15

Kun kaikkien alikaistojen tilakoneiden osalta on suoritettu yksi laskentakierros, siirrytään puheentunnistuksessa vaiheeseen 106, jossa tutkitaan eri alikaistoista saadun informaation perusteella se, onko puheessa havaittu riittävän pitkä tauko. Tätä vaihetta 106 on kuvattu vuokaa-20 viona oheisessa kuvassa 4. Tutkimisen selventämiseksi määritetään muutamia vertailuarvoja, joille annetaan alkuarvot edullisesti puheen-tunnistuslaitteen valmistuksen yhteydessä, mutta näitä alkuarvoja voidaan tarvittaessa muuttaa kulloisenkin sovelluksen ja käyttöolosuhtei- den mukaan. Näiden alkuarvojen asettamista esittää lohko 401 kuvan 4 * ·· * 25 vuokaaviossa: • · *::.** - aktiivisuuskynnys SB_ACTIVE_TH, jonka arvo on suurempi kuin nolla, mutta pienempi kuin ilmaisuaikaraja END; - ilmaisumäärä SB_SUFF_TH, jonka arvo on suurempi kuin nolla, v : mutta pienempi tai yhtäsuuri kuin alikaistojen lukumäärä L, 30 - alikaistojen minimimäärä SB_MIN_TH, jonka arvo on suurempi kuin nolla, mutta pienempi kuin ilmaisumäärä SB_SUFF_TH.

··· • · • * *·· , Keksinnön mukaisessa menetelmässä puheessa olevan tauon havaitsi:* semiseksi tutkitaan, kuinka monella alikaistalla energiataso on mahdol- *·;·* 35 lisesti pysynyt mainitun tehon kynnysarvon alapuolella ja kuinka kauan.

Kuten edellä olevasta tilakoneen toimintakuvauksesta käy ilmi, tauko-♦:··: laskuri C ilmaisee sen, kuinka pitkään alikaistalla on äänen energiataso ollut tehon kynnysarvon alapuolella. Tällöin tutkitaan kunkin alikaistan 10 118359 laskuri C ilmaisee sen, kuinka pitkään alikaistalla on äänen energiataso ollut tehon kynnysarvon alapuolella. Tällöin tutkitaan kunkin alikaistan laskurin arvoa. Jos laskurin arvo on suurempi tai yhtä suuri kuin ilmai-suaikaraja END (lohko 402), merkitsee se sitä, että alikaistan energia-5 taso on ollut tehon kynnysarvon alapuolella niin kauan, että päätös tauon havaitsemisesta voidaan tehdä tämän alikaistan osalta, eli muodostetaan alikanavakohtainen ilmaisu. Tällöin lohkossa 403 kasvatetaan ilmaisulaskuria SB_DET_NO edullisesti yhdellä.

10 Jos laskurin arvo on suurempi tai yhtä suuri kuin aktiivisuuskynnys SB_ACTIVE_TH (lohko 404), energiataso tällä alikaistalla on ollut tehon kynnysarvon thr alapuolella hetken, mutta ei vielä ilmaisuaikarajaa END vastaavaa aikaa. Tällöin lohkossa 405 kasvatetaan aktiivisuus-laskuria SB_ACT_NO edullisesti yhdellä. Muussa tapauksessa alikais-15 tässä on joko äänisignaalia, tai äänisignaalin taso on ollut vain lyhyen ajan alle tehon kynnysarvon thr.

Seuraavaksi siirrytään lohkoon 406, jossa apumuuttujana käytettävää alikaistalaskuria i kasvatetaan yhdellä. Tämän alikaistalaskurin i arvon 20 perusteella voidaan päätellä, joko kaikki alikaistat on tutkittu (lohko 407).

Kun vertailut mainittuihin taukolaskureihin on suoritettu, tutkitaan, :·. kuinka monella alikaistalla on havaittu tauko (taukolaskuri oli suurempi 25 tai yhtäsuuri kuin ilmaisuaikaraja END). Jos tällaisten alikaistojen luku- • määrä on suurempi tai yhtäsuuri kuin ilmaisumäärä SB_SUFF_TH (lohko 408), menetelmässä päätellään, että puheessa on tauko (täuon • · · *;]/ tunnistuspäätös, lohko 409) ja voidaan siirtyä varsinaiseen puheentun- v : nistukseen 15, jossa pyritään selvittämään se, mitä käyttäjä lausui. Jos 30 sen sijaan alikaistojen lukumäärä on pienempi kuin ilmaisumäärä I**·· SB_SUFF_TH, tutkitaan, onko alikaistojen, joissa on tauko, määrä suu- :***: rempi tai yhtäsuuri kuin alikaistojen minimimäärä SB_MIN_TH (lohko .·*: 410). Lohkossa 411 tutkitaan vielä, onko jokin alikaista aktiivinen (taukolaskuri oli suurempi tai yhtäsuuri kuin aktiivisuuskynnys 35 SB_ACTIVE_TFI, mutta pienempi kuin ilmaisuaikaraja END).

|*V Keksinnön mukaisessa menetelmässä tehdään tässä tilanteessa päätös siitä, että puheessa on tauko, jos mikään alikaista ei ole aktiivinen.

11 118359

Kohinatilanteessa voi joillakin alikaistoilla kohina vaikuttaa siten, että ilmaisupäätöstä ei saada kaikilla alikaistoilla, vaikka puheessa olisi tauko, joka tulisi ilmaista. Tällöin mainitun alikaistojen minimimäärän SB_MIN_TH avulla voidaan puheessa olevan tauon ilmaisua varmen-5 taa erityisesti kotimaisissa olosuhteissa. Tällöin kohinatilanteessa, mikäli tauko havaitaan vähintään mainitulla minimimäärällä SB_MIN_TH alikaistoja, todetaan puheessa oleva tauko, jos tauon havaitsemispää-tös näillä alikaistoilla pysyy voimassa mainitun ilmaisuaikarajan END verran.

10

Vastaavasti hyvissä olosuhteissa mainitun ilmaisuaikarajan END käyttämisellä voidaan estää liian nopea tauon ilmaisupäätös. Hyvissä olosuhteissa voi mainitulla minimimäärällä alikaistoja tauon ilmaisupäätös tulla hyvinkin nopeasti, vaikka puheessa ei olisi sellaista taukoa, joka 15 tulisi ilmaista. Odottamalla olennaisesti kaikkien alikanavien osalta ilmaisuaikarajan verran varmennetaan sitä, että puheessa todella on tauko.

Keksinnön eräässä toisessa edullisessa suoritusmuodossa ei ennen 20 tauon tunnistuspäätöksen tekemistä tutkita sitä, onko jokin alikaista aktiivinen. Tällöin tauon tunnistuspäätös tehdään edellä esitettyjen vertailujen tuloksien perusteella.

* · • · · • · · ;·.* Edellä esitetyt toiminnot voidaan edullisesti toteuttaa esimerkiksi pu- .*··*, 25 heentunnistuslaitteen kontrollerin tai digitaalisen signaalinkäsittely-yksi- [vS kön sovellusohjelmistossa.

• · «»· **** *;]/* Edellä esitettyä keksinnön edullisen suoritusmuodon mukaista mene- v : telmää puheessa olevan tauon ilmaisemiseksi voidaan soveltaa pu- 30 heentunnistuslaitteen opetusvaiheessa sekä puheentunnistusvaihees- :.·]·' sa. Opetusvaiheessa voidaan häiriöolosuhteet pitää tavallisesti suh- teellisen vakioina. Sen sijaan käytettäessä puheella ohjattavaa laitetta voi taustamelun ja muiden häiriöiden määrä vaihdella huomattavasti. Puheentunnistuksen luotettavuuden parantamiseksi erityisesti vaihte- • · *·;·' 35 levissä olosuhteissa on keksinnön erään toisen edullisen suoritusmuo- ,"‘j‘ don mukaiseen menetelmään lisätty adaptiivisuutta kynnysarvon thr ····· laskentaan. Tämän adaptiivisuuden aikaansaamiseksi käytetään muu- toskerrointa UPDATE_C, jonka arvo on edullisesti suurempi kuin nolla 12 118359 ja pienempi kuin yksi. Muutoskertoimelle määritetään aluksi jokin alkuarvo mainitulta arvoalueelta. Tätä muutoskerrointa päivitetään puheentunnistuksen aikana edullisesti seuraavasti. Alikaistoista puskureihin tallennettujen näytteiden perusteella lasketaan suurin tehotaso 5 win_max ja pienin tehotaso win_min. Tämän jälkeen suoritetaan mainitun lasketun suurimman tehotason win_max vertailu sen hetkiseen te-homaksimiin p_max ja mainitun lasketun pienimmän tehotason win_min vertailu tehominimiin p_min. Jos lasketun suurimman tehotason winjnax ja tehomaksimin pjnax välisen eron itseisarvo tai tehomini-10 min p_min ja mainitun lasketun pienimmän tehotason win_min välisen eron itseisarvo on kasvanut edellisestä laskentakerrasta, kasvatetaan muutoskerrointa UPDATE_C. Vastaavasti jos lasketun suurimman tehotason win_max ja tehomaksimin p_max välisen eron itseisarvo tai tehominimin p_min ja mainitun lasketun pienimmän tehotason win_min 15 välisen eron itseisarvo on pienentynyt edellisestä laskentakerrasta, pienennetään muutoskerrointa UPDATE_C. Tämän jälkeen lasketaan uusi tehomaksimi ja tehominimi seuraavasti: p_min(t)=(l - UPDATE_C) p_min(t -1)+ (UPDATE_C · win_min) 20 p_max(t)=(1 - UPDATE_C) · p_max(t -1) + (UPDATE_C · win_max)

Laskettuja uusia tehomaksimi- ja tehominimiarvoja käytetään seuraa-;y. valla näytteenottokierroksella mm. funktion f() suorituksen yhteydessä.

:*.* Tämän adaptiivisen kertoimen määrityksen etuna on mm. se, että ym- φ ·· 25 päristöolosuhteissa tapahtuvat muutokset voidaan paremmin huomioi-da puheentunnistuksessa ja tauon ilmaisu saadaan luotettavammaksi.

• · ··· ··· : Edellä esitetyt eri toiminnot puheessa olevan tauon ilmaisemiseksi voi- ; daan suurelta osin toteuttaa puheentunnistuslaitteen kontrollerin ja/tai 30 digitaalisen signaalinkäsittelylaitteen sovellusohjelmistossa. Keksinnön mukaisessa puheentunnistuslaitteessa voidaan osa toiminnoista, kuten f ”: alikaistoihin jako toteuttaa myös analogiatekniikalla, kuten on sinänsä . tunnettua. Menetelmän suorituksen yhteydessä voidaan eri vaiheissa ‘:!f muodostettavien laskentatulosten, muuttujien jne. tallennuksessa käyt- **:** 35 tää puheentunnistuslaitteen muistivälineitä 14, edullisesti luku/kirjoitus- ,.*r muistia (RAM, Random Access Memory), haihtumatonta, uudelleen ·:··: kirjoitettavissa olevaa lukumuistia (NVRAM, Non-Volatile RAM), 13 1 1 8359 FLASH-muistia jne. Myös langattoman viestimen muistivälineitä 22 voidaan käyttää tietojen tallennuksessa.

Kuvassa 2 keksinnön edullisen suoritusmuodon mukaisesta langatto-5 masta viestimestä MS on esitetty vielä sinänsä tunnetut näppäimistö 17, näyttölaite 18, digitaali/analogiamuunnin 19, kuulokevahvistin 20a, kuuloke 21a, kaiutintoiminnon 2 kuulokevahvistin 20b, kuuloke 21b sekä suurtaajuuslohko 23.

10 Nyt esillä olevaa keksintöä voidaan soveltaa useiden eri periaatteella toimivien puheentunnistusjärjestelmien yhteydessä. Keksintö parantaa puheessa olevien taukokohtien ilmaisuvarmuutta, mikä varmentaa varsinaisen puheentunnistuksen tunnistusvarmuutta. Keksinnön mukaista menetelmää käytettäessä ei puheentunnistusta ole tarve suorittaa kiin-15 teään aikaikkunaan sidottuna, joten tunnistusviive ei olennaisesti riipu siitä, kuinka nopeasti käyttäjä lausuu puhekomentoja. Myös taustame-lun vaikutus puheentunnistukseen saadaan keksinnön mukaista menetelmää sovellettaessa pienemmäksi kuin tunnetun tekniikan mukaisissa puheentunnistuslaitteissa on mahdollista.

20

On selvää, että keksintöä ei ole rajoitettu ainoastaan edellä esitettyihin suoritusmuotoihin, vaan sitä voidaan muunnella oheisten patenttivaati-musten puitteissa.

• · ·· • · • 1· ·«· • · • t ··· »·· • · • · ··· «·· • · · • · 1

• M

• · 1 • · · • · · • · · ·«· • M • · • m ··· • · · * · · »I» «•I I · • m «·« ···

MM

·

Claims

14 1 1 8359

1. Menetelmä puheentunnistuksessa puheessa olevien taukojen ilmaisemiseksi, jossa menetelmässä käyttäjän lausumien puhekomentojen 5 tunnistamiseksi ääni muunnetaan sähköiseksi signaaliksi, sähköisen signaalin taajuusspektri jaetaan kahdeksi tai useammaksi alikaistaksi, tallennetaan alikaistojen signaaleista näytteitä väliajoin, määritetään alikaistojen energiatasot tallennettujen näytteiden perusteella, määritetään tehon kynnysarvo (thr), ja verrataan alikaistojen 10 energiatasoja mainittuun tehon kynnysarvoon (thr), vertailutuloksia käytetään alikaistakohtaisen tauon ilmaisutuloksen muodostuksessa, ja että ainakin kahta mainittua alikaistakohtaista tauon ilmaisutulosta käytetään puheessa olevan tauon ilmaisussa, tunnettu siitä, että määritetään ilmaisuaikaraja (END) ja ilmaisumäärä (SB_SUFF_TH), 15 jolloin menetelmässä alikaistan tauon pituuden laskenta aloitetaan alikaistan energiatason alittaessa mainitun tehon kynnysarvon (thr), jolloin menetelmässä muodostetaan alikaistakohtainen ilmaisu laskennan saavuttaessa ilmaisuaikarajan (END), ja tutkitaan, kuinka monella alikaistalla energiataso on ollut tehon kynnysarvon (thr) ala-20 puolella pidempään kuin ilmaisuaikaraja (END), jolloin tauon ilmaisupäätös tehdään, jos alikaistakohtaisten ilmaisujen lukumäärä on suurempi tai yhtä suuri kuin ilmaisumäärä (SB_SUFF_TH).

* · • · · • ♦ · • ♦ :·. 2. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että !···. 25 menetelmässä lisäksi määritetään aktiivisuusaikaraja .·». (SB_ACTIVE_TH) ja aktiivisuusmäärä (SBJMIN_TH), jolloin tauon il- ::: maisupäätös tehdään, jos alikaistakohtaisten ilmaisujen lukumäärä on *:!.* suurempi tai yhtäsuuri kuin aktiivisuusmäärä (SB_MIN_TH), ja muilla • · · alikaistoilla alikaistan tauon pituuden laskennassa ei ole saavutettu 30 aktiivisuusaikarajaa (SB_ACTIVE_TH). • · • *· •

3. Patenttivaatimuksen 1 tai 2 mukainen menetelmä, tunnettu siitä, ;\j että tehon kynnysarvo (thr) lasketaan kaavalla • ♦ • · · • · 35 thr = p _ min + k-(p_ max -p_ min), jossa »* · • ♦ · • · • · p min = alikanavien tallennetuista näytteistä määritetty pienin tehomaksimi, 15 1 1 8359 p_max = alikanavien tallennetuista näytteistä määritetty suurin tehominimi, ja 0 < k < 1.

4. Jonkin patenttivaatimuksen 1—3 mukainen menetelmä, tunnettu siitä, että mainittu tehon kynnysarvo (thr) lasketaan adaptiivisesti huomioimalla kulloinenkin ympäristön häiriöäänitaso.

5. Patenttivaatimuksen 4 mukainen menetelmä, tunnettu siitä, että 10 mainitun tehon kynnysarvon (thr) laskemiseksi väliajoin (t) määritetään muutoskerroin (UPDATE_C), ja tallennettujen näytteiden perusteella lasketaan alikaistojen suurin tehotaso (win max) ja pienin tehotaso (winjriin), jolloin määritetään tehomaksimi (p_max) ja tehominimi (p_min) kaavoilla: p_max(i,t)= (1 - UPDATE_C)· p_max(i,t -1)+ (UPDATE_C • winmax) p_min(i,t) = (l - UPDATE_C)· p_min(i,t -1)+ (UPDATE_C win_min) jossa 0 < UPDATE_C < 1, 20 0 < i < L, ja L on alikaistojen lukumäärä

6. Patenttivaatimuksen 5 mukainen menetelmä, tunnettu siitä, että * · · ' ’ menetelmässä lisäksi: • M \..t 25 - kasvatetaan muutoskerrointa (UPDATE_C), mikäli mainitun las- *:"] ketun suurimman tehotason (winjnax) ja tehomaksimin (p_max) *”;* välisen eron itseisarvo tai tehominimin (p_min) ja mainitun laske- ι tun pienimmän tehotason (win_min) välisen eron itseisarvo on v : kasvanut, 30. pienennetään muutoskerrointa (UPDATE_C), mikäli mainitun j\. lasketun suurimman tehotason (win_max) ja tehomaksimin :***: (p_max) välisen eron itseisarvo tai tehominimin (pjmin) ja maini- / . tun lasketun pienimmän tehotason (winjnin) välisen eron itseis- arvo on pienentynyt. • · • · _ __ *:* 35 V\:

7. Puheentunnistuslaite (16), joka käsittää :*·,· - välineet (1a, 1b) käyttäjän lausumien puhekomentojen ♦ · muuntamiseksi sähköiseksi signaaliksi, 118359 välineet (8) sähköisen signaalin taajuusspektrin jakamiseksi kahdeksi tai useammaksi alikaistaksi, välineet (14) näytteiden tallentamiseksi väliajoin alikaistojen signaaleista, 5. välineet (5, 13) energiatasojen määrittämiseksi alikaistoista tal lennettujen näytteiden perusteella, välineet (5,13) tehon kynnysarvon (thr) määrittämiseksi, ja välineet (5,13) alikaistojen energiatasojen vertailemiseksi mainittuun tehon kynnysarvoon (thr), 10. välineet (5, 13) puheessa olevan tauon ilmaisemiseksi alikaistakohtaisesti mainittujen vertailutulosten perusteella, ja välineet (5, 13) ainakin kahden mainitun alikaistakohtaisen tauon ilmaisutuloksen käyttämiseksi puheessa olevan tauon ilmaisussa, 15 tunnettu siitä, että puheentunnistuslaitteeseen (16) on määritetty ilmaisuaikaraja (END) ja ilmaisumäärä (SB_SUFF_TH), jolloin välineet (5, 13) puheessa olevan tauon ilmaisemiseksi alikaistakohtaisesti mainittujen vertailutulosten perusteella on 20 järjestetty aloittamaan alikaistan tauon pituuden laskenta alikaistan energiatason alittaessa mainitun tehon kynnysarvon (thr), ja muodostamaan alikaistakohtainen ilmaisu laskennan ;v; saavuttaessa ilmaisuaikarajan (END), ja - välineet (5, 13) ainakin kahden mainitun alikaistakohtaisen tauon • · · ..... 25 ilmaisutuloksen käyttämiseksi puheessa olevan tauon ilmaisussa yS on järjestetty tutkimaan, kuinka monella alikaistalla energiataso on ollut tehon kynnysarvon (thr) alapuolella pidempään kuin • · · '·; ilmaisuaikaraja (END), ja tekemään tauon ilmaisupäätös, jos v *’ alikaistakohtaisten ilmaisujen lukumäärä on suurempi tai yhtä 30 suuri kuin ilmaisumäärä (SB_SUFF_TH). • · • · • «·

8. Patenttivaatimuksen 7 mukainen puheentunnistuslaite (16), . tunnettu siitä, että tehon kynnysarvo (thr) on laskettu kaavalla • · · • · • · · 35 thr - p_ min + k·(p_max -p_ min), jossa •« · • · · • • t p min = alikanavien tallennetuista näytteistä määritetty pienin • · tehomaksimi, 17 1 1 8359 p_max = alikanavien tallennetuista näytteistä määritetty suurin tehominimi, ja O < k < 1.

9. Patenttivaatimuksen 7 tai 8 mukainen puheentunnistuslaite (16), tunnettu siitä, että se käsittää lisäksi välineet (10, 11) alikaistojen signaalien suodattamiseksi ennen tallennusta.

10. Langaton viestin (MS), joka käsittää 10 - välineet (16) puheen tunnistamiseksi, välineet (1a, 1b) käyttäjän lausumien puhekomentojen muuntamiseksi sähköiseksi signaaliksi, välineet (8) sähköisen signaalin taajuusspektrin jakamiseksi kahdeksi tai useammaksi alikaistaksi, 15. välineet (14) näytteiden tallentamiseksi väliajoin alikaistojen sig naaleista, välineet (5, 13) energiatasojen määrittämiseksi alikaistoista tallennettujen näytteiden perusteella, välineet (5,13) tehon kynnysarvon (thr) määrittämiseksi, ja 20 - välineet (5, 13) alikaistojen energiatasojen vertailemiseksi mainit tuun tehon kynnysarvoon (thr), jotka välineet (16) puheen tunnistamiseksi käsittävät lisäksi: :·.* - välineet (5, 13) puheessa olevan tauon ilmaisemiseksi mainittu- 25 jen vertailutulosten perusteella, ja - välineet (5, 13) ainakin kahden mainitun alikaistakohtaisen tauon • ♦ ilmaisutuloksen käyttämiseksi puheessa olevan tauon :·: ** ilmaisussa, • M ·* tunnettu siitä, että langattomaan viestimeen (MS) on määritetty 30 ilmaisuaikaraja (END) ja ilmaisumäärä (SB_SUFF_TH), jolloin - välineet (5, 13) puheessa olevan tauon ilmaisemiseksi :***: alikaistakohtaisesti mainittujen vertailutulosten perusteella on • · · .· . järjestetty aloittamaan alikaistan tauon pituuden laskenta alikaistan energiatason alittaessa mainitun tehon kynnysarvon :·»* 35 (thr), ja muodostamaan alikaistakohtainen ilmaisu laskennan {'·[: saavuttaessa ilmaisuaikarajan (END), ja :*·.· - välineet (5, 13) ainakin kahden mainitun alikaistakohtaisen tauon ilmaisutuloksen käyttämiseksi puheessa olevan tauon ilmaisussa 18 1 1 8359 on järjestetty tutkimaan, kuinka monella alikaistalla energiataso on ollut tehon kynnysarvon (thr) alapuolella pidempään kuin ilmaisuaikaraja (END), ja tekemään tauon ilmaisupäätös, jos alikaistakohtaisten ilmaisujen lukumäärä on suurempi tai yhtä 5 suuri kuin ilmaisumäärä (SB_SUFF_TH). • · • « · ♦ · 1 • · • · • · * ·1 • · · • · • · »·» « «· • · • · • · · ·1 • · · · · » · • · ♦ • · · • · « · • · · ··· • · • · • ·· • · * i · • ·· • · ··· • · * · «M ·» · 4 4 4 4 4 4 1 · 4 4 4 4 4 4 4 4 19 1 1 8359