FI118359B - Menetelmä puheentunnistuksessa ja puheentunnistuslaite ja langaton viestin - Google Patents

Menetelmä puheentunnistuksessa ja puheentunnistuslaite ja langaton viestin Download PDF

Info

Publication number
FI118359B
FI118359B FI990078A FI990078A FI118359B FI 118359 B FI118359 B FI 118359B FI 990078 A FI990078 A FI 990078A FI 990078 A FI990078 A FI 990078A FI 118359 B FI118359 B FI 118359B
Authority
FI
Finland
Prior art keywords
subband
pause
power
thr
expression
Prior art date
Application number
FI990078A
Other languages
English (en)
Swedish (sv)
Other versions
FI990078A (fi
FI990078A0 (fi
Inventor
Kari Laurila
Juha Haekkinen
Ramalingam Hariharan
Original Assignee
Nokia Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Corp filed Critical Nokia Corp
Publication of FI990078A0 publication Critical patent/FI990078A0/fi
Priority to FI990078A priority Critical patent/FI118359B/fi
Priority to JP2000594107A priority patent/JP2002535708A/ja
Priority to AT00901626T priority patent/ATE355588T1/de
Priority to AU22958/00A priority patent/AU2295800A/en
Priority to PCT/FI2000/000028 priority patent/WO2000042600A2/en
Priority to EP00901626A priority patent/EP1153387B1/en
Priority to DE60033636T priority patent/DE60033636T2/de
Publication of FI990078A publication Critical patent/FI990078A/fi
Priority to US10/840,003 priority patent/US7146318B2/en
Application granted granted Critical
Publication of FI118359B publication Critical patent/FI118359B/fi

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Circuits Of Receivers In General (AREA)
  • Telephone Function (AREA)
  • Facsimile Transmission Control (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Alarm Systems (AREA)

Description

1 118359
Menetelmä puheentunnistuksessa, puheentunnistuslaite ja langaton viestin 5 Nyt esillä oleva keksintö kohdistuu oheisen patenttivaatimuksen 1 johdanto-osan mukaiseen menetelmään puheentunnistuksessa, oheisen patenttivaatimuksen 7 johdanto-osan mukaiseen puheentunnistuslait-teeseen ja oheisen patenttivaatimuksen 10 johdanto-osan mukaiseen puheella ohjattavaan langattomaan viestimeen.
10
Langattomien viestimien käytön helpottamiseksi on kehitetty puheen-tunnistuslaitteita, joiden avulla käyttäjä voi lausua puhekomentoja, jotka puheentunnistuslaite pyrkii tunnistamaan ja muuntamaan puhekomen-toa vastaavaksi toiminnoksi, esim. puhelinnumeron valintakomennoksi.
15 Hankaluutena puheohjauksen toteuttamisessa on mm. se, että eri käyttäjät lausuvat puhekomennot eri tavalla: puhenopeus voi olla erilainen eri käyttäjillä, samoin puheen voimakkuus, äänen sävy jne. Lisäksi puheentunnistusta häiritsee mahdollinen taustamelu, jonka häiritsevyys ulkona ja autossa voi olla huomattavaa. Taustamelu vaikeuttaa sanojen 20 tunnistusta sekä eri sanojen erottamista toisistaan esim. puhelinnumeroa lausuttaessa.
Joissakin puheentunnistuslaitteissa on käytetty kiinteään aika-ikkunaan perustuvaa tunnistusmenetelmää. Tällöin käyttäjällä on ennalta mää- • φ · 25 rätty aika, jonka kuluessa hänen on lausuttava haluamansa komento-sana. Aika-ikkunan kuluttua umpeen puheentunnistuslaite pyrkii selvit-tämään, minkä sanan/komennon käyttäjä lausui. Tällaiseen kiinteään • · · ’ aika-ikkunaan perustuvassa menetelmässä on kuitenkin mm. se epä- v : kohta, että kaikki lausuttavat sanat eivät ole yhtä pitkiä, esim. nimien 30 kohdalla etunimi on usein selvästi lyhyempi kuin sukunimi. Tällöin lyhy- ; ·· emmän sanan jälkeen kuluu enemmän aikaa tunnistukseen kuin pi- :"\· demmän sanan tunnistuksessa. Tämä on epämiellyttävää käyttäjän · kannalta. Lisäksi aika-ikkuna on asetettava hitaampien puhujien mu- :,!** kaan, ettei tunnistusta aloiteta, ennen kuin koko sana on lausuttu. No- • · 35 peammin sanoja lausuttaessa viive lausumisen ja tunnistuksen välillä j‘\: lisää epämiellyttävyyden tunnetta.
• · • · · • ·· • · 118359 2 sanaväliä voidaan käyttää muun informaation välitykseen. Julkaisussa esitetyssä menetelmässä tutkittava taajuusalue jaetaan ainakin kahteen taajuuskaistaan ja eri taajuuskaistojen energiatasoja tutkimalla pyritään havaitsemaan tauko. Menetelmässä eri taajuuskaistoista mitatuista 5 energiatasoista lasketaan vertailuluku, jota verrataan joko ensimmäiseen tai toiseen kynnysarvoon riippuen siitä, oliko edellisessä vertailussa puhetta vai tauko. Vertailulukujen laskeminen suoritetaan kiinteän aikaikkunan perusteella, siis kullakin laskentakerralla käytetään yhtä monta näytettä. Vaikka menetelmässä taajuusalue jaetaan 10 alikaistoihin, suoritetaan päätelmä tauon/puheen olemassaolosta eri alikaistoista yhdistetyn tuloksen perusteella. Tällöin kohinaisissa olosuhteissa voi jollakin alikaistalla energiataso olla niin korkea, että viitejulkaisun mukainen puheentunnistuslaite tekee virheellisen päätöksen puheen olemassa olosta.
15
Toinen tunnettu puheentunnistusmenetelmä perustuu puhesignaaleista muodostettuihin malleihin ja niiden vertailuun. Komentosanoista muodostetut mallit on etukäteen tallennettu tai käyttäjä on voinut opettaa haluamiaan sanoja, joista on muodostettu ja tallennettu mallit. Puheen-20 tunnistuslaite vertailee tallennettuja malleja käyttäjän lausumista äänteistä muodostettuihin piirrevektoreihin sanojen lausumisen aikana ja laskee todennäköisyyksiä puheentunnistuslaitteen sanaston eri sanoille : Y: (komentosanoille). Todennäköisyyden ylittäessä jollakin komentosanal- la ennalta asetetun arvon, puheentunnistuslaite valitsee tämän komen- .*···. 25 tosanan tunnistustulokseksi. Tällöin voi virheellisiä tunnistustuloksia • · .···. syntyä erityisesti sellaisten sanojen kohdalla, joissa sanan alku muistutti f taa äänteellisesti jotakin muuta sanastoon kuuluvaa sanaa. Esimerkiksi *:!.* käyttäjä on opettanut puheentunnistuslaitteelle sanat "Mari” ja ’’Marika”.
Jos käyttäjä lausuu sanaa ’’Marika”, saattaa puheentunnistuslaite tehdä 30 tunnistuspäätökseksi ’’Mari”, vaikka käyttäjä ei olisi ehtinyt lausua vielä :.:Y sanan loppua. Tällaisissa puheentunnistuslaitteissa käytetään usein ns.
:.,*ϊ Hidden-Markov-Model -puheentunnistusmenetelmää (HMM).
• · · • * · .·*·. Patentissa US-4,870,686 on esitetty puheentunnistusmenetelmä ja pu- 35 heentunnistuslaite, jossa käyttäjän sanojen lopun ilmaiseminen perus-tuu hiljaisuuteen, siis puheentunnistuslaite tutkii, onko äänisignaalia havaittavissa vai ei. Ongelmana tässä ratkaisussa on se, että liian voi 3 118359 makas taustamelu voi estää taukojen havaitsemisen, jolloin puheentunnistus ei onnistu.
Nyt esillä olevan keksinnön eräänä tarkoituksena on aikaansaada pa-5 rannettu menetelmä puheessa olevien taukojen havaitsemiseksi ja pu-heentunnistusiaite. Keksintö perustuu siihen ajatukseen, että jaetaan tutkittava äänikaista alikaistoihin ja tutkitaan signaalin tehoa kullakin alikaistalla. Mikäli riittävän usealla alikaistalla signaalin teho alittaa tietyn rajan riittävän pitkän ajan, tehdään päätelmä siitä, että puheessa on 10 tauko. Nyt esillä olevan keksinnön mukaiselle menetelmälle on tunnusomaista se, mitä on esitetty oheisen patenttivaatimuksen 1 tunnus-merkkiosassa. Nyt esillä olevan keksinnön mukaiselle puheentunnistus-laitteelle on tunnusomaista se, mitä on esitetty oheisen patenttivaatimuksen 7 tunnusmerkkiosassa. Nyt esillä olevan keksinnön mukaiselle 15 langattomalle viestimelle on tunnusomaista se, mitä on esitetty oheisen patenttivaatimuksen 10 tunnusmerkkiosassa.
Nyt esillä olevalla keksinnöllä saavutetaan merkittäviä etuja tunnetun tekniikan mukaisiin ratkaisuihin verrattuna. Keksinnön mukaisella me-20 netelmällä saadaan luotettavampi sanavälin ilmaisu kuin tunnetun tekniikan mukaisilla menetelmillä. Tällöin puheentunnistuksen luotettavuus paranee ja virheellisten tunnistusten ja epäonnistuneiden tunnistusten määrä pienenee. Lisäksi puheentunnistuslaite on joustavampi erilaisten • · :·. käyttäjien puhetottumusten suhteen, koska puhekomennot voidaan lau- .*···. 25 sua hitaammin tai nopeammin ilman, että tunnistuksessa on epämiellyt- « · tävää viivettä tai että tunnistus tapahtuisi kesken sanan lausumisen.
• · *»f ·♦ * * · «
Keksinnön mukaisella alikaistoihin jakamisella saadaan ulkoisten häiri-*·’*: öiden vaikutusta pienennettyä. Tyypillisesti häiriösignaalit esim. autossa 30 ovat suhteellisen matalataajuisia. Tunnetun tekniikan mukaisissa rat-kaisuissa koko käsiteltävän signaalin taajuusalueen sisältämää ener-giaa käytetään tunnistuksessa hyväksi, jolloin voimakkaat mutta kapea-. !·. kaistaiset signaalit heikentävät signaali-kohinasuhdetta merkittävästi.
Sen sijaan jaettaessa tutkittava taajuusalue keksinnön mukaisesti ali-’·;·* 35 kaistoihin, saadaan sellaisilla alikaistoilla, joilla häiritsevien signaalien osuus on suhteellisen pieni, signaali-kohinasuhdetta parannettua mer-·:··: kittävästi, mikä parantaa tunnistusvarmuutta.
4 118359
Nyt esillä olevaa keksintöä selostetaan seuraavassa tarkemmin viitaten samalla oheisiin piirustuksiin, joissa kuva 1 esittää vuokaaviona keksinnön erään edullisen suoritus-5 muodon mukaista menetelmää, kuva 2 esittää keksinnön erään edullisen suoritusmuodon mukaista puheentunnistuslaitetta pelkistettynä lohkokaaviona, 10 kuva 3 esittää keksinnön erään edullisen suoritusmuodon mukaisessa menetelmässä sovellettavaa sijalukusuodatusta (rank-order filtering) tilakonekaaviona, ja kuva 4 esittää vuokaaviona keksinnön erään edullisen suoritus-15 muodon mukaisessa menetelmässä sovellettavaa tauon päättelylogiikkaa.
Selostetaan seuraavassa keksinnön erään edullisen suoritusmuodon mukaisen menetelmän toimintaa viitaten samalla kuvan 1 vuokaavioon 20 käyttäen esimerkkinä kuvan 2 lohkokaavion mukaista puheella ohjattavaa langatonta viestintä MS. Puheentunnistuksessa suoritetaan sinänsä tunnetusti akustisen signaalin (puheen) muuntaminen sähköi-seksi signaaliksi mikrofonilla, kuten langattoman viestimen MS mikro- • · :·. ionilla 1a tai kaiutintoiminnon 2 mikrofonilla 1b. Puhesignaalin taajuus- .···. 25 vaste rajoittuu tyypillisesti alle 10 kHz:n taajuusalueelle, esim. taajuus- • · .I". alueelle 100 Hz—10 kHz. Puheen taajuusvaste ei kuitenkaan ole vakio :::* koko taajuusalueella, vaan siinä matalampia taajuuksia esiintyy enem- män kuin korkeampia taajuuksia. Lisäksi eri henkilöillä puheen taajuus- *·*: vaste on erilainen. Keksinnön mukaisessa menetelmässä tutkittava 30 taajuusalue jaetaan kapeampiin alitaajuusalueisiin (alikaistoihin, M kpl).
\:V Tätä esittää lohko 101 oheisessa kuvassa 1. Näitä alitaajuusalueita ei C’: tehdä tasalevyisiksi, vaan puheen ominaispiirteet huomioiden, jolloin . !·. osa alitaajuusalueista on kapeampia ja osa on leveämpiä. Puheelle • * * ominaisilla, alemmilla taajuuksilla jako on tiheämpi, eli alitaajuusalueet 35 ovat kapeampia, kuin puheessa harvemmin esiintyvillä, korkeammilla ..*·* taajuuksilla. Tähän perustuu myös sinänsä tunnettu mel-taajuusjako *:·*: (Mel Frequency Scale), jossa taajuuskaistojen leveys perustuu logarit miseen taajuuden funktioon.
5 118359
Alikaistoihin jakamisen yhteydessä alikaistojen signaalit muunnetaan pienemmälle näytetaajuudelle esim. alinäytteistämällä tai alipäästösuo-dattamalla. Tällöin lohkosta 101 näytteitä siirretään jatkokäsittelyyn tällä 5 alemmalla näytetaajuudella. Tämä näytetaajuus on edullisesti n. 100 Hz, mutta on selvää, että nyt esillä olevan keksinnön puitteissa myös muita näytetaajuuksia voidaan soveltaa. Näistä näytteistä muodostetaan mainittuja piirrevektoreita.
10 Mikrofonissa 1a, 1b muodostettu signaali vahvistetaan vahvistimessa 3a, 3b ja muunnetaan digitaaliseksi analogia-digitaalimuuntimessa 4. Analogia/digitaalimuunnoksen tarkkuus on tyypillisesti välillä 12—32 bittiä ja puhesignaalin muuntamisessa näytteitä otetaan edullisesti 8000—14000 kertaa sekunnissa, mutta keksintöä voidaan soveltaa 15 myös muilla näytteenottonopeuksilla. Kuvan 2 langattomassa viestimessä MS näytteenotto on järjestetty suoritettavaksi kontrollerin 5 ohjaamana. Digitaalisessa muodossa oleva äänisignaali siirretään langattoman viestimen MS kanssa toiminnallisessa yhteydessä olevaan pu-heentunnistuslaitteeseen 16, jossa suoritetaan keksinnön edullisen 20 suoritusmuodon mukaisen menetelmän eri vaiheita. Siirto suoritetaan esim. liityntälohkojen 6a, 6b ja liityntäväylän 7 kautta. Puheentunnistus-laite 16 voi käytännön sovelluksissa olla toteutettuna myös itse langat-; tomassa viestimessä MS tai muussa puheohjattavassa laitteessa, tai :·.* erillisenä lisälaitteena tai vastaavana.
• tl ... 25
Alikaistoihin jako tehdään edullisesti ensimmäisessä suodatinlohkos-sa 8, johon digitaaliseksi muunnettu signaali johdetaan. Tämä ensimmäinen suodatinlohko 8 koostuu useista, tässä edullisessa suoritus- ··· : muodossa digitaalitekniikalla toteutetuista, kaistanpäästösuodattimista, 30 joiden päästökaistan taajuusalueet sekä kaistanleveydet eroavat toisis-taan. Tällöin kunkin kaistanpäästösuodattimen läpäisee alkuperäisestä signaalista kaistanpäästösuodatettu osa. Selvyyden vuoksi ei kuvassa . \, 2 ole esitetty erillisinä näitä kaistanpäästösuodattimia. Nämä kaistan- päästösuodattimet on toteutettu edullisesti signaalinkäsittely-yksikön 13 ’*:·* 35 (DSP, Digital Signal Processor) sovellusohjelmistossa, kuten on si- nänsä tunnettua.
• · 6 118359
Seuraavassa vaiheessa 102 vähennetään alikaistojen lukumäärää edullisesti desinfioimalla desimointilohkossa 9, jolloin muodostuu L kappaletta alikaistoja (L<M), joiden energiatasot ovat mitattavissa. Näiden alitaajuusalueiden signaalinvoimakkuuksien perusteella voidaan määrit-5 tää signaalin energia kullakin alikaistalla. Myös desimointilohko 9 voidaan toteuttaa digitaalisen signaalinkäsittely-yksikön 13 sovellusohjelmistossa.
Etu, joka saavutetaan lohkon 1 mukaisella M aukaistaan jakamisella on 10 se, että näitä M:n eri alikaistan arvoja voidaan käyttää tunnistuksessa apuna tunnistustuloksen varmentamiseksi erityisesti sellaisessa sovelluksessa, jossa käytetään Mel-taajuusjaon mukaisia kertoimia. Lohko 101 voidaan kuitenkin toteuttaa myös siten, että siinä muodostetaan suoraan L kappaletta alikaistoja, jolloin lohkoa 102 ei tarvita.
15
Toisessa suodatinlohkossa 10 suoritetaan desimointivaiheessa muodostetuille alikaistojen signaaleille alipäästösuodatus (vaihe 103 kuvassa 1), jolloin lyhyet signaalinvoimakkuuden muutokset suodattuvat ja eivät pääse vaikuttamaan merkittävästi signaalin energiatason mää-20 rittämiseen jatkossa. Suodatuksen jälkeen lasketaan lohkossa 11 kunkin alikaistan energiatasosta logaritmifunktio (vaihe 104), jonka muodostamat laskentatulokset tallennetaan jatkokäsittelyä varten muistivä-lineisiin 14 muodostettuihin alikaistakohtaisiin puskureihin (ei esitetty). Nämä puskurit ovat edullisesti ns. FIFO-tyyppisiä (First In - First Out), .'···. 25 joihin laskentatulokset tallennetaan esim. 8- tai 16-bittisinä lukuina. Ku- • « .I», hunkin puskuriin mahtuu N kappaletta laskentatuloksia. Arvo N riippuu kulloisestakin sovelluksesta. Puskuriin tallennetut laskentatulokset p(t) • ♦ · *;[/ kuvaavat siis alikaistan suodatettua, logaritmista energiatasoa eri mit- :·: : tausajanhetkinä.
30 :.:V Järjestelylohko 12 suorittaa laskentatuloksille ns. rank-order -suodatuk- sen (vaihe 105), jossa eri laskentatulosten keskinäistä suuruutta vertail-. .**. laan. Tässä vaiheessa 105 tutkitaan alikaistoittain se, onko puheessa mahdollisesti tauko. Tämä tutkiminen on esitetty tilakonekaaviona ku-**:·* 35 vassa 3. Tämän tilakoneen toiminnot toteutetaan olennaisesti saman- Iäisinä kullekin alikaistalle. Tilakoneen eri toimintatiloja SO, S1, S2, S3 ·:**: ja S4 on esitetty ympyröillä. Näiden tilaympyröiden sisään on merkitty kussakin toimintatilassa suoritettavat toimenpiteet. Nuolet 301, 302, 7 118359 303, 304 ja 305 kuvaavat siirtymisiä toimintatiloista toiseen. Näiden nuolien yhteyteen on merkitty kriteerit, joiden toteutuminen aikaansaa tämän siirtymisen. Kaaret 306, 307 ja 308 kuvaavat tilannetta, jossa toimintatilaa ei vaihdeta. Myös näiden kaarien yhteyteen on merkitty 5 kriteerit toimintatilan säilyttämiseksi ennallaan.
Toimintatiloissa S1, S2 ja S3 on esitetty funktio f(), joka tarkoittaa seu-raavien toimenpiteiden suorittamista mainituissa toimintatiloissa: laskentatuloksia p(t) tallennetaan puskuriin edullisesti N kappaletta, joista 10 etsitään pienin maksimiarvo p_min(t) ja suurin minimiarvo p_min(t) edullisesti seuraavilla kaavoilla: p _ min(t) = min[max)p(i - N +1), p(i - N + 2)..., p(/)(], i = N,N + 1.....t p_max(t) = max[min)p(i -N + l),p(i -N + 2)...,p(/'X], i = N,N + 1,...,t 15
Funktiossa f() haetaan siis maksimiarvoksi p_max(t) eri alikaistapus-kureihin tallennetuista laskentatuloksista p(i) suurin minimiarvo ja minimiarvoksi p_min(t) pienin maksimiarvo. Tämän jälkeen lasketaan mediaaniteho p(t)m, joka on mediaaniarvo puskuriin tallennetuista las- 20 kentatuloksista p(t) sekä kynnysarvo thr kaavalla thr = p_min + k -(p_max -p_min), jossa 0 < k < 1. Seuraavaksi funktiossa f() suoritetaan mediaanitehon p(t)m vertailu edellä lasket- • · v.: tuun kynnysarvoon. Vertailun tulos aikaansaa erilaisia toimenpiteitä • t i '*· riippuen siltä, missä toimintatilassa tilakone kulloinkin on. Tätä kuva- :.*"·* 25 taan jäljempänä tarkemmin eri toimintatilojen kuvauksen yhteydessä.
··· • · • · l»«
Sen jälkeen kun puheesta on tallennettu joukko alikaistakohtaisia las-kentatuloksia p(t) (N kpl/alikaista), puheentunnistuslaite siirtyy suorittamaan mainittua tilakonetta, joka on toteutettu joko digitaalisen signaa-, ,·. 30 linkäsittely-yksikön 13 tai kontrollerin 5 sovellusohjelmistossa. Ajoitus voidaan muodostaa sinänsä tunnetusti edullisesti oskillaattorilla, kuten • * *':** kideoskillaattorilla (ei esitetty). Suoritus aloitetaan tilasta SO, jossa teh- dään tilakoneessa käytettävien muuttujien asettamiset alkuarvoihin (init()): taukolaskuri C nollataan, tehominimiarvo p_min aloitusajanhet-\t 35 kellä t-1 (pjnin(t=1)) asetetaan teoreettisesti arvoon oo, käytännössä puheentunnistuslaitteessa käytettävissä olevaksi suurimmaksi mahdolliseksi lukuarvoksi. Tähän maksimiarvoon vaikuttaa se, kuinka monella 8 118359 bitillä näitä tehoarvoja lasketaan. Vastaavasti tehomaksimiarvo pjnax aloitusajanhetkellä t=1 (p_max(t=1)) asetetaan teoreettisesti arvoon -oo, käytännössä puheentunnistuslaitteessa käytettävissä olevaksi pienimmäksi mahdolliseksi lukuarvoksi.
5
Alkuarvojen asetuksen jälkeen toiminta siirtyy tilaan S1, jossa suoritetaan mainitun funktion f() edellä esitetyt toimenpiteet, jolloin mm. tehojen minimiarvo p_min ja maksimiarvo p_max sekä mediaaniteho p(t)m lasketaan. Toimintatilassa S1 kasvatetaan lisäksi taukolaskuria C yh-10 dellä. Tässä toimintatilassa pysytään, kunnes ennalta määritetty alku-viive on kulunut umpeen. Tämä selvitetään vertailemalla taukolaskuria C ennalta asetettuun aloitusarvoon BEG. Siinä vaiheessa kun tauko-laskuri C on saavuttanut aloitusarvon BEG, toiminta siirtyy tilaan S2.
15 Toimintatilassa S2 taukolaskuri C nollataan ja suoritetaan funktion f() toimenpiteet, kuten uuden laskentatuloksen p(t) tallennus, tehominimin p_min, tehomaksimin p_max ja mediaanitehonpiO/r, sekä kynnysarvon thr laskenta. Laskettua kynnysarvoa ja mediaanitehoa verrataan keskenään ja mikäli mediaaniteho on pienempi kuin kynnysarvo, siirrytään 20 toimintatilaan S3, muussa tapauksessa toimintatilaa ei vaihdeta, vaan suoritetaan tämän toimintatilan S2 edellä esitetyt toimenpiteet uudelleen.
• » • · · • · · • *
Toimintatilassa S3 kasvatetaan taukolaskuria C yhdellä ja suoritetaan .'···. 25 funktio f(). Jos vertailu osoittaa, että mediaaniteho on edelleen pie- .···. nempi kuin kynnysarvo, tutkitaan taukolaskurin C arvo sen selvittämi- seksi, onko mediaaniteho ollut tietyn ajan alle tehon kynnysarvon. Tä-män aikarajan täyttyminen on selvitettävissä vertaamalla taukolaskurin *·* : C arvoa ilmaisuaikarajaan END. Jos laskurin arvo on suurempi tai yhtä- 30 suuri kuin mainittu ilmaisuaikaraja END, merkitsee se sitä, että kysei- %:.** sellä alikaistalla ei puhetta ole havaittavissa, jolloin poistutaan tilako- neesta.
* « • · · • » * ,·**. Jos toimintatilassa S3 kynnysarvon ja mediaanitehon vertailu kuitenkin 35 osoitti, että mediaaniteho on ylittänyt tehon kynnysarvon, voidaan tästä ...T tehdä päätelmä, että puhetta on tällä alikaistalla havaittavissa ja tila- *"·: kone palautuu toimintatilaan S2, jossa mm. taukolaskuri C nollataan ja laskenta aloitetaan alusta.
9 118359
Edellä oli siis kuvattu keksinnön erään edullisen suoritusmuodon mukaisessa menetelmässä käytettävän tilakoneen toimintaa yleisesti. Keksinnön mukaisessa puheentunnistuslaitteessa edellä esitetyt toimin-5 tavaiheet suoritetaan kunkin alikaistan osalta erikseen.
Näytteenotto puhesignaalista suoritetaan edullisesti määrävälein, jolloin vaiheet 101—104 suoritetaan kunkin piirrevektorin laskennan jälkeen, edullisesti n. 10 ms:n välein. Vastaavasti kunkin alikaistan tilakoneessa 10 suoritetaan kulloinkin aktiivisena olevan toimintatilan mukaiset toimenpiteet kerran (yksi laskentakierros), esim. tilassa S3 kasvatetaan ao. alikanavan taukolaskuria C(s), suoritetaan funktio f(s), jossa mm. tehdään mediaanitehon ja kynnysarvon välinen vertailu ja sen perusteella joko säilytetään toimintatila ennallaan tai muutetaan toimintatilaa.
15
Kun kaikkien alikaistojen tilakoneiden osalta on suoritettu yksi laskentakierros, siirrytään puheentunnistuksessa vaiheeseen 106, jossa tutkitaan eri alikaistoista saadun informaation perusteella se, onko puheessa havaittu riittävän pitkä tauko. Tätä vaihetta 106 on kuvattu vuokaa-20 viona oheisessa kuvassa 4. Tutkimisen selventämiseksi määritetään muutamia vertailuarvoja, joille annetaan alkuarvot edullisesti puheen-tunnistuslaitteen valmistuksen yhteydessä, mutta näitä alkuarvoja voidaan tarvittaessa muuttaa kulloisenkin sovelluksen ja käyttöolosuhtei- den mukaan. Näiden alkuarvojen asettamista esittää lohko 401 kuvan 4 * ·· * 25 vuokaaviossa: • · *::.** - aktiivisuuskynnys SB_ACTIVE_TH, jonka arvo on suurempi kuin nolla, mutta pienempi kuin ilmaisuaikaraja END; - ilmaisumäärä SB_SUFF_TH, jonka arvo on suurempi kuin nolla, v : mutta pienempi tai yhtäsuuri kuin alikaistojen lukumäärä L, 30 - alikaistojen minimimäärä SB_MIN_TH, jonka arvo on suurempi kuin nolla, mutta pienempi kuin ilmaisumäärä SB_SUFF_TH.
··· • · • * *·· , Keksinnön mukaisessa menetelmässä puheessa olevan tauon havaitsi:* semiseksi tutkitaan, kuinka monella alikaistalla energiataso on mahdol- *·;·* 35 lisesti pysynyt mainitun tehon kynnysarvon alapuolella ja kuinka kauan.
Kuten edellä olevasta tilakoneen toimintakuvauksesta käy ilmi, tauko-♦:··: laskuri C ilmaisee sen, kuinka pitkään alikaistalla on äänen energiataso ollut tehon kynnysarvon alapuolella. Tällöin tutkitaan kunkin alikaistan 10 118359 laskuri C ilmaisee sen, kuinka pitkään alikaistalla on äänen energiataso ollut tehon kynnysarvon alapuolella. Tällöin tutkitaan kunkin alikaistan laskurin arvoa. Jos laskurin arvo on suurempi tai yhtä suuri kuin ilmai-suaikaraja END (lohko 402), merkitsee se sitä, että alikaistan energia-5 taso on ollut tehon kynnysarvon alapuolella niin kauan, että päätös tauon havaitsemisesta voidaan tehdä tämän alikaistan osalta, eli muodostetaan alikanavakohtainen ilmaisu. Tällöin lohkossa 403 kasvatetaan ilmaisulaskuria SB_DET_NO edullisesti yhdellä.
10 Jos laskurin arvo on suurempi tai yhtä suuri kuin aktiivisuuskynnys SB_ACTIVE_TH (lohko 404), energiataso tällä alikaistalla on ollut tehon kynnysarvon thr alapuolella hetken, mutta ei vielä ilmaisuaikarajaa END vastaavaa aikaa. Tällöin lohkossa 405 kasvatetaan aktiivisuus-laskuria SB_ACT_NO edullisesti yhdellä. Muussa tapauksessa alikais-15 tässä on joko äänisignaalia, tai äänisignaalin taso on ollut vain lyhyen ajan alle tehon kynnysarvon thr.
Seuraavaksi siirrytään lohkoon 406, jossa apumuuttujana käytettävää alikaistalaskuria i kasvatetaan yhdellä. Tämän alikaistalaskurin i arvon 20 perusteella voidaan päätellä, joko kaikki alikaistat on tutkittu (lohko 407).
Kun vertailut mainittuihin taukolaskureihin on suoritettu, tutkitaan, :·. kuinka monella alikaistalla on havaittu tauko (taukolaskuri oli suurempi 25 tai yhtäsuuri kuin ilmaisuaikaraja END). Jos tällaisten alikaistojen luku- • määrä on suurempi tai yhtäsuuri kuin ilmaisumäärä SB_SUFF_TH (lohko 408), menetelmässä päätellään, että puheessa on tauko (täuon • · · *;]/ tunnistuspäätös, lohko 409) ja voidaan siirtyä varsinaiseen puheentun- v : nistukseen 15, jossa pyritään selvittämään se, mitä käyttäjä lausui. Jos 30 sen sijaan alikaistojen lukumäärä on pienempi kuin ilmaisumäärä I**·· SB_SUFF_TH, tutkitaan, onko alikaistojen, joissa on tauko, määrä suu- :***: rempi tai yhtäsuuri kuin alikaistojen minimimäärä SB_MIN_TH (lohko .·*: 410). Lohkossa 411 tutkitaan vielä, onko jokin alikaista aktiivinen (taukolaskuri oli suurempi tai yhtäsuuri kuin aktiivisuuskynnys 35 SB_ACTIVE_TFI, mutta pienempi kuin ilmaisuaikaraja END).
|*V Keksinnön mukaisessa menetelmässä tehdään tässä tilanteessa päätös siitä, että puheessa on tauko, jos mikään alikaista ei ole aktiivinen.
11 118359
Kohinatilanteessa voi joillakin alikaistoilla kohina vaikuttaa siten, että ilmaisupäätöstä ei saada kaikilla alikaistoilla, vaikka puheessa olisi tauko, joka tulisi ilmaista. Tällöin mainitun alikaistojen minimimäärän SB_MIN_TH avulla voidaan puheessa olevan tauon ilmaisua varmen-5 taa erityisesti kotimaisissa olosuhteissa. Tällöin kohinatilanteessa, mikäli tauko havaitaan vähintään mainitulla minimimäärällä SB_MIN_TH alikaistoja, todetaan puheessa oleva tauko, jos tauon havaitsemispää-tös näillä alikaistoilla pysyy voimassa mainitun ilmaisuaikarajan END verran.
10
Vastaavasti hyvissä olosuhteissa mainitun ilmaisuaikarajan END käyttämisellä voidaan estää liian nopea tauon ilmaisupäätös. Hyvissä olosuhteissa voi mainitulla minimimäärällä alikaistoja tauon ilmaisupäätös tulla hyvinkin nopeasti, vaikka puheessa ei olisi sellaista taukoa, joka 15 tulisi ilmaista. Odottamalla olennaisesti kaikkien alikanavien osalta ilmaisuaikarajan verran varmennetaan sitä, että puheessa todella on tauko.
Keksinnön eräässä toisessa edullisessa suoritusmuodossa ei ennen 20 tauon tunnistuspäätöksen tekemistä tutkita sitä, onko jokin alikaista aktiivinen. Tällöin tauon tunnistuspäätös tehdään edellä esitettyjen vertailujen tuloksien perusteella.
* · • · · • · · ;·.* Edellä esitetyt toiminnot voidaan edullisesti toteuttaa esimerkiksi pu- .*··*, 25 heentunnistuslaitteen kontrollerin tai digitaalisen signaalinkäsittely-yksi- [vS kön sovellusohjelmistossa.
• · «»· **** *;]/* Edellä esitettyä keksinnön edullisen suoritusmuodon mukaista mene- v : telmää puheessa olevan tauon ilmaisemiseksi voidaan soveltaa pu- 30 heentunnistuslaitteen opetusvaiheessa sekä puheentunnistusvaihees- :.·]·' sa. Opetusvaiheessa voidaan häiriöolosuhteet pitää tavallisesti suh- teellisen vakioina. Sen sijaan käytettäessä puheella ohjattavaa laitetta voi taustamelun ja muiden häiriöiden määrä vaihdella huomattavasti. Puheentunnistuksen luotettavuuden parantamiseksi erityisesti vaihte- • · *·;·' 35 levissä olosuhteissa on keksinnön erään toisen edullisen suoritusmuo- ,"‘j‘ don mukaiseen menetelmään lisätty adaptiivisuutta kynnysarvon thr ····· laskentaan. Tämän adaptiivisuuden aikaansaamiseksi käytetään muu- toskerrointa UPDATE_C, jonka arvo on edullisesti suurempi kuin nolla 12 118359 ja pienempi kuin yksi. Muutoskertoimelle määritetään aluksi jokin alkuarvo mainitulta arvoalueelta. Tätä muutoskerrointa päivitetään puheentunnistuksen aikana edullisesti seuraavasti. Alikaistoista puskureihin tallennettujen näytteiden perusteella lasketaan suurin tehotaso 5 win_max ja pienin tehotaso win_min. Tämän jälkeen suoritetaan mainitun lasketun suurimman tehotason win_max vertailu sen hetkiseen te-homaksimiin p_max ja mainitun lasketun pienimmän tehotason win_min vertailu tehominimiin p_min. Jos lasketun suurimman tehotason winjnax ja tehomaksimin pjnax välisen eron itseisarvo tai tehomini-10 min p_min ja mainitun lasketun pienimmän tehotason win_min välisen eron itseisarvo on kasvanut edellisestä laskentakerrasta, kasvatetaan muutoskerrointa UPDATE_C. Vastaavasti jos lasketun suurimman tehotason win_max ja tehomaksimin p_max välisen eron itseisarvo tai tehominimin p_min ja mainitun lasketun pienimmän tehotason win_min 15 välisen eron itseisarvo on pienentynyt edellisestä laskentakerrasta, pienennetään muutoskerrointa UPDATE_C. Tämän jälkeen lasketaan uusi tehomaksimi ja tehominimi seuraavasti: p_min(t)=(l - UPDATE_C) p_min(t -1)+ (UPDATE_C · win_min) 20 p_max(t)=(1 - UPDATE_C) · p_max(t -1) + (UPDATE_C · win_max)
Laskettuja uusia tehomaksimi- ja tehominimiarvoja käytetään seuraa-;y. valla näytteenottokierroksella mm. funktion f() suorituksen yhteydessä.
:*.* Tämän adaptiivisen kertoimen määrityksen etuna on mm. se, että ym- φ ·· 25 päristöolosuhteissa tapahtuvat muutokset voidaan paremmin huomioi-da puheentunnistuksessa ja tauon ilmaisu saadaan luotettavammaksi.
• · ··· ··· : Edellä esitetyt eri toiminnot puheessa olevan tauon ilmaisemiseksi voi- ; daan suurelta osin toteuttaa puheentunnistuslaitteen kontrollerin ja/tai 30 digitaalisen signaalinkäsittelylaitteen sovellusohjelmistossa. Keksinnön mukaisessa puheentunnistuslaitteessa voidaan osa toiminnoista, kuten f ”: alikaistoihin jako toteuttaa myös analogiatekniikalla, kuten on sinänsä . tunnettua. Menetelmän suorituksen yhteydessä voidaan eri vaiheissa ‘:!f muodostettavien laskentatulosten, muuttujien jne. tallennuksessa käyt- **:** 35 tää puheentunnistuslaitteen muistivälineitä 14, edullisesti luku/kirjoitus- ,.*r muistia (RAM, Random Access Memory), haihtumatonta, uudelleen ·:··: kirjoitettavissa olevaa lukumuistia (NVRAM, Non-Volatile RAM), 13 1 1 8359 FLASH-muistia jne. Myös langattoman viestimen muistivälineitä 22 voidaan käyttää tietojen tallennuksessa.
Kuvassa 2 keksinnön edullisen suoritusmuodon mukaisesta langatto-5 masta viestimestä MS on esitetty vielä sinänsä tunnetut näppäimistö 17, näyttölaite 18, digitaali/analogiamuunnin 19, kuulokevahvistin 20a, kuuloke 21a, kaiutintoiminnon 2 kuulokevahvistin 20b, kuuloke 21b sekä suurtaajuuslohko 23.
10 Nyt esillä olevaa keksintöä voidaan soveltaa useiden eri periaatteella toimivien puheentunnistusjärjestelmien yhteydessä. Keksintö parantaa puheessa olevien taukokohtien ilmaisuvarmuutta, mikä varmentaa varsinaisen puheentunnistuksen tunnistusvarmuutta. Keksinnön mukaista menetelmää käytettäessä ei puheentunnistusta ole tarve suorittaa kiin-15 teään aikaikkunaan sidottuna, joten tunnistusviive ei olennaisesti riipu siitä, kuinka nopeasti käyttäjä lausuu puhekomentoja. Myös taustame-lun vaikutus puheentunnistukseen saadaan keksinnön mukaista menetelmää sovellettaessa pienemmäksi kuin tunnetun tekniikan mukaisissa puheentunnistuslaitteissa on mahdollista.
20
On selvää, että keksintöä ei ole rajoitettu ainoastaan edellä esitettyihin suoritusmuotoihin, vaan sitä voidaan muunnella oheisten patenttivaati-musten puitteissa.
• · ·· • · • 1· ·«· • · • t ··· »·· • · • · ··· «·· • · · • · 1
• M
• · 1 • · · • · · • · · ·«· • M • · • m ··· • · · * · · »I» «•I I · • m «·« ···
MM
·

Claims (10)

14 1 1 8359
1. Menetelmä puheentunnistuksessa puheessa olevien taukojen ilmaisemiseksi, jossa menetelmässä käyttäjän lausumien puhekomentojen 5 tunnistamiseksi ääni muunnetaan sähköiseksi signaaliksi, sähköisen signaalin taajuusspektri jaetaan kahdeksi tai useammaksi alikaistaksi, tallennetaan alikaistojen signaaleista näytteitä väliajoin, määritetään alikaistojen energiatasot tallennettujen näytteiden perusteella, määritetään tehon kynnysarvo (thr), ja verrataan alikaistojen 10 energiatasoja mainittuun tehon kynnysarvoon (thr), vertailutuloksia käytetään alikaistakohtaisen tauon ilmaisutuloksen muodostuksessa, ja että ainakin kahta mainittua alikaistakohtaista tauon ilmaisutulosta käytetään puheessa olevan tauon ilmaisussa, tunnettu siitä, että määritetään ilmaisuaikaraja (END) ja ilmaisumäärä (SB_SUFF_TH), 15 jolloin menetelmässä alikaistan tauon pituuden laskenta aloitetaan alikaistan energiatason alittaessa mainitun tehon kynnysarvon (thr), jolloin menetelmässä muodostetaan alikaistakohtainen ilmaisu laskennan saavuttaessa ilmaisuaikarajan (END), ja tutkitaan, kuinka monella alikaistalla energiataso on ollut tehon kynnysarvon (thr) ala-20 puolella pidempään kuin ilmaisuaikaraja (END), jolloin tauon ilmaisupäätös tehdään, jos alikaistakohtaisten ilmaisujen lukumäärä on suurempi tai yhtä suuri kuin ilmaisumäärä (SB_SUFF_TH).
* · • · · • ♦ · • ♦ :·. 2. Patenttivaatimuksen 1 mukainen menetelmä, tunnettu siitä, että !···. 25 menetelmässä lisäksi määritetään aktiivisuusaikaraja .·». (SB_ACTIVE_TH) ja aktiivisuusmäärä (SBJMIN_TH), jolloin tauon il- ::: maisupäätös tehdään, jos alikaistakohtaisten ilmaisujen lukumäärä on *:!.* suurempi tai yhtäsuuri kuin aktiivisuusmäärä (SB_MIN_TH), ja muilla • · · alikaistoilla alikaistan tauon pituuden laskennassa ei ole saavutettu 30 aktiivisuusaikarajaa (SB_ACTIVE_TH). • · • *· •
3. Patenttivaatimuksen 1 tai 2 mukainen menetelmä, tunnettu siitä, ;\j että tehon kynnysarvo (thr) lasketaan kaavalla • ♦ • · · • · 35 thr = p _ min + k-(p_ max -p_ min), jossa »* · • ♦ · • · • · p min = alikanavien tallennetuista näytteistä määritetty pienin tehomaksimi, 15 1 1 8359 p_max = alikanavien tallennetuista näytteistä määritetty suurin tehominimi, ja 0 < k < 1.
4. Jonkin patenttivaatimuksen 1—3 mukainen menetelmä, tunnettu siitä, että mainittu tehon kynnysarvo (thr) lasketaan adaptiivisesti huomioimalla kulloinenkin ympäristön häiriöäänitaso.
5. Patenttivaatimuksen 4 mukainen menetelmä, tunnettu siitä, että 10 mainitun tehon kynnysarvon (thr) laskemiseksi väliajoin (t) määritetään muutoskerroin (UPDATE_C), ja tallennettujen näytteiden perusteella lasketaan alikaistojen suurin tehotaso (win max) ja pienin tehotaso (winjriin), jolloin määritetään tehomaksimi (p_max) ja tehominimi (p_min) kaavoilla: p_max(i,t)= (1 - UPDATE_C)· p_max(i,t -1)+ (UPDATE_C • winmax) p_min(i,t) = (l - UPDATE_C)· p_min(i,t -1)+ (UPDATE_C win_min) jossa 0 < UPDATE_C < 1, 20 0 < i < L, ja L on alikaistojen lukumäärä
6. Patenttivaatimuksen 5 mukainen menetelmä, tunnettu siitä, että * · · ' ’ menetelmässä lisäksi: • M \..t 25 - kasvatetaan muutoskerrointa (UPDATE_C), mikäli mainitun las- *:"] ketun suurimman tehotason (winjnax) ja tehomaksimin (p_max) *”;* välisen eron itseisarvo tai tehominimin (p_min) ja mainitun laske- ι tun pienimmän tehotason (win_min) välisen eron itseisarvo on v : kasvanut, 30. pienennetään muutoskerrointa (UPDATE_C), mikäli mainitun j\. lasketun suurimman tehotason (win_max) ja tehomaksimin :***: (p_max) välisen eron itseisarvo tai tehominimin (pjmin) ja maini- / . tun lasketun pienimmän tehotason (winjnin) välisen eron itseis- arvo on pienentynyt. • · • · _ __ *:* 35 V\:
7. Puheentunnistuslaite (16), joka käsittää :*·,· - välineet (1a, 1b) käyttäjän lausumien puhekomentojen ♦ · muuntamiseksi sähköiseksi signaaliksi, 118359 välineet (8) sähköisen signaalin taajuusspektrin jakamiseksi kahdeksi tai useammaksi alikaistaksi, välineet (14) näytteiden tallentamiseksi väliajoin alikaistojen signaaleista, 5. välineet (5, 13) energiatasojen määrittämiseksi alikaistoista tal lennettujen näytteiden perusteella, välineet (5,13) tehon kynnysarvon (thr) määrittämiseksi, ja välineet (5,13) alikaistojen energiatasojen vertailemiseksi mainittuun tehon kynnysarvoon (thr), 10. välineet (5, 13) puheessa olevan tauon ilmaisemiseksi alikaistakohtaisesti mainittujen vertailutulosten perusteella, ja välineet (5, 13) ainakin kahden mainitun alikaistakohtaisen tauon ilmaisutuloksen käyttämiseksi puheessa olevan tauon ilmaisussa, 15 tunnettu siitä, että puheentunnistuslaitteeseen (16) on määritetty ilmaisuaikaraja (END) ja ilmaisumäärä (SB_SUFF_TH), jolloin välineet (5, 13) puheessa olevan tauon ilmaisemiseksi alikaistakohtaisesti mainittujen vertailutulosten perusteella on 20 järjestetty aloittamaan alikaistan tauon pituuden laskenta alikaistan energiatason alittaessa mainitun tehon kynnysarvon (thr), ja muodostamaan alikaistakohtainen ilmaisu laskennan ;v; saavuttaessa ilmaisuaikarajan (END), ja - välineet (5, 13) ainakin kahden mainitun alikaistakohtaisen tauon • · · ..... 25 ilmaisutuloksen käyttämiseksi puheessa olevan tauon ilmaisussa yS on järjestetty tutkimaan, kuinka monella alikaistalla energiataso on ollut tehon kynnysarvon (thr) alapuolella pidempään kuin • · · '·; ilmaisuaikaraja (END), ja tekemään tauon ilmaisupäätös, jos v *’ alikaistakohtaisten ilmaisujen lukumäärä on suurempi tai yhtä 30 suuri kuin ilmaisumäärä (SB_SUFF_TH). • · • · • «·
8. Patenttivaatimuksen 7 mukainen puheentunnistuslaite (16), . tunnettu siitä, että tehon kynnysarvo (thr) on laskettu kaavalla • · · • · • · · 35 thr - p_ min + k·(p_max -p_ min), jossa •« · • · · • • t p min = alikanavien tallennetuista näytteistä määritetty pienin • · tehomaksimi, 17 1 1 8359 p_max = alikanavien tallennetuista näytteistä määritetty suurin tehominimi, ja O < k < 1.
9. Patenttivaatimuksen 7 tai 8 mukainen puheentunnistuslaite (16), tunnettu siitä, että se käsittää lisäksi välineet (10, 11) alikaistojen signaalien suodattamiseksi ennen tallennusta.
10. Langaton viestin (MS), joka käsittää 10 - välineet (16) puheen tunnistamiseksi, välineet (1a, 1b) käyttäjän lausumien puhekomentojen muuntamiseksi sähköiseksi signaaliksi, välineet (8) sähköisen signaalin taajuusspektrin jakamiseksi kahdeksi tai useammaksi alikaistaksi, 15. välineet (14) näytteiden tallentamiseksi väliajoin alikaistojen sig naaleista, välineet (5, 13) energiatasojen määrittämiseksi alikaistoista tallennettujen näytteiden perusteella, välineet (5,13) tehon kynnysarvon (thr) määrittämiseksi, ja 20 - välineet (5, 13) alikaistojen energiatasojen vertailemiseksi mainit tuun tehon kynnysarvoon (thr), jotka välineet (16) puheen tunnistamiseksi käsittävät lisäksi: :·.* - välineet (5, 13) puheessa olevan tauon ilmaisemiseksi mainittu- 25 jen vertailutulosten perusteella, ja - välineet (5, 13) ainakin kahden mainitun alikaistakohtaisen tauon • ♦ ilmaisutuloksen käyttämiseksi puheessa olevan tauon :·: ** ilmaisussa, • M ·* tunnettu siitä, että langattomaan viestimeen (MS) on määritetty 30 ilmaisuaikaraja (END) ja ilmaisumäärä (SB_SUFF_TH), jolloin - välineet (5, 13) puheessa olevan tauon ilmaisemiseksi :***: alikaistakohtaisesti mainittujen vertailutulosten perusteella on • · · .· . järjestetty aloittamaan alikaistan tauon pituuden laskenta alikaistan energiatason alittaessa mainitun tehon kynnysarvon :·»* 35 (thr), ja muodostamaan alikaistakohtainen ilmaisu laskennan {'·[: saavuttaessa ilmaisuaikarajan (END), ja :*·.· - välineet (5, 13) ainakin kahden mainitun alikaistakohtaisen tauon ilmaisutuloksen käyttämiseksi puheessa olevan tauon ilmaisussa 18 1 1 8359 on järjestetty tutkimaan, kuinka monella alikaistalla energiataso on ollut tehon kynnysarvon (thr) alapuolella pidempään kuin ilmaisuaikaraja (END), ja tekemään tauon ilmaisupäätös, jos alikaistakohtaisten ilmaisujen lukumäärä on suurempi tai yhtä 5 suuri kuin ilmaisumäärä (SB_SUFF_TH). • · • « · ♦ · 1 • · • · • · * ·1 • · · • · • · »·» « «· • · • · • · · ·1 • · · · · » · • · ♦ • · · • · « · • · · ··· • · • · • ·· • · * i · • ·· • · ··· • · * · «M ·» · 4 4 4 4 4 4 1 · 4 4 4 4 4 4 4 4 19 1 1 8359
FI990078A 1999-01-18 1999-01-18 Menetelmä puheentunnistuksessa ja puheentunnistuslaite ja langaton viestin FI118359B (fi)

Priority Applications (8)

Application Number Priority Date Filing Date Title
FI990078A FI118359B (fi) 1999-01-18 1999-01-18 Menetelmä puheentunnistuksessa ja puheentunnistuslaite ja langaton viestin
PCT/FI2000/000028 WO2000042600A2 (en) 1999-01-18 2000-01-17 Method in speech recognition and a speech recognition device
AT00901626T ATE355588T1 (de) 1999-01-18 2000-01-17 Pausendetektion für die spracherkennung
AU22958/00A AU2295800A (en) 1999-01-18 2000-01-17 Method in speech recognition and a speech recognition device
JP2000594107A JP2002535708A (ja) 1999-01-18 2000-01-17 音声認識方法及び音声認識装置
EP00901626A EP1153387B1 (en) 1999-01-18 2000-01-17 Pause detection for speech recognition
DE60033636T DE60033636T2 (de) 1999-01-18 2000-01-17 Pausendetektion für die Spracherkennung
US10/840,003 US7146318B2 (en) 1999-01-18 2004-05-06 Subband method and apparatus for determining speech pauses adapting to background noise variation

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FI990078 1999-01-18
FI990078A FI118359B (fi) 1999-01-18 1999-01-18 Menetelmä puheentunnistuksessa ja puheentunnistuslaite ja langaton viestin

Publications (3)

Publication Number Publication Date
FI990078A0 FI990078A0 (fi) 1999-01-18
FI990078A FI990078A (fi) 2000-07-19
FI118359B true FI118359B (fi) 2007-10-15

Family

ID=8553379

Family Applications (1)

Application Number Title Priority Date Filing Date
FI990078A FI118359B (fi) 1999-01-18 1999-01-18 Menetelmä puheentunnistuksessa ja puheentunnistuslaite ja langaton viestin

Country Status (8)

Country Link
US (1) US7146318B2 (fi)
EP (1) EP1153387B1 (fi)
JP (1) JP2002535708A (fi)
AT (1) ATE355588T1 (fi)
AU (1) AU2295800A (fi)
DE (1) DE60033636T2 (fi)
FI (1) FI118359B (fi)
WO (1) WO2000042600A2 (fi)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI118359B (fi) * 1999-01-18 2007-10-15 Nokia Corp Menetelmä puheentunnistuksessa ja puheentunnistuslaite ja langaton viestin
JP2002041073A (ja) * 2000-07-31 2002-02-08 Alpine Electronics Inc 音声認識装置
US20030004720A1 (en) * 2001-01-30 2003-01-02 Harinath Garudadri System and method for computing and transmitting parameters in a distributed voice recognition system
US6771706B2 (en) 2001-03-23 2004-08-03 Qualcomm Incorporated Method and apparatus for utilizing channel state information in a wireless communication system
US7941313B2 (en) * 2001-05-17 2011-05-10 Qualcomm Incorporated System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
CN101320559B (zh) * 2007-06-07 2011-05-18 华为技术有限公司 一种声音激活检测装置及方法
US8082148B2 (en) * 2008-04-24 2011-12-20 Nuance Communications, Inc. Testing a grammar used in speech recognition for reliability in a plurality of operating environments having different background noise
US9135809B2 (en) * 2008-06-20 2015-09-15 At&T Intellectual Property I, Lp Voice enabled remote control for a set-top box
WO2011015237A1 (en) * 2009-08-04 2011-02-10 Nokia Corporation Method and apparatus for audio signal classification
ES2860986T3 (es) 2010-12-24 2021-10-05 Huawei Tech Co Ltd Método y aparato para detectar adaptivamente una actividad de voz en una señal de audio de entrada
EP3719801B1 (en) 2013-12-19 2023-02-01 Telefonaktiebolaget LM Ericsson (publ) Estimation of background noise in audio signals
US10332564B1 (en) * 2015-06-25 2019-06-25 Amazon Technologies, Inc. Generating tags during video upload
US10090005B2 (en) * 2016-03-10 2018-10-02 Aspinity, Inc. Analog voice activity detection
US10825471B2 (en) * 2017-04-05 2020-11-03 Avago Technologies International Sales Pte. Limited Voice energy detection
RU2761940C1 (ru) 2018-12-18 2021-12-14 Общество С Ограниченной Ответственностью "Яндекс" Способы и электронные устройства для идентификации пользовательского высказывания по цифровому аудиосигналу
CN111327395B (zh) * 2019-11-21 2023-04-11 沈连腾 一种宽带信号的盲检测方法、装置、设备及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4015088A (en) * 1975-10-31 1977-03-29 Bell Telephone Laboratories, Incorporated Real-time speech analyzer
EP0167364A1 (en) * 1984-07-06 1986-01-08 AT&T Corp. Speech-silence detection with subband coding
GB8613327D0 (en) * 1986-06-02 1986-07-09 British Telecomm Speech processor
US4811404A (en) * 1987-10-01 1989-03-07 Motorola, Inc. Noise suppression system
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
US5794199A (en) * 1996-01-29 1998-08-11 Texas Instruments Incorporated Method and system for improved discontinuous speech transmission
US6108610A (en) * 1998-10-13 2000-08-22 Noise Cancellation Technologies, Inc. Method and system for updating noise estimates during pauses in an information signal
FI118359B (fi) * 1999-01-18 2007-10-15 Nokia Corp Menetelmä puheentunnistuksessa ja puheentunnistuslaite ja langaton viestin

Also Published As

Publication number Publication date
ATE355588T1 (de) 2006-03-15
DE60033636D1 (de) 2007-04-12
DE60033636T2 (de) 2007-06-21
FI990078A (fi) 2000-07-19
WO2000042600A2 (en) 2000-07-20
FI990078A0 (fi) 1999-01-18
EP1153387A2 (en) 2001-11-14
US7146318B2 (en) 2006-12-05
EP1153387B1 (en) 2007-02-28
JP2002535708A (ja) 2002-10-22
WO2000042600A3 (en) 2000-09-28
US20040236571A1 (en) 2004-11-25
AU2295800A (en) 2000-08-01

Similar Documents

Publication Publication Date Title
FI118359B (fi) Menetelmä puheentunnistuksessa ja puheentunnistuslaite ja langaton viestin
US11270707B2 (en) Analysing speech signals
US8874440B2 (en) Apparatus and method for detecting speech
JP4355322B2 (ja) フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置
US20030061036A1 (en) System and method for transmitting speech activity in a distributed voice recognition system
US5842161A (en) Telecommunications instrument employing variable criteria speech recognition
US20080027716A1 (en) Systems, methods, and apparatus for signal change detection
EP2083417B1 (en) Sound processing device and program
JP2003524794A (ja) 雑音のある信号におけるスピーチのエンドポイント決定
US6182036B1 (en) Method of extracting features in a voice recognition system
JP2005534983A (ja) 自動音声認識の方法
JPH08185196A (ja) 音声区間検出装置
JPH01296299A (ja) 音声認識装置
US20110071821A1 (en) Receiver intelligibility enhancement system
US8868418B2 (en) Receiver intelligibility enhancement system
CN112489692A (zh) 语音端点检测方法和装置
US6999929B2 (en) Recognizing speech by selectively canceling model function mixture components
JPH0222960B2 (fi)
JPH0449952B2 (fi)
Kasap et al. A unified approach to speech enhancement and voice activity detection
JP2003044078A (ja) 発声速度正規化分析を用いた音声認識装置
JP5157474B2 (ja) 音処理装置およびプログラム
KR100322202B1 (ko) 신경망을 이용한 음성인식장치 및 그 방법
JP5157475B2 (ja) 音処理装置およびプログラム
JPH04369698A (ja) 音声認識方式

Legal Events

Date Code Title Description
FG Patent granted

Ref document number: 118359

Country of ref document: FI

MM Patent lapsed