FI124869B

FI124869B - Ääniaktiviteetin tunnistin ja hyväksyjä kohinallisia ympäristöjä varten

Info

Publication number: FI124869B
Application number: FI20041013A
Authority: FI
Inventors: Douglas Ralph Ealey; Holly Louise Kelleher; David John Benjamin Pearce
Original assignee: Motorola Mobility Llc
Priority date: 2002-01-24
Filing date: 2004-07-22
Publication date: 2015-02-27
Also published as: GB2384670A; WO2003063138A1; GB2384670B; FI20041013A; KR100976082B1; JP2005516247A; KR20090127182A; KR20040075959A; CN1623186A; GB0201585D0; CN1307613C; JP2010061151A

Description

Ääniaktiviteetin tunnistin ja hyväksyjä kohinallisia ympäristöjä varten

Keksinnön ala

Keksintö koskee puheen tunnistusta (tunnetaan yleisesti nimellä ääniaktiviteetin tunnistus (VAD)) kohinallisessa ympäristössä. Keksintöä voidaan soveltaa, vaikka ei vain tähän rajattuna, äänisignaalien energiakiihtyvyysmittaukseen puheentunnistus j ärj estelmässä.

Keksinnön tausta

Monet ääniviestintäjärjestelmät kuten GSM- matkapuhelinstandardin järjestelmä (global system for mobile communications) ja TETRA-järjestelmä (TErrestial Trunked RA-dio) yksityisiä matkaviestinradiokäyttäjiä varten, käyttävät puheenkäsittely-yksiköitä puhehahmomallien koodaamiseksi ja dekoodaamiseksi. Tällaisissa ääniviestintäjärjestelmissä pu-hekooderi muuntaa analogisen puhehahmomallin soveltuvaan digitaaliseen muotoon lähettämistä varten. Puhedekooderi muuntaa vastaanotetun digitaalisen puhesignaalin kuultavaksi au-diopuhehahmomalliksi.

Alalla tunnetaan menetelmiä ja laitteistoja ääniaktiviteetin tunnistamiseksi. Ääniaktiviteetin tunnistin (VAD) toimii sillä oletuksella, että puhetta on vain osalla aikaa audiosignaalia. Tämä oletus on tavallisesti oikein, koska audio-signaalisissa on monia aikavälejä, joiden aikana esiintyy vain hiljaisuutta tai taustakohinaa. Ääniaktiviteetin tunnistinta voidaan käyttää moneen tarkoitukseen. Näihin kuuluvat kokonaislähetysaktiviteetin vaimennus lähetysjärjestelmässä, kun puhetta ei esiinny, jolloin säästetään mahdollisesti energiaa ja kanavan kaistanleveyttä. Kun VAD havaitsee, että puheaktiviteetti on palannut, se voi aloittaa lähetysaktiviteetin uudelleen. Ääniaktiviteetin tunnistinta voidaan käyttää myös puheental-lennuslaitteiden kanssa erottamaan puhetta sisältävät audio-osuudet "puheettomista" osuuksista. Puhetta sisältävät osuudet tallennetaan sitten tallennuslaitteeseen ja "puheetto-mat" osuudet hylätään.

Tavanomaiset menetelmät äänen tunnistamiseksi perustuvat ainakin osaksi menetelmiin puhesignaalin tehon tunnistamiseksi ja arvioimiseksi. Estimoitua tehoa verrataan joko vakioon tai sovitettavaan kynnysarvoon päätöksen tekemiseksi siitä, onko signaali puhetta vaiko ei. Näiden menetelmien suurimpia etuja on niiden vähäinen monimutkaisuus, mikä tekee niistä sopivia toteutuksiin, joissa käsittelyresursseja on vähän. Näiden menetelmien suurimpia haittoja on se, että taustakohina voi vahingossa aiheuttaa "puheen" tunnistuksen, kun mitään "puhetta" ei esiinny tosiasiallisesti. Vaihtoehtoisesti esiintyvää "puhetta ei välttämättä tunnisteta, koska se on epäselvää ja vaikeasti tunnistettavaa taustakohinan takia.

Jotkin puheaktiviteetin tunnistamisen menetelmät on tarkoitettu kohinalliseen autoympäristöön ja ne perustuvat puhesignaalin adaptiiviseen suodatukseen. Tämä vähentää ko-hinasisällön signaalista ennen lopullista päätöstä. Taajuus-spektri ja kohinataso voi vaihdella, koska menetelmää käyte tään eri puhujien osalta ja erilaisissa ympäristöissä. Näin ollen tulosuodatin ja kynnysarvot ovat sovitettavia, jotta pysyttäisiin näiden vaihtelujen mukana.

Esimerkkejä näistä menetelmistä on annettu GSM:n teknisissä määrittelyissä 06.42 "Ääniaktiviteetin tunnistin (VAD) vastaavasti puolen nopeuden, täyden nopeuden ja korotetun täyden nopeuden puheliikennekanaville". Toinen tällainen menetelmä on "Multiboundary Voice Activity Detection Algorithm" jota on esitetty ITU G.729:n liitteessä B. Nämä menetelmät on tarkkoja kohinallisessa ympäristössä, mutta ovat huomattavan monimutkaisia toteuttaa.

Kaikki nämä menetelmät vaativat puhesignaalin tulona. Jotkin sovellukset, joissa käytetään puheen pakkauksenpurkumenetel-miä, vaativat, että puheen tunnistus suoritetaan puheen pak-kauksenpurkuprosessin aikana.

Eurooppapatenttihakemus Nro EP-A-0785419, jossa keksijöinä ovat Benyassine ym., on tarkoitettu ääniaktiviteetin tunnistuksen menetelmäksi, joka sisältää seuraavat vaiheet: (i) selvitetään ennalta määrätty joukko parametreja tulevasta puhesignaalista kunkin kehyksen osalta ja (ii) tehdään tulevan puhesignaalin kehyksen ääntä koskeva päätös jokaisen kehyksen osalta ennalta määrätystä joukosta parametreja selvitettyjen eromittojen joukon mukaisesti.

Matkapuhelinjärjestelmien VAD:tä esiohjataan sen varmistamiseksi, että kun osapuoli puhuu, radiojärjestelmä - mukaan lukien puhekoodekki ja RF-piiri jne. - on aktiivinen kuljettamaan tämän puheen toiselle osapuolelle taustakohinan ja muiden heikkoustilanteiden vallitessa. Tämä aiheuttaa kuitenkin datanlähetyksen silloin, kun osapuoli ei puhu. Tämän hintana on hieman lyhentynyt akunkesto ja hieman suurentunut häiriö saman taajuuskanavan käyttäjille järjestelmän toisissa soluissa. Nämä ovat olennaisesti tärkeysjärjestyksessä toisen (tai korkeamman) luokan vaikutuksia. Näissä järjestelmissä ei ole konseptia sen osalta, että käytettävissä on rajallinen resurssi kaksisuuntaista puhelua varten. On täysin mahdollista ja johdonmukaista, että yläsuuntainen linkki ja alasuuntainen linkki, jotka käyttävät tavallisesti eri kantoaaltoa, käyttävät samanaikaisesti täyttä kaistanleveyttä. Tämän keksinnön alalla tiedetään, että jotkin ääniaktivitee-tin tunnistimet tai äänen päälle tulon tunnistimet (VAD/VOD) yrittävät käyttää puheen ominaisuuksia, kuten sen harmonisia koskevaa rakennetta (esimerkiksi autokorreloinnin avulla) erottaakseen ääntä sisältävän puheen. Kohinassa tämä raken-neindikaattorit voivat kuitenkin epäonnistua, joko puheen rakenteen hajoamisen takia tai johtuen rakenteen jäämisestä kohinan sekaan. Tässä voi olla kyse esimerkiksi moottorin, renkaiden tai ilmastointilaitteen kohinasta auton sisässä. Nämä menetelmät ovat lisäksi huonoja tunnistamaan soinnitonta puhetta.

Vaihtoehtona on yksinkertaisesti se, että käytetään kehyksen energiatasoa puheen tunnistamiseksi. Tämä riittää sellaisen puheen osalta, joka tapahtuu hyvissä signaali-kohina-suhteen (SNR) olosuhteissa, joissa mielivaltainen kohinatason ylittävä kynnysarvo voidaan asettaa puhetta merkitseväksi. Tämä menetelmä ei kuitenkaan toimi tätä realistisemmissa kohina-olosuhteissa .

Normalisoimattomien tietokantojen eli todellisuuden sovellusten kohdalla on todennäköistä, että kohinatasot voivat olla yhdessä esimerkkijoukossa suuremmat kuin puhetasot toisessa, ja tämä tekee kynnysarvon asettamisen mahdottomaksi. Perinteinen menetelmä selvitä tästä on ottaa keskiarvo ensimmäisestä 100 ms.sta tai suurin piirtein sellaisesta ajasta ääni-ilmaisua käyttäen oletuksena sitä, että tämä edustaa kohinaa, ja luodaan tätä tapausta varten oma kynnysarvo. Taaskaan tämä ei riitä tasaisena pysymättömälle kohinalle, missä kohina voi poiketa äkillisesti alkuarviosta silloin, kun kohinalla on suuri varianssi tai kun muutamat ensimmäiset kehykset sisältävät tosiasiallisesti puhetta eivät oletuksena olevaa kohinaa.

Siksi on olemassa tarve parannetusta, kohinaympäristöihin tarkoitetusta ääniaktiviteetin tunnistimesta ja hyväksyjästä, jolla saadaan lievennetyksi edellä mainittuja haittapuolia .

Keksinnön yhteenveto

Esillä olevan keksinnön ensimmäisen puolen mukaisesti saadaan patenttivaatimuksessa 1 esitetyn kaltainen viestintälaite.

Esillä olevan keksinnön toisen puolen mukaisesti saadaan patenttivaatimuksessa 11 esitetyn kaltainen menetelmä viestintälaitteeseen tulevan puhesignaalin tunnistamiseksi.

Esillä olevan keksinnön kolmannen puolen mukaisesti saadaan patenttivaatimuksessa 14 esitetyn kaltainen menetelmä sen päättämiseksi, onko viestintälaitteeseen tuleva signaali puhetta vai kohinaa.

Epäitsenäisissä patenttivaatimuksissa on esitetty esillä olevan keksinnön muita puolia.

Yhteenvetona voidaan lausua, että esillä olevan keksinnön tavoitteena on ratkaista tapaus, jossa on kyse mielivaltaisesta amplitudista ja muuttuvasta kohinasta, käyttämällä energiakiihtyvyysmittausta ensisijaisesti energian amplitudin mittauksen sijasta puheen olemassa olon tai puuttumisen merkkinä.

Kuvioiden lyhyt selostus

Esillä olevan keksinnön esimerkinomaisia suoritusmuotoja kuvataan nyt viitaten oheistettuihin kuvioihin, joista: kuvio 1 esittää lohkokaavion viestintälaitteesta, joka on sovitettu suorittamaan ääniaktiviteetin tunnistus ja hyväksyntä esillä olevan keksinnön edullisen suoritusmuodon mukaisesti, kuvio 2 esittää vuokaavion energiakiihtyvyyteen perustuvasta ääniaktiviteetin tunnistuksesta kohinallisia ympäristöjä varten esillä olevan keksinnön edullisen suoritusmuodon mukaisesti, kuvio 3 esittää vuokaavion energiakiihtyvyyteen perustuvasta ääniaktiviteetin tunnistuksesta kohinallisia ympäristöjä varten esillä olevan keksinnön edullisen suoritusmuodon mukaisesti ja kuvio 4 esittää puskurointitoiminnan esillä olevan keksinnön edullisen suoritusmuodon mukaisesti.

Edullisten suoritusmuotojen kuvaus

Puheäänellä on verrattain suuri energiakiihtyvyysarvo, koska sen alkaminen riippuu aktivoinnista äänihuulissa, jotka joko värähtelevät tai ovat paikallaan. Vastaavasti soinnittomissa aluissa (esim. plosiivit) on myös suuri energiakiihtyvyys.

Keksijät ovat havainneet, että edustavassa alueessa, jossa äänen olemassaolo korostuu, kuten kapeakaistainen tehospektri eli Mel-spektri, syntyvä energiakiihtyvyys on huomattavasti suurempi kuin muuttumattomana pysyvä kohina. Ainoat merkittävät poikkeukset ovat impulsiiviset meluäänet (esimerkiksi käsien taputus). Täten, esillä olevan keksinnön edullisen suoritusmuodon mukaisesti, keksijät ovat arvioineet, että nämäkin äänet voidaan lisäksi erottaa keskittymällä energiaan taajuusalueella, joka sisältää todennäköisesti ihmisäänisignaalin perus-sävelkorkeuden. Esillä olevan keksinnön keksijät esittävät erityisesti, että käytetään puheen strukturoimatonta ominai suutta, nimittäin energiakiihtyvyyttä (tai jonkin mitan, joka heijastelee puheen tai sen komponenttien energiaa, kiihtyvyyttä) .

Keksinnöllisen konseptin edullinen sovellus on erityisesti hajautettu puheen tunnistus (DSR, Distributed Speech Recognition), jonka standardin on nykyään määritellyt ETSI (European Telecommunications Standards Institute - "Speech Processing, Transmission and Quality aspects (STQ); Distributed speech recognition; Front-end feature extraction algorithm; Compression algorithm", ETSI ES 201 108 VI.1.2 (200-2004), huhtikuu 2000.

Viitataan nyt kuvioon 1, jossa on esitetty lohkokaavio au-diotilaajalaitteesta 100, joka on sovitettu tukemaan esillä olevan keksinnön edullisten suoritusmuotojen keksinnöllistä konseptia.

Esillä olevan keksinnön edullista suoritusmuotoa kuvataan käsitellen langatonta audioviestintälaitetta, esimerkiksi sellaista, joka pystyy toimimaan tulevaisuuden langattomien matkapuhelinviestintäjärjestelmien 3. sukupolven yhteistoi-mintaprojektin (3GPP, 3rd generation partnership project) standardin mukaisesti ja joka tarjoaa DSR-ominaisuudet. Keksinnön mukaisesti on kuitenkin ajateltavissa, että tässä kuvattua keksinnöllistä konseptia, joka koskee ääniaktivitee-tin tunnistusta ja sen hyväksyntää, voidaan soveltaa yhtä hyvin mihin tahansa elektroniseen laitteeseen, joka reagoi äänisignaaleihin ja joka voi hyötyä parannetusta ääniaktivi-teetin tunnistuspiiristä.

Kuten alalla tiedetään, audiotilaajalaite 100 sisältää antennin 102, joka on kytketty edullisesti duplex-suodattimeen, antennikytkimen eli kiertohaaroittimen 104, joka muodostaa erotuksen vastaanotto- ja lähetysketjun välillä audiotilaajalaitteen 100 sisässä.

Vastaanotinketju sisältää vastaanottimen etupään piirin 106 (joka toimintana on suorittaa vastaanotto, suodatus ja muunto välitaajuuskaistalle tai kantataajuuskaistalle). Etupään piiri 106 on kytketty sarjamuoisesti signaalinkäsittelytoi-mintoon (joka on toteutettu yleensä digitaalisella signaaliprosessorilla (DSP)) 108. Signaalinkäsittelytoiminto 108 suorittaa signaalin demoduloinnin, virheenkorjauksen ja muotoilun. Ennalleen palautettu data signaalinkäsittelytoimin-nosta 108 on kytketty sarjamuotoisesti audiokäsittelytoimin-toon 109, joka muotoilee vastaanotetun signaalin sopivalla tavalla lähetettäväksi audioilmaisimeen/näytölle 111.

Keksinnön erilaisissa suoritusmuodoissa signaalinkäsittely-toiminto 108 ja audiokäsittelytoiminto 109 voi olla järjestetty samaan fyysiseen laitteeseen. Ohjain 114 on konfigu-roitu ohjaamaan informaatiovirtaa ja tilaajalaitteen 100 elinten toiminnallista tilaa.

Mitä tulee lähetysketjuun, se sisältää olennaisin osin au-diotulolaitteen 120, joka on kytketty sarjaan audiokäsitte-lytoiminnon 109, signaalinkäsittelytoiminnon 108, lähetin-/modulointipiirin 122 ja tehovahvistimen 124 kanssa. Prosessori 108, lähetin-/modulointipiiri 122 ja tehovahvistin 124 toimivat vasteellisesti ohjaimeen nähden. Tehovahvistimen lähtö on kytketty duplex-suodattimeen, antennikytkimeen eli kiertohaaroittimeen 104 ja antenniin 102 lopullisen radio-taajuussignaalin lähettämiseksi.

Audiokäsittelytoiminto 109 sisältää erityisesti ääniaktivi-teetin (äänen alkamisen) tunnistuksen (VAD) toiminnon 130, joka on kytketty toiminnallisesti ääniaktiviteettipäätöstoi-mintoon 135. Esillä olevan keksinnön edullisten suoritusmuotojen mukaisesti VAD-toiminto 130 ja ääniaktiviteettipäätös-toiminto 135 on sovitettu antamaan parannettu äänen tunnistuksen ja päätöksenteon mekanismi, jonka toimintaa kuvataan kuvioihin 2 ja 3 viitaten. On huomattava, että ääniaktivi-teetin tunnistustoiminto 130 sisältää kehys kehykseltä -tunnistusvaiheen, joka koostuu kolmesta mittauksesta: Kolmen taajuusosa-alueen mittauksiin kuuluvat: (i) koko spektri (ii) spektrin osakaistat ja (iii) spektrin varianssi. Ääniaktiviteettipäätöstoiminto 135 suorittaa päätöksen sitten perustuen puskuroituihin mittauksiin, jotka analysoidaan niiden puhetodennäköisyyden osalta. Lopullinen päätös pää-tösasteesta kohdistetaan takautuvasti varhaisempaan kehykseen puskurissa.

Esillä olevan keksinnön edullisessa suoritusmuodossa ajas-tin/laskuri 118 on myös sovitettu suorittamaan ajoitustoi-minnot kuvioiden 2 ja 3 tunnistus- ja päätöksentekoprosessissa.

Signaaliprosessoritoiminto 108, audiokäsittelytoiminto 109, VAD-toiminto 130 ja ääniaktiviteettipäätöstoiminto 135 voi olla toteutettu erillisinä, toiminnallisesti kytkettyinä kä-sittelyeliminä. Vaihtoehtoisesti yhtä tai useampaa prosessoria voidaan käyttää toteuttamaan yksi tai useampi vastaavista käsittelytoiminnoista. Vielä yhdessä vaihtoehtoisessa suoritusmuodossa edellä mainitut toiminnot voi olla toteutettu laitteisto-, ohjelmisto- ja kiinto-ohjelmistoelimien sekakokoonpanolla, käyttäen sovelluskohtaisia integroituja piiriä (ASIC) ja/tai prosessoreja, esimerkiksi digitaalisia signaaliprosessoreja (DSP).

Tietenkin eri komponentit audiotilaajalaitteen 100 sisässä voi olla toteutettu erilliskomponenttien tai integroitujen komponenttien muodossa niin, että lopullinen rakenne on vain mielivaltainen valinta. Tämän lisäksi on olemassa lukuisia menetelmiä, joilla voidaan saada energiakiihtyvyystieto käytettäväksi esillä olevan keksinnön edullisessa suoritusmuodossa. (i) Teoreettisesti ideaalinen menetelmä on kirjaimellisesti kaksoisdifferentioida energiataso ilmaisun peräkkäisisten kehyksten suhteen, kuten on nähtävissä aiemmin julkaistusta patenttihakemuksesta US 6009391. Tämän ratkaisumallin haittana on se, että se on omiaan aiheuttamaan viiveitä, koska analyysissä on analysoitava joukko kehyksiä kehyksen kummaltakin puolelta. (ii) Energiakiihtyvyyden nollaviive-estimointi voidaan saavuttaa vertaamalla lyhyen ajan keskiarvon suhdetta hetkelliseen arvoon, esimerkiksi: käyttämällä kehyskeskiarvoa:

[1] tai käyttämällä liukuvaa keskiarvoa

[2]

Kummassakin tapauksessa menetelmä antaa arvon, jota voidaan tulkita seuraavasti: heikkenevyys < 1 < kiihtyvyys. Näin voidaan löytää kokemusperäisiä arvoja termille A ja nimittäjän pituus, joka erottaa parhaiten puheen kohinasta.

Esillä olevan keksinnön keksijät ovat havainneet, että edullinen optimaalinen ratkaisu on löytää nimittäjä, joka pystyy jäljittämään muuttuvaa kohinaa nopeasti, mutta joka on liian pitkä pysymään alkavan äänen perässä. Ehdotettu arvosekvens-si liukuvalle keskiarvolle on a=0,2m b=0,8*a, c=0,8*b jne., mikä voidaan ilmaista yksinkertaisesti rekursiolla: dt = 0,2xt+0, 8dt-i [3]

Sitten: A = xt/dt [4]

Edullisena pidetty VAD ja parametrien alustusjärjestelmä tunnistusasteessa on esitetty koosteena kuvion 2 vuokaaviossa. Ei-muuttumattomana pysyvässä kohinassa pitkän ajan ener-giakynnykset eivät ole luotettavia puheen indikaattoreita. Vastaavasti suuren kohinan oloissa puheen rakenteeseen (esimerkiksi harmonisiin) ei voida täysin luottaa indikaattorina, koska ne voivat olla kohinan sotkemia tai rakenteellinen kohina voi sekoittaa tunnistimen. Edullisena pidetty ääniak-tiviteetin tunnistin käyttää täten puheen kohinan sietävää ominaispiirrettä, nimittäin energiakiihtyvyyttä äänen alku-hetkellä.

Viitataan nyt kuvioon 2, jossa on esitetty vuokaavio 200 edullisena pidetystä tunnistusprosessista. Kuten edellä on ilmoitettu, prosessi sisältää kehys kehykseltä -analyysin. Edullisena pidetty VAD-mekanismi koskee mittausmekanismia "koko spektri". Aluksi arvioidaan kehyslaskuri sen määrittämiseksi, onko se pienempi kuin "N", joka määrittelee puskuroitujen kehysten lukumäärän, kuten on esitetty vaiheessa 205. Esimerkkinä edullisesta suoritusmuodosta N asetetaan arvoon 15 sillä oletuksella, että järjestelmässä kukin kehys kestää 10 ms. Jos kehyslaskuri on pienempi kuin "N" vaiheessa 205, tällöin päivitetään liukuva keskiarvo alun kiihty-vyystestistä, kuten on esitetty vaiheessa 210. Jos kehyslaskuri ei ole pienempi kuin "N" vaiheessa 205, tällöin vaihe 210 jätetään väliin.

Sitten tehdään määritys, onko energiakiihtyvyysmittaus yhden tai useamman määritellyn marginaalin sisässä, kuten on esitetty vaiheessa 235. Jos energiakiihtyvyysmittaus on yhden tai useamman määritellyn marginaalin sisässä vaiheessa 235, liukuva keskiarvo päivitetään myöhempien energiakiihtyvyys-testien tuloksilla, kuten vaiheessa 240. Jos energiakiihty-vyysmittaus ei ole yhden tai useamman määritellyn marginaalin sisässä vaiheessa 235, vaihe 240 jätetään väliin.

Sitten tehdään määritys sen arvioimiseksi, onko energiakiih-tyvyysmittaus suurempi kuin määritelty kynnysarvo, kuten on esitetty vaiheessa 260. Jos energiakiihtyvyysmittaus on suurempi kuin määritelty kynnysarvo vaiheessa 260, tällöin kehys oletetaan puhekehykseksi, kuten vaiheessa 265. Jos energiakiihtyvyysmittaus ei ole suurempi kuin määritelty kynnysarvo vaiheessa 260, tällöin kehys oletetaan kohinakehyk-seksi, kuten vaiheessa 270.

Kehyslaskuria kasvatetaan siten, kuten vaiheessa 275, ja prosessi toistuu vaiheesta 205.

Parannuksena tähän prosessiin, koko spektriin mittausprosessin sijasta tai sen lisäksi voidaan suorittaa osa-alueen mittausprosessi, joka on esitetty valinnaisissa vaiheissa 215 ja 245. Erityiseksi spektrin osa-alueeksi valitaan sellainen spektrin osa-alue, joka sisältää todennäköisimmin perus sävel korkeuden .

Osa-alueprosessissa heti, kun alun kiihtyvyystestin liukuva keskiarvo on päivitetty vaiheessa 210 koko spektrin mittauksessa, tehdään päätös tarkastaa, onko energiakiihtyvyysmittaus suurempi kuin kynnysarvo, kuten on esitetty vaiheessa 220. Jos energiakiihtyvyysmittaus on suurempi kuin kynnysarvo vaiheessa 220, muiden parametrien alustusprosessi keskeytetään, kuten on esitetty vaiheessa 225. Jos energiakiihty- vyysmittaus ei ole suurempi kuin kynnysarvo vaiheessa 220, muiden parametrien alustus päivitetään, kuten vaiheessa 230. Prosessi palaa sitten esitetyn mukaisesti vaiheeseen 235.

Sitten tehdään vielä yksi edullisena pidetty määritys sen jälkeen kun on tehty määritys sen arvioimiseksi, onko ener-gianiihtyvyysmittaus yhden tai useamman määritellyn marginaalin sisässä vaiheessa 235. Heikkenemisarvo arvioidaan sen määrittämiseksi, onko se tilassa "suuri" vaiheessa 250, ja jos on, energian kiihtyvyyden testin liukuvaa keskiarvoa päivitetään hitaasti, kuten on esitetty vaiheessa 255. Prosessi palaa sitten kokospektrimenetelmään vaiheessa 260. Tällä tavalla osakaistan tunnistimen yleensä suuret signaa-li-kohina-suhteet (SNR) tekevät tästä tunnistimesta hyvin kohinaa sietävän. Se on kuitenkin haavoittuva haitallisille mikrofoni- ja kaiutinmuutoksille sekä kaistarajatulle kohinalle. Täten mittauksiin ei saisi luottaa kaikissa olosuhteissa. Sen takia esillä olevan keksinnön edullinen suoritusmuoto sisältää osakaistan tunnistimen koko spektrin mittauksen lisätueksi.

Lisämittausprosessi suoritetaan edullisesti käyttäen arvojen varianssin "kiihtyvyyttä" esimerkiksi kunkin kehyksen spektrin alemman puolikkaan sisässä. Varianssin mitta ilmaisee rakenteen spektrin alemmassa puolikkaassa, mikä tekee siitä erittäin herkän soinnilliselle puheelle. Varianssimittaus noudattaa osakaistaprosessin menettelytapaa siten, että valitaan tietyksi osakaistaksi spektrin alapuolikas. Tämä va-rianssimittaus täydentää edelleen koko spektrin menettelyä, joka pystyy paremmin tunnistamaan soinnittoman ja plosiivi-sen osan.

Kaikki nämä kolme mittausta ottavat raakatulonsa kaksois-Wiener-suodattimen ensimmäisen asteen muodostamien suodatin-vahvistusten spektriesityksestä, kuten on esitetty yhdysvaltalaisessa patenttihakemuksessa nro. US 09/427497, jossa hakijana on Motorola INc. ja keksijänä Yan-Ming Chen. Kuten edellä on kuvattu, kukin mittaus käyttää tämän datan eri tarkastelupuolta.

Kokospektritunnistin käyttää erityisesti tunnettua kaksois-Wiener-suodattimen ensimmäisen asteen muodostamien suodatin-vahvistusten Mel-suodatettua spektriesitystä. Yksi tuloarvo saadaan neliöimällä Mel-suodatinpankkien summa.

Kokospektritunnistin käyttää keksinnön edullisessa suoritusmuodossa seuraavaa prosessia kaikille kehyksille, kuten on kuvattu seuraavassa:

Vaihe yksi alustaa kohinaestimaatin Jäljittäjä seuraavasti:

Jos Kehys<15 JA Kiihtyvyys<2,5 niin Jäijittäjä=MAX(Jäijittäjä, Tulo).

Energiakiihtyvyysmitta estää Jäljittäjän päivityksen, jos puhe esiintyy 15 kehyksen alukeaikana.

Vaihe 2 päivittää Jäljittäjän arvon, jos ajankohtainen tulo on samanlainen kuin kohinaestimaatti, seuraavasti:

Jos Tulo<Jäjittäjä*YläRaja ja Tulo>Jäjittäj ä*AlaRaj a niin Jäjittäjä=a*Jäijittäjä+(1-a)*Tulo

Vaihe kolme antaa varmistetun mekanismin niille tapauksille, joissa ensimmäisten muutaman kehyksen aikana on puhetta tai epätyypillisen suuri kohinasisältö. Tämä saa aikaan seurauksena olevan virheellisen suuren kohinaestimaatin häviämisen. Vaihe kolme toimii edullisesti seuraavasti:

Jos Tulo<Jäijittäjä*Pohjataso, niin Jäi j ittäj ä=£>* Jäi j ittäj ä+ (1 -h) *Tulo

Vaihe 4 palauttaa puheen määritykseen "tosi" , jos ajankohtainen tulo on enemmän kuin 165% suurempi kuin Jäljittäjä, seuraavasti:

Jos Tulo>Jäjittäjä*Kynnysarvo niin lähtö TOSI muutoin EPÄTOSI.

Hetkellisen tulon suhde lyhyen ajan Jäljittäjän keskiarvoon on peräkkäisten tulojen energiakiihtyvyyden funktio.

Jolloin edellä olevassa: a=0,8 ja jb=0,97

YläRaja on 150 % ja AlaRaja 75 %

Pohjataso on 50 % ja Kynnysarvo on 165 %.

On huomattava, että päivitystä ei tapahdu, jos arvo on suurempi kuin YläRaja tai AlaRajan ja Pohjatason välillä. Lisäksi energiakiihtyvyystulo, sellaisena kuin se on ilmoitettu edellä, voidaan laskea joko: peräkkäisten tulojen kaksoisdifferentioinnilla tai estimoinnin avulla jäljittämällä tulojen kahden liukuvan keskiarvon suhde.

On huomattava, että nopean ja hitaasti asettuvan liukuvan keskiarvon suhde heijastelee peräkkäisten tulojen energia-kiihtyvyyttä .

Esimerkin vuoksi mainittakoon, että vaikutusnopeudet edellä käytetyille keskiarvoille olivat: (i) O*keskiarvo + l*tulo, ja (ii) ((Kehys-1)^keskiarvo + l*tulo)/kehys, mikä tekee energiakiihtyvyysmitasta erittäin herkän yli ensimmäisten viidentoista kehyksen.

Osakaistan tunnistin käyttää edullisesti "kokospektri"-mittaukseen johdettua toisen, kolmannen ja neljännen Mel-suodatinpankin keskiarvoa. Tunnistin soveltaa sitten seuraa-vaa prosessia kaikille kehyksille seuraavassa kuvatulla tavalla : (i) Tulo=p*AjankohtainenTulo+(1-p)*EdellinenTulo (ii) Jos Kehys<15, niin Jäijittäjä=MAX(Jäijittäjä, Tulo) (iii) Jos Tulo<Jäijittäjä*YläRaja ja Tulo>Jäjittäj ä*AlaRaj a, niin Jäijittäjä=a*Jäijittäjä+(1-a)*Tulo (iv) Jos Tulo<Jäijittäjä*Pohjataso, niin Jäi j ittäj ä=£>* Jäi j ittäj ä+ (1-A) *Tulo (v) Jos Tulo>Jäljittäjä*Kynnysarvo,

niin lähtö TOSI muutoin lähtö EPÄTOSI

Jolloin osa-aluemittauksessa p= 0,75

Kaikki muut parametrit ovat samat kuin kokospektrimittauk-sessa, paitsi Kynnysarvo, joka on yhtä kuin 3,25.

Spektrivarianssimittauksen osalta tulona käytetään varianssia arvoista, jotka käsittävät kunkin kehyksen osalta vahvistuksen kapeakaistaisen spektriesityksen alemman taajuus-puoliskon. Tunnistin käyttää sitten tarkalleen samaa prosessia kuin kokospektrimittauksessa.

Varianssi lasketaan seuraavasti:

[5] jossa N=FFT pituus/4, ja wi ovat vahvistuksen kapeakaistaisen spektriesityksen arvot.

Esillä olevan keksinnön edullisen suoritusmuodon mukaisesti edellä yksityiskohtaisesti kuvatut kolme mittaa esitetään VAD-päätöksentekoalgoritmille, kuten on esitetty kuvion 3 vuokaaviossa. Peräkkäiset tulot viedään puskuriin, mikä antaa kokonaistilanteellisen analyysin. Tämä saa aikaan kehys-viiveen, joka on yhtä kuin puskurin pituus miinus yksi kehys .

Viitataan nyt kuvioon 3, jossa on esitetty vuokaavio 300 kiihtyvyyspohjaisesta ääniaktiviteetin hyväksyntäprosessista kohinallisia ympäristöjä varten, esillä olevan keksinnön edullisen suoritusmuodon mukaisesti.

Puskurin jossa on N=1 kehystä osalta viimeisin tosi/epätosi-puhetulo tallennetaan paikkaan N datapuskurissa, kuten on esitetty vaiheessa 305. Päätöksentekologiikka soveltaa joukkoa vaiheita ja edullisesti kutakin seuraavista vaiheista:

Vaihe 1: VN = Mitta 1 TAI Mitta 2 TAI Mitta 3;

Tulo VN on määritelty arvoksi "tosi" (T), jos jokin kolmesta mittauksesta antaa arvon tosi puheen merkiksi.

Vaihe 2:

[6]

Algoritmi etsii pisimmän yhtenäisen sekvenssin arvoja "tosi" puskurista, kuten vaiheessa 310. Täten esimerkiksi sekvens- sin " T T E T T T E" osalta M olisi yhtä kuin "3".

Vaihe 3:

Jos M>=Sp JA. T<LS, T=LS, jossa SP on yhtä kuin ensimmäinen kynnysarvo vaiheessa 315. Jos pisin sekvenssin on tosi (T), puheen arvo on yhtä kuin tai suurempi kuin ensimmäinen kynnys vaiheessa 315, so. SP= 3 tai useampia peräkkäisiä arvoja "tosi", puskurin arvioidaan sisältävän "mahdollisen" puheen. Lyhytaikaislaskuri T, sanotaan vaikka Ls= 5 kehystä (Aika_l) aktivoidaan, vaiheessa 325, jos se ei ole jo voimassa (tai ylittynyt) vaiheessa 320 tehdystä määrityksestä. vaihe 4:

Jos M>=Sl JA F>Fs, T=Lm muutoin T=Ll, jossa SL on yhtä kuin toinen kynnysarvo vaiheessa 330. Jos on SL=4 tai useampia peräkkäisiä arvoja "tosi", puskurin arvioidaan taaskin sisältävä "todennäköisen" puheen. Keskipitkän välin ajastin T, sanotaan vaikka Lm=22 kehystä aktivoidaan vaiheessa 340, jos ajankohtainen kehys F on alustavan aluketurvajakson Fs ulkopuolella, kuten määritetään vaiheessa 335. Muussa tapauksessa varmistavaa pitkän ajan ajastinta T, sanotaan vaikkapa Ll=40 kehystä, käytetään vaiheessa 345. Tällaista järjestelyä käytetään, koska puheen aikainen esiintyminen ilmaisussa voi aiheuttaa sen, että VAD:n ko-hinaestimaatti on liian suuri.

Vaihe 5:

Jos M<Sp JA T>0, T-

Jos prosessi määrittää, että on vähemmän kuin SP=3 peräkkäistä arvoa "tosi", vaiheessa 350, ja ajastin on suurempi kuin nolla vaiheessa 355, tällöin ajastimen arvoa pienennetään vaiheessa 360.

Vaihe 6:

Jos T>0, lähtö TOSI, muutoin lähtö EPÄTOSI

Jos ajastin on suurempi kuin nolla vaiheessa 365, prosessi antaa lähtönä puhepäätöksen "tosi", kuten on esitetty vaiheessa 370. Vaihtoehtoisesti, jos ajastin ei ole suurempi kuin nolla vaiheessa 365, prosessi antaa lähtönä päätöksen "kohina", kuten on esitetty vaiheessa 375.

Vaihe 7:

Kehys++, siirrä puskuria vasemmalle ja paluu vaiheeseen 1.

Valmistelemiseksi seuraavaa kehystä varten vaiheessa 380 puskuria siirretään vasemmalle tilan saamiseksi seuraavalle tulolle, kuten on esitetty kuviossa 4. Lähtöä puhepäätös sovelletaan kehykseen, joka poistetaan puskurista. Sitten prosessi toistuu vaiheesta 305 puskuriin tulevan seuraavalle tosi/epätosi-tulon osalta.

Ajateltavissa on, että voidaan toteuttaa vaihtoehtoinen mekanismi puhe- tai kohinapäätöksen tekemiseksi edellä kuvatun energiakiihtyvyysprosessin perusteella. Päätöksentekomekanismi ei esimerkiksi välttämättä perustu yhteen tai useampaan ajastimeen, ja päätös voidaan tehdä puhtaasti sen mukaan, ylittyykö yksi tai useampi energiakiihtyvyyskynnysar-vo.

Viitataan nyt kuvioon 4, jossa on esitetty tarkemmin esimerkki puskurointitoiminnasta 400 esillä olevan keksinnön edullisen suoritusmuodon mukaisesti. Olettakaamme, että ensimmäinen kynnys on asetettu kolmen peräkkäisen "tosi"-arvoon. Olettakaamme, että ajanhetkenä "t" 410 vain ajankohtainen tulo (kehys #7) 425 ja edellinen tulo (kehys #6) 420 olivat "tosia". Sen mukaisesti, kun puskuria siirretään, ensimmäinen kehys (kehys #1) 415 merkataan epätodeksi.

Ajanhetkenä "t+1" 430 kolmas "tosi" tulo (kehys #8) 450 on otettu vastaan kahden aiemman "tosi" tulon 440, 445 jatkoksi. Siksi, kun puskuria siirretään, seuraava lähtökehys (kehys #2) 435 merkitään "todeksi".

On huomattava, että edellä olevassa päätöksentekoprosessissa ainoat rajoitukset ovat: (i) Aika_l < Aika_2 < Aika 3 ja (ii) Kynnysarvo 1 < Kynnysarvo 2.

Kun oletetaan, että vain nämä kolme tuloa (kehys #6, kehys #t ja kehys #8) ovat "tosia", täysi lähtösekvenssi on: ETTTTTTTT T T Τ Τ Τ Τ Τ Τ E E E E Ε 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 jossa kehykset #2-#5 ilmoittavat arvon „tosi" puskurin alu-ketoiminnon takia. Kehykset #6-#8 ilmoittavat arvon "tosi", koska näissä kohdissa oli alun perin puhetulolla arvo "tosi". Kehykset #9-#12 ilmoittavat arvon "tosi", puskurin lo-puketoiminnon takia. Kehykset #13-#18 ilmoittavat arvon "tosi" vasteena käytettyyn ajastimen kestoaikaan. Heti kun ilmaisun kaikki kehykset on otettu tulona, puskuri siirtää "epätosi" kirjauksia (kehykset #19-#LM) kunnes tyhjenee.

Keksinnössä on ajateltavissa, että puskurin pituutta ja kes-toaika-ajastimia voidaan säätää dynaamisesti sopimaan audio-viestintälaitteen tarpeisiin. Näin ollen edullinen suoritusmuoto, jossa käytetään puskuripituutena "N" on 8 ja kestoai-ka-ajastimen arvona viittä kehystä, on vain esimerkin vuoksi. On kuitenkin huomattava, että puskuripituus "N" on aina päätettävä niin, että N>=SL.

Vaikka keksinnön käytöllä VAD:ssä on omat oikeutuksensa, keksinnössä on ajateltavissa, että kuvion 2 menetelmävai-heissa hankittua energiakiihtyvyysmittaa voidaan käyttää muiden parametrien alustuksen hyväksynnässä. Esimerkiksi spektrisupistusmenettely edellyttää alkuestimaattia kohinalle puheen ensimmäisten kymmenen kehyksen (tyypillisesti 100 ms) perusteella. Siinäkin tapauksessa, että kohina on muuttumatonta, voi sattua lukuisia tapahtumia, jotka tekevät al-kuestimaatista epäkelvon. Esimerkkejä tällaisista tapahtumista ovat: (a) Signaalin nousu:

Erilaisista mahdollisista syistä johtuen tallennuksen aivan alku voi "nousta" täydelle voimakkuudelle arviointijakson aikana. Syinä tällaiseen täyteen nousuun voivat olla: puskurin täyttyminen digitaalisissa järjestelmissä, kapasitanssi tai nauhapään kosketus analogisissa järjestelmissä. Tällaisten tapahtumien vaikutus voi tehdä estimaatista epäkelvolli-sen. Energiakiihtyvyysmittaa voidaan täten käyttää tunnistamaan tällainen nousu ja estämään virhe. (b) Piikit alkuperäisessä signaalissa

Yleisesti "piikki" esiintyy, kun tilaajaradiolaitteen paina kun haluat puhua -nappi (PPT, press-to-talk) on täysin ulos ponnahtaneena, jolloin sähköinen kosketus edeltää hiukan kytkimen selkään iskeytyvää nappia. Energiakiihtyvyysmittaa, sellaisena kuin se on kuvattu edellä, voidaan käyttää lykkäämään kuvion 2 vaiheessa 225 esitetyn kaltaista estimoin-tiprosessia, kun tällainen tapahtuma esiintyy. (c) Puhetta alkusignaalissa:

Toinen yleinen tapahtuma erityisesti PTT-järjestelmissä on se, että käyttäjä aloittaa puhumisen heti, kun painanut PTT-nappia. Tällaisen toimintatavan kanssa sähköinen kosketus syntyy vasta sen jälkeen, kun puhe on aloitettu. Energia-kiihtyvyysmitta pystyy tunnistamaan tämän ja lykkäämään kuvion 2 vaiheessa 225 esitetyn kaltaista kohinaan perustuvaa alustusta tai ohjaamaan käytettäväksi oletusestimaatit.

Yhteenvetona voidaan sanoa, että on kuvattu viestintälaitetta, joka sisältää ääniaktiviteetin tunnistusmekanismin sisältävän audiokäsittely-yksikön. Ääniaktiviteetin tunnistus-mekanismi antaa ilmoituksen energiakiihtyvyydestä signaali-tulossa viestintälaitteeseen ja määrittää, onko mainittu tu-losignaali puhetta vai kohinaa, mainitun ilmoituksen perusteella .

Lisäksi on kuvattu menetelmää viestintälaitteeseen tulevan puhesignaalin tunnistamiseksi. Menetelmä sisältää vaiheina sen, että ilmoitetaan kiihtyvyys tulosignaalissa viestintälaitteeseen; ja määritetään, onko mainittu tulosignaali puhetta vai kohinaa mainitun ilmoitusvaiheen perusteella.

Lisäksi on kuvattu menetelmää sen päättämiseksi, onko viestintälaitteeseen tuleva signaali puhetta vai kohinaa. Menetelmä sisältää vaiheet, joissa päätetään, onko mainittu tulosignaali puhetta vai kohinaa, energiakiihtyvyyden perusteella, käyttäen esimerkiksi tulosignaalien joukon kehyskes-kiarvoa tai liukuvaa keskiarvoa. Täten on ymmärrettävä, että edellä kuvattu kohinallisiin ympäristöihin tarkoitettu energiakiihtyvyyteen perustuva ääniaktiviteetin tunnistin ja hyväksyjä antaa etuina ko-hinasiedon ja nopean vasteen. Koska edullinen suoritusmuoto käyttää energiakiihtyvyydestä riippuvaa mittaa absoluuttisen mitan sijasta, tässä kuvattua keksinnöllistä konseptia voidaan soveltaa millä tahansa voimakkuustasolla tulevaan puheeseen .

Vaikka edellä on kuvattu erityisiä ja edullisena pidettyjä toteutuksia esillä olevan keksinnön suoritusmuodoista, on selvää, että alaan perehtynyt voisi käyttää tämän keksinnöllisen konseptin vaihtoehtoja ja muunnoksia, jotka jäisivät esillä olevan keksinnön piiriin.

On siis kuvattu kohinallisiin ympäristöihin tarkoitettua parannettua ääniaktiviteetin tunnistinta ja hyväksyjää, jossa on vähennetty olennaisesti edellä mainittuja ennestään tunnettuun tekniikkaan liittyviä haittoja.

Claims

1. Viestintälaite (100), joka käsittää ääniaktiviteetin tun nistusmekanismin (130, 135) sisältävän audiokäsittely-yksikön (109), joka viestintälaite (100) on tunnettu siitä, että ääniaktiviteetin tunnistusmekanismi (130, 135) on sovi tettu mittaamaan viestintälaitteeseen (100) tulevan signaalin energiakiihtyvyyden seuraamalla sisäänmenojen nopean ja hitaasti asettuvan liukuvan keskiarvon suhdetta ja määrittämään kehys kehykseltä, onko mainittu tulosignaali puhetta vai kohinaa, mainitun mittauksen perusteella, jolloin jos energiakiihtyvyysmittaus antaa energiakiihtyvyysarvon, joka on suurempi kuin energiakiihtyvyyden kynnysarvo, niin tulokehystä pidetään puhekehyksenä (265).

2. Patenttivaatimuksen 1 mukainen viestintälaite (100), jossa ääniaktiviteetin tunnistusmekanismi sisältää ääniaktiviteetin tunnistustoiminnon (130), joka suorittaa puheen tunnistuksen kehys kehykseltä ääniaktiviteetin tunnistusmekanismiin (130, 135) tulevien signaalien osalta.

3. Patenttivaatimuksen 2 mukainen viestintälaite (100), jossa mainittu kehys kehykseltä -tunnistus koostuu siitä, että suoritetaan energiakiihtyvyysmittaus ääniaktiviteetin tunnistusmekanismiin (130, 135) tulevalle signaalille koskien yhtä tai useampaa seuraavista taajuusosa-alueista: (i) koko spektriä, (ii) spektrin osakaistoja ja (iii) spektrivarianssia.

4. Patenttivaatimuksen 3 mukainen viestintälaite (100), jossa ääniaktiviteetin tunnistusmekanismi sisältää ääniaktivi-teetin päätöksentekotoiminnon (135), joka on kytketty toiminnallisesti ääniaktiviteetin tunnistustoimintoon (130) ja järjestetty päättämään, onko mainittu tulosignaali puhetta, perustuen puskurissa olevan tulosignaalin tulokehysten pus-kurointitoimintaan ja yhteen tai useampaan mainittuun ener-giakiihtyvyysmittaukseen, jolloin ääniaktiviteetin päätök-sentekotoiminto (135) on lisäksi järjestetty nimeämään tosi-tai väärä-indikaatio kullekin puskurissa olevalle puskuroidulle tulokehykselle, jolloin tosi-indikointi nimetään kun yksikin yhdestä tai useammasta mainituista tulokehyksen energiakiihtyvyysmittauksista tuottaa puheindikaation ja jolloin ääniaktiviteetin päätöksentekotoiminto (135) on lisäksi järjestetty määrittelemään, että mainittu puskurissa oleva sisääntulosignaali on puhetta kun kullekin puskurissa olevalle puskuroiduille sisääntulokehyksien sekvenssille nimetyt indikaatiot ovat tosia.

5. Patenttivaatimuksen 1 mukainen viestintälaite (100), jossa ääniaktiviteetin ilmaisumekanismi (135) on järjestetty mittaamaan energiakiihtyvyyttä käyttäen mainittujen tulosig-naalien joukon kehyskeskiarvoa tai liukuvaa keskiarvoa.

6. Minkä tahansa patenttivaatimuksen 1-4 mukainen viestintälaite (100), jossa energiakiihtyvyys arvioidaan seuraamalla kahden tulosignaalin liukuvan keskiarvon suhdetta käyttäen (0*keskiarvo + l*tulo) ja ((Kehys-1)^keskiarvo + l*tulo)/kehys, jossa Kehys vastaa kehyslaskurin arvoa.

7. Patenttivaatimuksen 5 mukainen viestintälaite (100), jossa energiakiihtyvyyden estimaatti käyttäen kehyskeskiarvoa on:

[1]

8. Patenttivaatimuksen 5 tai 6 mukainen viestintälaite (100), jossa energiakiihtyvyyden mittaus on yhden tai useamman määritellyn rajan sisällä, energiakiihtyvyyden estimaatti käyttäen liukuvaa keskiarvoa on:

[2]

9. Patenttivaatimuksen 4 mukainen viestintälaite (100), jossa puskurilla on N:n kehyksen puskuripituus ja peräkkäiset tulokehykset esitetään puskurille ja poistetaan puskurilta ja jolloin kun puskurissa oleva tulokehys määritetään puhe-kehykseksi, päätös siitä, että tulokehys on puhekehys (265) sovelletaan takautuvasti aikaisempaan kehykseen puskurissa.

10. Jonkin patenttivaatimuksen 3, 4 tai 9 viestintälaite (100), jossa jos valitaan tulosignaalin spektrin osa-alue, valinta perustuu siihen osa-alueeseen, joka sisältää äänisignaalin perussävelkorkeuden.

11. Vaatimuksen 1 mukainen viestintälaite (100), jossa ää-niaktiviteetin ilmaisumekanismi on järjestetty mittaamaan energiakiihtyvyyttä signaalisisääntulosta, joka otetaan suo-datinvahvistuksen mel-suodatetusta spektriesityksestä, joka mudostetaan kaksois-Wiener-suodattimen ensimmäisessä asteessa .

12. Menetelmä viestintälaitteeseen tulevan puhesignaalin tunnistamiseksi, joka menetelmä on tunnettu vaiheista, joissa seurataan sisäänmenojen nopean ja hitaasti asettuvan liukuvan keskiarvon suhdetta; ja määritetään (315, 330, 350) kehys kehykseltä, onko mainittu tulosignaali puhetta (370) vai kohinaa (375), mainitun mittausvaiheen perusteella, jolloin jos energiakiihtyvyysmitta-us antaa energiakiihtyvyysarvon, joka on suurempi kuin ener-giakiihtyvyyden kynnysarvo, niin tulokehystä pidetään puhe-kehyksenä (265) .

13. Menetelmä puhesignaalin tunnistamiseksi patenttivaatimuksen 12 mukaisesti, tunnettu edelleen vaiheesta, jossa suoritetaan äänen tunnistus kehys kehykseltä viestintälaitteen tulosignaalien osalta.

14. Menetelmä puhesignaalin tunnistamiseksi patenttivaatimuksen 13 mukaisesti, jossa menetelmässä kehys kehykseltä -tunnistus sisältää vaiheen, jossa: suoritetaan energiankiihtyvyysmittaus mainitulle tulosignaa-lille koskien yhtä tai useampaa seuraavista taajuusosa-alueista: (i) koko spektriä, (ii) spektrin osakaistoja ja (iii) spektrivarianssia.

15. Jonkin vaatimuksen 12-14 mukainen menetelmä puhesignaalin tunnistamiseksi, jossa vaihe energiakiihtyvyyden mittaamiseksi käyttää tulosignaalien joukon kehyskeskiarvoa tai liukuvaa keskiarvoa.

16. Patenttivaatimuksen 12, 13 tai 14 mukainen menetelmä puhesignaalin tunnistamiseksi, jossa energiakiihtyvyys arvioidaan seuraamalla kahden tulosignaalin liukuvan keskiarvon suhdetta käyttäen (O*keskiarvo + l*tulo) ja ((Kehys-l)*keskiarvo + l*tulo)/kehys, jossa Kehys vastaa kehyslasku-rin arvoa.

17. Patenttivaatimuksen 15 mukainen menetelmä puhesignaalin tunnistamiseksi, jossa vaihe energiakiihtyvyyden mittaamiseksi sisältää energiakiihtyvyyden estimoinnin käyttäen kehyskeskiarvoa laskemalla:

[1]

18. Patenttivaatimuksen 15 tai 16 mukainen menetelmä puhesignaalin ilmaisemiseksi, jossa vaihe energiakiihtyvyyden mittaamiseksi sisältää energiakiihtyvyyden estimoinnin käyttäen liukuvaa keskiarvoa, milloin energiakiihtyvyyden mittaus on yhden tai useamman määritellyn rajan sisällä,

[2]

19. Patenttivaatimuksen 12 mukainen menetelmä puhesignaalin tunnistamiseksi, joka lisäksi käsittää, että: sovelletaan mainittua määritystä, että tulokehys on puheke-hys takautuvasti aikaisempaan kehykseen tulosignaalien puskurissa.

20. Patenttivaatimuksen 12 mukainen menetelmä puhesignaalin tunnistamiseksi, jossa määrittelyvaihe lisäksi käsittää, että : puskuroidaan tulosignaalin tulokehyksiä puskurissa; nimetään tosi- tai väärä- indikaattori kuhunkin puskuroituun tulokehykseen puskurissa; nimetään tosi-indikaatio kun energiakiihtyvyysmitta-us tulokehykselle antaa puheindikaation; ja määritetään, että mainittu tulosignaali puskurissa on puhetta kun puskuriin puskuroidun tulokehyksien kunkin sekvenssin nimetyt indikaatiot ovat tosia.

21. Vaatimuksen 12 mukainen menetelmä puhesignaalin tunnistamiseksi, jossa energiakiihtyvyyden mittaus signaalisisään-tulosta käsittää energiakiihtyvyyden mittaamisen signaa-lisisääntulosta, joka otetaan suodatinvahvistuksen mel-suodatetusta spektriesityksestä, joka mudostetaan kaksois-Wiener-suodattimen ensimmäisessä asteessa.