FI124869B - Ääniaktiviteetin tunnistin ja hyväksyjä kohinallisia ympäristöjä varten - Google Patents
Ääniaktiviteetin tunnistin ja hyväksyjä kohinallisia ympäristöjä varten Download PDFInfo
- Publication number
- FI124869B FI124869B FI20041013A FI20041013A FI124869B FI 124869 B FI124869 B FI 124869B FI 20041013 A FI20041013 A FI 20041013A FI 20041013 A FI20041013 A FI 20041013A FI 124869 B FI124869 B FI 124869B
- Authority
- FI
- Finland
- Prior art keywords
- frame
- input
- speech
- energy acceleration
- buffer
- Prior art date
Links
- 230000000694 effects Effects 0.000 title claims description 46
- 230000001133 acceleration Effects 0.000 claims description 67
- 238000000034 method Methods 0.000 claims description 62
- 238000005259 measurement Methods 0.000 claims description 43
- 238000001228 spectrum Methods 0.000 claims description 30
- 238000004891 communication Methods 0.000 claims description 27
- 238000001514 detection method Methods 0.000 claims description 17
- 230000007246 mechanism Effects 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 16
- 230000005236 sound signal Effects 0.000 claims description 4
- 230000003321 amplification Effects 0.000 claims description 3
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims 1
- 230000008569 process Effects 0.000 description 23
- 230000005540 biological transmission Effects 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000003139 buffering effect Effects 0.000 description 2
- 230000006837 decompression Effects 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
- G10L2025/786—Adaptive threshold
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Mobile Radio Communication Systems (AREA)
- Telephone Function (AREA)
Description
Ääniaktiviteetin tunnistin ja hyväksyjä kohinallisia ympäristöjä varten
Keksinnön ala
Keksintö koskee puheen tunnistusta (tunnetaan yleisesti nimellä ääniaktiviteetin tunnistus (VAD)) kohinallisessa ympäristössä. Keksintöä voidaan soveltaa, vaikka ei vain tähän rajattuna, äänisignaalien energiakiihtyvyysmittaukseen puheentunnistus j ärj estelmässä.
Keksinnön tausta
Monet ääniviestintäjärjestelmät kuten GSM- matkapuhelinstandardin järjestelmä (global system for mobile communications) ja TETRA-järjestelmä (TErrestial Trunked RA-dio) yksityisiä matkaviestinradiokäyttäjiä varten, käyttävät puheenkäsittely-yksiköitä puhehahmomallien koodaamiseksi ja dekoodaamiseksi. Tällaisissa ääniviestintäjärjestelmissä pu-hekooderi muuntaa analogisen puhehahmomallin soveltuvaan digitaaliseen muotoon lähettämistä varten. Puhedekooderi muuntaa vastaanotetun digitaalisen puhesignaalin kuultavaksi au-diopuhehahmomalliksi.
Alalla tunnetaan menetelmiä ja laitteistoja ääniaktiviteetin tunnistamiseksi. Ääniaktiviteetin tunnistin (VAD) toimii sillä oletuksella, että puhetta on vain osalla aikaa audiosignaalia. Tämä oletus on tavallisesti oikein, koska audio-signaalisissa on monia aikavälejä, joiden aikana esiintyy vain hiljaisuutta tai taustakohinaa. Ääniaktiviteetin tunnistinta voidaan käyttää moneen tarkoitukseen. Näihin kuuluvat kokonaislähetysaktiviteetin vaimennus lähetysjärjestelmässä, kun puhetta ei esiinny, jolloin säästetään mahdollisesti energiaa ja kanavan kaistanleveyttä. Kun VAD havaitsee, että puheaktiviteetti on palannut, se voi aloittaa lähetysaktiviteetin uudelleen. Ääniaktiviteetin tunnistinta voidaan käyttää myös puheental-lennuslaitteiden kanssa erottamaan puhetta sisältävät audio-osuudet "puheettomista" osuuksista. Puhetta sisältävät osuudet tallennetaan sitten tallennuslaitteeseen ja "puheetto-mat" osuudet hylätään.
Tavanomaiset menetelmät äänen tunnistamiseksi perustuvat ainakin osaksi menetelmiin puhesignaalin tehon tunnistamiseksi ja arvioimiseksi. Estimoitua tehoa verrataan joko vakioon tai sovitettavaan kynnysarvoon päätöksen tekemiseksi siitä, onko signaali puhetta vaiko ei. Näiden menetelmien suurimpia etuja on niiden vähäinen monimutkaisuus, mikä tekee niistä sopivia toteutuksiin, joissa käsittelyresursseja on vähän. Näiden menetelmien suurimpia haittoja on se, että taustakohina voi vahingossa aiheuttaa "puheen" tunnistuksen, kun mitään "puhetta" ei esiinny tosiasiallisesti. Vaihtoehtoisesti esiintyvää "puhetta ei välttämättä tunnisteta, koska se on epäselvää ja vaikeasti tunnistettavaa taustakohinan takia.
Jotkin puheaktiviteetin tunnistamisen menetelmät on tarkoitettu kohinalliseen autoympäristöön ja ne perustuvat puhesignaalin adaptiiviseen suodatukseen. Tämä vähentää ko-hinasisällön signaalista ennen lopullista päätöstä. Taajuus-spektri ja kohinataso voi vaihdella, koska menetelmää käyte tään eri puhujien osalta ja erilaisissa ympäristöissä. Näin ollen tulosuodatin ja kynnysarvot ovat sovitettavia, jotta pysyttäisiin näiden vaihtelujen mukana.
Esimerkkejä näistä menetelmistä on annettu GSM:n teknisissä määrittelyissä 06.42 "Ääniaktiviteetin tunnistin (VAD) vastaavasti puolen nopeuden, täyden nopeuden ja korotetun täyden nopeuden puheliikennekanaville". Toinen tällainen menetelmä on "Multiboundary Voice Activity Detection Algorithm" jota on esitetty ITU G.729:n liitteessä B. Nämä menetelmät on tarkkoja kohinallisessa ympäristössä, mutta ovat huomattavan monimutkaisia toteuttaa.
Kaikki nämä menetelmät vaativat puhesignaalin tulona. Jotkin sovellukset, joissa käytetään puheen pakkauksenpurkumenetel-miä, vaativat, että puheen tunnistus suoritetaan puheen pak-kauksenpurkuprosessin aikana.
Eurooppapatenttihakemus Nro EP-A-0785419, jossa keksijöinä ovat Benyassine ym., on tarkoitettu ääniaktiviteetin tunnistuksen menetelmäksi, joka sisältää seuraavat vaiheet: (i) selvitetään ennalta määrätty joukko parametreja tulevasta puhesignaalista kunkin kehyksen osalta ja (ii) tehdään tulevan puhesignaalin kehyksen ääntä koskeva päätös jokaisen kehyksen osalta ennalta määrätystä joukosta parametreja selvitettyjen eromittojen joukon mukaisesti.
Matkapuhelinjärjestelmien VAD:tä esiohjataan sen varmistamiseksi, että kun osapuoli puhuu, radiojärjestelmä - mukaan lukien puhekoodekki ja RF-piiri jne. - on aktiivinen kuljettamaan tämän puheen toiselle osapuolelle taustakohinan ja muiden heikkoustilanteiden vallitessa. Tämä aiheuttaa kuitenkin datanlähetyksen silloin, kun osapuoli ei puhu. Tämän hintana on hieman lyhentynyt akunkesto ja hieman suurentunut häiriö saman taajuuskanavan käyttäjille järjestelmän toisissa soluissa. Nämä ovat olennaisesti tärkeysjärjestyksessä toisen (tai korkeamman) luokan vaikutuksia. Näissä järjestelmissä ei ole konseptia sen osalta, että käytettävissä on rajallinen resurssi kaksisuuntaista puhelua varten. On täysin mahdollista ja johdonmukaista, että yläsuuntainen linkki ja alasuuntainen linkki, jotka käyttävät tavallisesti eri kantoaaltoa, käyttävät samanaikaisesti täyttä kaistanleveyttä. Tämän keksinnön alalla tiedetään, että jotkin ääniaktivitee-tin tunnistimet tai äänen päälle tulon tunnistimet (VAD/VOD) yrittävät käyttää puheen ominaisuuksia, kuten sen harmonisia koskevaa rakennetta (esimerkiksi autokorreloinnin avulla) erottaakseen ääntä sisältävän puheen. Kohinassa tämä raken-neindikaattorit voivat kuitenkin epäonnistua, joko puheen rakenteen hajoamisen takia tai johtuen rakenteen jäämisestä kohinan sekaan. Tässä voi olla kyse esimerkiksi moottorin, renkaiden tai ilmastointilaitteen kohinasta auton sisässä. Nämä menetelmät ovat lisäksi huonoja tunnistamaan soinnitonta puhetta.
Vaihtoehtona on yksinkertaisesti se, että käytetään kehyksen energiatasoa puheen tunnistamiseksi. Tämä riittää sellaisen puheen osalta, joka tapahtuu hyvissä signaali-kohina-suhteen (SNR) olosuhteissa, joissa mielivaltainen kohinatason ylittävä kynnysarvo voidaan asettaa puhetta merkitseväksi. Tämä menetelmä ei kuitenkaan toimi tätä realistisemmissa kohina-olosuhteissa .
Normalisoimattomien tietokantojen eli todellisuuden sovellusten kohdalla on todennäköistä, että kohinatasot voivat olla yhdessä esimerkkijoukossa suuremmat kuin puhetasot toisessa, ja tämä tekee kynnysarvon asettamisen mahdottomaksi. Perinteinen menetelmä selvitä tästä on ottaa keskiarvo ensimmäisestä 100 ms.sta tai suurin piirtein sellaisesta ajasta ääni-ilmaisua käyttäen oletuksena sitä, että tämä edustaa kohinaa, ja luodaan tätä tapausta varten oma kynnysarvo. Taaskaan tämä ei riitä tasaisena pysymättömälle kohinalle, missä kohina voi poiketa äkillisesti alkuarviosta silloin, kun kohinalla on suuri varianssi tai kun muutamat ensimmäiset kehykset sisältävät tosiasiallisesti puhetta eivät oletuksena olevaa kohinaa.
Siksi on olemassa tarve parannetusta, kohinaympäristöihin tarkoitetusta ääniaktiviteetin tunnistimesta ja hyväksyjästä, jolla saadaan lievennetyksi edellä mainittuja haittapuolia .
Keksinnön yhteenveto
Esillä olevan keksinnön ensimmäisen puolen mukaisesti saadaan patenttivaatimuksessa 1 esitetyn kaltainen viestintälaite.
Esillä olevan keksinnön toisen puolen mukaisesti saadaan patenttivaatimuksessa 11 esitetyn kaltainen menetelmä viestintälaitteeseen tulevan puhesignaalin tunnistamiseksi.
Esillä olevan keksinnön kolmannen puolen mukaisesti saadaan patenttivaatimuksessa 14 esitetyn kaltainen menetelmä sen päättämiseksi, onko viestintälaitteeseen tuleva signaali puhetta vai kohinaa.
Epäitsenäisissä patenttivaatimuksissa on esitetty esillä olevan keksinnön muita puolia.
Yhteenvetona voidaan lausua, että esillä olevan keksinnön tavoitteena on ratkaista tapaus, jossa on kyse mielivaltaisesta amplitudista ja muuttuvasta kohinasta, käyttämällä energiakiihtyvyysmittausta ensisijaisesti energian amplitudin mittauksen sijasta puheen olemassa olon tai puuttumisen merkkinä.
Kuvioiden lyhyt selostus
Esillä olevan keksinnön esimerkinomaisia suoritusmuotoja kuvataan nyt viitaten oheistettuihin kuvioihin, joista: kuvio 1 esittää lohkokaavion viestintälaitteesta, joka on sovitettu suorittamaan ääniaktiviteetin tunnistus ja hyväksyntä esillä olevan keksinnön edullisen suoritusmuodon mukaisesti, kuvio 2 esittää vuokaavion energiakiihtyvyyteen perustuvasta ääniaktiviteetin tunnistuksesta kohinallisia ympäristöjä varten esillä olevan keksinnön edullisen suoritusmuodon mukaisesti, kuvio 3 esittää vuokaavion energiakiihtyvyyteen perustuvasta ääniaktiviteetin tunnistuksesta kohinallisia ympäristöjä varten esillä olevan keksinnön edullisen suoritusmuodon mukaisesti ja kuvio 4 esittää puskurointitoiminnan esillä olevan keksinnön edullisen suoritusmuodon mukaisesti.
Edullisten suoritusmuotojen kuvaus
Puheäänellä on verrattain suuri energiakiihtyvyysarvo, koska sen alkaminen riippuu aktivoinnista äänihuulissa, jotka joko värähtelevät tai ovat paikallaan. Vastaavasti soinnittomissa aluissa (esim. plosiivit) on myös suuri energiakiihtyvyys.
Keksijät ovat havainneet, että edustavassa alueessa, jossa äänen olemassaolo korostuu, kuten kapeakaistainen tehospektri eli Mel-spektri, syntyvä energiakiihtyvyys on huomattavasti suurempi kuin muuttumattomana pysyvä kohina. Ainoat merkittävät poikkeukset ovat impulsiiviset meluäänet (esimerkiksi käsien taputus). Täten, esillä olevan keksinnön edullisen suoritusmuodon mukaisesti, keksijät ovat arvioineet, että nämäkin äänet voidaan lisäksi erottaa keskittymällä energiaan taajuusalueella, joka sisältää todennäköisesti ihmisäänisignaalin perus-sävelkorkeuden. Esillä olevan keksinnön keksijät esittävät erityisesti, että käytetään puheen strukturoimatonta ominai suutta, nimittäin energiakiihtyvyyttä (tai jonkin mitan, joka heijastelee puheen tai sen komponenttien energiaa, kiihtyvyyttä) .
Keksinnöllisen konseptin edullinen sovellus on erityisesti hajautettu puheen tunnistus (DSR, Distributed Speech Recognition), jonka standardin on nykyään määritellyt ETSI (European Telecommunications Standards Institute - "Speech Processing, Transmission and Quality aspects (STQ); Distributed speech recognition; Front-end feature extraction algorithm; Compression algorithm", ETSI ES 201 108 VI.1.2 (200-2004), huhtikuu 2000.
Viitataan nyt kuvioon 1, jossa on esitetty lohkokaavio au-diotilaajalaitteesta 100, joka on sovitettu tukemaan esillä olevan keksinnön edullisten suoritusmuotojen keksinnöllistä konseptia.
Esillä olevan keksinnön edullista suoritusmuotoa kuvataan käsitellen langatonta audioviestintälaitetta, esimerkiksi sellaista, joka pystyy toimimaan tulevaisuuden langattomien matkapuhelinviestintäjärjestelmien 3. sukupolven yhteistoi-mintaprojektin (3GPP, 3rd generation partnership project) standardin mukaisesti ja joka tarjoaa DSR-ominaisuudet. Keksinnön mukaisesti on kuitenkin ajateltavissa, että tässä kuvattua keksinnöllistä konseptia, joka koskee ääniaktivitee-tin tunnistusta ja sen hyväksyntää, voidaan soveltaa yhtä hyvin mihin tahansa elektroniseen laitteeseen, joka reagoi äänisignaaleihin ja joka voi hyötyä parannetusta ääniaktivi-teetin tunnistuspiiristä.
Kuten alalla tiedetään, audiotilaajalaite 100 sisältää antennin 102, joka on kytketty edullisesti duplex-suodattimeen, antennikytkimen eli kiertohaaroittimen 104, joka muodostaa erotuksen vastaanotto- ja lähetysketjun välillä audiotilaajalaitteen 100 sisässä.
Vastaanotinketju sisältää vastaanottimen etupään piirin 106 (joka toimintana on suorittaa vastaanotto, suodatus ja muunto välitaajuuskaistalle tai kantataajuuskaistalle). Etupään piiri 106 on kytketty sarjamuoisesti signaalinkäsittelytoi-mintoon (joka on toteutettu yleensä digitaalisella signaaliprosessorilla (DSP)) 108. Signaalinkäsittelytoiminto 108 suorittaa signaalin demoduloinnin, virheenkorjauksen ja muotoilun. Ennalleen palautettu data signaalinkäsittelytoimin-nosta 108 on kytketty sarjamuotoisesti audiokäsittelytoimin-toon 109, joka muotoilee vastaanotetun signaalin sopivalla tavalla lähetettäväksi audioilmaisimeen/näytölle 111.
Keksinnön erilaisissa suoritusmuodoissa signaalinkäsittely-toiminto 108 ja audiokäsittelytoiminto 109 voi olla järjestetty samaan fyysiseen laitteeseen. Ohjain 114 on konfigu-roitu ohjaamaan informaatiovirtaa ja tilaajalaitteen 100 elinten toiminnallista tilaa.
Mitä tulee lähetysketjuun, se sisältää olennaisin osin au-diotulolaitteen 120, joka on kytketty sarjaan audiokäsitte-lytoiminnon 109, signaalinkäsittelytoiminnon 108, lähetin-/modulointipiirin 122 ja tehovahvistimen 124 kanssa. Prosessori 108, lähetin-/modulointipiiri 122 ja tehovahvistin 124 toimivat vasteellisesti ohjaimeen nähden. Tehovahvistimen lähtö on kytketty duplex-suodattimeen, antennikytkimeen eli kiertohaaroittimeen 104 ja antenniin 102 lopullisen radio-taajuussignaalin lähettämiseksi.
Audiokäsittelytoiminto 109 sisältää erityisesti ääniaktivi-teetin (äänen alkamisen) tunnistuksen (VAD) toiminnon 130, joka on kytketty toiminnallisesti ääniaktiviteettipäätöstoi-mintoon 135. Esillä olevan keksinnön edullisten suoritusmuotojen mukaisesti VAD-toiminto 130 ja ääniaktiviteettipäätös-toiminto 135 on sovitettu antamaan parannettu äänen tunnistuksen ja päätöksenteon mekanismi, jonka toimintaa kuvataan kuvioihin 2 ja 3 viitaten. On huomattava, että ääniaktivi-teetin tunnistustoiminto 130 sisältää kehys kehykseltä -tunnistusvaiheen, joka koostuu kolmesta mittauksesta: Kolmen taajuusosa-alueen mittauksiin kuuluvat: (i) koko spektri (ii) spektrin osakaistat ja (iii) spektrin varianssi. Ääniaktiviteettipäätöstoiminto 135 suorittaa päätöksen sitten perustuen puskuroituihin mittauksiin, jotka analysoidaan niiden puhetodennäköisyyden osalta. Lopullinen päätös pää-tösasteesta kohdistetaan takautuvasti varhaisempaan kehykseen puskurissa.
Esillä olevan keksinnön edullisessa suoritusmuodossa ajas-tin/laskuri 118 on myös sovitettu suorittamaan ajoitustoi-minnot kuvioiden 2 ja 3 tunnistus- ja päätöksentekoprosessissa.
Signaaliprosessoritoiminto 108, audiokäsittelytoiminto 109, VAD-toiminto 130 ja ääniaktiviteettipäätöstoiminto 135 voi olla toteutettu erillisinä, toiminnallisesti kytkettyinä kä-sittelyeliminä. Vaihtoehtoisesti yhtä tai useampaa prosessoria voidaan käyttää toteuttamaan yksi tai useampi vastaavista käsittelytoiminnoista. Vielä yhdessä vaihtoehtoisessa suoritusmuodossa edellä mainitut toiminnot voi olla toteutettu laitteisto-, ohjelmisto- ja kiinto-ohjelmistoelimien sekakokoonpanolla, käyttäen sovelluskohtaisia integroituja piiriä (ASIC) ja/tai prosessoreja, esimerkiksi digitaalisia signaaliprosessoreja (DSP).
Tietenkin eri komponentit audiotilaajalaitteen 100 sisässä voi olla toteutettu erilliskomponenttien tai integroitujen komponenttien muodossa niin, että lopullinen rakenne on vain mielivaltainen valinta. Tämän lisäksi on olemassa lukuisia menetelmiä, joilla voidaan saada energiakiihtyvyystieto käytettäväksi esillä olevan keksinnön edullisessa suoritusmuodossa. (i) Teoreettisesti ideaalinen menetelmä on kirjaimellisesti kaksoisdifferentioida energiataso ilmaisun peräkkäisisten kehyksten suhteen, kuten on nähtävissä aiemmin julkaistusta patenttihakemuksesta US 6009391. Tämän ratkaisumallin haittana on se, että se on omiaan aiheuttamaan viiveitä, koska analyysissä on analysoitava joukko kehyksiä kehyksen kummaltakin puolelta. (ii) Energiakiihtyvyyden nollaviive-estimointi voidaan saavuttaa vertaamalla lyhyen ajan keskiarvon suhdetta hetkelliseen arvoon, esimerkiksi: käyttämällä kehyskeskiarvoa:
[1] tai käyttämällä liukuvaa keskiarvoa
[2]
Kummassakin tapauksessa menetelmä antaa arvon, jota voidaan tulkita seuraavasti: heikkenevyys < 1 < kiihtyvyys. Näin voidaan löytää kokemusperäisiä arvoja termille A ja nimittäjän pituus, joka erottaa parhaiten puheen kohinasta.
Esillä olevan keksinnön keksijät ovat havainneet, että edullinen optimaalinen ratkaisu on löytää nimittäjä, joka pystyy jäljittämään muuttuvaa kohinaa nopeasti, mutta joka on liian pitkä pysymään alkavan äänen perässä. Ehdotettu arvosekvens-si liukuvalle keskiarvolle on a=0,2m b=0,8*a, c=0,8*b jne., mikä voidaan ilmaista yksinkertaisesti rekursiolla: dt = 0,2xt+0, 8dt-i [3]
Sitten: A = xt/dt [4]
Edullisena pidetty VAD ja parametrien alustusjärjestelmä tunnistusasteessa on esitetty koosteena kuvion 2 vuokaaviossa. Ei-muuttumattomana pysyvässä kohinassa pitkän ajan ener-giakynnykset eivät ole luotettavia puheen indikaattoreita. Vastaavasti suuren kohinan oloissa puheen rakenteeseen (esimerkiksi harmonisiin) ei voida täysin luottaa indikaattorina, koska ne voivat olla kohinan sotkemia tai rakenteellinen kohina voi sekoittaa tunnistimen. Edullisena pidetty ääniak-tiviteetin tunnistin käyttää täten puheen kohinan sietävää ominaispiirrettä, nimittäin energiakiihtyvyyttä äänen alku-hetkellä.
Viitataan nyt kuvioon 2, jossa on esitetty vuokaavio 200 edullisena pidetystä tunnistusprosessista. Kuten edellä on ilmoitettu, prosessi sisältää kehys kehykseltä -analyysin. Edullisena pidetty VAD-mekanismi koskee mittausmekanismia "koko spektri". Aluksi arvioidaan kehyslaskuri sen määrittämiseksi, onko se pienempi kuin "N", joka määrittelee puskuroitujen kehysten lukumäärän, kuten on esitetty vaiheessa 205. Esimerkkinä edullisesta suoritusmuodosta N asetetaan arvoon 15 sillä oletuksella, että järjestelmässä kukin kehys kestää 10 ms. Jos kehyslaskuri on pienempi kuin "N" vaiheessa 205, tällöin päivitetään liukuva keskiarvo alun kiihty-vyystestistä, kuten on esitetty vaiheessa 210. Jos kehyslaskuri ei ole pienempi kuin "N" vaiheessa 205, tällöin vaihe 210 jätetään väliin.
Sitten tehdään määritys, onko energiakiihtyvyysmittaus yhden tai useamman määritellyn marginaalin sisässä, kuten on esitetty vaiheessa 235. Jos energiakiihtyvyysmittaus on yhden tai useamman määritellyn marginaalin sisässä vaiheessa 235, liukuva keskiarvo päivitetään myöhempien energiakiihtyvyys-testien tuloksilla, kuten vaiheessa 240. Jos energiakiihty-vyysmittaus ei ole yhden tai useamman määritellyn marginaalin sisässä vaiheessa 235, vaihe 240 jätetään väliin.
Sitten tehdään määritys sen arvioimiseksi, onko energiakiih-tyvyysmittaus suurempi kuin määritelty kynnysarvo, kuten on esitetty vaiheessa 260. Jos energiakiihtyvyysmittaus on suurempi kuin määritelty kynnysarvo vaiheessa 260, tällöin kehys oletetaan puhekehykseksi, kuten vaiheessa 265. Jos energiakiihtyvyysmittaus ei ole suurempi kuin määritelty kynnysarvo vaiheessa 260, tällöin kehys oletetaan kohinakehyk-seksi, kuten vaiheessa 270.
Kehyslaskuria kasvatetaan siten, kuten vaiheessa 275, ja prosessi toistuu vaiheesta 205.
Parannuksena tähän prosessiin, koko spektriin mittausprosessin sijasta tai sen lisäksi voidaan suorittaa osa-alueen mittausprosessi, joka on esitetty valinnaisissa vaiheissa 215 ja 245. Erityiseksi spektrin osa-alueeksi valitaan sellainen spektrin osa-alue, joka sisältää todennäköisimmin perus sävel korkeuden .
Osa-alueprosessissa heti, kun alun kiihtyvyystestin liukuva keskiarvo on päivitetty vaiheessa 210 koko spektrin mittauksessa, tehdään päätös tarkastaa, onko energiakiihtyvyysmittaus suurempi kuin kynnysarvo, kuten on esitetty vaiheessa 220. Jos energiakiihtyvyysmittaus on suurempi kuin kynnysarvo vaiheessa 220, muiden parametrien alustusprosessi keskeytetään, kuten on esitetty vaiheessa 225. Jos energiakiihty- vyysmittaus ei ole suurempi kuin kynnysarvo vaiheessa 220, muiden parametrien alustus päivitetään, kuten vaiheessa 230. Prosessi palaa sitten esitetyn mukaisesti vaiheeseen 235.
Sitten tehdään vielä yksi edullisena pidetty määritys sen jälkeen kun on tehty määritys sen arvioimiseksi, onko ener-gianiihtyvyysmittaus yhden tai useamman määritellyn marginaalin sisässä vaiheessa 235. Heikkenemisarvo arvioidaan sen määrittämiseksi, onko se tilassa "suuri" vaiheessa 250, ja jos on, energian kiihtyvyyden testin liukuvaa keskiarvoa päivitetään hitaasti, kuten on esitetty vaiheessa 255. Prosessi palaa sitten kokospektrimenetelmään vaiheessa 260. Tällä tavalla osakaistan tunnistimen yleensä suuret signaa-li-kohina-suhteet (SNR) tekevät tästä tunnistimesta hyvin kohinaa sietävän. Se on kuitenkin haavoittuva haitallisille mikrofoni- ja kaiutinmuutoksille sekä kaistarajatulle kohinalle. Täten mittauksiin ei saisi luottaa kaikissa olosuhteissa. Sen takia esillä olevan keksinnön edullinen suoritusmuoto sisältää osakaistan tunnistimen koko spektrin mittauksen lisätueksi.
Lisämittausprosessi suoritetaan edullisesti käyttäen arvojen varianssin "kiihtyvyyttä" esimerkiksi kunkin kehyksen spektrin alemman puolikkaan sisässä. Varianssin mitta ilmaisee rakenteen spektrin alemmassa puolikkaassa, mikä tekee siitä erittäin herkän soinnilliselle puheelle. Varianssimittaus noudattaa osakaistaprosessin menettelytapaa siten, että valitaan tietyksi osakaistaksi spektrin alapuolikas. Tämä va-rianssimittaus täydentää edelleen koko spektrin menettelyä, joka pystyy paremmin tunnistamaan soinnittoman ja plosiivi-sen osan.
Kaikki nämä kolme mittausta ottavat raakatulonsa kaksois-Wiener-suodattimen ensimmäisen asteen muodostamien suodatin-vahvistusten spektriesityksestä, kuten on esitetty yhdysvaltalaisessa patenttihakemuksessa nro. US 09/427497, jossa hakijana on Motorola INc. ja keksijänä Yan-Ming Chen. Kuten edellä on kuvattu, kukin mittaus käyttää tämän datan eri tarkastelupuolta.
Kokospektritunnistin käyttää erityisesti tunnettua kaksois-Wiener-suodattimen ensimmäisen asteen muodostamien suodatin-vahvistusten Mel-suodatettua spektriesitystä. Yksi tuloarvo saadaan neliöimällä Mel-suodatinpankkien summa.
Kokospektritunnistin käyttää keksinnön edullisessa suoritusmuodossa seuraavaa prosessia kaikille kehyksille, kuten on kuvattu seuraavassa:
Vaihe yksi alustaa kohinaestimaatin Jäljittäjä seuraavasti:
Jos Kehys<15 JA Kiihtyvyys<2,5 niin Jäijittäjä=MAX(Jäijittäjä, Tulo).
Energiakiihtyvyysmitta estää Jäljittäjän päivityksen, jos puhe esiintyy 15 kehyksen alukeaikana.
Vaihe 2 päivittää Jäljittäjän arvon, jos ajankohtainen tulo on samanlainen kuin kohinaestimaatti, seuraavasti:
Jos Tulo<Jäjittäjä*YläRaja ja Tulo>Jäjittäj ä*AlaRaj a niin Jäjittäjä=a*Jäijittäjä+(1-a)*Tulo
Vaihe kolme antaa varmistetun mekanismin niille tapauksille, joissa ensimmäisten muutaman kehyksen aikana on puhetta tai epätyypillisen suuri kohinasisältö. Tämä saa aikaan seurauksena olevan virheellisen suuren kohinaestimaatin häviämisen. Vaihe kolme toimii edullisesti seuraavasti:
Jos Tulo<Jäijittäjä*Pohjataso, niin Jäi j ittäj ä=£>* Jäi j ittäj ä+ (1 -h) *Tulo
Vaihe 4 palauttaa puheen määritykseen "tosi" , jos ajankohtainen tulo on enemmän kuin 165% suurempi kuin Jäljittäjä, seuraavasti:
Jos Tulo>Jäjittäjä*Kynnysarvo niin lähtö TOSI muutoin EPÄTOSI.
Hetkellisen tulon suhde lyhyen ajan Jäljittäjän keskiarvoon on peräkkäisten tulojen energiakiihtyvyyden funktio.
Jolloin edellä olevassa: a=0,8 ja jb=0,97
YläRaja on 150 % ja AlaRaja 75 %
Pohjataso on 50 % ja Kynnysarvo on 165 %.
On huomattava, että päivitystä ei tapahdu, jos arvo on suurempi kuin YläRaja tai AlaRajan ja Pohjatason välillä. Lisäksi energiakiihtyvyystulo, sellaisena kuin se on ilmoitettu edellä, voidaan laskea joko: peräkkäisten tulojen kaksoisdifferentioinnilla tai estimoinnin avulla jäljittämällä tulojen kahden liukuvan keskiarvon suhde.
On huomattava, että nopean ja hitaasti asettuvan liukuvan keskiarvon suhde heijastelee peräkkäisten tulojen energia-kiihtyvyyttä .
Esimerkin vuoksi mainittakoon, että vaikutusnopeudet edellä käytetyille keskiarvoille olivat: (i) O*keskiarvo + l*tulo, ja (ii) ((Kehys-1)^keskiarvo + l*tulo)/kehys, mikä tekee energiakiihtyvyysmitasta erittäin herkän yli ensimmäisten viidentoista kehyksen.
Osakaistan tunnistin käyttää edullisesti "kokospektri"-mittaukseen johdettua toisen, kolmannen ja neljännen Mel-suodatinpankin keskiarvoa. Tunnistin soveltaa sitten seuraa-vaa prosessia kaikille kehyksille seuraavassa kuvatulla tavalla : (i) Tulo=p*AjankohtainenTulo+(1-p)*EdellinenTulo (ii) Jos Kehys<15, niin Jäijittäjä=MAX(Jäijittäjä, Tulo) (iii) Jos Tulo<Jäijittäjä*YläRaja ja Tulo>Jäjittäj ä*AlaRaj a, niin Jäijittäjä=a*Jäijittäjä+(1-a)*Tulo (iv) Jos Tulo<Jäijittäjä*Pohjataso, niin Jäi j ittäj ä=£>* Jäi j ittäj ä+ (1-A) *Tulo (v) Jos Tulo>Jäljittäjä*Kynnysarvo,
niin lähtö TOSI muutoin lähtö EPÄTOSI
Jolloin osa-aluemittauksessa p= 0,75
Kaikki muut parametrit ovat samat kuin kokospektrimittauk-sessa, paitsi Kynnysarvo, joka on yhtä kuin 3,25.
Spektrivarianssimittauksen osalta tulona käytetään varianssia arvoista, jotka käsittävät kunkin kehyksen osalta vahvistuksen kapeakaistaisen spektriesityksen alemman taajuus-puoliskon. Tunnistin käyttää sitten tarkalleen samaa prosessia kuin kokospektrimittauksessa.
Varianssi lasketaan seuraavasti:
[5] jossa N=FFT pituus/4, ja wi ovat vahvistuksen kapeakaistaisen spektriesityksen arvot.
Esillä olevan keksinnön edullisen suoritusmuodon mukaisesti edellä yksityiskohtaisesti kuvatut kolme mittaa esitetään VAD-päätöksentekoalgoritmille, kuten on esitetty kuvion 3 vuokaaviossa. Peräkkäiset tulot viedään puskuriin, mikä antaa kokonaistilanteellisen analyysin. Tämä saa aikaan kehys-viiveen, joka on yhtä kuin puskurin pituus miinus yksi kehys .
Viitataan nyt kuvioon 3, jossa on esitetty vuokaavio 300 kiihtyvyyspohjaisesta ääniaktiviteetin hyväksyntäprosessista kohinallisia ympäristöjä varten, esillä olevan keksinnön edullisen suoritusmuodon mukaisesti.
Puskurin jossa on N=1 kehystä osalta viimeisin tosi/epätosi-puhetulo tallennetaan paikkaan N datapuskurissa, kuten on esitetty vaiheessa 305. Päätöksentekologiikka soveltaa joukkoa vaiheita ja edullisesti kutakin seuraavista vaiheista:
Vaihe 1: VN = Mitta 1 TAI Mitta 2 TAI Mitta 3;
Tulo VN on määritelty arvoksi "tosi" (T), jos jokin kolmesta mittauksesta antaa arvon tosi puheen merkiksi.
Vaihe 2:
[6]
Algoritmi etsii pisimmän yhtenäisen sekvenssin arvoja "tosi" puskurista, kuten vaiheessa 310. Täten esimerkiksi sekvens- sin " T T E T T T E" osalta M olisi yhtä kuin "3".
Vaihe 3:
Jos M>=Sp JA. T<LS, T=LS, jossa SP on yhtä kuin ensimmäinen kynnysarvo vaiheessa 315. Jos pisin sekvenssin on tosi (T), puheen arvo on yhtä kuin tai suurempi kuin ensimmäinen kynnys vaiheessa 315, so. SP= 3 tai useampia peräkkäisiä arvoja "tosi", puskurin arvioidaan sisältävän "mahdollisen" puheen. Lyhytaikaislaskuri T, sanotaan vaikka Ls= 5 kehystä (Aika_l) aktivoidaan, vaiheessa 325, jos se ei ole jo voimassa (tai ylittynyt) vaiheessa 320 tehdystä määrityksestä. vaihe 4:
Jos M>=Sl JA F>Fs, T=Lm muutoin T=Ll, jossa SL on yhtä kuin toinen kynnysarvo vaiheessa 330. Jos on SL=4 tai useampia peräkkäisiä arvoja "tosi", puskurin arvioidaan taaskin sisältävä "todennäköisen" puheen. Keskipitkän välin ajastin T, sanotaan vaikka Lm=22 kehystä aktivoidaan vaiheessa 340, jos ajankohtainen kehys F on alustavan aluketurvajakson Fs ulkopuolella, kuten määritetään vaiheessa 335. Muussa tapauksessa varmistavaa pitkän ajan ajastinta T, sanotaan vaikkapa Ll=40 kehystä, käytetään vaiheessa 345. Tällaista järjestelyä käytetään, koska puheen aikainen esiintyminen ilmaisussa voi aiheuttaa sen, että VAD:n ko-hinaestimaatti on liian suuri.
Vaihe 5:
Jos M<Sp JA T>0, T-
Jos prosessi määrittää, että on vähemmän kuin SP=3 peräkkäistä arvoa "tosi", vaiheessa 350, ja ajastin on suurempi kuin nolla vaiheessa 355, tällöin ajastimen arvoa pienennetään vaiheessa 360.
Vaihe 6:
Jos T>0, lähtö TOSI, muutoin lähtö EPÄTOSI
Jos ajastin on suurempi kuin nolla vaiheessa 365, prosessi antaa lähtönä puhepäätöksen "tosi", kuten on esitetty vaiheessa 370. Vaihtoehtoisesti, jos ajastin ei ole suurempi kuin nolla vaiheessa 365, prosessi antaa lähtönä päätöksen "kohina", kuten on esitetty vaiheessa 375.
Vaihe 7:
Kehys++, siirrä puskuria vasemmalle ja paluu vaiheeseen 1.
Valmistelemiseksi seuraavaa kehystä varten vaiheessa 380 puskuria siirretään vasemmalle tilan saamiseksi seuraavalle tulolle, kuten on esitetty kuviossa 4. Lähtöä puhepäätös sovelletaan kehykseen, joka poistetaan puskurista. Sitten prosessi toistuu vaiheesta 305 puskuriin tulevan seuraavalle tosi/epätosi-tulon osalta.
Ajateltavissa on, että voidaan toteuttaa vaihtoehtoinen mekanismi puhe- tai kohinapäätöksen tekemiseksi edellä kuvatun energiakiihtyvyysprosessin perusteella. Päätöksentekomekanismi ei esimerkiksi välttämättä perustu yhteen tai useampaan ajastimeen, ja päätös voidaan tehdä puhtaasti sen mukaan, ylittyykö yksi tai useampi energiakiihtyvyyskynnysar-vo.
Viitataan nyt kuvioon 4, jossa on esitetty tarkemmin esimerkki puskurointitoiminnasta 400 esillä olevan keksinnön edullisen suoritusmuodon mukaisesti. Olettakaamme, että ensimmäinen kynnys on asetettu kolmen peräkkäisen "tosi"-arvoon. Olettakaamme, että ajanhetkenä "t" 410 vain ajankohtainen tulo (kehys #7) 425 ja edellinen tulo (kehys #6) 420 olivat "tosia". Sen mukaisesti, kun puskuria siirretään, ensimmäinen kehys (kehys #1) 415 merkataan epätodeksi.
Ajanhetkenä "t+1" 430 kolmas "tosi" tulo (kehys #8) 450 on otettu vastaan kahden aiemman "tosi" tulon 440, 445 jatkoksi. Siksi, kun puskuria siirretään, seuraava lähtökehys (kehys #2) 435 merkitään "todeksi".
On huomattava, että edellä olevassa päätöksentekoprosessissa ainoat rajoitukset ovat: (i) Aika_l < Aika_2 < Aika 3 ja (ii) Kynnysarvo 1 < Kynnysarvo 2.
Kun oletetaan, että vain nämä kolme tuloa (kehys #6, kehys #t ja kehys #8) ovat "tosia", täysi lähtösekvenssi on: ETTTTTTTT T T Τ Τ Τ Τ Τ Τ E E E E Ε 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 jossa kehykset #2-#5 ilmoittavat arvon „tosi" puskurin alu-ketoiminnon takia. Kehykset #6-#8 ilmoittavat arvon "tosi", koska näissä kohdissa oli alun perin puhetulolla arvo "tosi". Kehykset #9-#12 ilmoittavat arvon "tosi", puskurin lo-puketoiminnon takia. Kehykset #13-#18 ilmoittavat arvon "tosi" vasteena käytettyyn ajastimen kestoaikaan. Heti kun ilmaisun kaikki kehykset on otettu tulona, puskuri siirtää "epätosi" kirjauksia (kehykset #19-#LM) kunnes tyhjenee.
Keksinnössä on ajateltavissa, että puskurin pituutta ja kes-toaika-ajastimia voidaan säätää dynaamisesti sopimaan audio-viestintälaitteen tarpeisiin. Näin ollen edullinen suoritusmuoto, jossa käytetään puskuripituutena "N" on 8 ja kestoai-ka-ajastimen arvona viittä kehystä, on vain esimerkin vuoksi. On kuitenkin huomattava, että puskuripituus "N" on aina päätettävä niin, että N>=SL.
Vaikka keksinnön käytöllä VAD:ssä on omat oikeutuksensa, keksinnössä on ajateltavissa, että kuvion 2 menetelmävai-heissa hankittua energiakiihtyvyysmittaa voidaan käyttää muiden parametrien alustuksen hyväksynnässä. Esimerkiksi spektrisupistusmenettely edellyttää alkuestimaattia kohinalle puheen ensimmäisten kymmenen kehyksen (tyypillisesti 100 ms) perusteella. Siinäkin tapauksessa, että kohina on muuttumatonta, voi sattua lukuisia tapahtumia, jotka tekevät al-kuestimaatista epäkelvon. Esimerkkejä tällaisista tapahtumista ovat: (a) Signaalin nousu:
Erilaisista mahdollisista syistä johtuen tallennuksen aivan alku voi "nousta" täydelle voimakkuudelle arviointijakson aikana. Syinä tällaiseen täyteen nousuun voivat olla: puskurin täyttyminen digitaalisissa järjestelmissä, kapasitanssi tai nauhapään kosketus analogisissa järjestelmissä. Tällaisten tapahtumien vaikutus voi tehdä estimaatista epäkelvolli-sen. Energiakiihtyvyysmittaa voidaan täten käyttää tunnistamaan tällainen nousu ja estämään virhe. (b) Piikit alkuperäisessä signaalissa
Yleisesti "piikki" esiintyy, kun tilaajaradiolaitteen paina kun haluat puhua -nappi (PPT, press-to-talk) on täysin ulos ponnahtaneena, jolloin sähköinen kosketus edeltää hiukan kytkimen selkään iskeytyvää nappia. Energiakiihtyvyysmittaa, sellaisena kuin se on kuvattu edellä, voidaan käyttää lykkäämään kuvion 2 vaiheessa 225 esitetyn kaltaista estimoin-tiprosessia, kun tällainen tapahtuma esiintyy. (c) Puhetta alkusignaalissa:
Toinen yleinen tapahtuma erityisesti PTT-järjestelmissä on se, että käyttäjä aloittaa puhumisen heti, kun painanut PTT-nappia. Tällaisen toimintatavan kanssa sähköinen kosketus syntyy vasta sen jälkeen, kun puhe on aloitettu. Energia-kiihtyvyysmitta pystyy tunnistamaan tämän ja lykkäämään kuvion 2 vaiheessa 225 esitetyn kaltaista kohinaan perustuvaa alustusta tai ohjaamaan käytettäväksi oletusestimaatit.
Yhteenvetona voidaan sanoa, että on kuvattu viestintälaitetta, joka sisältää ääniaktiviteetin tunnistusmekanismin sisältävän audiokäsittely-yksikön. Ääniaktiviteetin tunnistus-mekanismi antaa ilmoituksen energiakiihtyvyydestä signaali-tulossa viestintälaitteeseen ja määrittää, onko mainittu tu-losignaali puhetta vai kohinaa, mainitun ilmoituksen perusteella .
Lisäksi on kuvattu menetelmää viestintälaitteeseen tulevan puhesignaalin tunnistamiseksi. Menetelmä sisältää vaiheina sen, että ilmoitetaan kiihtyvyys tulosignaalissa viestintälaitteeseen; ja määritetään, onko mainittu tulosignaali puhetta vai kohinaa mainitun ilmoitusvaiheen perusteella.
Lisäksi on kuvattu menetelmää sen päättämiseksi, onko viestintälaitteeseen tuleva signaali puhetta vai kohinaa. Menetelmä sisältää vaiheet, joissa päätetään, onko mainittu tulosignaali puhetta vai kohinaa, energiakiihtyvyyden perusteella, käyttäen esimerkiksi tulosignaalien joukon kehyskes-kiarvoa tai liukuvaa keskiarvoa. Täten on ymmärrettävä, että edellä kuvattu kohinallisiin ympäristöihin tarkoitettu energiakiihtyvyyteen perustuva ääniaktiviteetin tunnistin ja hyväksyjä antaa etuina ko-hinasiedon ja nopean vasteen. Koska edullinen suoritusmuoto käyttää energiakiihtyvyydestä riippuvaa mittaa absoluuttisen mitan sijasta, tässä kuvattua keksinnöllistä konseptia voidaan soveltaa millä tahansa voimakkuustasolla tulevaan puheeseen .
Vaikka edellä on kuvattu erityisiä ja edullisena pidettyjä toteutuksia esillä olevan keksinnön suoritusmuodoista, on selvää, että alaan perehtynyt voisi käyttää tämän keksinnöllisen konseptin vaihtoehtoja ja muunnoksia, jotka jäisivät esillä olevan keksinnön piiriin.
On siis kuvattu kohinallisiin ympäristöihin tarkoitettua parannettua ääniaktiviteetin tunnistinta ja hyväksyjää, jossa on vähennetty olennaisesti edellä mainittuja ennestään tunnettuun tekniikkaan liittyviä haittoja.
Claims (21)
1. Viestintälaite (100), joka käsittää ääniaktiviteetin tun nistusmekanismin (130, 135) sisältävän audiokäsittely-yksikön (109), joka viestintälaite (100) on tunnettu siitä, että ääniaktiviteetin tunnistusmekanismi (130, 135) on sovi tettu mittaamaan viestintälaitteeseen (100) tulevan signaalin energiakiihtyvyyden seuraamalla sisäänmenojen nopean ja hitaasti asettuvan liukuvan keskiarvon suhdetta ja määrittämään kehys kehykseltä, onko mainittu tulosignaali puhetta vai kohinaa, mainitun mittauksen perusteella, jolloin jos energiakiihtyvyysmittaus antaa energiakiihtyvyysarvon, joka on suurempi kuin energiakiihtyvyyden kynnysarvo, niin tulokehystä pidetään puhekehyksenä (265).
2. Patenttivaatimuksen 1 mukainen viestintälaite (100), jossa ääniaktiviteetin tunnistusmekanismi sisältää ääniaktiviteetin tunnistustoiminnon (130), joka suorittaa puheen tunnistuksen kehys kehykseltä ääniaktiviteetin tunnistusmekanismiin (130, 135) tulevien signaalien osalta.
3. Patenttivaatimuksen 2 mukainen viestintälaite (100), jossa mainittu kehys kehykseltä -tunnistus koostuu siitä, että suoritetaan energiakiihtyvyysmittaus ääniaktiviteetin tunnistusmekanismiin (130, 135) tulevalle signaalille koskien yhtä tai useampaa seuraavista taajuusosa-alueista: (i) koko spektriä, (ii) spektrin osakaistoja ja (iii) spektrivarianssia.
4. Patenttivaatimuksen 3 mukainen viestintälaite (100), jossa ääniaktiviteetin tunnistusmekanismi sisältää ääniaktivi-teetin päätöksentekotoiminnon (135), joka on kytketty toiminnallisesti ääniaktiviteetin tunnistustoimintoon (130) ja järjestetty päättämään, onko mainittu tulosignaali puhetta, perustuen puskurissa olevan tulosignaalin tulokehysten pus-kurointitoimintaan ja yhteen tai useampaan mainittuun ener-giakiihtyvyysmittaukseen, jolloin ääniaktiviteetin päätök-sentekotoiminto (135) on lisäksi järjestetty nimeämään tosi-tai väärä-indikaatio kullekin puskurissa olevalle puskuroidulle tulokehykselle, jolloin tosi-indikointi nimetään kun yksikin yhdestä tai useammasta mainituista tulokehyksen energiakiihtyvyysmittauksista tuottaa puheindikaation ja jolloin ääniaktiviteetin päätöksentekotoiminto (135) on lisäksi järjestetty määrittelemään, että mainittu puskurissa oleva sisääntulosignaali on puhetta kun kullekin puskurissa olevalle puskuroiduille sisääntulokehyksien sekvenssille nimetyt indikaatiot ovat tosia.
5. Patenttivaatimuksen 1 mukainen viestintälaite (100), jossa ääniaktiviteetin ilmaisumekanismi (135) on järjestetty mittaamaan energiakiihtyvyyttä käyttäen mainittujen tulosig-naalien joukon kehyskeskiarvoa tai liukuvaa keskiarvoa.
6. Minkä tahansa patenttivaatimuksen 1-4 mukainen viestintälaite (100), jossa energiakiihtyvyys arvioidaan seuraamalla kahden tulosignaalin liukuvan keskiarvon suhdetta käyttäen (0*keskiarvo + l*tulo) ja ((Kehys-1)^keskiarvo + l*tulo)/kehys, jossa Kehys vastaa kehyslaskurin arvoa.
7. Patenttivaatimuksen 5 mukainen viestintälaite (100), jossa energiakiihtyvyyden estimaatti käyttäen kehyskeskiarvoa on:
<img img-format="tif" img-content="drawing" file="FI124869BC00331.tif" id="icf0001" />
[1]
8. Patenttivaatimuksen 5 tai 6 mukainen viestintälaite (100), jossa energiakiihtyvyyden mittaus on yhden tai useamman määritellyn rajan sisällä, energiakiihtyvyyden estimaatti käyttäen liukuvaa keskiarvoa on:
<img img-format="tif" img-content="drawing" file="FI124869BC00332.tif" id="icf0002" />
[2]
9. Patenttivaatimuksen 4 mukainen viestintälaite (100), jossa puskurilla on N:n kehyksen puskuripituus ja peräkkäiset tulokehykset esitetään puskurille ja poistetaan puskurilta ja jolloin kun puskurissa oleva tulokehys määritetään puhe-kehykseksi, päätös siitä, että tulokehys on puhekehys (265) sovelletaan takautuvasti aikaisempaan kehykseen puskurissa.
10. Jonkin patenttivaatimuksen 3, 4 tai 9 viestintälaite (100), jossa jos valitaan tulosignaalin spektrin osa-alue, valinta perustuu siihen osa-alueeseen, joka sisältää äänisignaalin perussävelkorkeuden.
11. Vaatimuksen 1 mukainen viestintälaite (100), jossa ää-niaktiviteetin ilmaisumekanismi on järjestetty mittaamaan energiakiihtyvyyttä signaalisisääntulosta, joka otetaan suo-datinvahvistuksen mel-suodatetusta spektriesityksestä, joka mudostetaan kaksois-Wiener-suodattimen ensimmäisessä asteessa .
12. Menetelmä viestintälaitteeseen tulevan puhesignaalin tunnistamiseksi, joka menetelmä on tunnettu vaiheista, joissa seurataan sisäänmenojen nopean ja hitaasti asettuvan liukuvan keskiarvon suhdetta; ja määritetään (315, 330, 350) kehys kehykseltä, onko mainittu tulosignaali puhetta (370) vai kohinaa (375), mainitun mittausvaiheen perusteella, jolloin jos energiakiihtyvyysmitta-us antaa energiakiihtyvyysarvon, joka on suurempi kuin ener-giakiihtyvyyden kynnysarvo, niin tulokehystä pidetään puhe-kehyksenä (265) .
13. Menetelmä puhesignaalin tunnistamiseksi patenttivaatimuksen 12 mukaisesti, tunnettu edelleen vaiheesta, jossa suoritetaan äänen tunnistus kehys kehykseltä viestintälaitteen tulosignaalien osalta.
14. Menetelmä puhesignaalin tunnistamiseksi patenttivaatimuksen 13 mukaisesti, jossa menetelmässä kehys kehykseltä -tunnistus sisältää vaiheen, jossa: suoritetaan energiankiihtyvyysmittaus mainitulle tulosignaa-lille koskien yhtä tai useampaa seuraavista taajuusosa-alueista: (i) koko spektriä, (ii) spektrin osakaistoja ja (iii) spektrivarianssia.
15. Jonkin vaatimuksen 12-14 mukainen menetelmä puhesignaalin tunnistamiseksi, jossa vaihe energiakiihtyvyyden mittaamiseksi käyttää tulosignaalien joukon kehyskeskiarvoa tai liukuvaa keskiarvoa.
16. Patenttivaatimuksen 12, 13 tai 14 mukainen menetelmä puhesignaalin tunnistamiseksi, jossa energiakiihtyvyys arvioidaan seuraamalla kahden tulosignaalin liukuvan keskiarvon suhdetta käyttäen (O*keskiarvo + l*tulo) ja ((Kehys-l)*keskiarvo + l*tulo)/kehys, jossa Kehys vastaa kehyslasku-rin arvoa.
17. Patenttivaatimuksen 15 mukainen menetelmä puhesignaalin tunnistamiseksi, jossa vaihe energiakiihtyvyyden mittaamiseksi sisältää energiakiihtyvyyden estimoinnin käyttäen kehyskeskiarvoa laskemalla:
<img img-format="tif" img-content="drawing" file="FI124869BC00351.tif" id="icf0003" />
[1]
18. Patenttivaatimuksen 15 tai 16 mukainen menetelmä puhesignaalin ilmaisemiseksi, jossa vaihe energiakiihtyvyyden mittaamiseksi sisältää energiakiihtyvyyden estimoinnin käyttäen liukuvaa keskiarvoa, milloin energiakiihtyvyyden mittaus on yhden tai useamman määritellyn rajan sisällä,
<img img-format="tif" img-content="drawing" file="FI124869BC00352.tif" id="icf0004" />
[2]
19. Patenttivaatimuksen 12 mukainen menetelmä puhesignaalin tunnistamiseksi, joka lisäksi käsittää, että: sovelletaan mainittua määritystä, että tulokehys on puheke-hys takautuvasti aikaisempaan kehykseen tulosignaalien puskurissa.
20. Patenttivaatimuksen 12 mukainen menetelmä puhesignaalin tunnistamiseksi, jossa määrittelyvaihe lisäksi käsittää, että : puskuroidaan tulosignaalin tulokehyksiä puskurissa; nimetään tosi- tai väärä- indikaattori kuhunkin puskuroituun tulokehykseen puskurissa; nimetään tosi-indikaatio kun energiakiihtyvyysmitta-us tulokehykselle antaa puheindikaation; ja määritetään, että mainittu tulosignaali puskurissa on puhetta kun puskuriin puskuroidun tulokehyksien kunkin sekvenssin nimetyt indikaatiot ovat tosia.
21. Vaatimuksen 12 mukainen menetelmä puhesignaalin tunnistamiseksi, jossa energiakiihtyvyyden mittaus signaalisisään-tulosta käsittää energiakiihtyvyyden mittaamisen signaa-lisisääntulosta, joka otetaan suodatinvahvistuksen mel-suodatetusta spektriesityksestä, joka mudostetaan kaksois-Wiener-suodattimen ensimmäisessä asteessa.
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB0201585 | 2002-01-24 | ||
GB0201585A GB2384670B (en) | 2002-01-24 | 2002-01-24 | Voice activity detector and validator for noisy environments |
PCT/EP2003/000271 WO2003063138A1 (en) | 2002-01-24 | 2003-01-10 | Voice activity detector and validator for noisy environments |
EP0300271 | 2003-01-10 |
Publications (2)
Publication Number | Publication Date |
---|---|
FI20041013A FI20041013A (fi) | 2004-09-22 |
FI124869B true FI124869B (fi) | 2015-02-27 |
Family
ID=9929648
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FI20041013A FI124869B (fi) | 2002-01-24 | 2004-07-22 | Ääniaktiviteetin tunnistin ja hyväksyjä kohinallisia ympäristöjä varten |
Country Status (6)
Country | Link |
---|---|
JP (2) | JP2005516247A (fi) |
KR (2) | KR100976082B1 (fi) |
CN (1) | CN1307613C (fi) |
FI (1) | FI124869B (fi) |
GB (1) | GB2384670B (fi) |
WO (1) | WO2003063138A1 (fi) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100657912B1 (ko) * | 2004-11-18 | 2006-12-14 | 삼성전자주식회사 | 잡음 제거 방법 및 장치 |
JP4758879B2 (ja) * | 2006-12-14 | 2011-08-31 | 日本電信電話株式会社 | 仮音声区間決定装置、方法、プログラム及びその記録媒体、音声区間決定装置、方法 |
GB2450886B (en) | 2007-07-10 | 2009-12-16 | Motorola Inc | Voice activity detector and a method of operation |
WO2010048999A1 (en) * | 2008-10-30 | 2010-05-06 | Telefonaktiebolaget Lm Ericsson (Publ) | Telephony content signal discrimination |
CN102044241B (zh) * | 2009-10-15 | 2012-04-04 | 华为技术有限公司 | 一种实现通信***中背景噪声的跟踪的方法和装置 |
US9165567B2 (en) | 2010-04-22 | 2015-10-20 | Qualcomm Incorporated | Systems, methods, and apparatus for speech feature detection |
US8898058B2 (en) | 2010-10-25 | 2014-11-25 | Qualcomm Incorporated | Systems, methods, and apparatus for voice activity detection |
KR101196518B1 (ko) | 2011-04-05 | 2012-11-01 | 한국과학기술연구원 | 실시간 음성 활동 검출 장치 및 검출 방법 |
RU2544293C1 (ru) * | 2013-10-11 | 2015-03-20 | Сергей Александрович Косарев | Способ измерения физической величины с помощью мобильного электронного устройства и внешнего блока |
US9953661B2 (en) * | 2014-09-26 | 2018-04-24 | Cirrus Logic Inc. | Neural network voice activity detection employing running range normalization |
CN104575498B (zh) * | 2015-01-30 | 2018-08-17 | 深圳市云之讯网络技术有限公司 | 有效语音识别方法及*** |
JP2016167678A (ja) * | 2015-03-09 | 2016-09-15 | 株式会社リコー | 通信装置、通信システム、ログデータ蓄積方法、及びプログラム |
CN109841223B (zh) * | 2019-03-06 | 2020-11-24 | 深圳大学 | 一种音频信号处理方法、智能终端及存储介质 |
US11217262B2 (en) * | 2019-11-18 | 2022-01-04 | Google Llc | Adaptive energy limiting for transient noise suppression |
KR102453919B1 (ko) | 2022-05-09 | 2022-10-12 | (주)피플리 | 인공지능 기반 문화 콘텐츠 관련 가이드 음원의 검증 방법, 장치 및 시스템 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IT1209561B (it) * | 1983-07-14 | 1989-08-30 | Gte Laboratories Inc | Rivelazione complementare della parola. |
JP2559475B2 (ja) * | 1988-09-22 | 1996-12-04 | 積水化学工業株式会社 | 音声検出方式 |
JPH03114100A (ja) * | 1989-09-28 | 1991-05-15 | Matsushita Electric Ind Co Ltd | 音声区間検出装置 |
JP3024447B2 (ja) * | 1993-07-13 | 2000-03-21 | 日本電気株式会社 | 音声圧縮装置 |
JP3109978B2 (ja) * | 1995-04-28 | 2000-11-20 | 松下電器産業株式会社 | 音声区間検出装置 |
US5774849A (en) | 1996-01-22 | 1998-06-30 | Rockwell International Corporation | Method and apparatus for generating frame voicing decisions of an incoming speech signal |
JPH10171497A (ja) * | 1996-12-12 | 1998-06-26 | Oki Electric Ind Co Ltd | 背景雑音除去装置 |
US5946649A (en) * | 1997-04-16 | 1999-08-31 | Technology Research Association Of Medical Welfare Apparatus | Esophageal speech injection noise detection and rejection |
JP3297346B2 (ja) * | 1997-04-30 | 2002-07-02 | 沖電気工業株式会社 | 音声検出装置 |
JPH10327089A (ja) * | 1997-05-23 | 1998-12-08 | Matsushita Electric Ind Co Ltd | 携帯電話装置 |
JPH113091A (ja) * | 1997-06-13 | 1999-01-06 | Matsushita Electric Ind Co Ltd | 音声信号の立ち上がり検出装置 |
US6032116A (en) * | 1997-06-27 | 2000-02-29 | Advanced Micro Devices, Inc. | Distance measure in a speech recognition system for speech recognition using frequency shifting factors to compensate for input signal frequency shifts |
FR2768544B1 (fr) * | 1997-09-18 | 1999-11-19 | Matra Communication | Procede de detection d'activite vocale |
JP4221537B2 (ja) * | 2000-06-02 | 2009-02-12 | 日本電気株式会社 | 音声検出方法及び装置とその記録媒体 |
-
2002
- 2002-01-24 GB GB0201585A patent/GB2384670B/en not_active Expired - Lifetime
-
2003
- 2003-01-10 CN CNB038026821A patent/CN1307613C/zh not_active Expired - Lifetime
- 2003-01-10 KR KR1020097022615A patent/KR100976082B1/ko active IP Right Grant
- 2003-01-10 KR KR10-2004-7011459A patent/KR20040075959A/ko not_active Application Discontinuation
- 2003-01-10 JP JP2003562919A patent/JP2005516247A/ja active Pending
- 2003-01-10 WO PCT/EP2003/000271 patent/WO2003063138A1/en active Application Filing
-
2004
- 2004-07-22 FI FI20041013A patent/FI124869B/fi active IP Right Grant
-
2009
- 2009-11-02 JP JP2009251650A patent/JP2010061151A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
GB2384670A (en) | 2003-07-30 |
WO2003063138A1 (en) | 2003-07-31 |
GB2384670B (en) | 2004-02-18 |
FI20041013A (fi) | 2004-09-22 |
KR100976082B1 (ko) | 2010-08-16 |
JP2005516247A (ja) | 2005-06-02 |
KR20090127182A (ko) | 2009-12-09 |
KR20040075959A (ko) | 2004-08-30 |
CN1623186A (zh) | 2005-06-01 |
GB0201585D0 (en) | 2002-03-13 |
CN1307613C (zh) | 2007-03-28 |
JP2010061151A (ja) | 2010-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
FI124869B (fi) | Ääniaktiviteetin tunnistin ja hyväksyjä kohinallisia ympäristöjä varten | |
JP3878482B2 (ja) | 音声検出装置および音声検出方法 | |
CN101010722B (zh) | 用于检测语音信号中话音活动的设备和方法 | |
US8977556B2 (en) | Voice detector and a method for suppressing sub-bands in a voice detector | |
FI116643B (fi) | Kohinan vaimennus | |
KR100883712B1 (ko) | 음원 방향 추정 방법, 및 음원 방향 추정 장치 | |
US9524735B2 (en) | Threshold adaptation in two-channel noise estimation and voice activity detection | |
US8751221B2 (en) | Communication apparatus for adjusting a voice signal | |
US9368112B2 (en) | Method and apparatus for detecting a voice activity in an input audio signal | |
CN103077727A (zh) | 一种用于语音质量监测和提示的方法和装置 | |
WO1997022117A1 (en) | Method and device for voice activity detection and a communication device | |
EP1977528A1 (en) | Apparatus and method for detecting frame boundary in wireless communication system | |
US8280726B2 (en) | Gender detection in mobile phones | |
US20110254688A1 (en) | User state recognition in a wireless communication system | |
KR101298434B1 (ko) | 무선 통신 시스템의 스펙트럼 점유를 검출하는 스펙트럼검출 장치 및 스펙트럼 검출 방법 | |
EP2100293A1 (en) | Method and apparatus for robust speech activity detection | |
US8788265B2 (en) | System and method for babble noise detection | |
US6708023B1 (en) | Method and apparatus for noise suppression of received audio signal in a cellular telephone | |
KR101336203B1 (ko) | 전자기기에서 음성 검출 방법 및 장치 | |
RU2427079C1 (ru) | Способ оценки состояний мобильного устройства пользователя в системе беспроводной связи | |
JPH10177397A (ja) | 音声検出方法 | |
EP1269462B1 (en) | Voice activity detection apparatus and method | |
EP1551006A1 (en) | Apparatus and method for voice activity detection | |
KR20050088698A (ko) | 휴대폰의 음성구간 검출방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
GB | Transfer or assigment of application |
Owner name: MOTOROLA MOBILITY, INC. Free format text: MOTOROLA MOBILITY, INC. |
|
PC | Transfer of assignment of patent |
Owner name: MOTOROLA MOBILITY LLC |
|
FG | Patent granted |
Ref document number: 124869 Country of ref document: FI Kind code of ref document: B |
|
PC | Transfer of assignment of patent |
Owner name: GOOGLE TECHNOLOGY HOLDINGS LLC |