FI115328B - Äänen aktiivisuuden ilmaisu - Google Patents

Äänen aktiivisuuden ilmaisu Download PDF

Info

Publication number
FI115328B
FI115328B FI20010933A FI20010933A FI115328B FI 115328 B FI115328 B FI 115328B FI 20010933 A FI20010933 A FI 20010933A FI 20010933 A FI20010933 A FI 20010933A FI 115328 B FI115328 B FI 115328B
Authority
FI
Finland
Prior art keywords
signal
input signal
voice activity
noise
tai
Prior art date
Application number
FI20010933A
Other languages
English (en)
Swedish (sv)
Other versions
FI20010933A (fi
Inventor
Daniel Kenneth Freeman
Ivan Boyd
Original Assignee
Lg Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GB888805795A external-priority patent/GB8805795D0/en
Priority claimed from GB888813346A external-priority patent/GB8813346D0/en
Priority claimed from GB888820105A external-priority patent/GB8820105D0/en
Application filed by Lg Electronics Inc filed Critical Lg Electronics Inc
Publication of FI20010933A publication Critical patent/FI20010933A/fi
Application granted granted Critical
Publication of FI115328B publication Critical patent/FI115328B/fi

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Telephone Function (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Noise Elimination (AREA)
  • Geophysics And Detection Of Objects (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

115328 Äänen aktiivisuuden ilmaisu. - Uttryck för ljudet aktivitet.
Esillä oleva hakemus on jakamalla erotettu hakemuksesta Fl 904410.
5 Äänen aktiivisuuden ilmaisin on laite, jolle syötetään signaali puhejaksojen tai vain kohinaa sisältävien jaksojen ilmaisemista varten. Vaikka esillä oleva keksintö ei rajoitu tähän, tällaisten ilmaisinten eräänä erikoisen mielenkiintoisena sovelluskohteena ovat matkaradiopuhelinjärjestelmät, joissa puhekooderi voi käyttää tietoa puheen esiintymisestä tai puuttumisesta parantamaan radiospek-10 trin hyväksikäyttöä ja joissa myös kohinataso (kulkuvälineeseen asennetusta yksiköstä) on todennäköisesti suuri.
Äänen aktiivisuuden ilmaisun olennaisena sisältönä on löytää mitta, joka eroaa selvästi puhejaksoilla ja puheettomilla jaksoilla. Puhekooderin sisältävässä lait-15 teessä kooderin eri asteista voidaan saada helposti useita parametrejä ja tarvittavaa prosessointia on tämän vuoksi suotavaa vähentää käyttämällä jotakin tällaista parametria. Monissa ympäristöissä pääkohinalähteet esiintyvät taajuus-spektrin määrätyillä tunnetuilla alueilla. Esimerkiksi liikkuvassa autossa suuri osa kohinasta (esim. moottorin melu) keskittyy spektrin pientaajuisille alueille.
20 Kun tällaista tietoa kohinan spektriasemasta on käytettävissä, päätös puheen esiintymisestä tai puuttumisesta on edullista perustaa mittauksiin, jotka on suo-·.·, ritettu spektrin siinä osassa, joka sisältää suhteellisen vähän kohinaa. Käytän- :· .·. nössä olisi luonnollisesti mahdollista suodattaa signaali ennakolta ennen pu-
• I
heen aktiivisuuden ilmaisemiseksi suoritettua analyysia, mutta silloin kun äänen . 25 aktiivisuuden ilmaisin seuraa puhekooderin lähtöä, esisuodatus vääristäisi koo- dattavaa äänisignaalia.
Keksintö kohdistuu siten äänen aktiivisuuden ilmaisinlaitteeseen, joka käsittää: ‘ : 30 (i) ensimmäisen äänen aktiivisuuden ilmaisimen, joka toimii muodostamalla ', mitan tulosignaalin osan ja tulosignaalin sellaisen osan, jonka katsotaan ! / olevan vapaa puheesta, väliselle spektraaliselle samankaltaisuudelle läh- tösignaalin tuottamiseksi, joka osoittaa puheen esiintymisen tai puuttumisen tulosignaalissa; 115328 2 (ii) muistin tallentamaan dataan, joka on saatu mainitusta puheesta vapaasta osasta; ja (iii) äänen aktiivisuuden lisäilmaisimen; 5 jolle on tunnusomaista, että äänen aktiivisuuden lisäilmaisin ohjaa muistin päivitystä, jolloin äänen aktiivisuuden lisäilmaisin toimii muodostamalla mitan tulo-signaalin sen hetkisen osan ja tulosignaalin aiemman osan väliselle spektraa-liselle samankaltaisuudelle.
10 Mitta on edullisesti Itakura-Saito-vääristymämitta.
Esillä olevan keksinnön muut muodot ovat patenttivaatimuksissa määritellyn mukaisia.
15 Keksinnön erästä suoritusmuotoa selitetään seuraavassa esimerkkinä oheisiin piirustuksiin viitaten, joissa:
Kuviot 1 ja 2 esittävät keksinnön erään suoritusmuodon mahdollisia komponentteja, ja 20
Kuvio 3 esittää esillä olevan keksinnön erästä edullista suoritusmuotoa.
• t : *. ·. Keksinnön yhden suoritusmuodon mukaisen ensimmäisen äänen aktiivisuuden . ·: ·. ilmaisimen perustana oleva yleinen periaate on seuraava.
• · » 25 ....: Kehyksestä, jossa on n signaalinäytettä (s0, sv s2, s3, s4 ... sn-1), saadaan, kun se johdetaan neljännen kertaluvun äärellisen impulssivasteen (FIR) digitaalisen • %» laskentasuotimen kautta, jonka impulssivaste on (1, h0, h1p h2, h3), tuloksena t: suodatettu signaali (kun näytteet aikaisemmista kehyksistä jätetään huomiotta) 30 s’= (So), :· (s.| + h0s0), j’ (s2 + h0s.| + h-|S0), 3 115328 (s3 + h0s2 + h1s1 + h2s0) (s4 + h0s3 + h1s2 + h^ + h-|S0), (s5 + h0s4 + h1s3 + h2s2 + hgs^, (s 6 + h0s5 + h1s4 + h2s3 + h3s2), 5 (s7...)
Kertaluvun nolla autokorrelaatiokerroin on termien neliösumma, joka voidaan normalisoida ts. jakaa termien kokonaislukumäärällä (kehysten ollessa vakio-pituisia jakolasku on helpointa jättää pois). Suodatetun signaalin kerroin on 10 siten
R’o = ΣW
i=0 15 ja tämä muodostaa siten mitan laskennallisen suodatetun signaalin s’ - toisin sanoen laskentasuotimen päästökaistan sisälle osuvan signaalin s osan -teholle.
Kun lauseke ratkaistaan, saadaan jätettäessä 4 ensimmäistä termiä huomiotta 20 R o = (s4 + ^os3 + h-|S2 + h2s1 + h3s0) + (s5 + h0s4 + h1s3 + h2s2 + h3s / • * * + ...
• « : 25 = S4 + h0s4s3 + h.,s4s2 + h2s4s1 + h3s4s0 + hoS4s3 + hgSo + hoh-|S3s2 + h0h2s3s1 + h0h3s3s0
* * h^s4s2 + hQh.|S3s2 + h^Sj + h^h2s2s-| + h^h3s2SQ
1,,, * ^ h2s4s1 + h0h1s3s1 + h1h2s2s1 ^ h2S^ 4· h2h3s^SQ
+ h3s4s0 + h0h3s3s0 +h1h3s2s0 + h^s^o + h23s20 30 +...
!;> = R0 (1 + ho + h, + hj + hj) : + R-, (2h0 + 2h0h1 +2h1h2 + 2h2h3) + R2 (2h^ + 2h^h3 + 2hgh2) ,:. + R3 (2h2 + 2h0h3) 35 +R4(2h3) I i > 115328 4 R'o voidaan siten saada autokorrelaatiokertoimien Rj yhdistelmästä painotettuina suluissa olevilla vakioilla, jotka määräävät taajuuskaistan, jossa kertoimen R'0 arvo vaikuttaa. Suluissa olevat termit ovat itse asiassa laskentasuotimen impulssivasteen autokorrelaatiokertoimia, joten edellä esitetty lauseke voidaan 5 yksinkertaistaa muotoon
N
R'o * R0H0 + 2 Σ RA..................................(1) i=1 10 missä N on suotimen kertaluku ja Hj ovat suotimen impulssivasteen (normali-soimattomia) autokorrelaatikertoimia.
Toisin sanoen signaalin suodatuksen vaikutusta signaalin autokorrelaatiokertoi-15 miin voidaan simuloida muodostamalla (suodattamattoman) signaalin autokorrelaatiokertoimien painotettu summa käyttämällä impulssivastetta, joka vaaditulla suotimella olisi ollut.
Suhteellisen yksinkertainen algoritmi, jossa käytetään vain vähän kertolaskutoi-20 mituksia, voi siten simuloida digitaalisen suotimen vaikutusta, jossa tarvitaan tyypillisesti sata kertaa tämä lukumäärä kertolaskutoimituksia.
; >: Suodatustoimitusta voidaan vaihtoehtoisesti tarkastella sen muotoisena spektri- vertailuna, jossa signaalispektriä verrataan vertailuspektriin (laskentasuotimen v · 25 vasteen käänteisarvoon). Koska laskentasuodin valitaan tässä sovelluksessa :,, / siten, että se approksimoi kohinaspektrin käänteisarvoa, tämä toimitus voidaan : "· katsoa puhe- ja kohinaspektrien spektrivertailuksi ja siten kehitetty nollas auto- •, korrelaatiokerroin (ts. käänteissuodatetun signaalin energia) voidaan katsoa spektrien erilaisuuden mitaksi. Itakura-Saito-mittaa käytetään lineaariprediktio- * : 30 koodauksessa LPC prediktorisuotimen ja tulospektrin välisen yhteensopivuuden arvioimiseksi ja se voidaan ilmaista eräässä muodossa *
N
M = RoA0 + 2 Z RA, :· 35 i=i
• 1 I
5 115328 missä Aq jne. ovat LPC-parametrijoukon autokorrelaatiokertoimia. Havaitaan, että lauseke on hyvin samankaltainen kuin edellä johdettu riippuvuus ja kun muistetaan, että LPC-kertoimet ovat sellaisen FIR-suotimen tappeja, jolla on tulosignaalin käänteinen spektrivaste, niin että LPC-kerroinjoukko on kääntei-5 sen LPC-suotimen impulssivaste, on ilmeistä, että Itakura-Saito-vääristymä-mitta on itse asiassa vain yhtälön 1 sellainen muoto, jossa suotimen vaste H on tulosignaalin pelkkiä napoja sisältävän mallin spektrimuodon käänteisarvo.
Itse asiassa on myös mahdollista muuntaa spektrit käyttämällä testispektrin 10 LPC-kertoimia ja vertailuspektrin autokorrelaatiokertoimia erilaisen mitan saamiseksi spektrien samanlaisuudelle.
l-S-vääristymämittaa on käsitelty enemmän julkaisussa A Buzo, A H Gray, R M Gray ja J D Markel, "Speech Coding based upon Vector Quantisation", IEEE 15 Trans on ASSP, Voi ASSP-28, No 5, lokakuu 1980.
Koska signaalikehyksillä on vain äärellinen pituus ja tietty lukumäärä termejä (N, missä N on suotimen kertaluku) jätetään ottamatta huomioon, edellä esitetty tulos on vain likiarvo. Se antaa kuitenkin hämmästyttävän hyvän ilmaisun pu-20 heen esiintymisestä tai puuttumisesta ja sitä voidaan siten käyttää mittana M puheen ilmaisussa. Ympäristössä, jossa kohinaspektri on hyvin tunnettu ja v, muuttumaton, on täysin mahdollista käyttää yksinkertaisesti kiinteitä kertoimia h0, h., jne. käänteisen kohinasuotimen mallintamiseksi.
$ t • t t * t * * · * , ···, 25 Kuitenkin sellaista laitetta, joka voi adaptoitua erilaisiin kohinaympäristöihin, , ’'!; voidaan käyttää yleisemmin.
Kuvion 1 suoritusmuodossa mikrofonista (ei esitetty) tuleva signaali vastaanote- ,.; taan tulossa 1 ja muunnetaan digitaalisiksi näytteiksi s sopivalla näytteenotto- ( » 30 taajuudella analogia-digitaalimuuntimella 2. LPC-analyysiyksikkö 3 (sisältyy tun-*, netun tyyppiseen LPC-kooderiin) johtaa tällöin n (esim. 160) näytteen peräkkäi- i » ;;,: sille kehyksille joukon N (esim. 8 tai 12) LPC-suodinkertoimia Lj, jotka siirretään edustamaan tulevaa puhetta. Puhesignaali s syötetään myös korrelaattoriyksi-.! i * kölle 4 (sisältyy normaalisti osana LPCkooderiin 3, koska myös puheen auto- I i 6 115328 korrelaatiovektori Rj kehitetään LPC-analyysin yhtenä vaiheena, vaikka on selvää, että myös erillistä korrelaattoria voitaisiin käyttää). Korrelaattori 4 kehittää autokorrelaatiovektorin Rj, johon sisältyy nollakertaluvun korrelaatiokerroin R0 ja ainakin kaksi muuta autokorrelaatiokerrointa R1( R2, R3. Ne syötetään tämän 5 jälkeen kertojayksikölle 5.
Toinen tulo 11 on kytketty toiseen mikrofoniin, joka on kaukana puhujasta siten, että tämä mikrofoni vastaanottaa vain taustakohinaa. Tästä mikrofonista tuleva tulo muunnetaan AD-muuntimella 12 digitaaliseksi tulonäytejonoksi ja se LPC-10 analysoidaan toisella LPC-analysaattorilla 13. Analysaattorista 13 kehitetyt "kohina"-LPC-kertoimet johdetaan korrelaattoriyksikölle 14 ja siten kehitetty autokorrelaattorivektori kerrotaan termeittäin puhemikrofonista tulevan tulosig-naalin autokorrelaatiokertoimien Rj kanssa kertojassa 5 ja siten kehitetyt painotetut kertoimet yhdistetään summaimessa 6 yhtälön 1 mukaan, jotta saataisiin 15 suodinvaikutus, jolla on pelkkää kohinaa havaitsevan mikrofonin kohinaspektriin (joka on käytännössä sama kuin kohinaspektrin muoto signaalin ja kohinan vastaanottavassa mikrofonissa) nähden käänteinen muoto ja joka siten suodattaa pois suurimman osan kohinasta. Tuloksena olevaa mittaa M verrataan kynnysarvoon kynnysarvopiirissä 7 logiikkalähdön 8 kehittämiseksi, joka ilmaisee pu-20 heen esiintymisen tai puuttumisen. Jos M on suuri, puheen katsotaan esiinty-*.*. vän.
. · :*. Tämä suoritusesimerkki vaatii kuitenkin kaksi mikrofonia ja kaksi LPC-analy- .' “. saattona, mikä lisää tarvittavan laitteiston kustannuksia ja monimutkaisuutta.
25 . ·' ·. Toisessa suoritusmuodossa käytetään vaihtoehtoisesti vastaavaa mittaa, joka muodostettu käyttämällä kohinamikrofonista 11 saatuja autokorrelaatioita ja •:: päämikrofonista 1 saatuja LPC-kertoimia, joten ylimääräisen LPC-analysaatto- •"': rin sijasta tarvitaan ylimääräinen autokorrelaattori.
,30 Nämä suoritusmuodot voivat siten toimia erilaisissa ympäristöissä, joissa esiintyy kohinaa eri taajuuksilla, tai kohinaspektrin muuttuessa määrätyssä ympäristössä.
7 115328
Kuvion 2 suoritusmuodossa on puskuri 15, johon on tallennettu LPC-kerroin-joukko (tai joukon autokorrelaatiovektori), joka on johdettu mikrofonitulosta 1 sellaisen jakson aikana, joka on tunnistettu "puheettomaksi" jaksoksi (ts. pelkäksi kohinajaksoksi). Näitä kertoimia käytetään tämän jälkeen mitan johtami-5 seksi käyttämällä yhtälöä 1, joka mitta myös tietenkin vastaa Itakura-Saito-vää-ristymämittaa, paitsi että tällöin käytetään yhtä tallennettua LPC-kerrointen kehystä, joka vastaa käänteisen kohinaspektrin approksimaatiota, eikä sen hetkistä LPC-kerrointen kehystä.
10 Analysaattorin 3 antama LPC-kerroinvektori johdetaan myös korrelaattorille 14, joka muodostaa LPC-kerroinvektorin autokorrelaatiovektorin. Kynnysarvopiirin 7 puhe/puheetonlähtö ohjaa puskurimuistia 15 sillä tavalla, että puskuri säilyttää "puhekehysten" aikana "kohinan" autokorrelaatiokertoimet, mutta "kohinakehys-ten" aikana voidaan käyttää uutta LPC-kerrointen joukkoa puskurin päivittämi- 15 seksi, esimerkiksi monikkokytkimellä 16, jonka välityksellä korrelaattorin 14 lähdöt, joissa kussakin on autokorrelaatiokerroin, on kytketty puskuriin 15. On selvää, että korrelaattori 14 voitaisiin sijoittaa puskurin 15 jälkeen. Lisäksi puhe/pu-heeton-päätöstä kerrointen päivittämiseksi ei tarvitse tehdä lähdöstä 8, vaan se voitaisiin johtaa (ja edullisesti johdetaan) muulla tavalla.
20 •. . Koska puheettomia jaksoja esiintyy usein, puskuriin tallennetut LPC-kertoimet • » : v. tulevat päivitetyiksi ajoittain, niin että laite kykenee siten seuraamaan kohina- . : ·. spektrin muutoksia, on selvää että tällainen puskurin päivitys saattaa olla tar- . · ·. peen vain satunnaisesti tai se voi tapahtua vain kerran ilmaisimen toiminan ....: 25 alussa, jos (kuten usein on asianlaita) kohinaspektri on ajallisesti suhteellisen .' · *; muuttumaton, mutta matkaradiopuhelinympäristössä usein tapahtuva päivitys •»· on edullisempi.
.' *': Tämän suoritusesimerkin eräässä muunnoksessa järjestelmä käyttää aluksi . ‘ . 30 yhtälöä 1 kerrointermien vastatessa yksinkertaista kiinteää ylipäästösuodinta ja ‘* tämän jälkeen järjestelmä alkaa adaptoitua siirtymällä käyttämään "kohinajak- ' i ‘ son" LPC-kertoimia. Jos puheenilmaisu jostakin syystä epäonnistuu, järjestelmä
I I I
• · ·: voi palata käyttämään yksinkertaista ylipäästösuodinta.
» · 8 115328
Edellä esitetty mitta voidaan normalisoida jakamalla arvolla R0, niin että lauseke, jota verrataan kynnysarvoon, on muodoltaan n RjAj 5 M=Ao + 2£--- i=1 R0 Tämä mitta on riippumaton kehyksen kokonaissignaalienergiasta ja kokonais-signaalitason muutokset on siten kompensoitu siinä, mutta se antaa heikom-10 man kontrastin "kohina-" ja "puhetasojen" välillä ja sitä ei tämän vuoksi edullisimmin käytetä erittäin häiriöllisissä ympäristöissä.
Sen sijaan että käytettäisiin LPC-analyysiä kohinasignaalin känteisen suotimen kertoimien johtamiseen (joko kohinamikrofonista tai pelkkää kohinaa sisältävis-15 tä jaksoista, kuten edellä selitetyissä eri esimerkeissä), käänteinen kohinaspek-tri on mahdollista mallintaa käyttämällä tunnetun tyyppistä adaptiivista suodinta. Koska kohinaspektri muuttuu vain hitaasti (kuten seuraavassa selitetään), tällaisissa suotimissa tavallinen suhteellisen hidas kertoimien adaptoitumisnopeus voidaan hyväksyä. Eräässä suoritusmuodossa, joka vastaa kuviota 1, LPC-ana-20 lyysiyksikkö 13 korvataan yksinkertaisesti adaptiivisella suotimella (esimerkiksi FIR-poikittaissuotimella tai verkkosuotimella), joka on kytketty siten, että se te-; kee tulevan kohinan valkoisemmaksi mallintamalla käänteistä suodinta, ja sen | *]: kertoimet syötetään kuten edellä autokorrelaattorille 14.
• » · :, t / 25 Eräässä toisessa suoritusmuodossa, joka vastaa kuvion 2 suoritusmuotoa, LPC-analyysiväline 3 on korvattu tällaisella adaptiivisella suotimella, ja puskuri-:,, ,·* väline 15 jätetään pois, mutta kytkin 16 toimii siten, että se estää adaptiivista suodinta adaptoimasta kertoimiaan puhejaksojen aikana.
* * » · 4 · > 30 Seuraavassa selitetään toista äänen aktiivisuuden ilmaisinta, joka on tarkoitettu käytettäväksi keksinnön erään suoritusmuodon yhteydessä.
• ' Edellä olevan perusteella on selvää, että LPC-kerroinvektori on yksinkertaisesti sellaisen FIR-suotimen impulssivaste, jonka vaste approksimoi tulosignaalin 35 käänteistä spektrimuotoa. Kun muodostetaan viereisten kehysten välinen 9 115328
Itakura-Saito-vääristymämitta, tämä on itse asiassa yhtä suuri kuin signaalin teho edellisen kehyksen LPC-suotimen suodattamana. Siten jos viereisten kehysten spektrit eroavat vähän, vastaava pieni päärä kehyksen spektritehosta jää suodattamatta ja mitta on pieni. Vastaavasti kehysten välinen suuri ero kehittää 5 suuren Itakura-Saito-vääristymämitan, niin että mitta kuvastaa vierekkäisten kehysten spektraalista samankaltaisuutta. Puhekooderissa on toivottavaa minimoida datataajuus, joten kehyksen pituus tehdään niin suureksi kuin mahdollista. Toisin sanoen jos kehyksen pituus on tarpeeksi suuri, tällöin puhesignaalissa olisi esiinnyttävä huomattava spektrimuutos kehysten välillä (jos näin ei ole, 10 kyseessä on ylimääräkoodaus). Kohinalla on toisaalta spektrimuoto, joka vaih-telee hitaasti kehyksestä toiseen, ja siten jaksolla, jossa signaalissa ei esiinny puhetta, Itakura-Saito-vääristymämitta on siten vastaavasti pieni - koska aikaisemman kehyksen käänteisen LPC-suotimen käyttäminen "suodattaa pois" suurimman osan kohinatehosta.
15
Itakura-Saito-vääristymämitta ajoittaista puhetta sisältävän kohinaisen signaalin vierekkäisten kehysten välillä on tyypillisesti suurempi puhejaksojen aikana kuin kohinajaksojen aikana. Vaihtelun aste (standardipoikkeaman kuvaamana) on myös suurempi ja vähemmän ajoittain vaihteleva.
20 on huomattava, että mitan M standardipoikkeaman standardipoikkeama on myös luotettava mitta. Kunkin standardipoikkeaman muodostamisen vaikutus : -. itse asiassa tasoittaa mittaa.
11 · ,,,,: 25 Tässä äänen aktiivisuuden ilmaisimen toisessa muodossa mitattu parametri, , jota käytetään päätettäessä esiintyykö puhetta, on edullisesti Itakura-Saito-vää ristymämitan standardipoikkeama, mutta myös muita vaihtelumittoja ja muita ., spektrivääristymän mittoja (jotka perustuvat esimerkiksi FFT-analyysiin) voitai- ,· ·. siin käyttää.
30 :Adaptiivisen kynnyksen käyttö äänen aktiivisuuden ilmaisussa on havaittu edul-'liseksi. Tällaisia kynnyksiä ei saa asetella puhejaksojen aikana tai muuten pu-hesignaali tulee leikatuksi. Kynnyksenadaptointipiiriä on tämän vuoksi ohjattava > * * · 10 115328 käyttämällä puhe/puheeton-ohjaussignaalia ja tämän ohjaussignaalin tulisi edullisesti olla kynnyksenadaptointipiirin lähdöstä riippumaton.
Kynnys T asetellaan adaptiivisesti siten, että kynnysarvo pidetään juuri mitan M 5 tason yläpuolella pelkän kohinan esiintyessä. Koska mitta vaihtelee yleensä satunnaisesti kohinan esiintyessä, kynnystä muutetaan määräämällä keskimääräinen taso useiden lohkojen aikana ja kynnys asetetaan tähän keskiarvoon verrannolliselle tasolle. Tämä ei kuitenkaan yleensä riitä kohinaisessa ympäristössä ja siten myös parametrin vaihtelun asteen määritys useiden lohkojen 10 ajalta otetaan myös huomioon.
Kynnysarvo T lasketaan siten edullisesti seuraavan lausekkeen mukaan T = M’ + K.d 15 missä M’ on mitan keskiarvo useiden peräkkäisten kehysten yli, d on mitan standardipoikkeama näiden kehysten aikana ja K on vakio (joka voi olla tyypillisesti 2).
20 Käytännössä on edullista, että adaptoimista ei aloiteta uudelleen välittömästi sen jälkeen, kun puheen on ilmaistu puuttuvan, vaan että odotetaan sen var- • · ^ mistamiseksi, että pudotus on stabiili (jotta vältettäisiin nopea toistuva kytkentä adaptoituvan ja ei-adaptoituvan tilan välillä).
25 Kuten kuviosta 3 ilmenee, edellä mainitut piirteet sisältävässä esillä olevan kek-,* · ·. sinnön eräässä edullisessa suoritusmuodossa tulo 1 vastaanottaa signaalin, josta on otettu näytteitä ja joka on muunnettu digitaaliseksi analogia-digitaali-,muuntimen (ADC) 2 avulla ja signaali syötetään käänteisen suotimen analy-saattorin 3 tuloon, joka käytännössä kuuluu osana siihen puhekooderiin, jonka 30 kanssa äänen aktiivisuuden ilmaisimen on tarkoitus toimia ja joka kehittää tulo-;signaalispektrin käänteisarvoa vastaavan suotimen kertoimet Li (tyypillisesti 8).
• Digitalisoitu signaali syötetään myös autokorrelaattorille 4 (joka sisältyy osana analysaattoriin 3), joka kehittää tulosignaalin autokorrelaatiovektorin R| (tai aina-:kin yhtä monta kertaluvultaan alempaa termiä kuin LPC-kertoimia on). Laitteen 11 115328 näiden osien toiminta on kuvioissa 1 ja 2 selitetyn mukainen. Tällöin muodostetaan edullisesti autokorrelaatiokertoimien Ri keskiarvot useiden peräkkäisten puhekehysten yli (pituus tyypillisesti 5-20 ms) niiden luotettavuuden parantamiseksi. Tämä voidaan saada aikaan tallentamalla jokainen autokorrelaattorin 4 5 antama autokorrelaatiokertoimien joukko puskuriin 4a ja käyttämällä keskiar-vonmuodostajaa 4b sen hetkisten autokorrelaatiokertoimien Rj ja puskuriin 4a tallennettujen ja sieltä syötettyjen aikaisempien kehysten kertoimien painotetun summan muodostamiseksi. Siten johdetut keskimääräiset autokorrelaatiokertoi-met Ra, syötetään painotus- ja summausvälineille 5, 6, jotka vastaanottavat 10 myös tallennetut kohinajakson käänteisen suotimen suodinkertoimien Lf auto-korrelaatiovektorin Aj autokorrelaattorilta 14 puskurin 15 kautta ja jotka muodostavat arvoista Raj ja A, mitan M, joka on edullisesti määritelty seuraavasti:
RajAj 15 M = A0 + 2£ ------
Ro Tätä mittaa verrataan tämän jälkeen kynnystasoon kynnysarvopiirissä 7 ja looginen tulos antaa ilmaisun puheen esiintymisestä tai puuttumisesta lähdöstä 8.
20
Jotta käänteisen suotimen kertoimet L| vastaisivat kohtuullista estimaattia kohi-·': naspektrin käänteisarvosta, nämä kertoimet on suotavaa päivittää kohinajakso- ': jen aikana (ja tietenkin olla päivittämättä puhejaksojen aikana), on kuitenkin • : edullista, että puhe/puheeton-päätös, johon päivitys perustuu, ei riipu päivityk- :" 25 sen tuloksesta tai muuten yksi ainoa väärin tunnistettu signaalikehys voi aiheut- taa äänen aktiivisuuden ilmaisimen "lukituksen katoamisen" tämän jälkeen ja :' ': seuraavien kehysten virheellisen tunnistamisen. Tämän vuoksi on edullista käyttää ohjaussignaalinkehityspiiriä 20, joka on itse asiassa erillinen äänen i aktiivisuuden ilmaisin, joka muodostaa riippumattoman ohjaussignaalin, joka ' : 30 osoittaa puheen esiintymisen tai puuttumisen, käänteisen suotimen analysaat torin 3 (eli puskurin 8) ohjaamiseksi, niin että mitan M muodostamiseen käytet-tyjä käänteisen suotimen autokorrelaatiokertoimia Aj päivitetään vain "kohina-jaksojen" aikana. Ohjaussignaalinkehityspiiri 20 sisältää LPC-analysaattorin 21 ;;; (joka myös voi kuulua osana puhekooderiin ja jonka erikoisesti voi toteuttaa 35 analysaattori 3), joka kehittää tulosignaalia vastaavan LPC-kerrointen Mj jou- 12 115328 kon, ja autokorrelaattorin 21a (jonka voi toteuttaa autokorrelaattori 3a), joka johtaa kertoimien Mj autokorrelaatiokertoimet Bj. Jos analysaattorin 21 toteuttaa analysaattori 3, tällöin Mj = Ls ja Bj = Aj. Nämä autokorrelaatiokertoimet syötetään tällöin painotus-ja summausvälineille 22, 23 (vastaavat elimiä 5, 6), jotka 5 vastaanottavat myös tulosignaalin autokorrelaatiovektorin Rj autokorrelaattorilta 4. Siten lasketaan mitta spektraaliselle samankaltaisuudelle tulevan puhekehyk-sen ja edellisen puhekehyksen välillä. Tämä mitta voi olla Itakura-Saito-vääris-tymämitta sen hetkisen kehyksen kertoimien Rj ja edellisen kehyksen kertoimien Bj välillä, kuten edellä on esitetty, tai se voidaan sen sijaan johtaa laske-10 maila Itakura-Saito-vääristymämitta sen hetkisen kehyksen kertoimille Rj ja Bj ja vähentämällä (vähennyslaskuelimessä 25) puskuriin 24 tallennettu vastaava aikaisempi mitta spektrierosignaalin kehittämiseksi (kummassakin tapauksessa mitan energia normalisoidaan jakamalla arvolla R0). Tämän jälkeen puskuri 24 luonnollisesti päivitetään. Tämä spektrierosignaali muodostaa edellä selitetyn 15 mukaisen kynnysarvopiirissä 26 suoritetun kynnysarvovertailun jälkeen ilmaisi men puheen esiintymiselle tai puuttumiselle, olemme kuitenkin havainneet, että vaikka tämä mitta on erinomainen kohinan erottamiseksi ääntiöttömästä puheesta (tehtävä, johon tunnetut järjestelmät eivät yleensä pysty), se kykenee yleensä jonkin verran huonommin erottamaan kohinan ääntiöllisestä puheesta.
20 Tämän mukaisesti piirissä 20 käytetään edullisesti lisäksi ääntiöllisen puheen ilmaisinpiiriä, jossa on äänenkorkeuden analysaattori 27 (joka voi käytännössä ! toimia puhekooderin osana ja voi erikoisesti mitata monipulssi-LPC-kooderissa syntyvää pitkäaikaista prediktorin viivearvoa). Äänenkorkeuden analysaattori 27 kehittää loogisen signaalin, joka on "tosi", kun ääntiöllinen puhe havaitaan, ja ' ‘ ‘; 25 tämä signaali johdetaan yhdessä kynnysarvopiiriltä 26 johdetun kynnysarvover- .. , taillun mitan kanssa (joka on yleensä "tosi" ääntiöttömän puheen esiintyessä) TAI-EI-portin 28 tuloihin signaalin kehittämiseksi, joka on "epätosi" puheen esiintyessä ja "tosi" kohinan esiintyessä. Tämä signaali syötetään puskuriin 8 ·. (tai käänteisen suotimen analysaattorille 3), niin että käänteisen suotimen ker- 30 toimia Li päivitetään vain kohinajaksojen aikana.
1 I
;·’ Kynnyksenadaptointipiiri 29 on myös kytketty vastaanottamaan ohjaussignaali- * ;·* generaattoripiirin 20 puheettoman signaalin ohjauslähdön. Kynnyksenadap- > t · ,,tointipiirin 29 lähtö syötetään kynnysarvopiirille 7. Kynnyksenadaptointipiiri suu- 115328 13 rentaa tai pienentää kynnystä portaissa, jotka ovat verrannollisia sen hetkiseen kynnysarvoon, kunnes kynnys approksimoi kohinatehotasoa (joka voidaan käytännöllisesti johtaa esimerkiksi painotus- ja summauspiireistä 22, 23).
5 Kun tulosignaali on erittäin alhainen, saattaa olla edullista, että kynnys asetetaan automaattisesti kiinteään alhaiseen tasoon, koska analogia-digitaalimuun-timen 2 synnyttämä signaalin kvantisointivaikutus saattaa aiheuttaa alhaisilla signaalitasoilla epäluotettavia tuloksia.
10 Lisäksi voidaan käyttää "ylityksen" kehittäviä välineitä 30, jotka mittaavat puheilmaisujen kestot kynnysarvopiirin 7 jälkeen, ja kun puheen esiintymisen on ilmaistu jatkuvan ennaltamäärätyn aikavakion yli, lähtö pidetään ylemmässä tilassa lyhyen "ylitysjakson" ajan. Tällä tavalla vältetään pientasoisten puhe-purskeiden leikkautuminen keskeltä ja aikavakion oikea valinta estää ylitys-15 generaattorin 30 liipaisun lyhyiden, virheellisesti puheeksi ilmaistujen kohina-piikkien vaikutuksesta.
on luonnollisesti selvää, että kaikki edellä mainitut toiminnat voi suorittaa yksi sopivasti ohjelmoitu digitaalinen prosessoriväline, kuten digitaalinen signaalin-20 käsittelypiiri (DSP), joka on siten toteutetun LPC-koodekin osana (tämä on . . parhaana pidetty toteutus), tai sopivasti ohjelmoitu mikrotietokone tai mikrokont- rolleripiiri siihen liittyvine muistilaitteineen.
I · · I · * t · I . ’ Kuten edellä on selitetty, äänen ilmaisulaite voidaan käytännöllisesti toteuttaa I * ’ ’ . 25 LPC-koodekin osana. Vaihtoehtoisesti kun signaalin autokorrelaatiokertoimet t > * tai niihin liittyvät mitat (osittaiskorrelaatio eli "parcor"-kertoimet) lähetetään t · I · etäällä olevalle asemalle äänen ilmaisu voi tapahtua kaukana koodekista.
* · » . » < · » 1 f I • : I · I · « • t * ·

Claims (7)

115328 14 1. Äänen aktiivisuuden ilmaisinlaite, joka käsittää: 5 (i) ensimmäisen äänen aktiivisuuden ilmaisimen (3-6, 14), joka toimii muo dostamalla mitan tulosignaalin osan ja tulosignaalin sellaisen osan, jonka katsotaan olevan vapaa puheesta, väliselle spektraaliselle samankaltaisuudelle lähtösignaalin tuottamiseksi, joka osoittaa puheen esiintymisen tai puuttumisen tulosignaalissa; 10 (ii) muistin (15) tallentamaan dataan, joka on saatu mainitusta puheesta vapaasta osasta; ja (iii) äänen aktiivisuuden lisäilmaisimen (20); tunnettu siitä, että äänen aktiivisuuden lisäilmaisin (20) yksinään ohjaa 15 muistin (15) päivitystä, jolloin äänen aktiivisuuden lisäilmaisin (20) toimii muodostamalla mitan tulosignaalin sen hetkisen osan ja tulosignaalin aiemman osan väliselle spektraaliselle samankaltaisuudelle. 2. Äänen aktiivisuuden ilmaisinlaite, joka käsittää: 20 V (i) välineet (1) tulosignaalin vastaanottamiseksi; ' (ii) muistin (15) kohinaa edustavan signaalin tallentamiseksi, joka signaali ; edustaa mainitun tulosignaalin estimoitua kohinakomponenttia; 1 · • ·' (iii) välineet (3-6, 14) muodostamaan jaksollisesti tulosignaalista ja ' ' 25 mainitusta kohinaa edustavasta signaalista mitan tulosignaalin osan ja •: mainitun estimoidun kohinakomponentin väliselle spektraaliselle samankaltaisuudelle; » : (iv) välineet (7) vertaamaan mittaa kynnysarvoon lähdön tuottamiseksi, joka osoittaa puheen esiintymisen tai puuttumisen; l 30 (v) äänen aktiivisuuden lisäilmaisin (20); ja i (vi) muistin päivitysvälineet muistin päivittämiseksi tulosignaalista; . tunnettu siitä, että äänen aktiivisuuden lisäilmaisin on toimiva riippuen : tulosignaalin senhetkisen osan ja tulosignaalin edeltävän osan välisen spektraalisen samankaltaisuuden mitasta tuottamaan lähtösignaalin, joka 15 1 1 5328 osoittaa puheen esiintymisen tai puuttumisen, ja että muistin päivitysvälineet ovat toimintakykyiset päivittämään muistia sisääntulosignaalista ainoastaan silloin, kun mainittu ohjaussignaali osoittaa, että puhe puuttuu.
3. Patenttivaatimuksen 2 mukainen laite, tunnettu siitä, että se lisäksi käsittää välineet mainitun kynnysarvon säätämiseksi niiden jaksojen aikana, kun mainittu ohjaussignaali osoittaa puheen puuttuvan.
4. Patenttivaatimuksen 2 tai 3 mukainen laite, tunnettu siitä, että mainittu ää-10 nen aktiivisuuden lisäilmaisin käsittää lisäksi ääntiöllisen puheen ilmaisinväli-neet (27), jotka käsittävät äänen korkeuden analyysivälineet ääntiöllisen puheen esiintymisen ilmaisevan signaalin kehittämiseksi, josta signaalista äänen aktiivisuuden lisäilmaisimen (20) tuottava ohjaussignaali myös riippuu.
5. Laite puhesignaalien koodaamiseksi, tunnettu siitä, että siihen sisältyy jonkin edellä olevan vaatimuksen mukainen laite.
6. Matkapuhelinlaite, tunnettu siitä, että siihen sisältyy jonkin edellä olevan vaatimuksen mukainen laite. 20
7. Menetelmä puheen aktiivisuuden ilmaisemiseksi tulosignaalissa, käsittäen : vaiheet: • · * · • · ’ ·.. * mainitun tulosignaalin vastaanottaminen; • · · « · * ’ 25 mainitun tulosignaalin kohinasignaalikomponentin estimointi; * · · : mainittua kohinasignaalikomponenttia edustavan datan tallentaminen; mitan M muodostaminen tulosignaalin osan ja mainitun kohinasignaali- » * • » * ‘ · komponentin spektraaliselle samankaltaisuudelle; ja mitasta M johdetun parametrin vertaaminen ensimmäisen kynnysarvon ; 30 T kanssa primäärisen äänen aktiivisuuden osoituksen tuottamiseksi : osoittamaan puheen esiintyminen tai puuttuminen riippuen siitä, onko tämä arvo ylitetty vai ei; missä mainittu estimointivaihe käsittää äänen aktiivisuuden lisäosoituksen tuottamisen ja joka menetelmä on tunnettu siitä, että mainittu äänen aktiivisuuden lisäosoituksen tuottaminen käsittää: 115328 16 muodostetaan spektrivääristymämitta tulosignaalin senhetkisen osan ja tulosignaalin aiempien osien väliselle samankaltaisuudelle; verrataan spektrivääristymämittaa toiseen kynnysarvoon osoituksen tuottamiseksi puheen esiintymisestä tai puuttumisesta riippuen siitä, onko tämä arvo ylitetty vai 5 ei; ja päivitetään mainittu tallennettu data sisääntulosignaalista ainoastaan jaksoista, joissa mainittua äänen aktiivisuuden lisäosoitus osoittaa puheen puuttumisen.
10 Patentkrav
FI20010933A 1988-03-11 2001-05-04 Äänen aktiivisuuden ilmaisu FI115328B (fi)

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
GB8805795 1988-03-11
GB888805795A GB8805795D0 (en) 1988-03-11 1988-03-11 Voice activity detector
GB8813346 1988-06-06
GB888813346A GB8813346D0 (en) 1988-06-06 1988-06-06 Voice activity detection
GB888820105A GB8820105D0 (en) 1988-08-24 1988-08-24 Voice activity detection
GB8820105 1988-08-24
GB8900247 1989-03-10
PCT/GB1989/000247 WO1989008910A1 (en) 1988-03-11 1989-03-10 Voice activity detection

Publications (2)

Publication Number Publication Date
FI20010933A FI20010933A (fi) 2001-05-04
FI115328B true FI115328B (fi) 2005-04-15

Family

ID=27263821

Family Applications (2)

Application Number Title Priority Date Filing Date
FI904410A FI110726B (fi) 1988-03-11 1990-09-07 Äänen aktiivisuuden ilmaisu
FI20010933A FI115328B (fi) 1988-03-11 2001-05-04 Äänen aktiivisuuden ilmaisu

Family Applications Before (1)

Application Number Title Priority Date Filing Date
FI904410A FI110726B (fi) 1988-03-11 1990-09-07 Äänen aktiivisuuden ilmaisu

Country Status (16)

Country Link
EP (2) EP0335521B1 (fi)
JP (2) JP3321156B2 (fi)
KR (1) KR0161258B1 (fi)
AU (1) AU608432B2 (fi)
BR (1) BR8907308A (fi)
CA (1) CA1335003C (fi)
DE (2) DE68929442T2 (fi)
DK (1) DK175478B1 (fi)
ES (2) ES2047664T3 (fi)
FI (2) FI110726B (fi)
HK (1) HK135896A (fi)
IE (1) IE61863B1 (fi)
NO (2) NO304858B1 (fi)
NZ (1) NZ228290A (fi)
PT (1) PT89978B (fi)
WO (1) WO1989008910A1 (fi)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0435458B1 (en) * 1989-11-28 1995-02-01 Nec Corporation Speech/voiceband data discriminator
CA2040025A1 (en) * 1990-04-09 1991-10-10 Hideki Satoh Speech detection apparatus with influence of input level and noise reduced
US5241692A (en) * 1991-02-19 1993-08-31 Motorola, Inc. Interference reduction system for a speech recognition device
FR2697101B1 (fr) * 1992-10-21 1994-11-25 Sextant Avionique Procédé de détection de la parole.
SE470577B (sv) * 1993-01-29 1994-09-19 Ericsson Telefon Ab L M Förfarande och anordning för kodning och/eller avkodning av bakgrundsljud
JPH06332492A (ja) * 1993-05-19 1994-12-02 Matsushita Electric Ind Co Ltd 音声検出方法および検出装置
SE501305C2 (sv) * 1993-05-26 1995-01-09 Ericsson Telefon Ab L M Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler
EP0633658A3 (en) * 1993-07-06 1996-01-17 Hughes Aircraft Co Automatic gain control circuit coupled to the transmission and activated by speech.
IN184794B (fi) * 1993-09-14 2000-09-30 British Telecomm
SE501981C2 (sv) * 1993-11-02 1995-07-03 Ericsson Telefon Ab L M Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler
US5742734A (en) * 1994-08-10 1998-04-21 Qualcomm Incorporated Encoding rate selection in a variable rate vocoder
FR2727236B1 (fr) * 1994-11-22 1996-12-27 Alcatel Mobile Comm France Detection d'activite vocale
WO1996034382A1 (en) * 1995-04-28 1996-10-31 Northern Telecom Limited Methods and apparatus for distinguishing speech intervals from noise intervals in audio signals
GB2306010A (en) * 1995-10-04 1997-04-23 Univ Wales Medicine A method of classifying signals
FR2739995B1 (fr) * 1995-10-13 1997-12-12 Massaloux Dominique Procede et dispositif de creation d'un bruit de confort dans un systeme de transmission numerique de parole
US5794199A (en) * 1996-01-29 1998-08-11 Texas Instruments Incorporated Method and system for improved discontinuous speech transmission
DE69716266T2 (de) 1996-07-03 2003-06-12 British Telecomm Sprachaktivitätsdetektor
US6618701B2 (en) * 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
DE10052626A1 (de) * 2000-10-24 2002-05-02 Alcatel Sa Adaptiver Geräuschpegelschätzer
CN1617606A (zh) * 2003-11-12 2005-05-18 皇家飞利浦电子股份有限公司 一种在语音信道传输非语音数据的方法及装置
US7139701B2 (en) * 2004-06-30 2006-11-21 Motorola, Inc. Method for detecting and attenuating inhalation noise in a communication system
US7155388B2 (en) * 2004-06-30 2006-12-26 Motorola, Inc. Method and apparatus for characterizing inhalation noise and calculating parameters based on the characterization
FI20045315A (fi) * 2004-08-30 2006-03-01 Nokia Corp Ääniaktiivisuuden havaitseminen äänisignaalissa
US8708702B2 (en) * 2004-09-16 2014-04-29 Lena Foundation Systems and methods for learning using contextual feedback
US8775168B2 (en) * 2006-08-10 2014-07-08 Stmicroelectronics Asia Pacific Pte, Ltd. Yule walker based low-complexity voice activity detector in noise suppression systems
US8175871B2 (en) 2007-09-28 2012-05-08 Qualcomm Incorporated Apparatus and method of noise and echo reduction in multiple microphone audio systems
US8954324B2 (en) 2007-09-28 2015-02-10 Qualcomm Incorporated Multiple microphone voice activity detector
US8223988B2 (en) 2008-01-29 2012-07-17 Qualcomm Incorporated Enhanced blind source separation algorithm for highly correlated mixtures
US8275136B2 (en) 2008-04-25 2012-09-25 Nokia Corporation Electronic device speech enhancement
US8244528B2 (en) 2008-04-25 2012-08-14 Nokia Corporation Method and apparatus for voice activity determination
US8611556B2 (en) 2008-04-25 2013-12-17 Nokia Corporation Calibrating multiple microphones
ES2371619B1 (es) * 2009-10-08 2012-08-08 Telefónica, S.A. Procedimiento de detección de segmentos de voz.
CN104485118A (zh) 2009-10-19 2015-04-01 瑞典爱立信有限公司 用于语音活动检测的检测器和方法
CN108985277B (zh) * 2018-08-24 2020-11-10 广东石油化工学院 一种功率信号中背景噪声滤除方法及***

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3509281A (en) * 1966-09-29 1970-04-28 Ibm Voicing detection system
US4052568A (en) * 1976-04-23 1977-10-04 Communications Satellite Corporation Digital voice switch
US4358738A (en) * 1976-06-07 1982-11-09 Kahn Leonard R Signal presence determination method for use in a contaminated medium
JPS5636246A (en) * 1979-08-31 1981-04-09 Nec Corp Stereo signal demodulating circuit
JPS59115625A (ja) * 1982-12-22 1984-07-04 Nec Corp 音声検出器
EP0127718B1 (fr) * 1983-06-07 1987-03-18 International Business Machines Corporation Procédé de détection d'activité dans un système de transmission de la voix
JPS6196817A (ja) * 1984-10-17 1986-05-15 Sharp Corp フイルタ−

Also Published As

Publication number Publication date
NO316610B1 (no) 2004-03-08
EP0335521B1 (en) 1993-11-24
FI904410A0 (fi) 1990-09-07
NO903936L (no) 1990-11-09
NZ228290A (en) 1992-01-29
DE68910859D1 (de) 1994-01-05
PT89978A (pt) 1989-11-10
EP0548054A3 (fi) 1994-01-12
JPH03504283A (ja) 1991-09-19
WO1989008910A1 (en) 1989-09-21
KR0161258B1 (ko) 1999-03-20
DE68929442T2 (de) 2003-10-02
NO982568D0 (no) 1998-06-04
PT89978B (pt) 1995-03-01
EP0548054A2 (en) 1993-06-23
DK175478B1 (da) 2004-11-08
NO982568L (no) 1990-11-09
NO304858B1 (no) 1999-02-22
IE61863B1 (en) 1994-11-30
FI20010933A (fi) 2001-05-04
EP0335521A1 (en) 1989-10-04
KR900700993A (ko) 1990-08-17
ES2047664T3 (es) 1994-03-01
JP2000148172A (ja) 2000-05-26
IE890774L (en) 1989-09-11
DE68929442D1 (de) 2003-01-23
JP3423906B2 (ja) 2003-07-07
CA1335003C (en) 1995-03-28
JP3321156B2 (ja) 2002-09-03
DE68910859T2 (de) 1994-12-08
HK135896A (en) 1996-08-02
EP0548054B1 (en) 2002-12-11
NO903936D0 (no) 1990-09-10
DK215690D0 (da) 1990-09-07
ES2188588T3 (es) 2003-07-01
AU3355489A (en) 1989-10-05
BR8907308A (pt) 1991-03-19
AU608432B2 (en) 1991-03-28
DK215690A (da) 1990-09-07
FI110726B (fi) 2003-03-14

Similar Documents

Publication Publication Date Title
FI115328B (fi) Äänen aktiivisuuden ilmaisu
US5276765A (en) Voice activity detection
Sadjadi et al. Unsupervised speech activity detection using voicing measures and perceptual spectral flux
Tan et al. Low-complexity variable frame rate analysis for speech recognition and voice activity detection
KR100363309B1 (ko) 음성액티비티검출기
US20210366496A1 (en) Estimation of background noise in audio signals
US5734789A (en) Voiced, unvoiced or noise modes in a CELP vocoder
KR950000842B1 (ko) 피치 검출기
US5579435A (en) Discriminating between stationary and non-stationary signals
US7254536B2 (en) Method of noise reduction using correction and scaling vectors with partitioning of the acoustic space in the domain of noisy speech
JPH08328588A (ja) ピッチラグを評価するためのシステム、音声符号化装置、ピッチラグを評価する方法、および音声符号化方法
US5884251A (en) Voice coding and decoding method and device therefor
US5579432A (en) Discriminating between stationary and non-stationary signals
JP3330178B2 (ja) 音声符号化装置および音声復号化装置
JPH02266400A (ja) 有音/無音判定回路
NZ286953A (en) Speech encoder/decoder: discriminating between speech and background sound
JPH04270397A (ja) 音声符号化方式

Legal Events

Date Code Title Description
FG Patent granted

Ref document number: 115328

Country of ref document: FI

MA Patent expired