NO316610B1 - Deteksjon av stemme-aktivitet - Google Patents

Deteksjon av stemme-aktivitet Download PDF

Info

Publication number
NO316610B1
NO316610B1 NO982568A NO982568A NO316610B1 NO 316610 B1 NO316610 B1 NO 316610B1 NO 982568 A NO982568 A NO 982568A NO 982568 A NO982568 A NO 982568A NO 316610 B1 NO316610 B1 NO 316610B1
Authority
NO
Norway
Prior art keywords
speech
input signal
signal
measure
voice activity
Prior art date
Application number
NO982568A
Other languages
English (en)
Other versions
NO982568D0 (no
NO982568L (no
Inventor
Daniel Kenneth Freeman
Ivan Boyd
Original Assignee
Lg Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GB888805795A external-priority patent/GB8805795D0/en
Priority claimed from GB888813346A external-priority patent/GB8813346D0/en
Priority claimed from GB888820105A external-priority patent/GB8820105D0/en
Publication of NO982568L publication Critical patent/NO982568L/no
Application filed by Lg Electronics Inc filed Critical Lg Electronics Inc
Publication of NO982568D0 publication Critical patent/NO982568D0/no
Publication of NO316610B1 publication Critical patent/NO316610B1/no

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Telephone Function (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Noise Elimination (AREA)
  • Geophysics And Detection Of Objects (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

En detektor for stemmeaktivitet er en innretning som forsynes med et signal med det formål å detektere taleperioder eller perioder som inneholder bare støy. Selvom foreliggende oppfinnelse ikke er begrenset til dette, er det en spesielt interessant anvendelse av slike detektorer i mobile radiotelefon-systemer hvor kjennskapet til nærvær eller ikke av tale kan brukes av en talekoder til å forbedre effektiv utnyttelse av radiospekteret, og hvor også støynivået (fra en kjøretøy-montert enhet) vanligvis er høyt.
Formålet med deteksjon av stemmeaktivitet er å finne frem til et mål som skjelner godt mellom tale- og ikke-tale-perioder. I apparater som omfatter en talekoder, er antall parametre lett tilgjengelig fra et eller annet trinn i koderen, og det er derfor ønskelig å økonomisere den nødvendige behandling ved å utnytte en eller annet slik parameter. I mange omgivelser opptrer hovedstøy-kilden i kjente, avgrensede områder av sekvensspekteret. I et kjøretøy i bevegelse er f.eks. meget av støyen (f.eks. motorstøy) konsentrert i de lavere frekvensområder av spekteret. Der hvor slik kjennskap til støyens spektrale posisjon er tilgjengelig, er det ønskelig å basere beslutningen på om tale er tilstede eller er fraværende på målinger tatt fra den del av spekteret som inneholder forholdsvis lite støy. Det ville i praksis selvsagt være mulig å forfiltrere signalet før analyse for å detektere taleaktivitet, men der hvor stemme-aktivitetsdetektoren følger utgangen fra en talekoder, ville forfiltrering forvrenge stemmesignalet som skal kodes.
Fra IEEE Transactions on Acoustics, Speech and Signal Processing, bind ASSP-25, nr. 4, august 1977 (New York, USA), L. R. Rabiner m.fl.: "Application of an LPC distance measure to voiced-unvoiced-silence detection problem", side 338-343 er kjent en metode hvor det skilles mellom tale, ikke-tale og pause i et talesignal. Metoden benytter manuell sortering av rammer tilhørende de forskjellige taler, for å tilveiebringe et mål for talemønstre som benyttes til klassifisering av inngangssignaler. Denne publikasjonen angir altså en fremgangsmåte for generering av mål for talemønstre av talesignaler, men går ikke lengre enn som så.
Herværende oppfinnelse går lenger, og tilveiebringer et deteksjonsapparat for stemmeaktivitet som omfatter en anordning for å motta et inngangssignal, en anordning for periodisk, adaptiv generering av et estimat av støysignal-komponenten i inngangssignalet, en anordning for periodisk dannelse av et mål M for den spektrale likhet mellom en del av inngangssignalet og støysignal-komponenten, en anordning for å sammenligne en parameter utledet fra målet M med en terskelverdi T, og en anordning for å frembringe en utgang for å indikere nærvær eller fravær av tale i avhengighet av om denne verdien er overskredet eller ikke.
Målet er fortrinnsvis Itakura-Saito-forvrengningsmålet.
Den presise definisjon av foreliggende oppfinnelse gis imidlertid, i et første aspekt, i det vedføyde patentkrav 1.1 et andre aspekt av oppfinnelsen defineres den presist i det vedføyde patentkrav 3. Fordelaktige utførelsesformer av de to oppfinnelsesaspektene fremgår av de uselvstendige patentkravene.
Noen utførelsesformer av oppfinnelsen vil nå bli beskrevet som et eksempel og under henvisning til de vedføyde tegninger, hvor: Fig. 1 er et blokkskjema over en første utførelsesform av oppfinnelsen; fig. 2 viser en annen utførelsesform av oppfinnelsen;
fig. 3 viser en tredje, foretrukket utførelsesform av oppfinnelsen.
Det generelle prinsipp som ligger til grunn for en første stemme-aktivitetsdetektor ifølge en første utførelsesform av oppfinnelsen, er som følger:
En ramme med n signalsampler
(so, Si, s2, s3l sA ... sn-i) vil, når de føres gjennom et begrepsmessig eller imaginært (engelsk: notional) fjerde ordens ikke-rekursivt (finite impulse response
- FIR) digitalfilter med impulsrespons (1, ho, hi, h2, h3), resultere i et filtrert signal (når det sees bort fra sampler fra tidligere rammer)
Den nullte ordens autokorrelasjonskoeffisient er summen av hvert ledd kvadrert, som kan være normalisert, dvs. dividert med det totale antall ledd (for konstante rammelengder er det lettere å utelate divisjonen); den for det filtrerte signalet er således
og dette er derfor et mål på effekten til det begrepsmessig filtrerte signalet s', med andre ord av den del av signalet s som faller innenfor passbåndet til det imaginære filteret.
Utledning når det sees bort fra de fire første ledd, gir
Slik kan R'o oppnås fra en kombinasjon av autokorrelasjonskoeffisientene Rj, veiet med konstantene i parentes som bestemmer det frekvensbånd som verdien av R'0 reagerer på. I virkeligheten er leddene i parentes autokorrelasjonskoeffisientene til pulsresponsen til det imaginære filteret, slik at uttrykket ovenfor kan forenkles til
hvor N er filterets orden og Hj er (de ikke-normaliserte)
autokorrelasjonskoeffisientene til filterets pulsrespons.
Virkningen på signal-autokorrelasjonskoeffisientene ved filtrering av et signal kan med andre ord simuleres ved å frembringe en veiet sum av autokorrelasjonskoeffisientene til (det ufiltrerte) signalet, ved å bruke den pulsresponsen som det nødvendige filteret ville ha hatt.
Således kan en forholdsvis enkel algoritme som medfører et lite antall multiplikasjonsoperasjoner, simulere virkningen av et digitalt filter som typisk krever hundre ganger dette antall multiplikasjonsoperasjoner.
Denne filtreringsoperasjonen kan alternativt betraktes som en form for spektrumsammenligning, hvor signalespekteret blir tilpasset et referansespektrum (det inverse av responsen til det imaginære filteret). Siden det imaginære filteret i denne anvendelsen velges slik at det nærmer seg det inverse av støyspekteret, kan denne operasjonen betraktes som en spektral sammenligning mellom tale- og støy-spekteret, og den nullte autokorrellasjonskoeffisienten som således genereres (dvs. energien til det inverse filtrerte signalet), som et mål på ulikheten mellom spektrene. Itakura-Saito-forvrengningsmålet blir brukt i LPC til å fastslå tilpasningen mellom prediktorfilteret og inngangsspekteret, og uttrykkes i en form som
hvor Ao osv. er autokorrelasjonskoeffisientene til LPC-parametersettet. Man vil se at dette er nesten lik det forholdet som er utledet ovenfor, og når man husker at LPC-koeffisientene er uttakene på et FIR-filter med den inverse spektralrespons på inngangssignalet slik at LPC-koeffisientsettet er pulsresponsen til det inverse LPC-filteret, er det klart at Itakura-Saito-forvrengningsmålet i virkeligheten bare er en form av ligning 1, hvor filterresponsen H er det inverse av spektralformen til en
allpol-modell av inngangssignalet.
I virkeligheten er det også mulig å transponere spektrene ved å bruke LPC-koeffisientene til testspekteret og autokorrelasjonskoeffisientene til referanse-spekteret til å oppnå et annet mål på den spektrale likhet.
Itakura-Saito-forvrengningsmålet er ytterligere diskutert i "Speech Coding based upon Vector Quantisation" av A. Buzo, A.H. Gray, R.M. Gray og J.D. Market, IEEE Trans on ASSP, vol. ASSP-28, nr. 5, oktober 1980.
Siden rammene til signalet har bare en endelig lengde, og et antall uttrykk (N, hvor N er filterets orden) blir oversett, er resultatet ovenfor bare en tilnærmelse. Den gir imidlertid en overraskende god indikator på forekomst eller fravær av tale og kan således brukes som et mål M i taledeteksjon. I en omgivelse hvor støyspekteret er velkjent og stasjonært, er det godt mulig å ganske enkelt benytte faste h0l hi osv. koeffisienter til å modellere det inverse støyfilteret.
Et apparat som kan tilpasses forskjellige støyomgivelser er imidlertid meget mer anvendelig.
Det vises til fig. 1 hvor et signal fra en mikrofon (ikke vist) i en første utførelsesform blir mottatt ved en inngang 1 og omdannet til digitale sampler s ved en passende samplingshastighet ved hjelp av en analog/digital-omformer 2. En LPC-analysekrets 3 (i en LPC-koder av kjent type) utleder så for suksessive rammer av liten n (f.eks. 160) sampler, et sett med N (f.eks. 8 eller 12) LPC-filterkoeffisienter Lj som blir overført for å representere inngangstalen. Talesignalet s tilføres også en korrelatorkrets 4, (vanligvis en del av LPC-koderen 3 siden autokorrelasjonsvektoren R, til talen også vanligvis henbringes som et trinn i LPC-analysen selv om man vil forstå at en separat korrelater kan være benyttet). Korrelatoren 4 frembringer autokorrelasjonsvektoren Rj, innbefattet den nullte ordens korrelasjonskoeffisient Ro og minst 2 ytterligere autokorrelasjonskoeffisienter R1( R2, R3. Disse blir så tilført en multipliseringsenhet 5.
En annen inngang 11 er koblet til en annen mikrofon anbragt i avstand fra taleren slik at den mottar bare bakgrunnsstøy. Inngangen fra denne mikrofonen blir omformet til et digitalt inngangs-sampletog ved hjelp av en analog/ditigal-omformer 12 og LPC-analysert ved hjelp av en annen LPC-analysator 13. LPC-"støykoeffisientene" som frembringes fra analysatoren 13 blir ført til en korrelatorenhet 14, og autokorrelasjonsvektoren som frembringes på denne måten, blir multiplisert ledd for ledd med autokorrelasjonskoeffisientene R; til inngangssignalet fra talemikrofonen i multipliseirngskretsen 5, og de veide koeffisientene som frembringes på denne måten, blir kombinert i en adderer 6 ifølge ligning 1, for å være anvendelig som et filter som har den inverse formen av støyspekteret fra bare "støy"-mikrofonen (som i praksis er den samme som formen av støyspekteret i signal-pluss-støy-mikrofonen), og dermed filtrerer ut mesteparten av støyen. Det resulterende mål M blir sammenlignet med en terskel i en terskelkrets 7 for å frembringe en logisk utgang 8 som indikerer forekomsten eller fraværet av tale; hvis stor M er høy, blir tale bestemt å være tilstede.
Denne utførelsesformen krever imidlertid to mikrofoner og to LPC-analysatorer, noe som øker kostnadene og kompleksiteten til det nødvendige utstyr.
Alternativt benytter en annen utførelsesform et tilsvarende mål utformet ved å bruke autokorrelasjonene fra støymikrofonen 11 og LPC-koeffisientene fra hovedmikrofonen 1, slik at en ekstra autokorrelator i stedenfor en LPC-analysator er nødvendig.
Disse utførelsesformene er derfor i stand til å arbeide innenfor forskjellige omgivelser som har støy ved forskjellige frekvenser, eller innenfor et foranderlig støyspektrum i en gitt omgivelse.
Det vises til fig. 2 hvor det i den foretrukne utførelsesform av oppfinnelsen er tilveiebragt et buffer 15 som lagrer et sett med LPC-koeffisienter (eller auto-korrelasjonsvektorene til settet) utledet fra mikrofoninngangen 1 i en periode identifisert som en "ikke-tale"-periode (dvs. bare støy). Disse koeffisientene blir så brukt til å utlede et mål ved å bruke ligning 1, som også selvsagt svarer til Itakura-Saito-forvrengningsmåler, bortsett fra at en enkelt lagret ramme med LPC-koeffisienter som svarer til en tilnærmelse av det inverse støyspektrum, blir brukt i stedenfor den foreliggende ramme med LPC-koeffisienter.
LPC-koeffisientvektoren U som mates ut fra analysatoren 3, blir også tilført en korrelater 14 som frembringer autokorrelasjonsvektoren til LPC-koeffisientvektoren. Bufferlageret 15 blir styrt av tale/ikke-tale-utgangen fra terskelkretsen 7, på en slik måte at under "tale"-rammer tilbakeholder buffere "støy"-autokorrelasjonskoeffisientene, men under "støy"-rammer kan et nytt sett med LPC-koeffisienter brukes til å oppdatere buffere, f.eks. ved hjelp av en multippelsvitsj 16, via hvilken utganger fra korrelatoren 14 som inneholder hver autokorrelasjonskoeffisient, blir forbundet til buffere 15. Man vil forstå at korrelatoren 14 kan være anordnet etter buffere 15. Videre behøver tale/ikke-tale-beslutningen for koeffisientoppdatering ikke skje fra utgangen 8, men kan utledes (og utledes fortrinnsvis) på annen måte.
Siden hyppige perioder uten tale inntreffer, blir LPC-koeffisientene som er lagret i buffere, oppdatert fra tid til annen, slik at apparatet således er i stand til å spore endringer i støyspekteret. Man vil forstå at slik oppdatering av buffere kan være nødvendig bare av og til, eller kan skje bare en gang ved begynnelsen av detektorens drift, hvis (noe som ofte er tilfelle) støyspekteret er forholdsvis stasjonært over tid, men i et mobilradio-system er hyppig oppdatering å foretrekke.
I en modifikasjon av denne utføreisesformen anvender systemet innledningsvis ligning 1 med koeffisient-uttrykk som svarer til et enkelt, fast høypassfilter, og begynner deretter så å adaptere ved å koble over til å bruke LPC-koeffisienter for "støyperioden". Hvis taledeteksjonen av en eller annen grunn svikter, kan systemet vende tilbake til å bruke det enkle høypassfilteret.
Det er mulig å normalisere målet ovenfor ved dividering med R0, slik at uttrykket som skal vurderes i terskelkretsen, har formen
Dette målet er uavhengig av den totale signalenergi i en ramme og er således kompensert for store signalnivå-endringer, men gir heller mindre markert kontrast mellom "støy"- og "tale"-nivåer og blir dermed fortrinnsvis ikke anvendt i omgivelser med høy støy.
I stedenfor å anvende LPC-analyse til å utlede de inverse filterkoeffisientene til støysignalet (fra enten støymikrofonen eller bare støyperiodene, som i de forskjellige utførelsesformer som er beskrevet ovenfor), er det mulig å modellere det inverse støyspektrum ved å bruke et adaptivt filter av kjent type; ettersom støyspekteret endres bare langsomt (som diskutert nedenfor) er en forholdsvis langsom koeffisient-adapteringshastighet som er felles for slike filtere, akseptabel. I en utførelsesform som svarer til fig. 1, er LPC-analysekretsen 13 ganske enkelt erstattet av et adaptivt filter (f.eks. et transversalt FIR- eller gitter-filter), koblet for å lage støyinngangen hvitere ved å modelere det inverse filteret, og dets koeffisienter blir levert som før til autokorrelatoren 14.
I en annen utførelsesform som svarer til den på fig. 2, er LPC-analyseanordningen 3 erstattet av et slikt adaptivt filter, og bufferanordningen 15 er utelatt, men svitsjen 16 virker til å forhindre det adaptive filteret fra å adaptere sine koeffisienter under taleperioder.
En annen stemme-aktivitetsdetektor for anvendelse med en annen utførelsesform av oppfinnelsen, vil nå bli beskrevet.
Fra det foregående vil det være klart at LPC-koeffisientvektoren ganske enkelt er pulsresponsen til et FIR-filter som har en respons i nærheten av den inverse spektrale formen til inngangssignalet. Når Itakura-Saito-forvrengningsmålet mellom tilstøtende rammer er utformet, er dette i virkeligheten lik energien til signalet, filtrert ved hjelp av LPC-filteret i den tidligere ramme. Hvis derfor spekteret for tilstøtende rammer adskiller seg litt fra hverandr, vil en tilsvarende liten mengde av spektralenergien til en ramme unnslippe filtrering og målet vil være lite. En stor spektraldifferanse mellom rammer frembringer tilsvarende et høyt Itakura-Saito-forvrengningsmål, slik at målet avspeiler den spektrale likhet mellom tilstøtende rammer. I en talekoder er det ønskelig å minimalisere data hastig heten, derfor gjøres rammelengden som lang som mulig; hvis m.a.o. rammelengden er lang nok, så bør et talesignal oppvise en signifikant spektraIforandring fra ramme til ramme (hvis det ikke er tilfelle, er kodingen redundant). Støy har derimot en langsomt varierende spektral form fra ramme til ramme, og i en periode hvor tale er fraværende fra signalet, vil derfor Itakura-Saito-forvrengningsmålet tilsvarende være lavt, siden anvendelse av det inverse LPC-filteret fra foregående ramme "filtrerer ut" mesteparten av støyeffekten.
Itakura-Saito-forvrengningsmålet mellom tilstøtende rammer av et støyfylt signal som inneholder intermitterende tale, er typisk høyere under taleperioder enn støyperioder. Graden av variasjon (som illustrert ved hjelp av standardavviket) er også høyere, og mindre intermittent variabel.
Det skal bemerkes at standardavviket for standardavviket av M også er et pålitelig mål; virkningen av å ta hvert standardavvik er hovedsakelig å glatte målet.
I denne annen form av stemme-aktivitetsdetektoren er den målte parameter som brukes til å bestemme om tale er tilstede, fortrinnsvis standard avviket av Itakura-Saito-forvrengningsmålet, men andre mål for varians og andre spektrale forvrengningsmål (basert f.eks. på FFT-analyse) kan anvendes.
Det har vist seg fordelaktig å anvende en adaptiv terskel ved stemme-aktivitetsdeteksjon. Slike terskler må ikke justeres under taleperioder, ellers vil talesignalet forsvinne i terskelkretsen. Det er følgelig nødvendig å styre terskeladaptoren ved å bruke et tale/ikke-tale-styresignal, og det foretrekkes at dette signalet er uavhengig av utgangen fra terskeladaptoren.
Terskelen T blir regulert adaptivt for å holde terskelnivået like over nivået til målet M når bare støy er tilstede. Siden målet generelt vil variere tilfeldig når støy er tilstede, blir terskelen variert ved å bestemme et middelnivå over et antall blokker, og innstille terskelen ved et nivå som er proporsjonalt med denne middelverdien. I en støyfylt omgivelse er imidlertid dette vanligvis ikke tilstrekkelig, og en bestemmelse av graden av variasjonen av parameteren over flere blokker blir også tatt i betraktning.
Terskelverdien T blir derfor fortrinnsvis beregnet ifølge
hvor M' er middelverdien av målet over et antall påfølgende rammer, d er standardavviket til målet over disse rammene, og K er en konstant (som typisk kan være 2).
I praksis blir det foretrukket ikke å gjenoppta adaptering umiddelbart etter at tale er indikert å være fraværende, men å vente for å sikre at fallet er stabilt (for å unngå hurtig gjentatt svitsjing mellom adapterings- og ikke-adapterings-tilstandene.
Det vises til fig. 3 hvor oppfinnelsen ifølge en foretrukket utførelsesform innbefatter de ovennevnte aspekter, og hvor en inngang 1 mottar et signal som blir samplet og digitalisert ved hjelp av analog/digital-omformer (ADC) 2, og levert til inngangen på en invers filteranalysator 3, som i praksis er en del av en talekoder med hvilken stemme-aktivitetsdetektoren skal funksjonere, og som genererer koeffisienter Lj (typisk 8) for et filter svarende til det inverse av spekteret til inngangssignalet. Det digitaliserte signalet blir også levert til en autokorrelator 4 (som er en del av analysatoren 3), som genererer autokorrelasjonsvektoren Ri til inngangssignalet (eller i det minste så mange lave ordensuttrykk som hver er LPC-koeffisienter). Virkemåten til disse deler av apparaturen er som beskrevet på fig. 1 og 2. Autokorrelasjonskoeffisientene Rj blir så fortrinnsvis midlet over flere påfølgende talerammer (typisk 5-20 ms lange) for å forbedre deres pålitelighet. Dette kan oppnås ved å lagre hvert sett med autokorrelasjonskoeffisienter som mates ut av autokorrelatoren 4 i et bufferlager 4a, og anvende en midlingskrets 4b til å frembringe en veiet sum av de løpende autokorrelasjonskoeffisienter R| og de fra tidligere rammer som er lagret i og levert fra bufferlageret 4a. De midlede autokorrelasjonskoeffisienter hvor Rai som utledes på denne måten, blir levert til en veie- og adderings-anordning 5, 6 som også mottar autokorrelasjonsvektoren Aj for lagrede inverse filterkoeffisienter U fra støyperioder fra en autokorrelator 14 via et bufferlager 15, og fra Ra; og A danner et mål M fortrinnsvis definert som:
Dette målet blir så sammenlignet med en terskel i terskelkretsen 7, og det logiske resultat frembringer en indikasjon på nærværet eller fraværet av tale ved utgangen 8.
For at de inverse filterkoeffisientene Lj skal svare til et rimelig estimat av det inverse av støyspekteret, er det ønskelig å oppdatere disse koeffisientene under perioder med støy (og selvsagt ikke å oppdatere dem under perioder med tale). Det blir imidlertid foretrukket at tale/ikke-tale-bestemmelsen på hvilken oppdateringen er basert, ikke avhenger av resultatet av oppdateringen, ellers kan en enkelt galt identifisert ramme i signalet resultere i at stemme-aktivitetsdetektoren deretter går "ut av lås" og feilaktig identifiserer de følgende rammer. Derfor blir det fortrinnsvis tilveiebragt en styresignal-genererende krets 20, i virkeligheten en separat stemme-aktivitetsdetektor, som danner et uavhengig styresignal som indikerer forekomsten av eller fraværet av tale for å styre den inverse filteranalysatoren 3 (eller bufferlageret 8) slik at de inverse filter-autokorrelasjonskoeffisientene Aj som brukes til å danne målet M, bare blir oppdatert under "støy"-perioder. Styresignal-generatorkretsen 20 omfatter en LPC-analysator 21 (som igjen kan være en del av en talekoder og som spesielt kan utgjøres av analysatoren 3) som frembringer et sett med LPC-koeffisienter Mj svarende til inngangssignalet, og en autokorreiator 21a (som kan utgjøres av autokorrelatoren 3a) som utleder autokorrelasjonskoeffisientene Bj til Mj. Hvis analysatoren 21 utgjøres av analysatoren 3, så er Mj=LE og Bj=Aj. Disse autokorrelasjonskoeffisientene blir så levert til veie- og adderings-anordningen 22, 23 (ekvivalent med 5, 6) som også mottar autokorrelasjonsvektoren R| for inngangssignalet fra autokorrelatoren 4. Et mål på den spektrale likhet mellom inngangs-talerammen og den foregående taleramme blir således beregnet; dette kan være Itakura-Saito-forvrengningsmålet mellom Ri for den aktuelle ramme og B; for den foregående ramme, som beskrevet ovenfor, eller det kan istedet være utledet ved beregning av Itakura-Saito-forvrengningsmålet for R; og Bj i den aktuelle ramme, og subtrahering (i subtraktoren 25) av det tilsvarende mål for den tidligere ramme som er lagret i bufferlageret 24, for å generere et spektralt dif-feransesignal (i en ramme er målet fortrinnsvis energi-normalisert ved divisjon med Ro). Bufferlageret 24 blir så selvsagt oppdatert. Dette spektrale differansesignalet er når det sammenlignes i en terskelkrets 26, som diskutert ovenfor, en indikator på forekomsten eller fraværet av tale. Det har imidlertid vist seg at selv om dette målet er utmerket når det gjelder å skjelne støy fra ustemt tale (en oppgave som tidligere kjente systemer vanligvis ikke er i stand til å løse) er det vanligvis mindre i stand til å skjelne støy fra stemt tale. Følgelig er det fortrinnsvis i kretsen 20 også anordnet en deteksjonskrets for stemt tale omfattende en tonehøyde-analysator 27 (som i praksis kan virke som en del av en talekoder, og som spesielt kan måle den langsiktige prediktor-forsinkelsesverdi som frembringes i en multipuls LPC-koder). Tonehøyde-analysatoren 27 frembringer et logisk signal som er "sant" når stemt tale detekteres, og dette signalet sammen med målet som er utledet fra terskelkretsen 26 (som vanligvis vil være "sann" når ustemt tale er tilstede), blir levert til inngangen på en NOR-port 28 for å generere et signal som er "usant" når tale er tilstede og "sant" når støy er tilstede. Dette signalet blir levert tii bufferlageret 8 (eller til den inverse filteranalysatoren 3) slik at inverse filterkoeffisienter Lj bare blir oppdatert under støyperioder.
Terskeladaptoren 29 er også koblet for å motta ikke-tale-signalstyreutgangen fra styresignal-generatorkretsen 20. Utgangen fra terskeladaptoren 29 blir levert til terskelkretsen 7. Terskeladaptoren virker for å inkrementere eller dekrementere terskelen i trinn som er en andel av den øyeblik-kelige terskelverdi, inntil terskelen er tilnærmet lik støyenergi-nivået (som hensiktsmessig kan være utledet fra f.eks veie- og adderingskretsene 22,23). Når inngangssignalet er meget lavt, kan det være ønskelig at terskelen blir automatisk innstilt til et fast, lavt nivå siden virkningen av signalkvantisering blir frembragt ved hjelp av ADC 2 ved lave signalnivåer kan frembringe upålitelige resultater.
Det kan videre være tilveiebragt en "overheng"-genererende anordning 30 som virker til å måle varigheten av taleindikasjoner etter terskelkretsen 7, og når forekomsten av tale er blitt indikert over en periode i overkant av en forutbestemt tidskonstant, blir utgangen holdt høy for en kort "overhengs"-periode. På denne måten blir klipping av midten av taleutbrudd ved lavt nivå unngått, og passende valg av tidskonstanten forhindrer utløsning av overhenggeneratoren 30 av korte støytopper som uriktig indikeres som tale. Man vil selvsagt forstå at alle de ovennevnte funksjoner kan utføres ved hjelp av en enkel og på passende måte programmert digital be handlings anordn ing, slik som en digital signalbehandlings-brikke (DSP), som en del av en LPC-kodek som er implementert på denne måten (dette er den foretrukne implementering), eller som en passende programmert mikrodatamaskin eller mikroprosessor-brikke med en tilordnet lageranordning.
Som beskrevet ovenfor kan stemme-deteksjonsapparatet hensiktsmessig implementeres som en del av en LPC-koder/dekoder (kodek). Når autokorrelasjonskoeffisienten til signalet eller beslektede mål (delvis korrelasjon eller "parcor"-koeffisienter) blir overført til en fjerntliggende stasjon, kan stemme-deteksjonen alternativt finne sted i avstand fra kodeken.

Claims (5)

1. Apparat for deteksjon av stemme-aktivitet, omfattende: (i) en første stemmeaktivitets-detektor (3-6,14) som fungerer ved å danne et mål for den spektrale likhet mellom en del av et inngangssignal og en del av inngangssignalet som bedømmes som talefritt, for å frembringe et utgangssignal som indikerer nærvær eller fravær av tale i inngangssignalet; (ii) et lager (15) for å lagre data som utledes fra den talefrie delen; og (iii) en hjelpe-stemmeaktivitetsdetekter (20), karakterisert ved at hjelpe-stemmeaktivitetsdetektoren (20) alene styrer oppdatering av lageret (15), og at den omfatter en anordning (4, 21, 21a, 22, 23, 24, 25, 26) for å generere et mål for spektral likhet mellom en aktuell del av inngangssignalet og en tidligere del av inngangssignalet.
2. Apparat ifølge krav 1, karakterisert ved at anordningen for generering av et mål for likhet omfatter: (i) en anordning (4, 21, 22, 23) for fra LPC-filterdata som angår en tilstedeværende del av inngangssignalet, å tilveiebringe et mål for tilstedeværende forvrengning; (ii) en anordning (24) for å tilveiebringe et forvrengningsmål for forutgående ramme, hvilket forvrengningsmål tilsvarer en forutgående del av inngangssignalet, og (iii) en anordning (25, 26) for å generere et signal som indikerer graden av likhet mellom disse, som en indikator på nærvær eller fravær av tale.
3. Apparat for deteksjon av stemmeaktivitet, omfattende: (i) en anordning (1) for å motta et inngangssignal; (ii) et lager (15) for å lagre et støy-representerende signal som representerer en estimert støykomponent av inngangssignalet; (iii) en anordning (3-6,14) for periodisk å danne fra inngangssignalet og det støy-representerende signalet et mål for den spektrale likhet mellom en del av inngangssignalet og den estimerte støykomponenten; (iv) en anordning (7) for a sammenligne målet med en terskelverdi for å frembringe et utgangssignai som indikerer nærvær eller fravær av tale i inngangssignalet; (v) en hjelpe-stemmeaktivitetsdetektor (20); og (vi) en lager-oppdateringsanordning for å oppdatere lageret fra inngangssignalet, karakterisert ved at hjelpe-stemmeaktivitetsdetektoren er innrettet for å fungere i avhengighet av et mål for spektral likhet.mellom en aktuell del av inngangssignalet og en forutgående del av inngangssignalet, for å frembringe et styresignal som indikerer nærvær eller fravær av tale, og at lageroppdaterings-anordningen kan oppdatere lageret fra inngangssignalet bare når styresignalet indikerer at tale er fraværende.
4. Apparat ifølge et av kravene 1-3, karakterisert ved at det omfatter en anordning for å justere terskelverdien i perioder når tale indikeres av styresignalet å være fraværende.
5. Apparat ifølge krav 4, karakterisert ved at hjelpe-stemmeaktivitetsdetektoren videre omfatter en deteksjonsanordning (27) for stemt tale, hvilken deteksjonsanordning omfatter en tonehøyde-analyseanordning for å generere et signal som indikerer nærvær av stemt tale, og som styresignalet som frembringes av hjelpe-stemmeaktivitetsdetektoren (20), også avhenger av.
NO982568A 1988-03-11 1998-06-04 Deteksjon av stemme-aktivitet NO316610B1 (no)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
GB888805795A GB8805795D0 (en) 1988-03-11 1988-03-11 Voice activity detector
GB888813346A GB8813346D0 (en) 1988-06-06 1988-06-06 Voice activity detection
GB888820105A GB8820105D0 (en) 1988-08-24 1988-08-24 Voice activity detection
PCT/GB1989/000247 WO1989008910A1 (en) 1988-03-11 1989-03-10 Voice activity detection

Publications (3)

Publication Number Publication Date
NO982568L NO982568L (no) 1990-11-09
NO982568D0 NO982568D0 (no) 1998-06-04
NO316610B1 true NO316610B1 (no) 2004-03-08

Family

ID=27263821

Family Applications (2)

Application Number Title Priority Date Filing Date
NO903936A NO304858B1 (no) 1988-03-11 1990-09-10 Deteksjon av stemme-aktivitet
NO982568A NO316610B1 (no) 1988-03-11 1998-06-04 Deteksjon av stemme-aktivitet

Family Applications Before (1)

Application Number Title Priority Date Filing Date
NO903936A NO304858B1 (no) 1988-03-11 1990-09-10 Deteksjon av stemme-aktivitet

Country Status (16)

Country Link
EP (2) EP0335521B1 (no)
JP (2) JP3321156B2 (no)
KR (1) KR0161258B1 (no)
AU (1) AU608432B2 (no)
BR (1) BR8907308A (no)
CA (1) CA1335003C (no)
DE (2) DE68929442T2 (no)
DK (1) DK175478B1 (no)
ES (2) ES2047664T3 (no)
FI (2) FI110726B (no)
HK (1) HK135896A (no)
IE (1) IE61863B1 (no)
NO (2) NO304858B1 (no)
NZ (1) NZ228290A (no)
PT (1) PT89978B (no)
WO (1) WO1989008910A1 (no)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0435458B1 (en) * 1989-11-28 1995-02-01 Nec Corporation Speech/voiceband data discriminator
CA2040025A1 (en) * 1990-04-09 1991-10-10 Hideki Satoh Speech detection apparatus with influence of input level and noise reduced
US5241692A (en) * 1991-02-19 1993-08-31 Motorola, Inc. Interference reduction system for a speech recognition device
FR2697101B1 (fr) * 1992-10-21 1994-11-25 Sextant Avionique Procédé de détection de la parole.
SE470577B (sv) * 1993-01-29 1994-09-19 Ericsson Telefon Ab L M Förfarande och anordning för kodning och/eller avkodning av bakgrundsljud
JPH06332492A (ja) * 1993-05-19 1994-12-02 Matsushita Electric Ind Co Ltd 音声検出方法および検出装置
SE501305C2 (sv) * 1993-05-26 1995-01-09 Ericsson Telefon Ab L M Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler
EP0633658A3 (en) * 1993-07-06 1996-01-17 Hughes Aircraft Co Automatic gain control circuit coupled to the transmission and activated by speech.
IN184794B (no) * 1993-09-14 2000-09-30 British Telecomm
SE501981C2 (sv) * 1993-11-02 1995-07-03 Ericsson Telefon Ab L M Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler
US5742734A (en) * 1994-08-10 1998-04-21 Qualcomm Incorporated Encoding rate selection in a variable rate vocoder
FR2727236B1 (fr) * 1994-11-22 1996-12-27 Alcatel Mobile Comm France Detection d'activite vocale
WO1996034382A1 (en) * 1995-04-28 1996-10-31 Northern Telecom Limited Methods and apparatus for distinguishing speech intervals from noise intervals in audio signals
GB2306010A (en) * 1995-10-04 1997-04-23 Univ Wales Medicine A method of classifying signals
FR2739995B1 (fr) * 1995-10-13 1997-12-12 Massaloux Dominique Procede et dispositif de creation d'un bruit de confort dans un systeme de transmission numerique de parole
US5794199A (en) * 1996-01-29 1998-08-11 Texas Instruments Incorporated Method and system for improved discontinuous speech transmission
DE69716266T2 (de) 1996-07-03 2003-06-12 British Telecomm Sprachaktivitätsdetektor
US6618701B2 (en) * 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
DE10052626A1 (de) * 2000-10-24 2002-05-02 Alcatel Sa Adaptiver Geräuschpegelschätzer
CN1617606A (zh) * 2003-11-12 2005-05-18 皇家飞利浦电子股份有限公司 一种在语音信道传输非语音数据的方法及装置
US7139701B2 (en) * 2004-06-30 2006-11-21 Motorola, Inc. Method for detecting and attenuating inhalation noise in a communication system
US7155388B2 (en) * 2004-06-30 2006-12-26 Motorola, Inc. Method and apparatus for characterizing inhalation noise and calculating parameters based on the characterization
FI20045315A (fi) * 2004-08-30 2006-03-01 Nokia Corp Ääniaktiivisuuden havaitseminen äänisignaalissa
US8708702B2 (en) * 2004-09-16 2014-04-29 Lena Foundation Systems and methods for learning using contextual feedback
US8775168B2 (en) * 2006-08-10 2014-07-08 Stmicroelectronics Asia Pacific Pte, Ltd. Yule walker based low-complexity voice activity detector in noise suppression systems
US8175871B2 (en) 2007-09-28 2012-05-08 Qualcomm Incorporated Apparatus and method of noise and echo reduction in multiple microphone audio systems
US8954324B2 (en) 2007-09-28 2015-02-10 Qualcomm Incorporated Multiple microphone voice activity detector
US8223988B2 (en) 2008-01-29 2012-07-17 Qualcomm Incorporated Enhanced blind source separation algorithm for highly correlated mixtures
US8275136B2 (en) 2008-04-25 2012-09-25 Nokia Corporation Electronic device speech enhancement
US8244528B2 (en) 2008-04-25 2012-08-14 Nokia Corporation Method and apparatus for voice activity determination
US8611556B2 (en) 2008-04-25 2013-12-17 Nokia Corporation Calibrating multiple microphones
ES2371619B1 (es) * 2009-10-08 2012-08-08 Telefónica, S.A. Procedimiento de detección de segmentos de voz.
CN104485118A (zh) 2009-10-19 2015-04-01 瑞典爱立信有限公司 用于语音活动检测的检测器和方法
CN108985277B (zh) * 2018-08-24 2020-11-10 广东石油化工学院 一种功率信号中背景噪声滤除方法及***

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3509281A (en) * 1966-09-29 1970-04-28 Ibm Voicing detection system
US4052568A (en) * 1976-04-23 1977-10-04 Communications Satellite Corporation Digital voice switch
US4358738A (en) * 1976-06-07 1982-11-09 Kahn Leonard R Signal presence determination method for use in a contaminated medium
JPS5636246A (en) * 1979-08-31 1981-04-09 Nec Corp Stereo signal demodulating circuit
JPS59115625A (ja) * 1982-12-22 1984-07-04 Nec Corp 音声検出器
EP0127718B1 (fr) * 1983-06-07 1987-03-18 International Business Machines Corporation Procédé de détection d'activité dans un système de transmission de la voix
JPS6196817A (ja) * 1984-10-17 1986-05-15 Sharp Corp フイルタ−

Also Published As

Publication number Publication date
EP0335521B1 (en) 1993-11-24
FI904410A0 (fi) 1990-09-07
NO903936L (no) 1990-11-09
NZ228290A (en) 1992-01-29
DE68910859D1 (de) 1994-01-05
PT89978A (pt) 1989-11-10
EP0548054A3 (no) 1994-01-12
FI115328B (fi) 2005-04-15
JPH03504283A (ja) 1991-09-19
WO1989008910A1 (en) 1989-09-21
KR0161258B1 (ko) 1999-03-20
DE68929442T2 (de) 2003-10-02
NO982568D0 (no) 1998-06-04
PT89978B (pt) 1995-03-01
EP0548054A2 (en) 1993-06-23
DK175478B1 (da) 2004-11-08
NO982568L (no) 1990-11-09
NO304858B1 (no) 1999-02-22
IE61863B1 (en) 1994-11-30
FI20010933A (fi) 2001-05-04
EP0335521A1 (en) 1989-10-04
KR900700993A (ko) 1990-08-17
ES2047664T3 (es) 1994-03-01
JP2000148172A (ja) 2000-05-26
IE890774L (en) 1989-09-11
DE68929442D1 (de) 2003-01-23
JP3423906B2 (ja) 2003-07-07
CA1335003C (en) 1995-03-28
JP3321156B2 (ja) 2002-09-03
DE68910859T2 (de) 1994-12-08
HK135896A (en) 1996-08-02
EP0548054B1 (en) 2002-12-11
NO903936D0 (no) 1990-09-10
DK215690D0 (da) 1990-09-07
ES2188588T3 (es) 2003-07-01
AU3355489A (en) 1989-10-05
BR8907308A (pt) 1991-03-19
AU608432B2 (en) 1991-03-28
DK215690A (da) 1990-09-07
FI110726B (fi) 2003-03-14

Similar Documents

Publication Publication Date Title
NO316610B1 (no) Deteksjon av stemme-aktivitet
US5276765A (en) Voice activity detection
KR100363309B1 (ko) 음성액티비티검출기
US5930747A (en) Pitch extraction method and device utilizing autocorrelation of a plurality of frequency bands
US5197113A (en) Method of and arrangement for distinguishing between voiced and unvoiced speech elements
US4561102A (en) Pitch detector for speech analysis
KR100278423B1 (ko) 정상신호 및 비정상신호의 판별
KR940024660A (ko) 음성인식장치
JP2002516420A (ja) 音声コーダ
CA2021508C (en) Digital speech coder having improved long term lag parameter determination
JPH09212195A (ja) 音声活性検出装置及び移動局並びに音声活性検出方法
US5579432A (en) Discriminating between stationary and non-stationary signals
SE470577B (sv) Förfarande och anordning för kodning och/eller avkodning av bakgrundsljud
EP0092612B1 (en) Speech analysis system
Vahatalo et al. Voice activity detection for GSM adaptive multi-rate codec
JP2002258881A (ja) 音声検出装置及び音声検出プログラム
Stegmann et al. Robust classification of speech based on the dyadic wavelet transform with application to CELP coding
JPH04100099A (ja) 音声検出装置
WO2022139730A1 (en) Method enabling the detection of the speech signal activity regions
Openshaw et al. Reducing the environmental sensitivity of cepstral features for speaker recognition
JPH0123800B2 (no)
JPH0457000B2 (no)

Legal Events

Date Code Title Description
MK1K Patent expired