DK175478B1 - Taleaktivitetsdetektor og fremgangsmåde til detektion af taleaktivitet - Google Patents

Taleaktivitetsdetektor og fremgangsmåde til detektion af taleaktivitet Download PDF

Info

Publication number
DK175478B1
DK175478B1 DK199002156A DK215690A DK175478B1 DK 175478 B1 DK175478 B1 DK 175478B1 DK 199002156 A DK199002156 A DK 199002156A DK 215690 A DK215690 A DK 215690A DK 175478 B1 DK175478 B1 DK 175478B1
Authority
DK
Denmark
Prior art keywords
signal
speech
filter
target
noise
Prior art date
Application number
DK199002156A
Other languages
English (en)
Other versions
DK215690D0 (da
DK215690A (da
Inventor
Daniel Kenneth Freeman
Ivan Boyd
Original Assignee
Lg Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GB888805795A external-priority patent/GB8805795D0/en
Priority claimed from GB888813346A external-priority patent/GB8813346D0/en
Priority claimed from GB888820105A external-priority patent/GB8820105D0/en
Application filed by Lg Electronics Inc filed Critical Lg Electronics Inc
Publication of DK215690D0 publication Critical patent/DK215690D0/da
Publication of DK215690A publication Critical patent/DK215690A/da
Application granted granted Critical
Publication of DK175478B1 publication Critical patent/DK175478B1/da

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Telephone Function (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Noise Elimination (AREA)
  • Geophysics And Detection Of Objects (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

DK 175478 B1
Opfindelsen angår et taleaktivitets-detektionsapparat.
En taleaktivitetsdetektor er en anordning, der kan detektere perioder af tale eller perioder, der kun indeholder støj. Sådanne detektorer er af særlig interesse i mobile ra-5 diotelefonsystemer, hvor forekomst af tale kan undersøges ved hjæip af en stemme-koder til opnåelse af en bedre udnyttelse af radiospektret, og hvor støjniveauet (fra en enhed, der er monteret på et køretøj) sandsynligvis også vil være højt.
En støj akti vitetsdetektion tjener til at tilvejebringe en måleværdi, der under taleperioder 10 afviger væsentligt fra den tilsvarende værdi under ikke-taleperioder. I et apparat, der indeholder en stemmekoder, er det muligt at udlede forskellige parametre fra et eller flere trin af koderen, og det er derfor ønskværdigt at økonomisere med den signalbehandling, der udføres under anvendelse af sådanne parametre. I visse omgivelser ligger hovedstøjkilden i kendte afgrænsede områder af frekvensspektret. I en bil, 15 der er i bevægelse, er meget af støjen (eksempelvis motorstøjen) koncentreret i de lavfrekvente områder af spektret. Hvis man kender spektralområdet af støjen, er det ønskværdigt at basere afgørelsen af, om der er talesignaler til stede, på målinger fra den del af spektret, der indeholder forholdsvis lidt støj. Det vil selvfølgelig være muligt at forfiltrere signalet inden analyse til detektion af taleaktivitet, men hvis taleaktivitets-20 detektoren følger udgangen af talekoderen, vil en forfiltrering forvrænge det talesignal, der skal kodes.
I US patent nr. 4.358.738 beskrives en taleaktivitetsdetektor, som sammenligner indgangssignalet med forudbestemte støjkarakteristikker ved at filtrere indgangssignalet gennem et par manuelt balancerede båndpasfiltre (under anvendelse af analoge kompo-25 nenter) til dannelse af to frekvensafhængige energilameller. Denne fremgangsmåde har af mange grunde begrænset anvendelighed; for det første ignorerer en sådan primitiv anordning det faktum, at mange typer støj kunne have en energibalance mellem de to bånd, hvilken ligner et stemmesignal, for det andet er balancering af filtrene møjsommelig og kræver en manuel detektion af støjperioder til balancering, og for det tredje er 30 sådan en indretning ikke i stand til at justere for skiftende støj eller spektrale ændringer i omgivelserne (eller kommunikationskanalen).
I DK 175478 B1 I
i 2 I
I I IEEE Transactions on acoustics, speech and signal processing, bind ASSP-25, nr. 4, I
I august 1977, side 338-343, L.R. Rabiner et al "Application of an LPC distance measure I
I to the voiced-unvoiced-silence detection problem", er der beskrevet en klassificerings- I
I 5 metode til at diskriminere mellem stilhed, ustemt tale og stemt tale, hvilke er blevet I
I overført via en telefonlinje. Metoden omfatter indledningsvist at anvende manuelt klas- I
I sificerede "stilhed", "stemt" og "ustemt" stemmesignalrammer til at drive reference- I
I mønstre og derefter sammenligne indgangssignalet med hver af disse ved hjælp af et I
I sammenligningsmål og valg af det referencemønster, som indgangssignalet ligner mest. I
I 10 Metoden har nogle af de ulemper, der er nævnt i 4.358.738, idet den kræver en omfat- I
I tende manuel indgriben under udvælgelse af "stilheds"-rammer fra træningsdata og der- I
I fra dannelse af referencemønsteret, og idet ændringer i omgivelserne resulterer i forker- I
I te identifikationer, da referencemønsteret er fastsat Disse ulemper øges i tilfælde af I
I omgivelser med højt støjniveau (såsom et befordringsmiddel, der bevæger sig) sam- I
I 15 menlignet med omgivelser med lavt støjniveau (stilhed over en telefonlinje) som be- I
I skrevet af Rabiner. I
I Europæisk patentansøgning nr. EP-A-0127718 og US patent nr. 4.672.669 beskriver et I
I taleaktivitets-detektionsapparat, i hvilket en første test udføres på en signalamplitude, I
20 og en anden test er baseret på analyse af ændringer i korttids-signalspektrummet. Især I
spektralanalysen udføres ved at sammenligne signalets autokorrelation med autokorre- I
lationer fra en tidligere del af signalet, som skønnes at være uden tale. I
Ifølge et aspekt ved den foreliggende opfindelse er der tilvejebragt et taleaktivitets- I
25 detektionsapparat omfattende: I
I: organer til modtagelse af et første indgangssignal; I
Π: organer til periodisk adaptiv generering af et andet signal, som repræsenterer en I
30 vurderet støjsignalkomponent for indgangssignalet; 3 DK 175478 B1 III: organer til periodisk dannelse fra det førete og det andet signal at danne et mål M for den spektrale overensstemmelse mellem en del af indgangssignalet og støjsig-nalkomponenten; og 5 IV: organer til sammenligning af målet M med en tærskelværdi T til frembringelse af et udgangssignal til indikering af tilstedeværelse eller fravasr af tale; hvor 10 V: de genererende organer omfatter analyseenheder, som er indrettet til at frembrin ge koefficienter for et filter, der har et svar, som er det inverse af frekvensspek-trummet for ét af de nævnte to signaler; og VI: måledannelsesorganeme er indrettet til at frembringe et mål, som er proportionalt 15 med den nulte ordens autokorrelation for det andet af de nævnte to signaler efter filtrering ved hjælp af et filter med nævnte koefficienter.
Ifølge et andet aspekt ved opfindelsen er der anvist en fremgangsmåde til detektion af taleaktivitet i et første indgangssignal, omfattende: 20 A. en periodisk adaptiv generering af et andet signal, som repræsenterer en estimeret støjstignalkomponent for det første signal; B. en periodisk dannelse, fra det første og det andet signal, af et mål for den spektra- 25 le overensstemmelse mellem en del af indgangssignalet og den nævnte estimerede støjsignalkomponent; og C. en sammenligning af målet med en tærskelværdi til frembringelse af et udgangssignal til indikering af tilstedeværelse eller fravær af tale; hvor 30
I DK 175478 B1 I
4 i
I D. trinnet for frembringelse af et filters koefficienter har et spektralt svar, som er det I
I inverse af frekvensspektret for signalerne; og I
I E. målet er proportionalt med den nulte ordens autokorrelation af det andet af de I
I 5 nævnte to signaler efter filtrering ved hjælp af et filter med nævnte koefficienter. I
I Andre aspekter ved den foreliggende opfindelse er som defineret i kravene. I
I Nogle udførelsesformer for opfindelsen vil nu blive beskrevet ved hjælp af eksempler I
I 10 med henvisning til den medfølgende tegning, hvor I
I fig. 1 viser et blokdiagram af en første udførelsesform for et teleaktivitets- I
I detektionsapparat ifølge opfindelsen, I
I 15 fig. 2 en anden udførelsesform for apparatet ifølge opfindelsen, og I
I fig. 3 en tredje foretrukken udførelsesform for apparat ifølge opfindelsen. I
I Det generelle princip, der ligger til grund for en taleaktivitetsdetektor ifølge en første I
I 20 udførelsesform for opfindelsen, er som følger. I
I En ramme af n signaleksempleringer I
I (Si, Si, S2, S3, S4 ... Sn.i) vil, når de føres gennem et fjerdeordens digitalt filter med en- I
I deligt impulssvar (FIR) af impulssvaret (1, h<>, hj, h2, h3) resultere i et filtreret signal I
I 25 (idet man ignorerer eksempleringer fra tidligere rammer) S' = I
5 DK 175478 B1 (So), (Si + hoS0), (S2 + hoSi +h]So), (S3 + hoS2 + hjSi + h2So), 5 (S4 + HoS3 + hiS2 + h2Si+h!So), (S5 + hoS4 + hi S3 + h2S2 + h3Si), (Se + hoS5 + + h2S3 + h3S2), (S, ..·) 10 Den nulte ordens autokorrelationskoefficient er summen af hvert udtryk kvadreret, der kan være normaliseret, dvs. divideret med det totale antal udtryk (for konstante ramme-længder er det lettere at udelade divisionen). For det filtrerede signal er den således n-1 R'o = 2(Si)2 15 i=o og dette er derfor et mål for effekten af det imaginære filtrerede signal S' - med andre ord af den del af signalet S, der falder inden for pasbåndet af det imaginære filter.
20 Ved en ekspansion, idet man udelader de første udtryk, fås R'o = (S4 + høS3 + hiS2 + h2Si + h3So)2 + (S5 + hoS4 + h]S3 + h2S2 + h3Sj)2 +...
25 = S24 + hoS4S3 + hiS4S2 + h2S4Si + h3S4So + hoS4S3 + h20S2o + hohiS3S2 + hoh2S3Si + hoh3S3So + hiS4S2 + hoh,S3S2 + h2!S22 + h,h2S2Si + hih3S2S0 + h2S4S, + hoh,S3S, +h,h2S2S, +h22S2, +h2h3SiS0 + h3S4S0 hoh3S2So + h,h3S2So h2h3SiSo "^h 3S o 30 +...
= R0(l+h20 + h21+h22 + h23)
I DK 175478 B1 I
i 6 i
I + Ri (2ho, 2hohj + 2hih2 + 2h2h3) I
I + R2 (2hj + 2h)h3 + 2hoh2) I
I +R3(2h2 + 2hoh3) I
I + R4 (2h3) I
I 5 I
R'o kan således opnås fra en kombination af autokorrelationskoefficienteme Rj, vægtet I
I med de i parentes angivne konstanter, der bestemmer frekvensbåndet, overfor hvilket I
I værdien af R’o er følsomt. De i parentes angivne udtryk er faktisk autokorrelations- I
I koefficienterne af impulssvaret af det imaginære filter således, at udtrykket ovenfor kan I
I 10 forenklestil I
In I
I R'o - RqHo + 2 Σ R,H„................(1) I
I I
I 15 I
I hvor N er filterets orden, og H; er de (ikke-normaliserede) autokorrelationskoefficienter I
I af impulssvaret af filteret. I
Virkningen på signalautokorrelationskoefficienteme af filtreringen af et signal kan med I
20 andre ord simuleres ved at frembringe en vægtet sum af autokorrelationskoefficienteme I
af det (ufiltrerede) signal under anvendelse af det impulssvar, som det nødvendige filter I
ville have haft. I
En forholdsvis enkelt algoritme, der involverer et lille antal multiplikationer, kan såle- I
25 des simulere virkningen af et digitalt filter, der typisk kræver hundrede gange dette an- I
tal multiplikationer. I
Filtreringsoperationen kan alternativt betragtes som en form for spektral sammenlig- I
ning, idet signalspektret matches overfor et referencespektrum (det inverse af svaret af I
30 det imaginære filter). Eftersom det imaginære filter i denne anvendelse er valgt til at I
tilnærme det inverse af støjspektret, kan denne operation betragtes som en spektral- I
7 DK 175478 B1 sammenligning mellem tale- og støjspektre, og den således genererede nulte autokorrelationskoefficient (dvs. energien af det inverse filtrerede signal) som et mål for afvigelsen mellem spektrene. Itakura-Saito forvrængningsmålingen anvendes i LPC til at vurdere tilpasningen mellem forudsigelsesfilteret og indgangsspektret og er i en form 5 udtrykt som
N
M = RoAo + 2 E RiAj, 1=1 10 hvor Ao osv. er autokorrelationskoefficienteme af SPC parametersættet. Det ses, at dette nøje svarer til relationen udledt ovenfor, og, når det erindres, at LPC koefficienterne er udtagene af et FIR filter med det inverse spektralsvar af indgangssignalet således, at LPC koefficientsættet er impulssvaret af det inverse LPC filter, ses det, at Itakura-Saito 15 forvrængningsmålingen faktisk blot er en form af ligning 1, hvori filtersvaret H er det inverse af spektralformen af en alle-pol model af indgangssignalet
Det er faktisk også muligt at transponere spektret under anvendelse af LPC koefficienterne af prøvespektret og autokorrelationskoefficienteme af referencespektret til opnå-20 else af et andet mål for spektral overensstemmelse.
I-S forvrængningsmålingen er yderligere diskuteret i "Speech Coding based upon Vector Quantisation" af A. Buzo, A. H. Gray, R. M. Gray og J. D. Markel, IEEE Trans on ASSP, Vol ASSP-28, nr. 5, oktober 1980.
25
Eftersom rammerne af signalet kun har en endelig længde, og antallet af udtryk (N, hvor N er filterets orden) er negligeret, er ovennævnte resultat kun en tilnærmelse. Det giver imidlertid en overraskende god indikator af tilstedeværelse eller fravær af tale, og kan således anvendes som et mål M for taleforvrængning. I et miljø, hvor støjspektret 30 er velkendt og stationært, er det muligt blot at anvende fikserede hO, hl osv. koefficienter til opbygning af en model af det inverse støjfilter.
I DK 175478 B1 8
I Apparatet, som kan tilpasses til forskellige støjmiljøer, er imidlertid meget mere vidt I
anvendt. I
I Der refereres nu til fig. 1.1 en første udførelsesform er et signal fra en mikrofon (ikke I
I 5 vist) modtaget ved en indgang 1 og konverteret til digitale eksempleringer S ved en I
I passende eksempleringshastighed ved hjælp af en A/D omsætter 2. En LPC analyseen- I
I hed 3 (i en kendt type LPC koder) udleder derefter for på hinanden følgende rammer af I
I N (eksempelvis 160) eksempleringer, et sæt afN (eksempelvis S eller 12) LPC filterko- I
I efficienter L;, der transmitteres til at repræsentere indgangstalesignalet. Talesignalet S I
I 10 tilføres også til en korrelationsenhed 4 (normalt en del af LPC koderen 3, eftersom au- I
I tokorrelationsvektoren Rj af talesignalet sædvanligvis frembringes som et trin i LPC I
I analysen, selv om det er underforstået, at der kan tilvejebringes en separat korrelater). I
I Korrektoren 4 frembringer autokorrelationsvektoren R, indeholdende nulte ordens kor- I
I relationskoefficienten Ro, og mindst to yderligere autokorrelationskoefficienter R,, R2, I
I 15 R3. Disse er derefter tilført til en multiplikatorenhed 5. I
I En anden indgang 11 er forbundet til en anden mikrofon anbragt i afstand fra højttale- I
I ren således, at den kun modtager baggrundsstøj. Indgangssignalet fra denne mikrofon I
I er konverteret til et digitalt indgangseksempleringstog ved hjælp af A/D omsætteren I
I 20 12, og LPC analyseret ved hjælp af en anden LPC analysator 13. "Støj" LPC koeffici- I
enteme frembragt af analysatoren 13 overføres til en korrelatorenhed 14, og den såle- I
I des frembragte autokorrelationsvektor er et multipliceret led i afhængighed af autokor- I
relationskoefficienteme R, af indgangssignalet fra talemikrofonen i multiplikatoren 5, I
og de således frembragte vægtede koefficienter er kombineret i additionsenheden 6 I
25 ifølge ligning 1 og tilført til et filter med den inverse form af støjspektret fra "kun støj" I
mikrofonen (som i praksis er det samme som formen af støj spektret i signal plus støj- I
mikrofonen) og frafiltrerer således det meste af støjen. Det resulterende mål M tærskel- I
værdibehandles ved hjælp af en tærskelværdianordning 7 til tilvejebringelse af et logisk I
udgangssignal 8, der indikerer tilstedeværelse eller manglende tilstedeværelse af tale; I
30 hvis M er høj, antages det, at der er talesignaler. Denne udførelsesform kræver imidler- I
9 I
tid to mikrofoner og to LPC analysatorer, hvilket øger omkostningerne og kompleksite- I
ten af det nødvendige udstyr. I
DK 175478 B1 I
Alternativt udnytter en anden udførelsesform et tilsvarende mål, der dannes under an- I
5 vendelse af autokorrelationeme fra støjmikrofonen 11, og LPC koefficienterne fra ho- I
vedmikrofonen 1 således, at der snarere kræves en ekstra autokorrelator end en LPC I
analysator. I
Disse udførelsesformer er derfor i stand til at operere inden for forskellige omgivelser I
I 10 med støj ved forskellige frekvenser eller inden for et vekslende støjspektrum i givne I
I omgivelser. I
I Der refereres nu til fig. 2.1 denne udførelsesform for opfindelsen er der tilvejebragt en I
I buffer 15, som lagrer et sæt LPC koefficienter (eller autokorrelationsvektoren af sættet) I
I 15 udledt fra mikrofonindgangen 1 i en periode identificeret som en "ikke-tale" (dvs. kun I
I støj) periode. Disse koefficienter er derefter anvendt til at udlede et mål under anven- I
I delse af ligning 1, der selvfølgelig også svarer til Itakura-Saito forvrængningsmålet I
I bortset fra, at der anvendes en enkelt lagret ramme af LPC koefficienter svarende til en
I tilnærmelse til det inverse støjspektrum snarere end den foreliggende ramme af LPC
I 20 koefficienterne.
I LPC koefficientvektoren L,· afgivet af analysatoren 3, er også ført til en korrelator 14, I der frembringer autokorrelationsvektoren af LPC koefficientvektoren. Bufferen 15 er I styret ved hjælp af tale/ikke-tale udgangen af tærskelværdianordningen 7 på en sådan I 25 måde, at bufferen under "tale" rammer tilbageholder "støj" autokorrelationskoefficien- I terne, men under "støj" rammer kan et nyt sæt af LPC koefficienter anvendes til at op- I datere bufferen, f.eks. ved hjælp af en multipel afbryder 16, gennem hvilken udgangs- I signaler af korrelatoren 14, der bærer hver autokorrelationskoefficient, er forbundet til I bufferen 15. Det er underforstået, at korrelatoren 14 kan anbringes efter bufferen 15.
I 30 Tale/ikke-tale beslutningen for koefficientopdateringen, behøver ikke at være fra ud- I gangen 8, men kan (og er fortrinsvis) udledt på anden måde.
I DK 175478 B1 10
I Eftersom hyppige perioder uden tale opstår, er LPC koefficienterne, der er lagret i buf- I
I feren 15, opdateret fra tid til anden således, at apparatet er i stand til at spore ændringer I
I i støjspektret. Det er underforstået, at en sådan opdatering af bufferen 15, kun er nød- I
I vendig lejlighedsvis, eller kun finder sted en gang ved starten af driften af detektoren, I
I 5 hvis (således, som det ofte er tilfældet) støjspektret er forholdsvis stationært i tid, men i I
I et mobilt radiomiljø er hyppig opdatering foretrukket. I
I I en modificeret udførelsesform anvender systemet til at begynde med ligning 1 med I
I koefficientudtryk svarende til et simpelt fikseret højpasfilter, og starter derefter med at I
I 10 tilpasse ved at omskifte til "støjperiode" LPC koefficienter. Hvis taledetektionen af en I
I eller anden årsag svigter, kan systemet gå tilbage til det simple højpasfilter. I
I Det er muligt at normalisere ovennævnte måling ved at dividere med Rq således, at det I
I udtryk, der skal tærskelværdibehandles, har formen I
I 15 I
I N I
I M = Ao + 2 Σ RjAi I
i=l Ro I
20 Dette mål er uafhængigt af den totale signalenergi i en ramme og er således kompense- I
ret for store signalniveauændringer, men giver snarere en mindre markeret kontrast I
mellem "støj" og "tale" niveauet, og er således fortrinsvis ikke anvendt i omgivelser I
med højt støjniveau. I 1 2 3 4 5 6
I stedet for at anvende LPC analyse til udledning af de inverse filterkoefficienter af I
2
støjsignalet (fra enten støjmikrofonen eller perioder, hvor der kun er støj, således som i I
3
de ovenfor beskrevne forskellige udførelsesformer), er det muligt at udforme en model I
4
af det inverse støjspektrum under anvendelse af et adaptivt filter af kendt type; idet I
5
støjspektret kun ændres langsomt (som ovenfor beskrevet) er en forholdsvis langsom I
6
koefficienttilpasningshastighed, der er fælles for sådanne filtre, acceptabel. I én udfø- I
relsesform, der svarer til fig. 1, er LPC analyseenheden 13 blot erstattet af et adaptivt I
DK 175478 B1 I
11 I
filter (f.eks. et transversalt FRI eller gitterfilter) forbundet til at gøre indgangsstøjen I
hvid ved en formning af det inverse filter, og dets koefficienter er som tidligere tilført I
til autokorrelatoren 14. I
I 5 I en anden udførelsesform svarende til den, der er vist i fig. 2, er LPC analyseorganeme I
I 3 erstattet af sådant et tilpasningsfilter, og bufferorganeme 15 er udeladt. Omskifteren I
I 16 opererer til at forhindre, at det adaptive filter opdaterer sine koefficienter under tale- I
I perioden. I
I 10 En anden taleaktivitetsdetektor i overensstemmelse med et andet aspekt ifølge opfin- I
I delsen, vil nu blive beskrevet. I
I Af det foregående fremgår det, at LPC koefficientvektoren blot er impulssvaret af et I FIR filter med et svar, det tilnærmer den inverse spektrale form af indgangssignalet.
I 15 Når Itakura-Saito forvrængningsmålet mellem nærliggende rammer er dannet, er dette I faktisk lig med effekten af signalet filtreret ved hjælp af LPC filteret af den tidligere I ramme. Hvis spektret af nærliggende rammer afviger en smule, vil en tilsvarende lille I vierdi af spektraleffekten af en ramme undgå filtrering, og målet vil være lavt. Tilsva- I rende giver en stor interrammespektralforskel et højt Itakura-Saito forvrængningsmål I 20 således, at målet afspejler den spektrale overensstemmelse af nærliggende rammer. I en I talekoder er det ønskværdigt at minimere datahastigheden. Rammelængden er derfor så I lang som mulig. Hvis rammelængden med andre ord er lang nok, vil et talesignal vise I en tydelig spektral ændring fra ramme til ramme (hvis dette ikke er tilfældet, er kod- I ningen overflødig). Støj har på den anden side en langsomt varierende spektral form fra I 25 ramme til ramme, og i en periode, hvor der ikke er tale i signalet, vil Itakura-Saito for-
I vrængningsmålet således være tilsvarende lavt - eftersom tilførslen af det inverse LPC
I filter fra den tidligere ramme frafiltrerer det meste af støjeffekten.
I Itakura-Saito forvrængningsmålet mellem nærliggende rammer af et støjsignal inde- I 30 holdende intermitterende tale er typisk højere i taleperioder end i støjperioder. Varia- I tionsgraden (illustreret ved hjælp af standardafvigelsen) er højere og mindre intermitte- I DK 175478 B1 12
I rende variabel. Det skal bemærkes, at standardafvigelsen af standardafvigelsen af Μ I
I også er et pålideligt mål. Virkningen af at tage hver standardafvigelse er essentielt at I
I udglatte målet. I
I 5 1 denne anden form af støjaktivitetsdetektoren, er den målte parameter anvendt til at af- I
I gøre, om den tilstedeværende tale fortrinsvis er standardafvigelsen af Itakura-Saito for- I
I vrængningsmålet. Andre mål af varians og andre spektralforvrængningsmål (baseret I
I f.eks. på FFT analyse) kan også anvendes. I
I 10 Det har vist sig at være fordelagtigt at anvende en adaptiv tærskel ved taleaktivitets- I
I detektion. Sådanne tærskelværdier må ikke justeres under taleperioder, eller talesigna- I
let vil blive frasorteret ved tærskelværdibehandling. Det er følgelig nødvendigt at styre I
I tærskeladaptoren under anvendelse af et tale/ikke-tale styresignal, og det foretrækkes, I
at dette styresignal er uafhængigt af udgangen af tærskelværdiadaptoren. I
I 15 I
I Tærskelværdien T er adaptivt justeret til at holde tærskelværdiniveauet umiddelbart I
I over niveauet af målet M, når der kun er støj til stede. Eftersom målet i almindelighed I
I vil variere stokastisk ved tilstedeværelse af støj, er tærskelværdien varieret ved at be- I
I stemme et middelniveau over et antal blokke, og ved at sætte tærskelværdien ved et ni- I
I 20 veau, der er proportionalt med denne gennemsnitsværdi. I et støjfyldt miljø er dette I
I sædvanligvis ikke tilstrækkeligt, og en vurdering af variationsgraden af parameteren I
over flere blokke er således også taget i betragtning. I
Tærskelværdien T er derfor fortrinsvis beregnet i overensstemmelse med formlen I
25 I
T = M' + K · d I
hvor M' er gennemsnitsværdien af målet over et antal på hinanden følgende rammer, d I
er standardafvigelsen af målet over disse rammer, og K er en konstant (der typisk er 2). I
30 I
DK 175478 B1 I
13 I
I praksis er det at foretrække, at tilpasningen ikke gentages umiddelbart efter, at det er I
I indikeret, at der ikke er talesignaler, men derimod at afvente for at sikre, at tilfældet er I
I stabilt (for at undgå hurtig gentagen omskiftning mellem tilpasnings- og ik- I
I - ke-tilpasningstrinnene). I
I 5 I
I Der refereres nu til fig. 3.1 en foretrukken udførelsesform for opfindelsen, der inkorpo- I
I rerer ovennævnte aspekter, modtager en indgang 1 et signal, der er eksempleret og digi- I
I taliseret ved hjælp af en A/D omsætter 2 og tilført til indgangen af en invers filteranaly- I
I sator 3, der i praksis er en del af en stemmekoder, som taleaktivitetsdetektoren samar- I
I 10 bejder med, og som genererer koefficienter Lj (typisk 8) af et filter svarende til den in- I
I verse af indgangssignalspektret. Det digitaliserede signal er også tilført til en autokorre- I
I lator 4 (som er en del af analysatoren 3), som genererer autokorrelationsvektoren Rj af I
I indgangssignalet (eller i hvert fald lige så mange udtryk af lav orden, som der er LPC I
I koefficienter). Virkemåden af disse dele af apparatet er vist i fig. 1 og 2. Auto- I
I 15 korrelationskoefficienterne Rj er derefter fortrinsvis midlet over flere på hinanden føl- I
I gende talerammer (typisk af en længde på 5-20 ms) til forbedring af deres pålidelighed. I
I Dette kan opnås ved at lagre hvert sæt af autokorrelationskoefficienter afgivet ved I
I hjælp af autokorrelatoren 4 i en buffer 4a og anvende en middelværdidannende anord- I
I ning 4b til at frembringe en vægtet sum af strømautokorrelationskoefficienteme Rj, og I
I 20 de, der hidrører fra tidligere rammer lagret i og tilført fra bufferen 4a. De således udled- I
I te midiede autokorrelationskoefficienter Raj er tilført til vægt- og additionsorganer 5, 6, I der også modtager autokorrelationsvektoren Aj af de lagrede støjperiodeinverse filter- I koefficienter Lj fra en autokorrelator 14 via buffer 15 og ud fra Raj og Aj danner et mål I M, fortrinsvis defineret som I 25 I M = Ao + 2 Σ RajAj.
I Ro I Dette mål er da tærskelværdien ved tærskelværdiholderen 7 overfor et tærskelniveau, I 30 og det logiske resultat giver en indikation af tilstedeværelse eller fravær af tale ved ud- I gangen 8.
I DK 175478 B1 I 14 i
I For at de inverse filterkoefficienter L, kan svare til et rimeligt estimat af den inverse I
I værdi af støjspektret, er det ønskværdigt at opdatere disse koefficienter under perioder I
af støj (og selvfølgelig ikke opdatere under perioder af tale). Det er imidlertid at fore- I
trække, at tale/ikke-tale afgørelsen, på hvilken opdateringen er baseret, ikke afhænger I
5 af resultatet af opdateringen, idet en enkelt forkert identificeret signalramme ellers kan I
resultere i, at taleaktivitetsdetektoren efterfølgende går "ud af lås", og identificerer de I
efterfølgende rammer forkert. Der er fortrinsvis tilvejebragt et styresignalgenererende I
I kredsløb 20, der effektivt er en separat talektivitetsdetektor, der danner et uafhængigt I
I styresignal, der indikerer tilstedeværelse eller fravær af tale til styring af den inverse I
I 10 filteranalysator 3 (eller buffer 8) således, at autokorrelationskoefficienteme A; af det I
I inverse filter anvendt til dannelse af målet M, kun opdateres under støjperioder. Styre- I
I signalgeneratorkredsløbet 20 inkluderer LPC analysatoren 21 (som igen kan være en I
I del af en talekoder og fortrinsvis kan være udført ved hjælp af analysatoren 3), som I
I frembringer et sæt af LPC koefficienter Mi svarende til indgangssignalet, og en auto- I
I 15 korrelator 21a (som kan være udført ved hjælp af autokorrelatoren 3a), der udleder au- I
tokorrelationskoefficienteme Bj af Mj. Hvis analysatoren 3 udføres ved hjælp af analy- I
I satoren 3, er Mj=L, og Β,—Α,. Disse autokorrelationskoefficienter er derefter tilført til I
vægt- og additionsorganeme 22, 23 (ækvivalent med 5, 6), der også modtager au- I
tokorrelationsvektoren R,· af indgangssignalet fra autokorrelatoren 4. Et mål for den I
20 spektrale overensstemmelse mellem indgangstalerammen og den foregående taleramme I
er således beregnet. Dette kan være Itakura-Saito forvrængningsmålet mellem R, af den I
I foreliggende ramme og B, af den foregående ramme, som beskrevet ovenfor, eller den I
I kan i stedet udledes ved at beregne Itakura-Saito forvrængningsmålet for Rj og Bj af I
I den foreliggende ramme, og subtrahere (i subtraktionsenheden 25) det tilsvarende mål I
I 25 for den tidligere ramme lagret i bufferen 24 til generering af et spektralt different signal I
I (i hvert tilfælde er målet fortrinsvis energinormaliseret ved at dividere med Ro). Buffe- I
ren 24 er derefter selvfølgelig opdateret. Dette spektraldifferenssignal er, når det er tær- I
skelværdibehandlet ved hjælp af tærskelholderen 26, som ovenfor diskuteret, en indika- I
tor af tilstedeværelsen eller fraværet af talesignaler. Vi har imidlertid konstateret, at I
30 selv om dette mål er fortrinligt til at skelne støj fra ikke udtalt lyd (et skridt, som de tid- I
ligere systemer normalt ikke er i stand til at udføre), er den i almindelighed dårligere til I
DK 175478 B1 I
15 I
at skelne støj fra talt lyd. Der er fortrinsvis i kredsløbet 20 tilvejebragt et yderligere talt I
lyd-detektionskredsløb omfattende en spidsanalysator 27 (der i praksis kan operere som I
en del af stemmekoderen, og især kan måle langtidsforudsigelsesforsinkelsesværdien I
frembragt i en flerimpuls LPC). Spidsanalysatoren 27 frembringer et logisk signal, der I
5 er "sandt", når det talte talesignal er detekteret, og dette signal sammen med det tær- I
skelværdibehandlede mål udledt fra tærskelholderen 26 (der i almindelighed er "sandt", I
når det ikke-talesignal er til stede) er tilført til indgangene af en NOR-port 28 til gene- I
I rering af et signal, der er "falsk", når talesignalet er til stede, og "sandt", når der er støj I
I til stede. Dette signal tilføres til bufferen 8 (eller til den inverse filteranalysator 3) såle- I
I 10 des, at inverse filterkoefficienter Lj kun opdateres under støjperioder. I
I Tærskeladaptoren 29 er også forbundet til at modtage ikke-talesignalets styreudgang af I
I styresignal-generatorkredsløbet 20. Udgangen af tærskeladaptoren 29 tilføres til tær- I
I skelholderen 7. Tærskeladaptoren øger eller reducerer tærskelværdien i trin, som er en I
I 15 del af den øjeblikkelige tærskelværdi, indtil tærskelværdien nærmer sig støjeffektni- I
I veauet (der med fordel kan udledes fra f.eks. vægt- og additionskredsløbene 22, 23). I
I Når indgangssignalet er meget lavt, kan det være ønskværdigt, at tærskelværdien auto- I
I matisk sættes til et fikseret lavt niveau, eftersom virkningen af signalkvantisering I
I frembragt ved hjælp af A/D-omsætteren 2 ved disse lave signalniveauer, kan give upå- I
I 20 lidelige resultater. I
I Der kan desuden være indrettet "hangover" genererende organer 30, der måler varighe- I den af indikationer af tale efter tærskelholderen 7, og når tilstedeværelsen af tale er I blevet indikeret, for en periode, der overstiger en forudbestemt tidskonstant, idet ud- I 25 gangen er høj i en kort "hangover" periode. På denne måde er klipning af talesignal- I burst af middel Og lavt niveau undgået, og et passende valg af tidskonstanten forhindrer I en trigning af hangover generatoren 30 ved hjælp afkortvarige spidser af støj, der ukor- I rekt indikeres som tale. Det er selvfølgelig underforstået, at alle ovennævnte funktioner I kan udføres ved hjælp af et enkelt passende programmeret digitalt signalbehandlings- I 30 organ, såsom en Digital Signal Processing (DSP) chip som en del af en LPC codec, der I er således implementeret (dette er den foretrukne implementering), eller som en pas- I DK 175478 B1 S 16
sende programmeret mikrocomputer eller mikrokontrollerchip med en dertil hørende I
hukommelsesanordning. I
Taledetektionsapparatet kan, som ovenfor beskrevet, med fordel implementeres som en I
H 5 del af en LPC codec. Alternativt, hvor autokorrelationskoefficienter af signalet eller re- I
laterede mål (delvis korrelation eller "parcor" koefficienter) er transmitteret til en stati- I
I on i afstand derfra, kan stemmedetektionen finde sted i afstand fra den nævnte codec. I

Claims (20)

1. Taleaktivitets-detektionsapparat omfattende: I I: organer til modtagelse af et første indgangssignal; I I II: organer (14, 15) til periodisk adaptiv generering af et andet signal, som I repræsenterer en vurderet støjsignalkomponent for indgangssignalet; I I 10 I I ΙΠ: organer (4, 5, 6) til periodisk fra det første og det andet signal at frembringe et I I mål M for den spektrale overensstemmelse mellem en del af indgangssignalet og I I støj signalkomponenten; og I I 15 IV: organer (7) til sammenligning af målet M med en tærskelværdi T til frembringel- I I se af et udgangssignal til indikering af tilstedevasrelse eller fravær af tale; I I kendetegnet ved, at I I 20 V: det omfatter analyseorganer (13, 3), som er indrettet til at frembringe koeffici- I I enter for et filter, der har et svar, som er det inverse af frekvensspektret for ét af I I de nævnte to signaler; og I I VI: målefrembringelsesorganeme (4, 5, 6), som er indrettet til at frembringe et mål I 25 M, som er proportionalt med den nulte ordens autokorrelation R’0 af et signal, op- I nået ved filtrering af det andet af de nævnte to signaler ved hjælp af et filter med I nævnte koefficienter.
2. Apparat ifølge krav 1, kendetegnet ved, at analyseorganeme (13, 3) omfatter I 30 et adaptivt filter. I DK 175478 B1 I 18
3. Apparat ifølge krav 1, kendetegnet ved, at de genererende organer (14, 15) er I I indrettet til at beregne autokorrelationskoefficienteme Aj for impulssvaret for de nævn- I I te koefficienter, organerne til dannelse af målet (4) omfatter organer til at beregne au- I I tokorrelationskoefficienteme R, for det andet signal og organerne (5, 6) forbundet til at I I 5 modtage Rj og A,· og beregne målet M derfra. I
4. Apparat ifølge krav 2, kendetegnet ved, at organerne (4) til beregning af auto- I I korrelationskoefficienterne Rj for det andet signal er indrettet (4a, 4b) til at beregne dis- I I se i afhængighed af autokorrelationskoefficienteme for adskillige efterfølgende dele af I I 10 signalet. I
5. Apparat ifølge krav 3 eller 4, kendetegnet ved, at I I M = RøAo + 2 Σ RjAj, I
15 I hvor Aj er den i'ende autokorrelationskoefficient af impulssvaret for filteret. I
6. Apparat ifølge krav 3 eller 4, kendetegnet ved, at I
20 M = A0 + 2SRiAi, I Ro I hvor A,· er den i'ende autokorrelation af impulssvaret for filteret. I
7. Apparat ifølge et af kravene 1-6, kendetegnet ved, at det første signal er det I andet, støjrepræsenterende signal, og det andet signal er det første indgangssignal. I
8. Apparat ifølge krav 7, yderligere omfattende en indgang (11), der er indrettet I til at modtage et andet indgangssignal, der på tilsvarende vis er udsat for støj, og hvori I 30 der ikke er tale, og hvor organerne til generering omfatter LPC-analyseorganer (13) til I udledning af værdier for Aj fra det andet indgangssignal. I DK 175478 B1 I
19 I
9. Apparat ifølge et af kravene 1-7, og som desuden omfatter en buffer (15) for- I bundet til at lagre data, hvorfra autokorrelationskoefficienteme Aj for filterets svar kan I udledes, i hvilket filterets svar er periodisk beregnet ud fra signalet ved hjælp af LPC- I analyseorganeme (3), idet apparatet er således forbundet og styret, at målet M beregnes I 5 under anvendelse af de lagrede data, og de lagrede data kun er opdateret for perioder, i I hvilke der er indikeret, at der ikke er talesignaler. I
10. Apparat ifølge krav 9, og som desuden omfatter organer (20) til indikering af I fravær af tale til styring af lagrede datas opdatering, idet organerne (20) til indikering af I 10 fravær af tale er et andet taleaktivitets-detektionsorgan (20). I
11. Apparat ifølge et af de foregående krav, og som desuden omfatter organer (29) I I til justering af tærskelværdien T under perioder, hvor det er indikeret, at der ikke er ta- I I lesignaler. I I 15 I
12. Apparat ifølge krav 11, og som desuden omfatter et andet organ til detektion af I I stemmeaktivitet (20), der er indrettet til at forhindre en justering af tærskelværdien un- I I der tilstedeværelse af talesignaler. I I 20 13. Apparat ifølge krav 10, og som desuden omfatter organer (20) til justering af I I tærskelværdien T under perioder, hvor det er indikeret, at der ikke er talesignaler, idet I det andet organ til detektion af stemmeaktivitet (20) er indrettet til at forhindre juste- I ring af tærskelværdien, når der er talesignaler. I 25 14. Apparat ifølge krav 11, 12 eller 13, kendetegnet ved, at tærskelværdien efter I justering er lig med middelværdien af målet plus et udtryk, som er en fiinktion af må- I lets standardafvigelse.
15. Apparat ifølge krav 10, 13, eller 14, kendetegnet ved, at det andet organ (20) I 30 til detektion af taleaktivitet omfatter organer (4, 21, 21a, 22, 23, 24, 25, 26) til genere- I DK 175478 B1 20 I ring af et mål for den spektrale overensstemmelse mellem en del af indgangssignalet og I I tidligere dele af indgangssignalet I
16. Apparat ifølge krav 15, kendetegnet ved, at organerne til generering af et mål I 5 for overensstemmelsen omfatter organer (4, 21, 22, 23) for tilvejebringelse af et øje- I I blikkeligt mål for forvrængning fra LPC-filterdata og autokorrelationsdata med relation I I til en øjeblikkelig del af indgangssignalet, organer for tilvejebringelse af en ækvivalent I tidligere rammeforvrængningsmål svarende til en forudgående del af indgangssignalet, I I og organer (25, 26) for generering af signal, der indikerer graden af overensstemmelse I I 10 derimellem, til indikering af fravær eller tilstedeværelse af tale. I
17. Apparat ifølge krav 15 eller 16, kendetegnet ved, at det andet taleaktivitets- I detektionsorgan (20) desuden omfatter taledetektionsorganer (27), som omfatter spids- I I analyseorganer (27) for generering af et signal, der indikerer tilstedeværelsen af tale- I I 15 signaler, af hvilke udgangen af det andet taleaktivitets-detektionsorgan (20) også af- I I hænger. I
18. Fremgangsmåde til detektering af taleaktivitet i et første indgangssignal, om- I I fattende: I I 20 I I A. en periodisk adaptiv generering af et andet signal, som repræsenterer en estimeret I støjstignalkomponent for det første signal; I B. en periodisk dannelse, fra det første og det andet signal, af et mål M for den spek- I 25 trale overensstemmelse mellem en del af indgangssignalet og den estimerede støj- · I signalkomponent; og I C. en sammenligning af målet M med en tærskelværdi T til frembringelse af et I udgangssignal til indikering af tilstedeværelse eller fravær af tale; I 21 DK 175478 B1 kendetegnet ved, at D. trinnet for frembringelse af et filters koefficienter har et spektralt svar, som er det inverse af frekvensspektret for et af de to nævnte signaler; og ved at 5 E. målet M er proportionalt med den nulte ordens autokorrelation Ro for et signal, som er opnået ved filtrering af det andet af de nævnte to signaler ved hjælp af et filter med nævnte koefficienter. I 10 19. Apparat for kodning af talesignaler omfattende et apparat ifølge et af kravene 1 I til 17.
20. Mobiltelefonapparat omfattende et apparat ifølge et af kravene 1 til 17.
DK199002156A 1988-03-11 1990-09-07 Taleaktivitetsdetektor og fremgangsmåde til detektion af taleaktivitet DK175478B1 (da)

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
GB8805795 1988-03-11
GB888805795A GB8805795D0 (en) 1988-03-11 1988-03-11 Voice activity detector
GB8813346 1988-06-06
GB888813346A GB8813346D0 (en) 1988-06-06 1988-06-06 Voice activity detection
GB888820105A GB8820105D0 (en) 1988-08-24 1988-08-24 Voice activity detection
GB8820105 1988-08-24
GB8900247 1989-03-10
PCT/GB1989/000247 WO1989008910A1 (en) 1988-03-11 1989-03-10 Voice activity detection

Publications (3)

Publication Number Publication Date
DK215690D0 DK215690D0 (da) 1990-09-07
DK215690A DK215690A (da) 1990-09-07
DK175478B1 true DK175478B1 (da) 2004-11-08

Family

ID=27263821

Family Applications (1)

Application Number Title Priority Date Filing Date
DK199002156A DK175478B1 (da) 1988-03-11 1990-09-07 Taleaktivitetsdetektor og fremgangsmåde til detektion af taleaktivitet

Country Status (16)

Country Link
EP (2) EP0335521B1 (da)
JP (2) JP3321156B2 (da)
KR (1) KR0161258B1 (da)
AU (1) AU608432B2 (da)
BR (1) BR8907308A (da)
CA (1) CA1335003C (da)
DE (2) DE68929442T2 (da)
DK (1) DK175478B1 (da)
ES (2) ES2047664T3 (da)
FI (2) FI110726B (da)
HK (1) HK135896A (da)
IE (1) IE61863B1 (da)
NO (2) NO304858B1 (da)
NZ (1) NZ228290A (da)
PT (1) PT89978B (da)
WO (1) WO1989008910A1 (da)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0435458B1 (en) * 1989-11-28 1995-02-01 Nec Corporation Speech/voiceband data discriminator
CA2040025A1 (en) * 1990-04-09 1991-10-10 Hideki Satoh Speech detection apparatus with influence of input level and noise reduced
US5241692A (en) * 1991-02-19 1993-08-31 Motorola, Inc. Interference reduction system for a speech recognition device
FR2697101B1 (fr) * 1992-10-21 1994-11-25 Sextant Avionique Procédé de détection de la parole.
SE470577B (sv) * 1993-01-29 1994-09-19 Ericsson Telefon Ab L M Förfarande och anordning för kodning och/eller avkodning av bakgrundsljud
JPH06332492A (ja) * 1993-05-19 1994-12-02 Matsushita Electric Ind Co Ltd 音声検出方法および検出装置
SE501305C2 (sv) * 1993-05-26 1995-01-09 Ericsson Telefon Ab L M Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler
EP0633658A3 (en) * 1993-07-06 1996-01-17 Hughes Aircraft Co Automatic gain control circuit coupled to the transmission and activated by speech.
IN184794B (da) * 1993-09-14 2000-09-30 British Telecomm
SE501981C2 (sv) * 1993-11-02 1995-07-03 Ericsson Telefon Ab L M Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler
US5742734A (en) * 1994-08-10 1998-04-21 Qualcomm Incorporated Encoding rate selection in a variable rate vocoder
FR2727236B1 (fr) * 1994-11-22 1996-12-27 Alcatel Mobile Comm France Detection d'activite vocale
WO1996034382A1 (en) * 1995-04-28 1996-10-31 Northern Telecom Limited Methods and apparatus for distinguishing speech intervals from noise intervals in audio signals
GB2306010A (en) * 1995-10-04 1997-04-23 Univ Wales Medicine A method of classifying signals
FR2739995B1 (fr) * 1995-10-13 1997-12-12 Massaloux Dominique Procede et dispositif de creation d'un bruit de confort dans un systeme de transmission numerique de parole
US5794199A (en) * 1996-01-29 1998-08-11 Texas Instruments Incorporated Method and system for improved discontinuous speech transmission
DE69716266T2 (de) 1996-07-03 2003-06-12 British Telecomm Sprachaktivitätsdetektor
US6618701B2 (en) * 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
DE10052626A1 (de) * 2000-10-24 2002-05-02 Alcatel Sa Adaptiver Geräuschpegelschätzer
CN1617606A (zh) * 2003-11-12 2005-05-18 皇家飞利浦电子股份有限公司 一种在语音信道传输非语音数据的方法及装置
US7139701B2 (en) * 2004-06-30 2006-11-21 Motorola, Inc. Method for detecting and attenuating inhalation noise in a communication system
US7155388B2 (en) * 2004-06-30 2006-12-26 Motorola, Inc. Method and apparatus for characterizing inhalation noise and calculating parameters based on the characterization
FI20045315A (fi) * 2004-08-30 2006-03-01 Nokia Corp Ääniaktiivisuuden havaitseminen äänisignaalissa
US8708702B2 (en) * 2004-09-16 2014-04-29 Lena Foundation Systems and methods for learning using contextual feedback
US8775168B2 (en) * 2006-08-10 2014-07-08 Stmicroelectronics Asia Pacific Pte, Ltd. Yule walker based low-complexity voice activity detector in noise suppression systems
US8175871B2 (en) 2007-09-28 2012-05-08 Qualcomm Incorporated Apparatus and method of noise and echo reduction in multiple microphone audio systems
US8954324B2 (en) 2007-09-28 2015-02-10 Qualcomm Incorporated Multiple microphone voice activity detector
US8223988B2 (en) 2008-01-29 2012-07-17 Qualcomm Incorporated Enhanced blind source separation algorithm for highly correlated mixtures
US8275136B2 (en) 2008-04-25 2012-09-25 Nokia Corporation Electronic device speech enhancement
US8244528B2 (en) 2008-04-25 2012-08-14 Nokia Corporation Method and apparatus for voice activity determination
US8611556B2 (en) 2008-04-25 2013-12-17 Nokia Corporation Calibrating multiple microphones
ES2371619B1 (es) * 2009-10-08 2012-08-08 Telefónica, S.A. Procedimiento de detección de segmentos de voz.
CN104485118A (zh) 2009-10-19 2015-04-01 瑞典爱立信有限公司 用于语音活动检测的检测器和方法
CN108985277B (zh) * 2018-08-24 2020-11-10 广东石油化工学院 一种功率信号中背景噪声滤除方法及***

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3509281A (en) * 1966-09-29 1970-04-28 Ibm Voicing detection system
US4052568A (en) * 1976-04-23 1977-10-04 Communications Satellite Corporation Digital voice switch
US4358738A (en) * 1976-06-07 1982-11-09 Kahn Leonard R Signal presence determination method for use in a contaminated medium
JPS5636246A (en) * 1979-08-31 1981-04-09 Nec Corp Stereo signal demodulating circuit
JPS59115625A (ja) * 1982-12-22 1984-07-04 Nec Corp 音声検出器
EP0127718B1 (fr) * 1983-06-07 1987-03-18 International Business Machines Corporation Procédé de détection d'activité dans un système de transmission de la voix
JPS6196817A (ja) * 1984-10-17 1986-05-15 Sharp Corp フイルタ−

Also Published As

Publication number Publication date
NO316610B1 (no) 2004-03-08
EP0335521B1 (en) 1993-11-24
FI904410A0 (fi) 1990-09-07
NO903936L (no) 1990-11-09
NZ228290A (en) 1992-01-29
DE68910859D1 (de) 1994-01-05
PT89978A (pt) 1989-11-10
EP0548054A3 (da) 1994-01-12
FI115328B (fi) 2005-04-15
JPH03504283A (ja) 1991-09-19
WO1989008910A1 (en) 1989-09-21
KR0161258B1 (ko) 1999-03-20
DE68929442T2 (de) 2003-10-02
NO982568D0 (no) 1998-06-04
PT89978B (pt) 1995-03-01
EP0548054A2 (en) 1993-06-23
NO982568L (no) 1990-11-09
NO304858B1 (no) 1999-02-22
IE61863B1 (en) 1994-11-30
FI20010933A (fi) 2001-05-04
EP0335521A1 (en) 1989-10-04
KR900700993A (ko) 1990-08-17
ES2047664T3 (es) 1994-03-01
JP2000148172A (ja) 2000-05-26
IE890774L (en) 1989-09-11
DE68929442D1 (de) 2003-01-23
JP3423906B2 (ja) 2003-07-07
CA1335003C (en) 1995-03-28
JP3321156B2 (ja) 2002-09-03
DE68910859T2 (de) 1994-12-08
HK135896A (en) 1996-08-02
EP0548054B1 (en) 2002-12-11
NO903936D0 (no) 1990-09-10
DK215690D0 (da) 1990-09-07
ES2188588T3 (es) 2003-07-01
AU3355489A (en) 1989-10-05
BR8907308A (pt) 1991-03-19
AU608432B2 (en) 1991-03-28
DK215690A (da) 1990-09-07
FI110726B (fi) 2003-03-14

Similar Documents

Publication Publication Date Title
DK175478B1 (da) Taleaktivitetsdetektor og fremgangsmåde til detektion af taleaktivitet
US5276765A (en) Voice activity detection
JP3224132B2 (ja) 音声活動検出装置
JP4680956B2 (ja) エンコードレート選択方法および装置
US6804651B2 (en) Method and device for determining a measure of quality of an audio signal
JP2002516420A (ja) 音声コーダ
EP2093756A1 (en) A speech communication system and method for handling lost frames
JPH03500347A (ja) 改良されたノイズ抑圧システム
JPH08328591A (ja) 短期知覚重み付けフィルタを使用する合成分析音声コーダに雑音マスキングレベルを適応する方法
KR102012325B1 (ko) 오디오 신호의 배경 잡음 추정
JPH08505715A (ja) 定常的信号と非定常的信号との識別
CN113450810A (zh) 谐波滤波器工具的谐度依赖控制
US5632004A (en) Method and apparatus for encoding/decoding of background sounds
Vahatalo et al. Voice activity detection for GSM adaptive multi-rate codec
JP2002258899A (ja) 雑音抑圧方法および雑音抑圧装置
Dai et al. Microphone Sensitivity Matching Based on Optimal Smoothing and Minimum Statistics
JPH04270397A (ja) 音声符号化方式

Legal Events

Date Code Title Description
PUP Patent expired