NO342161B1

NO342161B1 - Audiodynamisk prosessering ved bruk av en tilbakestilling

Info

Publication number: NO342161B1
Application number: NO20091518A
Authority: NO
Inventors: Alan Jeffrey Seefeldt; Kenneth James Gundry
Original assignee: Dolby Laboratories Licensing Corp
Priority date: 2006-10-20
Filing date: 2009-04-17
Publication date: 2018-04-09
Also published as: JP4940308B2; TW200830890A; US8849433B2; NO20091518L; RU2413357C2; CA2665153A1; WO2008051347A3; CN101529721B; UA94968C2; BRPI0717484B1; AU2007309691B2; JP2010507330A; BRPI0717484A2; KR101137715B1; TWI415481B; IL197856A; CN101529721A; AU2007309691A1; US20100198377A1; EP2082480A2

Abstract

En audiodynamisk prosessor eller prosesseringsmetode som anvender en nullstillingsmekanisme eller -prosess for raskt å tilpasse seg til innholdsendringer i lydsignalet. Et nullstillingssignal kan genereres ved å analysere selve lydsignalet, eller nullstillingen kan bli trigget fra en ekstern hendelse, så som en kanalendring på en fjernsynsmottaker eller en endring av inngangsvalg på en audio/video-mottaker. Dersom en ekstern trigger anvendes, kan én eller flere indikatorer for tilstanden til dynamikkprosessoren for en gjeldende lydkilde bli lagret og knyttet til denne lydkilden før det skiftes til en ny lydkilde. Dersom systemet senere skifter tilbake til den første lydkilden kan dynamikkprosessoren bli nullstilt til tilstanden lagret tidligere eller en tilnærming til denne. 1

Description

Teknisk område

Oppfinnelsen vedrører behandling av lydsignaler. Spesielt vedrører oppfinnelsen en audiodynamisk prosessor eller prosesseringsmetode som anvender en tilbakestillingsmekanisme eller -prosess for raskt å tilpasse seg til innholdsendringer i lydsignalet. Et tilbakestillingssignal kan bli generert ved å analysere selve lydsignalet, eller tilbakestillingen kan bli trigget fra en ekstern forekomst, så som en kanalendring på en fjernsynsmottaker eller en endring av inngangsvalg på en audio/video-mottaker. Dersom en ekstern trigger anvendes, kan én eller flere indikatorer for tilstanden til dynamikkprosessoren for en gjeldende lydkilde bli lagret og knyttet til denne lydkilden før det skiftes til en ny lydkilde. Hvis systemet senere skifter tilbake til den første lydkilden kan dynamikkprosessoren bli nullstilt til den tidligere lagrede tilstanden eller en tilnærming til denne. Oppfinnelsen vedrører også dataprogrammer for å utføre slike fremgangsmåter eller styre slike anordninger.

Bakgrunn

Et mål med audiodynamisk prosessering er å endre nivået eller dynamikken til et lydsignal til å falle innenfor ønskede grenser. Dette gjøres i alminnelighet ved å danne et tidsvarierende mål for nivået til et lydsignal (for eksempel rms-nivå eller maksnivå) og så beregne og anvende en tidsvarierende signalendring (for eksempel en forsterkningsendring) som er en funksjon av nivåestimatet.

Dynamikkprosessorer som har en slik virkemåte omfatter automatiske forsterkningsregulatorer (AGC – Automatic Gain Controls), dynamiske spektrumkontrollere (DRC – Dynamic Range Controllers), ekspandere, begrensere, støyporter, etc. Forskjellige former for dynamisk signalbehandling er omtalt i den internasjonale patentsøknaden PCT/US 2005/038579 til Alan Jeffrey Seefeldt, publisert som WO 2006/047600 den 4. mai 2006.

JP 2003152483 A beskriver en automatisk nivåkontroll (ALC) krets som kan forkorte en returtid når et høyt signalnivå er påtrykket inngangen, samtidig som forvrengningsytelsen opprettholdes. ALC-kretsen 30 er anordnet med en variabel demper 1, en forsterker 3 for å forsterke et lavfrekvenssignal Vs som har passert gjennom demperen 1, to detektorer 4a, 4b for å detektere et lavfrekvenssignal V1 som er blitt forsterket, en korttidskonstant krets 14 som er ladet med en lavfrekvenssignalspenning V2 som er blitt detektert og en langtidskonstant krets 15 som har en ladningsakselerasjonsbryter 19, en nivåkomparator 17 for å sammenligne ladningsspenningen V2 på kretsen 14 ́s side med en spenning V4 på kretsen 15 ́s side og en tidkretskrets 18 som tillater bryteren 19 å utlade raskt de elektriske ladningene på en kondensator C3.

Kretsen 30 har en tilbakekoblingsstruktur hvor spenningen V3 på kretsen 15 ́s side innmates som et styresignal S for demperen 1.

Figur 1 viser et høynivå blokkdiagram av en generisk audiodynamisk prosessor. Prosessoren kan anses å ha to baner, en øvre “signalbane” 2 og en nedre “styrebane” 4. På den nedre banen måler en dynamikkstyrende prosess eller styreenhet (“dynamikkstyring”) 6 nivået til lydsignalet og genererer én eller flere tidsvarierende modifiseringsparametre som funksjon av det målte nivået. Som vist blir modifiseringsparametrene avledet fra det inngående lydsignalet. Alternativt kan modifiseringsparametrene bli avledet fra den behandlede (utgående) lyden eller fra en kombinasjon av de inngående og utgående lydsignalene. På den øvre audiobanen 2 blir modifiseringsparametrene generert av dynamikkstyringen 6 anvendt på lyden for å generere behandlet lyd.

Anvendelsen av modifiseringsparametrene på et lydsignal kan skje på mange kjente måter, og er vist generisk ved multiplikatorsymbolet 8. For eksempel, for en enkel automatisk forsterkningsreguleringsanordning eller -prosess, kan det være én enkelt bredbånd forsterkningsmodifiseringsparameter som styrer forsterkningen til en anordning eller prosess med variabel forsterkning/tap i hovedbanen. I praksis kan lyden også bli forsinket før anvendelse av modifiseringsparametrene for å kompensere for eventuelle forsinkelser i forbindelse med beregningen av modifiseringsparametrene i dynamikkstyringsprosessen. For å lette presentasjonen er ikke en forsinkelse vist i figur 1 eller andre figurer her.

I en dynamikkstyringsprosess er det vanlig at både signalnivåmålet og de resulterende modifiseringsparametrene blir beregnet kontinuerlig over tid. Videre blir én eller begge av signalnivåmålene og modifiseringsparametrene normalt glattet over tid for å minimere introduksjonen av merkbare artefakter i den behandlede lyden. Glattingen blir som oftest utført med bruk av “rask attack” og “langsom release”, hvilket innebærer at modifiseringsparametrene endrer seg forholdsvis raskt som reaksjon på en økning i signalnivået og reagerer langsommere når signalnivået avtar. Slik glatting er i overensstemmelse med dynamikken til naturlige lyder og hvordan mennesker oppfatter endringer i lydstyrke over tid. Følgelig er slik tidsglatting veldig utbredt i audiodynamiske prosessorer.

I noen anvendelser av dynamikkprosessering kan tidskonstantene for slik glatting være forholdsvis store; i størrelsesorden ett eller flere sekunder. En AGC kan for eksempel beregne et estimat av det langsiktige gjennomsnittsnivået til et signal med bruk av store tidskonstanter og så anvende det resulterende estimatet for å generere langsomtvarierende modifiseringsparametere som flytter lydens gjennomsnittsnivå nærmere et ønsket målnivå. I dette tilfellet kan store tidskonstanter være ønskelig for å bevare den kortsiktige dynamikken i lydsignalet. Anta at en slik AGC jobber på lyden til en fjernsynsmottaker i den hensikt å opprettholde et konsekvent gjennomsnittsnivå på tvers av programinnhold og på tvers av forskjellige kanaler. I et slikt tilfelle kan innholdet i lydsignalet som behandles av AGC’en endre seg brått eller ha en diskontinuitet, for eksempel ved skifte av kanal, og gjennomsnittsnivået til lydsignalet kan derfor også endre seg brått eller ha en diskontinuitet. Med sine store tidskonstanter bruker imidlertid AGC’en betydelig tid på å konvergere til et nytt nivå og bringe det modifiserte nivået til den behandlede lyden til det ønskede målnivået. Under denne tilpasningsperioden kan en som ser på fjernsynet oppleve lydnivået som for høyt eller for lavt. Som følge av dette kan fjernsynsseeren raskt gripe etter fjernkontrollen for å justere volumet – bare for å sloss mot AGC’en mens den konvergerer.

En vanlig løsning i kjent teknikk på problemet beskrevet over omfatter bruk av tidskonstanter som tilpasser seg basert på dynamikken i signalet. Dersom for eksempel det kortsiktige nivået til signalet er betydelig høyere eller lavere enn det glattede nivået som definert av gitte terskelgrenser rundt det glattede nivået, skifter glattingsoperasjonen henholdsvis til raskere attack- og/eller releasetidskonstanter inntil det kortsiktige nivået igjen faller innenfor terskelgrensene rundt det glattede nivået. Senere skifter systemet tilbake til de opprinnelige, langsommere tidskonstantene. Et slikt system kan redusere AGC’ens tilpasningstid, men tersklene og de kortere tidskonstantene må velges med omhu. For alle rimelige terskler kan det generelt eksistere signaler der den opprinnelige, ønskede signaldynamikken fluktuerer utenfor terskelgrensene rundt gjennomsnittsnivået, og således gjør at glattingsprosessen feilaktig skifter til rask attack- eller releasemodus. Som følge av den potensielt hyppige forekomsten av slik feilaktig skifting må ikke tidskonstantene for rask attack- og releasemodus velges for korte, slik at en unngår å gjøre AGC’en ustabil ved normalt programinnhold. Som følge av dette kan konvergensen til AGC’en ved brå overganger eller diskontinuiteter i lydinnholdet fortsatt ikke være så rask som ønsket.

Det er derfor et mål med foreliggende oppfinnelse å tilveiebringe en bedre løsning på problemet med dynamikkprosesseringens tilpasningstid når lydinnhold endrer seg.

Beskrivelse av oppfinnelsen

Ifølge et aspekt ved oppfinnelsen omfatter en fremgangsmåte for behandling av et lydsignal (eller en anordning som utfører fremgangsmåten) det å endre dynamikken i lydsignalet i henhold til en dynamikkstyringsprosess, detektere en endring av innholdet i lydsignalet og tilbakestilling av dynamikkstyringsprosessen som reaksjon på at en slik endring detekteres. Det å detektere en endring av innholdet i lydsignalet kan omfatte én eller begge av å (1) detektere en forekomst i tidsutviklingen av lydsignalet der lydsignalets nivå holder seg under en terskel, Lsilence, over et tidsintervall som ikke er kortere enn en første tidsterskel, tsilence, og (2) detektere en forekomst i tidsutviklingen av lydsignalet der lydsignalets nivå avtar med en mengde som er større enn en differanseterskel, Ldrop, innenfor et tidsintervall som ikke er større enn en andre tidsterskel, tdrop.

Ifølge et annet aspekt ved oppfinnelsen omfatter en fremgangsmåte for behandling av et lydsignal (eller en anordning som utfører fremgangsmåten) det å endre dynamikken i lydsignalet i henhold til en dynamikkstyringsprosess, motta et eksternt forsynt tilbakestilling-triggersignal som angir en endring i lydsignalet, og tilbakestilling av dynamikkstyringsprosessen som reaksjon på tilbakestillingtriggersignalet. Tilbakestilling-triggersignalet kan angi én eller flere av (1) at en bruker endrer kanal, (2) at en bruker endrer inngangskilder, (3) at en bruker velger en avspillings-, tilbake- eller fremoverspolingsfunksjon, (4) skifte fra én fil til en annen, (5) en programendring, (6) skifte fra ett lydkodingsformat til et annet, og (7) en endring i kodingsparametre.

I henhold til begge de ovennevnte aspekter kan tilbakestilling av dynamikkstyringsprosessen øke hastigheten med hvilken dynamikkprosesseringen tilpasser seg til endringer i inngangssignalet.

Tilbakestillingen av dynamikkstyringsprosessen kan sette verdien til én eller flere prosess-styrende parametre, eller et signal som én eller flere av disse prosessstyrende parametere er en funksjon av, til en lagret verdi eller en forhåndsbestemt verdi. Tilbakestilling av dynamikkstyringsprosessen kan redusere verdien til én eller flere tidskonstanter som anvendes ved bestemmelse av én eller flere prosess-styrende parametere eller et signal som disse én eller flere prosessstyrende parametrene er en funksjon av.

Selv om tilnærmingen med adaptive tidskonstanter beskrevet over til en viss grad kan være nytting for å redusere tilpasningstiden til en audiodynamisk prosessor eller prosess og kan anvendes sammen med aspekter ved foreliggende oppfinnelse, kan en slik prosessor eller prosess forbedres betydelig ved at den utvides med en eksplisitt tilbakestillingsmekanisme eller -prosess som blir aktivert ved forekomst av bestemte brå endringer eller diskontinuiteter i innholdet i lydsignalet som behandles. Figur 2 viser foreliggende oppfinnelse i en generell form der en ytterligere styrebane, en tilbakestilling-styrebane 10, er lagt til den generiske dynamikkprosessoren i figur 1. En tilbakestillingsstyremekanisme eller -prosess (“Tilbakestillingskontroll”) 12 kan reagere på den ene eller begge av lydsignalene selv (det inngående lydsignalet eller en kombinasjon av det inngående og det utgående lydsignalet) og et eksternt triggersignal. Følgelig er det tre mulige utførelser: (1) lydsignalet selv (som igjen kan omfatte det inngående lydsignalet eller en kombinasjon av det inngående og det utgående lydsignalet), (2) et eksternt triggersignal og (3) både lydsignalet selv og et eksternt triggersignal. Dersom en beslutning om tilbakestilling tas av tilbakestillingskontrollen 12, sender tilbakestillingsstyremekanismen eller -prosessen en tilbakestillingsmelding til dynamikkstyringen 6, som instruerer den til tilbakestilling av bestemte aspekter ved sin dynamikkstyringstilstand på en måte som gjør at den audiodynamiske prosesseringen raskt kan tilpasse seg til det nye nivået til det innkommende lydsignalet. Tilbakestillingen av bestemte aspekter ved dynamikkstyringstilstanden kan for eksempel (1) sette én eller flere tidskonstanter til en kortere verdi for en kort tidsperiode (og med det øke lydbehandlingens tilpasningshastighet) og/eller (2) sette et glattet mål for lydsignalnivået eller én eller flere modifiseringsparametere til en lagret verdi eller til en gjennomsnitts- eller forhåndsbestemt verdi.

Analyse av lydsignalet for å bestemme forekomst av en brå endring eller diskontinuitet i signalinnhold

En tilbakestillingsbeslutning kan bli tatt av tilbakestillingskontrollen 12 på en rekke forskjellige måter, for eksempel ved å analysere det innkommende lydsignalet eller ved å motta et eksternt tilbakestilling-triggersignal. Ved analyse av lydsignalet søker tilbakestillingskontrollen 12 å detektere forhold i signalet som tyder på en brå endring eller diskontinuitet i innholdet. Når den oppdager et slikt forhold med en gitt grad av sikkerhet, tar tilbakestillingskontrollen 12 en tilbakestillingsbeslutning og instruerer deretter dynamikkstyringen 6 til tilbakestilling av ett eller flere aspekter ved sin dynamikkstyringstilstand. Selv om andre metoder kan anvendes for å detektere brå endringer eller diskontinuiteter i signalinnhold, er to praktiske og virkningsfulle eksempler for å gjøre dette beskrevet nedenfor.

Bruk av en ekstern trigger for å fastslå forekomst av en brå endring eller diskontinuitet i signalinnhold

I mange anvendelser kan meget pålitelig ekstern informasjon være tilgjengelig for å trigge en tilbakestilling. For eksempel, i en fjernsynsmottaker eller ”kabeldekoder”, kan det at en bruker endrer kanal tjene som en ekstern tilbakestillingstrigger. I en fjernsynsmottaker eller audio/video-mottaker kan videre det at en bruker endrer inngangskilde, for eksempel fra “Video 1” til “Video 2”, tjene til å trigge en tilbakestilling. Andre eksempler omfatter en filbasert mediaspiller, for eksempel en bærbar lydanordning eller en digital videoopptaker. I slike tilfeller kan en tilbakestilling bli trigget eksternt når systemet avslutter avspilling av én fil og skifter til en annen. En tilbakestilling kan også bli trigget når en bruker selv eksplisitt endrer filer, trykker på ”avspill” eller spoler forover eller bakover til et nytt sted i et gitt innhold. Dersom lyden som behandles er dekodet fra en komprimert strøm av digitale data, for eksempel Dolby Digital audio, kan det finnes andre kilder for et eksternt tilbakestilling-triggersignal. “Dolby” og “Dolby Digital” er varemerker eiet av Dolby Laboratories Licensing Corporation. For eksempel er kodingssystemet Dolby Digital audio det obligatoriske lydformatet for High Definition Television i USA. På en gitt programkanal blir lyden sendt kontinuerlig, men Dolby Digital-formatet kan endre seg ved programgrenser. For eksempel kan hovedprogrammet være innkodet i kanalformatet 5.1, men et reklameinnslag kan være innkodet i stereoformat. En Dolby Digital-dekoder vil nødvendigvis detektere slike endringer og kan videresende informasjonen til den audiodynamiske prosessoren ifølge foreliggende oppfinnelse som en tilbakestillingstrigger. Andre endringer i kodingsparametere kan også anvendes, for eksempel endringer i Dolby Digitals dialognormaliseringsparameter, “DIALNORM”, som i alminnelighet holdes konstant for et gitt innhold. En tilsvarende ekstern tilbakestillingstrigger kan også bli generert fra andre lydkodingsformater, så som MP3 og AAC. I tillegg til de ovenfor angitte kildene for eksterne tilbakestillingstriggere er andre mulige, og oppfinnelsen er ikke ment begrenset til de som er nevnt.

Dersom oppfinnelsen blir anvendt i en anordning der lyden kan komme fra et sett av kjente kilder, kan oppfinnelsen forbedres ytterligere som vist i figur 3. Langs bunnen av figuren er det vist N lydkilder (“Lydkilde 1” til “Lydkilde N”) 14-1 til 14-N, der det er forutsatt at én av de N lydkildene er valgt for avspilling gjennom dynamikkprosesseringssystemet ved hjelp av en kildevalganordning eller -prosess (“Kildevelger”) 16. Disse lydkildene kan representere, men er ikke begrenset til forskjellige kanaler på et fjernsyn eller en dekoderboks, de forskjellige inngangene på en audio/video-mottaker eller forskjellige filer på en bærbar mediaspiller. Med hver lydkilde er det lagret indikatorer for tilstanden til ett eller flere aspekter ved dynamikkstyringsprosessen som den var forrige gang den aktuelle lydkilden ble spilt av. Slike aspekter ved tilstanden til dynamikkstyringen kan for eksempel omfatte én eller flere av (1) det glattede målet for lydsignalnivået, (2) én eller flere modifiseringsparametere fremkommet fra det glattede målet for lydsignalnivået og (3) én eller flere av tidskonstantene anvendt for å frembringe et glattet mål for lydsignalnivået. I et utførelseseksempel beskrevet nedenfor anvendes det glattede målet for lydsignalnivået, som indirekte påvirker forsterkningsmodifiseringsparameteren (i eksempelet er forsterkning en funksjon av det glattede lydsignalnivået). Når en annen lydkilde blir valgt gjennom kildevalgprosessen, før det faktisk skiftes til den nye lydkilden, sender kildevelgeren 16 en ekstern tilbakestillingstrigger til tilbakestillingskontrollen 12’. Dette gjør i sin tur at tilbakestillingskontrollen 12’ fanger opp indikatorer for den gjeldende tilstanden til dynamikkstyringsprosessen for lydkilden som spilles av. Tilbakestillingskontrollen 12’ lagrer da indikatorer for dynamikkstyringstilstanden i de N dynamikkstyringstilstand-lagringsstedene for det gjeldende lydvalget (Dynamikkstyringstilstand-lagrene 1 til N) 18-1 til 18-N. Deretter skifter kildevalget 16 til den nye lydkilden og sender de tilhørende lagrede indikatorene for dynamikkstyringstilstanden til tilbakestilling-styreprosessen, som i sin tur tilbakestiller dynamikkstyringsprosessen ved hjelp av de lagrede tilstandsindikatorene.

Ved å anvende aspekter ved den siste dynamikkstyringstilstanden til en lydkilde for tilbakestilling av dynamikkstyringsprosessen når det skiftes til denne kilden kan en oppnå en bedre ytelse enn uten bruk av en slik initialtilstand. Uten denne informasjonen er dynamikkstyringsprosessen avhengig av det innkommende lydsignalet etter tilbakestillingen når det tilpasser seg til den nye lydkilden. På kort sikt kan lydens nivå fluktuere raskt, og følgelig kan også modifiseringsparametrene fluktuere raskt mens dynamikkstyringsprosessen forsøker å tilpasse seg raskt til den nye lyden. Ved at en anvender aspekter ved den siste tilstanden til dynamikkprosessoren for lydkilden til tilbakestilling av dynamikkprosessoren er det sannsynlig at dynamikkprosessoren vil begynne i en tilstand som er nærmere den tilstanden den til slutt vil konvergere mot for denne lydkilden. Som følge av dette trenger ikke de raske tilpasningstidskonstantene etter tilbakestilling å reduseres like mye som ellers vil kunne være nødvendig, slik at en oppnår bedre stabilitet uten å øke den totale tilpasningstiden. Som et eksempel, betrakt et skifte mellom to fjernsynsstasjoner, den første med lyd med et gjennomsnittlig nivå på –15 dB i forhold til fullskala digital og den andre med lyd med et gjennomsnittlig nivå på –30 dB, begge med et variasjonsområde på pluss/minus 5 dB rundt sine respektive gjennomsnittsnivåer. Anta at gjennomsnittsnivået til den første stasjonen umiddelbart før skifte til den andre stasjonen er –13 dB. Anta videre at gjennomsnittsnivået til den andre stasjonen er –33 dB etter skiftet. Dette er en forskjell på –20 dB. Dersom en for eksempel ønsker at det dynamiske prosesseringssystemet skal tilpasse seg på et halvt sekund, er en tilpasningshastighet på –40 dB per sekund nødvendig ved fravær av annen informasjon. En slik hastighet er nokså høy og vil kunne introdusere ustabiliteter i den behandlede lyden. Anta på den annen side at den siste dynamikkprosesseringstilstanden lagret med den andre stasjonen svarer til et nivå på –28 dB. Etter tilbakestilling kan dynamikkstyringsprosessen bli nullstilt med denne tilstanden, og det er da en differanse på bare –33 dB – (-28 dB) = -5 dB. Følgelig er en tilpasningshastighet på kun –10 dB per sekund (noe som krever mindre reduksjon av tidskonstanten) nødvendig for å konvergere til det ønskede nivået i løpet av et halvt sekund. Dette eksempelet illustrerer fordelene med å lagre den siste tilstanden til dynamikkstyringsprosessen med lydkilden som resulterte i denne tilstanden.

Virkningen etter at tilbakestilling blir trigget

Trigging av en tilbakestilling øker tilpasningshastigheten i den audiodynamiske prosesseringen (hastigheten med hvilken dynamikkprosesseringen tilpasser seg til endringer i inngangssignalet). For eksempel, når en tilbakestilling blir trigget, kan én eller flere tidskonstanter knyttet til tilpasningshastigheten raskt skifte til betydelig lavere verdier og så på en glatt måte returnere til sine opprinnelig store verdier over en forutbestemt tidsperiode. Alternativt kan den ene eller de flere tidskonstantene skifte til betydelig lavere verdier og beholde disse verdiene for en forutbestemt tidsperiode. I en AGC-anordning kan et tidskonstant-styresignal c[t] forbigående redusere tidskonstantene som anvendes ved beregning av det glattede gjennomsnittsnivået. For eksempel kan glattingstidskonstantene bli redusert over en varighet på omtrent ett sekund etter en tilbakestilling. I ett utførelseseksempel kan tidskonstant-styresignalet c[t] begynne med verdien “1” (som angir en maksimal endringseffekt på én eller flere tidskonstanter) ved forekomst av en tilbakestillingstrigger; når dette signalet er lik “1”, blir attack- og releasekoeffisientene satt til verdier som er betydelig lavere enn deres nominelle verdier. Etter hvert som c[t] avtar til null over en kort tidsperiode, for eksempel ett sekund (varigheten av tidsperioden er ikke avgjørende), blir koeffisientene interpolert tilbake til deres nominelle, normale (ikke nullstilte) verdier. Alternativt eller i tillegg, ved forekomst av en tilbakestillingstrigger, kan verdien til et glattet gjennomsnittsnivå beregnet av dynamikkstyringsprosessen bli nullstilt til en tilstand lagret med en gitt lydkilde, eller til en forhåndsbestemt verdi.

Foreliggende oppfinnelse er særlig egnet til å tilveiebringe en fremgangsmåte for behandling av et lydsignal, omfattende:

å styre dynamikken til lydsignalet ved hjelp av en dynamikkstyringsprosess eller kontroller, hvor nevnte dynamikkstyringsprosess eller kontroller utjevner signalnivået til lydsignalet og / eller en dynamikk-forsterknings modifikasjonsparameter med et utjevningsfilter som anvender en adaptiv tidskonstant β, å detektere en første type forekomst i en tidsmessige utviklingen av lydsignalet hvor lydsignalets nivå reduseres med en mengde som er større enn en forskjells terskel Ldrop, innenfor et tidsintervall som ikke er større enn en andre tidsterskel, tdrop, hvor nevnte deteksjon detekterer reduksjonen i nivået av lydsignalet i en flerhet av frekvensbånd, å detektere en andre type forekomst i den tidsmessige utviklingen av lydsignalet hvor lydsignalnivået forblir under en terskel Lsilence, gjennom et tidsintervall som ikke er kortere enn en første tidsterskel, tsilence og å tilbakestille, ved hjelp av en eksplisitt tilbakestillings-mekanisme eller -prosess, styringen av dynamikkstyringsprosessen av lydsignalet som svar på deteksjon av enten den første type forekomst eller den andre type forekomst, hvor tilbake-stillingen av styringen av dynamikkstyringsprosessen inkluderer å sette utjevnings- filtertidskonstanten til en forutbestemt verdi βfast, å interpolere tidskonstanten β tilbake til en verdi βslow over en forutbestemt tidsperiode etter tilbakestillingen, βfast, som er en raskere tidskonstant enn βslow.

Videre er foreliggende oppfinnelse egnet til å tilveiebringe et apparat for behandling av et lydsignal, omfattende:

en innretning for å styre dynamikken til lydsignalet ved hjelp av en dynamikkstyringsprosess eller kontroller, hvor nevnte dynamikkstyringsprosess eller kontroller utjevner signalnivået til lydsignalet og / eller en dynamikk forsterknings-endringsparameter med et utjevningsfilter som anvender en adaptiv tidskonstant β, innretning for å detektere en første type forekomst i den tidsmessige utviklingen av lydsignalet hvor lydsignalets nivå reduseres med en mengde som er større enn en differensgrense, Ldrop, innenfor et tidsintervall som ikke er større enn en andre tidsterskel, tdrop, hvor nevnte innretning for deteksjon detekterer reduksjonen i nivået av lydsignalet i en flerhet frekvensbånd, deteksjon av en andre type forekomst i den tidsmessige utviklingen av lydsignalet hvor lydsignalnivået forblir under en terskel, Lsilence, gjennom et tidsintervall som ikke er kortere enn en første tidsterskel, tsilence og innretning for tilbake-stilling ved hjelp av en eksplisitt tilbake-stillings-mekanisme eller -prosess, styring av dynamikkstyringsprosessen som svar på deteksjon av enten den første typen forekomst eller den andre type forekomst, hvor nevnte innretning for tilbake-stilling av styringen av dynamikkstyringsprosessen innbefatter innretning for å sette utjevningsfiltertidskonstanten til en forutbestemt verdi βfast, innretning for interpolering av tidskonstanten β tilbake til en verdi βslow over en forutbestemt tidsperiode etter tilbake-stillingen, βfast, som er en raskere tidskonstant enn βslow.

Beskrivelse av figurene

Figur 1 er et skjematisk funksjonsblokkdiagram som viser, på et høyt nivå, en generisk audiodynamisk prosessor.

Figur 2 er et skjematisk funksjonsblokkdiagram som viser, i henhold til aspekter ved foreliggende oppfinnelse, et eksempel på en utførelse av foreliggende oppfinnelse der, i en generell form, en ytterligere styrebane, en tilbakestillingskontrollbane, er lagt til i den generiske dynamiske prosessoren i figur 1.

Figur 3 er et skjematisk funksjonsblokkdiagram som viser, i henhold til aspekter ved foreliggende oppfinnelse, et eksempel på en utførelse av foreliggende oppfinnelse der en audiodynamisk prosessor er forbedret ytterligere.

Figur 4 viser et eksempel på inn/ut-funksjon for en vanlig automatisk forsterkningsregulator (AGC).

Figur 5 viser et sett av båndpass-frekvensresponser valgt slik at de likner den kritiske båndfiltreringen som observeres langs basilarmembranen i menneskeøret.

Figur 6 er et skjematisk funksjonsblokkdiagram som viser, i henhold til aspekter ved foreliggende oppfinnelse, et eksempel på en AGC-basert utførelsesform av foreliggende oppfinnelse.

Beste måte å realisere oppfinnelsen

Den beskrevne oppfinnelsen kan anvendes i en rekke forskjellige dynamikkprosesseringsapplikasjoner, så som dynamisk spektrumkontroll, kompressorer, begrensere, ekspandere, etc. Den er imidlertid spesielt nyttig når den anvendes med en AGC, der typisk store tidskonstanter resulterer i langsom tilpasning når foreliggende oppfinnelse ikke anvendes. Følgelig beskriver den foretrukne utførelsesformen, som et eksempel, anvendelse av oppfinnelsen med en AGC.

Grunnleggende AGC-basert utførelse

En grunnleggende utførelse av en AGC beregner et tidsvarierende estimat av et signals gjennomsnittsnivå og beregner et ønsket modifisert utgangsnivå som er en funksjon av inngangsnivået og et ønsket målnivå. En tidsvarierende signalmodifikasjon kan så bli beregnet som funksjon av differansen mellom inngangsnivået og det ønskede utgangsnivået. Funksjonen som avbilder inngangen til utgangen er innrettet for å bringe nivået til den modifiserte lyden nærmere det ønskede målnivået, og figur 4 viser én slik inn/ut-funksjon. For en inngang som er høyere enn målnivået, beordrer AGC’en signaldempning, og for en inngang som er lavere enn målnivået, beordrer AGC’en signaløkning. Graden av dempning eller økning kan styres ved å variere stigningen til linjen i figur 4.

Ideelt sett bør målet som anvendes for å beregne lydens gjennomsnittsnivå samsvare med menneskets oppfatning av lydstyrke. Dette kan oppnås på mange måter; for eksempel av et vektet middelkvadratmål eller et psykoakustisk lydstyrkemål. Et enkelt, ikke-vektet middelkvadratmål er noe mindre nøyaktig enn de to metodene nevnt over, men gir likevel en høy grad av samsvar med menneskets lydstyrkeoppfatning for de fleste fysisk relevante lydsignaler. Som følge av dens beregningsmessige enkelhet anvendes et ikke-vektet middelkvadratmål i en foretrukket utførelsesform, men dette skal ikke forstås som en begrensning av oppfinnelsen.

Selv om, i prinsippet, aspekter ved oppfinnelsen kan realiseres i det analoge og/eller digitale domenet, vil utførelser trolig i praksis bli realisert i det digitale domenet der hvert av lydsignalene er representert av enkeltstående sampler eller sampler innenfor datablokker. Estimatet av inngangsnivået og det tilhørende ønskede utgangsnivået og signalmodifiseringsparametrene kan bli beregnet kontinuerlig for et analogt lydsignal eller for hvert sample av et digitalt signal, men i dette utførelseseksempelet er det i stedet ønskelig å beregne disse størrelsene for etterfølgende, overlappende blokker av sampler av et digitalt lydsignal. Dette er hovedsaklig som følge av det faktum at behandling av digitale blokker er nyttig for å detektere tilbakestillingsbetingelser fra selve signalet, som beskrevet nedenfor. Med det digitale lydsignalet representert ved x[n] kan de overlappende blokkene i lydsignalet beregnes som:

der N er blokklengden, N/2 er graden av overlapp mellom etterfølgende blokker, t er blokkindeksen og w[n] er en vindusfunksjon, for eksempel et sinusvindu. For signaler samplet med en frekvens på 44100 Hz, fungerer valg av N=512 eller N=1024 greit. Ytterligere detaljer ved en digital lydbehandlingsanordning som anvender overlappende blokker av sampler er gitt i U.S.-patentet 5,899,969 til Fielder m.fl. (“Frame-based audio with gain-control words”), som med dette inntas som referanse i sin helhet. Som beskrevet nedenfor beregner AGC’en en tidsvarierende forsterkning G[t ] som så blir multiplisert med hver blokk av signalet. Hver av disse modifiserte blokkene blir så overlapp-addert for å generere det endelige modifiserte lydsignalet y[n� tN /2 ] :

Som et første trinn i beregningen av forsterkningen G[t ] blir det tidsvarierende øyeblikksnivået til signalet L[t] beregnet som middelkvadratet av hver blokk x[n, t ] . I desibel blir nivået beregnet som:

(3)

der 0 dB svarer til nivået til en fullskala digital kvadratbølge.

Deretter kan øyeblikksnivået i glattet med en rask attakk og en langsom release for å generere et glattet gjennomsnittsnivå for lydsignalet, L[t ] :

der

og

(4c)

Glattingskoeffisientene α attack og α release velges slik en å oppnår de ønskede attack- og releasetidene. Én måte å spesifisere dette er glattingsfilterets halveringstid, dvs. tiden det tar før tidsglattingsfilterets impulsrespons er redusert til halvparten av sin opprinnelige verdi. Selv om valg av α attack svarende til en halveringstid på 1 sekund og α release svarende til en halveringstid på 4 sekunder fungerer godt for en AGC, er ikke disse verdiene kritiske. Verdien L min i likning 4a representerer et minimumsnivå som signalets øyeblikksnivå L[t ] må overstige for at det glattede nivået skal bli oppdatert. Dette hindrer at det glattede gjennomsnittsnivået faller for lavt, og at den tilhørende forsterkningen blir for høy når signalet faller inn i relativ stillhet. Antatt at 0 dB representerer nivået til en fullskala digital kvadratbølge, er dB et rimelig valg, selv om nivået ikke er avgjørende.

Fra det glattede gjennomsnittsnivået L[t ] og AGC’ens inn/ut-funksjon F AGC , som vist i figur 4, beregnes det ønskede utgangsnivået

Endelig blir forsterkningen G[t ] beregnet fra differansen mellom utgangsnivået Lout[t ] og inngangsnivået L[t ] :

[ ]

(6)

Når Lout[t ] >L[t ] , er forsterkningen større enn én, hvilket betyr at signalet økes, og når Lout[t ] <L[t ] er forsterkningen mindre enn én, hvilket betyr at signalet dempes.

AGC med tilbakestilling

Som nevnt over kan tilbakestillingsmekanismen eller -funksjonen forårsake én eller begge av to handlinger: (1) at én eller flere tidskonstanter settes til en kortere varig verdi for en kort tidsperiode (og dermed øke tilpasningshastigheten i lydbehandlingen) og (2) at et glattet mål for lydsignalnivået eller én eller flere modifiseringsparametere settes til en lagret verdi eller til en gjennomsnitts- eller forhåndsbestemt verdi, som kan være uttrykt som L init (se ligning 8a nedenfor og beskrivelsen før og etter denne likningen). Først vil tilbakestilling av én eller flere tidskonstanter bli beskrevet.

Siden modifiseringsparameteren, forsterkningenG[t ] , er en funksjon av det glattede gjennomsnittsnivået L[t ] er hastigheten med hvilken den beskrevne AGC’en tilpasser seg til lyden styrt av attack- og releasetidene anvendt ved beregning av L[t ] . Som angitt over blir disse glattingstidskonstantene valgt forholdsvis store, i størrelsesorden flere sekunder, slik at AGC’en ikke endrer lydens nivå for raskt under tidsutviklingen av normalt lydinnhold. Dersom imidlertid lydinnholdet endrer seg brått eller har en diskontinuitet, kan AGC’en bruke for lang tid på å tilpasse seg, spesielt dersom det nye innholdet har et nivå som avviker betydelig fra det tidligere innholdet. For å gjøre tilpasningen raskere kan tilbakestillingssignalet beskrevet over anvendes for å trigge en modifikasjon av én eller flere av tidskonstantene knyttet til nivåglattingen. I så fall, når en tilbakestilling trigges, skifter tidskonstantene raskt til betydelig lavere verdier, og returnerer så gradvis kontinuerlig til sine opprinnelige store verdier (eller tilnærminger til disse) over en forutbestemt tidsperiode. Andre metoder for å øke tilpasningshastigheten etter at en tilbakestilling er trigget er mulig. For eksempel, i stedet for at de gradvis kontinuerlig returnerer til sine opprinnelige verdier eller tilnærminger til disse, kan tidskonstantene bli holdt ved sine lavere verdier over en forutbestemt tidsperiode og så bli tilbakeført direkte til sine opprinnelige verdier eller tilnærminger til disse. En annen mulighet er å sørge for en stegvis tilbakeføring av tidskonstantene over en forutbestemt tidsperiode. Oppfinnelsen er ikke begrenset med hensyn til hvordan tidskonstantene tilbakeføres til sine opprinnelige verdier eller en tilnærming til disse.

For å trigge en tilbakestilling kan det forefinnes et binært tilbakestillingssignal R[t ] , for eksempel R[t ] =0 under normal operasjon og R[t ] =1 når tilbakestilling er ønsket ved tidsblokk t. Tilbakestillingen kan trigges ved å analysere lydsignalet eller av en ekstern kilde, som beskrevet over. Detaljer ved eksempler på trigging av en tilbakestilling gjennom signalanalyse er beskrevet nedenfor. Dersom en ekstern trigger anvendes, kan det eksistere en lagret tilstand som dynamikkprosessen kan bli nullstilt til, som vist i figur 3. For den beskrevne foretrukne utførelsesformen kan en slik lagret tilstand bestå av verdien til det glattede gjennomsnittsnivået L[t ] ved den siste tidsblokken hvor en gitt lydkilde ble behandlet. Den initielle tilstanden, hentet frem fra et lager under en eksternt trigget tilbakestilling (eller alternativt kan en initiell tilstand være en forhåndsbestemt verdi uansett om en eksternt trigget tilbakestilling anvendes), kan være representert ved verdien L init .

Fra det binære tilbakestillingssignalet R[t ] kan et tidskonstant styresignal bli generert og deretter anvendt for midlertidig å redusere tidskonstantene som anvendes for å beregne det glattede gjennomsnittsnivået L[t ] , og med det øke tilpasningshastigheten i behandlingen. Et tidskonstant styresignal c[t ] kan bli beregnet slik at det er lik “1” idet en tilbakestilling inntreffer (R[t ] =1) og så avtar eksponentielt til “0” med en rate styrt av en reduksjonskoeffisient λ < 1 :

ellers

Reduksjonskoeffisienten λ kan for eksempel velges slik at en får en halveringstid på ett sekund, hvilket innebærer at glattingstidskonstantene blir redusert over en varighet på omtrent ett sekund etter en tilbakestilling. Merk også at styresignalet vil kunne bli oppdatert bare dersom signalnivået L[t ] ≥ L min for å hindre at rask tilpasning skjer under relativ stillhet.

Heller enn å anvende faste attack- og releasekoeffisienter for å glatte signalnivået, som vist i likning 4b, kan koeffisientene nå variere over tid som funksjon av det tidskonstante styresignalet c[t ] . Når c[t ] =1, hvilket betyr at en tilbakestilling akkurat har funnet sted, kan attack- og releasekoeffisientene bli satt lik verdier som er betydelig lavere enn verdiene α attack og α release fra likning 4b (for eksempel omtrent ti prosent av de opprinnelige verdiene eller lavere). Etter hvert som c[t ] så avtar til ”0” kan koeffisientene bli interpolert tilbake til sine nominelle verdier α attack og α release . Eventuelt vil i tillegg de lave koeffisientverdiene som anvendes umiddelbart etter en tilbakestilling også kunne variere avhengig av hvorvidt det eksisterer en initiell tilstandsverdi L init . Dersom det ikke finnes noen lagret initialtilstand kan en anvende veldig lave koeffisientverdier, og dersom det eksisterer en lagret initialtilstand kan en anvende litt høyere koeffisientverdier. I sistnevnte tilfelle er det forutsatt at initialiseringen av L[t ] med L init begynner L[t ] med en verdi som nærmere den verdien som den til slutt vil konvergere til. En kan derfor anvende en litt langsommere tilpasningstid, svarende til større koeffisienter, sammenliknet med tilfellet der ingen initialtilstand er tilgjengelig. Den adaptive glattingsprosessen kan uttrykkes som:

ellers

der

og

Verdiene β afast og β rfast representerer de initielle attack- og releaseglattingskoeffisientene umiddelbart etter en tilbakestilling når ingen initialtilstand, L init , er tilveiebragt. Verdier svarende til halveringstider på henholdsvis 50 millisekunder og 200 millisekunder er funnet anvendelige. De konkrete verdiene er ikke avgjørende. Verdiene β aslow og β rslow representerer de høyere initielle attackog release-glattingskoeffisientene umiddelbart etter en tilbakestilling når initialtilstand, L init , er tilveiebragt. I dette tilfellet er verdier svarende til halveringstider lik to ganger de til deres raske motparter; henholdsvis 100 millisekunder og 400 millisekunder, funnet å være anvendelige. Heller ikke i dette tilfellet er de konkrete verdiene avgjørende.

Tilbakestillingsdeteksjon gjennom signalanalyse Den mest pålitelige måten å trigge en tilbakestilling i den beskrevne oppfinnelsen er å motta en trigger eksternt fra en mekanisme eller prosess som en vet er direkte knyttet til endring i lydinnhold. Flere slike mekanismer er omtalt tidligere; for eksempel en kanalendring på en fjernsynsmottaker eller en endring av inngangsvalg på en audio/video-mottaker. I mange tilfeller er imidlertid ingen slike eksterne mekanismer tilgjengelig, og derfor må systemet anvende analyse av selve lydsignalet for å avgjøre om en tilbakestilling skal trigges. Anta for eksempel at den beskrevne oppfinnelsen er realisert i en fjernsynsmottaker som en bruker har koblet en ekstern kabeldekoderboks til. Kabeldekoderboksen har ansvar for avstemning til og endring av kanaler, og den dekodede lyden blir bare videresendt til fjernsynet som en kontinuerlig lydstrøm. Fjernsynet mottar derfor ingen eksplisitt informasjon om når en ny kanal er valgt. Den eneste informasjonen tilgjengelig er den som kan avledes fra lydstrømmen det mottar.

En forholdsvis enkel, men effektiv måte å trigge en tilbakestilling gjennom signalanalyse er å detektere en forekomst i tidsutviklingen av lydsignalet der nivået til lydsignalet holder seg under en terskel, Lsilence, over en minimumsperiode (et tidsintervall som ikke er kortere enn en tidsterskel tsilence). Med andre ord detektere et tidsrom med relativ stillhet av en varighet som i hvert fall er like lang som et forutbestemt terskeltidsintervall. En slik forekomst indikerer trolig en brå endring eller diskontinuitet i lydens innhold. Mange anordninger, spesielt kabeldekoderbokser, demper lydsignalet for en kort tidsperiode når lydkilden endres. Denne dempningen reduserer lydsignalet til et nivå som er langt lavere enn det en i alminnelighet ser i normalt lydinnhold. For digital lyd, for eksempel, kan den redusere samplene av signalet til null. Slike forhold i signalets tidsutvikling kan oppdages gjennom analyse av det kortsiktige nivået L[t ] omtalt over. Dersom L[t ] holder seg lavere enn en terskel L silence over et tidsintervall av en varighet på i hvert fall t silence , kan en tilbakestilling bli trigget. Denne tilnærmingen kan uttrykkes som:

der et stillhetstellersignal s[t ] blir oppdatert i henhold til:

Antatt at 0 dB svarer til nivået til en fullskala digital kvadratbølge, fungerer for eksempel innstillingen L silence lik -90 dB godt i praksis, selv om nivået ikke er avgjørende. Å sette t silence til en tidsperiode på 0,25 sekunder, for eksempel, er et rimelig valg for mange anvendelser, selv om tidsperioden ikke er avgjørende.

I noen tilfeller blir det ikke innledet en pause med relativ stillhet når lydinnholdet endrer seg brått eller har en diskontinuitet, og derfor vil ikke metoden over nødvendigvis trigge en tilbakestilling. En alternativ tilbakestillingstriggende forekomst for å håndtere ytterligere tilfeller er derfor ønskelig. I enhver situasjon der lydinnholdet endrer seg brått eller har en diskontinuitet vil nivået til den nye lyden enten være høyere enn, lik eller lavere enn nivået til det foregående lydinnholdet. Siden de fleste dynamikkprosessorer anvender en attakk-koeffisient som er betydelig raskere enn release-koeffisienten, er tilfellet der nivået til det nye lydinnholdet er høyere enn eller lik det gamle mindre problematisk enn når det nye lydinnholdet er betydelig lavere enn det gamle. I sistnevnte tilfelle kan den langsomme release-tiden føre til en urimelig lang tilpasningstid. Å trigge en tilbakestilling når det nye lydinnholdet er betydelig lavere enn det gamle kan derfor anses som spesielt ønskelig. For å gjøre dette kan en utnytte et trekk som er felles for de fleste lydsignaler som er sammensatt av naturlige lyder. Naturlige lyder kan utvise brå nivåøkninger, men de utviser i alminnelighet en mer gradvis reduksjon. Lyder som kuttes brått er ikke veldig vanlig i de fleste lydopptak. Dersom imidlertid lydinnhold skifter brått, for eksempel som følge av en endring i inngangsvalg, og nivået til den nye lydinngangen er betydelig lavere enn den gamle, vil den resulterende lydstrømmen utvise et drastisk, unaturlig brått fall i nivået. Et slikt nivåfall kan detekteres fra det kortsiktige nivået L[t ] og anvendes for å trigge en tilbakestilling.

Følgelig er en annen virkningsfull måte å trigge en tilbakestilling gjennom signalanalyse å detektere en forekomst i tidsutviklingen av lydsignalet der lydsignalets nivå avtar med en mengde som er større enn en differanseterskel Ldropinnenfor et tidsintervall som ikke er større enn en tidsterskel tdrop. Nærmere bestemt blir en tilbakestilling trigget dersom forskjellen mellom L[t ] og L[t�1 ] overstiger en forutbestemt terskel L drop innenfor et tidsintervall tdrop:

En passende tidsdifferanse tdroper tiden for én digital behandlingsblokk. Med en blokkoverlapp på en halv, svarer for eksempel én blokktid til N/2 sampler. Dersom N=512 og samplingsraten er 48000 Hz, er tdropomtrent 5 millisekunder. Dersom N=1024, er tdropomtrent 10 millisekunder. En nivåforskjell Ldroppå omtrent -10 til -20 dB er funnet passende, selv om den eksakte nivåforskjellen ikke er avgjørende.

Metoden over vil trigge en tilbakestilling når nivået til nytt lydinnhold er betydelig lavere enn det gamle, men den kan noen ganger feilaktig trigge en tilbakestilling under normalt lydinnhold. Den beskrevne metoden ser etter et fall i signalets totale nivå, og noen ganger kan en dominerende andel av lydsignalet, for eksempel en ”kick-drum”, utvise en slik oppførsel, mens resten av signalet ikke gjør det. Den dominerende signalkomponenten bidrar imidlertid mest til det totale nivået, og kan derfor gjøre at en tilbakestilling blir trigget. For å håndtere slik utilsiktet trigging kan deteksjonsmetoden forbedres ved at den detekterer en tilbakestilling når signalets nivå utviser et betydelig nivåfall samtidig over flere frekvensbånd (for eksempel alle frekvensbånd) innenfor terskelperioden. På denne måten vil alle slike frekvensbånd bidra likt til tilbakestillingsdeteksjonsprosessen, uavhengig av absoluttnivået i et gitt bånd. For å gjennomføre en slik metode blir først øyeblikksnivået innenfor flere frekvensbånd beregnet. Dette nivået blir representert som L[b, t ] , der b angir båndindeksen. Det kan genereres effektivt ved å beregne den diskrete fouriertransformasjonene (DFT) til hver lydblokk x[n, t ] og multiplisere den diskrete fouriertransformasjonen med en båndpass-frekvensrespons Cb[k ] for hvert bånd b:

derX[k, t ] , den diskrete fouriertransformasjonen av x[n, t ] , beregnes som:

Settet av båndpass-frekvensresponser Cb[k ] kan tjenlig velges slik at det likner den kritiske båndfiltreringen som observeres langs basilarmembranen i menneskets øre. Som foreslått av Moore og Glasberg ( “A Model for the Prediction of Thresholds, Loudness, and Partial Loudness”, Brian Moore, Brian Glasberg og Thomas Baer, J. Audio Eng. Soc., Vol.45, nr.4, april 1997) har slike filtre en tilnærmet avrundet eksponentiell form og en jevn innbyrdes avstand på ERB-(Equivalent Rectangular Bandwidth)-skalaen. Figur 5 viser et passende sett av filtre med en innbyrdes avstand lik 1 ERB, som resulterer i totalt 40 bånd.

Fra øyeblikksnivået til hvert bånd, L[b, t ] , kan en beregne differansen mellom suksessive tidsblokker, midlet over alle bånd:

For fysisk relevante lydsignaler er D[t ] ekstremt liten bare dersom nivået til signalet faller betydelig i flesteparten av båndene b. Dersom differansen er mindre enn en terskel, D drop , detekteres en tilbakestilling:

I praksis fungerer valg av D drop mellom -10 og -20 dB godt, selv om denne innstillingen ikke er avgjørende. Den resulterende multibåndmetoden er mindre utsatt for feilaktig trigging av tilbakestilling enn den enklere metoden som kun betrakter forskjellen i totalt signalnivå.

Figur 6 viser et blokkdiagram av en AGC som innlemmer aspekter ved foreliggende oppfinnelse. Et digitalt audio-inngangssignal x[n,t] (se ligning 1) blir anvendt på to baner i en AGC-anordning eller -prosess. I styrebanen beregner en “nivåberegning”-anordning eller -prosess 20 et mål for lyden, som kan være et tidsvarierende øyeblikksnivå for signalet L[t], beregnet som middelkvadratet til hver blokk av inngangssignalet x[n,t] (se ligning.3). Deretter blir øyeblikksnivået L[t] tidsglattet i en “nivåglatting”-anordning eller -prosess 22 for å generere et glattet middelnivå for lydsignalet L[t ] (se likn.4a). Uten tilbakestilling kan tidsglattingen ha en rask attakk og langsom release. Nivåglattingen 22 kan være styrt av en “tidskonstant styresignal c[t]”-inngang og/eller en “initialiser L[t ] ”-inngang. Tidskonstant styresignal-inngangen c[t] kan gjøre at én eller flere av tidskonstantene anvendt i nivåglattingen 22 endres ved en tilbakestilling, som beskrevet over. Initialiser L[t ] -inngangen kan gjøre at utgangen fra nivåglattingen 22 antar en lagret verdi eller forhåndsbestemt verdi L init ved forekomst av en tilbakestilling, som beskrevet over. Utgangen fra nivåglattingen 22, L[t ] , blir anvendt på en “Bruk inn/ut-funksjon F AGC ”-anordning eller -funksjon 24 og på en “forsterkningsberegning”-anordning eller -funksjon 26. Anordningen eller funksjonen 24 anvender funksjonen beskrevet i forbindelse med figur 4 for å frembringe et ønsket utgangsnivå Lout[t ] (se likn.5). Forsterkningsberegningen 26 beregner forsterkningen G[t ] fra forskjellen mellom utgangsnivået Lout[t ] og inngangsnivået L[t ] (se likn.6). Når Lout[t ] >L[t ] , er forsterkningen større enn én, hvilket betyr at signalet økes, og når Lout[t ] <L[t ] er forsterkningen mindre enn én, hvilket betyr at signalet dempes. Den tidsvarierende forsterkningen G[t ] , en modifiseringsparameter, blir så anvendt ”multipliser”-anordningen eller -prosessen 28 der den blir multiplisert med hver blokk av signalet x[n,t] for å generere et modifisert lydsignal y[n tN/2] (se likn.2). Selv om som beskrevet forsterkningsmodifiseringsparameteren G[t ] er frekvensuavhengig, kan en frekvensavhengig forsterkningsmodifiseringsparameter G[b, t ] bli beregnet, der b er en båndindeks. I så fall kan nivåberegningen 20 beregne et frekvensavhengig momentant signalnivå L[b, t ] , Nivåglattingen 22 kan frembringe en frekvensavhengig utgang L[b, t ] (dens styring mater inn det tidskonstante styresignalet c[t], og initialiseringen av L[t ] kan også være frekvensavhengig), Bruk funksjonen F AGC kan anvende en frekvensavhengig funksjon, og forsterkningsberegningen 26 tilveiebringer en frekvensavhengig, tidsvarierende forsterkning G[b, t ] .

Realisering

Oppfinnelsen kan realiseres i maskinvare eller programvare, eller en kombinasjon av begge (f.eks. programmerbare logikkmatriser). Dersom ikke annet er angitt er ikke algoritmene omfattet som del av oppfinnelsen naturlig bundet til noen konkret datamaskin eller annen anordning. Spesielt kan forskjellige universelle maskiner anvendes med programmer skrevet i henhold til det som er vist her, eller det kan være mer hensiktsmessig å konstruere mer spesialiserte anordninger (f.eks. integrerte kretser) for å utføre de nødvendige fremgangsmåtetrinnene. Følgelig kan oppfinnelsen realiseres i ett eller flere dataprogrammer som kjører på ett eller flere programmerbare datasystemer som hvert innbefatter minst én prosessor, minst ett datalagringssystem (omfattende volatile og ikke-volatile minne- og/eller lagringselementer), minst én innmatingsanordning eller -port og minst én utmatingsanordning eller -port.

Programkode blir anvendt på inndata for å utføre funksjonene beskrevet her og generere utdata. Utdataene blir anvendt på én eller flere utmatingsanordninger, på kjent måte.

Hvert slikt program kan implementeres i et hvilken som helst ønsket datamaskinspråk (omfattende maskinkode, assemblerkode eller høynivå prosedyreorienterte, logiske eller objektorienterte programmeringsspråk) for å kommunisere med et datasystem. Språket kan være et kompilert eller interpretert språk.

Hvert slikt dataprogram blir fortrinnsvis lagret på eller lastet ned til et lagringsmedium eller en lagringsanordning (f.eks. halvlederminne eller -medier eller magnetiske eller optiske medier) som kan leses av en generell eller spesialisert programmerbar datamaskin, for å konfigurere og styre datamaskinen når lagringsmediet eller -anordningen leses av datasystemet for å utføre prosedyrene beskrevet her. Systemet ifølge oppfinnelsen kan også vurderes realisert som et datamaskinlesbart lagringsmedium, utstyrt med et dataprogram, der lagringsmediet utstyrt på denne måten bevirker et datasystem til å kjøre på en spesifikk og forhåndsdefinert måte for å utføre funksjonene beskrevet her.