NO344655B1 - Audioforsterkningsregulering ved bruk av spesifikk lydstyrkebasert hørehendelsesdeteksjon - Google Patents

Audioforsterkningsregulering ved bruk av spesifikk lydstyrkebasert hørehendelsesdeteksjon Download PDF

Info

Publication number
NO344655B1
NO344655B1 NO20180271A NO20180271A NO344655B1 NO 344655 B1 NO344655 B1 NO 344655B1 NO 20180271 A NO20180271 A NO 20180271A NO 20180271 A NO20180271 A NO 20180271A NO 344655 B1 NO344655 B1 NO 344655B1
Authority
NO
Norway
Prior art keywords
audio signal
sound
event
measure
audio
Prior art date
Application number
NO20180271A
Other languages
English (en)
Other versions
NO20180271A1 (no
Inventor
Brett Graham Crockett
Alan Jeffrey Seefeldt
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Publication of NO20180271A1 publication Critical patent/NO20180271A1/no
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of NO344655B1 publication Critical patent/NO344655B1/no

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3089Control of digital or coded signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3005Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G1/00Details of arrangements for controlling amplification
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • H03G7/007Volume compression or expansion in amplifiers of digital or coded signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/005Combinations of two or more types of control, e.g. gain control and tone control of digital or coded signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/03Synergistic effects of band splitting and sub-band processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Control Of Amplification And Gain Control (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Circuits Of Receivers In General (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)
  • Document Processing Apparatus (AREA)

Description

Teknisk område
Foreliggende oppfinnelse vedrører fremgangsmåter og en anordning for audiodynamisk spektrumkontroll der en audiobehandlingsanordning analyserer et audiosignal og endrer nivået til, forsterkningen av eller det dynamiske spekteret til lyden, og alle eller noen av parametrene i audioforsterknings- og dynamikkprosesseringen blir generert som funksjon av hørehendelser. Oppfinnelsen vedrører også dataprogrammer for å praktisere slike fremgangsmåter eller styre en slik anordning.
Foreliggende oppfinnelse vedrører også fremgangsmåter og en anordning som anvender en spesifikk lydstyrkebasert deteksjon av hørehendelser. Oppfinnelsen vedrører også dataprogrammer for å praktisere slike fremgangsmåter eller styre en slik anordning.
Bakgrunn
Dynamikkprosessering av lyd
Metodene automatisk forsterkningsregulering (AGC - Automatic Gain Control) og dynamisk spektrumkontroll (DRC - Dynamic Range Control) er velkjente, og er et vanlig element i mange audiosignalbaner. Generelt måler begge metodene nivået til et audiosignal på en eller annen måte og forsterkningsmodifiserer så signalet med en mengde som er en funksjon av det målte nivået. I et lineært, 1:1 dynamikkprosesseringssystem blir ikke den innmatede lyden behandlet, og det utmatede audiosignalet svarer ideelt sett til det innmatede audiosignalet. Videre, i et audiodynamikkprosesseringssystem som automatisk måler egenskaper ved inngangssignalet og anvender denne målingen for å regulere utgangssignalet, dersom inngangssignalets nivå stiger med 6 dB og utgangssignalet blir behandlet slik at dets nivå bare stiger med 3 dB, blir utgangssignalet komprimert i et forhold på 2:1 med hensyn til inngangssignalet. Den internasjonale publikasjonen WO 2006/047600 A1 (“Calculating and Adjusting the Perceived Loudness and/or the Perceived Spectral Balance of an Audio Signal”, av Alan Jeffrey Seefeldt) gir en detaljert oversikt over de fem grunnleggende typene dynamikkprosessering av lyd: komprimering, begrensning, automatisk forsterkningskontroll (AGC), ekspansjon og gating.
US 2004122662 A1 beskriver hvordan et lydsignal analysert ved bruk av flere psykoakustiske kriterier kan brukes for å identifisere et område av signalet der tidsskalering og / eller tonehøyde-forskyvningsprosessering skal være hørbar eller minimalt hørbar, og signalet er tidsskala og / eller tonehøyde forskjøvet innenfor området. I et annet alternativ er signalet delt inn i auditive hendelser, og signalet blir skalert og / eller tonehøyde forskjøvet i løpet av en hørehendelse. I et ytterligere alternativ er signalet delt inn i hørehendelser, og hørehendelsene blir analysert ved bruk av psykoakustiske kriterier for å identifisere hørehendelser der tidsskalering og / eller tonehøyde-prosessering av signalet ikke ville være hørbart eller minimalt hørbart
US 2006029239 A1 beskriver en prosess for å kombinere lydkanaler som kombinerer lydkanalene for å produsere en kombinert lydkanal og anvender dynamisk én eller flere av tid, fase og amplitude- eller effektjusteringer på kanalene, til den kombinerte kanalen, eller på både kanalene og den kombinerte kanalen. Én eller flere av justeringene styres i det minste delvis av et mål på hørselshendelser i én eller flere av kanalene og / eller den kombinerte kanalen. Bruksområder inkluderer presentasjon av flerkanal-lyd på kinoer og kjøretøy.
EP 1393300 A1 beskriver hvordan et lydsignal kan deles inn i auditive hendelser, som hver har en tendens til å bli oppfattet som separate og distinkte, ved å beregne spektralt innhold i suksessive tidsblokker for lydsignalet (5-1), beregne forskjellen i spektralt innhold mellom suksessive tidsblokker for lydsignalet (5-2), og å identifisere en hørselshendelsesgrense som grensen mellom suksessive tidsblokker når forskjellen i spektralt innhold mellom slike suksessive tidsblokker overskrider en terskel (5-3). I et annet aspekt genererer oppfinnelsen en representasjon med redusert informasjon av et lydsignal ved å dele et lydsignal inn i hørselshendelser, som hver har en tendens til å bli oppfattet som separate og distinkte, og formatere og lagre informasjon relatert til hørselshendelsene (5- 4). Eventuelt kan oppfinnelsen også tilordne et kjennetegn til én eller flere av hørselshendelsene (5-5).
Hørehendelser og deteksjon av hørehendelser Inndeling av lyder i enheter eller segmenter som oppfattes som atskilte og distinkte, kalles noen ganger "hørehendelsesanalyse" eller høresceneanalyse (ASA - Auditory Scene Analysis), og segmentene kalles noen ganger “hørehendelser” eller “lydhendelser.” En omfattende beskrivelse av høresceneanalyse er gitt av Albert S. Bregman i hans bok Auditory Scene Analysis -- The Perceptual Organization of Sound, Massachusetts Institute of Technology, 1991, fjerde trykk, 2001, Second MIT Press paperback edition). Videre omtaler U.S.-patentet 6,002,776 til Bhadkamkar, m.fl. fra 14. desember 1999 publikasjoner fra tilbake til 1976 som "(oversatt) kjent arbeid knyttet til lydseparasjon ved høresceneanalyse". Patentet til Bhadkamkar m.fl. fraråder imidlertid praktisk bruk av høresceneanalyse, og konkluderer med at "(oversatt) metoder som omfatter høresceneanalyse, selv om de er interessante sett fra et vitenskaplig ståsted som modeller for lydbehandling hos mennesker, er i dag alt for beregningskrevende og spesialisert til å kunne betraktes som praktisk anvendelige metoder for separasjon av lyd før det er gjort fundamentale fremskritt".
En nyttig måte å identifisere hørehendelser er angitt av Crockett og Crocket m. fl. i forskjellige patentsøknader og artikler listet nedenfor under overskriften “Referanser”. I henhold til disse dokumentene blir et audiosignal delt inn i hørehendelser, som hver gjerne oppfattes som atskilt og distinkt, ved å detektere endringer i spektralsammensetning (amplitude som funksjon av frekvens) som funksjon av tid. Dette kan for eksempel gjøres ved å beregne spektralinnholdet i suksessive tidsblokker av audiosignalet, beregne forskjellen i spektralinnhold mellom suksessive tidsblokker av audiosignalet, og identifisere en hørehendelsesgrense som grensen mellom suksessive tidsblokker når forskjellen i spektralinnhold mellom disse suksessive tidsblokkene overstiger en terskel. Alternativt kan endringer i amplitude som funksjon av tiden bli beregnet i stedet for eller i tillegg til endringer i spektralsammensetning som funksjon av tiden.
I sin minst beregningskrevende utførelse deler prosessen inn lyd i tidssegmenter ved å analysere hele frekvensbåndet (lyd med full båndbredde) eller hovedsaklig hele frekvensbåndet (i praksis anvendes ofte båndbegrensende filtrering i endene av spekteret) og vekte de høyeste audiosignalkomponentene tyngst. Denne løsningen utnytter et psykoakustisk fenomen der øret på mindre tidsskalaer (20 millisekunder (ms) og mindre) kan ha en tendens til å fokusere på én enkelt hørehendelse om gangen. Dette innebærer at selv om flere hendelser vil kunne forekomme samtidig, én komponent gjerne er perseptuelt mest fremtredende og kan bli behandlet individuelt som om den var den eneste hendelsen på det aktuelle tidspunktet. Utnyttelse av denne effekten gjør også at hørehendelsesdeteksjonen kan skalere med kompleksiteten til lyden som behandles. Dersom for eksempel det innmatede audiosignalet som behandles er et soloinstrument, vil hørehendelsene som identifiseres trolig være de individuelle notene som spilles. For et innmatet stemmesignal vil likeledes de individuelle talekomponentene, for eksempel vokalene og konsonantene, mest sannsynlig bli identifisert som individuelle lydelementer. Når lydens kompleksitet øker, så som musikk med trommeslag eller flere instrumenter og stemmer, identifiserer hørehendelsesdeteksjonen til enhver tid det "mest fremtredende" (dvs. det høyeste) lydelementet.
På bekostning av større regnekompleksitet kan prosessen også ta hensyn til endringer i spektralsammensetning som funksjon av tid i diskrete delfrekvensbånd (faste eller dynamisk bestemte eller både faste og dynamisk bestemte delbånd) heller enn hele båndbredden. Denne alternative tilnærmingen betrakter flere enn én lydstrøm i forskjellige delfrekvensbånd heller enn å anta at bare én enkelt strøm kan oppfattes på et gitt tidspunkt.
Hørehendelsesdeteksjon kan gjøres ved å dele inn en tidsdomene lydbølgeform i tidsintervaller eller blokker og så konvertere dataene i hver blokk til frekvensdomenet, med bruk av enten en filterbank eller en tid/frekvenstransformasjon, for eksempel FFT. Amplituden til spektralinnholdet i hver blokk kan bli normalisert for å fjerne eller redusere innvirkningen av amplitudeendringer. Hver resulterende frekvensdomenerepresentasjon gir en angivelse av spektralinnholdet i lyden i den aktuelle blokken. Spektralinnholdet i suksessive blokker blir sammenliknet, og endringer som er større enn en terskel brukes som angivelse av tidsmessig begynnelse eller tidsmessig avslutning av en hørehendelse.
Fortrinnsvis blir frekvensdomenedataene normalisert, som beskrevet nedenfor. I hvilken grad frekvensdomenedataene trenger å bli normalisert gir en angivelse av amplitude. Dersom en endring i denne normaliseringsgraden overstiger en forbestemt terskel, kan således også dette brukes som en angivelse av en hendelsesgrense. En hendelses start- og sluttpunkter som følge av spektralendringer og av amplitudeendringer kan bli ELLER-behandlet sammen slik at hendelsesgrenser som følge av begge typene endring blir identifisert.
Selv om metoder beskrevet i nevnte søknader og artikler av Crockett og Crockett m.fl. er spesielt nyttige i forbindelse med aspekter ved foreliggende oppfinnelse, kan andre metoder for å identifisere hørehendelser og hendelsesgrenser anvendes i aspekter ved foreliggende oppfinnelse.
Beslektet teknologi beskrives i BLESSER, BARRY: An Ultraminiature Console Compression System with Maximum User Flexibility, Journal of Audio Engineering Society, vol.20, no.4, May 1972, New York, sidene 297-302.
Sammendrag av oppfinnelsen
I et første aspekt tilveiebringer den foreliggende oppfinnelsen en fremgangsmåte for å modifisere en parameter for en audiodynamikkprosessor, omfattende å detektere endringer i spektralegenskaper med hensyn til tid i et audiosignal, identifisere som hørehendelsesgrenser endringer som overstiger en terskel i spektralegenskaper med hensyn til tid i nevnte audiosignal, der et audiosegment mellom konsekutive grenser danner en hørehendelse, og generere et parameter-modifiserende reguleringssignal basert på nevnte identifiserte hørehendelsesgrenser, og modifisere parameteren for audiodynamikkprosessoren som funksjon av reguleringssignalet.
I et andre aspekt tilveiebringer den foreliggende oppfinnelsen et dataprogram, lagret på et datamaskinlesbart medium, for å bevirke en datamaskin til å utføre en fremgangsmåte som angitt ovenfor.
Foretrukkede utførelsesformer av oppfinnelsen er angitt i kravene 2 – 11. Tradisjonell, kjent audiodynamikkprosessering omfatter det å multiplisere lyden med et tidsvarierende reguleringssignal som justerer forsterkningen av lyden og gir et ønsket resultat. “Forsterkning” er en skaleringsfaktor som skalerer lydamplituden. Dette reguleringssignalet kan bli generert kontinuerlig eller fra blokker av lyddata, men det blir i alminnelighet avledet fra en form for måling av lyden som behandles, og dets endringsrate bestemmes av glattingsfiltre, noen ganger med faste egenskaper og noen ganger med egenskaper som varierer med lydens dynamikk. For eksempel kan responstider være justerbare i henhold til endringer i lydens absoluttverdi eller effekt. Kjente metoder, så som automatisk forsterkningsregulering (AGC) og dynamisk spektrumkontroll (DRC), vurderer ikke på en psykoakustikk-basert måte tidsintervallene der forsterkningsendringer kan oppfattes som forringelser og når de kan anvendes uten å gi hørbare artefakter.
Tradisjonelle audiodynamikkprosesser kan derfor ofte introdusere hørbare artefakter, dvs. at innvirkningen av dynamikkprosesseringen kan introdusere uønskede merkbare endringer av lyden.
Høresceneanalyse identifiserer perseptuelt diskrete hørehendelser, der hver hendelse opptrer mellom to konsekutive hørehendelsesgrenser. De hørbare forringelsene forårsaket av en forsterkningsendring kan reduseres betydelig ved å sikre at forsterkningen innenfor en hørehendelse er tilnærmet konstant og ved å begrense mye av endringen til området rundt en hendelsesgrense. For kompressorer eller ekspandere kan responsen til en økning i lydnivå (ofte kalt attack) være rask, sammenliknbar med eller kortere enn den minste varigheten av hørehendelser, men responsen til en reduksjon (release eller gjenoppretting) kan være langsommere slik at lyder som burde synes konstante eller å avta gradvis kan bli hørbart forstyrret. Under slike omstendigheter er det veldig gunstig å forsinke forsterkningsgjenopprettelsen til den neste grensen eller å redusere endringsraten til forsterkningen under en hendelse. For anvendelser med automatisk forsterkningsregulering der lydens nivå eller styrke på mellomlang til lang tidsskala blir normalisert og både attack- og releasetider derfor kan være lange sammenliknet med den minste varigheten av en hørehendelse, er det gunstig under hendelser å forsinke endringer av eller redusere endringsrater for forsterkning til neste hendelsesgrense for både økende og avtagende forsterkning.
Det beskrives at et audioprosesseringssystem mottar et audiosignal og analyserer og endrer forsterkningen av og/eller de dynamiske spektrumtrekkene til lyden. Dynamisk spektermodifikasjon av lyden blir ofte styrt av parametere i et dynamikkprosesseringssystem (attack- og releasetid, komprimeringsforhold, etc.) som har betydelig innvirkning på de perseptuelle artefaktene som introduseres av dynamikkprosesseringen. Endringer i signalegenskaper som funksjon av tid i audiosignalet blir detektert og identifisert som hørehendelsesgrenser, slik at et audiosegment mellom konsekutive grenser danner en hørehendelse i audiosignalet. Egenskapene til de aktuelle hørehendelsene kan omfatte egenskaper ved hendelsene så som perseptuell styrke eller varighet. Noen av nevnte én eller flere dynamikkprosesseringsparametere blir generert i hvert fall delvis som reaksjon på hørehendelser og/eller graden av endring i signalegenskaper for nevnte hørehendelsesgrenser.
En hørehendelse er typisk et audiosegment som gjerne oppfattes som atskilt og distinkt. Ett anvendelig mål på signalegenskaper omfatter et mål på spektralinnholdet i lyden, for eksempel som beskrevet i de omtalte dokumentene til Crockett og Crockett m.fl. Alle eller noen av den ene eller de flere audiodynamikkprosesseringsparametrene kan bli generert i hvert fall delvis som reaksjon på tilstedeværelse eller fravær av og egenskaper ved én eller flere hørehendelser. En hørehendelsesgrense kan bli gjenkjent som en endring i signalegenskaper som funksjon av tid som overstiger en terskel. Alternativt kan alle eller noen av den ene eller de flere parametrene bli generert i hvert fall delvis som reaksjon på et kontinuerlig mål for graden av endring i signalegenskaper for nevnte hørehendelsesgrenser. Selv om aspekter ved oppfinnelsen i prinsippet kan realiseres med analoge og/eller digitale signaler, vil utførelser i praksis mest sannsynlig bli realisert med digitale signaler der hvert av audiosignalene er representert av enkeltstående sampler eller sampler innenfor datablokker. I dette tilfellet kan signalegenskapene være spektralinnholdet i lyd innenfor en blokk, deteksjon av endringer i signalegenskaper som funksjon av tid kan være deteksjon av endringer i spektralinnhold i lyd fra blokk til blokk, og hver av hørehendelsers tidsmessige start- og stoppgrenser kan sammenfalle med en grense for en datablokk. Det skal bemerkes at i det mer tradisjonelle tilfellet med gjennomføring av dynamiske forsterkningsendringer for sample for sample, den beskrevne høresceneanalysen vil kunne utføres på blokkbasis og den resulterende hørehendelsesinformasjonen anvendes for å utføre dynamiske forsterkningsendringer som anvendes sample for sample.
Ved å styre viktige audiodynamikkprosesseringsparametere med bruk av resultatene av høresceneanalysen kan en oppnå en dramatisk reduksjon av hørbare artefakter introdusert av dynamikkprosessering.
Det beskrives to måter å gjennomføre høresceneanalyse. Den første utfører spektralanalyse og identifiserer posisjonen til oppfattbare lydhendelser, som anvendes for å styre de dynamiske forsterkningsparametrene ved å identifisere endringer i spektralinnhold. Den andre måten transformerer lyden til et perseptuell lydstyrkedomene (som kan gi mer psykoakustisk relevant informasjon enn den første måten) og identifiserer posisjonen til hørehendelser, som deretter anvendes for å styre de dynamiske forsterkningsparametrene. Det skal bemerkes at den andre måten krever at lydbehandlingen kjenner absolutte akustiske reproduksjonsnivåer, som kan være umulig i noen utførelser. Det å vise begge høresceneanalyse-metodene muliggjør utførelser av ASA-regulert dynamisk forsterkningsmodifisering som anvender prosesser eller anordninger som kan, men ikke trenger være kalibrert til å ta hensyn til absolutte reproduksjonsnivåer.
Aspekter ved foreliggende oppfinnelse er beskrevet her i et audiodynamikkprosesseringsmiljø som omfatter aspekter ved andre oppfinnelser. Disse andre oppfinnelsene er beskrevet i forskjellige verserende patentsøknader i USA og internasjonale patentsøknader fra Dolby Laboratories Licensing Corporation, eieren av denne søknaden, hvilke søknader er identifisert her.
Foreliggende oppfinnelse tilveiebringer en fremgangsmåte ved behandling av et lydsignal i et lydbehandlingsapparat, hvor fremgangsmåten omfatter:
å motta et lydsignal, lydsignalet omfatter minst én kanal med lydinnhold; å dele lydsignalet i flere underbåndssignaler, hver av flerheten av underbåndssignaler omfatter minst ett underbåndseksempel;
å utlede en karakteristikk av lydsignalet, hvor karakteristikken er et effektmål av lydsignalet;
å glatte effektmålet for å generere et glatt effektmål av lydsignalet;
å detektere en plassering av en hørselsbegrensningsgrense ved å overvåke det glatte effektmålet, hvor en lyddel mellom sammenhengende hørselsgrenser utgjør en hørselshendelse, videre omfattende
å generere en forsterkningsvektor basert på plasseringen av hørselsgrensen; og
å anvende forsterkningsvektoren på lydsignalet,
hvor deteksjonen videre omfatter å anvende en terskel for det glatte effektmålet for å detektere plasseringen av den hørbare hendelsesgrensen, hvor deteksjonen videre omfatter å sammenligne det glatte effektmålet med et andre glatt effektmål av lydsignalet,
hvor effektmålet eller det andre effektmålet er basert på et differansemål, og hvor lydbehandlingsapparatet er implementert i det minste delvis i maskinvare.
Foreliggende oppfinnelse tilveiebringer et lydbehandlingsapparat, hvor apparatet omfatter:
et inngangsgrensesnitt for mottak av et lydsignal, lydsignalet omfatter minst én kanal med lydinnhold;
en filterbank for å dele lydsignalet i en flerhet av underbåndssignaler, hver av flerheten av underbåndssignaler omfatter minst ett underbåndseksempel; og en prosessor som:
danner en karakteristisk av lydsignalet, hvor karakteristikken er et effektmål av lydsignalet;
glatter effektmålet for å generere et glatt effektmål av lydsignalet; hvor lydbehandlingsapparatet videre detekterer en plassering av en hørselsbegrensningsgrense ved å overvåke det glatte effektmålet, hvor en lyddel mellom sammenhengende hørselsgrenser utgjør en lydhendelse,
genererer en forsterkningsvektor basert på plasseringen av hørselsgrensen; og
anvender forsterkningsvektoren på lydsignalet,
hvor deteksjonen videre innbefatter å anvende en terskel for det glatte effektmålet for å detektere plasseringen av den hørbare hendelsesgrensen, hvor deteksjonen videre omfatter å sammenligne det glatte effektmålet med et andre glatt effektmål av lydsignalet,
hvor effektmålet eller det andre effektmålet er basert på et differansemål, hvor lydbehandlingsapparatet innbefatter i det minste noe maskinvare.
Beskrivelse av figurene
Figur 1 er et flytdiagram som viser et eksempel på behandlingstrinn for å gjennomføre høresceneanalyse.
Figur 2 viser et eksempel på blokkbehandling, vindusbehandling og gjennomføring av DFT på lyd samtidig med gjennomføring av høresceneanalysen.
Figur 3 er et flytdiagram eller funksjonelt blokkdiagram som viser parallellprosessering der lyd anvendes for å identifisere hørehendelser og for å identifisere hørehendelsenes egenskaper slik at hendelsene og deres egenskaper anvendes for å modifisere dynamikkprosesseringsparametre.
Figur 4 er et flytdiagram eller funksjonelt blokkdiagram som viser behandling der lyd kun anvendes for å identifisere hørehendelser og hendelsenes egenskaper blir bestemt fra hørehendelsesdeteksjonen slik at hendelsene og deres egenskaper anvendes for å modifisere dynamikkprosesseringsparametrene.
Figur 5 er et flytdiagram eller funksjonelt blokkdiagram som viser behandling der lyd kun anvendes for å identifisere hørehendelser og hendelsenes egenskaper blir bestemt fra hørehendelsesdeteksjonen og slik at bare egenskapene til hørehendelsene anvendes for å modifisere dynamikkprosesseringsparametrene.
Figur 6 viser et sett av idealiserte lydfilter-egenskapsresponser som tilnærmer kritisk båndning på ERB-skalaen. Den horisontale aksen angir frekvens i Hertz og den vertikale aksen angir nivå i desibel.
Figur 7 viser konturene for lik lydstyrke i ISO 226. Den horisontale aksen angir frekvens i Hertz (logaritmisk skala med grunntall 10) og den vertikale aksen angir lydtrykknivå i desibel.
Figurene 8a-c viser idealiserte inn/ut-egenskaper og innsignalforsterkningsegenskaper til en lydkompressor med dynamisk spektrum.
Figurene 9a-f viser et eksempel på bruk av hørehendelser for å styre releasetiden i en digital utførelse av en tradisjonell DRC (Dynamic Range Controller) der forsterkningsreguleringen er avledet fra signalets RMS-(Root Mean Square)-effekt.
Figurene 10a-f viser et eksempel på bruk av hørehendelser for å styre releasetiden i en digital utførelse av en tradisjonell DRC der forsterkningsreguleringen er avledet fra RMS-effekten til signalet for et alternativt signal til det anvendt i figur 9.
Figur 11 viser et passende sett av idealiserte AGC- og DRC-kurver for bruk av AGC etterfulgt av DRC i et lydstyrkedomene-basert dynamikkprosesseringssystem. Målet med kombinasjonen er å gjøre at all behandlet lyd får omtrent samme oppfattede lydstyrke samtidig som i hvert fall noe av den opprinnelige lydens dynamikk opprettholdes.
Beste måte å realisere oppfinnelsen Høresceneanalyse (opprinnelig, ikke lydstyrkedomene-basert metode) Ifølge en utførelsesform av ett aspekt ved foreliggende oppfinnelse kan høresceneanalyse bestå av fire generelle behandlingstrinn som vist i en del av figur 1. Det første trinnet, 1-1 (“Utfør spektralanalyse"), tar et tidsdomene audiosignal, deler det inn i blokker og beregner et spektralprofil eller spektralinnhold for hver av blokkene. Spektralanalyse transformerer audiosignalet til det hurtigskala frekvensdomenet. Dette kan gjøres med bruk av en hvilken som helst filterbank, enten basert på transformasjoner eller banker av båndpassfiltre, og i enten et lineært eller krummet frekvensrom (så som Bark-skalaen eller det kritiske båndet, som bedre tilnærmer egenskapene til det menneskelige øre). I enhver filterbank foreligger det en avveining mellom tid og frekvens. Større tidsoppløsning, og således kortere tidsintervaller, gir en lavere frekvensoppløsning. Større frekvensoppløsning, og således smalere delbånd, leder til lengre tidsintervaller.
Det første trinnet, illustrert konseptuelt i figur 1, beregner spektralinnholdet i suksessive tidssegmenter av audiosignalet. I en praktisk utførelsesform kan ASA-blokkstørrelsen være fra et hvilket som helst antall sampler av det innmatede audiosignalet, selv om 512 sampler gir en god avveining mellom tids- og frekvensoppløsning. I det andre trinnet, 1-2, bestemmes forskjellene i spektralinnhold fra blokk til blokk (“Gjør målinger av forskjeller i spektralprofil”). Det andre trinnet beregner således forskjellen i spektralinnhold mellom suksessive tidssegmenter av audiosignalet. Som beskrevet over antas en god indikator for begynnelsen eller slutten av en oppfattet hørehendelse å være en endring i spektralinnhold. I det tredje trinnet, 1-3 (“Bestem posisjonen til hørehendelsesgrensene”), når spektralforskjellen mellom en spektralprofilblokk og den neste er større enn en terskel, tas blokkgrensen som en hørehendelsesgrense. Audiosegmentet mellom konsekutive grenser danner en hørehendelse. Det tredje trinnet trekker således en hørehendelsesgrense mellom suksessive tidssegmenter når forskjellen i spektralprofilinnhold mellom disse suksessive tidssegmentene overstiger en terskel, og definerer således hørehendelser. I denne utførelsesformen definerer hørehendelsesgrenser hørehendelser med en lengde som er et heltallig multiplum av spektralprofilblokker med en minimumslengde på én spektralprofilblokk (512 sampler i dette eksempelet). I prinsippet trenger ikke hendelsesgrenser være begrenset på denne måten. Som et alternativ til de praktiske utførelsesformene beskrevet her kan den innmatede blokkstørrelsen varieres, for eksempel slik at den er tilnærmet lik størrelsen til en hørehendelse.
Etter identifisering av hendelsesgrensene bestemmes nøkkelegenskaper ved hørehendelsene, som vist i trinn 1-4.
Enten overlappende eller ikke-overlappende segmenter av lyden kan bli vindusbehandlet og anvendt for å beregne spektralprofiler av den innmatede lyden. Overlapp resulterer i en finere oppløsning av posisjonen til hørehendelser, og reduserer også sannsynligheten for å overse en hendelse, så som en kortvarig transient. Overlapp gjør imidlertid også beregningene mer kompliserte. Følgelig kan en unngå overlapp. Figur 2 viser en konseptuell representasjon av ikkeoverlappende blokker av N sampler som er vindusbehandlet og transformert til frekvensdomenet i en diskret fouriertransformasjon (DFT). Hver blokk kan bli vindusbehandlet og transformert til frekvensdomenet for eksempel med bruk av en DFT-transformasjon, fortrinnsvis en hurtig fouriertransformasjon (FFT) for å gjøre beregningene raskere.
Følgende variabler kan anvendes for å beregne spektralprofilet til den innmatede blokken:
M = antall vindusbehandlede sampler i en blokk som anvendes for å beregne spektralprofil
P = antall overlappende sampler i spektralberegningen
Generelt kan variablene over ta et hvilket som helst heltall. Imidlertid vil gjennomføringen være mer effektiv dersom M settes lik en potens av 2 slik at standard FFT-transformasjoner kan anvendes for spektralprofilberegningene. I en praktisk utførelsesform av høresceneanalyse-prosessen kan de listede parametrene være satt til:
M = 512 sampler (eller 11,6 ms ved 44,1 kHz)
P = 0 sampler (ingen overlapp)
Verdiene angitt over ble bestemt eksperimentelt og ble funnet å generelt identifisere posisjonen og varigheten til hørehendelser med tilstrekkelig nøyaktighet. Imidlertid er det å sette verdien til P til 256 sampler (50% overlapp) heller enn null sampler (ingen overlapp) funnet å være nyttig ved bestemmelse av visse hendelser som er vanskelige å oppdage. Selv om mange forskjellige typer vinduer kan anvendes for å minimere spektralartefakter som følge av vindusbehandling, er vinduet som anvendes i spektralprofilberegningene et M-punkts Hanning, Kaiser-Bessel eller annet passende, fortrinnsvis ikke-rektangulært vindu. De ovenfor angitte verdiene og en Hanning-vindustype ble valgt etter omfattende eksperimentell analyse ettersom de viste seg å gi utmerkede resultater over et stort utvalg av lydmateriale. Behandling med ikke-rektangulære vinduer er foretrukket for behandling av audiosignaler med hovedsaklig lavfrekvent innhold. Rektangulær vindusbehandling skaper spektralartefakter som kan forårsake feilaktig deteksjon av hendelser. Til forskjell fra bestemte koder/dekoder-(kodek)-applikasjoner der en generell overlappings-/tilleggingsprosess må skape et konstant nivå, er det ingen slike begrensninger her, og vinduet kan velges for egenskaper så som dets tids-/frekvensoppløsning og stoppbånd-avvisning.
I trinn 1-1 (figur 1) kan spekteret til hver blokk av M-sampler bli beregnet ved å vindusbehandle dataene med et M-punkts Hanning, Kaiser-Bessel eller annet passende vindu, transformere til frekvensdomenet med bruk av en M-punkts FFT og beregne absoluttverdien til de komplekse FFT-koeffisientene.
Resultatdataene blir normalisert slik at den største absoluttverdien settes lik én, og det normaliserte arrayet av M tall blir transformert til log-domenet. Dataene kan også bli normalisert med hensyn til et annet mål, så som midlere absoluttverdi eller midlere effektverdi til dataene. Arrayet trenger ikke bli transformert til logdomenet, men transformasjonen forenkler beregningen av forskjellsmålet i trinn 1-2. Videre sammenfaller log-domenet bedre med egenskapene til menneskets hørselssystem. De resulterende log-domeneverdiene ligger i et område fra minus uendelig til null. I en praktisk utførelsesform kan en nedre grense bli satt for området av verdier; grensen kan være fast, for eksempel -60 dB, eller være frekvensavhengig for å reflektere den dårligere hørbarheten av stille lyder ved lave og veldig høye frekvenser. (Merk at det ville være mulig å redusere størrelsen til arrayet til M/2 ettersom FFT representerer negative så vel som positive frekvenser).
Trinn 1-2 beregner et mål for forskjellen mellom spektrene til konsekutive blokker. For hver blokk blir hver av de M (log-) spektralkoeffisientene fra trinn 1-1 subtrahert fra den motsvarende koeffisienten i den foregående blokken, og absoluttverdien til differansen beregnes (fortegnet ignoreres). Disse M differansene blir så summert til ett tall. Dette forskjellsmålet kan også uttrykkes som en gjennomsnittsforskjell for hver spektralkoeffisient ved å dividere forskjellsmålet med antallet spektralkoeffisienter anvendt i summen (i dette tilfellet M koeffisienter).
Trinn 1-3 identifiserer posisjonen til hørehendelsesgrenser ved å anvende en terskel på gruppen av forskjellsmål fra trinn 1-2 med en terskelverdi. Når et forskjellsmål overstiger en terskel, vurderes endringen i spekteret som tilstrekkelig til å signalisere en ny hendelse, og blokknummeret til endringen blir registrert som en hendelsesgrense. For verdiene av M og P angitt over, og for log-domeneverdier (i trinn 1-1) uttrykt i dB, kan terskelen settes lik 2500 dersom hele FFT-sekvensen (omfattende den speilede delen) blir sammenliknet, eller 1250 dersom halve FFT-sekvensen blir sammenliknet (som angitt over representerer FFT negative så vel som positive frekvenser — for absoluttverdien til FFT-transformasjonen er den ene speilbildet av den andre). Denne verdien ble valgt eksperimentelt og gir en god deteksjon av hørehendelsesgrenser. Denne parameterverdien kan endres for å redusere (øke terskelen) eller øke (redusere terskelen) deteksjonen av hendelser.
Prosessen i figur 1 kan representeres mer generelt av de ekvivalente prosessene i figurene 3, 4 og 5. I figur 3 anvendes et audiosignal parallelt på en “Identifisere hørehendelser”-funksjon, eller trinn 3-1, som deler inn audiosignalet i hørehendelser, som hver gjerne oppfattes som atskilt og distinkt, og på en eventuell “Identifisere egenskaper ved hørehendelser”-funksjon, eller trinn 3-2. Prosessen i figur 1 kan anvendes for å dele inn audiosignalet i hørehendelser og deres identifiserte egenskaper, eller en annen passende prosess kan anvendes. Hørehendelsesinformasjonen, som kan være en identifisering av hørehendelsesgrenser, bestemt av funksjon eller trinn 3-1, blir så anvendt for å modifisere audiodynamikkprosesseringsparametrene (så som attack, release, forhold, etc.), som ønsket, i en “Modifiser dynamikkparametere”-funksjon, eller trinn 3-3. Den valgfri “Identifiser egenskaper”-funksjonen, eller trinn 3-3, mottar også hørehendelsesinformasjonen. “Identifiser egenskaper”-funksjonen, eller trinn 3-3, kan karakterisere noen av eller alle hørehendelsene ved én eller flere egenskaper. Slike egenskaper kan omfatte en identifisering av det dominerende delbåndet i hørehendelsen, som beskrevet i forbindelse med prosessen i figur 1. Egenskapene kan også omfatte én eller flere lydegenskaper, omfattende for eksempel et mål for effekten til hørehendelsen, et mål for amplituden til hørehendelsen, et mål for spektralflatheten til hørehendelsen og hvorvidt hørehendelsen er hovedsaklig lydløs, eller andre egenskaper som letter modifisering av dynamiske parametere slik at negative hørbare artefakter som følge av behandlingen reduseres eller fjernes. Egenskapene kan også omfatte andre egenskaper, så som hvorvidt hørehendelsene omfatter en transient.
Alternativer til prosessen i figur 3 er vist i figurene 4 og 5. I figur 4 blir ikke det innmatede audiosignalet anvendt direkte i “Identifiser egenskaper”-funksjonen eller trinn 4-3, men det mottar informasjon fra “Identifiser hørehendelser”-funksjonen eller trinn 4-1. Prosessen i figur 1 er et konkret eksempel på en slik prosess. I figur 5 blir funksjonene eller trinnene 5-1, 5-2 og 5-3 utført i serie.
Detaljene i denne praktiske utførelsesformen er ikke avgjørende. Andre måter kan anvendes for å beregne spektralinnholdet i suksessive tidssegmenter av audiosignalet, beregne forskjellen mellom suksessive tidssegmenter og sette hørehendelsesgrenser i de respektive grensene mellom suksessive tidssegmenter når forskjellen i spektralprofilinnhold mellom disse suksessive tidssegmentene overstiger en terskel.
Høresceneanalyse (Ny, lydstyrkedomene-basert metode) Den internasjonale søknaden under Patentsamarbeidskonvensjonen PCT/US2005/038579, innlevert 25. oktober 2005, publisert som den internasjonale publikasjonen WO 2006/047600 A1 med tittelen “Calculating and Adjusting the Perceived Loudness and/or the Perceived Spectral Balance of an Audio Signal”, av Alan Jeffrey Seefeldt, beskriver blant annet et objektivt mål for oppfattet lydstyrke basert på en psykoakustisk modell.. Som beskrevet i nevnte søknad PCT/US2005/038579 blir det fra et audiosignal beregnet et eksitasjonssignal E[b,t] som tilnærmer fordelingen av energi langs basilarmembranen i det indre øret ved et kritisk bånd b under tidsblokk t. Denne eksitasjonen kan beregnes fra en diskret hurtigskala fouriertransformasjon (STDFT – Short-time Discrete Fourier Transform) av audiosignalet som følger:
der X[k, t ] representerer STDFT-transformasjonen av x[n ] ved tidsblokk t og boks k. Merk at i likning 1, t representerer tid i diskrete enheter av transformasjonsblokker til forskjell fra et kontinuerlig mål, så som sekunder. T[k ] representerer frekvensresponsen til et filter som simulerer overføring av lyd gjennom det ytre og midtre øre, og Cb[k ] representerer frekvensresponsen til basilarmembranen på et sted som svarer til det kritiske båndet b. Figur 6 viser et passende sett av kritiske båndfilterresponser der 40 bånd er spredt uniformt langs ekvivalent rektangulær båndbredde-(ERB)-skalaen, som definert av Moore og Glasberg. Hver filterform er beskrevet av en avrundet eksponentialfunksjon, og båndene er distribuert med en spredning på 1 ERB. Endelig kan glattingstidskonstanten λ b i likning 1 tjenlig velges proporsjonal med integrasjonstiden til menneskets lydstyrkeoppfatning innenfor bånd b.
Ved anvendelse av isolydstyrkekonturer, så som de vist i figur 7, transformeres eksitasjonen i hvert bånd til et eksitasjonsnivå som vil generere den samme oppfattede lydstyrken ved 1kHz. Spesifikk lydstyrke, et mål for perseptuell lydstyrke distribuert over frekvens og tid, blir så beregnet fra den transformerte eksitasjonen, E 1 kHz[b, t ] , gjennom en trykk-ikke-linearitet. Én passende funksjon for å beregne den spesifikke lydstyrken N[b, t ] er gitt ved:
(2)
der TQ1 kHz er terskelen for lydløs ved 1kHz og konstantene β og α velges for å tilpasse til vekst i lydstyrkedata som samlet inn fra lytteeksperimenter. Teoretisk kan denne transformasjonen fra eksitasjon til spesifikk lydstyrke representeres av funksjonen som er slik at:
Endelig beregnes den totale lydstyrken, L[t ] , representert i sone-enheter, ved å summere den spesifikke lydstyrken over bånd:
(3)
Den spesifikke lydstyrken N[b, t ] er en spektralrepresentasjon ment for å simulere hvordan et menneske oppfatter lyd som funksjon av frekvens og tid. Den fanger opp variasjoner i følsomhet for forskjellige frekvenser, variasjoner i nivåfølsomhet samt variasjoner i frekvensoppløsning. Følgelig er den en spektralrepresentasjon som er velegnet for deteksjon av hørehendelser. Selv om det gir mer kompliserte beregninger, kan det å sammenlikne differansen for N[b, t ] over bånd mellom suksessive tidsblokker i mange tilfeller gi en mer perseptuelt nøyaktig deteksjon av hørehendelser sammenliknet med den direkte bruken av suksessive FFT-spektre beskrevet over.
I nevnte patentsøknad er flere metoder for å modifisere lyden basert på denne psykoakustiske lydstyrkemodellen beskrevet. Blant disse er flere dynamikkprosesseringsalgoritmer, så som AGC og DRC. Disse beskrevne algoritmene kan dra nytte av å bruke hørehendelser til å styre forskjellige tilhørende parametere. Siden spesifikk lydstyrke allerede er beregnet er de lett tilgjengelige for detektering av nevnte hendelser. Detaljer av en foretrukket utførelsesform er beskrevet nedenfor.
Styring av audiodynamikkprosesseringsparametere med hørehendelser To eksempler på utførelser av oppfinnelsen vil nå bli vist. Den første beskriver bruk av hørehendelser til å styre releasetiden i en digital utførelse av en DRC (Dynamic Range Controller) der forsterkningsreguleringen er avledet fra RMS-(Root Mean Square)-effekten i signalet. Den andre utførelsen beskriver bruk av hørehendelser til å styre bestemte aspekter ved en mer avansert kombinasjon av AGC og DRC realisert i forbindelse med den psykoakustiske lydstyrkemodellen beskrevet over. Disse to utførelsene er kun ment å tjene som eksempler på oppfinnelsen, og det må forstås at bruk av hørehendelser til å styre parametere i en dynamikkprosesseringsalgoritme ikke er begrenset til detaljene beskrevet nedenfor.
Dynamisk spekterkontroll
Den beskrevne digitale utførelsen av en DRC deler inn et audiosignal x[n ] i vindusbehandlede, halv-overlappende blokker, og for hver blokk beregnes en modifikasjonsforsterkning basert på et mål for signalets lokale effekt og en valgt kompresjonskurve. Forsterkningen blir glattet over blokker og så multiplisert med hver blokk. De modifiserte blokkene blir til slutt overlapp-addert for å generere det modifiserte audiosignalet y[n ] .
Det skal bemerkes at selv om høresceneanalysen og den digitale realiseringen av DRC som beskrevet her deler opp tidsdomene-audiosignalet i blokker for analyse og behandling, DRC-behandlingen ikke trenger bli utført med bruk av blokksegmentering. For eksempel vil høresceneanalysen kunne utføres med bruk av blokksegmentering og spektralanalyse som beskrevet over, og de resulterende hørehendelsesposisjonene og -egenskapene anvendes for å forsyne styringsinformasjon til en digital utførelse av en tradisjonell DRC som typisk jobber med ett og ett sample. Her anvendes imidlertid den samme blokkstrukturen som ble anvendt for høresceneanalyse for DRC'en for å lette beskrivelsen av kombinasjonen av dem.
Videre i beskrivelsen av en blokkbasert DRC-utførelse kan de overlappende blokkene i audiosignalet representeres som:
(4)
der M er blokklengden og hopstørrelsen er M/2, w[n ] er vinduet, n er sampleindeksen internt i blokken og t er blokkindeksen (merk at t her anvendes på samme måte som for STDFT-transformasjonen i likning 1; den representerer for eksempel tid i diskrete blokkenheter heller enn sekunder). Ideelt sett skrår vinduet w[n ] til null i begge ender og summerer til én når det halv-overlappes med seg selv; for eksempel oppfyller det mye brukte sinus-vinduet disse kriteriene.
For hver blokk kan en da beregne RMS-effekten for å generere et effektmål P[t ] i dB for hver blokk:
(5)
Som nevnt tidligere kan en glatte dette effektmålet med et raskt attack og langsom release før behandling med en kompresjonskurve, men som et alternativ kan momentaneffekten P[t ] bli behandlet og den resulterende forsterkningen glattet. Denne alternative løsningen har den fordelen at en enkel kompresjonskurve med skarpe knekkpunkter kan anvendes, men de resulterende forsterkningene er likevel glatte mens effekten passerer gjennom knekkpunktet. Med en kompresjonskurve representert som vist i figur 8c som en funksjon F av signalnivå som gir en forsterkning, er blokkforsterkningen G[t ] gitt ved:
(6)
Antatt at kompresjonskurven anvender større dempning etter hvert som signalnivået øker, vil forsterkningen avta når signalet er i “attackmodus” og øke når signalet er i “releasemodus”. Følgelig kan en glattet forsterkning G[t ] beregnes i henhold til:
(7a)
der
(7b)
og
(7c)
Til slutt blir den glattede forsterkningen G[t ] , som er i dB, anvendt på hver blokk av signalet, og de modifiserte blokkene blir overlapp-addert for å generere den modifiserte lyden:
(8)
Merk at fordi blokkene er multiplisert med et avskrådd vindu, som vist i likning 4, overlapp-adderingen vist over effektivt glatter forsterkningene på tvers av sampler av det behandlede signalet y[n]. Følgelig gjennomgår forsterkningsreguleringssignalet glatting i tillegg til den vist i likning 7a. I en mer tradisjonell utførelse av DRC som jobber med enkeltsampler heller enn blokkvis, kan en mer avansert forsterkningsglatting enn det enkle én-polfilteret vist i likning 7a være nødvendig for å hindre hørbar fordreining av det behandlede signalet. Videre introduserer bruken av blokkbasert behandling en naturlig forsinkelse på M/2 sampler i systemet, og så lenge reduksjonstiden for α attack er nær denne forsinkelsen trenger ikke signalet x[n] forsinkes ytterligere før anvendelse av forsterkningene for å hindre overshoot.
Figurene 9a til 9c viser resultatet av bruk av den beskrevne DRC-behandlingen på et audiosignal. For denne konkrete utførelsen anvendes en blokklengde på M=512 med en samplingsrate på 44,1 kHz. En kompresjonskurve tilsvarende den vist i figur 8b anvendes:
over -20dB i forhold til det digitale fullskalasignalet dempes med et forhold på 5:1, og
under -30dB blir signalet styrket med et forhold på 5:1. Forsterkningen blir glattet med en attackkoeffisient α attack svarende til en halvreduksjonstid på 10ms og en releasekoeffisient α release svarende til en halvreduksjonstid på 500ms. Det opprinnelige audiosignalet vist i figur 9a består av seks etterfølgende pianoakkorder, med den endelige akkorden liggende rundt sampelet 1,75 × 105 og avtagende til lydløshet. I betraktningen av plottet av forsterkningen G[t ] i figur 9b skal det bemerkes at forsterkningen holder seg nær 0dB mens de seks akkordene blir spilt. Dette er fordi signalenergien i hovedsak holder seg mellom -30dB og -20dB, området innenfor hvilket DRC-kurven ikke krever noen modifikasjon. Etter den siste akkorden faller imidlertid signalenergien under -30dB, og forsterkningen begynner å øke, til slutt til over 15dB, etter hvert som akkorden dør hen. Figur 9c viser det resulterende modifiserte audiosignalet, og en kan se at halen til den endelige akkorden er betydelig styrket. Hørselsmessig gir denne styrkingen av akkordens naturlige, lett avtagende lyd et ekstremt unaturlig resultat. Det er målet med foreliggende oppfinnelse å hindre problemer av denne typen som er forbundet med en tradisjonell dynamikkprosessor.
Figurene 10a til 10c viser resultatene av bruk av eksakt samme DRC-system på et annet audiosignal. I dette tilfellet består den første halvdelen av et opptempo musikkstykke på et høyt nivå, og så omtrent ved sample10 χ 104 skifter signalet til et andre opptempo musikkstykke, men på et betydelig lavere nivå. Ved å betrakte forsterkningen i figur 6b ser en at signalet dempes med omtrent 10dB under den første halvdelen, og så stiger forsterkningen opp til 0dB under den andre halvdelen når det saktere stykket spilles. I dette tilfellet oppfører forsterkningen seg som ønsket. En ønsker at det andre stykket styrkes i forhold til det første, og forsterkningen bør øke raskt etter overgangen til det andre stykket for ikke å gi nevneverdige hørbare effekter. En ser en forsterkningsoppførsel som er tilsvarende den til det første signalet beskrevet, men her er oppførselen ønskelig. Derfor ønsker en å korrigere det første tilfellet uten å påvirke det andre. Bruk av hørehendelser for å styre releasetiden til dette DRC-systemet gir en slik løsning.
I det første signalet som ble undersøkt i figur 9 synes økningen i reduksjonen av den siste akkorden unaturlig fordi akkorden og dens reduksjon oppfattes som én enkelt hørehendelse, hvis integritet forventes å være bevart. I det andre tilfellet opptrer imidlertid mange hørehendelser mens forsterkningen øker, noe som innebærer at det er lite endring for hver enkelthendelse. Den totale forsterkningsendringen er derfor ikke så ille. En kan derfor argumentere med at en forsterkningsendring kun bør tillates tidsmessig nær en hørehendelsesgrense. En kunne anvende dette prinsippet på forsterkningen mens den er i enten attack- eller releasemodus, men for de fleste praktiske utførelser av en DRC beveger forsterkningen seg så raskt i attackmodus sammenliknet med menneskets tidsoppløsning av hendelsesoppfatning at ingen styring er nødvendig. En kan derfor anvende hendelser for å styre glattingen av DRC-forsterkningen kun i releasemodus.
En passende oppførsel for releasestyringen vil nå bli beskrevet. Kvalitativt, dersom en hendelse detekteres, blir forsterkningen glattet med releasetidskonstanten spesifisert over i likning 7a. Etter hvert som tiden går etter den detekterte hendelsen, og dersom ingen påfølgende hendelser detekteres, øker releasetidskonstanten kontinuerlig slik at den glattede forsterkningen til slutt “fryses”. Dersom en annen hendelse detekteres, tilbakestilles glattingstidskonstanten til den opprinnelige verdien og prosessen gjentas. For å modulere releasetiden kan en først generere et reguleringssignal basert på de detekterte hendelsesgrensene.
Som beskrevet over kan hendelsesgrenser detekteres ved å se etter endringer i suksessive spektre i audiosignalet. Med denne konkrete metoden kan DFT-transformasjonen av hver overlappende blokk x[n, t ] beregnes for å generere STDFT-transformasjonen av audiosignalet x[n ] :
(9)
Deretter kan forskjellen mellom de normaliserte log-absoluttverdispektrene til suksessive blokker beregnes i henhold til:
k
(10a)
der
(10b)
Her anvendes maksimum av X[k, t ] over bokser k for normalisering, selv om én kunne ha anvendt andre normaliseringsfaktorer; for eksempel gjennomsnittet av X[k, t ] over bokser. Dersom forskjellen D[t ] overstiger en terskel D min , anses en hendelse å ha forekommet. Videre kan en tildele en styrke til denne hendelsen, som ligger mellom null og én, basert på størrelsen til D[t ] sammenliknet med en maksimal terskel D max . Det resulterende hørehendelse-styrkesignalet A[t ] kan beregnes som:
(11)
Ved å tildele en styrke til hørehendelsene som er proporsjonal med graden av spektralendring forbundet med denne hendelsen oppnår en bedre kontroll over dynamikkprosesseringen sammenliknet med en todelt hendelsesbestemmelse. Oppfinnerne har funnet at større forsterkningsendringer er akseptabelt under sterkere hendelser, og signalet i likning 11 muliggjør slik variabel regulering.
Signalet A[t ] er et impulssignal der en impuls opptrer ved en hendelsesgrense. For å styre releasetiden kan en videre glatte signalet A[t ] slik at det avtar kontinuerlig til null etter deteksjon av en hendelsesgrense. Det glattede hendelsesreguleringssignalet A[t ] kan beregnes fra A[t ] i henhold til:
(12)
Her styrer α event reduksjonstiden til hendelsesreguleringssignalet. Figurene 9d og 10d viser hendelsesreguleringssignalet A[t ] for de to motsvarende audiosignalene, med halvreduksjonstiden til det glatteste satt til 250ms. I det første tilfellet ser en at en hendelsesgrense detekteres for hver av de seks pianoakkordene, og at hendelsesreguleringssignalet avtar kontinuerlig mot null etter hver hendelse. For det andre signalet detekteres mange hendelser veldig nær hverandre i tid, og derfor avtar hendelsesreguleringssignalet aldri helt til null.
En kan nå bruke hendelsesreguleringssignalet A[t ] til å variere releasetidskonstanten anvendt for å glatte forsterkningen. Når reguleringssignalet er lik én, er glattingskoeffisienten α[t ] fra likning 7a lik α release som før, og når reguleringssignalet er lik null er koeffisienten lik én, slik at en hindrer at den glattede forsterkningen endrer seg. Glattingskoeffisienten interpoleres mellom disse to ekstrempunktene ved hjelp av reguleringssignalet i henhold til:
(13)
Ved at glattingskoeffisienten interpoleres kontinuerlig som funksjon av hendelsesreguleringssignalet tilbakestilles releasetiden til en verdi som står i forhold til hendelsesstyrken ved innledning av en hendelse, og øker så glatt til uendelig etter forekomst av en hendelse. Hastigheten til denne økningen bestemmes av koeffisienten α event anvendt for å generere det glattede hendelsesreguleringssignalet.
Figurene 9e og 10e viser innvirkningen av å glatte forsterkningen med den hendelsesstyrte koeffisienten fra likning 13 i motsetning til den ikkehendelsesstyrte koeffisienten fra likning 7b. I det første tilfellet faller hendelses reguleringssignalet til null etter den siste pianoakkorden, og hindrer dermed forsterkningen i å bevege seg oppover. Som følge av dette utviser ikke den tilhørende modifiserte lyden i figur 9f en unaturlig styrking av reduksjonen av akkorden. I det andre tilfellet går hendelsesreguleringssignalet aldri mot null, og derfor undertrykkes det glattede forsterkningssignalet veldig lite gjennom bruken av hendelsesreguleringen. Kurven til den glattede forsterkningen er nær identisk med den ikke-hendelsesstyrte forsterkningen i figur 10b. Dette er nøyaktig den ønskede effekten.
Lydstyrkebasert AGC og DRC
Som et alternativ til tradisjonelle dynamikkprosesseringsmetoder der signalmodifikasjoner er en direkte funksjon av enkle signalmålinger så som makseffekt eller RMS-effekt, beskriver den internasjonale patentsøknaden PCT/US2005/038579 bruk av den psykoakustikk-baserte lydstyrkemodellen beskrevet over som et rammeverk for å utføre dynamikkprosessering. Flere fordeler er angitt. For det første er målinger og modifikasjoner angitt i sone-enheter, som er et mer nøyaktig mål for lydstyrkeoppfatning enn mer grunnleggende mål så som makseffekt eller RMS-effekt. For det andre kan lyden bli modifisert slik at den oppfattede spektralbalansen til den opprinnelige lyden opprettholdes mens den totale lydstyrken endrer seg. På denne måten blir endringer av den totale lydstyrken mindre perseptuelt fremtredende sammenliknet med en dynamikkprosessor som for eksempel anvender en bredbåndsforsterkning for å modifisere lyden. Endelig er den psykoakustiske modellen naturlig en flerbåndsmodell, og derfor kan systemet enkelt innrettes for å utføre flerbånd dynamikkprosessering for å avhjelpe de velkjente problemene med tverrspektral pumping forbundet med en bredbånd dynamikkprosessor.
Selv om det å utføre dynamikkprosessering i dette lydstyrkedomenet allerede gir en rekke fordeler over mer tradisjonell dynamikkprosessering, kan denne metoden forbedres ytterligere gjennom bruk av hørehendelser for å styre forskjellige parametere. Betrakt audiosegmentet som inneholder pianoakkorder som vist i 27a og den tilhørende DRC'en vist i figurene 10b og c. En kunne utføre en tilsvarende DRC i lydstyrkedomenet, og i dette tilfellet, når lydstyrken til den siste pianoakkordens reduksjon økes, ville økningen være mindre fremtredende fordi spektralbalansen til den avtagende noten ble opprettholdt når økningen ble anvendt. En bedre løsning er imidlertid å ikke øke reduksjonen i det hele tatt, og derfor kan en tjenlig anvende samme prinsipp for å styre attack- og releasetider med hørehendelser i lydstyrkedomenet som beskrevet over for en tradisjonell DRC.
Det lydstyrkedomene-baserte dynamikkprosesseringssystemet som nå skal beskrives består av AGC etterfulgt av DRC. Målet med denne kombinasjonen er å gjøre at all behandlet lyd får omtrent samme oppfattede lydstyrke samtidig som i hvert fall noe av den opprinnelige lydens dynamikk bevares. Figur 11 viser et passende sett av AGC- og DRC-kurver for denne søknaden. Merk at innmatingen til og utmatingen fra begge kurvene er representert i sone-enheter siden behandlingen blir utført i lydstyrkedomenet. AGC-kurve jobber for å bringe den utmatede lyden nærmere et målnivå, og gjør som tidligere nevnt dette med forholdsvis langsomme tidskonstanter. En kan tenke på AGC som å gjøre lydstyrken på en langsom tidsskala lik den ønskede, men på en hurtig tidsskala kan lydstyrken fluktuere betydelig rundt dette målet. En kan derfor anvende mer hurtigvirkende DRC for å begrense disse fluktuasjonene til et område som anses som akseptabelt for den aktuelle anvendelsen. Figur 11 viser en slik DRC-kurve der AGC-målet faller innenfor “nullbåndet” til DRC, den delen av kurven som ikke krever noen modifikasjon. Med denne kombinasjon av kurver bringer AGC lydstyrken på den langsomme tidskalaen innenfor nullbåndet til DRC-kurven, slik at kun et minimum av hurtigvirkende DRC-modifikasjoner er nødvendig. Dersom lydstyrken på den hurtige tidsskalaen fortsatt fluktuerer utenfor nullbåndet, tjener DRC da til å flytte lydstyrken mot dette nullbåndet. Som en generell kommentar til slutt kan en anvende langsomtvirkende AGC slik at alle båndene i lydstyrkemodellen gjennomgår samme mengde lydstyrkemodifikasjon og dermed opprettholder den oppfattede spektralbalansen, og en kan anvende hurtigvirkende DRC på en måte som gjør at lydstyrkemodifikasjonen kan variere over bånd for å undertrykke tverrspektral pumping som ellers vil kunne resultere fra hurtigvirkende bånduavhengig lydstyrkemodifikasjon.
Hørehendelser kan anvendes for å styre attack og release i både AGC og DRC. For AGC er både attack- og releasetiden stor sammenliknet med tidsoppløsningen av hendelsesoppfatningen, og derfor kan hendelsesregulering tjenlig anvendes i begge tilfeller. For DRC er attacktiden forholdsvis kort, og derfor kan hendelsesregulering kun være nødvendig for release som i den tradisjonelle DRC beskrevet over.
Som beskrevet over kan en anvende det spesifikke lydstyrkespekteret for den anvendte lydstyrkemodellen for hendelsesdeteksjon. Et differansesignalD[t ] , tilsvarende det i likningene 10a og b, kan beregnes fra den spesifikke lydstyrken N[b, t ] , definert i likning 2, som følger:
b
(14a)
der
(14b)
Her anvendes maksimum av N[b, t ] over frekvensbånd b for normalisering, selv om en vil kunne anvende andre normaliseringsfaktorer; for eksempel gjennomsnittet av N[b, t ] over frekvensbånd. Dersom differansen D[t ] overstiger en
terskel D min , anses en hendelse å ha forekommet. Differansesignalet kan da bli behandlet på samme måte vist i likningene 11 og 12 for å generere et glatt hendelsesreguleringssignal A[t ] som anvendes for å styre attack- og releasetidene.
AGC-kurven vist i figur 11 kan representeres som en funksjon som tar som innmating et mål for lydstyrke og genererer en ønsket utmatet lydstyrke:
(15a)
DRC-kurven kan representeres på tilsvarende måte:
(15b)
For AGC er den innmatede lydstyrken et mål for lydens lydstyrke på en langsom tidsskala. En kan beregne et slikt mål ved å glatte den momentane lydstyrken L[t ] , definert i likning 3, ved anvendelse av forholdsvis lange tidskonstanter (i størrelsesorden flere sekunder). Det har vært vist at mennesket i bedømmelsen av et audiosegments lydstyrke på en langsom tidsskala vektlegger de høyere delene mer enn de saktere, og en kan anvende en raskere attack enn release i glattingen for å simulere denne effekten. Med innlemmelsen av hendelsesregulering for både attack og release kan lydstyrken på den langsomme tidsskalaen som anvendes for å bestemme AGC-modifikasjonen derfor beregnes i henhold til:
(16a)
der
(16b)
I tillegg kan en beregne et tilhørende spesifikt lydstyrkespekter på en langsom tidsskala som senere vil bli anvendt for flerbånd DRC:
(16c)
I praksis kan en velge glattingskoeffisientene slik at attacktiden er omtrent halvparten av releasetiden. Gitt lydstyrkemålet på den langsomme tidsskalaen kan en da beregne lydstyrkemodifikasjonsskaleringen for AGC som forholdet mellom utmatet lydstyrke og innmatet lydstyrke:
(17)
DRC-modifikasjonen kan nå beregnes fra lydstyrken etter bruk av AGC-skaleringen. Heller enn å glatte et mål for lydstyrken før bruk av DRC-kurven kan en alternativt anvende DRC-kurven på den momentane lydstyrken og deretter glatte den resulterende modifikasjonen. Dette er tilsvarende metoden beskrevet over for å glatte forsterkningen i den tradisjonelle DRC. Videre kan DRC anvendes med flere bånd, hvilket innebærer at DRC-modifikasjonen er en funksjon av den spesifikke lydstyrken N[b, t ] i hvert bånd b heller enn den totale lydstyrkenL[t ] . For å opprettholde den gjennomsnittlige spektralbalansen til den opprinnelige lyden kan en imidlertid anvende DRC på hvert bånd slik at de resulterende modifikasjonene har samme gjennomsnittseffekt som ville fremkomme ved bruk av DRC på den totale lydstyrken. Dette kan oppnås ved å skalere hvert bånd med forholdet mellom den totale lydstyrken på en langsom tidsskala (etter bruk av AGC-skalering) og den spesifikke lydstyrken på en langsom tidsskala, og ved å anvende denne verdien som parameter til DRC-funksjonen. Resultatet blir da reskalert med den inverse av nevnte forhold for å generere den utmatede spesifikke lydstyrken. Følgelig kan DRC-skaleringen i hvert bånd beregnes i henhold til:
(18)
AGC- og DRC-modifikasjonene kan så kombineres for å danne en total lydstyrkeskalering for hvert bånd:
(19)
Denne totale skaleringen kan så glattes over tid uavhengig for hvert bånd med rask attack og langsom release og med hendelsesregulering anvendt kun for release. Ideelt sett utføres glatting på logaritmen av skaleringen tilsvarende som forsterkningene i tradisjonell DRC som glattes i sin desibelrepresentasjon, selv om dette ikke er avgjørende. For å sikre at den glattede totale skaleringen beveger seg synkronisert med den spesifikke lydstyrken i hvert bånd, kan attack- og releasemodus bestemmes gjennom samtidig glatting av spesifikk lydstyrke:
Endelig kan en beregne en ønsket spesifikk lydstyrke basert på den glattede skaleringen anvendt på den opprinnelige spesifikke lydstyrken
(21)
og så løse for forsterkningene G[b, t ] som når de anvendes på den opprinnelige eksitasjonen resulterer i en spesifikk lydstyrke lik den ønskede:
(22)
Forsterkningene kan bli anvendt på hvert bånd i filterbanken som anvendes for å beregne eksitasjonen, og den modifiserte lyden kan så bli generert ved å invertere filterbanken for å generere et modifisert tidsdomene audiosignal.
Styring av ytterligere parametere
Selv om beskrivelsen over har fokusert på styring av attack- og releaseparametere for AGC og DRC gjennom høresceneanalyse av lyden som behandles, kan også andre viktige parametere tjenlig styres ved hjelp av ASA-resultatene. For eksempel kan hendelsesreguleringssignalet A[t ] fra likning 12 anvendes for å variere verdien til DRC-forholdsparameteren som anvendes for dynamisk å justere forsterkningen av lyden. Forholdsparameteren, tilsvarende attack- og releasetidsparametrene, bidrar betydelig til de perseptuelle artefaktene som introduseres av dynamiske forsterkningsreguleringer.
Realisering
Oppfinnelsen kan realiseres i maskinvare eller programvare, eller en kombinasjon av begge (f.eks. en programmerbar portmatrise). Dersom ikke annet er spesifisert, er ikke algoritmene innlemmet som del av oppfinnelsen uløselig knyttet til noen som helst spesifikk datamaskin eller annen anordning. Spesielt kan forskjellige generelle maskiner anvendes med programmer skrevet i henhold til det som er vist her, eller det kan være mer hensiktsmessig å konstruere mer spesialiserte anordninger (f.eks. integrert kretser) for å utføre de nødvendige fremgangsmåtetrinnene. Følgelig kan oppfinnelsen realiseres i ett eller flere dataprogrammer som kjører på ett eller flere programmerbare datasystemer som hvert omfatter minst én prosessor, minst ett datalagringssystem (omfattende volatile og ikkevolatile minner og/eller lagringselementer), minst én innmatingsanordning eller -port og minst én utmatingsanordning eller -port. Programkode anvendes for å mate inn data for å utføre funksjonene beskrevet her og generere utdata.
Utdataene mates til én eller flere utmatingsanordninger, på en kjent måte.
Hvert slikt program kan implementeres i et hvilket som helst ønsket datamaskinspråk (omfattende maskinkode, assemblerkode eller et høynivå prosedyreorientert, logisk eller objekt-orientert programmeringsspråk) for å kommunisere med et datasystem. Språket kan være et kompilert eller interpretert språk.
Hvert slikt dataprogram blir fortrinnsvis lagret på eller lastet ned til et lagringsmedium eller en lagringsanordning (f.eks. solid-state minne eller medier, eller magnetiske eller optiske medier) som kan leses av en generell eller spesialisert programmerbar datamaskin, for å konfigurere og kjøre datamaskinen når lagringsmediene eller -anordningen leses av datasystemet for å utføre fremgangsmåtene beskrevet her. Systemet ifølge oppfinnelsen kan også betraktes som realisert som et datamaskinlesbart lagringsmedium som inneholder et dataprogram, der lagringsmediet innrettet på denne måten bevirker et datasystem til å kjøre på en spesifikk og forhåndsdefinert måte for å utføre funksjonene beskrevet her.
Et antall utførelsesformer av oppfinnelsen er beskrevet. Ikke desto mindre vil det forstås at en kan foreta forskjellige modifikasjoner uten å fjerne seg fra oppfinnelsens ramme. For eksempel kan noen av trinnene beskrevet her være rekkefølgeuavhengige, og kan således bli utført i en annen rekkefølge enn den som er beskrevet.
Det må forstås at andre variasjoner og modifikasjoner av oppfinnelsen og dens forskjellige aspekter vil sees av fagmannen, og at oppfinnelsen ikke er begrenset av de konkrete utførelsesformene beskrevet. Det forutsettes derfor at foreliggende oppfinnelse dekker enhver modifikasjon, variasjon eller ekvivalent som faller innenfor rammen til de grunnleggende underliggende prinsippene som er beskrevet og som det kreves beskyttelse for ifølge patentkravene.
Referanser
De følgende patenter, patentsøknader og publikasjoner beskriver ytterligere kjent teknikk.
Audiodynamikkprosessering
Audio Engineer's Reference Book, redigert av Michael Talbot-Smith, 2. utgave. Limiters and Compressors, Alan Tutton, 2-1492-165. Focal Press, Reed Educational and Professional Publishing Ltd., 1999.
Deteksjon og bruk av hørehendelser
U.S.-patentsøknaden 10/474,387, “High Quality Time-Scaling and Pitch-Scaling of Audio Signals” av Brett Graham Crockett, publisert 24. juni 2004 som US 2004/0122662 A1.
U.S.-patentsøknaden 10/478,398, “Method for Time Aligning Audio Signals Using Characterizations Based on Auditory Events”, av Brett G. Crockett m.fl., publisert 29. juli 2004 som US 2004/0148159 A1.
U.S.-patentsøknaden 10/478,538, “Segmenting Audio Signals Into Auditory Events”, av Brett G. Crockett, publisert 26. august 2004 som US 2004/0165730 A1. Aspekter ved foreliggende oppfinnelse tilveiebringer en måte å detektere hørehendelser i tillegg til de beskrevet i nevnte søknad av Crockett.
U.S.-patentsøknaden 10/478,397, “Comparing Audio Using Characterizations Based on Auditory Events”, av Brett G. Crockett m.fl., publisert 2. september 2004 som US 2004/0172240 A1.
Den internasjonale søknaden, under Patentsamarbeidkonvensjonen, PCT/US 05/24630, innlevert 13. juli 2005 med tittelen “Method for Combining Audio Signals Using Auditory Scene Analysis”, av Michael John Smithers, publisert 9. mars 2006 som WO 2006/026161.
Den internasjonale søknaden, under Patentsamarbeidkonvensjonen, PCT/US 2004/016964, innlevert 27. mai 2004 med tittelen “Method, Apparatus and Computer Program for Calculating and Adjusting the Perceived Loudness of an Audio Signal” av Alan Jeffrey Seefeldt m. fl., publisert 23. desember 2004 som WO 2004/111994 A2.
Den internasjonale søknaden, under Patentsamarbeidkonvensjonen, PCT/US2005/038579, innlevert 25. oktober 2005 med tittelen “Calculating and Adjusting the Perceived Loudness and/or the Perceived Spectral Balance of an Audio Signal”, av Alan Jeffrey Seefeldt og publisert med det isjonale publikasjonsnummeret. Ettersom denne søknaden ikke enda er publisert er en kopi av denne vedlagt her, og danner en del av denne søknaden.
“A method for Characterizing and Identifying Audio Based on Auditory Scene Analysis”, av Brett Crockett og Michael Smithers, Audio Engineering Society konferanseartikkel 6416, 118. konferanse i Barcelona, 28-31. mai 2005.
“High Quality Multichannel Time Scaling and Pitch-Shifting using Auditory Scene Analysis”, av Brett Crockett, Audio Engineering Society, konferanseartikkel 5948, New York, oktober 2003.
“A new Objective Measure of Perceived Loudness” av Alan Seefeldt m.fl., Audio Engineering Society, konferanseartikkel 6236, San Francisco, 28. oktober 2004.
Handbook for Sound Engineers, The New Audio Cyclopedia, redigert av Glen M. Ballou, 2. utgave. Dynamics, 850-851. Focal Press, et trykk av Butterworth-Heinemann, 1998.
Audio Engineer's Reference Book, redigert av Michael Talbot-Smith, 2. utgave, Seksjon 2.9 (“Limiters and Compressors” av Alan Tutton), s.2.149-2.165, Focal Press, Reed Educational and Professional Publishing Ltd., 1999.

Claims (12)

Patentkrav
1. Fremgangsmåte ved behandling av et lydsignal i et lydbehandlingsapparat, hvor fremgangsmåten omfatter:
å motta et lydsignal, lydsignalet omfatter minst én kanal med lydinnhold; å dele lydsignalet i flere underbåndssignaler (1-1), hver av flerheten av underbåndssignaler omfatter minst ett underbåndseksempel;
å utlede en karakteristikk av lydsignalet, hvor karakteristikken er et effektmål av lydsignalet (1-2);
å glatte effektmålet for å generere et glatt effektmål av lydsignalet;
å detektere en plassering av en hørselsbegrensningsgrense ved å overvåke det glatte effektmålet (1-3), hvor en lyddel mellom sammenhengende hørselsgrenser utgjør en hørselshendelse (1-4), k a r a k t e r i s e r t v e d:
å generere en forsterkningsvektor basert på plasseringen av hørselsgrensen (1-4); og
å anvende forsterkningsvektoren på lydsignalet,
hvor deteksjonen videre omfatter å anvende en terskel for det glatte effektmålet for å detektere plasseringen av den hørbare hendelsesgrensen (3-2), hvor deteksjonen videre omfatter å sammenligne det glatte effektmålet med et andre glatt effektmål av lydsignalet,
hvor effektmålet eller det andre effektmålet er basert på et differansemål, og hvor lydbehandlingsapparatet er implementert i det minste delvis i maskinvare.
2. Fremgangsmåte ifølge krav 1, hvor karakteristikken videre omfatter lydstyrke.
3. Fremgangsmåte ifølge krav 1, hvor karakteristikken videre omfatter oppfattet lydstyrke.
4. Fremgangsmåte ifølge krav 1, hvor karakteristikken videre omfatter fase.
5. Fremgangsmåte ifølge krav 1, hvor karakteristikken videre omfatter en plutselig forandring i signaleffekt.
6. Fremgangsmåte ifølge krav 1, hvor lydsignalet omfatter to eller flere kanaler med lydinnhold, og hørelsesbegrensningsgrensen er identifisert ved å undersøke endringer i karakteristikken mellom de to eller flere kanaler.
7. Fremgangsmåte ifølge krav 6, hvor karakteristikken inkluderer mellomkanalfaseforskjell.
8. Fremgangsmåte ifølge krav 6, hvor karakteristikken omfatter korrelasjon mellom kanalene.
9. Fremgangsmåte ifølge krav 1, hvor den hørbare hendelsesgrensen sammenfaller med en begynnelse eller en ende av en blokk med data i lydsignalet.
10. Fremgangsmåte ifølge krav 1, videre omfattende å justere hørselsgrensen til å falle sammen med en grense til en datablokk i lydsignalet.
11. Datamaskinlesbart lagringsmedium kodet med et dataprogram som forårsaker at en datamaskin utfører fremgangsmåten ifølge krav 1.
12. Lydbehandlingsapparat, hvor apparatet omfatter:
et inngangsgrensesnitt for mottak av et lydsignal, lydsignalet omfatter minst én kanal med lydinnhold (1-1);
en filterbank for å dele lydsignalet i en flerhet av underbåndssignaler, hver av flerheten av underbåndssignaler omfatter minst ett underbåndseksempel (1-3); og
en prosessor som:
danner en karakteristisk av lydsignalet, hvor karakteristikken er et effektmål av lydsignalet (1-4);
glatter effektmålet for å generere et glatt effektmål av lydsignalet;
k a r a k t e r i s e r t v e d a t: lydbehandlingsapparatet videre detekterer en plassering av en hørselsbegrensningsgrense (1-3) ved å overvåke det glatte effektmålet, hvor en lyddel mellom sammenhengende hørselsgrenser utgjør en lydhendelse,
genererer en forsterkningsvektor basert på plasseringen av hørselsgrensen; og
anvender forsterkningsvektoren på lydsignalet,
hvor deteksjonen videre innbefatter å anvende en terskel for det glatte effektmålet for å detektere plasseringen av den hørbare hendelsesgrensen, hvor deteksjonen videre omfatter å sammenligne det glatte effektmålet med et andre glatt effektmål av lydsignalet,
hvor effektmålet eller det andre effektmålet er basert på et differansemål, hvor lydbehandlingsapparatet innbefatter i det minste noe maskinvare.
NO20180271A 2006-04-27 2018-02-21 Audioforsterkningsregulering ved bruk av spesifikk lydstyrkebasert hørehendelsesdeteksjon NO344655B1 (no)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US79580806P 2006-04-27 2006-04-27
PCT/US2007/008313 WO2007127023A1 (en) 2006-04-27 2007-03-30 Audio gain control using specific-loudness-based auditory event detection

Publications (2)

Publication Number Publication Date
NO20180271A1 NO20180271A1 (no) 2008-11-17
NO344655B1 true NO344655B1 (no) 2020-02-24

Family

ID=38445597

Family Applications (13)

Application Number Title Priority Date Filing Date
NO20191310A NO345590B1 (no) 2006-04-27 2007-03-30 Audioforsterkningsregulering ved bruk av spesifikk lydstyrkebasert hørehendelsesdeteksjon
NO20084336A NO339346B1 (no) 2006-04-27 2008-10-16 Audioforsterkningsregulering ved bruk av spesifikk lydstyrkebasert hørehendelsesdeteksjon
NO20161295A NO342160B1 (no) 2006-04-27 2016-08-12 Audioforsterkningsregulering ved bruk av spesifikk lydstyrkebasert hørehendelsesdeteksjon
NO20161296A NO342157B1 (no) 2006-04-27 2016-08-12 Audioforsterkningsregulering ved bruk av spesifikk lydstyrkebasert hørehendelsesdeteksjon
NO20161439A NO342164B1 (no) 2006-04-27 2016-09-12 Audioforsterkningsregulering ved bruk av spesifikk lydstyrkebasert hørehendelsesdeteksjon
NO20180266A NO343877B1 (no) 2006-04-27 2018-02-21 Audioforsterkningsregulering ved bruk av spesifikk lydstyrkebasert hørehendelsesdeteksjon
NO20180272A NO344658B1 (no) 2006-04-27 2018-02-21 Audioforsterkningsregulering ved bruk av spesifikk lydstyrkebasert hørehendelsesdeteksjon
NO20180271A NO344655B1 (no) 2006-04-27 2018-02-21 Audioforsterkningsregulering ved bruk av spesifikk lydstyrkebasert hørehendelsesdeteksjon
NO20190022A NO344013B1 (no) 2006-04-27 2019-01-07 Audioforsterkningsregulering ved bruk av spesifikk lydstyrkebasert hørehendelsesdeteksjon
NO20190018A NO344363B1 (no) 2006-04-27 2019-01-07 Audioforsterkningsregulering ved bruk av spesifikk lydstyrkebasert hørehendelsesdeteksjon
NO20190002A NO344364B1 (no) 2006-04-27 2019-01-07 Audioforsterkningsregulering ved bruk av spesifikk lydstyrkebasert hørehendelsesdeteksjon
NO20190025A NO344361B1 (no) 2006-04-27 2019-01-08 Audioforsterkningsregulering ved bruk av spesifikk lydstyrkebasert hørehendelsesdeteksjon
NO20190024A NO344362B1 (no) 2006-04-27 2019-01-08 Audioforsterkningsregulering ved bruk av spesifikk lydstyrkebasert hørehendelsesdeteksjon

Family Applications Before (7)

Application Number Title Priority Date Filing Date
NO20191310A NO345590B1 (no) 2006-04-27 2007-03-30 Audioforsterkningsregulering ved bruk av spesifikk lydstyrkebasert hørehendelsesdeteksjon
NO20084336A NO339346B1 (no) 2006-04-27 2008-10-16 Audioforsterkningsregulering ved bruk av spesifikk lydstyrkebasert hørehendelsesdeteksjon
NO20161295A NO342160B1 (no) 2006-04-27 2016-08-12 Audioforsterkningsregulering ved bruk av spesifikk lydstyrkebasert hørehendelsesdeteksjon
NO20161296A NO342157B1 (no) 2006-04-27 2016-08-12 Audioforsterkningsregulering ved bruk av spesifikk lydstyrkebasert hørehendelsesdeteksjon
NO20161439A NO342164B1 (no) 2006-04-27 2016-09-12 Audioforsterkningsregulering ved bruk av spesifikk lydstyrkebasert hørehendelsesdeteksjon
NO20180266A NO343877B1 (no) 2006-04-27 2018-02-21 Audioforsterkningsregulering ved bruk av spesifikk lydstyrkebasert hørehendelsesdeteksjon
NO20180272A NO344658B1 (no) 2006-04-27 2018-02-21 Audioforsterkningsregulering ved bruk av spesifikk lydstyrkebasert hørehendelsesdeteksjon

Family Applications After (5)

Application Number Title Priority Date Filing Date
NO20190022A NO344013B1 (no) 2006-04-27 2019-01-07 Audioforsterkningsregulering ved bruk av spesifikk lydstyrkebasert hørehendelsesdeteksjon
NO20190018A NO344363B1 (no) 2006-04-27 2019-01-07 Audioforsterkningsregulering ved bruk av spesifikk lydstyrkebasert hørehendelsesdeteksjon
NO20190002A NO344364B1 (no) 2006-04-27 2019-01-07 Audioforsterkningsregulering ved bruk av spesifikk lydstyrkebasert hørehendelsesdeteksjon
NO20190025A NO344361B1 (no) 2006-04-27 2019-01-08 Audioforsterkningsregulering ved bruk av spesifikk lydstyrkebasert hørehendelsesdeteksjon
NO20190024A NO344362B1 (no) 2006-04-27 2019-01-08 Audioforsterkningsregulering ved bruk av spesifikk lydstyrkebasert hørehendelsesdeteksjon

Country Status (22)

Country Link
US (23) US8144881B2 (no)
EP (1) EP2011234B1 (no)
JP (2) JP5129806B2 (no)
KR (2) KR101200615B1 (no)
CN (2) CN101432965B (no)
AT (1) ATE493794T1 (no)
AU (2) AU2007243586B2 (no)
BR (1) BRPI0711063B1 (no)
CA (1) CA2648237C (no)
DE (1) DE602007011594D1 (no)
DK (1) DK2011234T3 (no)
ES (1) ES2359799T3 (no)
HK (2) HK1126902A1 (no)
IL (1) IL194430A (no)
MX (1) MX2008013753A (no)
MY (1) MY141426A (no)
NO (13) NO345590B1 (no)
PL (1) PL2011234T3 (no)
RU (1) RU2417514C2 (no)
TW (1) TWI455481B (no)
UA (1) UA93243C2 (no)
WO (1) WO2007127023A1 (no)

Families Citing this family (108)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7711123B2 (en) 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
AU2004248544B2 (en) 2003-05-28 2010-02-18 Dolby Laboratories Licensing Corporation Method, apparatus and computer program for calculating and adjusting the perceived loudness of an audio signal
EP1914722B1 (en) 2004-03-01 2009-04-29 Dolby Laboratories Licensing Corporation Multichannel audio decoding
US7508947B2 (en) 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
US8199933B2 (en) 2004-10-26 2012-06-12 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
AU2005299410B2 (en) 2004-10-26 2011-04-07 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
MX2007015118A (es) 2005-06-03 2008-02-14 Dolby Lab Licensing Corp Aparato y metodo para codificacion de senales de audio con instrucciones de decodificacion.
TWI517562B (zh) 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
WO2007120452A1 (en) 2006-04-04 2007-10-25 Dolby Laboratories Licensing Corporation Audio signal loudness measurement and modification in the mdct domain
ES2359799T3 (es) 2006-04-27 2011-05-27 Dolby Laboratories Licensing Corporation Control de ganancia de audio usando detección de eventos auditivos basada en la sonoridad específica.
CA2665153C (en) 2006-10-20 2015-05-19 Dolby Laboratories Licensing Corporation Audio dynamics processing using a reset
US8521314B2 (en) 2006-11-01 2013-08-27 Dolby Laboratories Licensing Corporation Hierarchical control path with constraints for audio dynamics processing
ES2358786T3 (es) 2007-06-08 2011-05-13 Dolby Laboratories Licensing Corporation Derivación híbrida de canales de audio de sonido envolvente combinando de manera controlable componentes de señal de sonido ambiente y con decodificación matricial.
ATE535906T1 (de) 2007-07-13 2011-12-15 Dolby Lab Licensing Corp Tonverarbeitung mittels auditorischer szenenanalyse und spektraler asymmetrie
WO2009086174A1 (en) 2007-12-21 2009-07-09 Srs Labs, Inc. System for adjusting perceived loudness of audio signals
MX2010009932A (es) 2008-03-10 2010-11-30 Fraunhofer Ges Forschung Metodo y dispositivo para manipular una señal de audio que tiene un evento transitorio.
MY159890A (en) * 2008-04-18 2017-02-15 Dolby Laboratories Licensing Corp Method and apparatus for maintaining speech audibiliy in multi-channel audio with minimal impact on surround experience
US9253560B2 (en) * 2008-09-16 2016-02-02 Personics Holdings, Llc Sound library and method
WO2010033384A1 (en) 2008-09-19 2010-03-25 Dolby Laboratories Licensing Corporation Upstream quality enhancement signal processing for resource constrained client devices
EP2347556B1 (en) 2008-09-19 2012-04-04 Dolby Laboratories Licensing Corporation Upstream signal processing for client devices in a small-cell wireless network
JP5236006B2 (ja) * 2008-10-17 2013-07-17 シャープ株式会社 音声信号調整装置及び音声信号調整方法
US8315411B2 (en) * 2008-11-14 2012-11-20 That Corporation Dynamic volume control and multi-spatial processing protection
CN102265513B (zh) 2008-12-24 2014-12-31 杜比实验室特许公司 频域中的音频信号响度确定和修改
WO2010099237A2 (en) * 2009-02-25 2010-09-02 Conexant Systems, Inc. Speaker distortion reduction system and method
US8422699B2 (en) * 2009-04-17 2013-04-16 Linear Acoustic, Inc. Loudness consistency at program boundaries
WO2010126709A1 (en) 2009-04-30 2010-11-04 Dolby Laboratories Licensing Corporation Low complexity auditory event boundary detection
US8761415B2 (en) 2009-04-30 2014-06-24 Dolby Laboratories Corporation Controlling the loudness of an audio signal in response to spectral localization
TWI503816B (zh) 2009-05-06 2015-10-11 Dolby Lab Licensing Corp 調整音訊信號響度並使其具有感知頻譜平衡保持效果之技術
US9055374B2 (en) * 2009-06-24 2015-06-09 Arizona Board Of Regents For And On Behalf Of Arizona State University Method and system for determining an auditory pattern of an audio segment
US8249275B1 (en) * 2009-06-26 2012-08-21 Cirrus Logic, Inc. Modulated gain audio control and zipper noise suppression techniques using modulated gain
US8554348B2 (en) * 2009-07-20 2013-10-08 Apple Inc. Transient detection using a digital audio workstation
CN102498514B (zh) * 2009-08-04 2014-06-18 诺基亚公司 用于音频信号分类的方法和装置
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
WO2011043020A1 (ja) * 2009-10-07 2011-04-14 日本電気株式会社 マルチバンドコンプレッサ、その調整方法
EP2367286B1 (en) 2010-03-12 2013-02-20 Harman Becker Automotive Systems GmbH Automatic correction of loudness level in audio signals
KR101425772B1 (ko) 2010-11-23 2014-08-06 엘지전자 주식회사 영상 부호화 및 복호화 방법과 이를 이용한 장치
US8855322B2 (en) * 2011-01-12 2014-10-07 Qualcomm Incorporated Loudness maximization with constrained loudspeaker excursion
JP5707219B2 (ja) * 2011-05-13 2015-04-22 富士通テン株式会社 音響制御装置
US9232321B2 (en) * 2011-05-26 2016-01-05 Advanced Bionics Ag Systems and methods for improving representation by an auditory prosthesis system of audio signals having intermediate sound levels
DE102011085036A1 (de) * 2011-10-21 2013-04-25 Siemens Medical Instruments Pte. Ltd. Verfahren zum Ermitteln einer Kompressionskennlinie
TWI575962B (zh) * 2012-02-24 2017-03-21 杜比國際公司 部份複數處理之重疊濾波器組中的低延遲實數至複數轉換
EP2837094B1 (en) * 2012-04-12 2016-03-30 Dolby Laboratories Licensing Corporation System and method for leveling loudness variation in an audio signal
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
JP5527827B2 (ja) * 2012-04-17 2014-06-25 Necエンジニアリング株式会社 ラウドネス調整装置、ラウドネス調整方法、及びプログラム
US9685921B2 (en) 2012-07-12 2017-06-20 Dts, Inc. Loudness control with noise detection and loudness drop detection
US9733644B2 (en) 2012-07-17 2017-08-15 Elwha Llc Unmanned device interaction methods and systems
US10019000B2 (en) 2012-07-17 2018-07-10 Elwha Llc Unmanned device utilization methods and systems
US9991861B2 (en) * 2012-08-10 2018-06-05 Bellevue Investments Gmbh & Co. Kgaa System and method for controlled dynamics adaptation for musical content
WO2014046941A1 (en) * 2012-09-19 2014-03-27 Dolby Laboratories Licensing Corporation Method and system for object-dependent adjustment of levels of audio objects
KR102071860B1 (ko) 2013-01-21 2020-01-31 돌비 레버러토리즈 라이쎈싱 코오포레이션 상이한 재생 디바이스들에 걸친 라우드니스 및 동적 범위의 최적화
US9979829B2 (en) 2013-03-15 2018-05-22 Dolby Laboratories Licensing Corporation Normalization of soundfield orientations based on auditory scene analysis
CN104079247B (zh) 2013-03-26 2018-02-09 杜比实验室特许公司 均衡器控制器和控制方法以及音频再现设备
CN104080024B (zh) 2013-03-26 2019-02-19 杜比实验室特许公司 音量校平器控制器和控制方法以及音频分类器
CN104078050A (zh) * 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法
JP6216553B2 (ja) * 2013-06-27 2017-10-18 クラリオン株式会社 伝搬遅延補正装置及び伝搬遅延補正方法
WO2015038475A1 (en) * 2013-09-12 2015-03-19 Dolby Laboratories Licensing Corporation Dynamic range control for a wide variety of playback environments
US9521501B2 (en) * 2013-09-12 2016-12-13 Dolby Laboratories Licensing Corporation Loudness adjustment for downmixed audio content
US9608588B2 (en) * 2014-01-22 2017-03-28 Apple Inc. Dynamic range control with large look-ahead
US10063207B2 (en) * 2014-02-27 2018-08-28 Dts, Inc. Object-based audio loudness management
JP6224850B2 (ja) 2014-02-28 2017-11-01 ドルビー ラボラトリーズ ライセンシング コーポレイション 会議における変化盲を使った知覚的連続性
CN105142067B (zh) 2014-05-26 2020-01-07 杜比实验室特许公司 音频信号响度控制
WO2016007947A1 (en) * 2014-07-11 2016-01-14 Arizona Board Of Regents On Behalf Of Arizona State University Fast computation of excitation pattern, auditory pattern and loudness
US9712934B2 (en) 2014-07-16 2017-07-18 Eariq, Inc. System and method for calibration and reproduction of audio signals based on auditory feedback
CN113257273A (zh) 2014-10-01 2021-08-13 杜比国际公司 高效drc配置文件传输
EP4372746A2 (en) * 2014-10-10 2024-05-22 Dolby Laboratories Licensing Corporation Transmission-agnostic presentation-based program loudness
JP6228100B2 (ja) * 2014-11-17 2017-11-08 Necプラットフォームズ株式会社 ラウドネス調整装置、ラウドネス調整方法及びラウドネス調整用プログラム
US9691408B2 (en) * 2014-12-16 2017-06-27 Psyx Research, Inc. System and method for dynamic equalization of audio data
EP3275208B1 (en) * 2015-03-25 2019-12-25 Dolby Laboratories Licensing Corporation Sub-band mixing of multiple microphones
WO2016172363A1 (en) * 2015-04-24 2016-10-27 Cyber Resonance Corporation Methods and systems for performing signal analysis to identify content types
US10109288B2 (en) * 2015-05-27 2018-10-23 Apple Inc. Dynamic range and peak control in audio using nonlinear filters
GB2539875B (en) * 2015-06-22 2017-09-20 Time Machine Capital Ltd Music Context System, Audio Track Structure and method of Real-Time Synchronization of Musical Content
US9837086B2 (en) * 2015-07-31 2017-12-05 Apple Inc. Encoded audio extended metadata-based dynamic range control
CA2994446C (en) 2015-08-28 2021-01-12 The Procter & Gamble Company Catalysts for the dehydration of hydroxypropionic acid and its derivatives
US9590580B1 (en) 2015-09-13 2017-03-07 Guoguang Electric Company Limited Loudness-based audio-signal compensation
US10341770B2 (en) * 2015-09-30 2019-07-02 Apple Inc. Encoded audio metadata-based loudness equalization and dynamic equalization during DRC
CN105404654A (zh) * 2015-10-30 2016-03-16 魅族科技(中国)有限公司 一种音频文件播放方法及装置
WO2017079334A1 (en) 2015-11-03 2017-05-11 Dolby Laboratories Licensing Corporation Content-adaptive surround sound virtualization
US9756281B2 (en) 2016-02-05 2017-09-05 Gopro, Inc. Apparatus and method for audio based video synchronization
WO2017142916A1 (en) * 2016-02-19 2017-08-24 Dolby Laboratories Licensing Corporation Diffusivity based sound processing method and apparatus
US10923132B2 (en) 2016-02-19 2021-02-16 Dolby Laboratories Licensing Corporation Diffusivity based sound processing method and apparatus
CN105845151B (zh) * 2016-05-30 2019-05-31 百度在线网络技术(北京)有限公司 应用于语音识别前端的音频增益调整方法和装置
US20170366897A1 (en) * 2016-06-15 2017-12-21 Robert Azarewicz Microphone board for far field automatic speech recognition
US9697849B1 (en) 2016-07-25 2017-07-04 Gopro, Inc. Systems and methods for audio based synchronization using energy vectors
US9640159B1 (en) * 2016-08-25 2017-05-02 Gopro, Inc. Systems and methods for audio based synchronization using sound harmonics
US9653095B1 (en) 2016-08-30 2017-05-16 Gopro, Inc. Systems and methods for determining a repeatogram in a music composition using audio features
GB201615538D0 (en) * 2016-09-13 2016-10-26 Nokia Technologies Oy A method , apparatus and computer program for processing audio signals
US9916822B1 (en) 2016-10-07 2018-03-13 Gopro, Inc. Systems and methods for audio remixing using repeated segments
TWI590239B (zh) * 2016-12-09 2017-07-01 宏碁股份有限公司 語音信號處理裝置及語音信號處理方法
CN108281148B (zh) * 2016-12-30 2020-12-22 宏碁股份有限公司 语音信号处理装置及语音信号处理方法
US10374564B2 (en) 2017-04-20 2019-08-06 Dts, Inc. Loudness control with noise detection and loudness drop detection
US10491179B2 (en) 2017-09-25 2019-11-26 Nuvoton Technology Corporation Asymmetric multi-channel audio dynamic range processing
US11450339B2 (en) * 2017-10-06 2022-09-20 Sony Europe B.V. Audio file envelope based on RMS power in sequences of sub-windows
US11011180B2 (en) * 2018-06-29 2021-05-18 Guoguang Electric Company Limited Audio signal dynamic range compression
US11894006B2 (en) 2018-07-25 2024-02-06 Dolby Laboratories Licensing Corporation Compressor target curve to avoid boosting noise
CN113614684A (zh) * 2018-09-07 2021-11-05 格雷斯诺特有限公司 经由音频分类进行动态音量调节的方法和装置
US11775250B2 (en) 2018-09-07 2023-10-03 Gracenote, Inc. Methods and apparatus for dynamic volume adjustment via audio classification
JP7031543B2 (ja) * 2018-09-21 2022-03-08 株式会社Jvcケンウッド 処理装置、処理方法、再生方法、及びプログラム
EP3662468B1 (en) * 2018-09-28 2020-11-04 Dolby Laboratories Licensing Corporation Distortion reducing multi-band compressor with dynamic thresholds based on scene switch analyzer guided distortion audibility model
US10998872B2 (en) * 2018-10-24 2021-05-04 Gracenote, Inc. Methods and apparatus for audio equalization
US11347470B2 (en) 2018-11-16 2022-05-31 Roku, Inc. Detection of media playback loudness level and corresponding adjustment to audio during media replacement event
CN109889170B (zh) * 2019-02-25 2021-06-04 珠海格力电器股份有限公司 音频信号的控制方法和装置
JP7275711B2 (ja) * 2019-03-20 2023-05-18 ヤマハ株式会社 オーディオ信号の処理方法
US11133787B2 (en) * 2019-06-25 2021-09-28 The Nielsen Company (Us), Llc Methods and apparatus to determine automated gain control parameters for an automated gain control protocol
US11019301B2 (en) 2019-06-25 2021-05-25 The Nielsen Company (Us), Llc Methods and apparatus to perform an automated gain control protocol with an amplifier based on historical data corresponding to contextual data
US20230113561A1 (en) * 2020-03-13 2023-04-13 Immersion Networks, Inc. Loudness equalization system
EP3961624A1 (de) * 2020-08-28 2022-03-02 Sivantos Pte. Ltd. Verfahren zum betrieb einer hörvorrichtung in abhängigkeit eines sprachsignals
US20220165289A1 (en) * 2020-11-23 2022-05-26 Cyber Resonance Corporation Methods and systems for processing recorded audio content to enhance speech

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1393300A1 (en) * 2001-05-25 2004-03-03 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US20040122662A1 (en) * 2002-02-12 2004-06-24 Crockett Brett Greham High quality time-scaling and pitch-scaling of audio signals
US20060029239A1 (en) * 2004-08-03 2006-02-09 Smithers Michael J Method for combining audio signals using auditory scene analysis

Family Cites Families (165)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2808475A (en) 1954-10-05 1957-10-01 Bell Telephone Labor Inc Loudness indicator
DE1736966U (de) 1956-09-28 1956-12-27 Heinz Schulze Luftschraube fuer spiel- und modell-flugzeuge.
SU720691A1 (ru) 1978-04-27 1980-03-05 Предприятие П/Я Р-6609 Устройство дл автоматического регулировани усилени
US4281218A (en) 1979-10-26 1981-07-28 Bell Telephone Laboratories, Incorporated Speech-nonspeech detector-classifier
US4624009A (en) 1980-05-02 1986-11-18 Figgie International, Inc. Signal pattern encoder and classifier
DE3314570A1 (de) 1983-04-22 1984-10-25 Philips Patentverwaltung Gmbh, 2000 Hamburg Verfahren und anordnung zur einstellung der verstaerkung
US4739514A (en) 1986-12-22 1988-04-19 Bose Corporation Automatic dynamic equalizing
US4887299A (en) 1987-11-12 1989-12-12 Nicolet Instrument Corporation Adaptive, programmable signal processing hearing aid
US4882762A (en) * 1988-02-23 1989-11-21 Resound Corporation Multi-band programmable compression system
KR940003351B1 (ko) 1988-03-31 1994-04-20 주식회사 금성사 조도에 따른 자동이득 제어증폭기 이득 제어회로
US4953112A (en) 1988-05-10 1990-08-28 Minnesota Mining And Manufacturing Company Method and apparatus for determining acoustic parameters of an auditory prosthesis using software model
US5027410A (en) 1988-11-10 1991-06-25 Wisconsin Alumni Research Foundation Adaptive, programmable signal processing and filtering for hearing aids
JPH02118322U (no) 1989-03-08 1990-09-21
US5097510A (en) 1989-11-07 1992-03-17 Gs Systems, Inc. Artificial intelligence pattern-recognition-based noise reduction system for speech processing
US5369711A (en) 1990-08-31 1994-11-29 Bellsouth Corporation Automatic gain control for a headset
US5632005A (en) 1991-01-08 1997-05-20 Ray Milton Dolby Encoder/decoder for multidimensional sound fields
AU653582B2 (en) 1991-01-08 1994-10-06 Dolby Laboratories Licensing Corporation Encoder/decoder for multidimensional sound fields
DE69214882T2 (de) 1991-06-06 1997-03-20 Matsushita Electric Ind Co Ltd Gerät zur Unterscheidung von Musik und Sprache
US5278912A (en) 1991-06-28 1994-01-11 Resound Corporation Multiband programmable compression system
US5175769A (en) 1991-07-23 1992-12-29 Rolm Systems Method for time-scale modification of signals
KR940003351Y1 (ko) 1991-10-17 1994-05-23 삼성전관 주식회사 편광판 부착장치
US5363147A (en) 1992-06-01 1994-11-08 North American Philips Corporation Automatic volume leveler
KR940003351A (ko) 1992-07-15 1994-02-21 강진구 온 스크린 그래픽 표시 제어 장치 및 방법
GB2272615A (en) 1992-11-17 1994-05-18 Rudolf Bisping Controlling signal-to-noise ratio in noisy recordings
DE4335739A1 (de) 1992-11-17 1994-05-19 Rudolf Prof Dr Bisping Verfahren zur Steuerung des Signal-/Rausch-Abstandes bei rauschbehafteten Tonaufnahmen
US5457769A (en) 1993-03-30 1995-10-10 Earmark, Inc. Method and apparatus for detecting the presence of human voice signals in audio signals
US5706352A (en) 1993-04-07 1998-01-06 K/S Himpp Adaptive gain and filtering circuit for a sound reproduction system
US5434922A (en) 1993-04-08 1995-07-18 Miller; Thomas E. Method and apparatus for dynamic sound optimization
BE1007355A3 (nl) 1993-07-26 1995-05-23 Philips Electronics Nv Spraaksignaaldiscriminatieschakeling alsmede een audio-inrichting voorzien van een dergelijke schakeling.
IN184794B (no) 1993-09-14 2000-09-30 British Telecomm
JP2986345B2 (ja) 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
US5530760A (en) 1994-04-29 1996-06-25 Audio Products International Corp. Apparatus and method for adjusting levels between channels of a sound system
US5463695A (en) * 1994-06-20 1995-10-31 Aphex Systems, Ltd. Peak accelerated compressor
US5500902A (en) 1994-07-08 1996-03-19 Stockham, Jr.; Thomas G. Hearing aid device incorporating signal processing techniques
GB9419388D0 (en) 1994-09-26 1994-11-09 Canon Kk Speech analysis
US5548538A (en) 1994-12-07 1996-08-20 Wiltron Company Internal automatic calibrator for vector network analyzers
US5682463A (en) 1995-02-06 1997-10-28 Lucent Technologies Inc. Perceptual audio compression based on loudness uncertainty
CA2167748A1 (en) 1995-02-09 1996-08-10 Yoav Freund Apparatus and methods for machine learning hypotheses
ATE229729T1 (de) 1995-03-13 2002-12-15 Phonak Ag Verfahren zur anpassung eines hörgerätes, vorrichtung hierzu und hörgerät
US5727119A (en) 1995-03-27 1998-03-10 Dolby Laboratories Licensing Corporation Method and apparatus for efficient implementation of single-sideband filter banks providing accurate measures of spectral magnitude and phase
US6301555B2 (en) 1995-04-10 2001-10-09 Corporate Computer Systems Adjustable psycho-acoustic parameters
US6041295A (en) 1995-04-10 2000-03-21 Corporate Computer Systems Comparing CODEC input/output to adjust psycho-acoustic parameters
US5601617A (en) 1995-04-26 1997-02-11 Advanced Bionics Corporation Multichannel cochlear prosthesis with flexible control of stimulus waveforms
JPH08328599A (ja) 1995-06-01 1996-12-13 Mitsubishi Electric Corp Mpegオーディオ復号器
US5663727A (en) 1995-06-23 1997-09-02 Hearing Innovations Incorporated Frequency response analyzer and shaping apparatus and digital hearing enhancement apparatus and method utilizing the same
US5712954A (en) 1995-08-23 1998-01-27 Rockwell International Corp. System and method for monitoring audio power level of agent speech in a telephonic switch
US6002776A (en) 1995-09-18 1999-12-14 Interval Research Corporation Directional acoustic signal processor and method therefor
US5907622A (en) 1995-09-21 1999-05-25 Dougherty; A. Michael Automatic noise compensation system for audio reproduction equipment
WO1997027578A1 (en) * 1996-01-26 1997-07-31 Motorola Inc. Very low bit rate time domain speech analyzer for voice messaging
US6108431A (en) 1996-05-01 2000-08-22 Phonak Ag Loudness limiter
US6327366B1 (en) 1996-05-01 2001-12-04 Phonak Ag Method for the adjustment of a hearing device, apparatus to do it and a hearing device
US6430533B1 (en) 1996-05-03 2002-08-06 Lsi Logic Corporation Audio decoder core MPEG-1/MPEG-2/AC-3 functional algorithm partitioning and implementation
JPH09312540A (ja) 1996-05-23 1997-12-02 Pioneer Electron Corp ラウドネスボリュームコントロール装置
JP3765622B2 (ja) 1996-07-09 2006-04-12 ユナイテッド・モジュール・コーポレーション オーディオ符号化復号化システム
EP0820212B1 (de) 1996-07-19 2010-04-21 Bernafon AG Lautheitsgesteuerte Verarbeitung akustischer Signale
JPH1074097A (ja) 1996-07-26 1998-03-17 Ind Technol Res Inst オーディオ信号のパラメータを変更する方法及び装置
JP2953397B2 (ja) 1996-09-13 1999-09-27 日本電気株式会社 ディジタル補聴器の聴覚補償処理方法及びディジタル補聴器
US6049766A (en) 1996-11-07 2000-04-11 Creative Technology Ltd. Time-domain time/pitch scaling of speech or audio signals with transient handling
JP2991982B2 (ja) 1996-11-29 1999-12-20 日本イーライリリー株式会社 注射練習器具
US6570991B1 (en) 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
US5862228A (en) 1997-02-21 1999-01-19 Dolby Laboratories Licensing Corporation Audio matrix encoding
US6125343A (en) 1997-05-29 2000-09-26 3Com Corporation System and method for selecting a loudest speaker by comparing average frame gains
US6272360B1 (en) 1997-07-03 2001-08-07 Pan Communications, Inc. Remotely installed transmitter and a hands-free two-way voice terminal device using same
US6185309B1 (en) 1997-07-11 2001-02-06 The Regents Of The University Of California Method and apparatus for blind separation of mixed and convolved sources
KR100261904B1 (ko) 1997-08-29 2000-07-15 윤종용 헤드폰 사운드 출력장치
US6088461A (en) 1997-09-26 2000-07-11 Crystal Semiconductor Corporation Dynamic volume control system
US6330672B1 (en) 1997-12-03 2001-12-11 At&T Corp. Method and apparatus for watermarking digital bitstreams
US6233554B1 (en) 1997-12-12 2001-05-15 Qualcomm Incorporated Audio CODEC with AGC controlled by a VOCODER
US6298139B1 (en) 1997-12-31 2001-10-02 Transcrypt International, Inc. Apparatus and method for maintaining a constant speech envelope using variable coefficient automatic gain control
US6182033B1 (en) 1998-01-09 2001-01-30 At&T Corp. Modular approach to speech enhancement with an application to speech coding
US6353671B1 (en) 1998-02-05 2002-03-05 Bioinstco Corp. Signal processing circuit and method for increasing speech intelligibility
US6311155B1 (en) 2000-02-04 2001-10-30 Hearing Enhancement Company Llc Use of voice-to-remaining audio (VRA) in consumer applications
US6498855B1 (en) 1998-04-17 2002-12-24 International Business Machines Corporation Method and system for selectively and variably attenuating audio data
JP2002518912A (ja) 1998-06-08 2002-06-25 コックレア リミティド 聴覚装置
EP0980064A1 (de) 1998-06-26 2000-02-16 Ascom AG Verfahren zur Durchführung einer maschinengestützten Beurteilung der Uebertragungsqualität von Audiosignalen
GB2340351B (en) 1998-07-29 2004-06-09 British Broadcasting Corp Data transmission
US6351731B1 (en) 1998-08-21 2002-02-26 Polycom, Inc. Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor
US6823303B1 (en) 1998-08-24 2004-11-23 Conexant Systems, Inc. Speech encoder using voice activity detection in coding noise
US6411927B1 (en) 1998-09-04 2002-06-25 Matsushita Electric Corporation Of America Robust preprocessing signal equalization system and method for normalizing to a target environment
FI113935B (fi) 1998-09-25 2004-06-30 Nokia Corp Menetelmä äänitason kalibroimiseksi monikanavaisessa äänentoistojärjestelmässä ja monikanavainen äänentoistojärjestelmä
US6266644B1 (en) 1998-09-26 2001-07-24 Liquid Audio, Inc. Audio encoding apparatus and methods
DE19848491A1 (de) 1998-10-21 2000-04-27 Bosch Gmbh Robert Rundfunkempfänger zum Empfang von Radio-Daten und Verfahren zur Beeinflussung einer Klangcharakteristik eines wiederzugebenden Audiosignals in einem Rundfunkempfänger
US6314396B1 (en) 1998-11-06 2001-11-06 International Business Machines Corporation Automatic gain control in a speech recognition system
GB9824776D0 (en) 1998-11-11 1999-01-06 Kemp Michael J Audio dynamic control effects synthesiser
EP1172020B1 (en) 1999-02-05 2006-09-06 Hearworks Pty Ltd. Adaptive dynamic range optimisation sound processor
EP1089242B1 (en) 1999-04-09 2006-11-08 Texas Instruments Incorporated Supply of digital audio and video products
CA2372017A1 (en) 1999-04-26 2000-11-02 Dspfactory Ltd. Loudness normalization control for a digital hearing aid
US6263371B1 (en) 1999-06-10 2001-07-17 Cacheflow, Inc. Method and apparatus for seaming of streaming content
US6442278B1 (en) 1999-06-15 2002-08-27 Hearing Enhancement Company, Llc Voice-to-remaining audio (VRA) interactive center channel downmix
US6985594B1 (en) 1999-06-15 2006-01-10 Hearing Enhancement Co., Llc. Voice-to-remaining audio (VRA) interactive hearing aid and auxiliary equipment
US20020172376A1 (en) 1999-11-29 2002-11-21 Bizjak Karl M. Output processing system and method
FR2802329B1 (fr) 1999-12-08 2003-03-28 France Telecom Procede de traitement d'au moins un flux binaire audio code organise sous la forme de trames
US6351733B1 (en) 2000-03-02 2002-02-26 Hearing Enhancement Company, Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
DE10018666A1 (de) 2000-04-14 2001-10-18 Harman Audio Electronic Sys Vorrichtung und Verfahren zum geräuschabhängigen Anpassen eines akustischen Nutzsignals
US6651040B1 (en) 2000-05-31 2003-11-18 International Business Machines Corporation Method for dynamic adjustment of audio input gain in a speech system
US6889186B1 (en) 2000-06-01 2005-05-03 Avaya Technology Corp. Method and apparatus for improving the intelligibility of digitally compressed speech
WO2002015587A2 (en) 2000-08-16 2002-02-21 Dolby Laboratories Licensing Corporation Modulating one or more parameters of an audio or video perceptual coding system in response to supplemental information
AUPQ952700A0 (en) 2000-08-21 2000-09-14 University Of Melbourne, The Sound-processing strategy for cochlear implants
JP3448586B2 (ja) 2000-08-29 2003-09-22 独立行政法人産業技術総合研究所 聴覚障害を考慮した音の測定方法およびシステム
US20040013272A1 (en) * 2001-09-07 2004-01-22 Reams Robert W System and method for processing audio data
US6625433B1 (en) 2000-09-29 2003-09-23 Agere Systems Inc. Constant compression automatic gain control circuit
US6947888B1 (en) * 2000-10-17 2005-09-20 Qualcomm Incorporated Method and apparatus for high performance low bit-rate coding of unvoiced speech
US6807525B1 (en) 2000-10-31 2004-10-19 Telogy Networks, Inc. SID frame detection with human auditory perception compensation
DE60029453T2 (de) 2000-11-09 2007-04-12 Koninklijke Kpn N.V. Messen der Übertragungsqualität einer Telefonverbindung in einem Fernmeldenetz
US7457422B2 (en) 2000-11-29 2008-11-25 Ford Global Technologies, Llc Method and implementation for detecting and characterizing audible transients in noise
WO2002056558A2 (en) 2001-01-10 2002-07-18 Univ Columbia Active filter circuit with dynamically modifiable internal gain
FR2820573B1 (fr) 2001-02-02 2003-03-28 France Telecom Methode et dispositif de traitement d'une pluralite de flux binaires audio
WO2004019656A2 (en) 2001-02-07 2004-03-04 Dolby Laboratories Licensing Corporation Audio channel spatial translation
EP1233509A1 (en) * 2001-02-14 2002-08-21 Thomson Licensing S.A. Digital audio processor
DE10107385A1 (de) 2001-02-16 2002-09-05 Harman Audio Electronic Sys Vorrichtung zum geräuschabhängigen Einstellen der Lautstärken
US6915264B2 (en) 2001-02-22 2005-07-05 Lucent Technologies Inc. Cochlear filter bank structure for determining masked thresholds for use in perceptual audio coding
DE50102419D1 (de) 2001-04-10 2004-07-01 Phonak Ag Verfahren zur anpassung eines hörgerätes an ein individuum
MXPA03009357A (es) 2001-04-13 2004-02-18 Dolby Lab Licensing Corp Escalamiento en el tiempo y escalamiento en el tono de alta calidad de senales de audio.
US7283954B2 (en) 2001-04-13 2007-10-16 Dolby Laboratories Licensing Corporation Comparing audio using characterizations based on auditory events
US7461002B2 (en) 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7711123B2 (en) * 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7181034B2 (en) 2001-04-18 2007-02-20 Gennum Corporation Inter-channel communication in a multi-channel digital hearing instrument
US20020173864A1 (en) * 2001-05-17 2002-11-21 Crystal Voice Communications, Inc Automatic volume control for voice over internet
MXPA03010751A (es) * 2001-05-25 2005-03-07 Dolby Lab Licensing Corp Segmentacion de senales de audio en eventos auditivos.
US7177803B2 (en) 2001-10-22 2007-02-13 Motorola, Inc. Method and apparatus for enhancing loudness of an audio signal
US20040037421A1 (en) 2001-12-17 2004-02-26 Truman Michael Mead Parital encryption of assembled bitstreams
US7068723B2 (en) 2002-02-28 2006-06-27 Fuji Xerox Co., Ltd. Method for automatically producing optimal summaries of linear media
US8340302B2 (en) 2002-04-22 2012-12-25 Koninklijke Philips Electronics N.V. Parametric representation of spatial audio
US7155385B2 (en) 2002-05-16 2006-12-26 Comerica Bank, As Administrative Agent Automatic gain control for adjusting gain during non-speech portions
US20030223597A1 (en) 2002-05-29 2003-12-04 Sunil Puria Adapative noise compensation for dynamic signal enhancement
US7447631B2 (en) 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
JP4257079B2 (ja) 2002-07-19 2009-04-22 パイオニア株式会社 周波数特性調整装置および周波数特性調整方法
DE10236694A1 (de) 2002-08-09 2004-02-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren
US7454331B2 (en) 2002-08-30 2008-11-18 Dolby Laboratories Licensing Corporation Controlling loudness of speech in signals that contain speech and other types of audio material
CN1739141A (zh) 2003-02-06 2006-02-22 杜比实验室特许公司 连续的备份音频
DE10308483A1 (de) 2003-02-26 2004-09-09 Siemens Audiologische Technik Gmbh Verfahren zur automatischen Verstärkungseinstellung in einem Hörhilfegerät sowie Hörhilfegerät
US7551745B2 (en) 2003-04-24 2009-06-23 Dolby Laboratories Licensing Corporation Volume and compression control in movie theaters
JP2004356894A (ja) * 2003-05-28 2004-12-16 Mitsubishi Electric Corp 音質調整装置
AU2004248544B2 (en) 2003-05-28 2010-02-18 Dolby Laboratories Licensing Corporation Method, apparatus and computer program for calculating and adjusting the perceived loudness of an audio signal
JP4226395B2 (ja) 2003-06-16 2009-02-18 アルパイン株式会社 音声補正装置
US8918316B2 (en) 2003-07-29 2014-12-23 Alcatel Lucent Content identification system
WO2005069679A2 (en) 2004-01-13 2005-07-28 Koninklijke Philips Electronics N.V. Audio signal enhancement
EP1914722B1 (en) 2004-03-01 2009-04-29 Dolby Laboratories Licensing Corporation Multichannel audio decoding
GB2413906A (en) 2004-04-21 2005-11-09 Imagination Tech Ltd Radio volume control system
US7574010B2 (en) 2004-05-28 2009-08-11 Research In Motion Limited System and method for adjusting an audio signal
JP4168976B2 (ja) 2004-05-28 2008-10-22 ソニー株式会社 オーディオ信号符号化装置及び方法
EP1601171B1 (en) 2004-05-28 2008-04-30 Research In Motion Limited System And Method For Adjusting An Audio Signal
EP1763923A1 (en) * 2004-06-30 2007-03-21 Koninklijke Philips Electronics N.V. Method of and system for automatically adjusting the loudness of an audio signal
US7617109B2 (en) 2004-07-01 2009-11-10 Dolby Laboratories Licensing Corporation Method for correcting metadata affecting the playback loudness and dynamic range of audio information
AU2005299410B2 (en) 2004-10-26 2011-04-07 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
WO2006058361A1 (en) 2004-12-04 2006-06-08 Dynamic Hearing Pty Ltd Method and apparatus for adaptive sound processing parameters
US20060126865A1 (en) 2004-12-13 2006-06-15 Blamey Peter J Method and apparatus for adaptive sound processing parameters
US8265295B2 (en) 2005-03-11 2012-09-11 Rane Corporation Method and apparatus for identifying feedback in a circuit
TW200638335A (en) 2005-04-13 2006-11-01 Dolby Lab Licensing Corp Audio metadata verification
TWI397903B (zh) 2005-04-13 2013-06-01 Dolby Lab Licensing Corp 編碼音訊之節約音量測量技術
TWI396188B (zh) 2005-08-02 2013-05-11 Dolby Lab Licensing Corp 依聆聽事件之函數控制空間音訊編碼參數的技術
WO2007120452A1 (en) 2006-04-04 2007-10-25 Dolby Laboratories Licensing Corporation Audio signal loudness measurement and modification in the mdct domain
TWI517562B (zh) 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
CN101421781A (zh) 2006-04-04 2009-04-29 杜比实验室特许公司 音频信号的感知响度和/或感知频谱平衡的计算和调整
ES2359799T3 (es) * 2006-04-27 2011-05-27 Dolby Laboratories Licensing Corporation Control de ganancia de audio usando detección de eventos auditivos basada en la sonoridad específica.
US8750538B2 (en) 2006-05-05 2014-06-10 Creative Technology Ltd Method for enhancing audio signals
CA2665153C (en) 2006-10-20 2015-05-19 Dolby Laboratories Licensing Corporation Audio dynamics processing using a reset
US8521314B2 (en) 2006-11-01 2013-08-27 Dolby Laboratories Licensing Corporation Hierarchical control path with constraints for audio dynamics processing
KR101106031B1 (ko) 2007-01-03 2012-01-17 돌비 레버러토리즈 라이쎈싱 코오포레이션 하이브리드 디지털/아날로그 음향 세기―보상 볼륨 제어 장치 및 그 제어 방법
KR101649378B1 (ko) 2007-03-15 2016-08-19 인터디지탈 테크날러지 코포레이션 진화된 고속 패킷 액세스 시스템에서 데이터를 재정렬하기 위한 방법 및 장치
EP2130019B1 (en) 2007-03-19 2013-01-02 Dolby Laboratories Licensing Corporation Speech enhancement employing a perceptual model
BRPI0808965B1 (pt) 2007-06-19 2020-03-03 Dolby Laboratories Licensing Corporation Método e aparelho para medir a intensidade sonora percebida de um sinal de áudio e meio legível por computador
US8054948B1 (en) 2007-06-28 2011-11-08 Sprint Communications Company L.P. Audio experience for a communications device user
WO2009086174A1 (en) 2007-12-21 2009-07-09 Srs Labs, Inc. System for adjusting perceived loudness of audio signals
JP4823352B2 (ja) 2009-12-24 2011-11-24 株式会社東芝 情報処理装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1393300A1 (en) * 2001-05-25 2004-03-03 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US20040122662A1 (en) * 2002-02-12 2004-06-24 Crockett Brett Greham High quality time-scaling and pitch-scaling of audio signals
US20060029239A1 (en) * 2004-08-03 2006-02-09 Smithers Michael J Method for combining audio signals using auditory scene analysis

Also Published As

Publication number Publication date
BRPI0711063B1 (pt) 2023-09-26
US20120155659A1 (en) 2012-06-21
TW200803161A (en) 2008-01-01
MX2008013753A (es) 2009-03-06
US8144881B2 (en) 2012-03-27
TWI455481B (zh) 2014-10-01
US10523169B2 (en) 2019-12-31
US9742372B2 (en) 2017-08-22
DK2011234T3 (da) 2011-03-14
NO20190022A1 (no) 2008-11-17
US20170179906A1 (en) 2017-06-22
US20190222186A1 (en) 2019-07-18
CN101432965A (zh) 2009-05-13
RU2008146747A (ru) 2010-06-10
NO20190018A1 (no) 2008-11-17
NO20161295A1 (no) 2008-11-17
US8428270B2 (en) 2013-04-23
PL2011234T3 (pl) 2011-05-31
IL194430A0 (en) 2009-08-03
JP2009535897A (ja) 2009-10-01
AU2007243586A1 (en) 2007-11-08
US9787269B2 (en) 2017-10-10
US9774309B2 (en) 2017-09-26
BRPI0711063A2 (pt) 2011-08-23
US9685924B2 (en) 2017-06-20
NO345590B1 (no) 2021-05-03
US11362631B2 (en) 2022-06-14
US20170179907A1 (en) 2017-06-22
CN102684628B (zh) 2014-11-26
NO20180272A1 (no) 2008-11-17
US9768750B2 (en) 2017-09-19
NO339346B1 (no) 2016-11-28
KR101200615B1 (ko) 2012-11-12
RU2417514C2 (ru) 2011-04-27
US20160359465A1 (en) 2016-12-08
WO2007127023A1 (en) 2007-11-08
ES2359799T3 (es) 2011-05-27
NO344362B1 (no) 2019-11-18
US10833644B2 (en) 2020-11-10
US20240186972A1 (en) 2024-06-06
US20170179904A1 (en) 2017-06-22
US9136810B2 (en) 2015-09-15
US20210126606A1 (en) 2021-04-29
US20170179908A1 (en) 2017-06-22
NO20161439A1 (no) 2008-11-17
JP2011151811A (ja) 2011-08-04
HK1126902A1 (en) 2009-09-11
CA2648237A1 (en) 2007-11-08
AU2011201348A1 (en) 2011-04-14
KR20110022058A (ko) 2011-03-04
HK1176177A1 (en) 2013-07-19
US20180069517A1 (en) 2018-03-08
US9698744B1 (en) 2017-07-04
US20230318555A1 (en) 2023-10-05
CN101432965B (zh) 2012-07-04
US11711060B2 (en) 2023-07-25
EP2011234A1 (en) 2009-01-07
UA93243C2 (ru) 2011-01-25
US9762196B2 (en) 2017-09-12
NO20161296A1 (no) 2008-11-17
CA2648237C (en) 2013-02-05
US20170179900A1 (en) 2017-06-22
NO344013B1 (no) 2019-08-12
US10284159B2 (en) 2019-05-07
US20170179909A1 (en) 2017-06-22
DE602007011594D1 (de) 2011-02-10
NO20180271A1 (no) 2008-11-17
US20120321096A1 (en) 2012-12-20
NO20180266A1 (no) 2008-11-17
AU2007243586B2 (en) 2010-12-23
NO20190025A1 (no) 2008-11-17
US20200144979A1 (en) 2020-05-07
US10103700B2 (en) 2018-10-16
ATE493794T1 (de) 2011-01-15
EP2011234B1 (en) 2010-12-29
NO20191310A1 (no) 2008-11-17
NO20190002A1 (no) 2008-11-17
NO344361B1 (no) 2019-11-18
NO20190024A1 (no) 2008-11-17
US9780751B2 (en) 2017-10-03
US20170179905A1 (en) 2017-06-22
NO342160B1 (no) 2018-04-09
KR101041665B1 (ko) 2011-06-15
NO20084336L (no) 2008-11-17
US20220394380A1 (en) 2022-12-08
US9450551B2 (en) 2016-09-20
US20130243222A1 (en) 2013-09-19
US20170179901A1 (en) 2017-06-22
MY141426A (en) 2010-04-30
NO344364B1 (no) 2019-11-18
US11962279B2 (en) 2024-04-16
US20190013786A1 (en) 2019-01-10
NO343877B1 (no) 2019-06-24
US20090220109A1 (en) 2009-09-03
US20170179903A1 (en) 2017-06-22
US9787268B2 (en) 2017-10-10
CN102684628A (zh) 2012-09-19
NO342164B1 (no) 2018-04-09
JP5255663B2 (ja) 2013-08-07
NO344658B1 (no) 2020-03-02
KR20090005225A (ko) 2009-01-12
IL194430A (en) 2013-05-30
US9768749B2 (en) 2017-09-19
US20170179902A1 (en) 2017-06-22
US9866191B2 (en) 2018-01-09
JP5129806B2 (ja) 2013-01-30
AU2011201348B2 (en) 2013-04-18
NO342157B1 (no) 2018-04-09
NO344363B1 (no) 2019-11-18

Similar Documents

Publication Publication Date Title
NO20191310A1 (no) Audioforsterkningsregulering ved bruk av spesifikk lydstyrkebasert hørehendelsesdeteksjon