NO306007B1 - Anordning for hoeyeffektiv koding av digitale data - Google Patents

Anordning for hoeyeffektiv koding av digitale data Download PDF

Info

Publication number
NO306007B1
NO306007B1 NO924551A NO924551A NO306007B1 NO 306007 B1 NO306007 B1 NO 306007B1 NO 924551 A NO924551 A NO 924551A NO 924551 A NO924551 A NO 924551A NO 306007 B1 NO306007 B1 NO 306007B1
Authority
NO
Norway
Prior art keywords
circuit
block
bits
data
band
Prior art date
Application number
NO924551A
Other languages
English (en)
Other versions
NO924551L (no
NO924551D0 (no
Inventor
Kyoya Tsutsui
Osamu Shimoyoshi
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP03091183A external-priority patent/JP3089690B2/ja
Priority claimed from JP03091185A external-priority patent/JP3089691B2/ja
Application filed by Sony Corp filed Critical Sony Corp
Publication of NO924551D0 publication Critical patent/NO924551D0/no
Publication of NO924551L publication Critical patent/NO924551L/no
Publication of NO306007B1 publication Critical patent/NO306007B1/no

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/00007Time or data compression or expansion
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/665Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Health & Medical Sciences (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Complex Calculations (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Selective Calling Equipment (AREA)
  • Emergency Protection Circuit Devices (AREA)

Description

Oppfinnelsen vedrører en anordning for høyeffektiv koding av digitale data, der innmatede digitale data oppdeles i flere bånd, der blokker hver består av flere sampler dannet i hvert bånd, og ortogonal transformasjon utføres i hver blokk av båndet for å frembringe koefflslentdata, hvilke koefflslentdata kodes.
Fra Frequenz, vol. 43, nr. 9, september 1989, sidene 252-256 B. Edler, "Coding of Audio Signals with Overlapping Block Transform and Adaptive Window Functions" viser en fremgangs-måte for bit-redusering av audiosignaler basert på overlappende transformasjon med tid-domene alias kansellering hvor vindusfunksjoner og transformasjonslengder er tilpasset inngangssignalet. Adaptiv vindusbehandling bedrer transfor-masjonskodingen med overlappende blokker, som utmerker seg ved et drøyt kodeutbytte, med impulser og momentane amplitudeøkinger i inngangssignalet.
EP-A-0370277 viser et subbånd-transmisjonssystem hvor frekvensbåndet til et digitalt audiosignal splittes i flere subbånd ved hjelp av Quadrature Mirror Filtre. Signalet i det høyeste frekvens-subbånd filtreres og datamengden reduseres i en omformer. Signalene i samtlige frekvensbånd prosesseres med data-reduksjonskode for transmisjon.
EP-A-0446031 viser utstyr for effektiv koding av et digitalt signal, innbefattende et arrangement for deling av signalet i et antall frekvensbåndsignaler. Frekvensbåndsignalene segmenteres til blokker, og blokkene ortogonaltransformeres for dannelse av koeffisientdata. Disse koeffisientdata kvantifiseres. En krets detekterer hvorvidt frekvens-båndsignalet med den laveste frekvens inneholder en transient. Er det tilfelle, så vil en styrekrets prosessere dette signal for derved å redusere støyperseptibiliteten i det prosesserte signal. Styrekretsen kan, når en transient detekteres, øke antall biter som benyttes for kvantifisering av det laveste frekvensbåndsignal, for derved å redusere blokkstørrelsen til det laveste frekvensbåndsignal, og/eller for å redusere nivået til det laveste frekvensbåndsignal.
Det finnes forskjellige metoder til høyeffektiv koding av audiosignaler eller stemmesignaler som f. eks. delbåndkoding (SBC) ved deling av audiosignaler etc. langs tidsaksen i en flerhet av frekvensbånd for koding, omformende koding (ATC) med omdannelse av signalene langs tidsaksen i signaler på frekvensaksen ved ortogonal omforming til deling i en flerhet av frekvensbånd for koding av hvert bånd, og en adaptiv bittildeling (APC-AB) med sammensetning av SBC med adaptiv forutsigende koding (APC) for deling av signaler langs tidsaksen i en flerhet av bånd, omforming av båndsignalene til grunnbåndsignaler og utførelse av en flerhet av sekvenser med lineære forutsigende analyser for forutsigende koding.
Ved f. eks. delbåndkoding blir signalene i hvert bånd, etter at signalene er delt opp i en flerhet av bånd omdannet til signaler langs frekvensaksen ved ortogonal omforming hvoretter kodingen utføres for hvert bånd. Ved utførelse av ortogonal omforming kan audioinngangssignalene grupperes i blokker med et mellomrom på en på forhånd bestemt tidsenhet (gruppe) og diskret kosinus omforming foretas for hver blokk til omdannelse av signaler på tidsaksen til signaler på frekvensaksen. Ved oppdeling i flere bånd må visse egenskaper ved den menneskelige lydfornemmelse tas i betraktning. Således kan audiosignalene deles i en flerhet på f. eks. 25 bånd på en slik måte at båndbredden vil bli bredere mot høyere bånd som er kjent som kritiske bånd. Ved delbåndkoding blir det antall biter som er tildelt hvert bånd dynamisk eller adaptivt forandret for å heve kompresjonens virkningsgrad mens antallet av biter pr. tidsenhetblokk holdes konstant.
F. eks. ved koding av DCT koef f isientdata fra DCT behand-lingsoperasjonen ved bittildeling blir DCT koeffisientdata for hvert bånd som er resultatet av DCT behandl ingsope- rasjonen for hver blokk kodet med et dynamisk tildelt antall biter.
Ved den høyeffektive koding anvendes i stor utstrekning en høyeffektiv koding som gjør bruk av den såkalte maskeringsvirkning der det tas hensyn til visse egenskaper ved den menneskelige lydfornemmelse. Maskeringsvirkningen betyr et fenomen hvori visse signaler blir maskert med andre signaler og blir ikke hørbare. Dermed kan støyen under maskeringsnivået kunne tåles. Maskeringsvirkningen kan tas i betraktning slik at antallet av tildelte biter blir redusert for signalkomponenter under støynivået som tåles for å redusere bithastigheten.
Hvis inngangsaudiosignalene med den ovennevnte koding deles i en flerhet av bånd og ortogonal omforming som f. eks. DCT utføres for hvert bånd, d.v.s. hvis frekvensanalyser foretas for hvert bånd, blir signalene i hvert bånd delt i blokker med et mellomrom på forhåndsbestemte tidsenheter, d.v.s. på en gruppe-for-gruppe basis og den ortogonale omforming utføres for hver blokk i hvert bånd.
På den annen side blir koeffisientdata (DCT koeffisientdata) som frembringes ved ortogonal omforming kodet og antall biter som tildeles på tidspunktet for kodingen blir tildelt for hver blokk på en gruppe-for-gruppe basis.
Imidlertid er inngangsaudiosignalene ikke nødvendigvis stasjonære signaler som er så godt som frie for svingninger i nivå mens signalnivået veksler tilfeldig. F. eks. kan signalene være transient vekslede signaler som f. eks. signaler hvis spissnivå forandrer seg betydelig innenfor en gruppe. Hvis f. eks. signalene er audiosignaler i form av slaglyd fra et slaginstrument vil signalene med slaglyden bli transient vekslede signaler.
Hvis audiosignalene som forandrer egenskaper fra å være stasjonære til transiente eller omvendt blir ensartet behandlet ved ortogonal omforming av hver blokk på en gruppe-til-gruppe basis og de omformede data så blir kodet kan kodingen ikke sies å være tilpasset signalets egenskaper slik at lydkvaliteten etter dekoding ikke kan sies å være det optimale for lydfornemmelsen.
Når koding skal utføres ved bruk det tillatte støynivå blir det antall biter som tildeles for koding bestemt på grunnlag av forholdet (eller forskjellen) på energien i blokken og det tålbare støynivå som passer til verdien av maskeringen som blir hentet frem på grunnlag av energien i blokken.
Det finnes imidlertid signaler som har karakter av en tone (signaler med høy tonalitet) blant audiosignalene. Hvis signalene har høy tonalitet kan bittildeling basert på blokk-for-blokk energi ikke beregnes nøyaktig. Det betyr at energien i en gitt blokk kan være den samme enten dataene i hver blokk har høy tonalitet eller ikke. I dette tilfellet er det ikke ønskelig å foreta beregninger for bittildeling basert på den samme energi på tross av det faktum at egenskapene ved dataene er forskjellig fra blokk til blokk. Fremfor alt kan nøyaktig bittildeling ikke gjøres for signaler med høy tonalitet siden dette fører til en forringelse av lydkvaliteten. Dette betyr at på tross av det faktum at et stort antall biter er nødvendig for signaler med høy tonalitet kan det nødvendige antall biter ikke tildeles disse signaler hvis antallet av biter blir beregnet på grunnlag av den ovennevnte energi, noe som igjen fører til en forringelse av lydkvaliteten.
Med henvisning til teknikkens stand slik den er gjengitt ovenfor er det et formål med foreliggende oppfinnelse å komme frem til en anordning til høyeffektiv koding av digitale data der høyeffektiv komprimeringskoding som er enklere å tilpasse til egenskapene eller karakteristikkene for inngangsaudiosig nalene kan oppnås og der det kan frembringes dekodede signaler som passer bedre til den menneskelige lydfornemmelse.
En annen hensikt med foreliggende oppfinnelse er å komme frem til en anordning til høyeffektiv koding og dekoding av digitale data der tilfredsstillende bittildeling kan oppnås selv med signaler som har høy tonalitet for å forbedre lydkvaliteten.
I henhold til foreliggende oppfinnelse er tilveiebragt en anordning som nevnt innledningsvis, hvilken anordning er kjennetegnet ved en blokklengde beslutningskrets for å bestemme blokklengden for ortogonale transformasjoner av hvert bånd basert på karakteristika av blokkdata forut for ortogonal transformasjon av hvert bånd, og der nevnte ortogonale transformasjon i hvert bånd utføres med blokklengden bestemt av nevnte blokklengde beslutningskrets.
Ytterligere trekk ved oppfinnelsen vil gå frem av de uselvstendige patentkrav.
De digitale inngangsdata som tilføres hver av de ortogonale omformingsanordninger kan være data for hvert kritisk bånd. Den ortogonale omforming kan f. eks. være diskret kosinus omforming (DCT) eller hurtig Fourier omforming (FFT). I dette tilfellet er det koeffisientdata som er kodet.
Ved valg av utgang eller innstilling av blokklengde blir prosessen utført slik at bare utgangen fra den ortogonale omformingsanordning blir valgt, noe som reduserer antall biter som .det er nødvendig å tildele for koding av utgangene fra den ortogonale omformingsanordning (d.v.s antall biter som er nødvendig for å virkeliggjøre en på forhånd bestemt lydkvalitet). Det skal påpekes at gruppe-for-gruppe antallet av biter som kommer som utgang fra den ortogonale omformingsanordning etter at data fra den ortogonale omforming er blitt kodet, er et på forhånd bestemt antall. Da adaptiv bittildeling imidlertid er oppnådd under kodingen kan antallet av biter som kreves for kodingen være foreskjellige fra det på forhånd bestemte gruppe-for-gruppe antall av biter.
Hvis antallet biter som kreves for koding er mindre enn det på forhånd bestemte antall biter vil derfor de gjenværende overskytende biter kunne benyttes til utførelse av en mer tilfredsstillende koding slik at ved valg av utgang fra den ortogonale omformingsanordning som vil gi det minste antall biter kan det oppnås en optimal kodeutgang. Selv om antall biter som kreves for koding blir større enn det på forhånd bestemte gruppe-for-gruppe antall biter kan dessuten en kodet utgang med minst forringelse på grunn av kodingen oppnås ved å velge den utgang fra den ortogonale omformingsanordning som vil gi det minste antall biter.
Oppfinnelsen vil bli forklart nærmere i det følgende under henvisning til tegningene der: Fig. 1 er et blokkdiagram som skjematisk viser en konstruksjon av en anordning til høyeffektiv koding av digitale signaler i henhold til den første utførelse av foreliggende oppf innselse,
fig. 2 er et blokkdiagram som viser den skjematiske oppbygging av en koder for å illustrere oppfinnelsen,
fig. 3 viser skjematisk en DCD behandlingsblokk i det tilfellet da blokklengden er den samme for hvert bånd,
fig. 4 viser skjematisk en DCT behandlingsblokk i det tilfellet blokklengden for høyfrekvensområdet er en halvdel av gruppe1engden,
fig. 5 viser skjematisk en DCT behandlingsblokk i det tilfellet blokklengden for høyfrekvensområdet er en fjerdedel
av gruppelengden og blokklengden for det midtre frekvensområdet er en halvdel av gruppelengden,
fig. 6 viser skjematisk en DCT behandlingsblokk i det tilfellet blokklengden for det høye frekvensområdet er en fjerdedel av gruppelengden og at lengden for mellomfrekvensområdet er en fjerdedel av gruppelengden,
fig. 7 er et flytskjema som viser beslutningen om antallet første ordens bittildeling og korrigering av antall biter,
fig. 8 er et blokkdiagram som viser den skjematiske oppbygging av en anordning til høyeffektiv koding av digitale data ifølge en andre utførelse av foreliggende oppfinnelse,
fig. 9A er en graf som viser typiske transiente signaler,
fig. 9B er en graf som viser typiske stasjonære signaler,
fig. 10 viser skjematisk en typisk blokk i DCt behandlingen,
fig. 11 er et blokkdiagram som skjematisk viser oppbyggingen av en anordning til dekoding som et motstykke til anordningen for høyeffektiv koding,
fig. 12 er et blokkdiagram som viser en anordning til høyeffektiv koding av digitale data ifølge en tredje utførelse av foreliggende oppfinnelse,
fig. 13 er en skjematisk gjengivelse for å forklare en blokk med flytende koeffisienter og et tålbart støynivå pr. data,
fig. 14 er et koblingsskjerna i blokkform som i detalj viser oppbyggingen til innstilling av et tålbart støynivå,
fig. 15 er en graf som viser et Burke spektrum,
fig. 16 er en graf som viser et maskeringsspektrum og
fig. 17 er en graf som viser en syntese av minimum hørbar-hetskurve på et maskeringsspektrum.
Under henvisning til tegningene vil visse foretrukne utførelser av foreliggende oppfinnelse bli forklart i detalj.
Fig. 1 viser en anordning til høyeffektiv koding av digitale data til deling av digitale inngangsdata, som f. eks. audiodata, i en flerhet av bånd på en slik måte at båndbredden vil bli større med økende frekvenser, slik at det dannes blokker der hver består av en flerhet av utvalg for hvert av båndene, med ortogonal omforming med f. eks. diskret kosinusomforming for hver blokk i hvert bånd til frembringelse av koefflslentdata (DCT koeffisientdata) og koding av koeffisientdataene med et adaptivt tildelt antall biter. Med denne anordning til høyeffektiv koding blir hver av en rekke kodere som f. eks. de fire kodere 2 til 5 forsynt med anordninger til ortogonal omforming til utførelse av ortogonal omforming av de inngangsdata i hvert bånd med blokklengder som er forskjellige fra et bånd til et annet og der bare en av utgangene fra koderene 2 til 5, d.v.s. en av utgangene fra de ortogonale omformingsanordninger blir valgt basert på utgangene fra de ortogonale omformingsanordninger for dekoderene 2 til 5. Med andre ord vil blokklengdene for de DCT behandlede blokker i hvert bånd være forskjellige fra en koder til en annen og bare en av utgangene fra koderene 2 til 5 blir valgt av en velgerkrets 6 basert på utgangene fra koderene 2 til 5. Dette betyr at tilstanden for omkoblings-venderen 7 kobler om basert på det valgte signal fra velgerkretsen 6 til valg bare av en av utgangene fra koderene 2 til 5.
Det skal påpekes at velgeoperasjonen i velgerkretsen 6 er slik at bare den utgang fra koderen der det minste antall biter kreves av koderene til utførelse av kodeoperasjonene blir valgt. Det betyr at selvom antallet av biter for hver gruppe som er utgang fra koderene 2 til 5 er et på forhånd bestemt antall blir antall biter som i virkeligheten er nødvendig ved koding av en gitt gruppe bestemt ved en adaptiv bittildeling som tar hensyn til maskeringsvirkningen som beksrevet senere. Det ovennevnte valg gjøres slik at bare den utgang fra koderen med det minste antall biter som er nødvendig for kodeoperasjonen blir valgt.
Hvis antall biter som er nødvendig for kodingen er mindre enn det antall biter som er forhåndsbestemt på en gruppe-for-gruppe basis vil således overskytende biter kunne benyttes til utførelse av en mer tilfredsstillende koding. Ved å velge den koderutgang som har det minste antall biter vil på den annen side den mest tilfredsstillende kodede utgang kunne frembringes. Hvis antall biter som er nødvendig for koderene 2 til 5 overskrider det antall biter som er blitt bestemt på forhånd på gruppe-for-gruppe basis vil en kodeutgang med den minste forringelse på grunn av kodingen bli frembragt ved å velge den utgang fra koderene 2 til 5 som har det minste antall biter nødvendig for kodingen.
I hver av koderene 2 til 5 i den foreliggende anordning til høyeffektiv koding av digitale data som vist på fig. 2 blir således digitale inngangsdata så som audio eller stemmedata som tilføres via en inngangsklemme 1 delt når det gjelder frekvens i tre frekvensbånd ved kvadraturspeilfilteret 41 og 42 slik båndbredden vil bli bredere i retningen for økende frekvenser i overensstemmelse med den frekvensbånddeling som gjelder de såkalte kritiske bånd. I DCT kretser 43, 44 og 45 blir blokker som hver består av en flerhet av utvalg dannet for hvert bånd, frambragt ved delingen, og ortogonal omforming (omforming fra tidsaksen til frekvensaksen) blir utført for hver blokk for å frembringe koeffisientdata (DCT koeffisientdata). Utgangene fra DCT kretsene 43, 44 og 45 svarer imidlertid til f. eks. to høyfrekvensbånd, tre mellomfrekvensbånd og til f. eks. tyve lavfrekvensbånd i henhold til det kritiske frekvensbånd. DCT koeffisientdataene for de respektive bånd fra DCT kretsene 43 til 45 blir kodet med en adaptiv tildeling av bitantall med kodekretsene 46, 47 og 48. Dette betyr at koding av DCT koef f isientdata i de tre bånd i kodekretsene 46, 47 og 48 i den foreliggende utførelse foregår med den adaptive bi-tantalltildeling som er basert på visse karakteristikka som gjelder den menneskelige lydfornemmelse.
Til utførelse av den ovennevnte bånddeling blir digitale data (0 ... 22,1 kHz) som fremkommer ved å ta utvalg i analoge audiosignaler i f. eks. 1024 utvalg tilført en inngangskiemme 1 til hver av koderene 2 til 5. Disse digitale data blir delt av kvadraturspeilfiltrene 41 og 42 i f. eks. 3 bånd (0 ... 5,5 kHz, 5,5 kHz - 11 kHz og 11,0 til 22,1 kHz) slik at båndbredden vil være bredere mot de høyere frekvenser. I kvadraturspeilfilteret (QMF) 41 blir de digitale data fra 0-22,1 kHz delt i to for å frembringe en utgang på 11,0 kHz til 22,1 kHz og en utgang på 0 til 11 kHz som tilføres kretsen 43 for diskret kosinusomforming (DCT) og til QMF 42. 0 til 11,0 kHz utgangen som tilføres OMF 42 blir videre delt 1 to av OMF 42 for å frembringe en 5,5 kHz til 11,0 kHz utgang og en 0 til 5,5 kHz utgang som tilføres DC kretsene 44 og 45.
I hver av DCT kretsene 43, 44 og 45 vil en flerhet på f. eks. 1024 utvalg fra de tilførte bånddata utgjøre en gruppe B og Fourier omforming blir utført for hver blokk som er dannet av gruppen B for å frembringe DCT koeffisientdata. Det skal påpekes at blokklengden i DCT behandlingen i hver av DCT kretsene 43, 44 og 45 har en forskjellig verdi for hver av koderene 2 til 5.
Med koderen 2 har f. eks. blokklengden ved DCT behandlingen samme lengde som vist på fig. 3. Det betyr at med koderen 2 vil blokklengden bg ved DCT behandlingen i DCT kretsen 43 som er knyttet til det høyere området på 11,0 kHz til 22,1 kHz, blokklengden brø i DCT behandlingen i DCT kretsen 44 som er knyttet til mellomområdet på 5,5 kHz til 11,0 kHz og blokklengden bj^ ved DCT behandlingen i DCT kretsen 45 som er knyttet til det lavere området på 0 til 5,5 kHz valgt slik at de blir lik gruppen B som har den ovennevnte tidligere bestemte varighet på en tidsenhet.
Med koderen 3 blir blokklengden for DCT behandlingen valgt kortere i høyfrekvensområdet som vist på fig. 4. Dette betyr at med koderen 3 vil blokklengden for DCT kretsen 43 i det høye området være halvparten av blokklengden bj^ i DCT kretsen 45 for det lave området og blokklengden brø i DCT kretsen 44 for mellomområdet. I det foreliggende eksempel blirhøyfrekvensblokken delt i blokker bg^, bjj2•
I koderen 4 blir blokklengden for DCT behandlingen valgt kortere i mellomfrekvensområdet og høyfrekvensområdet som vist på fig. 5. Dette betyr at med blokklengden bj^ i det lave området har mellomområdet blokklengder b^, brø2 som er lik f. eks. en halvdel av blokklengden for det lave området og det høye området har blokklengder bg^, bjj2» *>H3 °§ ^H4lik en fjerdedel av blokklengden i det lave området eller en halvdel av blokklengden i mellomområdet.
I koderen 5 blir DCT behandlingens blokklengde valgt kortere i høyfrekvensområdet og mellomfrekvensområdet og lenger i lavfrekvensområdet som vist på fig. 6. Det betyr at med blokklengden bL i det lave området har det høye området blokklengder bg^, bg2»t*H3 °§ *>H4 som er lik en fjerdedel av blokklengden i det lave området mens mellomområdet har blokklengder brø^,<t>>jyjg»<b>rø3, brø4 lik f. eks. en fjerdedel av blokklengden i det lave området.
Blokklengdene i det høye og i mellomområdet er valgt kortere enn blokklengden i det lave området som omhandlet ovenfor i forbindelse med figurene 4 til 6 av den følgende årsak. Frekvensoppløsningen i menneskets lydfornemmelse er ikke så høy i det høye området mens den er høy i det lave området slik at det er nødvendig å opprettholde frekvensoppløsningen i det lave området og dermed kan blokklengden for DCT behandlingen ikke begrenses for meget i det lave området. Av denne grunn er blokklengden valgt lenger i det lave området. Siden den stasjonære periode er lenger med signaler i det lave området enn med signaler i det høye området er det på den annen side virkningsfullt å forkorte blokklengden i det høye området og mellomområdet (d.v.s. å heve den tidsbestemte oppløsning). Med dette som bakgrunn blir blokklengden i de høye og lave områder valgt kortere og blokklengden i det lave området er valgt lenger i den foreliggende utførelse.
I den foreliggende utførelse er således, for samtidig tilfredsstillelse av kravene om oppløsning langs frekvensaksen under hensyntagen til menneskets lydfornemmelse og kravene til oppløsning langs tidsaksen, antallet av utvalg økt i det lave området (0 til 5,5 kHz) for å øke f rekvens-oppløsningen mens den tidsmessige oppløsning heves i det høye området (11,0 til 22,1 kHz) og fra tid til annen også i mellomområdet (5,5 til 11 kHz).
Av hensyn også til karakteristikkene i audioinngangssignalene er det virkningsfullt å forkorte blokklengdene for DCT behandlingen i det høye området og i mellomområdet.
Det betyr at blokklengdene for DCT behandlingen med god virkning kan forandres avhengig av om audioinngangssignalene er transientsignaler eller stasjonære signaler. Når det gjelder stasjonære signaler har det god virkning å stille blokklengdene for de respektive bånd slik at de blir like lange som vist på fig. 3 mens det når det gjelder transientsignaler er mer virkningsfullt å stille blokklengdene for det høye båndområdet og mellombåndområdet slik at de blir kortere som vist på fig. 6. Ved å redusere blokklengden for DCT behandlingen for transientsignaler på denne måte kan flere biter tildeles blokkene i gruppe B som er et høyt spissnivå (transient signaldel) under kodingen mens antall biter kan reduseres i andre blokker. På denne måte kan biter tildeles blokker som virkelig har behov for biter i hvert bånd i gruppen B for å følge opp med tidsmessige forandringer i spekteret. På den annen side kan overflødig koding av signaler med like spektra i hver blokk i gruppen B unngås når det gjelder stasjonære signaler.
Blokklengdene for DCT behandlingen når det gjelder de respektive bånd er imidlertid ikke begrenset til de eksempler som er vist på figurene 3 til 6. Man kan således forestille seg mange forskjellige mønstre for blokklengde som f. eks. å redusere blokklengden ytterligere i det høye området eller samtidig redusere blokklengde for det lave området.
I hver av koderene 2 til 5 blir DCT behandlingen utført i hver av DCT kretsene 43 til 45 på fig. 2 for å skape forskjellige blokklengder for hvert bånd for å frembringe DCT koeffisientdata som blir overført til kodekretsene 46 til 48.
Hver av koderene 2 til 5 foretar imidlertid koding ved adaptiv bittildeling med kodekretsene 46 til 48 som har den følgende oppbygging.
Det vil si at hver av koderene 2 til 5 er forsynt med en beslutningskrets 60 for primær bittildelingsantall til bestemmelse av antallet biter som virkelig kreves til koding av DCT koeffisientdata i gruppen B med DCT kretsene 43, 44 og 45 noe som betyr antall biter som kreves for å virkeliggjøre en på forhånd bestemt lydkvalitet og en korreksjonskrets 61 for bitantallet til utførelse av bitfordeling eller bitreduksjon til justering av det primære antall biter som er bestemt av kretsen 60 for å stille inn det endelige bitantall i gruppen B. Dermed vil kodingen av DCT koeffisientdata i hver av kodekretsene 46 til 48 bli utført med det antall biter som er fremkommet ved korrigering av primærantallet av biter med korrigeringskretsen 61 for bitantallet, d.v.s. det ovennevnte endelige antall biter.
Det primære antall biter blir imidlertid bestemt i beslutningskretsen 60 for primær bittildeling under hensyntagen til den såkalte maskeringseffekt som nå vil bli forklart.
Maskering er knyttet til visse egenskaper ved menneskets lydfornemmelse. D.v.s. at blant egenskapene ved menneskets lydfornemmelse overfor lyder finnes det som kalles maskeringsvirkning som er delt i en tidsmessig maskeringsvirkning og en samtidig maskeringsvirkning. Den samtidige maskeringsvirkning betyr en virkning der en svak lyd eller støy blir maskert en sterkere støy som frembringes samtidig og dermed blir ikke hørbar. Den tidsmessige maskeringsvirkning er en virkning der en svak lyd eller støy maskeres med en sterkere lyd som blir frembragt tidsmessig før den svake støy (fremmaskering) eller med en sterkere lyd tidsmessig etter den svake lyd (bakmaskering) og derved blir ikke hørbar. På grunn av egenskapene ved den menneskelige lydfornemmelse vil virkningen av fremmaskering vare lenge, f. eks. i omtrent 100 msek., mens virkningen av bakmaskering varer en kortere tid på rundt 5 msek. Nivået på maskeringsvirkningen (maskeringsmengde) er av størrelsesordenen 20 dB og 30 dB for fremmaskering respektive bakmaskering.
Hvis derfor maskeringsvirkningen tas i betraktning på tidspunktet for bittildeling i gruppen B kan optimal bittildeling oppnås. Dette betyr at siden antallet av biter kan reduseres for den maskerte signaldel uten uheldig innvirkning på lydfornemmelsen kan antallet biter reduseres for den maskerte signaldel for å virkeliggjøre effektiv koding med et mindre antall biter. Maskeringsnivået eller maskeringsmengden kan finnes på grunnlag av summen av energiene for de respektive kritiske bånd. Ved å finne maskeringsmengden kan maskeringsmengden ved maskering av signaler i et gitt kritisk bånd finnes også for andre kritiske bånd. Det tålbare støynivå for hvert bånd blir bestemt på grunnlag av maskeringsmengden og antall biter i tildelingen for koding kan finnes på grunnlag av det tålbare støynivå for hvert bånd.
Det primære antall biter som således blir bestemt av beslutningskretsen 60 for tildelingen av det primære bitantall blir oversendt til korrigeringskretsen 61 for bitantall og denne krets 61 foretar bitfordeling eller bitreduksjon for tilpasning av det primære antall biter som er bestemt i kretsen 60 til det ovennevnte endelige antall biter som er stilt inn på forhånd i gruppen B.
Sekvensen av operasjoner for bestemmelse av det primære bitantall i kretsene 60 og 61 og for bitfordeling eller reduksjon er vist i flytdiagrammet på fig. 7.
Med henvisning til dette flytdiagram blir ved trinnet Sl den primære bitantallstildeling bestemt av beslutningskretsen 60 for tildeling av det primære bitantall og antallet er det primære antall biter som i virkeligheten er nødvendig ved koding i kodekretsene 46, 47 og 48 og som er funnet på grunnlag av beregninger av maskeringsmengden og den blir substituert i en variabel nsumO. Ved trinnet S2 blir denne variabelen nsumO sendt til kretsen 61 for korreksjon av bitantallet, hvilken krets 61 deretter substituerer den variable nsumO i en variabel nsum.
Ved trinne S3 blir det kontrollert om den variable nsum er mindre eller ikke mindre enn et antall nlimit som angir det endelige antall biter som er innstilt i gruppen B. Hvis den variable nsum er mindre enn verdien nlimit fortsetter programmet til trinnet S4 og hvis den variable nsum ikke er mindre enn verdien nlimit fortsetter programmet til trinnet S5 .
Hvis den variable nsum er mindre enn verdien nlimit som angir det endelige antall biter er bitantallet for stort. Ved trinnet S4 blir da det overskytende antall biter (antallet av biter som svarer til forskjellen mellom den variable nsum og verdien nlimit) fordelt videre i gruppen B. De overskytende biter blir fordelt i båndene eller blokkene for å forbedre lydkvaliteten ytterligere. Antallet biter etter bitfor-delingen blir ført tilbake til trinn S3.
Ved trinn S5 blir det kontrollert om den variable nsum er større enn eller ikke større enn verdien nlimit som angir det endelige antall biter. Hvis den variable nsum ikke er større enn verdien nlimit blir den variable nsum lik verdien nlimit i betraktning av trinne S3 for å avslutte behandlingen. Hvis den variable nsum er større enn verdien nlimit fortsetter programmet til S6.
Hvis den variable nsum er større enn verdien nlimit er det mangel i antallet biter. Ved trinn S6 blir således det antall biter som mangler trukket fra antallet av biter svarende til den variable nsum. Bitreduksjonen gjøres fra det området eller den blokk som ikke innvirker på lydkvaliteten. Antall biter etter bitreduksjonen blir ført tilbake til trinn S5.
Med den sekvens av operasjoner som er vist i flytdiagrammet på fig. 7 blir antallet av biter korrigert og koding i kodekretsene 46 til 48 foregår på grunnlag av det bitantall som er korrigert på denne måte.
Korrigerte data fra kodekretsene 46 til 48 blir overført til en syntesekrets 50. Informasjonen som gjelder det primære antall biter blir bestemt i beslutningskretsen 60 for tildeling av primære bitantall (informasjonen angir det antall biter som er nødvendig for å virkerliggjøre en på forhånd bestemt lydkvalitet) blir også overført til syntesekretsen 50. Data for de respektive bånd blir satt sammen i syntesekretsen 50 og blant de data som settes sammen på denne måte blir de kodede data ført som utgang ved en utgangsklemme 52 mens informasjonen som gjelder det primære bitantall kommer som utgang ved en utgangsklemme 53.
Utgangene fra utgangsklemmene 52 og 53 på fig. 2 er utganger fra koderene 2 til 5 som er vist på fig. 1. De kodede data fra koderene 2 til 5 blir sendt til en omkoblende vender 7 mens informasjonen som gjelder det primære bitantall sendes til velgerkretsen 6.
I velgerkretsen 6 blir bare den utgang fra en av koderene 2 til 5 der antallet av biter som er nødvendig for koding, d.v.s. antallet av biter som er nødvendig for å virkeliggjøre den på forhånd bestemte lydkvalitet, er bragt ned på et minimum, valgt, basert på informasjonen som gjelder de respektive primære bitantall som er sendt fra koderene 2 til 5 som nevnt tidligere og de signaler som er valgt på denne måte blir sendt videre til den omkoblende vender 7. Den omkoblende vender 7 foretar en omkoblingsoperasjon med utføring bare av en av de kodede utganger som tilføres fra koderene 2 til 5 basert på det ovennevnte valg av signal. På denne måte kommer derfor bare den valgte kodede utgang frem ved utgangsklemmen 8.
Ved dekoding av den kodede utgang i en dekoder, (ikke vist) basert på den ovennevnte informasjon vedrørende den primære bittildeling vil den lyd som fremkommer være av en optimal lydkvalitet.
Med den anordning som er beskrevet ovenfor til høyeffektiv koding av digitale data blir bare utgangen fra den optimale koderutgang valgt fra utgangene ved koderene 2 til 5 for å frembringe kodede data og de kodede data kan kodes og omdannes til lyd med optimal lydkvalitet. Da den egentlige kodede utgang er valgt er blokken som er valgt for DCT behandling av en optimal blokklengde og dessuten blir valget av blokklengde forenklet. Anordningen i den foreliggende utførelse kan tilpasses en kodeanordning for data som er opptatt i en mediumpakke som f. eks. en CD plate. Da en bruker i dette tilfellet bare behøver å ha en dekoder (spiller) kan kodeanordningen være av en hvilken som helst størrelse.
I den ovenfor beskrevne utførelse er DCT kretsene 43 til 45 med forskjellige behandlingsblokker anordnet i hver av koderene 2 til 5. Som et alternativ kan det finnes bare en koder og en DCT krets til utførelse av DCT behandlingen der funksjonen er å utføre DCT behandlingsoperasjonene med forskjellige DCT behandlingsblokklengder kan være anordnet for hvert bånd. I dette tilfellet blir bare den utgang fra DCT kretsen valgt fra flerheten av DCT kretser som er knyttet til de respektive bånd og som har det minste antall biter som er nødvendig for kodingen.
I en slik anordning for høyeffektiv koding finnes det altså bare en koder istedet for de mange kodere slik tilfelle er på fig. 1. Sammenligning av konstruksjonen av koderen med den konstruksjon som er vist på fig. 2 viser at DCT kretsene 43 til 45 (DCT kretser) ikke er tilsluttet i et ett-til-ett forhold som på fig. 2 men en flerhet av DCT kretsene svarende til antallet av blokklengder i de respektive bånd på fig. 3 til 6 er i bruk. F. eks. kan det finnes tre DCT kretser med forskjellige blokklengder for det høye området mens tre DCT kretser med tre forskjellige blokklengder er anordnet for mellomområdet og en enkel DCT krets finnes for det lave området. Med andre ord finnes det tre DCT kretser for det høye området til DCT behandling av data i det høye området med tre typer blokklengder svarende til blokklengden bjj på fig. 3, blokklengdene bg^og bg2På fig- 4 og blokklengdene<b>gi,<b>g2» ^H3°S ^H4P^- fig- 5 og 6. På samme måte finnes det tre DCT kretser for mellomområdet til DCT behandling av dette området med tre typer blokklengder svarende til blokklengden b^på fig. 3 og 4, blokklengdene bjyj^og bjyj2 på fig. 5 og blokklengdene t»^^, bM2»<b>M3og b^4på fig. 6 mens det finnes en DCT krets for det lave området til DCT behandling av data i dette området med en enkel blokklengde svarende til blokklengden bL som vist på fig. 3 til 6. Ved å overføre utgangene fra DCT kretsene til velgerkretsen 6 og ved å velge bare en av utgangene fra DCT kretsene for hvert område oppnås en behandling svarende til den som fås ved anordningen på fig. 1. På denne måte får man en virkning svarende til virkningen i utførelsen på fig. 1 men konstruksjonen er altså forenklet.
Anordning til høyeffektiv koding av digitale data ifølge en modifisert utførelse er vist på fig. 8. Anordningen omfatter beslutningskretser 49, 50 og 51 for blokklengde til bestemmelse av blokklengdene for ortogonal omforming i hvert bånd basert på egenskaper (f. eks. transiente eller stasjonære) i blokkdata før den ortogonale omforming av hvert bånd (gruppe-for-gruppe data over en på forhånd bestemt tid). Ortogonale omformingsoperasjoner utføres av kretsene 49 til 51 på grunnlag av de blokklengder som er bestemt for de respektive områder. En anordning for veksling av blokkstør-relse er imidlertid innbefattet i DCT kretsene 46 til 48.
Som vist på fig. 8 blir utgangene også overført til beslutningskretsene 49 til 51 for blokklengde. I disse kretser blir det kontrollert om data i gruppen 4 for aud i o inngangsdata er transiente signaler eller stasjonære signaler og basert på de påviste resultater blir et beslutningssignal vedrørende blokklengde ført som utgang. Beslutningssignalet om blokklengde gjør blokklengden for DCT behandling i DCT kretsene 43 til 45 variabel.
I beslutningskretsene 49 til 51 for blokklengde, som er tilknyttet disse bånd, blir spissverdien for hvert utvalg funnet for hver av blokkene bj_, b2, b3og b4, som fremkommer ved deling av lengden av gruppen B i fire deler og tidsmessige forandringer i utvalgenes spissnivå finnes for disse blokker b-^, bg, b3og b4. F. eks. finnes et maksimum spissnivå MaXp^et maksimum spissnivå MaXp^og et minimum spissnivå Minp^fra toppnivåene PK^, PKg, PK3og PK4for blokkene b^, b2, b3og b4og forholdet MaXpjj/Minp^ blir sammenlignet med en verdi i et referanseområde og hvis forholdet er større enn referanseverdien blir signalet i gruppen B bestemt å være et transientsignal mens hvis forholdet er mindre enn referanseverdien blir signalet i gruppen B bestemt å være et stasjonært signal. Hvis forholdet ligger innenfor et referanseområde bestemmes signalet å være mellom transientsignalet og det stasjonære signal. Fig. 9A og 9B viser eksempler på henholdsvis det transiente signal og det stasjonære signal.
Kretsene 49 til 51 kan også være bygget opp for å utføre blokklengdebeslutninger basert på signalenergiene i blokkene b-p bg, b3og b4. I dette tilfellet finnes energiene i de respektive blokker, forholdet mellom maksimum og minimum energi finnes og forholdet sammenlignes med referanseområdet for signalenergier ved hjelp av den påvisningsoperasjon som er nevnt ovenfor.
Den ovennevnte påvisningsoperasjon foregår i beslutningskretsene 49 til 51 for blokklengdene hvori blokklengder som svarer til de påviste resultater blir bestemt. DCT behandlingen i DCT behandlingskretsene 43 til 45 blir utført i overensstemmelse med blokklengdene som er bestet på denne måte i beslutningskretsene 49 til 51 for blokklengde.
Hvis signalene finnes å være stasjonære signaler av kretsene 49 til 51 blir blokklengden for hvert bånd stilt inn slik at de får samme lengde som f. eks. lengden av gruppen B. Blokklengdene blir da stilt inn til bg, brø og bL for det høye området fra 11 til 22,1 kHz, mellomområdet fra 5,5 til 11 kHz og for det lave området fra 0 til 5,5 kHz.
Omvendt, hvis signalet finnes å være et transient signal blir blokklengden stilt inn slik at blokklengdene er kortere for det høye området og mellomområdet og lenger for det lave området som vist på fig. 6. Det betyr at blokklengden bj^ for det lave området svarer til gruppen B, blokklengdene for det høye området og mellomområdet blir stilt slik at de er en fjerdedel av blokklengden bL«I eksempelet på fig. 6 har blokkene i det høye området blokklengdene bg-^ ><b>H2»<b>g3°S bg4mens blokkene i mellomområdet har blokklengder brø^, b^g»<b>M3 °g<b>M4-
Hvis signalet ligger mellom de stasjonære og transiente signaler er blokklengdene slik at for med blokklengden b^for det lave området er blokklengden for mellomområdet lik Bjyj lik lengden for det lave området eller bjy^eller bjyj2 er lik en halvdel av lengden for det lave området mens lengden for det høye området er bg^,<bgg,>bg3og<b>g4som er en halvdel eller en fjerdedel av lengden av det lave området.
Selvom blokklengden bL for det lave området er konstant i utførelsene på fig. 3 til 6 kan blokklengden i det lave området også varieres i overensstemmelse med signalene. Blokklengdene for områdene kan deles ned utover en halvdel eller en fjerdedel av lengden av gruppen B.
Data i gruppen B for de respektive områder som er satt sammen av flere utvalg blir DCT behandlet av DCT kretsene 43 til 45 med blokklengder basert på beslutningssignaler om blokklengder fra kretsene 49 til 51. Det betyr at DCT behandlingen for hvert bånd foretas med blokklengder som passer til signalkarakteristikkene i gruppen B. Gruppelengden under DCT behandlingen i DCT kretsene 43 til 45 er valgt lik 1024 utvalg minus en overlappning OL som vist på fig. 10 når det gjelder signaler mellom transiente og stasjonære signaler i tilknytning til fig. 5. Den ortogonale omforming kan også være diskret kosinum omforming ved siden av DCT.
Utgangene fra beslutningskretsene 49 til 51 om blokklengde blir også overført til kodekretsene 46 til 48 som er tilpasset koding av DCT koeffisientdata fra DCT kretsene 43 til 45.
Hvis data i gruppen B blir påvist som et transient signal og blokklengden for DCT behandlingen blir forkortet i DCT kretsene 43 til 45 vil koding av DCT koef f isientdata bli utført ved adaptiv bittildeling i gruppen B i kodekretsene 46 til 48 på nedstrømsiden av DCT kretsene 43 til 45. I eksempelet på fig. 9A blir flere biter tildelt blokken b3som har maksimum spissverdi blant blokken bj_, b2, b3og b4mens antall biter blir redusert for de gjenværende blokker b^, b2og b4. På denne måte kan flere biter tildeles den blokk som virkelig har behov for biter, i dette tilfellet blokk b3for å følge opp med tidsmessige spektralforandringer. Bittildelingen kan i dette tilfellet utføres under hensyntagen til maskeringsvirkningen.
Hvis data i gruppen vises å være stasjonære signaler og blokklengdene for DCT behandlingen velges å være lenger i DCT kretsene 43 til 45 blir kodingen i kodekretsene 46 til 48 utført med lengden av gruppen B som en lengdeenhet. I eksempelet på fig. 9B foregår kodingen på en gruppebasis istedet for oppdeling i fire blokker b^, b2, b3og b4. Dette gjør overlappet koding av signalene med tilsvarende spektrum i gruppen B overflødig.
Når det gjelder de stasjonære signaler kan dessuten spektrale analyser i DCT kretsene 43 atil 45 forbedres når det gjelder nøyaktighet. Maskeringsberegningene, hvis de utføres, får også bedre nøyaktighet slik at antall biter som benyttes for kodingen i kodekretsene 46 til 48 kan reduseres.
Utganger fra disse kodekretser 46 til 48 tilføres fra utgangsklemmer 52, 54 og 56. Utgangene fra beslutningskretsene 49 til 51 vedrørende blokklengde blir også tilført fra utgangsklemmene 53, 55 og 57 som deldata. Når det gjelder stasjonære signaler kan dessuten antall biter for deldata være mindre enn når det gjelder transiente signaler. For de transiente signaler blir deldata som er knyttet til de fire blokker ført som utgang fra disse utgangsklemmer 53, 55 og 57. Når det gjelder stasjonære signaler kan siden deldata kan være de som er basert på gruppen B, antallet av biter for deldataene reduseres.
Da blokklengdene for den ortogonale omforming av de respektive områder blir bestemt av beslutningskretsene 49 til 51, basert på egenskaper som f. eks. om de er transiente eller stasjonære, for gruppedata til de respektive områder før ortogonal omforming og DCT behandlingen for de respektive områder utføres av DCT kretsene 43 til 45 med blokklengder som er bestemt fra bånd til bånd kan med den ovenfor beskrevne anordning til høyeffektiv koding av digitale data kodingen utføres i overensstemmelse med signalkarakteristikkene, f. eks. om de er transiente eller stasjonære.
Fig. 11 viser, som et blokkskjema, en dekodeanordning som er et motstykke til den høyeffektive kodeanordning i den foreliggende utførelse. På fig. 11 blir kodede data fra utgangsklemmene 52, 54 og 56 i kodeanordningen tilført inngangsklemmer 152, 155 og 156 mens deldata fra utgangsklemmene 52, 54 og 56 i kodeanordningen tilfører inngangsklemmer 153, 155 og 157. De kodede data og deldataene blir tilført dekodekretser 146, 147 og 148 som er beregnet på dekoding av de kodede data basert på deldataene. De dekodede data blir tilført i DCT kretser 143, 144 og 145 som skal utføre en operasjon som er det motsatte av behanldingen i DCT kretsene 43 til 45 (omvendt diskret kosinus omforming). De ovennevnte deldata blir også tilført i DCT kretsene 143 til 145 slik at behandlingen i kretsene blir utført på grunnlag av disse deldata. En utgang fra IDCT kretsen 143 tilføres en IQMF (omvendt kvadraturspeilfilter) krets 141 som er innrettet til å utføre en filtreringsoperasjon som er det motsatte av den operasjonen som ble utført av kvadraturspeil filteret 41. Utgangene fra IDCT kretsene 14 og 15 tilføres en IQMF krets 142 som skal utføre en filtreringsoperasjon som er det motsatte av den operasjon som ble utført av kvadratur-speilf ilteret 42. Siden en utgang fra IQMF kretsen 142 tilføres IQMF kretsen 141 fåes et digitalt audiosignal fra IQMF kretsen 141 som er en kombinasjon av signaler som er delt opp i de respektive bånd. Dette audiosignal kommer som utgang ved en utgangsklemme 130.
En utførelse av bittildelingen blir nå forklart under henvisning til fig. 12.
Anordningen som er vist på fig. 12 innbefatter en frekvensanalysekrets 102 for frekvensanalysering av de digitale inngangsdata, en energiberegnende krets 104 og en maskeringsberegnende krets 105 som innstillingsanordning for støynivå til innstilling av det tålbare støynivå fra blokk-til-blokk, basert på blokk-til-blokk energien i utgangsdata fra frekvensanalysekretsen 102, en flytende blokkberegningskrets 107 for beregning av flytende blokkkoeffisienter basert på data med maksimumverdi i de mange blokker med utgangsdata fra den frekvensanalyserende krets 102, en kodekrets 103. for koding av utgangen fra frekvensanalysekretsen 102 og en beslutningskrets 106 for tildeling av bitantall for å finne bitantallstildelingen på kodingstidspunktet for kodekretsen 103 basert på utgangen fra innstillingsanordningen for støynivå og utgangen fra kretsen 107 til beregning av blokkens flytende koeffisient.
Frekvensanalysekretsen 102 kan være en uavhengig krets eller kan benyttes samtidig med DCT kretsen på fig. 2. Kodekretsen 103 er et motstykke til kodekretsene 46 til 48 på fig. 2.
I den foreliggende kodeanordning som er vist på fig. 12 blir digitale inngangsdata som f. eks. audiodata tilført en inngangsklemme 100. Disse inngangsaudiodata tilføres frekvensanalysekretsene 102 for analyse av audiodataene. I frekvensanalysekretsen 102 foregår frekvensanalysen ved omdannelse av de digitale audiodata fra flere utvalg til spektrale data (DCT koefflslentdata) ved ortogonal omforming som f. eks. DCT.
Utgangsdata fra kretsen 102 tilføres kodekretsen 103 der de kodes ved adaptiv bittildeling før de føres som utgang ved utgangsklemmen 108.
Det følgende opplegg benyttes til utførelse av koding med adaptivt tildelte antall biter i kodekretsen 103.
Dermed blir de spektrale data fra frekvensanalysekretsen 102 overført til energiberegningskretsen 104 som er en innstillingsanordning for støynivå og til beregningskretsen 107 for flytende blokk-koeffisient.
I energiberegningskretsen 104 dannes det blokker som hver består av en flerhet av spektrale data fra analysekretsen 102. I den foreliggende utførelse er frekvensområdet delt opp i f. eks. 25 bånd på en slik måte at båndbredden blir bredere mot de høyere frekvenser i henhold til de kritiske bånd som tar hensyn til visse egenskaper ved menneskets lydfornemmelse. Energiene fra et kritisk bånd til et annet, d.v.s. energisummen i de spektrale data fra et bånd til et annet blir så funnet.
Detaljer ved energiberegningskretsen 104 og kretser på dens nedstrømsside vil i det følgende bli forklart under henvisning til fig. 14.
Som bekrevet ovenfor blir den informasjon som gjelder det tillatte støynivå for de respektive bånd som tar hensyn til den såkalte maskeringsvirkning i visse egenskaper ved menneskets lydfornemmelse på grunnlag av energiene for de respektive kritiske bånd overført til besluntingskretsen 106 for tildeling av bitantall. Utganger fra beregningskretsen for flytende blokk-koeffisienter blir også tilført beslutningskretsen 106 for tildeling av bitantall.
I den flytende beregningskrets 107 for blokkene blir såkalt blokkflyting utført for hver av blokkene der hver enkelt er bygget opp av flere spektraldata som tilføres fra frekvensanalysekretsen 102. I den flytende blokkoperasjon blir en maksimum dataverdi valgt fra de spektrale data i hver blokk og en skalafaktor eller dens tilnærmede verdi som svarer til maksimumdataverdien fremkommer som en blokkskaleringsfaktor. Informasjonen som gjelder den flytende blokk-koeffisient blir overført til beslutningskretsen 106 for tildeling av bitantall. Den tilnærmede verdi for den flytende blokk-koeffisient nemlig maksimum dataverdien selv kan overføres til beslutningskretsen 106 for tildeling av bitantall.
Beslutningskretsen 106 for tildeling av bitantall bestemmer antall biter som tildeles basert på den informasjon som gjelder det tålbare støynivå som finnes i hvert bånd i den maskeringsberegnende krets 105 og informasjonen om den flytende blokk-koeffisient.
Beslutningskretsen 106 for tildeling av bitantall deler det tålbare støynivå for hvert bånd fra den maskeringsberegnende krets 105 med antall data i hvert bånd, nemlig antallet av spektraldata i båndet for å finne det tålbare støynivå pr. spektrale data i hvert bånd. I kretsen 106 finner også informasjonen som gjelder det tildelte bitantall basert på det tålbare støynivå pr. data og den flytende blokk-koeffisient pr. blokk.
Ved bestemmelse om tildelingen av antall biter blir antallet av spektraldata på beregningstidspunktet for den flytende koeffisient i den flytende beregningskrets 107 tilpasset antallet av spektraldata ved tidspunktet for beregning av det tålbare støynivå i energiberegningskretsen 104 og i den maskeringsberegnende krets 105 som innstillingsanordning for støynivå. Med andre ord blir ved beslutning om tildeling av antall biter, antallet av behandlingsenheter eller blokker i beregningskretsen 107 for flytende blokk-koeffisient tilpasset en enkel behandlingsenhet eller bånd i innstillingsanordningen for støynivå for å bli tilpasset antallet av spektrale data eller antallet av behandlingsenheter eller bånd for beregning av det tålbare støynivå blir tilpasset en behandlingsenhet eller blokk for beregning av den flytende blokk-koeffisient. Den ovennevnte operasjon er det nødvendig å utføre i betraktning av at siden båndbreddene for de kritiske bånd blir bredere mot høyere frekvenser vil antallet av data forandre seg fra område til område slik at beregninger for å finne antallet av tildelte biter kanskje ikke kan gjennomføres hvis ikke antallet av data ved beregning av den flytende blokk-koeffisient blir tilpasset antallet av områdedata.
I den foreliggende beslutningskrets 106 for tildeling av bitantall finnes et nivå AD(Eg - E3) som vist på fig. 13 der E3er det tålbare støynivå pr. spektraldata slik det finnes ved å dele det totale energinivå Eq for de mange spektraldata S i blokken b (den blokk hvori antall data er blitt tilpasset som beskrevet ovenfor), og Eg er nivået skalafaktoren eller den flytende blokk-koeffisient som tilsvarer den maksimale dataverdi Smax blant spektraldataene S i blokken b som vist på fig. 13. Nivået som er vist på fig. 13 er angitt med seks biter og nivået i dB slik det finnes fra (Eg - E3) blir beregnet uttrykt i biter ((Eg - E3)/6,0 biter). De resulterende data benyttes som den informasjon som gjelder tildelingen av antall biter for blokken b.
Det er imidlertid vanlig praksis å finne et nivå ad (Eq -Ej ) der Eq angir det totale energinivå i blokken b og E^blir funnet på grunnlag av det totale energinivå Eq og å beregne nivået ad i dB slik det finnes fra (Eg - E3) uttrykt som biter ((Eg - £3/6,0 biter) ved å benytte de resulterende data som den informasjon som gjelder informasjonen for det tildelte bitantall til blokken b.
Informasjonen om tildelt bitantall slik den finnes på den måte som er beskrevet ovenfor tilføres kodekretsen 103 der koding utføres på grunnlag av informasjonen om det tildelte bitantall.
I den ovenfor beskrevne utførelse kan støynivå i hver blokk eller hvert bånd undertrykkes innenfor det tålbare støynivå og selvom signalet har høy tonalitet kan antall biter finnes slik at det blir tilpasset signalets karakter.
Informasjonen som gjelder tildelingen av antall biter fra beslutningskretsen 106 for tildeling av antall biter ledes som utgang fra utgangsklemmen 109 for å kunne benyttes i en dekodeenhet på nedstrømsiden, ikke vist, for dekoding av de kodede data. Informasjonen om blokkens flytende koeffisient fra beregningskretsen 107 for koeffisienten føres som utgang fra utgangsklemmen 110 for å kunne benyttes til dekoding i dekodeenheten.
Anordningen til innstilling av det tålbare støynivå der det taes hensyn til de kritiske bånd og maskeringsvirkningen i den energiberegnende krets 104 og kretsene på nedstrømsiden blir nå forklart under henvisning til fig. 14.
Anordningen på fig. 14 er vist satt sammen av forskjellige kretser som innretninger til innstilling av støynivået når det gjelder det tålbare støynivå for hvert bånd basert på energier (eller spiss- eller middelverdier) for hvert av de kritiske bånd.
På fig. 14 blir digitale audiodata n på tidsaksen tilført en inngangsklemme 100 og overført til en DCT krets 111 i en frekvensanalysekrets 102 som også er utstyrt med en krets 112 til frembringelse av amplitude/faseinformasjon. I DCT kretsen 111 blir audiodata på tidsaksen omdannet til data på frekvensaksen med et intervall på en tidsenhets varighet eller en enhet for blokkvarighet for å frembringe DCT koeffisientdata bestående av en reell tallkomponent Re og en imaginær tallkomponent Im. Disse DCT koefflslentdata blir overført til kretsen 112 til frembringelse av amplitude/- faseinformasjon der en amplitudeinformasjon Am og en faseinformasjon Ph dannes med komponentene Re og Im og kommer som utgang.
Blant ampi itudeinformasjonen Am og faseinformasjonen Ph blir ampi itudeinformasjonen Am overført til beslutningskretsen 106 for tildeling av bitantall og anvendt for å finne informasjon om et adaptivt bitantall i en kodekrets 160 for amplitudeinformasjon og en kodekrets 170 for faseinformasjon. Da den menneskelige lydfornemmelse er følsom overfor amplitude eller styrken i frekvensområdet men er svært ufølsom overfor fase vil bare amplitudeinformasjonen Am benyttes i foreliggende utførelse for å finne frem til informasjon om det tildelte bitantall.
Amplitudeinformasjonen Am fra frekvensanalysekretsen 102 sendes til kodekretsen 160 for koding av amplitudeinformasjonen mens faseinformasjonen Ph tilføres kodekretsen 170 på samme måte for koding av faseinformasjonen. Ved kodingen i kodekretsene 160, 170 blir antall biter som er tildelt faseinformasjonen Ph redusert slik at det blir mindre enn det som er tildelt amplitudeinformasjonen Am for koding for et på forhånd bestemt bånd i utgangen fra frekvensanalysekretsen 102 slik det vil bli forklart i det følgende. Amplitudeinformasjonen blir også tildelt beslutningskretsen 106 for tildeling av bitantall. Beslutningskretsen 106 for tildeling av bitantall bestemmer informasjonen om tildeling av bitantall fra den flytende blokk-koeffisient og det tålbare støynivå pr. data slik det vil bli forklart i det følgende. Beslutningskretsen 106 for tildeling av bitantall bestemmer også informasjonen om tildelings bitantall for koding av amplitudeinformasjonen Am og informasjonen om bittildeling for koding av faseinformasjonen Ph på grunnlag av amplitudeinformasjonen Am slik det vil bli forklart i det følgende når det gjelder overføring til de tilhørende kodekretser 160, 170.
Det skal påpekes at i beslutningskretsen 106 for tildeling av bitantall kan amplitudeinformasjonen Am bli delt opp ifølge de kritiske bånd under hensyntagen til karakteristikkene for den menneskelige lydfornemmelse og den maskeringsmengde som kan finnes ut fra energiene i amplitudeinformasjonen Am for de respektive bånd slik at tildelingen av bitantall for koding av amplitudeinformasjonen Am for hvert bånd og for koding av faseinformasjonen Ph kan bestemmes ved bruk av det tålbare støynivå basert på maskeringsmengde. Ved bestemmelse av tildelingen av bitantall for hvert bånd blir tildelingen av bitantall for faseinformasjonen Ph valgt mindre enn for amplitudeinformasjonen Am for dermed å ta hensyn til egeneskapene ved menneskets lydfornemmelse. Ved å redusere antall biter som er tildelt faseinformasjonen Ph på denne måte kan antall biter i de kodede data for faseinformasjonen som kommer som utgang fra kodekretsen 170 for faseinformasjon reduseres. Selvom antall biter som er tildelt faseinformasjonen Ph blir redusert vil denne reduksjon ikke føles av det menneskelige øre som om den fører til en forringelse av lydkvaliteten.
På fig. 14 blir digitale data i amplitudeinformasjonen fra frekensanalysekretsen 102 overført til en bånddelekrets 113 som deler de digitale data i kritiske bånd. Med de kritiske bånd taes det hensyn til visse egenskaper ved menneskets lydfornemmelse eller evenen til analyse av frekvens. F. eks. blir frekvensverdiområdet delt i 25 bånd på en slik måte at båndbredden blir bredere mot de høyere frekvenser. Dette betyr at den menneskelige lydfornemmelse har egenskaper som kan sammenlignes med egenskapene ved et båndpassfilter. De respektive bånd dividert med de respektive filtere blir angitt som de kritiske bånd.
De digitale data i de respektive bånd delt med bånddelekret-sen 113 blir sendt til en krets 114 til påvisning av en total sum der energien for hvert bånd (spektral styrke ved hvert bånd) finnes ved å ta den totale sum av styrkene for de respektive spektrale data i hvert bånd. En utgang fra kretsen 114 til påvisning av den totale sum, d.v.s spektrum-summen for hvert bånd er betegnet som Burke spektrum. Burke spekteret SB i hvert bånd er vist f. eks. på fig. 15. I denne figur blir antallet av kritiske bånd valgt lik 12 (B^-B12 ) •
For å ta hensyn til den virkning Burke spekteret SB har på den såkalte maskering blir en på forhånd bestemt vektfunksjon innført for Burke spekteret. For dette formål blir utgangen fra kretsen 114 til påvisning av den totale sum, d.v.s. verdien for Burke spektraene SB overført til en filterkrets 115. Filterkretsen 115 omfatter en flerhet av forsinkelses-anordninger for sekvensiell forsinkelse av inngangsdata, flere multiplikatorer for å multiplisere utgangene fra forsinkelsesanordningene med filterkoeffisienter (vekt-funksjoner) som f. eks. 25 multiplikatorer som er tilknyttet båndene, og en summeringsanordning for summering av utgangene fra multiplikatorutgangene. Konvolusjon av Burke spektra SB foretaes i filterkretsen 115 ved å multiplisere filterkoeffisienter 1, 0,15, 0,0019, 0,0000086, 0,4, 0,06 og 0,007 ved multiplikatorene M, M-l, M-2, M-3, M+l , M+2 og M+3 der M er et valgbart helt tall. Med denne konvolusjon blir den samlede sum av arealet som er vist med stiplede linjer på fig. 15 beregnet.
Utgangen fra filterkretsen 115 tilføres en subtraktor 116 som er innrettet til å finne et nivå som svarer til det tålbare støynivå i det konvolverte området. Nivået a som tilsvarer det tålbare støynivå er et nivå av den art som vil gi et tålbart støynivå for hvert kritisk bånd ved dekonvolusjon som forklart i det følgende. En tilfredsstillende funksjon
(funksjon som representerer maskeringsnivået) for å finne nivået a blir tilført subtraktoren 116. Nivået a blir styrt ved å øke eller redusere den tillatte funksjon. Den tillatte funksjon tilføres fra en funksjonsgenerator 129 som beskrevet senere.
Hvis det antall som er tildelt de kritiske bånd fra det lave frekvensområdet mo det høyere frekvensområdet er i. finnes nivå a for det tålbare nivå fra formelen
cx = S - (n -ai)
der n og a er konstanter med a>0 og S er en styrke på det konvolverte Burke spektrum mens (n-ai) i denne formel er den tillatte funksjon. I eksempelet på fig. 14 er n = 38 og a = 1 og i dette tilfellet kan optimal koding oppnås uten forringelse av lydkvaliteten.
Nivået a finnes på denne måte og tilsvarende data overføres til en deler 117 som er beregnet på å dekonvolvere nivået a i det konvolverte området. Ved dekonvolveringen kan således maskeringsspekteret finnes fra nivået a. Dette betyr at maskeringsspekteret blir det tålbare støynivå. Selvom dekonvolveringen har behov for kompleks behandling blir den utført i eksempelet på fig. 14 med en forenklet deler 117.
Maskeringsspekteret sendes via en syntesekrets 118 til en subraktor 119 som mates via en forsinkelseskrets 121 med en utgang fra kretsen 114 til påvisning av summen, d.v.s. Burke spekteret SB fra den ovennevnte krets 114 for påvisning av den samlede sum. Ved subtraksjonen mellom maskeringsspekteret og Burke spekteret SB i subraktoren 119 blir den del av Burke spekteret SB som ligger under nivået for maskeringsnivået MS maskert som vist på fig. 16.
I syntesen i syntesekretsen 118 kan data som angir en såkalt minste hørbarhetskurve RC fra en minste hørbarhetskurve- generator 122 som oppviser egenskapene ved menneskets lydfornemmelse som vist på fig. 17 kombineres med det ovennevnte maskeringsspektrum. I minimum hørbarhetskurven blir en støy ikke hørbar hvis dens absolutte nivå er lavere enn minimum hørbarhetskurven. Minimum hørbarhetskurven blir forkjellig med f. eks. forskjell i tilbakespillingsvolumet selvom kodingen er den samme. I et praktisk digitalt system er det imidlertid, siden det ikke er noen særlig forskjell på musikken fra det 16 bit dynamiske området, og hvis kvanti-ser ingsstøyen i frekvensområdet nær 4 kHz som er mest hørbar for øret ikke er hørbar, antas kvantiseringsstøyen som er lavere enn nivået for minimum hørbarhetskurven å være ikke hørbar i andre frekvensområder. Hvis det derfor antas at systemet som benyttes på en slik måte at støyen nær 4 kHz i systemets ordlengde er ikke hørbar og det tålbare støynivå som fåes ved syntetisering av minimum hørbarhetskurven RC og maskeringsspekteret MS kan støynivået i dette tilfellet sies å være det som ligger opp til de skraverte linjer. I eksempelet på fig. 14 er imidlertid nivået på 4 kHz for minimum hørbarhetskurven avpasset til minimumnivået som svarer til f. eks. 20 biter. På fig. 17 er signalspekteret SS også vist.
Det skal påpekes at i en korrigeringskrets 120 for tålbart støynivå blir det tålbare støynivå fra subraktoren 119 korrigert basert på informasjonen om den såkalte likelydstyr-kekurve. Korreksjonskretsen 120 for tålbart støynivå blir matet med en utgang fra en beslutningskrets 128 for korreksjonsverdi.
Beslutningskretsen 128 for korreksjonsverdi gir som utgang korreksjonsverdidata til korreksjon av det tålbare støynivå fra subtraktoren 119 basert på informasjonsdata fra den forhåndsinnstilte llkelydstyrkekurve. Det tålbare støynivå fra subtraktoren 119 blir korrigert med korreksjonsverdien som overføres til kretsen 120 for korreksjon av det tålbare støynivå.
Likelydstyrkekurven er imidlertid knyttet til visse egenskaper ved menneskets lydfornemmelse og finnes ved å forbinde lydtrykkene ved de respektive frekvenser som høres med samme styrke som den rene lyd på 1 kHz. Likelydstyrkekurven følger hovedsakelig samme kurve som minimum hørbarhetskurven som er vist på fig. 17. I likelydstyrkekurven høres en lyd med et lydtrykk som er 8 - 10 dB lavere fra 1 kHz i området med 4 kHz med samme verdi som 1 kHz's lyd mens en lyd ikke kan høres i området ved 50 kHz utenat lydtrykket er omtrent 15 dB høyere enn lydtrykket ved 1 kHz. På bakgrunn av dette vil det sees at korreksjonen av tålbart støynivå som tar hensyn til likelydstyrkekurven passer til egenskapene ved menneskets lydfornemmelse.
Den informasjon som gjelder det tålbare støynivå og som er bestemt på denne måte blir overført til en ROM 130 der flere data vedrørende tildeling av bittall som benyttes til koding av amplitudeinformasjonen Am og faseinformasjonen Ph er lagret. Data vedrørende tildeling av bitantall, som svarer til utgangen fra subtraksjonskretsen 119 (nivået for forskjellen mellom energien i hvert bånd og utgangen fra innstillingsanordningen for støynivå) kan taes som utgang fra ROM 130. Antall biter som blir tildelt faseinformasjonen er mindre enn det som blir tildelt amplitudeinformasjonen som beskrevet tidligere. Utgangen fra ROM 130 tilføres kodekretsen 160 for amplitudeinformasjonen og kodekretsen 170 for faseinformasjonen. I kretsen 160 blir amplitudeinformasjonen Am som tilføres via en forsinkelseskrets 123 kodet med antall bitertildelingen fra ROM 130 mens faseinformasjonen Ph som tilføres via en forsinkelseskrets 124 blir kodet i kretsen 170. I disse kretser 160, 170 blir med andre ord områdekom-ponentene kodet med antall biter som er tildelt ifølge nivået på forskjellen mellom energiene i de kritiske bånd og det tålbare støynivå slik at antall biter tildelt faseinformasjonen Ph er mindre enn det som er tildelt amplitudeinformasjonen Am. Forsinkelseskretsen 121 er imidlertid innrettet til å forsinke Burke spekteret SB fra kretsen 114 til påvisning av summen under hensyntagen til de forsinkelser som oppstår i kretsene på oppstrømsiden av syntesekretsen 118 såvel som for å forsinke amplitudeinformasjonen Am eller faseinformasjonen Ph i betraktning av de forsinkelser som oppstår i forsinkelseskretsene 123, 124 eller i kretsene på oppstrømsiden av ROM 130.
Selvom informasjonen om tildelt bitantall for faseinformasjonen Ph og for amplitudeinformasjonen Am kan bli tilført direkte fra beslutningskretsen 106 til dekodekretsen blir bitantallet i informasjonen om tildelt bitantall komprimert i den foreliggende utførelse.
Det betyr at i beslutningskretsen 106 er antall av reduserte biter om faseinformasjonen Ph og fra amplitudeinformasjonen Am bestemt tidligere. F. eks. blir tildeling av antall biter for faseinformasjonen Ph og for amplitudeinformasjonen Am stilt inn på forhånd slik at tildeling av antall biter for faseinformasjonen Ph for det høye området (f. eks. 10 kHz eller høyere) er en bit mindre enn for amplitudeinformasjonen Am. På denne måte vil bare en bit for tildelingsinfor-masjonen når det gjelder faseinformasjonen eller for amplitudeinformasjonen kunne overføres sammen med de kodede data for faseinformasjonen Ph og amplitudeinformasjonen Am.
Dette betyr at hvis koderen på nedstrømsiden blir kjent med de på forhånd bestemte tilstander for bitreduksjonen kan koderen finne informasjonen om det andre tildelte bitantall på grunnlag av informasjonen om det gjenværende bitantall. Dermed behøver den sistnevnte informasjonen ikke sendes hvorved antall biter i informasjonen om det tildelte bitantall kan reduseres. Hvis informasjonen som overførs som informasjon om tildelt bitantall gjelder faseinformasjonen Ph vil antall overførte biter kunne reduseres sammenlignet med overføringen av informasjon om tildelte bitantall for amplitudeinformasjonen Am.
Da som er kodet på grunnlag av amplitudeinformasjonen Am i kodekretsen 160 for ampi itudeinformasjon kommer som utgang via utgangsklemmen 161 mens data som er kodet på grunnlag av faseinformasjonen Ph kommer som utgang via utgangsklemmen 171. Informasjonen om tildelt bitantall som er utgang fra beslutningskretsen 106 kommer som utgang fra utgangsklemmen 151. De kodede data for amplitudeinformasjonen Am og for faseinformasjonen Ph blir dekodet ved bruk av informasjonen om det tildelte bitantall.
Med den ovenfor beskrevne anordning blir digitale inngangsdata omdannet til ampi itudeinformasjon Am og faseinformasjon Ph ved frekvensanalyser og antall biter som blir tildelt faseinformasjonen Ph reduseres slik at det blir mindre enn det antall som blir tildelt amplitudeinformasjonen Am på tidspunktet for koding av faseinformasjonen Ph og amplitudeinformasjonen Am slik at det blir mulig å redusere de kodede data.
Hvis, i tillegg, antallet av reduserte biter for faseinformasjonen Ph sammenlignet med for amplitudeinformasjonen Am er bestemt på forhånd for hvert bånd behøver bare et av de tildelte bitantalldata for amplitudeinformasjonen Am eller for faseinformasjonen Ph bli overført slik at antallet av biter for overføring av informasjonen om tildelte biter kan reduseres ytterligere. Da antallet av tildelte biter til de respektive områder stilles inn ved bruk av det tålbare støynivå basert på maskeringsmengden slik den finnes på grunnlag av energiene i amplitudeinformasjonen for de respektive bånd kan i tillegg bitkomprimering oppnås på en måte som er mindre utsatt for forringelse når det gjelder lydfornemmelsen.
Syntesen av den tidligere nevnte minimum hørbarhetskurve kan imidlertid utelates og i så tilfelle kan generatoren for minimum hørbarhetskurve og syntesekretsen 118 utelates og utgangen fra subtraktoren 116 blir overført direkte til subtraktoren 119 etter dekonvolvering i deleren 117.
Den foreliggende oppfinnelse kan anvendes ikke bare på adaptiv omformingskoding ved behandling av digitale inngangssignaler ved ortogonal omforming som i utførelsen på fig. 12 men anordningen kan også tilpasses delbåndkoding (SBC) og i så tilfelle blir signalene delt i flere bånd med båndpass-filtere etc. til bestemmelse av det antall biter som er tildelt hvert bånd.
Med den foreliggende anordning til høyeffektiv koding av digitale data kan koding utføres i overensstemmelse med signalegenskaper så som om de er transiente eller stasjonære mens bitkomprimering også utføres siden blokklengdene for ortogonal omforming for de respektive områder blir bestemt i en beslutningskrets om blokklengde basert på egenskapene (transiente eller stasjonære etc.) av blokkdata før ortogonal omforming av hvert bånd og ortogonal omforming av hver bånd utføres på den dermed bestemte blokklengde.
Med den foreliggende anordning til høyeffektiv koding av digitale data kan, siden bare en av utgangene fra de respektive ortogonale omformingsanordninger velges basert på utgangen fra de mange ortogonale omformingsanordninger, optimalt kodet utgang oppnås i overensstemmelse med egenskapene ved de digitale inngangssignaler og egenskapene ved menneskets lydfornemmelse ved valg av den utgang fra den ortogonale omformingsanordning som har det minste antall tildelte biter på kodingstidspunktet slik at optimal lydkvalitet kan frembringes ved dekoding og omforming av den kodede utgang til lyd.
Med den foreliggende anordning til høyeffektiv koding av digitale data kan det dessuten oppnås optimal bittildeling selvom signalene er signaler med høy tonalitet siden antall tildelte biter på kodetidspunktet blir bestemt på grunnlag av den flytende koeffisient som bygger på maksimum verdidata i blokken som består av data fremkommet ved frekvensanalyse av digitale inngangsdata og det tålbare støynivå som er basert på blokk-for-blokk energi.
Med foreliggende anordning til høyeffektiv koding av digitale data blir videre antall biter som er tildelt faseinformasjonen for et på forhånd bestemt område redusert slik at det er mindre enn det som er tildelt amplitudeinformasjonen hvorved bitkomprimeringsforhold kan heves og overføringshas-tigheten for biter reduseres når de digitale inngangsdata blir omdannet til ampi itudeinformasjon og faseinformasjon ved frekvensanalyser og amplitudeinformasjonen og faseinformasjonen blir kodet.
Med den foreliggende anordning til høyeffektiv koding av digitale data kan forringelsen av lydkvaliteten reduseres når det gjelder lydfornemmelsen siden det bånd hvori informasjonen om tildelte bitantall for faseinformasjonen Ph er redusert er det høye kritiske bånd som tar hensyn til egenskapene ved menneskets lydfornemmelse.
Anordningen ifølge oppfinnelsen kan med god virkning benyttes for datakodeanordninger til registrering i mediapakninger som f. eks. en såkalt kompaktplate (CD).

Claims (6)

1. Anordning for høyeffektiv koding av digitale data, der innmatede digitale data oppdeles (41, 42) i flere bånd, der blokker hver består av flere sampler dannet i hvert bånd, og ortogonal transformasjon (43-45) utføres i hver blokk av båndet for å frembringe koefflslentdata, hvilke koeffisientdata kodes (46-48),karakterisert ved en blokklengde beslutningskrets (49, 50, 51) for å bestemme blokklengden for ortogonale transformasjoner av hvert bånd basert på karakteristika av blokkdata forut for ortogonal transformasjon av hvert bånd, og der nevnte ortogonale transformasjon i hvert bånd utføres med blokklengden bestemt av nevnte blokklengde beslutningskrets (49-51).
2. Anordning som angitt i krav 1,karakterisertved at båndbredden for hvert bånd er valgt til å være bredere mot de høyere frekvenser.
3. Anordning som angitt i krav 2,karakterisertved at nevnte blokklengder er kortere mot de høyere frekvenser ved oppdeling.
4 . Anordning som angitt i krav 2,karakterisertved at nevnte blokklengder er forskjellige for midtre og høye områder.
5 . Anordning som angitt i krav 1, 2, 3 eller 4,karakterisert vedat nevnte ortogonale transformasjon er diskret cosinustransformasjon (DCT).
6. Anordning som angitt i krav 1, 2, 3 eller 4,karakterisert vedat nevnte ortogonale transformasjon er hurtig Fouriertransformasjon (FFT).
NO924551A 1991-03-29 1992-11-25 Anordning for hoeyeffektiv koding av digitale data NO306007B1 (no)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP03091183A JP3089690B2 (ja) 1991-03-29 1991-03-29 ディジタルデータの高能率符号化方法
JP03091185A JP3089691B2 (ja) 1991-03-29 1991-03-29 ディジタルデータの高能率符号化方法
PCT/JP1992/000387 WO1992017884A1 (en) 1991-03-29 1992-03-27 High efficiency digital data encoding and decoding apparatus

Publications (3)

Publication Number Publication Date
NO924551D0 NO924551D0 (no) 1992-11-25
NO924551L NO924551L (no) 1993-01-25
NO306007B1 true NO306007B1 (no) 1999-08-30

Family

ID=26432643

Family Applications (1)

Application Number Title Priority Date Filing Date
NO924551A NO306007B1 (no) 1991-03-29 1992-11-25 Anordning for hoeyeffektiv koding av digitale data

Country Status (18)

Country Link
US (1) US5414795A (no)
EP (1) EP0537361B1 (no)
KR (1) KR100293855B1 (no)
CN (1) CN1030129C (no)
AT (1) ATE153165T1 (no)
AU (2) AU648656B2 (no)
BR (1) BR9204820A (no)
CA (1) CA2083713C (no)
DE (1) DE69219718T2 (no)
DK (1) DK0537361T3 (no)
EG (1) EG20351A (no)
FI (1) FI112979B (no)
HU (1) HU213963B (no)
NO (1) NO306007B1 (no)
PT (1) PT100309B (no)
TR (1) TR25961A (no)
WO (1) WO1992017884A1 (no)
ZA (1) ZA921988B (no)

Families Citing this family (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5115240A (en) * 1989-09-26 1992-05-19 Sony Corporation Method and apparatus for encoding voice signals divided into a plurality of frequency bands
EP0786874B1 (en) * 1991-09-30 2000-08-16 Sony Corporation Method and apparatus for audio data compression
US5765127A (en) * 1992-03-18 1998-06-09 Sony Corp High efficiency encoding method
JP3153933B2 (ja) * 1992-06-16 2001-04-09 ソニー株式会社 データ符号化装置及び方法並びにデータ復号化装置及び方法
JP3186292B2 (ja) * 1993-02-02 2001-07-11 ソニー株式会社 高能率符号化方法及び装置
JP3188013B2 (ja) * 1993-02-19 2001-07-16 松下電器産業株式会社 変換符号化装置のビット配分方法
JP3088580B2 (ja) * 1993-02-19 2000-09-18 松下電器産業株式会社 変換符号化装置のブロックサイズ決定法
JP3186307B2 (ja) * 1993-03-09 2001-07-11 ソニー株式会社 圧縮データ記録装置及び方法
JP3123290B2 (ja) * 1993-03-09 2001-01-09 ソニー株式会社 圧縮データ記録装置及び方法、圧縮データ再生方法、記録媒体
JP3531177B2 (ja) * 1993-03-11 2004-05-24 ソニー株式会社 圧縮データ記録装置及び方法、圧縮データ再生方法
TW232116B (en) * 1993-04-14 1994-10-11 Sony Corp Method or device and recording media for signal conversion
US5581654A (en) * 1993-05-25 1996-12-03 Sony Corporation Method and apparatus for information encoding and decoding
CN1064773C (zh) * 1993-06-30 2001-04-18 索尼公司 数字信号的编码方法和解码方法
US5632003A (en) * 1993-07-16 1997-05-20 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for coding method and apparatus
US5415979A (en) * 1993-07-28 1995-05-16 Konica Corporation Stabilizer composition for processing silver halide photographic light-sensitive material and a method of processing silver halide light-sensitive material using the same
US5451954A (en) * 1993-08-04 1995-09-19 Dolby Laboratories Licensing Corporation Quantization noise suppression for encoder/decoder system
TW327223B (en) * 1993-09-28 1998-02-21 Sony Co Ltd Methods and apparatus for encoding an input signal broken into frequency components, methods and apparatus for decoding such encoded signal
KR100330290B1 (ko) * 1993-11-04 2002-08-27 소니 가부시끼 가이샤 신호부호화장치,신호복호화장치,및신호부호화방법
JP3125543B2 (ja) * 1993-11-29 2001-01-22 ソニー株式会社 信号符号化方法及び装置、信号復号化方法及び装置、並びに記録媒体
JPH07205496A (ja) * 1994-01-14 1995-08-08 Oki Electric Ind Co Ltd ページプリンタ及びデータ圧縮方法
US5608713A (en) * 1994-02-09 1997-03-04 Sony Corporation Bit allocation of digital audio signal blocks by non-linear processing
DE4405659C1 (de) * 1994-02-22 1995-04-06 Fraunhofer Ges Forschung Verfahren zum kaskadierten Codieren und Decodieren von Audiodaten
JP3186412B2 (ja) * 1994-04-01 2001-07-11 ソニー株式会社 情報符号化方法、情報復号化方法、及び情報伝送方法
JP3277682B2 (ja) * 1994-04-22 2002-04-22 ソニー株式会社 情報符号化方法及び装置、情報復号化方法及び装置、並びに情報記録媒体及び情報伝送方法
JP3277699B2 (ja) * 1994-06-13 2002-04-22 ソニー株式会社 信号符号化方法及び装置並びに信号復号化方法及び装置
JP3277705B2 (ja) 1994-07-27 2002-04-22 ソニー株式会社 情報符号化装置及び方法、並びに情報復号化装置及び方法
JP3341474B2 (ja) * 1994-07-28 2002-11-05 ソニー株式会社 情報符号化方法及び復号化方法、情報符号化装置及び復号化装置、並びに情報記録媒体
JPH09506478A (ja) * 1994-10-06 1997-06-24 フィリップス エレクトロニクス ネムローゼ フェンノートシャップ 光放射半導体ダイオード及びこのようなダイオードの製造方法
EP0737959A4 (en) * 1994-10-28 1999-05-06 Nippon Steel Corp DEVICE FOR DECODING ENCODED DATA, AND USING DEVICE FOR DECODING MULTIPLEXED AUDIO / VIDEO DATA
JP3557674B2 (ja) * 1994-12-15 2004-08-25 ソニー株式会社 高能率符号化方法及び装置
JPH08190764A (ja) * 1995-01-05 1996-07-23 Sony Corp ディジタル信号処理方法、ディジタル信号処理装置及び記録媒体
EP0721257B1 (en) * 1995-01-09 2005-03-30 Daewoo Electronics Corporation Bit allocation for multichannel audio coder based on perceptual entropy
CN1110955C (zh) * 1995-02-13 2003-06-04 大宇电子株式会社 自适应地编码来自多条通道的输入数字音频信号的装置
JP2842276B2 (ja) * 1995-02-24 1998-12-24 日本電気株式会社 広帯域信号符号化装置
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
JP2778567B2 (ja) * 1995-12-23 1998-07-23 日本電気株式会社 信号符号化装置及び方法
JP3189660B2 (ja) 1996-01-30 2001-07-16 ソニー株式会社 信号符号化方法
KR100223169B1 (ko) * 1996-06-14 1999-10-15 윤종용 펄스부호변조된 디지털 오디오신호의 기록 및 재생을 위한 시스템
US5892746A (en) * 1996-06-15 1999-04-06 Samsung Electronics Co., Ltd. System for recording and/or reproducing a pulse code modulation digital audio signal
JP3318825B2 (ja) * 1996-08-20 2002-08-26 ソニー株式会社 デジタル信号符号化処理方法、デジタル信号符号化処理装置、デジタル信号記録方法、デジタル信号記録装置、記録媒体、デジタル信号伝送方法及びデジタル信号伝送装置
JPH1083623A (ja) * 1996-09-10 1998-03-31 Sony Corp 信号記録方法、信号記録装置、記録媒体および信号処理方法
JP3496411B2 (ja) * 1996-10-30 2004-02-09 ソニー株式会社 情報符号化方法及び復号化装置
DE19736669C1 (de) * 1997-08-22 1998-10-22 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Erfassen eines Anschlags in einem zeitdiskreten Audiosignal sowie Vorrichtung und Verfahren zum Codieren eines Audiosignals
US5903872A (en) * 1997-10-17 1999-05-11 Dolby Laboratories Licensing Corporation Frame-based audio coding with additional filterbank to attenuate spectral splatter at frame boundaries
US6654189B1 (en) * 1998-04-16 2003-11-25 Sony Corporation Digital-signal processing apparatus capable of adjusting the amplitude of a digital signal
US6353584B1 (en) * 1998-05-14 2002-03-05 Sony Corporation Reproducing and recording apparatus, decoding apparatus, recording apparatus, reproducing and recording method, decoding method and recording method
US6353807B1 (en) * 1998-05-15 2002-03-05 Sony Corporation Information coding method and apparatus, code transform method and apparatus, code transform control method and apparatus, information recording method and apparatus, and program providing medium
GB2349054A (en) * 1999-04-16 2000-10-18 Nds Ltd Digital audio signal encoders
US6868377B1 (en) * 1999-11-23 2005-03-15 Creative Technology Ltd. Multiband phase-vocoder for the modification of audio or speech signals
JP2003518315A (ja) 1999-12-21 2003-06-03 ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング 演奏装置および記憶媒体
EP2040253B1 (en) * 2000-04-24 2012-04-11 Qualcomm Incorporated Predictive dequantization of voiced speech
US7035873B2 (en) * 2001-08-20 2006-04-25 Microsoft Corporation System and methods for providing adaptive media property classification
US6963975B1 (en) * 2000-08-11 2005-11-08 Microsoft Corporation System and method for audio fingerprinting
KR101037931B1 (ko) * 2004-05-13 2011-05-30 삼성전자주식회사 2차원 데이터 처리를 이용한 음성 신호 압축 및 복원장치와 그 방법
WO2006046546A1 (ja) * 2004-10-26 2006-05-04 Matsushita Electric Industrial Co., Ltd. 音声符号化装置および音声符号化方法
KR20100079121A (ko) * 2008-12-30 2010-07-08 주식회사 동부하이텍 이미지 인코더 및 이미지 인코딩 방법
US8386266B2 (en) * 2010-07-01 2013-02-26 Polycom, Inc. Full-band scalable audio codec
US8428381B2 (en) * 2010-06-04 2013-04-23 Altek Corporation Image compression method with variable quantization parameter
WO2011156905A2 (en) * 2010-06-17 2011-12-22 Voiceage Corporation Multi-rate algebraic vector quantization with supplemental coding of missing spectrum sub-bands
US8831932B2 (en) 2010-07-01 2014-09-09 Polycom, Inc. Scalable audio in a multi-point environment
EP2879131A1 (en) 2013-11-27 2015-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
US10699721B2 (en) * 2017-04-25 2020-06-30 Dts, Inc. Encoding and decoding of digital audio signals using difference data

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4184049A (en) * 1978-08-25 1980-01-15 Bell Telephone Laboratories, Incorporated Transform speech signal coding with pitch controlled adaptive quantizing
CA1292071C (en) * 1985-06-28 1991-11-12 Tomohiko Taniguchi Coding transmission equipment for carrying out coding with adaptive quantization
NL8700985A (nl) * 1987-04-27 1988-11-16 Philips Nv Systeem voor sub-band codering van een digitaal audiosignaal.
US4815068A (en) * 1987-08-07 1989-03-21 Dolby Ray Milton Audio encoder for use with more than one decoder each having different characteristics
JPH01276980A (ja) * 1988-04-28 1989-11-07 Sharp Corp 画像データ直交変換符号化方式
JPH0783315B2 (ja) * 1988-09-26 1995-09-06 富士通株式会社 可変レート音声信号符号化方式
EP0370277A3 (de) * 1988-11-24 1991-09-18 Siemens Aktiengesellschaft Subband-Übertragungssystem
US5109417A (en) * 1989-01-27 1992-04-28 Dolby Laboratories Licensing Corporation Low bit rate transform coder, decoder, and encoder/decoder for high-quality audio
EP0610975B1 (en) * 1989-01-27 1998-09-02 Dolby Laboratories Licensing Corporation Coded signal formatting for encoder and decoder of high-quality audio
JPH0366228A (ja) * 1989-08-04 1991-03-20 Matsushita Electric Ind Co Ltd ブロック符号化装置と復号化装置
US4932062A (en) * 1989-05-15 1990-06-05 Dialogic Corporation Method and apparatus for frequency analysis of telephone signals
US5115240A (en) * 1989-09-26 1992-05-19 Sony Corporation Method and apparatus for encoding voice signals divided into a plurality of frequency bands
JPH03117919A (ja) * 1989-09-30 1991-05-20 Sony Corp ディジタル信号符号化装置
JP2913731B2 (ja) * 1990-03-07 1999-06-28 ソニー株式会社 ディジタルデータの高能率符号化方法
JP2861238B2 (ja) * 1990-04-20 1999-02-24 ソニー株式会社 ディジタル信号符号化方法
JP2751564B2 (ja) * 1990-05-25 1998-05-18 ソニー株式会社 ディジタル信号符号化装置

Also Published As

Publication number Publication date
AU1448992A (en) 1992-11-02
FI112979B (fi) 2004-02-13
NO924551L (no) 1993-01-25
WO1992017884A1 (en) 1992-10-15
HU9203758D0 (en) 1993-04-28
DE69219718T2 (de) 1997-10-02
AU5516894A (en) 1994-04-28
US5414795A (en) 1995-05-09
PT100309B (pt) 1999-04-30
KR100293855B1 (ko) 2001-09-17
HUT63269A (en) 1993-07-28
CN1030129C (zh) 1995-10-18
KR930700945A (ko) 1993-03-16
HU213963B (en) 1997-11-28
PT100309A (pt) 1994-04-29
ZA921988B (en) 1993-02-24
TR25961A (tr) 1993-11-01
DE69219718D1 (de) 1997-06-19
NO924551D0 (no) 1992-11-25
AU670655B2 (en) 1996-07-25
CA2083713A1 (en) 1992-09-30
EP0537361A1 (en) 1993-04-21
BR9204820A (pt) 1993-07-13
CN1068689A (zh) 1993-02-03
FI925401A0 (fi) 1992-11-27
FI925401A (fi) 1992-11-27
CA2083713C (en) 2003-08-19
EP0537361B1 (en) 1997-05-14
ATE153165T1 (de) 1997-05-15
AU648656B2 (en) 1994-04-28
EG20351A (en) 1999-01-31
DK0537361T3 (da) 1997-06-09

Similar Documents

Publication Publication Date Title
NO306007B1 (no) Anordning for hoeyeffektiv koding av digitale data
KR100279094B1 (ko) 디지털신호부호화장치
KR100312664B1 (ko) 디지탈신호부호화방법
US5115240A (en) Method and apparatus for encoding voice signals divided into a plurality of frequency bands
EP0473367B1 (en) Digital signal encoders
KR100241498B1 (ko) 디지털신호 부호화장치
US5581654A (en) Method and apparatus for information encoding and decoding
JPH01501435A (ja) デジタル化オーディオ信号の伝送方法
JPH03117919A (ja) ディジタル信号符号化装置
JP3572090B2 (ja) ディジタル伝達システムにおける送信機,受信機及び記録担体
JP2858122B2 (ja) デジタル適応変換符号化方法
JP3041967B2 (ja) ディジタル信号符号化装置
JPH06324093A (ja) オーディオ信号のスペクトル表示装置
JP3060578B2 (ja) ディジタル信号符号化方法
JP3132031B2 (ja) ディジタル信号の高能率符号化方法
JP3060576B2 (ja) ディジタル信号符号化方法
JPH04302531A (ja) ディジタルデータの高能率符号化方法
JPH04302535A (ja) ディジタル信号符号化方法
JPH04104618A (ja) ディジタル信号符号化装置
JPH0851383A (ja) オーディオデータ圧縮装置
JPH09102741A (ja) 符号化方法および装置、復号化方法および装置、並びに記録媒体
JPS59214346A (ja) サブバンド符号化方法とその符号化復号器