NO326065B1

NO326065B1 - Atte pixlers heltallstransform

Info

Publication number: NO326065B1
Application number: NO20070193A
Authority: NO
Inventors: Gisle Bjontegaard
Original assignee: Tandberg Telecom As
Priority date: 2007-01-11
Filing date: 2007-01-11
Publication date: 2008-09-08
Also published as: NO20070193L; US20080175323A1; WO2008085066A3; WO2008085066A2; US8175156B2

Abstract

Foreliggende oppfinnelse vedrører videokoding/dekoding og beskriver en fremgangsmåte for å transformere til/fra transform koeffisienter og restpixel data i bevegelige bilder ved ett sett vektorer. To alternative vektorsett er beskrevet som begge tilveiebringer en optimal balanse mellom god ytelse og forenkelt beregning.

Description

Oppfinnelsens område

Oppfinnelsen vedrører systemer for videokompresjon, og nærmere bestemt en fremgangsmåte som utnytter en heltallstransform funksjon.

Bakgrunn for oppfinnelsen

Overføring av bevegelige bilder i sanntid benyttes i flere bruksområder slik som for eksempel videokonferanse, nettmøter, TV-kringkasting og videotelefoni.

Imidlertid krever representasjon av bevegelige bilder nye informasjon ettersom digital video typisk beskrives ved å representere hvert pixel i et bilde ved 8 bits (1 byte). Slike ukomprimert videodata resulterer i store bitvolumer, og kan ikke overføres over konvensjonelle kommunikasjonsnettverk og transmisjonslinjer i sanntid på grunn av begrenset båndbredde.

Overføring av video i sanntid krever derfor datakompresjon i stor utstrekning. Datakompresjon kan imidlertid gå på akkord med bildekvaliteten. Derfor har det blitt gjort store innsatser for å utvikle kompresjonsteknikker som tillater sanntidsoverføring av høykvalitets video over dataforbindelser med begrenset båndbredde.

I systemer for videokompresjon er hovedhensikten å representere videoinformasjon med så liten kapasitet som mulig. Kapasitet defineres med bits, enten som en konstant verdi, eller som bits/tid enhet. I begge tilfeller er hovedhensikten å redusere antall bits.

Den vanligste metoden for videokoding beskrives i MPEG<*> og H.26<*> standarder. Videodataene undergår fire hovedprosesser før overføring, nemlig prediksjon, transformasjon, kvantisering og entropikoding.

Prediksjonsprosessen reduserer betydelig mengden bits som kreves for hvert bilde i en

videosekvens som skal overføres. Den tar fordel av likheten mellom deler av sekvensen med andre deler av sekvensen. Siden prediktordelen er kjent for både koder og dekoder, må bare forskjellen overføres. Denne forskjellen krever typisk mer mindre kapasitet for dens representasjon. Prediksjonen er hovedsakelig basert på bildeinnhold fra tidligere rekonstruerte bilder hvor lokasjonen av innholdet defineres med bevegelsesvektorer. Prediksjonsprosessen utfører typiske på kvadratblokkstørrelser (for eksempel 16x16 pixler). Legg merke til at i noen tilfeller brukes prediksjoner pixler basert på tilliggende

pixler i det samme bilde istedenfor pixler av foregående bilder. Dette kalles som intraprediksjon, i motsetning til interprediksjon.

Residualet representert som en blokk av data (for eksempel 4x4 eller 8x8 pixler) inneholder fremdeles intern korrelasjon. En velkjent fremgangsmåte for å ta fordel av dette er å utføre en to dimensjonal blokktransformasjon. ITU-rekommendasjonen H.264 bruker en 4 x 4 heltallstype transform. Denne transformerer 4x4 pixler til 4 x 4 transform koeffisienter og de kan vanligvis representeres med færre bits enn pixelrepresentasjon. Transformasjon av en 4 x 4 rekke av pixler med intern korrelasjon vil sannsynligvis resultere i en 4 x 4 blokk av transform koeffisienter med mange færre ikke-null verdier enn den originale 4x4 pixelbokken.

Direkte representasjon av transform koeffisientene er fremdeles for kostbar for mange applikasjoner. En kvantiseringsprosess utføres for ytterligere reduksjon av datarepresentasjon. Derfor undergår transform koeffisientene kvantisering. Det mulige verdiområdet av transform koffisientene deles inn i verdi intervaler som hvert er begrenset av en øverste og nederste desisjons verdi og tildelt en fast kvantiseringsverdi. Transform koeffisientene blir deretter kvantifisert til kvantiseringsverdien assosiert med intervalene som de respektive koeffisienter befinner seg i. Koeffisientene som er lavere enn den laveste desisjons verdien blir kvantifisert til null. Det bør nevnes at denne kvantifiseringsprosessen resulterer i at den rekonstruerte videosekvensen er noe forskjellig sammenlignet med den ukomprimerte sekvensen.

Sammenfatning av oppfinnelsen

Egenskapene ved foreliggende oppfinnelsen definert i de vedføyde selvstendige patentkrav karakteriserer denne fremgangsmåte.

Detaljert beskrivelse av foreliggende oppfinnelse

Foreliggende oppfinnelse tilveiebringer en ny 8-pixel digital transform som balanserer mellom ytelse og enkelthet i koding og dekodingsprosessen.

Som nevnt ovenfor, bruker det de fleste av dagens videokodingsmetoder blokkbasert koding. En blokk er typisk en samling pixler bestående av for eksempel 4 x 4, 8 x 8 eller 16x16 pixler. Antar at blokken som skal kodes er O (i, j), som også kan refereres til som de originale pixeldata. Videre er det vanlig å danne en prediksjon P (i, j), basert på allerede dekodede bildedata. Disse pixler kan tilhøre det samme bilde som O (i, j)

(intrakoding), eller ett eller flere andre bilder (interkoding). Det er fordelaktig hvis P (i, j) er som nær til O (i, j) som mulig. Imidlertid er det i de fleste tilfeller et betydelig residual, det vil si en betydelig forskjell mellom prediksjonen og de reelle data:

R(iJ) = 0(iJ)-P(i,j)

Prediksjonen beregnes samme måte, og derfor med det samme resultat, både ved koding på den sendende side, og dekoding på den mottakende side. Derfor er R (i, j) vanligvis hoveddelen av videosignalet som skal kodes og sendes.

Det er derfor også viktig at R (i, j) kodes på en effektiv måte. Som indikert tidligere er det derfor vanlig å utføre en 2 dimensjonalt transform av råpixel differansedata R (i, j) før koding. Den 2 dimensjonale transformen oppnås ofte ved å bruke en dimensjonal transform separat i den horisontale og vertikale retning. Det er derfor bare nødvendig å definere en en dimensjonal transform. En kandidat transform som konvensjonelt har blitt benyttet er den diskre cosinus transformen (DCT). Denne transformen virker godt hvis det er en noenlunde stor korrelasjon mellom pixler i R av (i, j). Imidlertid er DCT en transform basert på flyttall. Dette betyr vanligvis en ytterligere kompleksitet sammenlignet med bruk av heltall. Derfor brukes heltallstransform i nyere standarder slik som H.264.

H.264 kan bruke både 4 x 4 og 8 x 8 transform. De spesifiserte en dimensjonale transform grunnfunksjonen er:

4-pixel transform

8-pixel transform

For 4-pixel transformen er linjene markert 0 til 3. Dette indikerer 4 transform koeffisenter som representerer de 4 pixlene på en annen måte enn spesifisering av de 4 pixlene individuelt. De fire linjene betegnes vanligvis som basisvektorer av transformen. Basisvektorene er ortogonale hvilket betyr at produktet mellom 2 forskjellige vektorer er lik 0. For eksempel blir produktet mellom vektorene 0 og 1 beregnet som: (Ix2 + lxl-lxl-lx2) = 0. Det er typisk et krav til en transform å ha ortogonale basisvektorer.

Normalen til en basisvektor er kvadratsummen av hvert tall. Derfor er normalen til basisvektor 0 lik (l<2>+l<2>+l<2> + l<2>) = 4 og av basisvektor 1 lik (2<2> + l<2> + l<2> + 22) = 10. Det er derfor ses at denne 4-pixel transform har basisvektorer med 2 forskjellige normaler.

For passende rekonstruksjon av data etter transformasjon og invers transformasjon, må størrelsen av normal(ene) tas hensyn til. Dette gjøres typisk i

kvantiserings/dekvantiseringsprosessen. Denne forårsaker lite eller ingen ytterligere beregningsbelastning så lenge normalen er den samme for alle basisvektorer. Mer innsats er nødvendig hvis normalene er veldig forskjellige for de forskjellige basisvektorene.

Likeledes har 8-pixel transformen ortogonale basisvektorer. For dette sett av basisvektorer er det 3 forskjellige normaler.

DCT betraktes å være nær optimal for bruk i videokompresjon. Transformene ovenfor er noenlunde nær DCT og resulterer derfor i god kodingsytelse.

Som tidligere nevnt er ett av kravene for en god digital transform at basisvektorene er ortogonale. Det er også viktig at basisvektorene er nær til DCT, for å gi en så god ytelse av transformasjonsprosessen som mulig, det vil si begrenser mengdens støy introdusert av transform funksjon. Videre vil kvantisering og dekvantiseringsprosessen forenkles hvis normalene til alle basisvektorene er like, hvilket ikke er tilfellet for de eksempelvise basisvektorene beskrevet ovenfor. Endelig bør absoluttverdiene til basisvektorene holdes relativt små for den hensikt av en forenklet beregning.

Det er ganske trivielt å tilfredsstille hver av disse kriterier, men utfordringen er å finne basisvektorer som oppfyller alle kriterier i det samme sett av vektorer. Som det kan ses, vil de eksempelvise basisvektorer beskrevet ovenfor, som brukes i H.264 standarden, ikke oppfyller alle kriterier.

Den foreliggende oppfinnelse legger frem to vektorsett som oppfyller alle kriteriene ovenfor. I tillegg av å være ortogonale og ha like normale verdier, har simuleringer og tester vist at de respektive sett av basisvektorer ifølge foreliggende oppfinnelse tilveiebringer en optimal balanse mellom forenklet beregning og god ytelse. De to vektorsettene for en 8 x 8 transform ifølge foreliggende oppfinnelse er som følger:

Vektorsett 1:

Vektorsett 2:

Foreliggende oppfinnelse dekker også alle sett av basisvektorer som oppnås ved å multiplisere alle poster i en av vektorsettene ovenfor med det samme heltall.

For å oppnå en transform koeffisient blir et sett av 8 dataverdier multiplisert med en rad av basisvektorer og addert. Som et eksempel kan datastrengen (a, b, c, d, e, f, g, h) transformeres til transform koeffisienter (A, B, C, D, E, F, G, H) slik som dette:

osv.

Invers transform

For å utføre en invers transform av et sett med 8 dataverdier, utføres mulitplikasjoner med en kolonne i basisvektorrekken og adderes. Som et eksempel kan datastrengen (A, B, C, D, E, F, G, H) invers transformeres til (a, b, c, d, e, f, g, h) slik som dette:

osv.

Det samme settet av basisvektorer vil derfor spesifisere om handlingen er transform eller invers transform. Det er bruken av settet med spesifiserte tall som er forskjellige for transform og invers transform. Dette klargjøres med eksemplene ovenfor.

Claims

1. Fremgangsmåte for videokoding for å transformere en første blokk av restpixel verdier av bilder med en heltallstransform funksjon som genererer en korresponderende andre blokk av transform koeffisienter, karakterisert ved at heltalls transform funksjonen inkluderer et vektorsett av åtte vektorer, idet nevnte vektorsett er definert som: eller hvor m og n er heltall.

2. Fremgangsmåte ifølge krav 1, karakterisert ved at heltallstransform funksjonen brukes separate de horisontal og vertikal retning av den første blokk av restpixel verdier for å generere den korresponderende andre blokk av heltalls transform koeffisienter.

3. Fremgangsmåte ifølge ett av de foregående krav, karakterisert ved at blokkene representerer et samme første kvadrert område av 8 x 8 pixler i et bilde.

4. Fremgangsmåte ifølge ett av de foregående krav, karakterisert ved at nevnte første kvadrerte område dekker en fjerde del av en makro blokk som representerer et andre kvadrert område av 16 x 16 pixler i nevnte bilde.

5. Fremgangsmåte for dekoding for transformering av en første blokk av heltalls transform koeffisienter av bevegelige bilder av en heltalls invers transform funksjon som genererer en korresponderende andre blokk av restpixel verdier, karakterisert ved at heltalls invers transform funksjonen inkluderer et vektorsett av åtte vektorer, idet nevnte vektorsett er definert som: eller hvor m og n er heltall.

6. Fremgangsmåte ifølge krav 5, karakterisert ved at heltalls invers transform funksjon brukes separate i horisontal og vertikal retning av den første blokk av heltalls transform koeffisienter for å generere den korresponderende andre blokk av restpixel verdier.

7. Fremgangsmåte ifølge krav 5 eller 6, karakterisert ved at blokken representerer et samme første kvadrert område av 8x8 pixler i et bilde.

8. Fremgangsmåte ifølge krav ett av kravene 5-7, karakterisert ved at nevnte første kvadrerte område dekker en fjerde del av en makroblokk som representerer et andre kvadrert område av 16 x 16 pixler i nevnte bilde.