NO319660B1

NO319660B1 - Fremgangsmåte for interpolering av pixelverdier

Info

Publication number: NO319660B1
Application number: NO20035125A
Authority: NO
Inventors: Gisle Bjøntegaard
Original assignee: Tandberg Telecom As
Priority date: 2003-11-17
Filing date: 2003-11-17
Publication date: 2005-09-05
Also published as: NO20035125L; US20050105611A1; WO2005048608A1; NO20035125D0

Description

Området for oppfinnelsen

Oppfinnelsen angår videokomprimeringssystemer, og spesielt

komprimering/dekomprimering i digitale videosystemer.

Bakgrunn for oppfinnelsen

Transmisjon av bevegelige bilder i sanntid anvendes i flere applikasjoner, slik som f.eks. videokonferanser, nettmøter, TV-kringkasting og videotelefoni.

Det å representere bevegelige bilder krever imidlertid store mengder informasjon, idet digital video typisk beskrives ved å representere hver piksel i et bilde med 8

bits (1 byte). Slike ukomprimerte videodata fører til store bitvolumer, og kan ikke overføres over konvensjonelle kommunikasjonsnettverk og transmisjonslinjer i sanntid på grunn av begrenset båndbredde.

For å muliggjøre sanntids videotransmisjon kreves derfor stor grad av datakomprimering. Datakomprimering kan imidlertid gå på bekostning av bildekvalitet. Derfor har det vært gjort stor innsats for å utvikle komprimeringsteknikker som tillater sanntidstransmisjon av høykvalitets video over båndbreddebegrensede dataforbindelser.

I videokomprimeirngssystemer er hovedmålet å representere videoinformasjonen med så liten kapasitet som mulig. Kapasitet defineres med bits, enten som en konstantverdi eller som bits/tidsenhet. I begge tilfeller er hovedmålet å redusere antallet bits.

Den mest alminnelige videokodingsmetoden er beskrevet i standardene MPEG<*> og H.26<*>, og alle disse bruker blokkbasert prediksjon fra tidligere kodede og dekodede bilder. Videodataene gjennomløper fire hovedprosesser før transmisjon, nemlig prediksjon, transformasjon, kvantisering og entropikoding.

Prediksjonsprosessen reduserer betraktelig den mengden av bits som er nødvendig for at hvert bilde i en videosekvens skal overføres. Den drar fordelen av deler av sekvensen har likhet med andre deler av sekvensen. Siden prediktordelen er kjent både for koderen og dekoderen, behøver bare forskjellen overføres. Denne forskjellen krever typisk mye mindre kapasitet for sin representasjon. Prediksjonen er hovedsakelig basert på bildeinnhold fra tidligere rekonstruerte bilder, der beliggenheten av innholdet er definert ved bevegelsesvektorer.

I en typisk videosekvens vil innholdet av en nåværende blokk M ligne en korresponderende blokk i et tidligere dekodet bilde. Dersom ingen endringer hadde opptrådt siden det tidligere dekodede bildet, ville innholdet av M være lik en blokk med den samme beliggenhet i det tidligere dekodede bildet. I andre tilfeller kan et objekt i bildet ha blitt flyttet, slik at innholdet av M er mer likt en blokk med ulik beliggenhet i det tidligere dekodede bildet. Slike bevegelser representeres ved bevegelsesvektorer (V). Som eksempel betyr en bevegelsesvektor (3; 4) at innholdet av M har beveget seg 3 piksler til venstre og fire piksler oppover siden det tidligere dekodede bildet.

I H.262, H.263, MPEG1, MPEG2 er det samme konseptet utvidet, slik at bevegelsesvektorer også kan innta '/i-pikselverdier. En vektorkomponent på 5.5 impliserer da at bevegelsen er midt mellom 5 og 6 piksler. Mer spesifikt oppnås prediksjonen ved å ta gjennomsnittet mellom pikselen som representerer en bevegelse på 5 og pikselen som representerer en bevegelse på 6. Dette kalles et 2-tap-filter på grunn av operasjonen på to piksler for å fremskaffe prediksjonen av 1 piksel mellom dem. Alle filteroperasjoner kan defineres ved en impulsrespons. Operasjonen med å ta gjennomsnittet av 2 piksler kan uttrykkes med en impulsrespons på ( lA , Vi). Tilsvarende vil et gjennomsnitt over 4 piksler implisere en impulsrespons på %, %, 14).

Hensikten med midlingen er å definere en bevegelse av bildeinnholdet med en nøyaktighet på Vi piksel. I fortsettelsen av impulsresponsbeskrivelsen kan operasjonen også tolkes som lavpassfiltrering, fordi prosessen demper høye piksel-til-piksel-verdivariasjoner. Anta som et enkelt eksempel at de to heltallspikslene som skal midles, har verdiene (a, a), dvs. en minimumsvariasjon. Midling av pikslene innebærer å bruke impulsresponsen <l>Æ), og dette resulterer i verdien Yt

<*> a + Vi <*>a = a. I dette tilfellet går ingen informasjon tapt, og responsen defineres til å være 1. Motsatt impliserer (a, -a) maksimalvariasjon, og å utsette disse pikselverdiene for den samme impulsresponsen fører til V4 <*> a - Vi <*> a = 0, og den korresponderende responsen er null. Herav kan det avledes at frekvensresponsen nærmer seg en mot lave frekvenser (eller pikselverdivariasjoner) og null mot høye frekvenser. Dette samsvarer med karakteristikkene for et lavpassfilter. Midlingsprosessen fjerner informasjonsinnhold og i økende grad for høye frekvenser.

Fig. 1 viser frekvensresponsen som resulterer fra midling av to piksler. Kurven merket "ingen filtrering" er lik 1 helt opptil 180 på x-aksen (romfrekvens). Kurven "2-tap-filter" faller til null for høye frekvensverdier.

Det er ingen klart definert optimal form for frekvensresponskurven. Imidlertid vil fagfolk på området innse fordelen ved å ha frekvensresponsen nær 1 opptil en bestemt frekvens. Ved høyere frekvenser bør kurven avta. Årsaken til det sistnevnte er at høyfrekvensinnhold er vanskeligere å prediktere, og prediksjonen ved disse frekvenser (bildeinnhold med høy tekstur) synes ikke fornuftig, fordi korrelasjonen mellom prediksjonen og det virkelige bildeinnholdet sannsynligvis er liten. Det er derfor ønskelig at denne delen av frekvensinnholdet dempes eller fullstendig fjernes. Dette er illustrert ved "ideell frekvensrespons" i fig. 1. Begrepet "ideell frekvensrespons" vil bli benyttet i det følgende selv om det ikke er veldefinert.

Videre finnes en sammenheng mellom impulsresponsen og frekvensresponsen. Målet i videokomprimering er å gjøre avveininger mellom fremskaffelse av en frekvensresponskurve med karakteristikker nær den som er vist i kurven "ideell frekvensrespons" i fig. 1, og å ha en impulsrespons med så få filtertap-er som mulig. Det sistnevnte skyldes at lange filtre fører til ringing nær skarpt bildeinnhold, noe som kan resultere i subjektivt forstyrrende artefakter i det rekonstruerte bildet.

Sammenfatning av oppfinnelsen

Fremgangsmåten ifølge den foreliggende oppfinnelsen er kjennetegnet ved trekkene definert i det selvstendige, vedføyde krav.

Spesielt tilveiebringer den foreliggende oppfinnelsen en fremgangsmåte i videokoding og -dekoding for interpolering mellom heltallspikselposisjoner i et videobilde ved hjelp av et symmetrisk tap-filter, innbefattende trinnene å beregne verdier for Vi-pikselposisjoner ved det symmetriske tap-filteret som har en impulsrespons på (a,b,b,a), der tap-ene er av formen k/2<n>, a+b+b+a=l, og a er innenfor [-0.12, -0.09], og å beregne verdier for 14-pikselposisjoner ved midling mellom to verdier av naboposisjoner, hvorav minst én er en '/4-pikselposisjon i den horisontale og/eller vertikale retning.

Kort beskrivelse av tegningene

For å gjøre oppfinnelsen enklere å forstå, vil den følgende redegjørelse henvise til de vedføyde tegninger. Fig. 1 viser en ideell frekvensrespons i tillegg til frekvensresponsen for et 2-tap-filter og tilfellet uten filtrering, Fig. 2 viser frekvensresponser for alternative 4-tap-filtre for <!>/4-pikselposisjoner, Fig. 3 viser frekvensresponser for alternative 4-tap-filtre for 14-pikselposisjoner, Fig. 4 viser de kombinerte frekvensresponser for det som er vist i fig. 2 og 3.

Detaljert beskrivelse av den foreliggende oppfinnelsen

1 det følgende vil den foreliggende oppfinnelsen bli forklart ved å beskrive en foretrukket utførelsesform, og med henvisning til de vedføyde tegninger. En fagmann på området vil imidlertid innse andre anvendelser og modifikasjoner som finnes innenfor rekkevidden av oppfinnelsen, slik den er definert i det vedføyde selvstendige krav.

En ny videokomprimeringsstandard har nylig blitt utviklet som en samarbeidsoppgave mellom ITU og ISO/IEC. De formelle titlene for den felles standarden i de to standardiseirngsorganene er: "ITU-T Recommendation H.264" og "ISO/IEC MPEG-4 (Part 10) Advanced Video Coding". I det følgende vil denne felles standarden bli omtalt som H.264/AVC.

I H.264/AVC har kodingsmetoder blitt forbedret både hva gjelder bevegelsesoppløsning og antall piksler for hver interpolasjon. Metodene benytter bevegelseskompensert prediksjon med opptil Vi piksels nøyaktighet. Til og med 1/8 piksels nøyaktighet er definert, men ikke innbefattet i noen profil. Heltalls- og brøk-pikselposisjonene er angitt nedenfor (for enkelthets skyld er interpolasjoner bare vist mellom A og E):

Posisjonene A E U Y angir heltallspikselposisjoner, og A", E', A' og E" angir ytterligere heltallsposisjoner på linjen A-E. c k m o w angir halvpikselposisjonene. De interpolerte verdiene i disse posisjonene fremskaffes ved å benytte et 6-tapp-filter med impulsrespons (1/32, -5/32, 20/32, 20/32, -5/32, 1/32) som opererer på heltallspikselverdier. Som eksempel blir c da beregnet ved det følgende uttrykk:

Filteret opererer horisontalt eller vertikalt, slik det er hensiktsmessig. For å fremskaffe verdien for m, opererer filteret ikke på heltallsverdier, men på allerede interpolerte verdier i den andre retningen. De gjenværende posisjoner i kvadratet avbildet ovenfor fremskaffes ved midling av henholdsvis heltalls- og halv-nabopikselposisjoner:

Alle disse beregningene utføres med avrunding mot nærmeste heltall. Dette betyr at dersom A=100 og c= 101, blir b=101 (og ikke 100, som er like nær den virkelige middelverdi 100,5).

Ett av problemene ved 6-tapp-filteret i den tidligere kjente teknikk er at det ikke tilstrekkelig passer til beregningskapabilitetene for standardprosessorer. Derfor er typisk mer enn ett beregn i ngstrinn nødvendig for å fremskaffe én interpolert verdi, og dette er ikke å foretrekke på grunn av større forsinkelse og høyere prosessorkrav. Et filter med 4 tap-er eller mindre kunne på den annen side typisk utføres med én beregningssyklus. Siden vi ønsker å beregne halvpikselposisjoner og foretrekker et symmetrisk filter, finnes det bare to alternativer av filteret som innbefatter mindre enn 6 tap-er, nemlig 4-tap-filter og 2-tap-filter.

Oppfinneren av den foreliggende oppfinnelse har funnet at den subjektive oppfatning av bildekvalitet hos de fleste mennesker er bedre med bruk av 4-tap-filtre en ved 2-tap-filtre. Således antas i den følgende deduktive tilnærming at et 4-tap-filter benyttes.

Impulsresponsen for et symmetrisk 4-tap-filter kan uttrykkes som (a,b,b,a). Det antas videre at a+b+b+a=l (eller nær 1). Verdiene for a og b er videre foretrukket å være på formen k/2<n>, der k og n er heltall. Årsaken til dette er også i hovedsak å redusere beregningskompleksitet på grunn av den binære natur av prosessorene. Et eksempel på en impulsrespons for et 4-tap-filter utformet i samsvar med de ovenfor nevnte kriterier kan derfor være: (1/8, 3/8, 3/8, 1/8).

Med disse restriksjonene finnes det faktisk bare én frihetsdimensjon for variasjon av filteret. Dette velges å være verdien av a i det generelle uttrykket for 4-tap-filtre (a,b,b,a). b avledes fra a, siden a+b=<1>/2. Derved kan a benyttes som innstillingsparameter for å fremskaffe en filterkaråkteristikk nær en ideell frekvensrespons slik som den som er avbildet i fig. 1, dvs. en frekvensrespons som er maksimalt flat ved låve frekvenser.

Fig. 2 viser frekvensresponsene for fem 4-tap-filtre som impulsresponsene som er innbefattet i dem, korresponderer med. Frekvensresponsene er i det grunnleggende avledet ved å utføre den diskrete Fourier-transform for impulsresponsene. Ved sammenligning av disse frekvensresponsene med den ideelle frekvensresponsen i fig. 1, ser frekvensresponsene 1 og 2 ut til å være gode kandidater.

Impulsresponsene beskrevet ovenfor vedrører alle beregning av '/S-pikselposisjoner. 1 samsvar med teknikkens stilling utføres midling mellom en heltallsposisjon og en Vi-pikselposisjon ved å beregne verdier for W-pikselsposisjonene. Med henvisning til omtalen av pikselposisjonene gjengitt i bakgrunnsavsnittet, er et eksempel b=(A+c)/2.1 andre tilfeller gjøres midlingen på to '/i-pikselverdier, f.eks. ved beregning av g=(c+k)/2, der både c og k er '/a-pikselbeliggenheter, men i ulike retninger. Det tilsvarende gjelder for i, s og q. Mer generelt beregnes en middelverdi mellom to posisjoner. Filtreringseffekten av denne midlingen kan betraktes separat i hver retning (horisontalt og vertikalt). For hver retning viser det seg at én av de to posisjonene ikke filtreres i den relevante retning og at den andre posisjonen filtreres i samsvar med halvpikselinterpolasjonen. I eksemplet med g=(c+k)/2 filtreres c horisontalt på grunn av '/i-pikselinterpolasjonen, mens k ikke filtreres horisontalt. Vertikalt er situasjonen den motsatte.

Som resultat: Dersom den endimensjonale impulsresponsen for Vi-pikselinterpolasjonen er (a,b,b,a), og %-pikselverdier er avledet fra middelverdien av en '/4-pikselinterpolasjon og en ikke-J^-pikselinterpolasjon (f.eks. en heltallsverdi), kan den resulterende impulsrespons for '/4-pikselposisjoner på noen måte representeres ved (a/2, b/2+1/2, b/2, a/2). De resulterende absoluttverdiér for frekvensresponsene er vist i fig. 3 ved bruk av de samme '/4-pikselfiltrene som i fig. 2. Med sammenligning av disse frekvensresponsene med den ideelle frekvensresponsen i fig. 1, ser frekvensresponsene 4 og 5 ut til å være gode kandidater.

Frekvensresponsene for '/i-pikselverdier er forskjellig fra frekvensresponsene for !4-pikselverdier på grunn av ulik impulsrespons. Hensikten ved den ideelle frekvensrespons, dvs. å slippe gjennom lave frekvenser så uberørt som mulig og å dempe høye frekvenser, gjelder imidlertid bildeinnholdet som helhet. Derfor bør impulsresponsen innstilles i lys av å fremskaffe en kombinert frekvensrespons så nær som den ideelle frekvensrespons som mulig. Dette fører ikke nødvendigvis til de samme verdier som ved innstilling av Vi-pikselresponser og 14-pikselresponser separat.

Det finnes i gjennomsnitt 4 ganger så mange 14-pikselposisjoner som ¥2-pikselposisjoner. Ved bruk av blokkbasert bevegelseskompensasjon vil alle disse posisjonene benyttes. Statistikken for bruken er ikke nødvendigvis jevnt fordelt, men den kombinerte filtreringseffekten vil være et resultat av en kombinasjon av bruken av V2- og 14-pikselposisjoner. I figur 4 er de resulterende frekvensresponser for de fem filtrene vist ved midling med 1/5 vekt på kurvene i fig. 2 og 4/5 vekt på kurvene i fig. 3. Dette er bare et eksempel på hvordan en kombinert frekvensrespons kan beregnes. Andre beregninger kan benyttes for å beregne en kombinert frekvensrespons som tar i betraktning at en blanding av l/2-pikselposisjoner og 14-pikselposisjoner benyttes i prediksjonsprosessen.

Kurvene i denne figuren er et bedre grunnlag for utformingen av filteret. Ved sammenligning av disse frekvensresponsene med den ideelle frekvensresponsen i fig. 1, ser frekvensresponskurvene i området 3-4 ut til å resultere i god kombinert frekvensrespons. Dette tilsier at et foretrukket område for verdien av a er -0,12 til -0,09.

Claims

1. Fremgangsmåte i videokoding og -dekoding for interpolering mellom heltallspikselposisjoner i et videobilde ved hjelp av et symmetrisk tap-filter, karakterisert ved trinnene: - å beregne verdier for <!>/4-pikselposisjoner ved det symmetriske tap-filteret som har en første diskret impulsrespons på (a,b,b,a), der tap-ene (a, b) er av formen k/2", a+b+b+a=l, og a er innenfor [-0,12, -0,09], - å beregne verdier for '/4-pikselposisjoner ved å midle mellom to verdier av naboposisjoner, hvorav minst én er en /4-pikselposisjon i den horisontale og/eller vertikale retning.

2. Fremgangsmåte i samsvar med krav 1, karakterisert ved de ytterligere trinn: - å kombinere en første frekvensrespons assosiert med den første diskrete impulsrespons og en andre frekvensrespons assosiert med en andre diskret impulsrespons på (a/2, b/2+1/2, b/2, a/2), samsvarende med beregning av verdier for %-pikselposisjoner, til en tredje frekvensrespons, og - å innstille den første diskrete impulsrespons slik at nevnte tredje frekvensrespons nærmer seg en ideell frekvensrespons som har karakteristikker av å være nær én og i det vesentlige flat ved lave frekvenser og avtakende mot 0 ved høye frekvenser.

3. Fremgangsmåte i samsvar med krav 2, karakterisert ved at trinnet med å innstille den første impulsrespons omfatter å sette verdien for en tap (a, b) som innstillingsparameter.

4. Fremgangsmåte i samsvar med krav 2 eller 3, karakterisert ved at trinnet å kombinere den første frekvensrespons og den andre frekvensrespons innbefatter midling av nevnte første og andre frekvensrespons med en vekt på henholdsvis 1/5 og 4/5.

5. Bruk av en fremgangsmåte i samsvar med et av kravene 1-4, i pikselbevegelseskompensasjon i samsvar med kodingsstandarden H.264/AVC.