NO338548B1

NO338548B1 - Fremgangsmåte og anordning for indikering av kvantifiseringsparametre i et videokodingssystem

Info

Publication number: NO338548B1
Application number: NO20044070A
Authority: NO
Inventors: Jani Lainema
Original assignee: Nokia Technologies Oy
Priority date: 2002-04-23
Filing date: 2004-09-27
Publication date: 2016-09-05
Also published as: US20070291849A1; MXPA04010318A; HK1080241A1; KR20080104060A; AU2003226585A1; EP1497990A1; WO2004025943A3; CN100380980C; KR20040106378A; CN1647541A; NO20044070L; IL164176A; CN101232618B; JP4571489B2; HK1117320A1; US7263125B2; WO2003092297A1; HK1080241B; EP1497990B1; RU2350040C1

Description

Den foreliggende oppfinnelsen vedrører en fremgangsmåte, en koder, en dekoder og en anordning for koding av digital video. Nærmere bestemt vedrører oppfinnelsen til indikasjonen av kvantiseringsparameterverdier (QP) i et videokodingssystem.

Bakgrunn for oppfinnelsen

Digitale videosekvenser, slik som ordinære filmer tatt opp på film, omfatter en sekvens av stillbilder, hvor bevegelsesillusjonen blir dannet ved å vise bildene en etter en, typisk ved en hastighet på mellom 15 og 30 rammer per sekund.

Hver ramme av en ukomprimert digital videosekvens omfatter en tabell med bildepiksler. I et alminnelig anvendt digitalt videoformat, kjent som Quarter Common Interchange Format (QCIF), omfatter en ramme en tabell med 176 x 144 piksler (dvs. 25.344 piksler). Etter tur og orden representeres hver piksel ved et bestemt antall bit, som inneholder informasjon om luminansen og/eller fargeinnholdet for regionen av bildet som korresponderer til pikselen. Vanligvis anvendes en såkalt YUV-fargemodell til å representere luminans- og krominansinnholdet i bildet. Luminansen, eller Y-komponenten, representerer intensiteten (lysstyrke) for bildet, mens fargeinnholdet for bildet representeres av to krominans- eller fargedifferansekomponenter, merket U og V.

Fargemodellene, som er basert på en luminans-/krominansrepresentasjon av bildeinnholdet, frembringer bestemte fordeler sammenlignet med fargemodeller som er basert på en representasjon som involverer primærfarger (dvs. rød, grønn og blå, RGB). Det humane visuelle systemet er mer sensitivt til intensitetsvariasjoner enn det er til fargevariasjoner og YUV-fargemodeller utnytter denne egenskapen ved å anvende en lavere spatial oppløsning for krominanskomponentene (U, V) enn for luminanskomponenten (Y). På denne måten kan informasjonsmengden som behøves for å kode fargeinformasjonen i et bilde reduseres med en aksepterbar reduksjon i bildekvalitet.

Den lavere spatiale oppløsningen av krominanskomponentene oppnås vanligvis ved delsampling. Typisk deles hver ramme av en videosekvens inn i såkalte "makroblokker", som omfatter luminansinformasjon (Y) og tilknyttet krominans-informasjon (U, V), som delsamples spatialt. Figur 1 viser en måte hvori makroblokker kan dannes. Slik figur 1 viser, en ramme av en videosekvens representert ved å anvende en YUV-fargemodell, hvor hver komponent har den samme spatiale oppløsningen. Makroblokker dannes ved å representere en region med 16x16 bildepiksler i det originale bildet som fire blokker med luminansinformasjon, hvor hver luminansblokk omfatter en 8 x 8 tabell med luminansverdier (Y) og to spatial korresponderende krominanskomponenter (U og V) som er delsamplet med en faktor på to i både de horisontale og vertikale retningene for å avgi korresponderende tabeller med 8x8 krominans (U, V) verdier. Ifølge bestemte videokodings-anbefalinger, slik som International Telecommunications Union (ITU-T) anbefaling H.26L, kan blokkstørrelsen som anvendes innenfor makroblokkene være annet en 8 x 8, for eksempel 4x8 eller 4 x 4 (se T. Wiegand, "Joint Model Number 1", Doc. JVT-A003, Joint Video Team (JVT) av ISO/IEC MPEG og ITU-T VCEG, januar 2002, seksjoner 2.2 og 2.3). ITU-T anbefalingen H.26L tillater også makroblokker og organiseres sammen til det dannes såkalte "skiver". Mer bestemt dannes hver skive fra et antall etterfølgende makroblokker i koderekkefølge og kodes på en slik måte at den kan dekodes uavhengig uten å måtte referere til en annen skive av den samme rammen. Dette arrangementet er fordelaktig, idet det pleier å begrense utbredelsen av artefaktet i den dekodete videoen som kan oppstå på grunn av transmisjonsfeil. Mens det ikke er noen spesifikk begrensning på måten hvori skivene kan konstrueres, er en direkte fremgangsmåte å gruppere alle makroblokkene i en enkel rekke av en ramme sammen med en skive. Dette arrangementet, sammen med oppdelingen av et QCIF formatbilde inn i 16 x 16 makroblokker, er vist i figur 2.

Som kan sees fra figur 2, omfatter et QCIF-bilde 11x9 makroblokker (i dette tilfellet gruppert inn i ni skiver av elleve etterfølgende makroblokker hver). Dersom luminansblokkene og krominansblokkene representeres med 8 bits oppløsning (dvs. ved tall i området 0 til 255), er det totale antall bit som kreves per makroblokk (16 x 16 x 8) +2 x (8 x 8 x 8) = 3.072 bit. Antall bit som behøves for å representere en videoramme i QCIF-format er derfor 99 x 3072 =304.128 bit. Dette betyr at datamengden som kreves for å overføre/ta opp/fremvise en ukomprimert videosekvens i QCIF-format, representert ved å anvende en YUV-fargemodell, ved en hastighet på 30 rammer per sekund, er mer enn 9 Mbps (millioner bit per sekund). Dette er en ekstremt høy datahastighet er upraktisk for anvending i videoopptak, overføring og fremvisningsapplikasjoner på grunn av den veldig store lagringskapasiteten, overføringskanalkapasiteten og maskinvareytelsen som kreves.

Dersom videodata skal overføres i sanntid over et bestemt linjenettverk, slik som et ISDN (Integrated Services Digital Network) eller et konvensjonelt PSTN (Public Switched Telephone Network), er en tigjengelig dataoverføringsbånd-bredde, typisk i størrelsen 64 kbit per sekund. I mobilvideotelefoni, hvor over-føringen finner sted minst delvis over en radiokommunikasjonslink, kan den tilgjengelige båndbredden være så lav som 20 kbit/s. Dette betyr at en signifikant reduksjon i informasjonsmengden som anvendes til å representere videodata må oppnås for å muliggjøre overføring av digitale videosekvenser over kommunikasjonsnettverk med lav båndbredde. Av denne grunn har video-kompresjonsteknikker blitt utviklet som reduserer informasjons-mengden som overføres mens en beholder en akseptabel bildekvalitet.

Videokompresjonsmetoder er basert på å redusere de redundante og merkbare irrelevante delene av videosekvenser. Redundansen i videosekvenser kan kategoriseres inn i spatial, temporal og spektral redundans. "Spatial redundans" er termen som anvendes for å beskrive korrelasjonen (likheten) mellom nabopiksler innenfor en ramme. Termen "temporal redundans" uttrykker faktumet at objekter som dukker opp i en ramme av en sekvens kan sannsynligvis dukke opp i en etterfølgende ramme, mens "spektral redundans" refererer til korrelasjon mellom ulike fargekomponenter i det samme bildet.

Det er ofte en signifikant mengde spatialredundans mellom pikslene som utgjør hver ramme av en digital videosekvens. Med andre ord er verdien av en piksel innenfor en ramme av en sekvens hovedsakelig den samme som verdien av andre piksler i dens direkte nærhet. Typisk reduserer videokodingssystemet spatial redundans ved å anvende en teknikk kjent som «blokkbasert transformeringskoding», hvori en matematisk transformasjon, slik som en todimensjonal diskret cosinustransformering (DCT), påføres blokker av bildepiksler. Denne transformerer bildedataene fra en representasjon som omfatter pikselverdier til en form som omfatter et sett med koeffisientverdier representativ av spatiale frekvenskomponenter. Denne alternative representasjonen av bildedata reduserer spatial redundans betydelig og produserer derved mer kompakt representasjon av bildedata.

Rammer av en videosekvens som er komprimert ved å anvende blokkbasert transformeringskoding, uten referanse til en annen ramme innen sekvensen, refereres til som INTRA-kodeform eller 1-rammer.

Generelt reduserer videokodingssystemer ikke bare den spatiale redundansen innen individuelle rammer av en videosekvens, men anvender også en teknikk kjent som «bevegelseskompensert prediksjon», for å redusere den temporale redundansen i sekvensen. Ved å anvende bevegelseskompensert prediksjon, «beregnes» bildeinnholdet av noen (ofte mange) av rammene i en digital videosekvens fra én eller flere rammer i en sekvens, kjent som «referanse»-rammer. Prediksjon av bildeinnhold oppnås ved å spore bevegelsen av objekter eller regioner for et bilde mellom en ramme som skal kodes (komprimert) og referanserammen(e) ved å anvende «bevegelsesvektorer». Som i tilfellet for INTRA-koding utføres bevegelseskompensert prediksjon av en videoramme typisk makroblokk-for-makroblokk.

Rammer av en videosekvens, komprimert ved å anvende bevegelseskompensert prediksjon, henvises generelt til som INTER-kodete rammer eller P-rammer. Bevegelseskompensert prediksjon frembringer sjelden en tilstrekkelig presis representasjon av bildeinnholdet for en videoramme og er derfor typisk nødvendig for å frembringe en såkalt «prediksjonsfeil»-ramme (PE) med hver INTER-kodet ramme. Prediksjonsfeilrammen representerer ulikheten mellom en dekodet versjon av den INTER-kodede rammen og bildeinnholdet av rammen som skal kodes. Mer bestemt omfatter prediksjonsfeilrammen verdier som representerer ulikheten mellom pikselverdier i rammen som skal kodes og korresponderende rekonstruerte pikselverdier dannet på basis av en beregnet versjon av den aktuelle rammen. Som en konsekvens av dette har prediksjonsfeilrammen egenskaper i likhet med et stillbilde og blokkbasert transformeringskoding kan anvendes for å redusere dets spatiale redundans og følgelig datamengden (antall bit) som kreves til å representere det.

For å illustrere funksjonen av et videokodingssystem mer detaljert, henvises det til fig. 3 og 4. Fig. 3 viser et blokkdiagram av en generisk videokode som utøver en kombinasjon av INTRA- og INTER-koding for å produsere en komprimert (kodet) videobitstrøm. En korresponderende dekoder er illustrert i Fig. 4 og vil bli beskrevet senere i teksten.

Videokoderen 100 omfatter en inngang 101 for å motta et digitalt videosignal fra et kamera eller annen videokilde (ikke vist). Den omfatter også en transforma-sjonsenhet 104 som er innrettet til å utføre en blokkbasert diskret cosinustransformasjon (DCT), en kvantiserer 106, en inverskvantiserer 108, en invers-transformasjonsenhet 110, innrettet til å utføre en invers blokkbasert cosinustransformasjon (IDCT), kombinatorer 112 og 116, og et rammelager 120. Koderen omfatter videre en bevegelsesestimator 130, en bevegelsesfeltkoder 140 og en bevegelseskompensert prediktor 150. Brytere 102 og 114 drives kooperativt av kontrollstyreren 160 for å svitsje koderen mellom en INTRA-modus for videokoding og en INTER-modus for videokoding. Koderen 100 omfatter også en videomultiplekskoder 170 som danner en enkel bitstrøm fra de ulike informasjonstypene som produseres av koderen 100 for videre transmisjon til en fjern mottaksterminal, eller f.eks. for lagring på et masselagringsmedium, slik som en datamaskinharddisk (ikke vist).

Koderen 100 fungerer som følger. Hver ramme med ukomprimert video, frembrakt fra videokilden til inngangen 101, mottas og behandles makroblokk-for-makroblokk, fortrinnsvis i "raster-scan"-rekkefølge. Når kodingen av en ny videosekvens startes, kodes den første rammen som skal kodes som en intrakodet ramme. Etterfølgende programmeres koderen til å kode hver ramme i interkodet format, med unntak fra én av de følgende tilstander: 1) det er bestemt at den gjeldende makroblokken for rammen som kodes er så ulik fra pikselverdiene i referanserammen som anvendes i dens prediksjon at eksessiv prediksjonsfeilinformasjon produseres, ved tilfellet hvor den aktuelle makroblokken kodes i INTRA-kodet format,

2) en forhåndsdefinert INTRA-rammerepetisjonsintervall er utgått; eller

3) tilbakemelding er mottatt fra en mottaksterminal som indikerer en forespørsel foren ramme som skal tilveiebringes i I NTRA-kodet format.

Funksjonen for koderen 100 i INTRA-kodemodus vil nå bli beskrevet. I INTRA-kodemodus, driver kontrollstyreren 160 bryteren 102 til å akseptere video-inngangssignal fra inngangslinje 118. Videosignalinngangen mottas makroblokk-for-makroblokk og blokkene med luminans- og krominansverdier, som utgjør hver makroblokk, sendes til DCT-transformasjonsblokk 104. Her utføres en todimensjonal cosinustransformasjon og en todimensjonal tabell med DCT-koeffisienter dannes for hver blokk.

DCT-koeffisientene for hver blokk sendes til kvantisereren 106, hvor de kvantiseres ved å anvende en kvantiseringsparameter QP. Valget av kvantiseringsparameteren QP styres av kontrollstyreren 160 via kontrollinje 115.

Mer detaljert utføres kvantisering av DCT-koeffisientene ved å dele hver koeffisientverdi med kvantiseringsparameteren QP og å tilnærme resultatet til nærmeste heltall. På denne måten avgir kvantiseringsprosessen et sett med kvantiserte koeffisientverdier som har en redusert nummerisk presisjon sammenlignet med koeffisientverdiene som opprinnelig ble generert av DCT-transformeringsblokk 104. Derfor kan vanligvis hver av de kvantiserte DCT-koeffisientene representeres ved et mindre antall databit enn hva som trengs for å representere de korresponderende koeffisientene før kvantisering. Bestemte DCT-koeffisienter blir ytterligere redusert til null av kvantiseringsprosessen og reduserer derfor antall koeffisienter som må kodes. Begge disse effektene resulterer i en reduksjon i datamengden (dvs. databit) som kreves for å representere DCT-koeffisientene for en bildeblokk. Derfor frembringer kvantisering en ytterligere mekanisme hvorved datamengden som kreves for å representere hvert bilde av videosekvensen kan reduseres. Dette innfører også et irreversibelt informasjonstap, som fører til en korresponderende reduksjon i bildekvalitet. Mens denne reduksjon i bildekvalitet ikke alltid er ønskelig, frembringer kvantisering av DCT-koeffisientverdier muligheten til å regulere antall bit som kreves for å kode en videosekvens som tar til stilling til f.eks. den tilgjengelige båndbredden for overføring av den kodede sekvensen eller den ønskede kvaliteten av den kodede videoen.

Mer bestemt, ved å øke verdien på QP som anvendes til å kvantisere DCT-koeffisientene, kan en lavere, men mer kompakt representasjon av video-sekvensen dannes. Motsatt kan det dannes en høyere kvalitet, men mindre komprimert kodet bitstrøm ved å redusere verdien på QP.

De kvantiserte DCT-koeffisientene på hver blokk sendes fra kvantisereren 106 til videomultiplekskoderen 170, slik som indikert av linje 125 i Fig. 1. Video-multiplekskoderen 170 ordrer de kvantiserte transformeringskoeffisientene for hver blokk ved å anvende en sikk-sakk skanningsprosedyre, og derved konverterer den todimensjonale tabellen med kvantiserte koeffisientverdier til en endimensjonal tabell. Typisk representerer videomultiplekskoderen 170 videre hver ikke-nullkvantifiserte koeffisient i den endimensjonale tabellen ved et par med verdier, henvist til som nivå og rekke, hvor nivå er verdien på den kvanti serte koeffisienten og rekke er antallet etterfølgende nullverdikoeffisienter som følger etter den aktuelle koeffisienten. Rekke- og n/Våverdiene er ytterligere komprimert ved å anvende entropikoding. F.eks. kan en fremgangsmåte slik som variabel lengdekoding (VLC) anvendes for å produsere et sett med variable lengdekodeord som representerer hvert ( rekke, /7/Vå)-par.

Etter at { rekke, n/Vå)-parene har blitt entropikodet (f.eks. variabel lengdekodet), kombinerer videomultiplekskoderen 170 dem videre med kontrolllinformasjon, som også er entropikodet, f.eks. ved å anvende en fremgangsmåte for variabel lengdekoding som er egnet for informasjonstypen som er aktuell, for å danne en enkel komprimert bitstrøm med kodet bildeinformasjon 135. Det er denne bitstrømmen, omfattende de variable lengdekodeordene som representerer (rekke, nivå)-parene og kontrollinformasjon vedrørende bl.a. til kvantiseringsparameteren QP som anvendes for kvantisering av DCT-koeffisientene, som overføres fra koderen.

En lokal dekodet versjon av makroblokken dannes også i koderen 100. Dette gjøres ved å sende de kvantiserte transformeringskoeffisientene for hver blokk, utgangssignalet ved kvantiserer 106, gjennom inverskvantiserer 108 og å påføre en invers DCT-transformasjon i inverstransformasjonsblokk 110. Inverskvantiseringen utføres ved å reversere kvantiseringsoperasjonen som utføres i kvantiserer 106. Mer bestemt forsøker inverskvantiserer 108 å gjenvinne de originale DCT-koeffisientverdiene for en gitt bildeblokk ved å multiplisere hver kvantiserte DCT-koeffisientverdi med kvantiseringsparameter QP. Pga. tilnærmingsoperasjonen som utføres som del av kvantiseringsprosessen i kvantiserer 106, er det vanligvis ikke mulig å gjenvinne de originale DCT-koeffisientverdiene eksakt. Dette resulterer i en uoverensstemmelse mellom de gjenvunnete DCT-koeffisientverdiene og de som opprinnelige produseres av DCT-transformasjonsblokk 104 (derfor det irreversible tap av informasjon henvist til ovenfor).

Operasjonene som utføres av inverskvantiserer 108 og inverstransformasjonsblokk 110 avgir en rekonstruert tabell med pikselverdier for hver blokk av makroblokken. De resulterende dekodede bildedataene blir matet inn til kombinator 112. I INTRA-kodemodus blir bryter 114 satt slik at inngangssignalet til kombinator 112 via bryteren 114 er null. På denne måten er operasjonen som utføres av kombinator 112 identisk med å sende de dekodede bildedataene uendret.

Idet etterfølgende makroblokker av den gjeldende rammen mottas og går igjennom den tidligere beskrevne kodingen og lokale dekodingstrinn i blokker 104, 106, 108, 110 og 112, bygges en dekodet versjon av den INTRA-kodede rammen i rammelager 120. Når den siste makroblokken i den aktuelle rammen er blitt INTRA-kodet og etterfølgende dekodet, omfatter rammelager 120 en komplett dekodet ramme, tilgjengelig for bruk som en prediksjonsreferanseramme i koding av en etterfølgende mottatt videoramme i interkodet format. Flagget som indikerer INTRA- eller INTER-kodeformat frembringes i linje 122.

Driften av koderen 100 i INTER-kodemodus vil nå bli beskrevet. I interkodemodus styrer kontrollstyreren 160 bryteren 102 til å motta sitt inngangssignal fra linje 117, som omfatter utgangssignalet fra kombinator 116. Kombinatoren 116 mottar videoinngangssignalet makroblokk-for-makroblokk fra inngang 101. Idet kombinator 116 mottar blokkene med luminans- og krominansverdier som utgjør makroblokken, danner den korresponderende blokker med prediksjonsfeilinformasjon. Prediksjonsfeilinformasjonen representerer ulikheten mellom den aktuelle blokken og dens prediksjon, produsert i bevegelseskompenseringsblokk 150. Mer bestemt omfatter prediksjonsfeilinformasjonen for hver blokk av makroblokken en 2-dimensjonal tabell med verdier, hvor hver representerer ulikheten mellom en pikselverdi i blokken med luminans- og krominans-informasjon som blir kodet og en dekodet pikselverdi som oppnås ved å danne en bevegelseskompensert prediksjon for blokken ifølge fremgangsmåten beskrevet nedenfor.

Prediksjonsfeilinformasjonen for hver blokk i makroblokken sendes til DCT-transformasjonsblokk 104, som utfører en todimensjonal diskret cosinustransformering på hver blokk med prediksjonsfeilverdierforå produsere en todimensjonal tabell med DCT-transformeringskoeffisienterfor hver blokk.

Transformeringskoeffisienten for hver prediksjonsfeilblokk sendes til kvantiserer 106 hvor de blir kvantisert ved å anvende en kvantiseringsparameter QP på en lik måte som den beskrevet ovenfor i forbindelse med drift av koderen i INTRA-kodemodus. Igjen styres valg av kvantiseringsparameter QP av kontrollstyreren 160 via kontrollinje 115. Nøyaktigheten på prediksjonsfeilkodingen kan reguleres avhengig av den tilgjengelige båndbredden og/eller nødvendige kvaliteten på den kodede videoen. I et typisk diskret cosinustransformeringsystem (DCT) gjøres dette ved å variere kvantiseringsparameteren (QP) som anvendes i kvantisering av DCT-koeffisientene til en spesifikk nøyaktighet.

De kvantiserte DCT-koeffisientene som representerer prediksjonsfeilinformasjon for hver blokk i makroblokken sendes fra kvantiserer 106 til videomultiplekskoder 170, slik som indikert av linje 125 i fig. 1. Slik som i INTRAkodemodus ordrer video-multiplekskoderen 170 transformeringskoeffisientene for hver prediksjonsfeilblokk ved å anvende en fremgangsmåte for sikk-sakk-skanning og så representerer hver ikke-null-kvantisert som et { rekke, n/Vå)-par. Det komprimerer videre ( rekke,/7/Vå)-parene ved å anvende entropikoding, på en måte i likhet med den beskrevet i forbindelse med INTRAkodemodus. Videomultiplekskoder 170 mottar også bevegelses-vektorinformasjon (beskrevet i det etterfølgende) fra bevegelsesfeltkodingsblokken 140 via linje 126 og kontrollinformasjon (f.eks. å inkludere en indikasjon av kvantiseringsparameter QP) fra kontrollstyreren 160. Den entropikoder bevegelsesvektorinformasjonen og kontrollinformasjon og danner en enkel bitstrøm av kodet bildeinformasjon, hvor 135 omfatter den entropikodede bevegelsesvektoren, prediksjonsfeilen og kontrollinformasjonen. Indikasjonen, qz, av kvantiseringsparameteren QP frembringes til multipleks xoswe 170 via linje 124.

De kvantiserte DCT-koeffisientene som representerer prediksjonsfeilinformasjonen for hver blokk av makroblokken sendes også fra kvantiserer 106 til inverskvantiserer 108. Her blir de inverskvantisert på en lik måte som den som er beskrevet tidligere i forbindelse med koderen i INTRA-kodemodus. I INTERkodemodus kan kvaliteten på den kodede videobitstrømmen og antallet bit som er nødvendig for å representere videosekvensen reguleres ved å variere kvantiseringsgraden som påføres DCT-koeffisientene som representerer prediksjonsfeilinformasjonen.

De resulterende blokkene av inverskvantifiserte DCT-koeffisienter påføres invers DCT-transformeringsblokk 110, hvor de går igjennom invers DCT-transformasjon for å produsere lokale dekodede blokker av prediksjonsfeilverdier. De lokale dekodede blokkene med prediksjonsfeilverdier blir så inngangssignalet til kombinator 112. I interkodemodus blir bryter 114 satt slik at kombinatoren 112 også mottar beregnede pikselverdier for hver blokk av makroblokken, generert av bevegelseskompensert prediksjonsblokk 150. Kombinatoren 112 kombinerer hver av de lokale dekodete blokkene av prediksjonsfeilverdier med en korresponderende blokk med beregnende pikselverdier for å produsere rekonstruerte bildeblokker og lagre dem i rammelageret 120.

Idet etterfølgende makroblokker av videosignalet mottas fra videokilden og går igjennom den tidligere beskrevne kodings- og dekodingstrinn i blokkene 104, 106,108,110,112, oppbygges en dekodet versjon av rammen i rammelageret 120. Når den siste makroblokken av rammen har blitt behandlet, omfatter rammelageret 120 en fullstendig dekodet ramme, tilgjengelig for bruk som en prediksjonsreferanseramme i koding av en etterfølgende mottatt videoramme i I NTER-kodet format.

Formasjon for en prediksjon for en makroblokk av den gjeldende rammen vil nå bli beskrevet. En ramme som kodes i I NTER-kodet format krever en referanseramme for bevegelseskompensert prediksjon. Dette betyr nødvendigvis at når en videosekvens blir kodet må den første rammen som skal kodes, enten det er den første rammen i sekvensen eller en annen ramme, kodes i INTRA-kodeformat. Etter tur betyr dette at når videokoderen 100 svitsjes inn i INTER-modus av kontrollstyreren 160, er en fullstendig referanseramme, dannet ved å dekode lokalt en tidligere kodet ramme allerede tilgjengelig i rammelageret 120 på koderen. Generelt sett dannes referanserammen ved å dekode lokalt enten en INTRA-kodet ramme eller en INTER-kodet ramme.

Det første steget i å danne en prediksjon for en makroblokk av den gjeldende rammen utføres av bevegelsesestimeringsblokken 130. Bevegelsesestimeringsblokken 130 mottar blokken med luminans- og krominansverdier som utgjør den gjeldende makroblokken av rammen som skal kodes via linje 128. Dermed utfører den en blokkmatchingsfunksjon for å identifisere en region i referanserammen som korresponderer hovedsakelig med den aktuelle makroblokken. For å utføre blokkmatchingsfunksjonen, aksesseserer evegelsesestimeringsblokken referanserammedataene lagret i rammelager 120 via linje 127. Mer bestemt utfører bevegelsesestimeringsblokken 130 blokkmatching ved å kalkulere differanseverdier (f.eks. summer av absolutte differanser) som representerer differansen i pikselverdier mellom makroblokken under eksaminering og søke regioner med piksler som passer best fra en referanseramme lagret i ramme-ageret 120. En differanseverdi produseres for søkeregioner ved alle mulige posisjoner innenfor et forhåndsdefinert søkeområde i referanserammen og bevegelsesestimeringsblokken 130 bestemmer den minste kalkulerte verdien. Offseten mellom makroblokken i den gjeldende rammen og søke-blokken av pikselverdier i referanserammen som avgir den minste referanseverdien definerer bevegelsesvektoren for den aktuelle makroblokken.

Idet bevegelsesestimeringsblokken 130 har produsert en bevegelsesvektor for makroblokken, gir den ut bevegelsesvektoren til bevegelsesfeltkodingsblokken 140. Bevegelsesfeltkodingsblokken 140 tilnærmer bevegelsesvektoren som mottas fra bevegelsesestimeringsblokken 130 ved å anvende en bevegelses-modell som omfatter et sett med basisfunksjoner og bevegelseskoeffisienter. Mer bestemt representerer bevegelsesfeltkodingsblokken bevegelsesvektoren som et sett med bevegelses-koeffisientverdier som danner, når multiplisert av basisfunksjonene, en tilnærming for bevegelsesvektoren. Typisk anvendes en translasjonsbevegelsesmodell som har kun 2 bevegelseskoeffisienter og basisfunksjoner, men mer kompliserte bevegelsesmodeller kan også anvendes.

Bevegelseskoeffisientene sendes fra bevegelsesfeltkodingsblokken 140 til bevegelseskompenseringsprediksjonsblokk 150. Bevegelseskompenseringsprediksjonsblokk 150 mottar også søkeregionen som passer best med pikselverdier identifisert av bevegelsesestimeringsblokken 130 fra rammelager 120. Ved å anvende den tilnærmede representasjonen av bevegelsesvektoren som genereres av bevegelsesfeltkodingsblokken 140 og pikselverdiene for søkeregionen som passer best fra referanserammen, genererer bevegelseskompenseringsprediksjonsblokken 150 en tabell med beregnede pikselverdier for hver blokk av makroblokken. Hver blokk med beregnede pikselverdier sendes til kombinator 116 hvor de beregnede pikselverdiene trekkes fra de aktuelle (inngang) pikselverdiene i den korresponderende blokken av den aktuelle makroblokken, og derved danner et sett med prediksjonsfeilblokker for makroblokken.

Driften av videodekoderen 200, slik som vist i Fig. 2, vil nå bli beskrevet. Dekoderen 200 omfatter en videomultipleksdekoder 270, som mottar en kodet videobitstrøm 135 fra koderen 100 og demultiplekser den inn i sine konstituente deler, en inverskvantiserer 210, en invers DCT-transformer 220, en bevegelseskompenseringsprediksjonsblokk240, et rammelager 250, en kombinator 230, en kontrollstyrer 260, og en utgang 280.

Kontrollstyreren 260 styrer driften av dekoderen 200 i respons til om enten en INTRA- eller en INTER-kodet ramme blir dekodet. Et INTRA/INTER-trigger-styringssignal, som forårsaker at dekoderen svitsjer mellom dekodemoduser utledes, f.eks. bildetypeinformasjonen tilknyttet med hver komprimerte videoramme som mottas fra koderen. I NTRA/I NTER-triggerstyringssignalet ekstraheres fra den kodede videobitstrømmen av videomultipleksdekoderen 270 og sendes til kontrollstyreren 260 via kontrollinje 215.

Dekoding av en INTRA-kodet ramme utføres makroblokk-for-makroblokk. Videomultipleksdekoderen 270 separerer den kodede informasjon for blokkene av makroblokken fra mulig kontrollinformasjon vedrørende den aktuelle makroblokken. Den kodede informasjonen for hver blokk av en INTRA-kodet makroblokk omfatter variable lengdekodeord som representerer de VLC-kodede nivå- og rekkeverdier for ikke-null-DCT-koeffisientene i blokken. Videomultipleksdekoderen 270 dekoder de variable lengdekodeordene ved å anvende en fremgangsmåte for variabel lengdedekoding som korresponderer til fremgangsmåten for koding som anvendes i koderen 100 og derved gjenvinner ( rekke,/7/Vå)-parene. Derved rekonstruerer tabellen med kvantiserte transformerings-koeffsientverdier for hver blokk av makroblokken og sender dem til inverskvantiserer 210. Kontrollinformasjon vedrørende makroblokken dekodes i videomultipleksdekoderen ved å anvende en egnet fremgangsmåte for dekoding og sendes til kontrollstyreren 260. Mer bestemt ekstraheres informasjon ved-rørende nivået på kvantiseringen, som påføres transformeringskoeffisientene (dvs. kvantiseringsparameter QP) fra den kodede bitstrømmen av multipleks-dekoder 270 og frembrakt til kontrollstyrer 260 via kontrollinje 217. Kontrollstyreren leder denne informasjonen til inverskvantiserer 210 via kontrollinje 218. Inverskvantiserer 210 inverskvantiserer de kvantiserte DCT-koeffisientene for hver blokk av makroblokken ifølge kontrollinformasjon vedrørende kvantiseringsparameter QP og frembringer de nå inverskvantiserte DCT-koeffisientene til invers-DCT-transformerer 220. Inverskvantiseringsoperasjonen som utføres av inverskvantiserer 210 er identisk med den som utføres av inverskvantiserer 108 i koderen.

lnvers-DCT-omformer220 utføreren invers-DCT-transformasjon på de inverskvantiserte DCT-koeffisientene for hver blokk av makroblokken for å danne en dekodet blokk med bildeinformasjon som omfatter rekonstruerte pikselverdier. De rekonstruerte pikselverdiene for hver blokk av makroblokken sendes via kombinator 230 til videoutgangen 280 på dekoderen, hvor de f.eks. kan frembringes til en fremvisningsanordning (ikke vist). De rekonstruerte pikselverdiene for hver blokk av makroblokken lagres også i rammelaget 250. Pga. at bevegelseskompensert prediksjon ikke anvendes i kodingen/dekodingen av INTRA-kodede makroblokker, styrer kontrollstyreren 260 kombinator 230 til å sende hver blokk med pikselverdier til videoutgangen 280 og rammelager 250.

Idet etterfølgende makroblokker av den INTRA-kodede rammen dekodes og lagres, assembleres en dekodet ramme progressivt i rammelageret 250 og blir derfor tilgjengelig for bruk som en referanseramme for bevegelseskompensert prediksjon i forbindelse med dekodingen av etterfølgende mottatte INTER-kodede rammer.

INTER-kodede rammer dekodes også makroblokk-for-makroblokk. Videomultipleksdekoderen 270 mottar den kodede videobitstrømmen 135 og separarerer den kodede prediksjonsfeilinformasjonen for hver blokk av en INTER-kodet makroblokk fra kodet bevegelsesvektorinformasjon og mulig kontrollinformasjon vedrørende den aktuelle makroblokken. Slik som beskrevet ovenfor, omfatter den kodede prediksjonsfeilinformasjonen for hver blokk av makroblokken typisk variable lengdekodeord som representerer nivå- og re/c/ceverdier for ikke-null-kvantiserte transformeringskoeffisientene for den aktuelle prediksjonsfeilblokken. Videomultipleksdekoderen 270 dekoder de variable lengdekodeordene ved å anvende en variabel lengdedekodings-fremgangsmåte som korresponderer til fremgangsmåten for koding som anvendes i koderen 100 og derved gjenvinner { rekke,/7/Vå)-parene. Dermed rekonstruerer den en tabell med kvantiserte transformeringskoeffisientverdier for hver prediksjonsfeilblokk og sender dem til inverskvantiserer 210. Kontrollinformasjon vedrørende INTER-makroblokken dekodes også i videomultipleksdekoderen ved å anvende en egnet fremgangsmåte for dekoding og sendes til kontrollstyreren 260. Informasjon vedrørende nivået på kvantisering (QP) som påføres transformeringskoeffisientene for prediksjonsfeilblokkene ekstraheres fra den kodede bitstrømmen og frembringes til kontrollstyreren 260 via kontrollinje 217. Kontrollstyreren leder etter tur denne informasjonen til inverskvantiserer 210 via kontrollinje 218. Inverskvantiserer 210 inverskvantiserer de kvantiserte DCT-koeffisientene som representerer prediksjonsfeilinformasjonen for hver blokk av makroblokken ifølge kontrollinformasjonen som vedrører kvantisertngs-parameter-QP og frembringer de nå inverskvantiserte DCT-koeffisientene til invers DCT-omformer 220. Igjen er inverskvantiseringsoperasjonen som utføres av inverskvantiserer 210 identisk til den som utføres av inverskvantiserer 108 i koderen. I NTRA/I NTER-flagget frembringes i linje 215.

De inverskvantiserte DCT-koeffisientene som representerer prediksjonsfeilinformasjon for hver blokk inverstransformeres så i invers-DCT-omformeren 220 for å avgi en tabell med rekonstruerte prediksjonsfeilverdier for hver blokk av makroblokken.

Den kodede bevegelsesvektorinformasjonen tilknyttet med makroblokkene ekstraheres fra den kodede videobitstrømmen 135 av videomultipleksdekoder 270 og blir dekodet. Den dekodede bevegelsesvektorinformasjonen som derfor oppnås sendes via kontrollinje 225 til bevegelseskompenseringsprediksjonsblokk 240 som rekonstruerer en bevegelsesvektorfor makroblokken ved å anvende den samme bevegelsesmodellen som anvendes til å kode den interkodede makroblokken i koder 100. Den rekonstruerte bevegelsesvektoren tilnærmer bevegelsesvektoren som opprinnelig bestemmes av bevegelseses-timeringsblokk 130 på koderen. Bevegelseskompenseringsprediksjonsblokken 240 på dekoderen anvender den rekonstruerte bevegelsesvektoren for å identifisere lokasjonen for en region med rekonstruerte piksler i en prediksjonsreferanseramme som er lagret i rammelager 250. Regionen med piksler som er indikert av den rekonstruerte bevegelsesvektoren anvendes til å danne en prediksjon for den aktuelle makroblokken. Mer bestemt danner bevegelseskompenseringsprediksjonsblokken 240 en tabell med pikselverdier for hver blokk av makroblokken ved å kopiere korresponderende pikselverdier fra piksel-regionen som er identifisert i referanserammen. Disse blokkene med pikselverdier, utledet fra referanserammen, sendes fra bevegelsesskompenserings-prediksjonsblokk 240 til kombinator 230 hvor de kombineres med den dekodede prediksjonsfeilinformasjonen. Pikselverdiene for hver beregnede blokk blir lagt til korresponderende rekonstruert prediksjonsfeilverdierutgang av invers DCT-omformer 220. På denne måten oppnås en tabell med rekonstruerte pikselverdier for hver blokk av makroblokken. De rekonstruerte pikselverdiene sendes til videoutgangen 280 på dekoderen og lagres også i rammelager 250.

Idet etterfølgende makroblokker av den interkodete rammen dekodes og lagres, assembleres en dekodet ramme progressivt i rammelageret 250 og blir derfor tilgjengelig for bruk som en referanseramme for bevegelseskompensert prediksjon av andre interkodete rammer.

Som beskrevet ovenfor, er typiske video- og dekodingssystemer (vanligvis referert til som videokodeks) basert på bevegelseskompensert prediksjon og prediksjonsfeilkoding. Bevegelseskompensert prediksjon oppnås ved å ana-lysere og kode bevegelsen mellom videorammer og rekonstruere bildesegmenter ved å anvende bevegelsesinformasjon. Prediksjonsfeilkoding anvendes for å kode bevegelseskompenseringsbildesegmentet og korresponderende segmenter av det originale bildet. Nøyaktigheten for prediksjonsfeilkodingen kan reguleres avhengig av den tilgjengelige båndbredden og nødvendig kvalitet på den kodede videoen. I et typisk diskret cosinustransformasjonbasert system (DCT-system) gjøres dette ved å variere kvantiseringsparameteren (QP) som anvendes i kvantisering av DCT-koeffisientene til en spesifikk nøyaktighet.

Det skal merkes, at for å forbli i synkronisering med koderen, må dekoderen vite den eksakte verdien på QP som anvendes i den kodede videosekvensen. Typisk overføres QP-verdien én gang per skive som fører til økning i antall bit som trengs for å kode bildet. (Som forklart tidligere, omfatter en skive del av bildet og er kodet uavhengig fra andre skiver for å unngå propagasjon av mulig transmisjonsfeil inne i bildet). F.eks. dersom kodingen av en enkel QP-verdi tar 6 bit og 20 bilder, hvert delt inn i 10 skiver, blir overført hvert sekund, brukes 1,2 kbps for QP-informasjonen alene.

Kjente løsninger (f.eks. H.26L videokodingsanbefalingen presentert i dokumentet av T. Wiegand, «Joint Modell Number 1», Doc.JVT-A003, Joint Video Team (JVT) av ISO/IEC MPEG og ITU-T VCEG, jan. 2002), koder bildet/skive QP-parameteren uavhengig med en bestemt eller variabel lengdekode. Dette fører til økt transmisjonsbithastighet som beskrevet ovenfor. Mer bestemt, ifølge H.26L Joint Modell Number 1, er kvantiseringsparameterverdien QP som anvendes i kvantisering av DCT-koeffisientverdier typisk indikert i den kodede bitstrømmen ved begynnelsen av hvert bilde (T. Wiegand, «Joint Modell Number 1», DOC.JVT-A003, Joint Video Team (JVT) av ISO/IEC MPEG og ITU-T VCEG, jan. 2002, seksjon 3.3.1). Dersom makroblokkene innenfor en ramme anordnes i skiver, indikeres også QP-verdien ved begynnelsen av hver skive av rammen (f.eks. i en valgfri skiveheaderdel av den kodede bitstrømmen). I begge tilfeller indikeres QP-verdien slik eller blir kodet ved å anvende en egnet fremgangsmåte for variabel lengdekoding. Som beskrevet ovenfor skal det forstås at denne fremgangsmåten er veldig kostbar når det gjelder antall bit som er nødvendig for å representere kvantiseringsparameterinformasjonen, spesielt i situasjoner hvor rammer deles inn i mange skiver og/eller den tilgjengelige bånd-bredden som er tilgjengelig for transmisjon av den kodede videosekvensen er lav. Dette er et spesielt viktig problem i mobile videoapplikasjoner hvori den kodede video-bitstrømmen overføres over en radiokommunikasjonslink. I denne situasjonen kan båndbredden som er tilgjengelig for transmisjon av den kodede video-bitstrømmen være så lav som 20 kbits/s og QP-informasjonen som inkluderes i bitstrømmen kan representere en viktig del av totale tilgjengelig båndbredden. Videre, ifølge H.26L, kan verdien på QP valgfritt varieres ved makroblokknivå ved å sette inn en kvantiseringsforandringsparameter (Dquant) i delen av den kodede bitstrømmen som representerer den aktuelle makroblokken (se T. Wiegand, «Joint Modell Number 1», Doc.JVT-A003, Joint Video Team (JVT) av ISO/IEC MPEG og ITU-T VCEG, jan. 2002, seksjon 3.4.7). Dette fører til en ytterligere økning i informasjonsmengden som gis til indikasjonen av QP-relatert informasjon.

EP 0 540 961 A2 beskriver et system og en metode for koding av en digital videosekvens for anvendelse i en videokodingsapplikasjon for å produsere en kodet videobitstrom som representerer den digitale videosekvensen, hvor den digitale videosekvensen omfatter et antall rammer, og hver ramme for sekvensen omfatter en tabell av piksler som er delt inn i antall blokker, hvor hver blokker omfatter et bestemt antall piksler, og hvor metoden omfatter å kode en ramme for den digitale videosekvensen ved å anvende bevegelseskompensert prediksjon på blokker med piksler for å produsere korresponderende blokker med prediksjonsfeilverdier, og å anvende en transformeringskodingsteknikk på blokkene med prediksjonsfeilverdier for å produsere sett med transformerings-koeffisientverdier som representerer blokkene for prediksjonsfeilverdier.

US 5 907 362 angir at en kvantifisering kretse beregner en del kvantisering trinnverdier SLQ som vil bli benyttet som en standardverdi kvantifiseringstrinn for en del blokk basert på akkumulert aktivitet.

I lys av det ovennevnte, skal det merkes at det er et stort behov for forbedret mekanisme for å indikere informasjon som vedrører kvantisert ngsparameter-verdier i videokodingssystemer.

Kort beskrivelse av oppfinnelsen

Opfinnelsen er definert i patentkavene.

Kort beskrivelse av tegningene

Fig. 1 viser formasjonen på en 16x16 makroblokk ifølge kjent teknikk.

Fig. 2 viser underoppdeling av et QCIF-bilde inn i 16x16 makroblokker og gruppering av etterfølgende makroblokker inn i skiver.

Fig. 3 viser et blokkdiagram av en generisk videokoder ifølge kjent teknikk.

Fig. 4 viser blokkdiagram av en generisk videodekoder ifølge kjent teknikk og korresponderende til koderen vist i fig. 3. Fig. 5 viser et blokkdiagram av en videokoder ifølge én utførelse av oppfinnelsen. Fig. 6 viser et blokkdiagram av en videodekoder ifølge én utførelse av oppfinnelsen og korresponderende til koderen vist i Fig. 5. Fig. 7 viser en dekodingsprosesss ifølge én mulig utførelse av oppfinnelsen. Kvantiseringsparametere (QP) for hver skive oppnås ved å legge til sekvens QP (SQP) til skivespesifikkdifferanseverdiene QP (AQP<n>). Fig. 8 viser et blokkdiagram av en multimediakommunikasjonsterminal, hvori fremgangsmåten ifølge oppfinnelsen kan implementeres.

Detaljert beskrivelse av oppfinnelsen

I én foretrukket utførelse av oppfinnelsen overføres en videosekvensspesifikk kvantiseringsparameter (QP) og anvendes som en referanse når koding og dekoding av det faktiske bildet/skivekvantiseringsparameteren. På denne måten er det ikke noe behov for å overføre en full QP for hvert bilde/skive, men en statistisk mindre differanseverdi overføres og anvendes til å rekonstruere bildet/skiven QP, og fører derfor til reduksjon i transmisjonsbithastighet.

Utførelser av oppfinnelsen vil nå bli beskrevet med henvisning til fig. 5-8.

Fig. 5 viser et blokkdiagram av en videokoder implementert ifølge den foretrukne utførelsen av oppfinnelsen. Strukturen for videokoderen vist i Fig. 5 er hovedsakelig identisk med videokoderen av kjent teknikk vist i Fig. 3, med egnede modifikasjoner til de delene av koderen som utfører operasjoner vedrørende kvantisering av DCT-transformeringskoeffisienter og signalering av kvantiseringsparameterverdier (QP) som anvendes i videokodingsprosessen. Alle deler av videokoderen som implementerer funksjoner og fungerer på en identisk måte til den tidligere beskrevne kjente videokoderen er identifisert med like henvisningstall. Idet oppfinnelsen er spesielt relevant til signalering av kvantiseringsparameterverdier (QP) ved skive- eller rammenivå, vil det antas gjennom den følgende beskrivelse at videokoderen 600 ifølge den foretrukne

utførelsen av oppfinnelsen er spesielt tilpasset til å anvende en fremgangsmåte for videokoding, hvori rammene for en videosekvens som skal kodes, deles inn i makroblokker, og makroblokkene grupperes videre inn i skiver, og en indikasjon på kvantiseringsparameteren frembringes ved begynnelsen på hver ramme, og ved begynnelsen på hver ny skive innenfor en ramme. Et eksempel på en slik fremgangsmåte for videokoding er den tidligere refererte ITU-T H.26L videokodingsanbefalingen, som omtalt i T. Wiegand, «Joint Modell Number 1»,

DOC.JVT-A003, Joint Video Team (JVT) av ISO/IEC MPEG og ITU-T VCEG, jan. 2002). Alternativt kan fremgangsmåten anvendes i et videokodingssystem, hvori en indikasjon av kvantiseringsparametrene er gitt kun ved begynnelsen på rammen. Idet den følgende detaljerte beskrivelsen er skrevet spesifikt for å illustrere applikasjonen for fremgangsmåten i samsvar med oppfinnelsen i indikasjonen og signaleringen av skivenivåkvantiseringspara-meteren, skal det merkes at fremgangsmåten kan anvendes på en eksakt lik måte til representasjon av rammenivåkvantiserings-parametrene (bilde).

Driften av videokoderen 600 vil nå bli beskrevet detaljert. Når koding av en digital videosekvens, opererer koderen 600 på en lik måte som den beskrevet tidligere i forbindelse med Fig. 3 for å generere INTRA-kodete og INTER-kodete komprimerte videorammer. Som forklart tidligere i teksten, i INTRA-kodemodus, anvendes en diskret cosinustransformering (DCT) på hver blokk av bildedata (pikselverdier) for å produsere en korresponderende todimensjonal tabell med transformerings-koeffisientverdier. DCT-operasjonen utføres i transformeringsblokk 104 og koeffisientene som derfor produseres er etterfølgende sendt til kvantiserer 106, hvor de kvantiseres. I interkodemodus anvendes DCT-transformeringen som utføres i blokk 104 til blokkene med prediksjonsfeilverdier. Transformeringskoeffisientene som produseres som et resultat av denne operasjonen sendes også til kvantiserer 106 hvor de også kvantiseres.

Ifølge oppfinnelsen, når koding av en ny videosekvens starter, bestemmer koder 600 et standard- eller referansenivå for kvantisering som skal anvendes gjennom kodingen av videosekvensen for å kvantisere DCT-koeffisientverdiene som genereres i kvantiserer 106. Gjennom den følgende beskrivelsen vil dette standard- eller referansenivået for kvantisering benevnes som en «sekvensnivåkvantiseringsparameter», eller forkortet SQP. Valget av en SQP for en gitt videosekvens er styrt av kontrollstyreren 660, og kan f.eks. baseres på vurderingen av egenskaper for sekvensen som skal kodes og den tilgjengelige båndbredden for transmisjon av den kodede bitstrømmen som er produsert av koderen.

I den foretrukne utførelsen av oppfinnelsen bestemmer koder 600 SQP som standard- eller referansenivået for kvantisering som skal anvendes når det opereres i INTER-kodemodus, dvs. i situasjoner når DCT-koeffisientene, som genereres i transformeringsblokk 104, representerer prediksjonsfeilverdiene. Det skal merkes at fremgangsmåten ifølge oppfinnelsen også kan anvendes for kvantisering av DCT-koeffisientverdier som produseres i tradisjonell INTRA-kodemodus hvor ingen spatial prediksjon anvendes. Imidlertid, gitt de ulike startpunktene for transformerings-koeffisientene i INTRA- og INTER-kodemoduser (DCT-koeffisientene som produseres i INTRA-kodemodus er utledet fra pikselverdier, mens de som genereres i INTER-kodemodus er produsert ved å anvende en DCT-transformering til prediksjonsfeilverdier), er det usannsynlig at en enkel SQP-verdi kan bestemmes som er optimal for kvantisering av DCT-koeffisienter både i INTRA- og INTER-kodemoduser. Derfor, i én utførelse hvori fremgangsmåten ifølge oppfinnelsen anvendes i både INTRA- og INTER-kodemodus, anvendes to SQP-verdier, én som tilveiebringer den mest effektive representasjonen av QP-informasjon i INTRA-kodemodus og en annen som tilveiebringer den mest effektive representasjonen av QP-verdier som anvendes under INTER-koding. I alle andre tilfeller kan fremgangsmåten ifølge oppfinnelsen anvendes på en direkte lik måte i både INTRA- og INTER-kodemoduser. Selvfølgelig, i en alternativ utførelse kan en enkel SQP-verdi defineres og anvendes som sekvensnivåkvantiseringsparameteren både for INTRA- og INTER-kodingsrammene. Dette er en praktisk løsning, spesielt i moderne videokodingssystemer, slik som den beskrevet i T. Wiegand, «Joint Modell Number 1», Doc.JVT-A003, Joint Video Team (JVT) av ISO/IEC MPEG og ITU-T VCEG, jan. 2002), hvor spatialprediksjon anvendes for INTRA-kodede makroblokker før koding av INTRA-rediksjonsfeilen med DCT.

Det skal ytterligere merkes at flertallet av rammene i en typisk videosekvens kodes som INTER-rammer, og den største besparelsen i bithastighet oppnås ved å anvende fremgangsmåten ifølge oppfinnelsen til representasjonen av QP-verdier i INTER-kodemodus. Derfor, i den foretrukne utførelsen av oppfinnelse anvendes en enkel SQP-verdi, og denne verdien indikerer en standard- eller referanseverdi for kvantisering som skal anvendes i kvantisering av DCT-koeffisienter, som representerer prediksjonsfeilverdier i INTER-kodemodus.

Når SQP-verdien som skal anvendes for sekvensen har blitt bestemt, tilveiebringer kontrollstyreren 660 en indikasjon på den valgte SQP-verdien via kontrollinje 122 til videomultiplekskoder670 som, etter tur, setteren indikasjon for SQP-verdien inn i bitstrømmen 635 av kodet bildeinformasjon som representerer videosekvensen. Fortrinnsvis frembringes denne indikasjonen i en sekvensheaderdel (sequence header portion) av den kodede videobitstrømmen 635.

Videokoder 600 starter så å kode videosekvensen. Som forklart i forbindelse med videokoderen 100 i kjent teknikk, illustrert i fig. 3, kodes den første rammen i sekvensen som skal kodes i INTRA-format. Idet SQP-verdien som defineres ifølge den foretrukne utførelsen av oppfinnelsen er spesifikk til kvantiseringen av DCT-koeffisientverdiene som produseres i INTER-kodemodus er operasjon av koderen 600 i INTRA-kodemodus fullstendig lik til den videokoderen 100 i kjent teknikk, og vil ikke bli vurdert videre i detalj her.

Idet koding av den første rammen er ferdig, svitsjer kontrollstyrer 660 videokoderen 600 til INTER-kodemodus. I INTER-kodemodus opererer svitsj 102 til å motta sitt inngangssignal fra linje 117, som omfatter utgangssignalet fra kombinatoren 116. Kombinator 116 mottar videoinngangsignalet makroblokk-for-makroblokk fra inngangen 101 og danner en blokk med prediksjonsfeilinformasjon av makroblokken. Prediksjonsfeilinformasjon for hver blokk sendes til DCTtransformator 104, som utføreren todimensjonal, diskret cosinustransformering på hver blokk med prediksjons-feilverdier for å produsere en todimensjonal tabell med DCT-transformerings-koeffisienter for den aktuelle blokken. Transformeringskoeffisientene for hver prediksjonsfeilblokk sendes så til kvantiserer 106 hvor de blir kvantisert, som beskrevet tidligere, ved å anvende en kvantiseringsparameter QP. Resten av INTER-kodingsprosessen fortsetter som beskrevet tidligere i forbindelse med den kjente videokoderen 100.

Idet hver makroblokk mottas, bestemmer kontrollstyreren 660 om makroblokken, som for tiden behandles, er den første makroblokken av skiven. Dersom den er, bestemmer kontrollstyreren en kvantiseringsparameterverdi QP som skal anvendes i kvantisering av DCT-koeffisientverdiene som genereres i DCTtransformator 104. Det skal merkes at det er mulig å foreta en estimering om QP'en basert på bitbudsjettet som tillates for rammen, bit som allerede er brukt i de tidligere skivene eller den samme rammen og muligens bitene som er brukt for skiven i den tidligere rammen. Når dette er gjort, bestemmer kontrollstyreren 660 en differanse (AQP) mellom den tidligere definerte sekvensnivåkvanti-seringsparameterverdien SQP og den faktiske QP-verdien som skal anvendes for den aktuelle skiven. Deretter sendes en indikasjon for denne differansen via kontrollinje 624 til videomultiplekskoder670, som videre omfatteren indikasjon på differanseverdienAQP i bitstrøm 635. Fortrinnsvis frembringes denne indikasjonen i en skiveheaderdel (slice header portion) i den kodede video-bitstrømmen 635 som omfatter kontrollinformasjon spesifikt til den aktuelle skiven. Denne prosessen repeteres helt til alle skiver av den gjeldende rammen er blitt kodet i I NTER-kodet format, og hvor dette punktet starter video-koderen og koder den neste rammen for videosekvensen.

En videodekoder 700 som er implementert ifølge en foretrukket utførelse av oppfinnelsen, vil nå bli beskrevet med henvisning til Fig. 6. Strukturen for videodekoderen illustrert i Fig. 6 er hovedsakelig identisk til videodekoderen av kjent teknikk vist i Fig. 4, med egnede modifikasjoner til de deler av dekoderen som utfører operasjoner vedrørende inverskvantiseringen av DCT-transformerings-koeffisienter. Alle delene av videodekoderen som implementerer funksjoner og fungerer på en måte som er lik den tidligere beskrevne kjente videodekoderen er identifisert med like henvisningstall.

Her er det antatt at videodekoderen i Fig. 6 korresponderer til koderen beskrevet i forbindelse med Fig. 5 og er derfor i stand til å motta og dekode bitstrømmen 635 som overføres av koderen 600. Slik som beskrevet tidligere i den foretrukne utførelsen av oppfinnelsen bestemmer koder 600 en sekvensnivåkvantiseringsparameter SQP som skal anvendes i INTER-kodemodus. Korresponderende tilpasses dekoder 700 til å motta en indikasjon av denne SQP-verdien og å anvende sekvensnivå-kvantiseringsparameteren SQP i bestemmelse av inverskvantiseringsparametere som skal anvendes med blokkene med kvantiserte transformeringskoeffisientverdier (som representerer prediksjonsfeilverdier), som mottas i den kodede bitstrømmen for INTER-kodede rammer. I en alternativ utførelse av oppfinnelsen, kan den samme prosess også anvendes på kvantiserte transformeringskoeffisientverdier som er ekstrahert fra bitstrømmen fra INTRA-kodede rammer. Som forklart ovenfor, i denne alternative utførelsen, kan en angivelse til to SQP-verdier frembringes, én for INTRA-kodede rammer i sekvensen, og én for INTER-kodede rammer. I en ytterligere alternativ utførelse kan en enkel sekvensnivåkvantiseringsparameter henvises til for rammer som er kodet både i INTRA- og INTER-kodemoduser.

Drift av en videodekoder ifølge den foreliggende utførelsen av oppfinnelsen, vil nå bli beskrevet mer detaljert. Dekoder 700 mottar bitstrøm 635 og separerer den inn i sine konstituente deler. Denne operasjonen utføres av videomultipleksdekoder 770.

Når dekoding av en ny sekvens starter, ekstraherer først videomultipleksdekoder 770 informasjon og parametere vedrørende sekvensen som en helhet fra sekvens-headerdelen av den mottatte bitstrømmen 635. Som beskrevet ovenfor, i forbindelse med beskrivelsen av koder 600 ifølge den foretrukne utførelsen av oppfinnelsen, er sekvensheaderdelen av bitstrømmen modifisert for å inneholde en angivelse til sekvensnivåkvantiseringsparameteren SQP som anvendes i kvantisering av DCT-koeffisientverdier som produseres i INTERkodemodus. Videomultipleksdekoder ekstraherer angivelsen til SQP-verdien fra bitstrømmen og, dersom den var kodet, f.eks. ved å anvende variabel lengdekoding, anvendes egnet dekoding for å gjenvinne SQP-verdien. Dermed sender den SQP-verdien til dekoderens kontrollstyrer 760 som lagrer den i dekoderens minne.

Videodekoder 700 starter så å dekode de kodede rammene av videosekvensen, og dekodingen av hver ramme starter med en gang videodekoderen starter å motta informasjon vedrørende rammen i videobitstrøm 635. Videomultipleksdekoder 770 ekstraherer et I NTRA/I NTER-utløserkontrollsignal fra bildetypeinformasjonen tilknyttet hver komprimerte videoramme som mottas i den kodede bitstrømmen 635 og sender den til kontrollstyrer 760 via kontroll-linje 215. Kontrollstyreren 760 styren driften av dekoderen responsivt til I NTRA/I NTER-utløserkontrollsignalet, for å svitsje dekoderen inn i korrekt dekodemodus.

I den foretrukne utførelsen av oppfinnelsen utføres dekodingen av rammene som kodes i INTRA-format på en måte som er lik til den som er beskrevet tidligere i forbindelse med drift av videodekoder 200 i kjent teknikk. Dekodingen av rammene som kodes i INTER-format, foretas på en annen side slik som beskrevet i det følgende.

Når den mottar en angivelse at neste ramme som skal dekodes er en INTER-kodet ramme, ekstrahert fra den mottatte bitstrømmen av

videomultipleksdekoder 770, svitsjer kontrollstyrer 760 dekoder 700 til INTER-modus. Slik som beskrevet i forbindelse med beskrivelsen av koder 600 ifølge den foretrukne utførelsen av oppfinnelsen, hvori makroblokkene for hver ramme er gruppert inn i skiver, omfatter kodet bitstrøm 635 bestemt skivespesifikk kontrollinformasjon, som omfatteren angivelse til en skivespesifikk QP-verdi, representert som en referanseverdi AQP mht. sekvensnivåkvantiseringsparameteren SQP. Fortrinnsvis frembringes kontrollinformasjonen, som spesifikt vedrører hver skive, i en bitstrøm som en headerdel spesifikk til den aktuelle skiven. Ved mottak av en slik del av bitstrømmen, ekstraherer videomultipleksdekoder den skivespesifikke kontrollinformasjonen fra skiveheader-

delen av bitstrømmen og sender angivelsen til AQP for skiven, gjenfunnet i bitstrømmen, til kontrollstyrer 760 via kontrollinje 717.

Etterfølgende bestemmer kontrollstyrer 760 et nivå for inverskvantisering som skal anvendes med kvantiserings-DCT-koeffisientene for makroblokken i skiven. Dette er gjort for å kombinere AQP-verdien for skiven med den sekvens-spesifikke kvantiseringsparameteren SQP, tidligere mottatt og lagret i dekoderens minne. Slik som beskrevet tidligere i teksten, involverer inverskvantiseringsoperasjonen som utføres i dekoderen multiplisering av hver kvantiserte DCT-koeffisient med en verdi som er lik kvantiseringsnivået som opprinnelig anvendes, dvs., med QP-verdien som anvendes i den korresponderende koderen for å kvantisere DCT-koeffisientene. Derfor, ifølge den foretrukne utførelsen av oppfinnelsen, bestemmer kontrollstyrer 760 nivået for inverskvantisering for makroblokkene av skiven ved å legge til den mottatte AQP-verdien for skiven til SQP. Deretter sendes denne verdien til inverskvantiserer 210 via kontrollinje 218.

Idet kodet informasjon for hver makroblokk i skiven mottas i bitstrømmen 635, separerer videomultipleksdekoder 770 den kodede prediksjonsfeilinformasjonen for hver blokk av makroblokken fra kodet bevegelsesvektorinformasjon. Den rekonstruerer de kvantiserte DCT-transformeringskoeffisientene som representerer prediksjonsfeilverdiene for hver blokk og sender dem til inverskvantiserer 210. Inverskvantiserer 210 inverskvantiserer så de kvantiserte DCT-koeffisientene ifølge skiven QP som konstrueres fra AQP og SQP-verdiene av kontrollstyrer 760. Dermed tilveiebringer den de inverskvantiserte DCT-koeffisientene til invers-DCT-omformer 220. Resten av dekodingsprosessen fortsetter slik som beskrevet tidligere i forbindelse med videodekoder 200 i kjent teknikk.

Trinnene for å motta en skivespesifikkAQP-verdi, ved å kombinereAQP med SQP og inverskvantisere de kvantiserte DCT-koeffisientene for hver blokk av makroblokkene innenfor skiven, repeteres for hver skive av rammen til alle skiver i den aktuelle INTER-kodede rammen er blitt dekodet. Ved dette punktet starter videokoder 700 å dekode den neste rammen av den kodede videosekvensen.

Fig. 7 illustrerer måten som skivespesifikke QP-verdier rekonstrueres på ifølge den foretrukne utførelsen av oppfinnelsen. Det kan ses fra figuren at fremgangsmåten omfatter trinnene:

1. å gjenfinne en sekvensnivåkvantiseringsparameter (SQP); 2. å gjenfinne et bilde eller skivenivådifferansekvantiseringsparameter (AQP); 3. å legge til differansekvantiseringsparametrene til sekvensnivåparameteren for å oppnå kvantiseringsparametere for et bilde eller en skive; 4. å konstruere de mottatte prediksjonsfeilkodingskoeffisientene ved hjelp av bildet eller skivekvantiseringsparameter.

Fig. 8 viser en terminalanordning som omfatter videokoding og dekodingsutstyr som kan tilpasses til å operere i samsvar med den foreliggende oppfinnelse. Mer presist illustrerer figuren en multimediaterminal 80 som er implementert i samsvar med ITU-T-anbefalingen H.324. Terminalen kan ses på som en multimediatransceiveranordning. Den omfatter elementer som oppfanger, koder og multiplekser multimedia-datastrømmer for transmisjon via et kommunikasjonsnettverk, så vel som elementer som mottar, demultiplekser, dekoder og fremviser mottatt multimediainnhold. ITU-T-anbefalingen H.324 definerer den totale operasjonen av terminalen og refererer til andre anbefalinger som regulerer driften av dens ulike konstituente deler. Denne typen multimediaterminal kan anvendes i sanntidsapplikasjoner slik som konversasjonen videotelefoni, eller ikke-sanntidsapplikasjoner slik som gjenfinning og/eller streaming av videoklipp, f.eks. en multimediainnholdsserver på internett.

I konteksten av den foreliggende oppfinnelse skal det merkes at H.324-terminalen som vises i Fig. 8 kun er én av et antall alternative multimedia-terminalimplementasjoner som passer for applikasjon av den oppfinneriske fremgangsmåten. Det skal også merkes at et antall alternativer eksisterer vedrørende lokasjonen og implementasjonen av terminalutstyret. Slik Fig. 8 illustrerer, kan multimediaterminalen lokaliseres i kommunikasjonsutstyr som er tilkoblet til et fast linjetelefonnettverk, slik som et analog PSTN (Public Switched Telephone Network). I dette tilfellet er multimediaterminalen utstyrt med modem 91, i tråd med ITU-T-anbefalingene V.8, V.34 og valgfritt V.8bis. Alternativt kan multimediaterminalen tilkobles et eksternt modem. Modemet åpner for konversasjon av de multipleksete digitale dataene og kontrollsignalene som produseres av multimediaterminalen til en analog form som er egnet for transmisjon over PSTN. Det åpner videre for multimediaterminalen å motta data og kontroll-signaler i analog form fra PSTN og konvertere dem til en digital datastrøm som demultiplekses og behandles på en egnet måte av terminalen. En H.324-multimediaterminal kan også implementeres på en slik måte at den kan være direkte tilkoblet et digitalt fast linjenettverk, slik som et ISDN (Integrated Services Digital Network). I dette tilfellet er modemet 91 erstattet med et ISDN-brukernettverkgrensesnitt. I Fig. 8 er dette ISDN-brukernettverk-grensesnittet representert av alternativ blokk 92.

H.324-multimediaterminaler kan også tilpasses for bruk i mobile kommunika-sjonsapplikasjoner. Dersom anvendt med en trådløs kommunikasjonslink, kan modemet 91 erstattet med et trådløst egnet grensesnitt, slik som representert av alternativ blokk 93 i Fig. 8. F.eks. kan en H.324/M multimediaterminal omfatte en radiotransceiver som åpner for tilkobling til den gjeldende 2. generasjons-GSM mobilt telefonnettverk, eller det foreslåtte 3. generasjons UMTS (Universal Mobile Telephone System). Det skal merkes at i multimediaterminaler som er konstruert for toveis kommunikasjon, dvs. for transmisjon og mottak av videodata, er det fordelaktig å frembringe både en videokoder og videodekoder implementert ifølge den foreliggende oppfinnelse. Slik et koder- og dekoderpar er ofte implementert som en enkel kombinert funksjonell enhet, referert til som «kodek».

En typisk H.324-multimediaterminal vil nå bli beskrevet mer detaljert med angivelse til Fig. 8.

Multimediaterminalen 80 omfatter et mangfold med elementer som refereres til som «terminalutstyr». Dette omfatter video, audio og telematiske anordninger, merket generelt ved henvisningstall 81, 82 og 83 respektivt. Videoutstyret 81 kan omfatte f.eks. et videokamera for å oppfange videobilder, en monitor for å fremvise mottatt videoinnhold og valgfritt videobehandlingsutstyr. Audioutstyret 82 omfatter typisk en mikrofon, f.eks. for å oppfange talte meldinger, og en høyttaler for å reprodusere mottatt audioinnhold. Audioutstyret kan også omfatte tilleggsaudiobehandlingsenheter. Det telematiske utstyret 83 kan omfatte en dataterminal, tastatur, elektronisk tavle eller en stillbildetransceiver, slik som en faksenhet.

Videoutstyret 81 er koblet til en videokodek 85. Videokodeken 85 omfatter en videokoder 600 og en korresponderende videodekoder 700 hvor begge er implementert ifølge oppfinnelsen (se fig. 5 og 6). Videokodeken 85 er ansvarlig for å kode oppfanget videodata på en egnet måte for videre transmisjon over en kommunikasjonslink og dekoding av komprimert videoinnhold som mottas fra kommunikasjonsnettverket. I eksemplet illustrert i Fig. 8, er videokodeken implementert ifølge ITU-T-anbefalingen H.26L med egnede modifikasjoner for å implementere fremgangsmåten ifølge oppfinnelsen både i koderen og dekoderen av videokodeken.

Terminalens audioutstyr er koblet til en audiokodek, merket i Fig. 8 ved henvisnings-tall 86. Som videokodeken omfatter audiokodeken en koder/et dekoderpar. Den konverterer audiodata som er oppfanget av terminalens audioutstyr til en form som er egnet for transmisjon over kommunikasjonslinken og transformerer kodet audiodata som mottas fra nettverket tilbake til en form som er egnet for reproduksjon, f.eks. på terminalens høyttaler. Utgangen på audiokodeken sendes til en forsinkelsesblokk 87. Denne kompenserer for forsinkelser som innføres av videokodingsprosessen og forsikrer derfor synkronisering av audio- og videoinnhold.

Systemkontrollblokken 84 i multimediaterminalen styrer ende-til-ende-nettverk-signalering ved å anvende en egnet styreprotokoll (signaleringsblokk 88) for å etablere en felles modus for drift mellom en sender- og en mottaksterminal. Signalerings-blokken 88 utveksler informasjon om kodings- og dekodings-mulighetene for sender- og mottakerterminalene, og kan anvendes til å åpne for ulike kodemoduser for videokoderen. Systemstyringsblokken 84 styrer også bruken av datakryptering. Informasjon angående typen kryptering som skal anvendes i dataoverføring sendes fra krypteringsblokk 89 til multiplekser/- demultiplekseren (MUX/DMUX-enhet) 90.

I løpet av datatransmisjon fra multimediaterminalen, kombinerer MUX/DMUX-enheten 90 kodete og synkroniserte video- og audio-strømmer med datainngang fra det telematiske utstyret 83 og mulig kontrolldata for å danne en enkel bitstrøm. Informasjon angående type datakryptering (dersom en) som skal anvendes med bitstrømmen. Frembrakt av krypteringsblokk 89, anvendes til å velge en krypteringsmodus. Korresponderende, når en multiplekset og mulig kryptert multimediabitstrøm mottas, er MUX/DMUX-enhet 90 ansvarlig for å dekryptere bitstrømmen, og dele den inn i sine konstituente multimedia-komponenter og sende de komponentene til de egnede kodek'ene og/eller terminalutstyr for dekoding og reproduksjon.

Dersom multimediaterminalen 80 er en mobilterminal, dvs. den er utstyrt med en radiotransceiver 93, skal det forstås av en fagperson at den også kan omfatte tilleggselementer. I én utførelse omfatter den et brukergrensesnitt som har et display og et tastatur, som åpner for drift av multimediaterminalen 80 av en bruker, en sentral behandlingsenhet, slik som en mikroprosessor, som styrer blokkene som er ansvarlig for de ulike funksjonene for multimediaterminalen, et dynamisk minne RAM, et leselager ROM og et digitalkamera. Mikroprosessorens driftfunksjoner, dvs. programkode som korresponderer til basisfunksjoner for multimediaterminalen 80, lagres i leselageret ROM og kan utøves slik det kreves at mikroprosessoren, f.eks. under kontroll av brukeren. I samsvar med program-koden, anvendes mikro-prosessoren og radiotransceiveren 93 for å danne en forbindelse med et mobilt kommunikasjonsnettverk og åpner for at multimediaterminalen 80 overfører informasjon til- og mottar informasjon fra det mobile kommunikasjonsnettverket over en radiovei.

Mikroprosessoren overvåker tilstanden for brukergrensesnittet og styrer det digitale kameraet. I respons til en brukerkommando, instruerer mikroprosessoren kameraet å ta opp digitale bilder til rammen. Idet et bilde er oppfanget, eller alternativt i løpet av oppfangingsprosessen, segmenterer mikroprosessoren bildet inn i bildesegmenter, (f.eks. makroblokker) og anvender koderen til å utføre bevegelseskompensert koding av segmentene for å generere en komprimert bildesekvens, slik som beskrevet i den tidligere beskrivelsen. En bruker kan kommandere multimediaterminalen 80 til å fremvise de oppfangede bildene på fremvisningsskjermen sin eller å sende den komprimerte bilde-sekvensen ved å anvende radiotransceiveren 93 til en annen multimediaterminal, en videotelefon tilkoblet et fast linjenettverk (PSTN) eller en annen telekommunikasjonsanordning. I en foretrukket utførelse startes transmisjonen av bildedata med en gang det første segmentet er kodet, slik at mottakeren kan starte en korresponderende dekodingsprosess med en minimal tidsforsinkelse.

Selv om beskrevet i konteksten i bestemte utførelser, vil det være innlysende for en fagperson at et antall modifikasjoner og ulike forandringer til dette innholdet kan gjøres. Derfor, mens oppfinnelsen er blitt delvis vist og beskrevet mht. én eller flere utførelser derav, skal det forstås av en fagperson at bestemte modifikasjoner eller forandringer kan gjøres deri uten å ta avstand fra omfanget i oppfinnelsen som vist ovenfor.

Mer bestemt, i samsvar med en andre mulig utførelse av oppfinnelsen, er ikke sekvens QP overført, men en applikasjonsspesifikk konstant anvendes som en sekvens QP i stedet.

I en tredje mulig utførelse av oppfinnelsen kan sekvensen QP oppdateres avhengig av forandringsegenskapene for videosekvensen dersom en pålitelig måte overfører den nye sekvensen QP er tilgjengelig. Den oppdaterte SQP-verdien kan enten omfattes i den kodede bitstrømmen som representerer videosekvensen, eller den kan overføres direkte fra koderen til dekoderen i en tilknyttet styringskanal.

I en fjerde mulig utførelse av oppfinnelsen, dersom QP er konstant for hele video-sekvensen, overføres kun verdien på sekvensen QP sammen med informasjonen som den skal anvendes som QP'en for alle bildene/skivene.

Claims

1. Fremgangsmåte for koding av en digital videosekvens for anvendelse i en videokodingsapplikasjon for å produsere en kodet videobitstrøm som representerer den digitale videosekvensen, hvor den digitale videosekvensen omfatter et antall rammer, og hver ramme for sekvensen omfatter en tabell av piksler som er delt inn i et antall blokker, hvor hver blokk omfatter et bestemt antall piksler, og fremgangsmåten omfatter: å kode en ramme for den digitale videosekvensen ved å anvende bevegelseskompensert prediksjon på blokker med piksler for å produsere korresponderende blokker med prediksjonsfeilverdier, og å anvende en transformeringskodingsteknikk på blokkene med prediksjonsfeilverdier for å produsere sett med transformeringskoeffisientverdier som representerer blokkene for prediksjonsfeilverdier, hvor fremgangsmåten for koding er karakterisert vedå definere en standardverdi for kvantisering for bruk ved koding av den digitale videosekvensen for å kvantisere settene med transformeringskoeffisientverdier, og å frembringe en angivelse av standardverdien for kvantisering til en dekodingsprosess.

2. Fremgangsmåte i samsvar med krav 1,karakterisert vedat standardverdien for kvantisering er spesifikk til videosekvensen som blir kodet.

3. Fremgangsmåte i samsvar med krav 1,karakterisert vedat standardverdien for kvantisering er spesifikk til videokodingsapplikasjonen.

4. Fremgangsmåte i samsvar med krav 1,karakterisert vedat angivelsen av standardverdien for kvantisering frembringes i en kodet bitstrøm som representerer den kodede videosekvensen.

5. Fremgangsmåte i samsvar med krav 4,karakterisert vedat den kodede bitstrømmen overføres fra en videokodingsanordning til en korresponderende videodekodingsanordning.

6. Fremgangsmåte i samsvar med et av kravene 1-5, karakterisert vedat standardnivået for kvantisering oppdateres i løpet av kodingen av den digitale videosekvensen, hvor fremgangsmåten videre omfatter trinnet å frembringe en angivelse av det oppdaterte standardnivået for kvantisering til en dekodingsprosess.

7. Fremgangsmåte i samsvar med et av kravene 1-6, karakterisert vedat settene med transformeringskoeffisientverdier kvantiseres for å avgi sett med kvantiserte transformeringskoeffisientverdier som representerer blokkene med prediksjonsfeilverdier basert på et kvantiseringsnivå som er ulikt standardnivået for kvantisering.

8. Fremgangsmåte i samsvar med krav 7, videre karakterisert vedå frembringe til en dekodingsprosess en angivelse av en differanse mellom kvantiseringsnivået og standardnivået for kvantisering.

9. Fremgangsmåte i samsvar med krav 7 eller 8, karakterisert vedat nivået for kvantisering reguleres fra én ramme av den digitale videosekvensen til en annen, slik at det faktiske kvanti-seringsnivået som anvendes på settene med transformeringskoeffisienterforén bestemt ramme av den digitale videosekvensen er ulikt standardnivået for kvantisering.

10. Fremgangsmåte i samsvar med krav 9,karakterisert vedat det faktiske kvantiseringsnivået er representerbart som en differanse mht. standardnivået for kvantisering.

11. Fremgangsmåte i samsvar med krav 9, viderekarakterisertvedå frembringe til en dekodingsprosess en angivelse av en differanse mellom det faktiske kvantiseringsnivået og standardnivået for kvantisering.

12. Fremgangsmåte i samsvar med et av kravene 7-11,karakterisert vedat antallet blokker med piksler, hvori en ramme av den digitale videosekvensen er oppdelt, er gruppert inn i ett eller flere segmenter og hvori nivået for kvantisering som anvendes på settet med transformeringskoeffisienter reguleres fra ett segment av en ramme til en annen slik at et faktisk kvantiseringsnivå anvendt på settet med transformeringskoeffisienter for ett bestemt segment av en ramme er ulikt standardnivået for kvantisering.

13. Fremgangsmåte i samsvar med krav 12, viderekarakterisertvedå frembringe til en dekodingsprosess en angivelse av en differanse mellom kvantiseringsnivået og standardkvantiseringsnivået.

14. Videokoder (600) for å kode en digital videosekvens for å produsere en kodet videobitstrøm som representerer den digitale videosekvensen, og den digitale videosekvensen omfatter et antall rammer, hvor hver ramme av sekvensen om-fatter en tabell av piksler som er delt inn i et antall blokker, hvor hver blokk omfatter et bestemt antall piksler, og videokoderen omfatter: et middel (150) for å kode en ramme av den digitale videosekvensen ved å an-vende bevegelseskompensert prediksjon til blokker med piksler for å frembringe korresponderende prediksjonsfeilverdier, og et middel (104) for å transformere blokkene med prediksjonsfeilverdier for å frembringe sett med transformeringskoeffisientverdier som representerer blokkene med prediksjonsfeilverdier, hvor videokoderen erkarakterisert vedet middel (160) for å velge et standard kvantiseringsnivå for å kvantisere settene med transformeringskoeffisientverdier, og et middel (160) for å frembringe en angivelse på det standard kvantiseringsnivået i den kodede bitstrømmen som representerer den digitale videosekvensen.

15. Videokoder i samsvar med krav 14,karakterisert vedat det standard kvantiseringsnivået er spesifikt til videosekvensen som skal kodes.

16. Videokoder i samsvar med krav 14 eller 15,karakterisert vedat settet med transformeringskoeffisientverdier kvantiseres for å avgi sett med kvantiserte transformeringskoeffisientverdier som representerer blokkene med prediksjonsfeilverdier basert på et kvantiseringsnivå som er ulikt det standard kvantiseringsnivået.

17. Videokoder i samsvar med krav 16, viderekarakterisert vedmidler for å frembringe en angivelse på en differanse mellom kvantiserings-nivået og det standard kvantiseringsnivået i den kodede bitstrømmen.

18. Videokoder i samsvar med et av kravene 14-17, karakterisert vedat det standard kvantiseringsnivået kan oppdateres og videokoderen er innrettet til å frembringe en indikasjon på det oppdaterte standard kvantiseringsnivået i den kodede bitstrømmen.

19. Videokoder i samsvar med krav 18,karakterisert vedat settene med transformeringskoeffisientverdier kvantiseres for å avgi sett med kvantiserte transformeringskoeffisientverdier som representerer blokkene med prediksjonsfeilverdier basert på et kvantiseringsnivå som er ulikt det oppdaterte standard kvantiseringsnivået.

20. Videokoder i samsvar med krav 16,karakterisert vedat kvantiseringsnivået som anvendes for settet med transformeringskoeffisientverdier kan reguleres fra én ramme av den digitale videosekvensen til en annen for å anvende et standard kvantiseringsnivå til settet med transformeringskoeffisienter for én bestemt av den digitale videosekvensen og hvori det faktiske kvantiseringsnivået er ulikt det standard kvantiseringsnivået.

21. Videokoder i samsvar med krav 20, viderekarakterisert vedmiddel for å frembringe en angivelse på differansen mht. det standard kvantiseringsnivået i den kodede bitstrømmen som representerer den digitale videosekvensen.

22. Videokoder i samsvar med krav 16, viderekarakterisert vedmiddel for å gruppere antallet blokker hvori en ramme av den digitale videosekvensen deles inn i ett eller flere segmenter, og et middel for å regulere kvantiseringsnivået som anvendes på settet ved transformeringskoeffisientverdier fra ett segment av en ramme til et annet for å anvende et faktisk kvantiseringsnivå på sett av transformeringskoeffisienter for et bestemt segment av en ramme, hvor koderen videre erkarakterisertve d at det faktiske kvantiseringsnivået er ulikt det standard kvantiserings-nivået, og videokoderen er videre innrettet til å representere det faktiske kvantiseringsnivået for anvendelse i det bestemte segmentet som en differanse mht. det standard kvantiseringsnivået.

23. Videokoder i samsvar med krav 22, som videre erkarakterisertv e d middel for å frembringe en angivelsen på differansen mht. det standard kvantiseringsnivået i den kodede bitstrømmen som representerer den digitale videosekvensen.

24. Videokoder i samsvar med et av kravene 14-23,karakterisertve d at videokoderen er frembrakt i en multimediaterminal.

25. Videokoder i samsvar med et av kravene 14-23,karakterisertve d at videokoderen er frembrakt i en radiotelekommunikasjonsanordning.

26. Fremgangsmåte for å dekode en kodet digital videosekvens for anvendelse i en videodekodingsapplikasjon for å produsere en dekodet digital video-sekvens, hvor den digitale videosekvensen omfatter et antall rammer, og hver ramme av sekvensen omfatter en tabell med piksler som er delt inn i et antall blokker, hvor hver blokk omfatter et bestemt antall piksler, og rammer av den digitale videosekvensen som er kodet ved: å anvende bevegelseskompensert prediksjon på blokkene med piksler for å produsere korresponderende blokker med prediksjonsfeilverdier, å anvende en transformeringskodingsteknikk på blokkene med prediksjonsfeilverdier for å produsere sett med transformeringskoeffisientverdier som representerer blokkene med prediksjonsfeilverdier, og å anvende et kvantiseringsnivå til settene med transformerings-koeffisientverdier for å avgi sett med kvantiserte transformeringskoeffisientverdier som representerer blokkene med prediksjonsfeilverdier, hvori en angivelse på kvantiseringsnivået frembringes i den kodete bitstrømmen som omfatter den kodete digitale videosekvensen, hvor fremgangsmåten for de-koding erkarakterisert vedå velge et standardnivå med inverskvantisering for anvendelse i de-koding av den kodete digitale videosekvensen for å inverskvantisere settene med kvantiserte transformeringskoeffisientverdier, hvor det valgte standardnivået baseres på angivelsen på kvantiseringsnivået som frembringes i den kodede bitstrømmen.

27. Fremgangsmåte i samsvar med krav 26,karakterisert vedat det standard inverskvantiseringsnivået er spesifikt til den kodede video-sekvensen som ble dekodet.

28. Fremgangsmåte i samsvar med krav 26,karakterisert vedat det standard inverskvantiseringsnivået er spesifikt til videodekodings-applikasjonen.

29. Fremgangsmåte i samsvar med et av kravene 26-28,karakterisert vedat kvantiseringsnivået oppdateres i avgivelsen av settene med kvantiserte transformeringskoeffisientverdier, hvor fremgangsmåten for dekoding videre erkarakterisert vedå oppdatere det standard inverskvantiseringsnivået i respons til det oppdaterte kvantiseringsnivået.

30. Videodekoder (700) for å dekode en digital videosekvens for å produsere en dekodet digital videosekvens, hvor den digitale videosekvensen omfatter et antall rammer, og hver ramme av sekvensen omfatter en tabell med piksler som er delt inn i et antall blokker, hvor hver blokk omfatter et bestemt antall piksler, rammer med den digitale videosekvensen som er kodet ved å: anvende bevegelseskompensert prediksjon på blokker med piksler for å produsere korresponderende blokker med prediksjonsfeilverdier, anvende en transformeringskodingsteknikk på blokkene med prediksjonsfeilverdier for å produsere sett med transformeringskoeffisientverdier som representerer blokkene med prediksjonsfeilverdier og anvende et kvantiseringsnivå til settene med transformeringskoeffisientverdier for å avgi sett med kvantiserte transformeringskoeffisientverdier som representerer blokkene med prediksjonsfeilverdier, hvori en angivelse på kvantiseringsnivået blir frembrakt i den kodede bitstrømmen som omfatter den kodete digitale videosekvensen, hvor videodekoderen erkarakterisert vedet middel (770) for å gjenfinne den kodete digitale videosekvensen fra den kodede bitstrømmen, og et middel (260) for å velge et standard inverskvantiseringsnivå for anvendelse i dekoding av den kodede digitale videosekvensen for å inverskvantisere settene med kvantiserte transformeringskoeffisientverdier, og det standard inverskvantiseringsnivået velges basert på angivelsen på kvantiseringsnivået som frembringes i den kodede bitstrømmen.

31. Videodekoder i samsvar med krav 30,karakterisert vedat det standard inverskvantiseringsnivået er spesifikt til den kodede video-sekvensen som ble dekodet.

32. Videodekoder i samsvar med krav 30 eller 31,karakterisert vedat kvantiseringsnivået blir oppdatert i avgivelsen av sett med kvantiserte transformeringskoeffisientverdier, og videodekoderen er innrettet til å oppdatere det standard inverskvantiseringsnivået i respons til det oppdaterte kvantiseringsnivået.

33. Videodekoder i samsvar med et av kravene 30-32, karakterisert vedat videodekoderen er frembrakt i en multimediaterminal.

34. Videodekoder i samsvar med et av kravene 30-32, karakterisert vedat videodekoderen er frembrakt i en radiotelekommunikasjonsanordning.