SE534551C2

SE534551C2 - Digital bildmanipulation innefattande identifiering av ett målområde i en målbild och sömlös ersättning av bildinformation utifrån en källbild

Info

Publication number: SE534551C2
Application number: SE1000142A
Authority: SE
Inventors: Alexander Lindskog; Gustaf Pettersson; Ulf Holmstedt; Johan Windmark; Sami Niemi
Original assignee: Scalado Ab
Priority date: 2010-02-15
Filing date: 2010-02-15
Publication date: 2011-10-04
Also published as: US20110200259A1; EP2360644A2; US9396569B2; US20140177975A1; EP3104332B1; SE1000142A1; EP3104331A1; EP2360644A3; US20140101590A1; US8594460B2; EP3104332A1; US9196069B2

Description

20 25 30 35 534 551 2 identifiering av ett källomràde i källbilden, där källområdet har en uppsättning koordinater, användning av uppsättningen koordinater för källområdet för att, som respons till nämnda identifiering av nämnda källområde, identiﬁera ett målområde i målbilden genom att beräkna en felfunktion mellan källområdet och målområdet över ett antal punkter i ett område S längs ett preliminärt snitt dQ mellan källområdet och målområdet för noll translation och sedan translatera nämnda preliminära snitt utåt från nämnda noll translation tills felfunktionen minimeras och därmed identiﬁerar målområdet i målbilden, och skapande av en digital bild baserad på bilddatainformation från målbilden, varvid bilddatainformation från målområdet, genom användning av mjuk blandning mellan bilddatainformation från målbilden och bilddatainformation från källområdet, sömlöst ersätts med bilddatainformation från källområdet.

I enlighet med en andra aspekt tillhandahålls ett förfarande för digital bildmanipulation innefattande: mottagning av en källbild och en målbild, identiﬁering av ett källomráde i källbilden, där källområdet har en uppsättning koordinater. användning av uppsättningen koordinater för källområdet för att, som respons till nämnda identifiering av nämnda källområde, identiﬁera ett målområde i målbilden genom att beräkna en felfunktion mellan källområdet och målområdet över ett antal punkter i ett område S längs ett preliminärt snitt d!! mellan källområdet och målområdet för noll translation och sedan translatera nämnda preliminära snitt utåt från nämnda noll translation tills felfunktionen minimeras och därmed identiﬁerar målområdet i målbilden, och skapande av en digital bild baserad på bilddatainforrnation från källbilden, varvid bilddatainformation från källområdet, genom användning av mjuk blandning mellan bilddatainformation från källbilden och bilddatainformation från källområdet, sömlöst ersätts med bilddatainforrnation från målområdet.

Således kan en digital bild skapas baserad på bildatainformation från en av målbilden, varvid bilddatainformation från målområdet sömlöst ersätts med bilddatainformation från källområdet, eller källbilden, varvid bilddatainformation från källområdet sömlöst ersätts med bilddatainformation från målområdet.

Förfarandet möjliggör således att områden i digitala bilder ersättas sömlöst. Förfarandena gör det möjligt för områden med defekter att sömlöst ersättas med områden från andra bilder. Exempelvis kan ett område i en bild som avbildar människor med slutna ögon ersättas med ett motsvarande område från en annan (liknande) bild där ögonen på (den samma) människan 10 15 20 25 30 35 534 551 3 är öppna, inter alia genom att tillåta en användare att ersätta delar av en bild med samma område från olika bilder.

Företrädesvis är bildema lika på så vis att de avbildapsamma soen (innefattande samma fotograﬁska element) och som tas i följd med ett ganska litet tidsmässigt avstånd mellan bildtagningarna.

Förfarandet kan vidare innefatta mottagning av särdragsinformation avseende ett särdrag i åtminstone en av nämnda källbild och nämnda målbild, varvid åtminstone en av nämnda källbild och nämnda målbild innefattar nämnda särdrag, och identifiering av nämnda källområdet baserat på nämnda särdrag.

Förfarandet kan vidare innefatta bestämning av huruvida ett av nämnda källområdet och nämnda målområde uppfyller ett villkor baserat pà nämnda särdragsinformation, och skapande av nämnda digitala bild baserat pà nämnda bestämning. Därmed kan den skapade bilden bestämmas att innefatta ett område eller objekt innefattande ett förutbestämt särdrag.

Uppsättningen koordinater för källområdet kan användas så att en uppsättningen koordinater för målområdet i målbilden motsvarar uppsättningen koordinater för källområdet. Därmed kan målområdet enkelt bestämmas.

Identifiering av källområdet kan vidare innefatta bestämning av en kompensatíonsrörelse mellan åtminstone en del av nämnda källbild och åtminstone en del av nämnda målbild sådan att nämnda kompensationsrörelse minimerar en skillnad mellan källbilden och målbilden.

Därmed behöver inte källbilden och målbilden vara perfekt (dvs. pixel för pixel) upplinjerade.

Förfarandet kan vidare innefatta användning av ett ”thin plate spline"- förfarande för att bestämma nämnda kompensationsrörelse. Därmed kan en snabb och effektiv rörelsekompensation uppnås.

Detaljmàttet kan vara baserat på dataenhetslängder för dataenheter, "data units", i nämnda kandidatkällområde och nämnda kandidatmâlomrâde.

Därmed kan ett snabbt men samtidigt precist detaljmått användas.

Förfarandet kan vidare innefatta mjuk blandning mellan källbilden och målbilden medelst användning av ”quad-tree"-optimering. Därmed kan snabb och effektiv mjuk blandning åstadkommas.

Förfarandet kan vidare innefatta ersättning av en av målbilden och källbilden med den skapade digitala bilden. Därmed kan minnesbehov minskas. 10 15 20 25 30 35 534 551 4 Källbilden och målbilden kan ha kodats. Förfarandet kan vidare innefatta att i källbilden endast avkoda bilddatainformation som representerar källområdet, och att i målbilden endast avkoda bilddatainfonnation som representerar målområdet. Därmed kan snabb bildmanipulation åstadkommas.

Källområdet kan motsvara ett källobjekt. Målområdet kan motsvara ett målobjekt. Källobjektet och målobjekt kan representera ett och samma objekt.

Därmed kan objektigenkänning användas för att förbättra förfarandet.

Förfarandet kan innefatta mottagning av en signal som identiﬁerar nämnda källområde. Signalen kan vara associerad med användarinmatning.

Därmed kan källområdet identiﬁeras av en användare. l enlighet med en tredje aspekt realiseras föreliggande uppﬁnning av en anordning för digital bildmanipulation innefattande: organ för mottagning av en källbild och en målbild, organ för identiﬁering av ett källområde i källbilden, där källområdet har en uppsättning koordinater, organ för användning av uppsättningen koordinater för källområdet för att, som respons till nämnda identiﬁering av nämnda källområde, identifiera ett målområde i målbilden genom att beräkna en felfunktion mellan källområdet och målområdet över ett antal punkter i ett område S längs ett preliminärt snitt dQ mellan källområdet och målområdet för noll translation och sedan translatera nämnda preliminära snitt utåt från nämnda noll translation tills felfunktionen minimeras och därmed identiﬁerar målområdet i målbilden, och organ för skapande av en digital bild baserad på bilddatainformation från målbilden, varvid bilddatainformation från målområdet, genom användning av mjuk blandning mellan bilddatainformation från målbilden och bilddatainformation från källområdet, sömlöst ersätts med bilddatainformation från källområdet. l enlighet med en fjärde aspekt realiseras föreliggande uppﬁnning av en anordning för digital bildmanipulation innefattande: organ för mottagning av en källbild och en målbild, organ för identiﬁering av ett källområde i källbilden, där källområdet har en uppsättning koordinater, organ för användning av uppsättningen koordinater för källområdet för att, som respons till nämnda identiﬁering av nämnda källområde, identiﬁera ett målområde i målbilden genom att beräkna en felfunktion mellan källområdet och målområdet över ett antal punkter i ett område S längs ett preliminärt snitt dQ mellan källområdet och målområdet för noll translation och sedan translatera nämnda preliminära snitt utåt från nämnda noll translation tills felfunktionen minimeras och därmed identiﬁerar målområdet i målbilden, och organ för 10 15 20 25 30 35 534 551 5 skapande av en digital bild baserad på bilddatainforrnation från källbilden, varvid bilddatainformation från källområdet, genom användning av mjuk blandning mellan bilddatainfonnation från kä|||bilden och bilddatainformation från målområdet, sömlöst ersätts med bilddatainforrnation från målområdet.

Anordningen enligt den tredje och/eller fjärde aspekten kan vidare innefatta en kamera, och nämnda källbild och/eller nämnda målbild kan mottagas från nämnda kamera.

I enlighet med en femte aspekt realiseras föreliggande uppﬁnning av en datorprogramprodukt för digital bildmanipulation. Således tillhandahålls en datorprogramprodukt innefattande mjukvaruinstruktioner som då de nedladdats till en dator är anordnade att utföra bildbehandling enligt de ovan angivna förfaranden för digital bildmanipulation.

Den andra, den tredje, den fjärde och den femte aspekten kan generellt sett ha samma särdrag och fördelar som den första aspekten. Andra syften. särdrag och fördelar för föreliggande uppﬁnning kommer att vara uppenbara från den följande detaljerande beskrivningen, från de bifogade beroende patentkraven, samt även från ritningama.

Generellt sett skall alla termer som används i patentkraven tolkas enligt deras vanliga betydelse inom det tekniska området, såvida de inte explicit deﬁnieras häri. Alla hänvisningar till ”en/ett/den/det [element, anordning, komponent, organ, steg, etc.]" ska tolkas brett såsom hänvisande till minst en förekomst av elementet, anordningen, komponenten, organet, steget, etc., såvida inte något annat anges. Stegen för något förfarande som beskrivs häri behöver inte utföras i den exakta ordning som visas, såvida inte något annat anges.

Kort beskrivning av ritningarna Utföringsforrner av föreliggande uppﬁnning kommer nu att beskrivas i mer detalj med hänvisning till de bifogade ritningarna, i vilka: Fig. 1a-b är schematiska illustrationer av anordningar enligt utföringsformer, Fig. 2 är en schematisk illustration av ett exempel enligt en utföringsform, Fig. 3a-5c är schematiska illustrationer av exempel enligt utföringsformer, Fig. 6 är en schematisk illustration av ett snittförfarande enligt en utföringsform, och 10 15 20 25 30 35 534 551 6 F ig. 7 är ett flödesdiagram för förfarande enligt utföringsformer.

Detaljerad beskrivning av föredragna utföringsformer Föreliggande uppﬁnning kommer nu att här nedan beskrivas mer detaljerat med hänvisning till de bifogade ritningarna i vilka särskilda utföringsformer visas. Samma nummer används genomgående till samma element. Men, föreliggande uppﬁnning kan utföras i många olika skepnader och skall inte tolkas som begränsad av utföringsformerna som visas häri; dessa utföringsformer tillhandahålles som exempel så att denna beskrivning är detaljerad och komplett och förmedlar uppﬁnningens omfattning för fackmannen inom området. Till exempel, för illustrativa syften presenteras innehållet i ett JPEG-sammanhang. Men innehållet är även tillämpbart för andra standarder och format, mutatis mutandis.

Fig. 1a är en schematisk illustration av en mobil kommunikationsanordning 100 enligt en utföringsforrn. Anordningen 100 kan vara en dator. Anordningen 100 kan vara en personlig digital assistent (PDA).

Anordningen 100 kan vara en mobiltelefon. Generellt innefattar anordningen 100 kretsar anordnade att utföra ett antal operationer och kommer att beskrivas i termer av funktionella block. Generellt sett kan de funktionella blocken implementeras på olika sätt, såsom en eller ﬂera fältprogrammerbara grindmatriser (FPGA:er), tillämpningsspeciﬁka integrerade kretsar (ASlC:ar), eller liknande. Anordningen 100 innefattar ett processorfunktionellt block 104 vilket kan realiseras som en central processorenhet och/eller en specialiserad bildbehandlingsenhet, såsom en hårdvaruaccelerator för JPEG. Processorn kan även hänvisa till en graﬁkbehandlingsenhet (GPU) kapabel att utföra beräkningar, såsom pixel/fragment-renderare i OpenGUOpenCL.

Bildbehandlingsenheten kan implementeras som en datorprogramprodukt innefattande en eller flera mjukvarukomponenter, eller som en dedikerad hårdvaruenhet för bildbehandling. Mjukvarukomponenterna kan innefatta mjukvaruinstruktioner som då de nedladdats till en dator är anordnade att utföra instruktioner associerade med bildbehandlingsenheten. Anordningen 100 innefattar vidare ett minnesfunktionellt block 106, vilket kan realiseras som ett minne eller ett datorläsbart lagringsmedium, såsom ett minne med direkt åtkomst (RAM), ett minne med enbart läsning (ROM), en produkt för en universell seriebuss (USB) såsom en minnessticka, eller liknande.

Anordningen 100 innefattar vidare ett kommunikationsfunktionellt block 108, vilket kan realiseras av en mottagare eller en sändare och/eller en sändare- 10 15 20 25 30 35 534 551 7 mottagare, och som inter alia är anordnad(e) att mottaga inmatning från, och att leverera utmatning till, ett funktionsblock 110 för ett människa-maskin- gränssnitt (MMl), till en annan mobil kommunikationsanordning, en dator, eller liknande. Anordningen 100 programkörs under övervakning av ett operativsystem 102. Anordningen 100 kan vidare innefatta en bildtagningsenhet 112, vilken kan realiseras av en kamera eller liknande.

Alternativt kan anordningen 100 vara operativt kopplad till en extern bildtagningsenhet (ej visad) via det kommunikationsgränssnittsfunktionella blocket 108. Såsom kommer att visas nedan kan anordningen ha tillgång till uppsättningar bilder frân vilka bilderna kan väljas. Sådana bilder kan härstamma från en vldeosekvens, såsom en videoﬁl, eller från en videoövervakningskamera. De externa blldtagningsenheten kan vara kopplad till anordningen via ett externt nätverksgränssnitt som kan vara trådlöst, såsom ett 3G-modem, eller ett WLAN.

Det minnesfunktionella blocket 106 kan rymma en datorprogramprodukt 114 innefattande mjukvaruinstruktioner som då de nedladdats till en dator, såsom anordningen 100, och körda på processorn 104, är anordnade att utföra det som häri beskrivs. Alternativt kan mjukvaruinstruktionerna vara separat distribuerbara för att distribueras i ett datornätverk (ej visat).

Fig. 1b är en schematisk illustration av en bildmanipulator 120 enligt en utföringsform. Bildmanipulatorn innefattar ett antal funktionsblock vilka kan vara implementerade i processorn 104 i anordningen 100 i Fig. 1a.

Bildmanipulatorn 120 innefattar en bildmottagare 124 anordnad att mottaga kållbilder 148 och målbilder 150. Bildmottagaren 124 kan innefatta en avkodare 126 för att avkoda käll- och/eller målbilder. Bildmanipulatorn 120 innefattar vidare en källområdesidentiﬁerare 128 kopplad till bildmottagaren 124 och anordnad för att i källbilden 148 identiﬁera ett område.

Källområdesidentiﬁeraren 128 kan innefatta en kandidatkällområdesidentiﬁerare 130 anordnad för att identiﬁera ett kandidatkällområde på vilket källområdet kan vara baserat. Bildmanipulatorn 120 innefattar vidare en målområdesidentiﬁerare 132 kopplad till bildmottagaren 124 och källområdesidentiﬁeraren 128 och är anordnad för att i målbilden 150 identifiera ett område baserat på kállområdet.

Màlområdesidentiﬁeraren 132 kan innefatta en kandidatmâlområdesidentiﬁerare 134 anordnad för att identiﬁera ett kandidatmålområde på vilket målområdet kan vara baserat. Bildmanipulatorn 10 15 20 25 30 35 534 551 8 120 innefattar vidare ett beräkningsblock 136 kopplat till källområdesidentiﬂeraren 128 och målområdesidentiﬁeraren 132 och kan innefatta ett block 138 anordnat för att beräkna en kompensationsrörelse, ett block 140 anordnat för att beräkna ett snitt, och ett block 142 anordnat för att beräkna ett detaljmått. Bildmanipulatorn 120 innefattar vidare en bildskapare 144 kopplad till källområdesidentiﬁeraren 128 och målområdesidentiﬁeraren 132 och är anordnad skapa en digital bild 158. Bildskaparen 132 man innefatta en bildblandare 146 anordnat att mjukt blanda den bild som skall skapas. Källområdesidentiﬁeraren 128 är dessutom kopplad till en signalmottagare 154 anordnat för att mottaga användarinmatning, till ett särdragsinformationsblock 156 som rymmer information relaterad till särdrag i källbilden 148 och/eller målbilden 150, och till ett särdragsvillkorsblock 152 som rymmer villkor relaterade till särdragen.

Ett förfarande för digital bildmanipulation kommer nu att beskrivas med hänvisning till anordningen 100 i Fig. 1a, till bildmanipulatorn 120 i Fig. 1b och till ﬂödesschemat i Fig. 7. Generellt sett kan det som häri beskrivs möjliggöra att ett preliminärt område i en digital bild som till exempel anses som otillfredsställande, ogynnsamt, eller oönskat, speciﬁceras och ersätts med bilddata som anses tillfredsställande från en annan digital bild. På motsvarande sätt kan det som häri beskrivs möjliggöra att ett preliminärt område i en digital bild som till exempel anses som tillfredsställande, gynnsamt, eller önskvärt, speciﬁceras och ersätter bilddata som anses otillfredsställande, ogynnsam, eller oönskad i en annan digital bild. digitala bilder såsom häri tas i anspråk kan ha genererats av en digital bildtagningsenhet 112, såsom en digital stillbildskamera eller en digital videokamera. Operationer och enheter som används under processen att generera digitala bilder är som sådana kända inom teknikomràdet och kommer inte att beskrivas vidare häri.

Förfarandet innefattar mottagning av en källbild 148 och en målbild 150, steg S02. Källbilden och målbilden kan mottagas av bildmottagaren 124 i bildmanipulatorn 120, varvid bildmottagaren 124 kan vara mottagaren i kommunikationsgränssnittet 108 i anordningen 100. I fallet då anordningen 100 innefattar en bildtagningsenhet 112, såsom en kamera, kan källbilden 148 och/eller målbilden 150 mottagas från bildtagningsenheten 112.

Alternativt kan källbilden och/eller målbilden mottagas från det minnesfunktionella blocket 106 i anordningen 100. Källbilden och målbilden kan ha tagits som individuella bildramar. Altemativt kan källbilden och 10 15 20 25 30 35 534 55'| 9 målbilden härstamma från en gemensam videosekvens, eller från två videosekvenser från olika tidpunkter, eller andra väsentligen liknande videosekvenser.

Fig. 2a illustrerar ett exempel på en källbild 200a och Fig. 2b illustrerar ett exempel på en målbild 200b. Källbilden 200a innefattar ett första objekt 202a (i föreliggande exempel i skepnaden av en byggnad) och ett andra objekt 204a (i föreliggande exempel i skepnaden av en människa) innesluten i ett källomràde 206a. På liknande sätt innefattar målbilden 200b ett första objekt 202b (i föreliggande exempel i skepnaden av en byggnad) liknande det första objektet 202a i källbilden 200a och ett andra objekt 204b (i föreliggande exempel i skepnaden av en människa) liknande det andra objektet 204a i källbilden 200a och innesluten i ett målområde 206b. Källobjektet 204 i källområdet 206a och målobjektet 204b i målområdet 206b kan representera ett och samma (verkliga) objekt. Generellt sett kan objektet som skall ersättas bestämmas baserat på egenskaper hos objektet. Sådana egenskaper kan vara en särskild unik kod, eller färg som är synlig i bilden. Färgen kan vara liknande de ”blåskärms"-teknologier som används för att "klippa" ut delar i en videoproduktion, och koden kan vara en reﬂekterande markör, eller en kod liknande en 2-dimensionell streckkod.

Källbilden och målbilden kan vara associerade med olika bildtagningssärdrag såsom tillhandahålls av funktionsblocket 152 för särdragsvillkor. Bildtagningssärdraget kan relatera till exponering. Exempelvis kan ett område i källbilden vara associerad med en första exponeringsnivå medan ett motsvarande område i målbilden kan vara associerad med en andra exponeringsnivå som år högre eller lägre än den första exponeringsnivån. Därmed kan ett "underexponerat" område sömlöst ersättas med ett ”korrekt exponerat" område. Därmed kan bilder med högt dynamiskt omfång (HDR) skapas pá ett effektivt sätt. Bildtagningssärdraget kan även vara relaterat till upplösning. Upplösning kan vara en effekt av bildzoomning.

Exempelvis kan källbilden ha en högre upplösning än målbilden, eller vice versa. Därmed kan områden med låg upplösning sömlöst ersättas med områden med hög upplösning (medan förhållandet mellan bildhöjd och bildbredd för området bibehålls). Bildtagningssärdraget kan vara relaterat till fokus. Exempelvis kan ett område i källbilden vara "i fokus" medan ett motsvarande område imålbilden är "ur fokus", eller vice versa. Därmed kan ett områden som är ”ur fokus" sömlöst ersättas med ett område som är "i fokus". Bildtagningssärdraget kan vara relaterat till oskärpa. Exempelvis kan 10 15 20 25 30 35 534 551 10 nivån oskärpa i ett område i källbilden kan vara lägre än nivån oskärpa i ett motsvarande område i målbilden, eller vice versa. Därmed kan ett område med oskärpa sömlöst ersättas med ett område med mindre oskärpa.

Bildtagningssärdraget kan vara relaterat till blixtnivåer. Exempelvis kan källbilden ha tagits med en blixtnivå som är högre än blixtnivån som använts för att ta målbilden, eller vice versa. En hög blixtnivå kan vara önskvärd för några områden i scenen som skall fångas men den kan samtidigt resultera i att andra områden i bilden blir överexponerade. Överexponerade områden kan därmed sömlöst ersättas motsvarande områden från en annan bild tagen med en lägre blixtnivå. den lägre blixtnivån kan motsvara att ingen blixt användes. Bildtagningssärdraget kan således vara relaterat till "bracketing" av minst en av exponering, zoom, fokus, skärpa, och blixtnivå. Därmed kan en bild skapas baserad på områden från en källbild och en målbild associerade med olika av exponering, zoom, fokus, skärpa, och/eller blixtnivå, varvid alla områden är associerade med önskad exponering, zoom, fokus, skärpa, och/eller blixtnivå. Bildtagningssärdraget kan vara relaterat till en upplevd kvalitet för omrâdet bestämd av parametrar såsom andelen leende, eller öppna ögon, se nedan.

Källbilden kan väljas från ett flertal möjliga källbilder. För att välja källbilden från de ﬂertalet möjliga källbilderna kan var och en av de ﬂertalet källbilderna vara associerade med ett distorsionsmått. Källbilden kan då väljas från de ﬂertalet källbilder som den bild som har det minsta distorsionsmåttet. Till exempel kan bilden väljas från de ﬂertalet källbilder som den bild som har den minsta oskärpan. Generellt sett kan distorsionsmåttet relatera vilket som helst av de ovan beskrivna bildtagningssärdragen.

Källbilden kan även väljas som den bild som är närmast målbilden med avseende på distorsionsmåttet, se nedan.

Förfarande innefattar identifiering av ett källområde 206a i källbilden 200a, varvid Källområdet 206a har en uppsättning koordinater, steg S04.

Källområdet kan identiﬁeras av källområdesidentiﬁeraren 128. Uppsättningen koordinater deﬁnierar positionen för källområdet 206a i källbilden 200a.

Uppsättningen koordinater kan dessutom deﬁniera området (i spatiala termer) för källområdet i källbilden. Till exempel kan uppsättningen koordinater innefatta koordinater som deﬁnierar positionerna för hörn och/eller sidor för en rektangel i källbilden, uppsättningen koordinater kan innefatta koordinater som deﬁnierar området och positionen för en cirkel i källbilden, och liknande. 10 15 20 25 30 35 534 551 11 Källområdet kan vara baserat på en mottagen signal, såsom mottages av signalmottagaren 154, som identifierar källområdet. den mottagna signalen kan genereras av användarinmatning via MMI 110 i anordning 100. Därmed kan en användare tillåtas att manuellt identiﬁera och välja ett område eller objekt (se nedan) i källbilden via MMI 110. Typiskt visas källbilden på en display hos MMI 110. I fallet då MMI 110 innefattar en rörelsekänslig display kan användaren identiﬁera källområdet genom att rita en linje som omsluter källområdet, eller på annat sätt markera dess koordinater. MMI 110 kan också tillhandahålla ett verktyg för att understödja identifieringen av källområdet. Verktyget kan innefatta förutbestämda geometriska objekt (såsom rektanglar, kvadrater, cirklar och ellipser) vilka, via användarinmatning, kan användas för att identiﬁera källområdet.

Såsom kommer att ytterligare beskrivet nedan kan källområdet även identiﬁeras genom användning av särdragsigenkänning. Processen för särdragsigenkänning kan använda särdragsinformation tillhandahållen av det särdragsinforrnationsfunktionella blocket 156. Användningen av sådan särdragsigenkänning kan eliminera, eller åtminstone minska, behovet att mottaga användarinmatning för att identiﬁera källområdet. Således kan förfarandet innefatta mottagning av särdragsinformation relaterad till ett särdrag i åtminstone en av källbilden och målbilden, steg S14.

US2009190803A visar ett förfarande och system för detektering och följning av ansiktsuttryck i digitala bilder och applikationer för detta. Enligt US2009190803A bestämmer en analys av bilden huruvida det i bilden närvarar ett leende och/eller blinkning i ett ansikte på en människa. Således kan särdragsigenkänningen vara relaterad till igenkänning av ett människoansikte. Särdragsigenkänningen kan vara relaterad till igenkänning av en människomun. Särdragsigenkänningen kan vara relaterad till igenkänning av ett människoöga. Särdragsigenkänningen kan även vara relaterad till igenkänning av en människas ansiktsuttryck.

Antingen källbilden eller målbilden, eller både källbilden och målbilden innefattar särdraget. Källområdet kan då identifieras genom användning av särdraget. steg S16.

Förfarande innefattar vidare användning av koordinaterna för källområdet 206a (i källbilden 200a) för att, som respons till identiﬁeringen av källområdet 206a, identiﬁera ett målområde 206b i målbilden 200b, steg S06.

Målområdet kan identiﬁeras av målområdesidentiﬁeraren 132. Med andra ord är geometrin för målområdet 206 baserad på geometrin för källområdet 206a. 10 15 20 25 30 35 534 551 12 Särskilt kan uppsättningen koordinater användas sådant att uppsättningen koordinater för målområdet i målbilden motsvarar uppsättningen koordinater för källområdet. Uppsättningen koordinater för målområdet 206b deﬁnierar positionen för målområdet 206b i målbilden 200b. uppsättningen koordinater för målområdet 206b kan dessutom deﬁniera området (i spatiala termer) för målområdet 206b i målbilden 200b.

Bilddatainforrnation i källbilden och bilddatainformation i målbilden kan representera väsentligen samma scen. Med andra ord kan det krävas att ett distorsionsmått mellan källbilden och målbilden är mindre än ett förutbestämt värde. Distorsionsmåttet kan vara relaterat till energin mellan källbilden och målbilden, se nedan. Distorsionsmåttet kan ta i anspråk rörelser, såsom translation och/eller rotation, varvid mängden rörelser är begränsad av förutbestämda tröskelvärden. Ett sätt att minska risken för att distorsionsmåttet är högre än det förutbestämda värdet är att kräva att källbilden och målbilden mottages inom ett förutbestämt tidsintervall, och/eller inom ett intervall för total rörelse inom soenen. Det kan dessutom krävas att källbilden och målbilden har tagits inom ett förutbestämt tidsintervall. För att bestämma huruvida källbilden och målbilden har tagits inom ett förutbestämt tidsintervall kan anordningen 100 innefatta tidtagningskretsar anordnade att mäta tiden som passerar mellan mottagning av källbilden och mottagning av målbilden. Alternativt kan källbilden och målbilden vara associerade med tidsstämplar.

Rörelsekompensation: När två eller ﬂera bilder tas med en bildtagningsenhet kan bildtagningsenheten ha rört sig i relation till den tagna scenen och/eller kan objekt i scenen rört sig i relation till varandra och/eller bildtagningsenheten mellan individuella tagningar. Därför kan källbilddata som skall ersätta den specificerade målbilddatan (eller vice versa) translateras och/eller roteras genom användning av kompensationsrörelseberäknaren 138 för att kompensera för rörelser av bildtagningsenheten mellan tagningen av källbilden och målbilden. denna translation kan inter alia åstadkommas genom minimering av en felfunktion avseende den per pixel beräknade kvadratskillnaden mellan lntensiteteri källbilden och i målbilden längs en preliminär gräns. I generella termer kan den relativa rörelsen för bildtagningsenheten tolkas som en godtycklig projektiv transformation. Rörelsen kan således relatera till åtminstone en av translation, rotation, eller projektion av åtminstone en del av källbilden i relation till målbilden. 10 15 20 25 30 35 534 551 13 När bilder som tagits inom ett förutbestämt tidsintervall tas i åtanke kan rörelsen i många fall approximeras med en enkel translation och/eller rotation av en bild i förhållande till en annan. Till exempel kan det antagas att rörelsen adderar en normalfördelad förskjutning för pixlarna i bilden. Ett samplingsförfarande kan användas för att minska antalet utvärderingar av felfunktionen. Steget att identifiera källområdet kan således innefatta bestämning av en kompensationsrörelse mellan åtminstone en del av källbilden och åtminstone en del av màlbilden. Kompensationsrörelsen kan väljas sådan att den valda kompensationsrörelse minimerar en skillnad mellan källbilden och målbilden, steg S18.

Korrespondenser mellan pixlar i källbilden och i målbilden kan åstadkommas genom tillämpning inter alia av Harris hörndetekteringsprocess på båda bilderna och användning av en statistisk algoritm, exempelvis RANSAC för att bestämma en korrespondenskarta. Altemativt kan invarianta särdragskorrelationer mellan sällbilden och målbilden bestämmas. Dessa korrespondenser kan sedan användas för att modiﬁera källbilden eller målbilden genom användning inter alia av ett "thin plate spline"-förfarande (TPS). TPS syftar på den fysiska analogin att ﬁxera punkter på en yta och låta en imaginär tunn platta av metall deformera den på ett sätt som minskar dess interna energi. Förskjutningen för den imaginära metallplattan kan sedan användas som en koordinatavbildning för att snedvrida källbilden eller målbilden.

För att ﬁnna ett lämpligt snitt (se nedan) kan det vara fördelaktigt att upplinjera källbilden och målbilden längs en preliminär snittgräns. Detta kan åstadkommas genom att minimera en felfunktion, till exempel, genom att minimera E(r) = iv". do [l,,- (v+r) - lﬁ (v)]2 längs det preliminära snittet dQ över ett lämpligt stort område S. Is,- och 1,,- betecknar intensiteterna hos källbilden respektive målbilden. För en färgbild kan intensiteterna beräknas enligt l= (R + G + B) / 3, där R. G, och B är de respektive färgkanalerna röd, grön, och blå. Alternativt kan en luminanskanal användas för en YUV-bild. Storleken på området S kan vara beroende på andelen rörelse mellan källbilden och målbilden. Den kan dessutom vara beroende på tiden som passerat mellan tagningen av källbilden och målbilden. Det kan ﬁnnas olika tillvägagångssätt till att minska felfunktionen. till exempel genom användning av fattning och snabba Fouriertransformer. Ett faltningsbaserat förfarande kan vara snabbt för att beräkna hela felfunktionen. Det har upptäckts att eftersom varje term i summan ifelfunktionen är positiv skulle det följa att under sökning för ett 10 15 20 25 30 35 534 551 14 globalt minima så kan en punkt vars partiella summa överstiger värdet för det nuvarande lokala minimat inte vara ett globalt minima. Det skulle därför även följa att om ett globalt minima påträffas tidigt så kan ﬂer summor avslutas i förväg och således kan beräkningar sparas. Det kan därför vara fördelaktigt att beräkna felfunktionen över ett fåtal punkter i ett litet område runt noll translation och sedan utöka sökningen utåt. Detta kan motiveras av det ovan nämnda antagandet att translationsrörelsen kan anses vara norrnalfördelad.

På grund av translationsrörelsens natur kan felfunktionen anses vara jämn (och inte helt kaotisk).Fe|funktionen kan samplas vid intervall som initialt ärjämförelsevis stora. Men om det initiala samplingsavståndet d är för stort kan den optimala lösningen felaktigt hoppas över. Samplingstätheten kan sedan ökas medan områden intilliggande sampel som har de relativt högsta felen exkluderas från ytterligare beräkningar. Mer speciﬁkt kan det initiala sampelavståndet väljas som en tvåpotens och halveras vid varje ny iteration.

För ett sådant fall är, för områden som inte redan övergivits, vid varje iteration utom den första ett av fyra sampel redan beräknat. Vid slutet av varje iteration överges omgivningarna till de värsta treﬂärdedelarna av samplen. För en kvadratisk bild där antalet pixel längs varje sida av bilden är en tvåpotens är antalet sampel som beräknas n/dz (1 + 3/4 log;(d)). Tilläggsberäkningar kan användas då den bästa ljärdedelen av samplen skall bestämmas. men eftersom det ärjämförelsevis med beräkningsdyrt att utvärdera varje sampel kan dessa tilläggsberäkningar bortses från när hela beräkningsansträngningen som behövs tas i anspråk.

”Saliency": "Saliency" kan anses vara ett mått på synligheten (eller tydligheten) för en detalj eller del av en bild i relation till intilliggande delar eller detaljeri bilden. "Saliency" kan såldes anses vara ett sätt att representera detaljer (inter alia motsvarande informationsinnehâll eller entropi) i en bild. "Saliency” kan användas för att bestämma snittet (se nedan) för att styra snittet bort från områden i källbilden och/eller målbilden som innehåller sådana detaljer. "Saliency" kan också användas för att mäta andelen iögonfallande särdrag som introduceras på grund av ojämnheteri snittet eller den mjuka blandningen. För att förenkla användningen av ett detaljmått, såsom ”Saliency", kan källområdet associeras med ett kandidatkällområde (som identiﬂerat av kandidatkällområdesidentifieraren 130). På samma sätt kan målområdet associeras med ett kandidatmålområde (som identifierat av kandidatmålområdesidentiﬁeraren 134).

Kandidatkällområdet och kandidatmålområdet kan deﬁnieras längs den yttre 10 15 20 25 30 35 534 551 15 gränsen av källomrâdet respektive målområdet, såsom ytterligare beskrivs med hänvisning till beräkning av gräns och snitt.

Förfarandet kan således vidare innefatta bestämning av ett detaljmått mellan ett kandidatkällområde i källbilden och ett kandidatmàlområde i målbilden, steg S20. Källområdet och målområdet kan sedan identiﬁeras baserade pâ det bestämda detaljmåttet såsom beräknas av detaljmáttsberäknaren 142.

Ett förfarande för beräkning av "Sa|iency" för en bild beskrivs i artikeln "A model of saliency-based visual attention for rapid scene analysis" i IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 20, Nr. 11, sid. 1254-1259, november 1998, av ltti et al. Kortfattat kommer förfarandet att transfonnera en RGB-bild till kartor som är mer representativa för sättet som det mänskliga synsystemet hanterar bilddata. Det kommer sedan att genomföra en serie faltningar på dessa kartor. Resultatet normaliseras genom användning av en inhiberingsfunktion och summeras sedan för att skapa en slutgiltig "Saliency"-karta. Denna karta kan således tillhandahålla en indikation av den spatiala fördelningen av "Sa|iency” i bilden.

Gränsyta: En lämplig gränsyta inom vilken källbilden skall infogas kan bestämmas. Den bestämda gränsytan representerar ett snitt. Snittet kan således deﬁniera där màlbilden och källbilden möts och kan beräknas av snittberäknaren 140. För illustrativa syften kan källbilden anses som placerad ovanpå målbilden varvid källbilden (eller màlbilden) har translaterats såsom tidigare beskrivits. Inre och yttre gränser som deﬁnierar ett område (motsvarande det ovan beskrivna området S) inom vilket den (önskade) gränsytan är begränsad kan speciﬁceras. Fig. 6a illustrerar en gränsytan 600 som har en inre begränsning 602 och en yttre begränsning 604 och en önskad begränsning 606. En felfunktion, vilken tari antagande den per pixel beräknade kvadratskillnaden mellan källbilden och i målbilden för pixel inom området deﬁnieras. Fig. 6b är en korridorgrafsrepresentation 600' för gränsytan 600 i Fig. 6b, varvid gränsytan 600 har öppnats längs skämingen A-A' - B-B'. Snittet kan bestämmas genom att tilldela varje pixel i området S en kostnad och sedan hitta en sluten väg i området S som minimerar kostnaden. En optimal lösning ges i artikeln "Shortest circular paths on planar graphs” i 27th Symposium on information Theory in the Benelux, vol. sid. 117-124, juni 2006, Noordwijk, Holland av Farin et al. När pixel representeras med en graf, såsom korridorgrafen 600, så har grafen en spaljéstruktur.

Grafen associerad med området S klan således representeras av en spaljé 10 15 20 25 30 35 534 551 16 och därför kan dynamisk programmering användas istället för Dijkstras algoritm. Således kan en svansbitande väg (dvs. en väg i korridorgrafen 600' som börjar och slutar i pixlar som ger en inneslutande begränsning 606 i motsvarande gränsytan 600) med ett minimalt fel för alla vägar eller med ett fel under en förutbestämd tröskel sedan hittas inom området S. Det således funna snittet definierar beskärningen av källbilden och målbilden. En approximativ lösning, som är både snabbare och lättare att implementera, kan hittas genom en iteration av dynamisk programmering. Varje nod i grafen var den kortaste vägen som korsade den startade ifrån och således kan en sluten väg lätt hittas när iterationen är slutförd. Förfarandet kan således innefatta i ett steg S22 identiﬁering av källområdet och målområdet genom beräkning av ett snitt genom användning av kandidatkällomràdet och kandidatmålområdet. Snittet kan definiera en gräns som innesluter källområdet, och snittet kan bestämmas sådant att detaljmåttet minimeras.

Förfarandet innefattar vidare, i ett steg S08, skapande av en digital bild. Den digitala bilden kan vara baserad på bilddatainfonnation från målbilden, varvid bilddatainfonnation från målområdet sömlöst ersätts med bilddatainforrnation från källområdet. På motsvarande vis kan den digitala bilden kan vara baserad på bilddatainformation från källbilden, varvid bilddatainformation från källområdet sömlöst ersätts med bilddatainforrnation från målområdet. Bilden kan skapas av bildskaparen 144. Fig. 2c illustrerar ett exempel av en bild 200c baserad pà bilddatainformation från källbilden 200a och målbilden 200b i Fig. 2a respektive Fig. 2b. ljämförelse med källbilden 200a och målbilden 200b innefattar den skapade bilden 200c det första objektet 202b i målbilden 200b och det andra objektet 204a i källbilden 200a. I den skapade bilden 200c har således ett målområde motsvarande det andra objektet 204b i målbilden 200b ersatts med ett källområde motsvarande det andra objektet 204a i källbilden 200b.

Särdragsigenkänning kan användas för att bestämma huruvida ett av källområdet och målområdet uppfyller ett villkor relaterat till särdragsinformationen, steg S24. Den digitala bilden kan sedan skapas baserad på denna bestämning, steg S26. Till exempel, i ett fall där källområdet uppfyller villkoret kan bilddatainforrnationen i målområdet sömlöst ersättas med bilddatainforrnationen i källområdet. Till exempel, i ett fall där målområdet uppfyller villkoret kan bilddatainformationen i källområdet sömlöst ersättas med bilddatainformationen i målområdet. 10 15 20 25 30 35 534 551 17 Särskilt kan, ifall särdragsinformationen är relaterad till ett ansiktsuttryck och en av källbilden och målbilden klassiﬁceras att innefatta ett leende ansikte, bilden skapas att inkludera det leende ansiktet. För att åstadkomma detta kan ansiktsigenkänning användas. När ett ansikte har detekterats kan leendedetektering användas genom att detektera läppama i det därmed detekterade ansiktet och detektera läpparna, inter alia beroende på dess krökning i minst två kategorier, såsom leende läppar och icke-leende läppar. En liknande klassiﬁcering kan utföras för att detektera blinkande ögon eller röda ögon (inter alia orsakade av blixteffekter under tagandet av bilden innefattande de röda ögonen. Förfarande kan således vidare innefatta identifiering av ett ansiktsuttryck för att användas när den digitala bilden skapas. Därmed kan "ledsna" ansikten ersättas med "glada" ansikten, varvid de ”ledsna” ansiktena är associerat med icke-leende läppar och de ”glada” ansiktena är associerade med leende läppar.

Mjuk blandning: En gradientdomän-lik mjuk blandning kan tillämpas för att försäkra att infogningen av källområdet i målbilden (eller vice versa) är sömlös. I mer detalj så bör gränsytan för källbilden åtminstone approximativt vara lika med gränsytan för målbilden då en källbild (eller ett område däri) skall blandas in med en målbild (eller vice versa). Detta kan kräva att källbilden och/eller målbilden manipuleras på något sätt, till exempel av bildblandaren 146. För att vara så visuellt icke-detekterbar som möjligt bör manipulationen företrädesvis endast införa gradvisa förändringar på källbildens interiör.

Ett exempel som åstadkommer den önskade effekten är Poisson- blandning. Mer specifikt kan källbildens gradientfält modiﬁeras på ett sådant sätt att källbilden väljs som den källbild som har ett gradientfält som är närmast (i Lz-normshänseende) målbilden, under bivillkor av något begränsningsvillkor. Därför är Poisson-blandning även känd som gradientdomänsblandning. Det harmoniska membranet som beräknas i Poisson-blandning kan approximeras genom användning av medelvärdesblandning. Membranet är mycket mjukt bort från gränsytan av det klonade området. Således kan mycket gles beräkningstäthet användas bort från gränsytan. Istället kan linjär interpolation användas för de kvarvarande pixlarna. Såsom kommer att beskrivas härnäst är ett sätt att åstadkomma detta att använda en så kallad "quad-tree"-struktur. När denna struktur skapats kan den återanvändas för alla tre färgkanalerna. Förfarandet 10 15 20 25 30 35 534 551 18 kan således vidare innefatta mjuk blandning av källbilden och målbilden genom användning av "quad-tree"-optimering, steg S28.

En nod i trädet har formen av en kvadrat och kallas en s-nod när den har sidolängden l=2“. Varje nod har 4 barn av typen (s-1)-noder och skapar således ett "quad-tree". Den minsta nodstorleken är då 0-noden med sidlângden l=1. För att försäkra att nodstorleken inte ökar för snabbt kan en begränsning att två intilliggande noder måste ha en storleksskillnad på | As | > 1 läggas till. Dessutom deﬁnieras noderna på gränsytan att vara 0-noder och skapar således en grund för att utveckla trädstrukturen.

En minneskarta kan först initialiseras genom att fylla den med mollor (som representerar 0-noder) inuti området Q som skall blandas och med -1 utanför området. Det itereras sedan över denna karta med steglängd I,, = 2" i både höjd och bredd där n = 1, 2, För varje besökt punkt jämförs intilliggande punkter jämförda med den nuvarande iterationen (n). Om alla intilliggande punkter är åtminstone (n - 1)-noder och alla är inuti Q så befordras den nuvarande punkten till en n-nod. Denna process kan sedan repeteras för alla n.

En minskning i beräkningsanspråken kan åstadkommas genom att sampla gränsytan istället för att använda alla gränsytepixlarna.

Medelvärdesvikten för varje gränsytesnod avtar snabbt med avståndet.

Således kan en noggrann approximation av området som skall blandas åstadkommas genom att sampla gränsytan med en täthet som är inversproportionell mot på avståndet. Till exempel kan endast ett konstant antal gränsytesnoder användas vid beräkning av koordinaterna och området som skall blandas vid varje "quad"-nod. Sådan sampling vara baserad på avkodning av den önskade regionen i en eller ﬂer mindre skalor. Sådan avkodning kan utföras snabbt och noggrant i bildformat såsom JPEG.

Efter att ett optimalt snitt har bestämts kan lokala diskontinuiteter dämpas (innan mjuk blandning) genom att använda det ovan beskrivna "thin plate spline”-förfarandet efter att korrespondens mellan källbilden och målbilden längs snittet bestämts. För varje punkt på källgränsytan kan en punkt på målgränsytan bestämmas som minimerar den per pixel beräknade kvadratskillnaden längs ett linjesegment som omger punktema. detta kan ses som en form av endimensionell särdragsanpassning.

För att övervinna problem med förseningar, dvs. att komprimerade fullstorleksbilder tar för lång tid att behandla, och lagringskapacitet, dvs. att icke-komprimerade bilder tar för stor bildyta, kan käll- och/eller målbilden 10 15 20 25 30 35 534 551 19 analyseras och särdrag som underlättar snabb manipulation av en bild lagras i (respektive) bild ﬁl(er), lagras temporärt i minnet för den nuvarande manipulationen, eller lagras som en post i en databas där posten i databasen kan hänvisa till bildﬁlen. En serie förfaranden för analysering, extrahering och lagring av sådana särdrag som relaterar till en bild är beskrivna i patentansökan WO 2005105056? av Scalado AB.

För att extrahera särdrag som underlättar snabb manipulation av en bild kan särdragen antingen extraheras vid kompression av käll- och/eller målbilden eller kan särdrag extraheras vid en analys efter kompression av en komprimerad bild, såsom exempelvis av bildavkodaren 126. I fall käll- och/eller målbilden har komprimerats med JPEG-kompression, eller ett liknande kompressionsförfarande, kan särdragen som underlättar snabb manipulation av en lagrad eller mottagen bild vara en av eller en kombination av indikatorer till minsta kodade enheter ”minimum coded units” (MCU:er), där en MCU är ett litet bildblock i en bild, indikatorer till en eller ett flertal dataenheter, "data units" (DU), där en dataenhet är ett datablock som representerar en färgkanal eller färgkomponent för MCU:n, en eller ﬂera absoluta eller relativa DC-koefﬁcienter för en eller ett ﬂertal av färgkomponenterna för de mottagna MCU:erna och/eller mottagna dataenheterna, eller antalet bitar mellan dataenheter, eller mellan speciﬁka koefﬁcienter för dataenheterna. Eftersom särdrag behöver extraheras och/eller analyseras vid olika skalor kan sådana tekniker användas för att effektivt utföra sådan extrahering. Hur sådana särdrag kan användas för att åstadkomma snabb manipulation av en bild beskrivs i den ovannämnda ansökan, dvs. WO 2005/050567 av Scalado AB.

Således kan förfarandet ifall källbilden blivit kodad vidare innefatta att i källbilden endast avkoda bilddatainfomtation som representerar källområdet, och/eller att avkoda sådana områden iden krävda skalan, steg S30, genom att använda de ovan beskrivna särdragen för att underlätta snabb manipulation av en bild. På liknande sätt, ifall källbilden blivit kodad kan förfarandet vidare innefatta att i målbilden endast avkoda bilddatainfonnation som representerar målområdet, steg S32, genom att använda de ovan beskrivna särdragen för att underlätta snabb manipulation av en bild. Den slutgiltiga kodade nya bilden kan även vara uppbyggd av käll-/målbilder med delar som ersatts av ny bilddata och således underlätta återvinning av åtminstone delar av de komprimerade käll-/målbilderna. 10 15 20 25 30 35 534 551 20 Längden på en dataenhet kan deﬁnieras som antalet bitar som behövs för att representera dataenheten. Vid kompression av MCU:er och DU:er är det vanligt att använda variabellängskodning, såsom Huffman-kodning, vilket resulterar i att dataenheterna har olika DU-längder beroende på graden information som därmed representeras. Således kan en dataenhet som representerar en hög nivå av information (motsvarande en hög nivå av informationsinnehåll i motsvarande bildblock) ha en längre DU-längd än en dataenhet som representerar en nivå av information som är lägre än nämnda höga nivå av information (motsvarande en nivå av informationsinnehåll i motsvarande bildblock som är lägre än nämnda höga nivå av informationsinnehàll). Således kan det ovan angivna detaljmåttet vara baserat på DU-längder för dataenheter i kandidatkällområdet och kandidatmålområdet. Eftersom MCU:er består av en eller ﬂera DU:er kan måttet även vara baserat på en MCU eller ett flertal DU:er eller MCU:er, Förfarandet kan vidare innefatta att, i ett steg S34, ersätta en av målbilden och källbilden med den skapade digitala bilden och därmed minska minneskraven för lagring av bilder.

Härnäst kommer typiska scenarior där det beskrivna innehållet kan tillämpas att beskrivas.

Exempel 1: Ett första exempel, som illustreras is F ig. 3a, 3b, 3c och 3d, avser ett fall i vilket det kan vara önskvärt att ersätta icke-stationära objekt i en bild. När en bild innefattande ett eller ﬂera icke-stationära objekt, såsom människor, skall tas är det inte ovanligt att (delar av) de icke-stationära objekten förﬂyttar sig mellan bildtagningarna. Detta kan resultera latt bilder där infångandet av det icke-stationära objektet a ses som otillfredsställande, ogynnsamma, eller oönskade, såsom en bild vari en människa blinkar med ett öga, eller liknande. l detta fallet skulle en möjlighet vara att ta en annan bild av samma scen och hoppas att resultatet blir mer tillfredsställande, gynnsamt, eller önskat. Men då en andra bild tas kan andra objekt anses som otillfredsställande, ogynnsamma, eller oönskade. Således kan ingen av de tagna bilderna, då de bedöms individuellt, anses vara tillfredsställande, gynnsam, eller önskad. I detta fallet skulle det vara önskvärt att ersätta enbart vissa områden i den första bilden med den mer tillfredsställande, gynnsamma, eller önskade bildtagningar av samma scen. Till exempel, i en första tagning 300a av ett gruppfoto kan utseende på en första person 302a anses otillfredsställande (inter alla på grund av en blinkning av ett öga) medan utseendet på en andra person 304a kan anses tillfredsställande och 10 15 20 25 30 35 534 551 21 utseendet på en tredje person 306a kan anses otillfredsställande (inter alia på grund av en blinkning av ett öga). l en andra tagning 300b av samma gruppfoto kan utseende på den första personen 302b anses tillfredsställande medan utseendet på den andra personen 304b kan anses otillfredsställande och utseendet på den tredje personen 306b kan anses otillfredsställande. I en tredje tagning 300c av samma gruppfoto kan utseende på den första personen 302c och den andra personen 304c kan anses otillfredsställande medan utseendet på den tredje personen 306c kan anses tillfredsställande.

Genom att använda de häri beskrivna förfarandena är det möjligt att i den första bilden 300a ersätta bilddatainformation som representerar den första personen 302a med bilddatainformation som representerar den första personen 302b från den andra bilden 300b, och att ersätta bilddatainforrnation som representerar den tredje personen 306a med bilddatainfonnation som representerar den tredje personen 306c från den tredje bilden 300c, vilket således resulterar i en tillfredsställande bild 300d. På liknande sätt kan bilden 300d baseras på antingen bild 300b eller bild 300c.

Således kan förfarande generellt sett innefatta mottagning av minst en ytterligare käll- och/eller målbild, i ett steg S10, och genomgång av målbilden, källbilden och den minst en ytterligare käll- och/eller målbilden. i ett steg S12, och skapande av en bild baserad på källbilden, målbilden, och den minst en ytterligare käll- och/eller målbilden.

Exempel 2: Ett andra exempel, som illustreras is Fig. 4a, 4b, och 4c, avser ett fall i vilket det kan vara önskvärt att bortföra icke-stationära objekt från en bild. I en första bild 400a kan exempelvis ett icke-stationärt objekt 404a i ett första område 406a hindra vyn av ett önskat objekt 402 som skall fångas, medan i en andra bild 400b kan ett icke-stationärt objekt 404b i ett andra område 406b hindra vyn av ett önskat objekt 402 som skall fångas.

Genom att använda de häri beskrivna förfarandena är det möjligt att i den första bilden 400a ersätta bilddatainfonnation som representerar det icke- stationära objektet 404a i det första området 406a med bilddatainformation som representerar det första området 406a från den andra bilden 400b, vilket således resulterar i en tillfredsställande bild 400c. På liknande sätt är det genom att använda de häri beskrivna förfarandena möjligt att i den andra bilden 400b ersätta bilddatainformation som representerar det icke-stationära objektet 404b i det andra området 406b med bilddatainfonnation som representerar det andra området 406b från den första bilden 400a, vilket således resulterar i en tillfredsställande bild 400c. 10 15 534 551 22 Exempel 3: Ett tredje exempel, som illustreras is Fig. 5a, 5b, och 5c, avser ett fall i vilket det kan vara önskvärt att addera icke-stationära objekt till en bild. I en första bild 500a kan exempelvis ett icke-stationärt objekt 504 vara placerat vid en första uppsättning koordinater, medan samma icke-stationära objekt 506 kan vara placerat vid en andra uppsättning koordinateri en andra bild 500b. Genom att använda häri beskrivna förfaranden är det möjligt att sömlöst infoga en kopia av det icke-stationära objektet 504 placerat vid den första uppsättningen koordinater i den andra bilden 500b och/eller att infoga en kopia av det icke-stationära objektet 506 placerat vid den andra uppsättningen koordinater i den första bilden 500a, vilket således resulterari den sammansatta bilden 500c.

Uppﬁnningen har ovan i huvudsak beskrivits med hänvisning till särskilda exempel. Men såsom fackmannen inom området förstår är andra exempel än de ovan beskrivna möjliga inom uppfinningens omfång som deﬁnieras av de bifogade patentkraven.

Claims

1. 0 15 20 25 30 534 55'l 23 PATENTKRAV . Förfarande för digital bildmanipulation innefattande: mottagning (S02) av en källbild (148) och en målbild (150), identiﬁering (S04) av ett källområde i källbilden, där källområdet har en uppsättning koordinater, kännetecknat av användning av uppsättningen koordinater för källområdet för att, som respons tiil nämnda identiﬁering av nämnda källområde, identiﬁera (S06) ett målområde i màlbilden genom att beräkna en felfunktion mellan källområdet och målområdet över ett antal punkter i ett omrâde S längs ett preliminärt snitt dQ mellan källområdet och målområdet för noll translation och sedan translatera nämnda preliminära snitt utåt från nämnda noll translation tills felfunktionen minimeras och därmed identifierar målområdet i màlbilden, och skapande (S08) av en digital bild (158) baserad på bilddatainfonnation från målbilden, varvid bilddatainformation från målområdet, genom användning av mjuk blandning (S28) mellan bilddatainformation från màlbilden och bilddatainformation från källområdet, sömlöst ersätts med bilddatainformation från källområdet. . Förfarande för digital bildmanipulation innefattande: mottagning (S02) av en källbild och en målbild, identiﬁering (S04) av ett källområde i källbilden, där källområdet har en uppsättning koordinater, kännetecknat av användning av uppsättningen koordinater för källområdet för att, som respons till nämnda identiﬁering av nämnda källområde, identiﬁera (S06) ett målområde i màlbilden genom att beräkna en felfunktion mellan källområdet och målområdet över ett antal punkter i ett område S längs ett preliminärt snitt dQ mellan källområdet och målområdet för noll translation och sedan translatera nämnda preliminära snitt utåt från nämnda noll 10 15 20 25 30 534 551 24 translation tills felfunktionen minimeras och därmed identifierar målområdet i målbilden, och skapande (S08) av en digital bild (158) baserad på bilddatainforrnation från källbilden, varvid bilddatainfonnation från källomrâdet, genom användning av mjuk blandning (S28) mellan bilddatainformation från källbilden och bilddatainfonnation från målområdet, sömlöst ersätts med bilddatainfonnation från målområdet. . Förfarande enligt krav 1 eller 2, vidare innefattande mottagning (S14) av särdragsinforrnation avseende ett särdrag i åtminstone en av nämnda källbild och nämnda målbild, varvid åtminstone en av nämnda källbild och nämnda målbild innefattar nämnda särdrag, och identiﬁering (S16) av nämnda källomràdet baserat på nämnda särdrag. . Förfarande enligt krav 3, vidare innefattande bestämning (S24) av huruvida ett av nämnda källområdet och nämnda målområde uppfyller ett villkor baserat på nämnda särdragsinformation, och skapande (S26) av nämnda digitala bild baserat på nämnda bestämning. . Förfarande enligt krav 4, varvid nämnda villkor är relaterat till särdragsigenkänning av åtminstone ett av särdragen i gruppen en människa, ett människoansikte, en människomun och ett människoöga. . Förfarande enligt något av föregående krav, varvid källbilden väljs från ett flertal möjliga källbilder. . Förfarande enligt krav 6, varvid var och en av nämnda ﬂertalet möjliga källbilder är associerad med ett distorsionsmått, och varvid 10 15 20 25 30 35 534 551 25 källbilden väljs från de ﬂertalet möjliga källbilderna som den bild som har det minsta distorsionsmått. 8. Förfarande enligt något av föregående krav, varvid källbilden och målbilden mottages inom ett förutbestämt tidsintervall. 9. Förfarande enligt något av föregående krav, varvid källbilden och målbilden är associerade med olika bildtagningssärdrag. 10. Förfarande enligt krav 9, varvid bildtagningssärdragen är relaterade till åtminstone ett av exponering, upplösning, fokus, oskärpa och blixtnivå. 11.Förfarande enligt något av föregående krav, varvid uppsättningen koordinater för källområdet används så att en uppsättningen koordinater för målområdet i målbilden motsvarar uppsättningen koordinater för källområdet. 12. Förfarande enligt något av föregående krav, varvid bilddatainformation för källbilden och bilddatainformation för målbilden representerar väsentligen samma scen. 13. Förfarande enligt något av föregående krav, varvid identifiering av nämnda kållområde vidare innefattar - bestämning (S18) av en kompensationsrörelse mellan åtminstone en del av nämnda källbild och åtminstone en del av nämnda målbild sådan att nämnda kompensationsrörelse minimerar en skillnad mellan källbilden och målbilden. 14. Förfarande enligt krav 13, varvid nämnda skillnad bestäms för åtminstone en del av nämnda målbild och är relaterad till åtminstone ett av translation, rotation, eller projektion av åtminstone en del källbilden i relation till nämnda målbild. 15. Förfarande enligt krav 12 eller 13, vidare innefattande 10 15 20 25 30 534 551 26 - användning av ett ”thin plate spline"-förfarande för att bestämma nämnda kompensationsrörelse. 16. Förfarande enligt något av föregående krav, vidare innefattande - bestämning (S20) av ett detaljmått mellan ett kandidatkällområde i nämnda källbild och ett kandidatmålområde i nämnda målbild där nämnda källområde och nämnda målområde identiﬁeras av det bestämda detaljmåttet. 17. Förfarande enligt krav 16, vidare innefattande - bestämning (S22) av källområdet och målområdet genom att beräkna ett snitt med användning av kandidatkällområdet och kandidatmålområdet, varvid nämnda snitt deﬁnierar en gräns som omsluter källomrádet, och varvid nämnda snitt bestäms sådant att nämnda detaljmátt minimeras. 18. Förfarande enligt krav 16 eller 17, varvid nämnda detaljmått baseras på dataenhetslängder för dataenheter, "data units", i nämnda kandidatkällomrâde och nämnda kandidatmålområde. 19. Förfarande enligt något av föregående krav, varvid nämnda mjuka blandning mellan källbílden och målbilden utförs medelst användning av "quad-tree"-optimering. 20. Förfarande enligt något av föregående krav, vidare innefattande - ersättning (S34) av en av målbilden och källbílden med den skapade digitala bilden. 21. Förfarande enligt något av föregående krav, varvid källbílden och målbilden har blivit kodade, varvid förfarandet vidare innefattar - att i källbílden endast avkoda (S30) bilddatainformation som representerar källomrâdet, och 10 15 20 25 30 534 554 27 - att i målbilden endast avkoda (S32) bilddatainformation som representerar målområdet. 22. Förfarande enligt något av föregående krav, varvid källområdet motsvarar ett källobjekt, varvid målområdet motsvarar ett målobjekt och varvid källobjektet och målobjektet representerar ett och samma objekt. Y 23. Förfarande enligt något av föregående krav, varvid källbilden och målbilden härstammar från en videosekvens. 24. Förfarande enligt något av föregående krav, vidare innefattande - mottagning av en signal som identiﬁerar nämnda källområde. 25.Anordning (100, 120) för digital bildmanipulation innefattande: - organ (124) för mottagning av en källbild (148) och en mâlbild (150), - organ (128) för identiﬁering av ett källområde i källbilden, där källområdet har en uppsättning koordinater, kännetecknad av - organ (132) för användning av uppsättningen koordinater för källområdet för att, som respons till nämnda identifiering av nämnda källomràde, identiﬁera ett målområde i målbilden genom att beräkna en felfunktion mellan källområdet och målområdet över ett antal punkter i ett område S längs ett preliminärt snitt dQ mellan källområdet och målområdet för noll translation och sedan translatera nämnda preliminära snitt utåt från nämnda noll translation tills felfunktionen minimeras och därmed identiﬁerar målområdet i målbilden, och - organ (144) för skapande av en digital bild (158) baserad på bilddatainfonnation från källbilden, varvid bilddatainformation från målområdet, genom användning av mjuk blandning mellan bilddatainforrnation från målbilden och bilddatainformation från källområdet, sömlöst ersätts med bilddatainforrnation från källområdet. 10 15 20 534 551 28 26.Anordning (100, 120) för digital bildmanipulation innefattande: organ (124) för mottagning av en källbild (148) och en målbild (150), organ (128) för identiﬁering av ett källområde i källbilden, där källområdet har en uppsättning koordinater, kännetecknad av organ (132) för användning av uppsättningen koordinater för källområdet för att, som respons till nämnda identifiering av nämnda källområde, identiﬁera ett målområde i målbilden genom att beräkna en felfunktion mellan källområdet och målområdet över ett antal punkter i ett område S längs ett preliminärt snitt dQ mellan källområdet och målområdet för noll translation och sedan translatera nämnda preliminära snitt utåt från nämnda noll translation tills felfunktionen minimeras och därmed identiﬁerar målområdet i målbilden, och organ (144) för skapande av en digital bild (158) baserad på bilddatainformation från källbilden. varvid bilddatainformation från källområdet, genom användning av mjuk blandning mellan bilddatainformation från källlbilden och bilddatainformation från målområdet, sömlöst ersätts med bilddatainformation från målområdet. 27.Anordning enligt krav 25 eller 26, vidare innefattande en kamera (122), och varvid nämnda källbild och nämnda målbild mottages från nämnda kamera. 28. Datorprogramprodukt (114) innefattande mjukvaruinstruktioner som då de nedladdats till en dator är anordnade att utföra ett förfarande enligt något av kraven 1 till 24.