NO329897B1

NO329897B1 - Fremgangsmate for raskere ansiktsdeteksjon

Info

Publication number: NO329897B1
Application number: NO20085322A
Authority: NO
Inventors: Per Ove Husoy
Original assignee: Tandberg Telecom As
Priority date: 2008-12-19
Filing date: 2008-12-19
Publication date: 2011-01-24
Also published as: EP2380111A4; CN102257513B; US20100172581A1; EP2380111B1; CN102257513A; US8260011B2; NO20085322L; WO2010071443A1; EP2380111A1

Abstract

Oppfinnelsen omhandler en metode og et system for å detektere ett eller flere ansikter innenfor digitale bilder i en videostrøm.

Description

Introduksjon

Den foreliggende oppfinnelsen omhandler en metode og system for å detektere ett eller flere ansikter i et digitalt bilde.

Bakgrunn for oppfinnelsen

Deteksjon av ansikter eller hoder i bilder er en viktig mulighet i videokonferansesystemer og andre videosystemer. Systemer som har videobildeinnfangningsmidler (f.eks. videokameraer, videokonferanseutstyr, webkameraer, etc.) muliggjør funksjonaliteter slik som: optimal synsdefinisjon (BestView), målområde for fokuseringsformål (for å sørge for at mennesker i videoen er i fokus), fargeoptimalisering (for å sørge for korrekte ansiktsfarger) og andre.

Ansiktsdeteksjon krever typisk at ansiktsdetekteringsinnretningen (eller logikken) undersøker/prosesserer tusenvis, om ikke millioner, av kandidatsvinduer innenfor et digitalt bilde i et forsøk på å lokalisere deler i en videoramme (eller bilde) som sannsynligvis inneholder et menneskelig ansikt. Konvensjonelle teknikker ser etter bildedata innenfor kandidatvinduer som skal bli manipulert og undersøkt i ulike forskjellige posisjoner og/eller skaleringer. Alle disse prosesseringene kan resultere i trege deteksjonshastigheter.

Det finnes flere tilnærmelser for deteksjon av ansikter i bilder. En av de raskere metodene i dag, utviklet for enkeltrammeanalyse, er utviklet av Viola og Jones [1], den såkalte kaskadede klassifiseringen som bruker Haar lignende trekk. Viola og Jones bruker en serie (beskrevet som en kaskade) med trenede klassifikatorer [1]. Disse kaskadene blir trent på større sett av bilder både med og uten ansikter (betegnet som positive og negative sampler) og lærer essensielt å skille trekk fra hverandre i et ansikt. Når det anvendes på et bilde (i dette tilfellet en enkel ramme fra en video) vil hver klassifikator fra kaskaden bli anvendt på regioner (eller vinduer) til bildet, hvor størrelsen av bildet øker for hver iterasjon. I den opprinnelige VJ-metoden er detektoren basert på lokale geometriske trekk i et grånivåbilde til en scene, hvor én typisk klassifikator er mørke øyehuler kontra lysere omgivelser, etc. Imidlertid vurderer VJ sin opprinnelige metode kun ansiktstrekk på hvert vindu (eller region) og trenger å prosessere hver region for ansiktstrekkene før den bestemmer om det inneholder et ansikt eller ikke. Dette er prosesseringsbelastende på systemet, ettersom detaljert analyse må bli utført på et bilde, selv i regioner hvor f.eks. farge kan foreslå at et ansikt ikke eksisterer.

Det er derfor et stort behov i industrien for å tilveiebringe forbedrede metoder, apparaturer og/eller systemer for å øke deteksjonshastigheten. En måte å gjøre dette raskt på er å redusere antall kandidatvinduer som trenger å bli prosessert og undersøkt. Den resulterende hastighetsøkningen av ansiktsgjenkjenning vil være fordelaktig i et ulikt antall datamaskin- og maskinbaserte applikasjoner.

En kjent metode for å redusere antall kandidatvinduer som må prosesseres og undersøkes er å definere et sett med farger (ansiktsfarger) som antas å være fargene funnet i regioner til et bilde som representerer et ansikt. Ansiktsdeteksjonsenheten trenger derfor kun å prosessere og undersøke delene av bildet som inneholder piksler som har farge som korresponderer til det definerte settet av ansiktsfarger. Imidlertid blir mange videosystemer, f.eks. videokonferanseutstyr, typisk plassert i et stort antall ulike omgivelser med mange ulike belysninger og lysforhold. Videokonferanseendepunktet blir ofte plassert på pulter nær vinduer (som gir ulik belysning selv dersom systemet forblir stasjonært), i godt eller svakt belyste møterom, i store forelesningssaler, i konferanserom med hudfargede møbler eller vegger, etc. Derfor er, til tross for verdien av regionfargen for klassifisering av ansikter, variasjonen i målt hudfarge mellom ulike belysninger svært stor, noe som gjør det vanskelig å utnytte det. I tillegg vil, i bilder som inneholder hudfargede vegger eller møbler, ansiktsdeteksjonslogikken fremdeles bruke tid på store områder som ikke inneholder ansikter. Det er derfor umulig å vite den faktiske fargen på hud i et bilde før en pålitelig ansiktsdeteksjon er oppnådd.

Sammendrag av oppfinnelsen

Hensikten med den foreliggende oppfinnelsen å tilveiebringe en metode og system for å løse i det minste ett av de ovenfor nevnte problemene i tidligere kjent teknikk.

Trekkene definert i det selvstendige vedlagte kravet karakteriserer denne metoden.

Kort beskrivelse av tegninger

For å gjøre oppfinnelsen mer forståelig, vil den etterfølgende diskusjonen referere til de vedlagte tegningene. Fig. 1 er et blokkdiagram som illustrerer en eksempelvis systemkonfigurasjon for å øke hastigheten på ansiktsdeteksjon, Fig. 2 er et illustrerende diagram som beskriver eksempelvis logikk konfigurert for å øke hastigheten på ansiktsdeteksjon i henhold til visse implementeringer av den foreliggende oppfinnelsen,

Fig. 3 viser et eksempelvis inputbilde som inneholder et ansikt,

Fig. 4 viser et eksempelvis bakgrunnshistogram til inputbildet i fig. 3,

Fig. 5 viser et eksempelvis bevegelsesfargehistogram i henhold til visse implementeringer av den foreliggende oppfinnelsen, og Fig. 6 viser et eksempelvis forholdshistogram i henhold til visse implementeringer av den foreliggende oppfinnelsen.

Detaljert beskrivelse av oppfinnelsen

I det følgende vil den foreliggende oppfinnelsen bli diskutert ved å beskrive foretrukne utførelser, og ved å referere til de vedlagte tegningene. Imidlertid vil en fagmann på området innse at andre anvendelser og modifikasjoner innenfor omfanget av oppfinnelsen slik den er definert i det vedlagte selvstendige kravet er mulige.

Den foreliggende oppfinnelsen tilveiebringer en metode som signifikant øker ansiktsdeteksjonshastigheten ved å redusere antall kandidatvinduer som trengs å bli prosessert og undersøkt av mer komplekse og/eller tidskrevende ansiktsdeteksjonsprosesser. Videre tilveiebringer den foreliggende oppfinnelsen en mer robust ansiktsdeteksjonsmetode som er mer uavhengig av lysforhold enn tidligere kjente ansiktsdeteksjonsmetoder.

Ulike ansiktsdeteksjonsteknikker er kjent og disse blir fortsatt tilpasset og forbedret. Det er utenfor omfanget av denne beskrivelsen å tilveiebringe en introduksjon for opplæring av slike velkjente teknikker. Interesserte lesere som vil lære mer om disse rettes derfor mot følgende eksempelvise referanser:

[1] P. Viola and M. Jones. "Robust real time object detection". IEEE ICCV Workshop on Statistical and Computational Theories of Vision, Vancouver, Canada, Jul. 13, 2001.

[2] A. Pentland, B. Moghaddam, and T. Starner. "View-based and Modular Eigenspaces of Face Recognition". Proe. of IEEE Computer Soc. Conf. on Computer Vision and Pattern Recognition, pp. 84-91, June 1994. Seattle, Wash.

[3] M. Bichsel and A. P. Pentland. "Human face recognition and the face image sefs topology". CVGIP: Image Understanding, 59:254-261, 1994.

[4] R. E. Schapire. "The boosting approach to machine learning: An overview". MSRI Workshop on Nonlinear Estimation and Classification, 2002.

[5] T. Serre, et al. "Feature selection for face detection". AI Memo 1697, Massachusetts Institute of Technology, 2000.

[6] V. N. Vapnik. Statistical Learning Theory. John Wiley and Sons, Inc., New York, 1998.

[7] Y. Freund and R. E. Schapire. "A decision-theoretic generalization of on-line learning and an application to boosting". Journal of Computer and System Sciences, 55(1): 119-139, August 1997.

Hudfargefiltrering for å øke hastigheten på deteksjon.

I en setting hvor en video (sekvens av bilder eller rammer) blir fanget inn av et statisk kamera (f.eks. videokonferanse, studiofilming, webkameraer, etc), kan informasjon innsamlet over en sekvens av rammer bli brukt for å forbedre ansiktsdeteksjonsprosesser. Typisk blir en region av et bilde som inneholder bevegelse eller en region som har en farge lik til hudfargen være gode kandidatsregioner for å søke etter et ansikt. Imidlertid har, siden fargen til et ansikt kan variere i innfangede videorammer som en funksjon av belysning ved den tiden og plassen som videorammen ble innfanget, den foreliggende oppfinnelsen et avslappet forhold til kravet om kunnskap om "hudfarge" som et krav for å vite fargen til regioner i bevegelsen.

Fig. 1 viser et flytskjema av en basisteknikk implementert av den foreliggende oppfinnelsen. Blokk 101 er det første trinnet vist i fig. 1 hvor faktisk inputbilde til en sekvens av bilder fra en videostrøm hvor et ansikt skal bli detektert blir tilveiebrakt til systemet. Her blir inputbildet tilveiebrakt til et bevegelsesfargefilter 102. Inputbildet innbefatter f.eks. digitale rådata av bilder. Bevegelsesfargefilteret 102 er konfigurert til å prosessere inputbildet, og basert på inputbildet mate ut et sett av korresponderende prosesserte bilder. Settet av prosesserte bilder omfatter i det minste ett bilde som inneholder intensitetsinformasjon og et bilde som inneholder sannsynlig hudfargeinformasjon. I henhold til en annen utførelse av oppfinnelsen, kan settet med prosesserte bilder også omfatte et bilde som inneholder bevegelsesinformasjon. De prosesserte bildene blir så tilveiebrakt til eller på annet vis aksessert av en ansiktsdetektor 104. Merk at i arrangementet 100, er bevegelsesfargefilteret 102 konfigurert som et forfilter. Bevegelsesfargefilteret 102 er beskrevet i mer detalj i etterfølgende avsnitt.

Ansiktsdetektor 104 i henhold til den foreliggende oppfinnelsen kan utnytte ulike typer av ansiktsdeteksjonsmetoder, f.eks. ansiktstrekkdetektorer, egenvektorer (egenansikter) baserte detektorer, etc. Den foreliggende oppfinnelsen bruker en ansiktsdetektor som anvender i det minste trekk i et gråskalabilde (intensitetsinformasjon) og sannsynlig hudfargeinformasjon for å klassifisere kandidatvinduer (eller regioner) som har ansiktsdata eller som ikke har ansiktsdata. Den sannsynlige hudfargeinformasjonen er informasjon som definerer regionene til rammen som med høy sannsynlighet inneholder hudfarge, uavhengig av belysningsforhold som videostrømmen har blitt fanget inn i. I henhold til en annen utførelse av den foreliggende oppfinnelsen, blir bevegelsesinformasjon som er informasjon som definerer regionene til rammen som inneholder bevegelse brukt i tillegg til intensitet og sannsynlig hudfargeinformasjon for å klassifisere kandidatvinduer.

Ansiktsdetektoren 104 i dette eksemplet er konfigurert til å mate ut detekterte ansikter 105. Detekterte ansikter 105 kan innbefatte, f.eks., spesifiserte deler av inputbildet 101 som det er sannsynlig vil innbefatte ansiktsdata. Ansiktsdetektoren 104 er beskrevet i mer detalj i etterfølgende avsnitt.

Bevegelses og fargefilteret 102 kan også være en integrert del av ansiktsdeteksjonslogikken, og ikke et separat trinn.

For å undersøke om et ansikt er lokalisert innenfor inputbildet, trenger et svært stort antall kandidatvinduer å bli undersøkt ved mange ulike mulige posisjoner og/eller mange ulike skaleringer. En av de mer effektive måtene å akselerere ansiktsdeteksjon på er derfor å raskt bestemme om et kandidatvindu trenger å bli prosessert videre, eller om det kan ses bort fra det. Dette blir gjort i ansiktsdetektor 104 av en klassifikator som tillater bakgrunnsregioner i bildet å bli sett raskt bort fra, mens en bruker mer beregning på lovende ansiktslignende regioner. Forskjellig fra tilnærmelsen beskrevet av Viola og Jones [1], som kun bruker Haar trekk i sin klassifikator, beskriver den foreliggende oppfinnelsen en multimodal klassifikator som utnytter flere ulike trekk fra flere ulike utledede inputbilder for å se bort fra uinteressante regioner til bildet på en raskere måte. Hovedmålet med bevegelsesfargefilteret 102 er å tilveiebringe en ansiktsdetektor 104 med informasjon om hvilke deler av inputbildet som inneholder farger som sannsynligvis er hudfarger.

I henhold til et eksempel i henhold til spesifikke aspekter med den foreliggende oppfinnelsen innbefatter pikselfargeinformasjon til inputbildet rød, grønn og blå fargeinformasjon (f.eks. et RGB fargerom). Imidlertid er ikke dette begrensende til omfanget av den foreliggende oppfinnelsen. En fagperson på området vil enkelt utføre de samme trinnene på et inngangsbilde med pikselfargeinformasjon i andre fargerom, f.eks. innbefattende luminans- og krominansinformasjon (f.eks. et YCrCb fargerom).

Fig. 3 viser et eksempelvis inputbilde 101, som viser en scene fra et ansikt med en hudfarge foran en jevn bakgrunn med en ulik farge.

Det vises nå til fig. 2, som er et flytskjema som beskriver en metode 200 i henhold til én utførelse av den foreliggende oppfinnelsen, som kan bli implementert i bevegelsesfargefilter 102.1 trinn Sl mottar ansiktsfargefilteret 102 et digitalt inputbilde 101 (rammen til en videostrøm), f.eks. det eksempelvise bildet vist i fig. 3. En kopi av det mottatte inputbildet blir så konvertert S2 til et gråskalabilde, som er et bilde hvor verdien av hvert piksel kun bærer intensitetsinformasjon. Bilder av denne typen blir komponert eksklusivt med skygger av grått, som varierer fra svart med svakest intensitet til hvitt ved den sterkeste. Gråskalabildet blir temporært lagret i en intern minneinnretning for senere prosessering. Gråskaladigitale bildet blir så brukt for å detektere bevegelse S3 i videostrømmen. Deteksjonsprosessen kan enten være en regionsbasert rammeforskjell, eller enhver tilnærming som med rimelig følsomhet detekterer bevegelige objekter. Ulike konvensjonelle metoder kan bli brukt for å detektere bevegelse i et videosignal, og ett eksempel på en enkel algoritme for bevegelsesdeteksjon med et fast kamera er å sammenligne det foreliggende bildet (n) med det forrige bildet (n-1) og finne piksler (eller blokker av piksler) i det foreliggende bildet (n) som er forskjellig fra de korresponderende pikslene (eller blokker av piksler) i det forrige bildet (n-1). Derfor blir, i trinn S3 til den foreliggende oppfinnelsen et bevegelsesbilde generert, basert på foreliggende gråskalabilde og tidligere gråskalabilde lagret i den interne minneinnretningen. Bevegelsesbildet er et en-bit svart og hvitt digitalt bilde, som har svarte piksler i områder med ingen deteksjonsbevegelse og hvite piksler i området med deteksjonsbevegelse (eller vice versa).

I trinn S3 blir så en kopi av det mottatte inputbildet (her et RGB-bilde) så konvertert til et normalisert bilde i RG kromatiske rommet. IRG kromatiske rom, blir en farge representert av delen av rød, grønn og blå i fargen, i stedet for intensiteten til hvert (som i et RGB fargerom). Ved å normalisere størrelsen til RGB pikseltripletter (f.eks. ved å beregne fargerenheten (chromaticity)), kan bildevariasjoner på grunn av belysningsgeometri bli fjernet.

Deretter, i trinn S4, blir fra inputbildet et normalisert bilde generert ved å beregne et intensitetsufølsomt fargemål (Rn og Gn) for hver piksel ved å dividere elementverdien til den opprinnelige RGB-vektoren ved summen av elementverdiene. Siden summen av disse målene summerer seg opp til én, kan vi unikt spesifisere fargen til ethvert RGB-triplett ved en toelementsvektor: normaliserte [Rn, Gn] verdier. I en kvantisert form, definerer så [Rn, Gn] en pikselfarge for en todimensjonal heltallsvektor. Rn- og Gn-verdiene for hvert piksel i det normaliserte bildet 204 kan bli beregnet i henhold til de følgende ligningene: hvor R, B og G er elementverdiene til rød, blå og grønn farge respektivt i den opprinnelige RGB-vektoren, og 255 er en skaleringsfaktor. Som beskrevet over er blåbidraget redundant fordi

F.eks., kan en piksel i et godt opplyst ansikt (eller deler av ansiktet) bli representert av en lineær RGB-vektor [200, 120, 60], som representerer en typisk hudfarge. Mens en piksel i et mørkt belyst ansikt (eller annen del av nevnte første ansikt) kan bli representert av en lineær RGB-vektor [20, 12, 6], forårsaket av skygger eller dårlig belysning. Imidlertid, selv om de to pikslene har ulike RGB-vektorer og teknisk representerer to forskjellige farger representerer de to pikslene den samme hudfargen (eller det samme forholdet til rød, grønn, blå kombinasjon). Dette er reflektert av de normaliserte RnGn-verdiene, her [134, 81], som er det samme for begge pikslene.

Nå blir, basert på i det minste bevegelsesbildet og det normaliserte bildet, tre histogrammer beregnet: et bakgrunnsfargehistorgram, et bevegelsesfargehistogram og et bevegelsesfargesannsynlighetshistogram, hvor det siste er et forhold til bakgrunnsfargehistogrammet og bevegelsesfargehistogrammet.

Et histogram er en standard statistisk beskrivelse av en fordeling med hensyn til opptredenfrekvenser til ulike hendelsesklasser; for farge er hendelsesklassene regioner i fargerommet.

Først blir i trinn S5 et fargehistogram beregnet for det normaliserte bildet, heretter referert til som bakgrunnsfargehistogram siden det meste av bildet er antatt å inneholde "bakgrunn". Siden det normaliserte bildet er i et todimensjonalt fargerom (RG kromatisk), er bakgrunnsfargehistogrammet et todimensjonalt histogram og tilveiebringer en kompakt summering av fordelingen av data i det normaliserte bildet. Bakgrunnsfargehistogrammet vil nå indikere hvor ofte hver farge opptrer i bildet, og vil bli brukt for normaliseringsformål.

H( Rn, Gn) = antall piksler i normalisert bilde med farge Rn, Gn.

Bakgrunnsfargehistogrammet beregnet fra dataene i det eksempelvise inputbildet i fig. 3 er vist i fig. 4. Som vi kan se fra fig. 5, opptrer bakgrunnsfargen oftest og har den største toppen 401. Toppen 402 representerer ansikt/hudfarger.

Deretter blir i trinn S6 i henhold til én eksempelvis utførelse av bevegelsesfargebildet laget. Bevegelsesfargebildet er en kombinasjon av bevegelsesbildet og det normaliserte bildet, som er to ulike representasjoner av det samme inputbildet. Bevegelsesfargebildet omfatter kun piksler fra det normaliserte bildet som blir detektert som å være i bevegelse i bevegelsesbildet. Deretter blir i trinn S7, et bevegelsesfargehistogram beregnet fra bevegelsesfargebildet. Siden all bakgrunn (vegger, møbler, tak, gulv, etc.) er stasjonære, og en person sjelden kan forholde seg helt stille (selv når en aktivt prøver det), er det trygt å anta at bevegelsen detektert i bildet reflekterer tilstedeværelsen av en person. Bevegelsesfargehistogrammet blir dermed laget ved å beregne et fargehistogram for kun pikslene i det normaliserte bildet som representerer bevegelse (piksler detektert som bevegelse basert på en deteksjonsmetode som beskrevet over).

I henhold til en annen eksempelvis utførelse av den foreliggende oppfinnelsen, blir ikke bevegelsesfargebildet laget i trinn S6.1 stedet definerer kun trinn S6 et sett av piksler i det normaliserte bildet som skal bli brukt i trinn S7 ved beregning av bevegelsesfargehistogrammet, basert på informasjon fra bevegelsesbildet. Bevegelsesbildet 203 inneholder informasjon som definerer hvilke piksler til inputbildet som blir detektert som å være i bevegelse, og posisjonen til disse pikslene. Kun piksler på de samme pikselposisjonene i det normaliserte bildet blir så brukt for å lage bevegelsesfargehistogrammet.

Hmotlon( Rn, Gn) = antall piksler med normalisert farge Rn, Gn i kun deler av det normaliserte bildet detektert som å være i bevegelse.

Bevegelsesfargehistogrammet beregnet basert på det eksempelvise inputbilde i fig.

3 (og bevegelsesbildet og det normaliserte bildet utledet derfra) er vist i fig. 6. Som beskrevet over innbefatter dette histogrammet kun piksler fra regioner som inneholder bevegelse. Forandring av belysningsforhold, vaiende gardiner, etc. kan resultere i at kun statiske deler blir detektert som å være i bevegelse. Videre kan bevegelige kroppsdeler dekket av klær bidra til ikke-hudfarger i bevegelsesfargehistogrammet. Dermed, som vi kan se fra fig. 5, opptrer to topper, korresponderende til hudfarge 502 og bakgrunnsfarge 501 respektivt. I kontrast til bakgrunnsfargehistogrammet opptrer bakgrunnsfargen og hudfargen nesten like ofte, og har forholdsvis like topper.

Bakgrunnsfargehistogrammet gir nå fordelingen av farger i den generelle scenen, mens bevegelsesfargehistogrammet gir fordelingen av farger til de detekterte delene i scenen. Et forholdshistogram Hrati0beskriver forholdet mellom bevegelseshistogrammet Hmoti0ntil regionen inneholdende bevegelse og bakgrunnsfargehistogrammet Hbg til hele det normaliserte bildet.

Derfor blir deretter et forholdshistogram beregnet i trinn S8, ved å dele bevegelsesfargehistogrammet på bakgrunnsfargehistogrammet. Siden bakgrunnsfargehistogrammet har høyere verdier for statiske bakgrunnsfarger (de okkuperer det meste av bildet) og lave verdier for antatte hudfarger (bevegelse), vil forholdshistogrammet gi lave verdier for bakgrunnsfarger og høye verdier for bevegelse. Forholdshistogrammet kan bli beregnet ved å bruke følgende formel:

Et forholdshistogram beregnet basert på det eksempelvise inputbildet i fig. 3 (og bakgrunnsfargehistogrammet og et bevegelsesfargehistogram utledet derfra) er vist i fig. 6. Som det kan ses fra fig. 6, har toppen 602 (som representerer antatte hudfarger) betraktelig høyere verdier enn resten av fargene 601 i inputbildet.

I trinn S9 blir et bevegelsesfargesannsynlighetsbilde laget ved bakprojeksjon. Bevegelsesfargesannsynlighetsbildet blir laget ved å sette alle pikselverdier i bevegelsesfargesannsynlighetsbildet til en verdi tilegnet ved indeksering av forholdshistogrammet ved å bruke verdier fra det opprinnelige normaliserte bildet. Med andre ord blir i trinn S9, de kromatiske verdiene til hvert piksel i det normaliserte inputbildet tracet på forholdshistogrammet, og korresponderende frekvensverdier blir tilegnet til det samme piksel i det normaliserte inputbildet. Denne prosessen produserer lyse piksler i bevegelsesfargesannsynlighetsbildet hvor det er antatt at hudfarger opptrer, basert på bevegelsesdeteksjon. Med andre ord inneholder bevegelsesfargesannsynlighetsbildet informasjon om hvilke deler av bildet som er antatt å ha hudfarger.

I henhold til én utførelse av den foreliggende oppfinnelsen mottar ansiktsdetektor 104 inputdata fra bevegelsesfargefilteret 102. Som det kan ses fra fig. 2, er en første input Input 1 det gråskala digitale bildet 202 som tilveiebringer bildeintensitetsinformasjonen til klassifikatoren for å bestemme om området til bildet sannsynlig inneholder et ansikt basert på geometriske trekk, andre input Input2 er bevegelsesfargesannsynlighetsbildet som tilveiebringer informasjon til klassifikatoren for å bestemme om det samme området er sannsynlig å inneholde et ansikt basert på trekk i bevegelsesfargesannsynlighetsbildet. Bevegelsesfargesannsynlighetsbildet inneholder ikke farge, men inneholder et intensitetsmål for hvert piksel som definerer sannsynligheten for at et piksel er en hudfarge i det opprinnelige inputbildet 101. Klassifikatoren integrerer over regionen som for tiden blir undersøkt og dersom resultatet er over en forhåndssatt terskelverdi, antas det at området inneholder en ansiktskandidat. Dersom resultatet er under den forhåndssatte terskelverdien, blir det antatt at området ikke inneholder et ansikt og området blir ikke undersøkt videre. Alle områder antatt å inneholde en ansiktskandidat blir videre undersøkt ved å se etter ansikter ved å bruke tradisjonelle ansiktsgjenkjenningsteknikker basert på et gråskalabilde.

I henhold til en annen utførelse av oppfinnelsen mottar ansiktsdetektor 104 en tredje input Input3 fra bevegelsesfargefilter 102. Det tredje input Input3 er en-bit bevegelsesbildet 202 som tilveiebringer informasjon til klassifikatoren for å bestemme om det samme området er sannsynlig å inneholde en ansiktskandidat basert på trekk i bildet. Bevegelsesbildet inneholder lyse punkter hvor bevegelsen ble detektert, og et undersøkt område er sannsynlig å inneholde en ansiktskandidat dersom området inneholder en viss mengde av lyse piksler. Klassifikatoren tester området ved å integrere over det undersøkte området og dersom resultatet er høyere enn en forhåndssatt terskelverdi er det sannsynlig at ansiktskandidater er tilstede i det undersøkte området. Dersom resultatet er under en forhåndssatt terskelverdi, definerer klassifikatoren det undersøkte området til å ikke sannsynlig inneholde et ansikt.

I henhold til én utførelse av oppfinnelsen, når ansiktsdetektor 104 detekterer et ansikt i ett av inputbildene, returnerer ansiktsdetektor 104 lokasjonen til ansiktet til bevegelsesfargefilteret 102, f.eks. i form av størrelse til foreliggende testområde og en pikselkoordinat som definerer posisjonen til testområdet. Opptredenen av en positiv ansiktsseksjon vil tilveiebringe verdifull informasjon om hvilke piksler i bildet som faktisk omfatter hudfarger. Derfor blir, ved deteksjon av et ansikt, trinnet med å beregne bevegelsesfargehistogrammet i trinn S6 og S7 modifisert til å beregne et bevegelsesfargehistogram med kun piksler i det normaliserte bildet korresponderende til området som representerer et detektert ansikt.

Den foreliggende oppfinnelsen er også beskrevet av et system omfattende midler for å utføre metoden beskrevet over.

Oppfinnelsen gjør det mulig å utnytte styrken til fargeinformasjon for å skjelne mellom objekter basert på deres farge uten å bruke a- priori kjennskap om den spesifikke fargen til objektet som er av interesse. I stedet for forhåndsdefinerte hudfarger som et separat trekk, blir fargen av interesse funnet fra bevegelsesanalyse til scenen. Ved å bruke varianter av bevegelsesdeteksjonstilnærmelser, blir statistikk til farger til bevegelige objekter, relativt til statistikk til farger av stasjonære objekter brukt for å lage et fargefølsomt trekk som behjelper separering av bevegelse fra stasjonære objekter. Dette bevegelige objektfargetrekket blir til slutt brukt som input i et objektdeteksjonssystem hvor kunnskapen til bevegelse er et sterkt holdepunkt.

I tidligere systemer gjør eksplisitt bruk av hudfarge for ansiktsdeteksjon, avhengigheten av den registrerte fargen grunnet brukt belysning det vanskelig å lage en robust detektor.

Claims

1. Metode for å detektere et ansikt i en videostrøm omfattende trinnene: - å motta fra et statisk videokamera en sekvens med inputfargebilder og for hvert inputbilde: - å beregne et gråskalabilde av inputfargebildet, - å lage et en-bits bevegelsesbilde basert på foreliggende gråskalabilde, og et forutgående gråskalabilde, - å beregne et normalisert fargebilde av inputfargebildet, - å beregne et bevegelsesfargesannsynlighetsbilde ved: - å beregne et første fargehistogram av alle pikslene i det normaliserte bildet, - å beregne et andre fargehistogram til kun pikslene i det normaliserte bildet korresponderende til piksler i bevegelsesbildet definert som å være i bevegelse, - beregne et forholdshistogram ved å dividere det første fargehistogrammet på det andre fargehistogrammet, - å sette alle pikselverdiene i bevegelsesfargesannsynlighetsbildet til en verdi tilegnet ved å indeksere forholdshistogrammet ved å bruke verdier fra det opprinnelige normaliserte bildet, å tilveiebringe i det minste gråskalabildet og bevegelsesfargesannsynlighetsbildet til en ansiktsdetektor, å eksekvere ansiktsdeteksjon ved å bruke en klassifikator som bestemmer tilstedeværelsen av et ansikt basert på første trekk i gråskalabildet og andre trekk i bevegelsesfargesannsynlighetsbildet.

2. Metode i henhold til krav 1, karakterisert vedat de første trekkene omfatter geometriske trekk eller mønstre.

3. Metode i henhold til krav 1, karakterisert vedat de andre trekkene omfatter intensitetsinformasjon, hvor nevnte intensitetsinformasjon definerer tilstedeværelsen av ikke-tilstedeværelse til antatte hudfarger.

4. Metode i henhold til krav 1, karakterisert vedå tilveiebringe bevegelsesbildet til ansiktsdetektoren, og at tilstedeværelsen av et ansikt er videre basert på tredje trekk i bevegelsesbildet.

5. Metode i henhold til krav 1, karakterisert vedat inputfargebildet er et RGB-fargerom, og at nevnte normaliserte bilde blir laget ved å konvertere en kopi av inputfargebildet til RG kromatisk rom.

6. Metode i henhold til krav 1, karakterisert vedat, når ansiktsdetektoren detekterer et ansikt i ett av nevnte inputbilder blir trinnet med å beregne en bevegelsesfargesannsynlighetsbilde modifisert til: å trekke ut lokasjonen av nevnte detekterte ansikt, og å beregne et andre fargehistogram med kun pikslene som representerer det detekterte ansiktet.

7. System omfattende midler for å utføre metoden i henhold til trinnene 1-6.