KR20030045624A - 멀티플 큐를 사용하는 다수의 개인들의 자동 검출 및 트래킹 - Google Patents

멀티플 큐를 사용하는 다수의 개인들의 자동 검출 및 트래킹 Download PDF

Info

Publication number
KR20030045624A
KR20030045624A KR1020020076068A KR20020076068A KR20030045624A KR 20030045624 A KR20030045624 A KR 20030045624A KR 1020020076068 A KR1020020076068 A KR 1020020076068A KR 20020076068 A KR20020076068 A KR 20020076068A KR 20030045624 A KR20030045624 A KR 20030045624A
Authority
KR
South Korea
Prior art keywords
frame
face
tracking
candidate
audio
Prior art date
Application number
KR1020020076068A
Other languages
English (en)
Other versions
KR100905793B1 (ko
Inventor
루이용
첸윤키앙
Original Assignee
마이크로소프트 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마이크로소프트 코포레이션 filed Critical 마이크로소프트 코포레이션
Publication of KR20030045624A publication Critical patent/KR20030045624A/ko
Application granted granted Critical
Publication of KR100905793B1 publication Critical patent/KR100905793B1/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/162Detection; Localisation; Normalisation using pixel segmentation or colour matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Collating Specific Patterns (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Optical Recording Or Reproduction (AREA)

Abstract

다수의 개인의 자동 검출 및 트래킹은, 비디오 및/오디오 내용의 프레임을 수신하는 단계, 및 프레임의 새로운 얼굴 영역에 대한 후보 구역을 식별하는 단계를 포함한다. 하나 이상의 계층적 검증 레벨을 사용하여 후보 구역에 인간의 얼굴이 있는지의 여부를 검증하고, 하나 이상의 계층적 검증 레벨이 후보 구역에 인간의 얼굴이 있음을 검증하면, 후보 구역이 얼굴을 포함한다는 표시를 한다. 복수의 오디오 및/또는 비디오 큐를 사용하여 프레임에서 프레임으로 비디오 내용의 각각의 검증된 얼굴을 트래킹한다.

Description

멀티플 큐를 사용하는 다수의 개인들의 자동 검출 및 트래킹{AUTOMATIC DETECTION AND TRACKING OF MULTIPLE INDIVIDUALS USING MULTIPLE CUES}
본 발명은 비디오 및/또는 오디오 처리, 및/또는 컴퓨터 비젼에 관한 것으로서, 특히, 다수의 개인의 자동 검출 및 트래킹에 관한 것이다.
비디오 데이터를 분석하는 시스템이 점차로 상용되고 있다. 이러한 시스템의 일례인 비디오 회의 시스템은, 회의 참석자가 서로 다른 지리적 위치에 있다는 사실에 불구하고 서로 눈으로 보면서 회의할 수 있게 한다. 통상, 비디오 회의의 시각적인 특징은 전화 회의보다 흥미를 끌면서, 하나 이상의 참석자가 회의 위치로 이동해야 하는 직접 회의에 비해 저가의(또한, 통상, 보다짧은 통지로 발생할 수 있는) 대안적인 방법이 된다.
일부 종래의 비디오 회의 시스템은 자동화된 오디오 기반 검출 기술 및/또는 사전 설정을 사용하여 카메라를 이동한다(예를 들어, 카메라를 패닝(panning) 또는 틸팅(tilting)함). 그러나, 종래의 비디오 회의 시스템에 많은 문제점이 있다. 한 문제점은, 오디오 기반 화자 검출 기술의 정확도가 낮다는 것이다. 또한, 통상, 비디오 회의 시스템은 회의에 참석하고 있는(참석자가 회의에 참석하거나 떠날 경우를 포함함) 참석자의 수, 참석자가 위치한(앉아있거나 서있는) 장소, 또는 현재 이야기하고 있는 참석자를 인식하지 못한다. 일부 시스템이 참석자 정보(예, 참석자의 수 및 참석자의 위치)로 수동으로 프로그래밍되지만, 회의에 참석할 수 있는 자격, 및 참석자가 방을 배회할 수 있는 능력을 제한하는 경향이 있는 정보의 사용자 엔트리가 프로그래밍될 것을 요구한다.
여기서 설명하는 다수의 개인의 자동 검출 및 트래킹은 이러한 문제점을 해결하고자 하는 것이다.
도 1은 로버스트(robust) 자동 식별 및 트래킹이 사용될 수 있는 예시적인 환경을 나타내는 도.
도 2는 로버스트 자동 식별 및 트래킹이 사용될 수 있는 다른 예시적인 환경을 나타내는 도.
도 3은 로버스트 자동 식별 및 트래킹을 사용하는 예시적인 시스템을 나타내는 도.
도 4는 새로운 얼굴 영역에 대한 후보를 검출하기 위한 예시적인 처리를 나타내는 플로우차트.
도 5는 동작 기반 초기화를 사용하여 새로운 얼굴 영역에 대한 후보를 식별하기 위한 예시적인 처리를 나타내는 플로우차트.
도 6은 비디오 내용의 프레임에 대한 예시적인 이미지를 나타내는 도.
도 7은 계층적 검증을 행하기 위한 예시적인 처리를 나타내는 플로우차트.
도 8은 급속 컬러 기반 검증을 위한 예시적인 처리를 나타내는 도.
도 9는 멀티큐 트래킹을 행하기 위한 예시적인 처리를 나타내는 플로우차트.
도 10은 멀티큐 트래킹에 대한 예시적인 모델링 및 비교를 상세히 나타내는도.
도 11은 영역 평탄 개념을 나타내는 이미지를 나타내는 도.
도 12는 도 11로부터 강도의 측정을 나타내는 도.
도 13은 매칭 거리의 예시적인 측정을 도식적으로 나타내는 도.
도 14는 한 프레임으로부터 후속 프레임으로 대상의 예시적인 트래킹을 나타내는 도.
도 15는 예시적인 UPF(unscented particle filter)를 나타내는 플로우차트.
도 16은 예시적인 다수의 마이크로폰 환경을 나타내는 도.
도 17은 예시적인 통상의 컴퓨터 환경을 나타내는 도.
<도면의 주요부분에 대한 부호의 간단한 설명>
102 : 비디오 회의 시스템
104, 114 : 트래킹 모듈
112, 130 : 시스템
116 : 내용
132 : 검출 및 트래킹 모듈
134 : 통신 모듈
136 : 오디오 캡처 모듈
138 : 비디오 캡처 모듈
140 : 자동 초기화 모듈
142 : 계층적 검증 모듈
144 : 멀티큐 트래킹 모듈
146 : 얼굴/후보 트래킹 리스트
156 : 동작 기반 초기화 모듈
158 : 오디오 기반 초기화 모듈
160 : 급속 얼굴 검출 모듈
162 : 상실 확신 영역 검출 모듈
164 : 급속 컬러 기반 검증 모듈
166 : 멀티뷰 얼굴 검출 모듈
168 : 관측 가능성 모듈
170 : 평탄 제약 모듈
172 : 윤곽 선택 모듈
174 : 모델 적응 모듈
270 : 이미지
602 : 컴퓨터
604 : 프로세싱 유닛(프로세서)
628 : 애플리케이션 시스템
630 : 프로그램 모듈
이하, 다수의 개인의 자동 검출 및 트래킹을 설명한다.
본 발명의 일 특징에 따르면, 내용(예, 오디오 및/또는 비디오)의 프레임을 수신하고, 이 프레임에서 새로운 얼굴 영역에 대하여 하나 이상의 후보 구역을 식별한다. 계층적 검증을 사용하여 후보 구역에 인간의 얼굴이 있는지의 여부를 검증하고, 계층적 검증이 후보 구역에 인간의 얼굴이 있음을 검증하면, 후보 구역이 얼굴을 포함한다는 표시를 한다. 구역을 검증한 후, 복수의 큐를 사용하여 프레임에서 프레임으로 내용의 각각의 검증된 얼굴을 트래킹한다.
본 발명의 다른 특징에 따르면, 검출 및 트래킹 프레임워크에 3개의 주요 모듈, 즉, 자동 초기화 모듈, 계층적 검증 모듈 및 멀티큐 트래킹 모듈이 있다. 내용(예, 오디오 및/또는 비디오)의 프레임을 수신하고, 자동 초기화 모듈에 의해 이 프레임에서 새로운 얼굴(또는 다른 대상) 영역에 대한 하나 이상의 후보 구역을 식별한다. 계층적 검증 모듈을 사용하여 후보 구역에 인간의 얼굴이 있는지의 여부를 검증하고, 계층적 검증 모듈이 후보 구역에 인간의 얼굴이 있음을 검증하면, 후보 구역이 얼굴을 포함한다는 표시를 한다. 구역을 검증한 후, 멀티큐 트래킹 모듈은 복수의 큐를 사용하여 프레임에서 프레임으로 내용에서 각각의 검증된 얼굴을 트래킹한다. 전체 트래킹 처리 동안, 계층적 검증 모듈은 트래킹된 얼굴을 연속적으로 검증한다. 확신 레벨이 높다면, 멀티큐 트래킹 모듈은 얼굴의 트래킹을 유지하며, 확신 레벨이 낮다면, 소정의 얼굴의 트래킹이 종료된다. 트래킹 모듈 및 검증 모듈은 초기화 모듈이 더 많은 후보를 제공할 때까지 대기한다.
동일 도면 부호는 본 명세서 전체에서 동일 구성요소 및/또는 특징을 나타내기 위해 사용된다.
<실시예>
이하, 다수의 개인의 자동 검출 및 트래킹을 설명한다. 비디오 내용 및/또는 오디오 내용을 분석하여 내용의 프레임에서 개인을 자동 검출한다. 일단 검출되면, 개인은 연속적인 프레임에서 자동적으로 트래킹된다. 개인의 트래킹이 상실된 경우, 개인은 자동적으로 검출되어 개인의 트래킹이 재개된다.
도 1 및 도 2는 로버스트 자동 검출 및 트래킹이 사용될 수 있는 예시적인 환경을 나타낸다. 도 1에서, 다수(n개)의 비디오 회의 시스템(102)은 서로 오디오/비디오 내용을 통신하여 각 비디오 회의 시스템(102)에 위치한 회의 참가자가 서로 보고 들을 수 있게 한다. 종래의 팬/틸트/줌 카메라, 360도 파노라마 카메라(예를 들어, 이것은 팬/틸트/줌을 기계적 방법 대신에 디지털로 할 수 있음) 등의 다양한 서로 다른 카메라 시스템이 비디오 회의 시스템(102)과 함께 사용될 수 있다. 이러한 360도 파노라마 카메라 시스템 중 하나는 파라볼릭 미러 장치(parabolic morror device)로 알려진 카메라를 사용하고, 각종 교정 기술을 사용하여 카메라에 대해 360도 전방향 이미지가 구축될 수 있는 노멀 이미지로 이미지를 디워핑(de-warping)한다. 이러한 360도 파노라마 카메라 시스템의 예는, 미국 특허출원 번호 제09/681,843호로, 발명의 명칭이 "Automated Online Broadcasting System and Method Using an Omni-Directional Camera System forViewing Meeting Over a Computer Network"이며, 2001년 6월 14일 출원되고, 발명자가 Yong Rui, Anoop Gupta, Johnathan J. Cadiz 및 Ross G. Cutler인 특허출원에 기재되어 있다. 다른 360도 파노라마 카메라 시스템은 다수의 카메라(각 카메라는 360도보다 작은 시각을 가짐)를 배열하여 전체가 약 360도의 시각을 제공할 수 있게 한다.
각 비디오 회의 시스템(102)은 트래킹 모듈(104)을 포함하며, 이 트래킹 모듈(104)은 대응하는 비디오 회의 시스템(102)에서 다수의 개인을 견고하게(robustly) 자동 검출하고 트래킹한다. 이러한 검출 및 트래킹은 카메라의 틸트/팬/줌, 개인의 하이라이트(예를 들어, 개인에게 화살표 표시를 하거나 개인 주위에 원 표시를 함) 등의 각종 목적에 사용될 수 있다.
비디오 회의 시스템(102)은 각종 방법으로 서로 접속될 수 있다. 예를 들면, 하나 이상의 전화 회선(ISDN과 같은 디지털 회선을 포함함)을 사용하여 다수의 비디오 회의 시스템(102)을 직접 또는 중앙 장치 또는 위치를 통해 서로 접속시킬 수 있고, 종래의 데이터 네트워크(예, 인터넷, 인트라넷 등)를 사용하여 다수의 비디오 회의 시스템(102)을 서로 접속시킬 수 있다.
도 2에서, 트래킹 모듈(104)을 포함하는 시스템(112)은 내용(116)을 수신한다. 통상, 내용(116)은 오디오/비디오 내용이지만, 다른 형태의 내용(예, 공용 화이트보드 등)을 포함하거나 오디오 또는 비디오 내용을 포함하지 않을 수도 있다. 트래킹 모듈(114)은 내용(116)을 분석하고, 내용의 비디오 및/또는 오디오에 기초하여 다수의 개인을 견고하게 자동 검출하고 트래킹한다. 내용(116)은시스템(112)의 카메라 및 마이크로폰, 내용이 기록될 수 있는 기록 매체(예, 자기 테이프, 광 디스크 등), 전화 회선 또는 네트워크 입력 등의 다양한 방법으로 시스템(112)에 입수가능하다.
도 3은 로버스트 자동 검출 및 트래킹을 사용하는 예시적인 시스템(130)을 나타낸다. 시스템(130)은, 예를 들어, 도 1의 비디오 회의 시스템(102) 또는 도 2의 시스템(112)일 수 있다. 시스템(130)은 검출 및 트래킹 모듈(132), 통신 모듈(134), 오디오 캡처 모듈(136) 및 비디오 캡처 모듈(138)을 포함한다. 화이트보드 캡처 모듈 등의 각종 모듈(도시하지 않음)을 포함할 수도 있다. 통신 모듈(134)은, 시스템(130)과, 도 1의 비디오 회의 시스템(102) 등의 다른 시스템, 또는 분석될 내용을 수신할 수 있는 기타 장치간의 통신을 관리한다. 통신 모듈(134)은 각종 종래 및/또는 독점 소유된 프로토콜을 지원한다.
오디오 캡처 모듈(136)은 시스템(130)의 일부인 하나 이상의 마이크로폰(도시하지 않음)을 통해 시스템(130)에서 오디오 내용의 캡처를 관리한다. 또한, 오디오 품질을 향상시키기 위해 추가의 처리(예를 들어, 빔 형성 기술을 사용함)를 행할 수 있다. 오디오 내용은 디지털 포맷으로 변환되고(필요한 경우), 트래킹을 위해 검출 및 트래킹 모듈(132)에서 사용가능하다. 비디오 캡처 모듈(138)은 시스템(130)(예를 들어, 고정 카메라, 종래의 팬/틸트/줌 카메라, 360도 파노라마 카메라 등을 포함할 수 있음)의 일부인 하나 이상의 비디오 캡처 장치(예, 아날로그 또는 디지털 비디오 카메라(도시하지 않음))를 통해 시스템(130)에서 비디오 내용의 캡처를 관리한다. 캡처된 비디오 내용의 프레임은 디지털 포맷으로 변환되고(필요한 경우), 개인의 검출 및 트래킹을 위해 검출 및 트래킹 모듈(132)에서 사용가능하다. 오디오 및 비디오 내용이 서로 결합되므로(예를 들어, 캡처시), 내용(예, 프레임)의 임의의 특정 부분에 대해 비디오 및 오디오 내용 모두가 알려진다. 다른 실시예에서는, 하나 이상의 모듈(134, 136 및 138)이 포함되지 않을 수 있다. 예를 들면, 시스템은 비디오 캡처 모듈(138) 또는 오디오 캡처 모듈(136)을 포함하지 않을 수 있다.
검출 및 트래킹 모듈(132)은 자동 초기화 모듈(140), 계층적 검증 모듈(142), 멀티큐 트래킹 모듈(144) 및 얼굴/후보 트래킹 리스트(146)를 포함한다. 검출 및 트래킹 모듈(132)은 인간의 얼굴을 포함하거나 또는 잠재적으로 포함하는 비디오 내용의 영역을 자동 검출하고, 각종 큐를 사용하여 검출된 영역을 트래킹한다. 이러한 영역은 여기에서 대상이라 한다. 검출 및 트래킹 모듈(132)은 얼굴 또는 얼굴 후보를 포함하는 다수의 영역을 검출하고 동시에 트래킹할 수 있다.
검출 및 트래킹 모듈(132)은 프레임 등의 내용의 일부를 분석한다. 예를 들면, 통상, 비디오 내용은 (예컨대, 정적 비디오의 경우에) 초당 많은 프레임(다른 속도가 사용될 수 있지만, 통상 초당 15 내지 60 프레임 정도)으로 캡처된다. 대응하는 오디오 프레임(예, 오디오 데이터의 1/15 내지 1/60초마다)뿐만 아니라 비디오 프레임은 검출 및 트래킹 모듈(132)용 프레임으로서 사용된다. 오디오 기록시, 통상, 오디오는 비디오보다 고속으로 샘플링된다(예를 들어, 비디오는 초당 15 내지 60 비디오로 캡처될 수 있지만, 수천의 오디오 샘플이 캡처될 수 있음). 오디오 샘플은 여러 다른 방법으로 소정의 비디오 프레임에 대응할 수 있다. 예를 들면, 비디오 프레임이 캡처되는 때부터 후속의 비디오 프레임이 캡처되는 때까지의 오디오 샘플은 그 비디오 프레임에 대응하는 오디오 프레임일 수 있다. 다른 일례로서, 비디오 캡처 프레임의 시간 부근에 집중되는 오디오 샘플은 그 비디오 프레임에 대응하는 오디오 프레임일 수 있다(예를 들어, 비디오가 초당 30 프레임으로 캡처된다면, 오디오 프레임은 비디오 프레임이 캡처되기 전의 1/60 초부터 비디오 프레임이 캡처된 후의 1/60 초까지의 범위일 수 있음).
또한, 일부 상황에서는 비디오 내용이 없을 수도 있다. 이러한 상황에서는, 오디오 내용의 프레임은 샘플링된 오디오로부터 각종 방법으로 생성될 수 있다. 예를 들면, 1/30 초마다 또는 1/60 초마다의 오디오 샘플은 오디오 내용의 프레임을 구성할 수 있다.
일부 상황에서, 오디오 내용은 비디오 내용에 직접 대응하지 못하는 데이터를 포함할 수 있다. 예를 들면, 오디오 내용은 비디오 내용의 사람들의 음성이라기보다는 음악의 사운드트랙일 수 있다. 이러한 경우, 여기서 설명한 검출 및 트래킹은 오디오 내용 없이도 비디오 내용에 종속한다.
비디오 및 오디오 내용을 사용하는 것을 참조로 하여 주로 설명하였지만, 검출 및 트래킹 모듈(132)은 비디오 내용만을 또는 오디오 내용만을 기초로 하여 선택적으로 동작할 수 있다. 오디오 내용이 없는 경우, 오디오 내용을 처리하기 위한 후술하는 처리를 행하지 않는다. 유사하게는, 비디오 내용이 없는 경우, 비디오 내용을 처리하기 위한 후술하는 처리를 행하지 않는다.
얼굴/후보 트래킹 리스트(146)는 인간의 얼굴을 포함하거나 잠재적으로 포함하는 각각의 검출된 영역에 대한 정보를 유지한다. 얼굴을 잠재적으로 포함하지만 얼굴의 존재를 검증하지 않은 영역은 후보 영역이라 한다. 설명한 예에서, 각 영역은 중앙 좌표(148), 바운딩 박스(150), 트래킹 기간(152) 및 최종 검증 후의 시간(154)으로 설명한다. 얼굴 또는 얼굴 후보를 포함하는 비디오 내용의 영역은 중앙 좌표 및 바운딩 박스에 의해 정의된다. 중앙 좌표(148)는 영역의 대략적인 중앙을 나타내며, 바운딩 박스(150)는 중앙 좌표 주위의 직사각형 영역을 나타낸다. 이 직사각형 영역은 얼굴 또는 얼굴 후보를 포함하고 검출 및 트래킹 모듈(132)에 의해 트래킹되는 영역이다. 트래킹 기간(152)은 영역의 얼굴 또는 얼굴 후보가 트래킹된 기간을 나타내며, 최종 검증 후의 시간(152)은 영역의 얼굴 또는 얼굴 후보가 검증된(아래에서 설명하는 바와 같이, 검증 모듈(142)에 의해 검증됨) 후의 지난 시간을 나타낸다.
트래킹 리스트(146)에 나타낸 각 영역을 설명하는 정보는 예시적인 것이고, 다양한 다른 정보가 사용될 수 있다. 예를 들면, 중앙 좌표(148)가 포함되지 않을 수도 있다. 다른 예로서, 원형, 타원형, 삼각형, 오각형, 육각형 또는 기타 형태와 같이, 직사각형 이외의 형상의 영역이 사용될 수도 있다.
트래킹 리스트(146)는 얼굴 및 얼굴 후보를 모두 기록하지만, 다양한 방법으로 서로 구별할 수 있다. 예를 들어, 2개의 부분 리스트(얼굴을 식별하는 부분 리스트, 및 얼굴 후보를 식별하는 부분 리스트)가 유지될 수 있거나, 또는 추가의 필드가 추가되어 각 필드를 얼굴 또는 얼굴 후보로 이름 붙일 수 있거나, 또는 최종검증 후의 시간(154)에 내재될 수 있다(예를 들면, 이 값이 비어 있다면, 이 영역은 후보를 포함하는 것으로서 아직 검증되지 않았다는 것을 의미하며, 따라서 얼굴 후보라는 것을 의미한다). 다른 방법으로는, 다수의 리스트(예를 들어, 얼굴에 대한 리스트, 및 얼굴 후보에 대한 리스트)가 하나의 리스트(146) 대신에 포함될 수 있다.
동작시, 검출 및 트래킹 모듈(132)은 프레임 바이 프레임에 기초하여 프레임의 내용을 분석한다. 각 프레임에 대해, 모듈(132)은 새로운 얼굴 영역에 대한 후보의 검출 동작하는 자동 초기화 모듈(140)을 활성화한다. 각 후보는 새로운 얼굴(즉, 현재 트래킹되지 않은 얼굴)을 잠재적으로 포함하는 비디오 내용의 영역이다. 일단 검출되면, 후보 영역이 계층적 검증 모듈(142)로 전달되어, 후보 영역이 얼굴을 진짜로 포함하는지의 여부를 검증한다. 계층적 검증 모듈(142)은 각 후보에 대한 확신 레벨을 생성하고, 확신 레벨이 임계치를 초과하면, 그 후보를 얼굴 영역으로서 유지할 것을 결정하고, 그 영역의 설명을 트래킹 리스트(146)에 추가한다. 확신 레벨이 임계치 이하이면, 계층적 검증 모듈(142)은 그 후보를 폐기한다.
멀티큐 트래킹 모듈(144)은 트래킹 리스트(146)에서 식별된 각 영역을 트래킹한다. 트래킹 모듈(144)은 각종 시각적 큐를 사용하여 내용에서 프레임에서 프레임으로 영역을 트래킹한다. 트래킹되는 영역의 각 후보는 사람의 일부의 비디오이다. 통상, 사람들은, 내용이 생성되는 동안, 서있거나, 앉아 있거나, 돌아다니거나, 의자에 앉아 있는 동안 움직이는 등과 같이 움직일 수 있다. 내용의 각 프레임에서 얼굴 검출을 행하는 대신에, 모듈(132)은 프레임에서 프레임으로 (일단검출한) 얼굴을 포함하는 영역을 트래킹하며, 통상, 얼굴 검출보다 계산상 저가이다.
트래킹에 더하여, 트래킹 리스트(146)로부터의 후보를 포함하는 각 영역이 계층적 검증 모듈(142)에 의해 반복적으로 재검증된다. 멀티큐 트래킹 모듈(144), 또는 다른 방법으로는, 계층적 검증 모듈(142)은, 영역이 계층적 검증 모듈(142)에 의해 재검증되는 때를 결정할 수 있다. 영역은 규칙적인 간격 또는 불규칙적인 간격으로 재검증될 수 있다. 영역을 재검증할 때, 계층적 검증 모듈(142)은 영역에 대한 새로운 확신 레벨을 생성하고, 이 확신 레벨과 임계치를 비교한다. 새로운 확신 레벨이 임계치를 초과하면, 영역에 대한 최종 검증 후의 시간(154)이 재설정되고, 이 영역이 트래킹 리스트(146)에 남는다. 그러나, 새로운 확신 레벨이 임계치 이하이면, 영역은 트래킹 리스트(146)에서 삭제된다.
멀티큐 트래킹 모듈(144)이 트래킹을 상실하는 경우가 발생할 수 있다. 계층적 검증 모듈(142)은, 얼굴을 포함하는 영역이 트래킹을 상실했을 때(예를 들어, 영역에 대한 확신 레벨이 낮을 때)를 식별함으로써, 이러한 문제점을 해결한다. 이렇게 함으로써, 자동 초기화 모듈(140)이 영역을 재검출하고 재검출된 영역의 트래킹이 진행되게 한다.
자동 초기화
자동 초기화 모듈(140)은 하나 이상의 기술을 사용하여 새로운 얼굴 영역에 대한 후보를 검출한다. 이러한 기술은, 동작 기반 초기화, 오디오 기반 음원 배치 및 급속 얼굴 검출을 포함한다. 동작 기반 초기화 모듈(156)은 프레임간 차이(비디오 내용의 2이상의 프레임들간의 차이)를 이용하여 동작을 검출하고, 동작이 검출되는 구역이 얼굴을 포함하는지의 여부를 판정한다. 오디오 기반 초기화 모듈(158)은 비디오 내용에 대응하는 오디오 내용을 분석하고, 소리가 수신되는 방향을 검출하고, 이 방향으로 비디오 내용의 영역을 탐색하여 소리가 수신되는 방향의 영역이 후보를 포함하는지의 여부를 판정한다. 동작 기반 초기화 모듈(156) 및 오디오 기반 초기화 모듈(158)은 비디오 내용의 각 프레임의 분석 동작을 행한다. 다른 방법으로는, 동작 기반 초기화 모듈(156) 및 오디오 기반 초기화 모듈(158) 중의 한 모듈이 어떠한 얼굴도 검출하지 못하면, 동작 기반 초기화 모듈(156) 및 오디오 기반 초기화 모듈(158) 중의 다른 모듈이 비디오 내용의 소정의 프레임에 동작한다.
급속 얼굴 검출 모듈(160)은, 비디오 내용의 프레임에 어떠한 동작이나 오디오가 없는 경우, 동작한다. 다른 방법으로는, 급속 얼굴 검출 모듈(160)은, 프레임에 동작 및/또는 오디오가 없는 경우 동작하지만, 동작 기반 초기화 모듈(156) 또는 오디오 기반 초기화 모듈(158)이 얼굴을 검출하지 못한 경우(또는, 다른 방법으로는, 동작 기반 초기화 모듈(156) 또는 오디오 기반 초기화 모듈(158)이 후보를 검출하는지의 여부에 관계없이) 동작한다. 급속 얼굴 검출 모듈(160)은 급속 얼굴 검출기를 사용하여 비디오 내용의 프레임을 분석하고 프레임의 얼굴을 검출한다. 상실 확신 영역 검출 모듈(162)은, 영역을 재검증하여 그 영역이 얼굴을 포함한다는 확신을 상실했음을 자동 초기화 모듈이 통지할 때, 동작한다. 영역이 얼굴을 포함한다는 확신을 상실하더라도, 얼굴이 이 영역 근처에 여전히 있을 수 있다.상실 확신 영역 검출 모듈(162)은 모듈들(156, 158 및 160)과 각각 통신하여 모듈들(156, 158 및 160)이 영역 주위의 비디오 내용의 구역을 분석하여 이 구역의 얼굴의 검출을 시도하게 한다. 이 영역 주위의 구역의 정확한 크기는 구현예에 따라 변화할 수 있다(예를 들면, 바람직한 일 구현예에서, 구역은 영역의 위아래로 영역의 1/2 높이만큼 연장될 수 있고, 영역의 좌우로 영역의 1/2 폭만큼 연장될 수 있다).
도 4는 새로운 얼굴 영역에 대해 후보를 검출하기 위한 예시적인 처리(200)를 나타내는 플로우차트이다. 도 4의 처리는 도 3의 자동 초기화 모듈(140)에 의해 행하지만, 소프트웨어로 행할 수 있다.
처음, 오디오/비디오 내용의 프레임을 수신한다(단계 202). 내용의 프레임은 각종 소스로부터 수신될 수 있다. 예를 들면, 내용의 프레임은 도 3의 시스템(130)의 하나 이상의 캡처 장치에 의해 캡처되거나, 또는 내용은 다른 곳에서 캡처되어 시스템(130)으로 통신될 수 있다(예를 들면, 착탈형 기억 장치, 네트워크 또는 전화 회선 접속을 통해). 일단 수신되면, 오디오/비디오 내용에서 프레임의 픽셀들과 이전의 프레임의 대응하는 픽셀들을 비교함으로써, 프레임의 동작을 검출하기 위한 시도를 행한다(단계 204). 동작이 검출되면, 동작 기반 초기화가 행해져 프레임의 새로운 얼굴 영역에 대한 후보를 식별한다(단계 206). 단계 206에서 동작 기반 초기화를 이용하여 새로운 얼굴 영역에 대한 후보를 식별한 후, 프레임의 오디오를 검출하기 위한 시도를 행한다(단계 208). 오디오가 검출되면, 오디오 기반 초기화가 행해져 프레임의 새로운 얼굴 영역에 대한 후보를 식별한다(단계 210). 동작 기반 초기화 및/또는 오디오 기반 초기화에 기초하여 새로운 얼굴 영역에 대해 식별된 후보를 얼굴 검증을 위해 계층적 검증 모듈(142)로 전달한다(단계 212).
단계 204로 되돌아가, 프레임에서 어떠한 동작도 검출되지 않으면, 프레임에서 오디오를 검출하기 위한 시도를 행한다(단계 214). 오디오가 검출되면, 오디오 기반 초기화가 행해져 프레임에서 새로운 얼굴 영역에 대한 후보를 식별하고(단계 210), 단계 212로 진행한다. 그러나, 오디오가 검출되지 않으면, 급속 얼굴 검출기가 사용되어 새로운 얼굴 영역에 대한 후보를 식별한다(단계 216). 급속 얼굴 검출에 기초하여 새로운 얼굴 영역에 대해 식별된 후보를 얼굴 검증을 위해 계층적 검증 모듈(142)로 전달한다.
동작 또는 오디오를 검출하기 위한 시도가 행해지거나, 또는 급속 얼굴 검출기가 사용되는 프레임의 구역은, 상황에 따라 변화할 수 있다. 트래킹 리스트(146)가 얼굴 또는 얼굴 후보를 포함하지 않는 경우, 프레임의 구역은 전체 프레임이다. 트래킹 리스트(146)가 하나 이상의 얼굴 또는 얼굴 후보를 포함하는 경우, 프레임의 구역은 현재 트래킹되지 않은(즉, 트래킹 리스트(146)에 리스팅되지 않은) 모든 구역을 포함한다. 상실 확신 영역 검출 모듈(162)이 소정의 영역이 분석되기를 요구하는 경우, 프레임의 구역은 상실 확신 영역 검출 모듈(162)에 의해 식별되는 구역이다.
도 3을 다시 참조하면, 동작 기반 초기화 모듈(156)은, 프레임의 픽셀들과 이전 프레임 및/또는 후속 프레임의 대응하는 픽셀들을 비교하여 비디오 내용의 프레임을 분석하고, 각 픽셀의 프레임들 중에서 동작이 있는지의 여부를 검출한다. 움직이는 개인은 비디오 내용의 전면(foreground)이라고 간주하고, 모듈(156)은 움직이는 전면의 형상의 식별을 시도한다. 이 형상이 인간의 상체 실루엣(넓은 어깨 위의 작은 머리)과 유사하면, 형상은 얼굴 후보라고 결정된다.
도 5는 동작 기반 초기화를 사용하여 새로운 얼굴 영역에 대한 후보를 검출하기 위한 예시적인 처리(240)를 나타내는 플로우차트이다. 도 5의 처리는 도 3의 동작 기반 초기화 모듈(156)에 의해 행하지만, 소프트웨어로 행할 수 있다.
처음, 각 픽셀에 동작이 있는지의 여부에 대해 판정을 행한다(단계 242). 이 판정은, 프레임의 각 픽셀에 대해 픽셀과 이전 프레임의 대응하는 픽셀을 비교하여 행해진다. 이 비교는, 예를 들어, 픽셀 강도(예, 회색도) 또는 색도에 의해 행해진다. 또한, 비교하기 전에, 각종 종래의 필터를 픽셀에 행할 수 있다. 종래의 픽셀의 2차원(x,y) 좌표 시스템을 사용하여 비디오 내용을 관찰할 수 있다. 소정의 좌표 위치에 있는 한 프레임의 픽셀은 동일한 좌표 위치에 있는 다른 프레임의 픽셀에 대응한다. 분석되는 프레임의 구역의 각 픽셀은 다음과 같은 프레임 차이를 가진다.
여기서, Dt(x,y)는 프레임 t에서 이미지의 위치(x,y)에 있는 픽셀과 프레임 t-1에서 이미지의 위치(x,y)에 있는 픽셀간의 프레임 차이이며, It(x,y)는 프레임 t에서 비디오의 위치(x,y)에 있는 픽셀이며, It-1(x,y)는 프레임 t-1에서 비디오의 위치(x,y)에 있는 픽셀이며, dth는 픽셀이 동작 픽셀인지의 여부를 판정하기 위한 임계치이다. dth의 정확한 값은, 프레임이 컬러인지 또는 흑백인지의 여부, 어떤(만약 있다면) 필터링이 행해졌는지 등에 기초하여, 구현예에 따라 달라질 수 있다. 일례에 따르면, 픽셀이 256 레벨의 계조라면, 20의 값이 dth에 사용될 수 있다.
다른 방법으로는, 프레임 차이는 단지 2개의 프레임보다는 3개 이상의 프레임에 기초하여 생성될 수 있다. 일 구현예에서, 동작 픽셀을 검출하기 위해 3개의 프레임(예, It-1, It, It+1)이 사용된다. It(x,y)-It-1(x,y) 및 It+1(x,y)-It(x,y) 모두에서 큰 프레임 차이(예를 들어, dth보다 큼)를 가지는 픽셀만이 동작 픽셀이다.
프레임 차이가 주어지면, 분석되는 프레임 구역에서 이미지의 각 수평선의 각각의 가능한 세그먼트의 프레임 차이들의 합을 생성한다(단계 244). 분석되는 프레임 구역의 이미지는 다수의 수평선을 포함한다. 픽셀의 각각의 수평 열은 이러한 선일 수 있거나, 또는 다른 방법으로는, 픽셀의 n번째(예, 2번째, 3번째, 4번째, 5번째 등) 수평 열마다 이러한 선일 수 있다. 각각의 선의 다수의 세크먼트는 선 상에 서로 다른 시점 및 종점을 가지면서 존재한다. 가능한 세그먼트의 프레임 차이들의 합은 분석되는 영역의 가장 적당한 전면 세그먼트를 식별하기 위해 사용된다. 이는 도 6에서 상세히 설명한다.
도 6은 비디오 내용의 프레임에 대한 예시적인 이미지를 나타낸다. 이미지(270)는 얼굴 또는 얼굴 후보를 포함하는 것으로 이미 트래킹된 2개의영역(272 및 274), 및 새로운 얼굴 영역에 대한 후보를 위해 분석되는 나머지 구역(276)을 포함하는 것으로 나타낸다. 이미지가 개인(278)을 포함한다고 상정하면, 2개의 수평선(280 및 282)은 시점(i) 및 종점(j)에서 개인(278)을 교차한다. 소정의 선(li) 상의 점들(i 및 j) 사이의 모든 픽셀은 전면 상에 있어야 하며, 2개의 연속적인 수평선들 사이의 경계는 평탄 제약을 가져야 하며, 즉, 유사한 중앙 및 유사한 폭을 가져야 한다. 프레임 차이들의 합을 사용하여 시점(i) 및 종점(j)으로 수평선(li)의 일부를 식별한다.
각각의 수평선에 대해, 수평선 상의 각각의 가능한 세그먼트의 프레임 차이의 합 S는 다음과 같다.
여기서, i는 세그먼트의 시점이며, j는 세그먼트의 종점이며, D(x,y)는 세그먼트를 따라 위치(x,y)에서의 프레임 차이이며, N은 수평선의 길이이며, M은 수평선의 수이다.
모든 가능한 i 및 j의 합을 계산하는 속도를 증가시키기 위해, 다음과 같은 처리가 사용된다. 우선, 0과 N사이의 모든 값(0 및 N을 포함함)에 대해, 다음과 같다.
그 후, k=1부터 k=N까지 계산한다.
도 5로 되돌아가, 수평선 상의 각각의 가능한 세그먼트에 대한 프레임 차이의 합을 생성하면, 각각의 수평선에 대해, 가장 큰 합을 가지는 세그먼트를 그 수평선의 가장 적당한 전면의 세그먼트로 선택한다(단계 246). 가장 큰 합을 가지는 세그먼트가 새로운 얼굴 영역에 대한 실제로 후보의 일부인지의 여부는, 아래에서 설명하는 바와 같이, 평탄 제약에 따라 좌우된다. 그 후, 가장 적당한 전면의 세그먼트의 가장 평탄한 영역을 결정한다(단계 248). 가장 평탄한 영역은 모든 수평선을 가로지르는 평탄 제약을 고려하여 생성된다. 이는, 다음과 같이 달성된다. 처리는 y=0(최상위 수평선)에서으로 시작하고, 다음과 같은 순환 함수에 의해 y=M(최하위 수평선)까지 진행한다.
여기서, i(y)및 j(y)는 y번째 수평선 상의 경계이며, N은 이미지의 폭이다. C(.,.) 파라미터는 평탄 에너지 항이다. C(.,.) 파라미터는 연속선들 사이의 비평탄한 경계에 큰 페널티를 가하며, 다음과 같이 정의된다.
여기서, cc는 세그먼트 중심의 비평탄에 대한 페널티 계수이며, cw는 세그먼트 폭의 비평탄에 대한 페널티 계수이다. 페널티 계수 cc및 cw에 대해 서로 다른 값을 사용할 수 있고, 일 구현예에서, 각각의 cc및 cw값은 0.5이다.
가장 평탄한 영역은 다음과 같이 결정하여 얻을 수 있다.
가장 평탄한 영역이 주어지면, 모든 수평선 상의 경계를 찾기 위한 역트래킹을 행할 수 있다.
가장 평탄한 영역이 주어지면, 그 영역이 인간의 상체를 닮았는지의 여부에 대해 조사를 행한다(단계 250). 설명한 예에서, 인간의 상체는 넓은 어깨 위에 작은 머리를 포함한다. 따라서, 가장 평탄한 영역이 넓은 부분(어깨) 위에 위치한 타원형 부분(머리)을 가지는지의 여부에 대해 조사가 행해진다. 일 구현예에서, 인접하는 수평선 상에서 폭의 가장 큰 변화를 찾아내어 폭의 위치를 우선 검출함으로써, 이 조사가 행해진다. 그 후, 목 위의 영역(머리 영역)이 하부 영역(어깨 영역)보다 더 작은 평균 폭을 가지는지의 여부에 대해 조사가 행해진다. 또한, 머리 영역의 폭 대 높이 비가 약 1:1.2 인지의 여부에 대해 조사가 행해진다. 모든 조사가 맞다면, 검출된 영역은 인간의 상체 실루엣을 닮았다고 판정된다.
그 영역이 인간의 상체를 닮았다면, 머리를 포함하는 영역의 부분(어깨를 포함함)을 추출하고(단계 252), 새로운 얼굴 영역에 대한 후보로서 식별한다(단계 254). 이 추출된 영역은 인간 머리의 타원형 영역 또는 머리 주위의 구역(예, 머리 주위의 직사각형 구역)일 수 있다. 그러나, 그 영역이 인간의 상체를 닮지 않았다면, 새로운 얼굴 영역에 대한 어떠한 후보도 프레임으로부터 검출되지 않는다(단계 256).
일 구현예에서, 도 5의 처리는, 단계 254에서 새로운 얼굴 영역에 대한 후보가 식별되고 프레임에 추가 영역이 있다면(단계 254에서 식별된 후보 또는 다른 얼굴 또는 얼굴 후보를 고려하지 않음), 반복된다. 이렇게 함으로써, 프레임에서 새로운 얼굴 영역에 대한 추가 후보가 식별되게 한다.
도 3 및 도 4로 되돌아가, 오디오 기반 초기화 모듈(158)은, 음원 위치 탐지기를 사용하여 음의 발신 방향을 탐지함으로써, 오디오/비디오 내용의 프레임을 분석한다(도 4의 단계 210). 오디오 기반 초기화 모듈(158)은 이 음이 인간의 오디오일 수 있다고 상정하고, 얼굴 영역에 대한 후보를 포함할 수 있는 비디오 내용의 영역을 표시한다. 음의 발신 방향은 각종 방법으로 결정될 수 있다. 일 구현예에서, 하나 이상의 마이크로폰 배열이 음을 캡처하고, 하나 이상의 음원 위치 결정 알고리즘을 사용하여 음의 발신 방향을 결정한다. 공지의 도착 시간 지연(TDOA; time-delay-of-arrival) 기술(예, 일반화 상호 상관관계(GCC;generalized cross-correlation) 접근 방법) 등의 각종 종래의 음원 위치 결정 알고리즘을 사용할 수 있다.
비디오 내용이 없는 경우, 다수의 마이크로폰을 적당하게 배치하여 급속 검출을 달성할 수 있다. 3개 이상의 마이크로폰, 서로 다른 수평면 상에 위치한 2개 이상의 마이크로폰, 및 서로 다른 수직면 상에 위치한 2개 이상의 마이크로폰을 사용하여, 음원의 (x,y) 좌표를 결정할 수 있다. 예를 들면, 2개의 마이크로폰을 수직면에 위치할 수 있고, 2개의 마이크로폰을 수평면에 위치할 수 있다. 각종 종래의 음원 위치 결정 알고리즘을 사용하여 개인의 입으로 추정되는 음원의 (x,y) 위치를 결정할 수 있다. 이 음원 위치 자체를 검출된 얼굴 영역이라고 취급할 수 있고(화자의 입이 화자의 얼굴의 일부인 경우), 또는 다른 방법으로는, 위치는 확장될 수 있고(예를 들어, 2 또는 3% 만큼 증가됨), 확장된 위치는 검출된 얼굴 영역으로 사용될 수 있다.
음의 발신 방향에 대응하는 이미지의 구역이 주어지면, 오디오 기반 초기화 모듈(158)은 이 구역을 분석하여 피부색 모델을 이 구역의 이미지에 일치시키려고 시도한다. 이 시도가 성공적이라면, 피부색 모델이 일치되는 구역은 새로운 얼굴 영역에 대한 후보로서 식별된다. 일 구현예에서, 피부색 모델은 HSV(Hue-Saturation-Value;색도-채도-명도) 컬러 공간 모델이고, 다수의 피부색 숙련 데이터를 사용하여 모델을 숙련시킨다. 영역에 얼굴이 있음을 오디오가 이미 나타내기 때문에, 거친(coarse) 검출 처리(예, 피부색 모델)를 사용하여 얼굴의 위치를 결정한다.
어떠한 비디오 내용도 입수가능하지 않은 경우, 오디오 기반 초기화 모듈(158)은 피부색 모델을 사용하지 않고 음원 위치 결정에 의존한다(피부색 모델이 적용될 수 있는 비디오 내용이 없으므로).
급속 얼굴 검출 모듈(160)은 급속 얼굴 검출기를 사용하여 프레임의 이미지의 구역으로 얼굴을 검출한다. 급속 얼굴 검출 모듈(160)에 의해 사용되는 급속 얼굴 검출기는 아래에서 설명하는 계층적 검증 모듈(142)에 의해 사용되는 얼굴 검출기와는 다를 수 있다. 계산과 정확성의 타협상, 급속 얼굴 검출 모듈(160)에 의해 사용되는 얼굴 검출기는 계층적 검출 모듈(142)에 의해 사용되는 얼굴 검출기보다 속도는 빠르지만 정확도는 낮은데, 모듈들(160 및 142)은 동일한 얼굴 검출 알고리즘에 기초할 수 있지만, 계층적 검증 모듈(142)에 의한 검출 속도에 비해 급속 얼굴 검출 모듈(160)에 의한 검출 속도를 증가시키기 위해 상이한 파라미터 또는 임계치를 사용한다. 다른 방법으로는, 모듈들(160 및 142)은 2개의 서로 다른 얼굴 검출 알고리즘에 기초할 수 있다. 통상, 급속 얼굴 검출 모듈(160)에 의해 사용되는 검출기는 계층적 검증 모듈(142)에 의해 사용되는 검출기보다 속도가 빠르다.
사용되는 알고리즘의 주요 특성이 알고리즘의 속도인 각종 얼굴 검출 알고리즘을 급속 얼굴 검출 모듈(160)에 대한 기본으로서 사용할 수 있다. 급속 얼굴 검출 모듈(160)의 목적은, 필요한 경우 정확성을 희생하더라도, 신속하게 얼굴을 검출하는 것이다. 얼굴 검출은 전면 얼굴만일 수 있지만, 또는 다른 방법으로는, 멀티뷰(전면 얼굴 검출에 한정되지 않음)일 수 있다. 이러한 알고리즘의 일례는 P. Viola 및 M.J. Jones에 의한 "Robust real-time object detection", 기술 리포트 시리즈, 컴팩 캠브리지 리서치 연구소, CXRL 2001/01, 2001년 2월에 기재되어 있다. 이러한 알고리즘의 다른 예는, 다단의 검출기를 사용하여 매우 넓은 시각을 가지는 검출기로 시작하고 각각의 검출기가 좁은 시각을 가지는 다수의 검출기의 세트로 진행하는 것을 제외하고, P. Viola 및 M.J. Jones에서 설명한 알고리즘과 유사하다. 대상이 일단의 검출기로부터 다른 단의 검출기로 전달되어, 각각의 검출기는 그 대상이 얼굴 또는 비얼굴이라고 분류한다. 임의의 검출기에 의해 대상이 비얼굴이라고 분류되면, 처리로부터 제외되며, 모든 단의 검출기를 통과하고 모든 단의 검출기에 의해 얼굴이라고 분류되는 경우에만 얼굴로서 식별된다.
따라서, 하나 이상의 동작 기반 초기화, 오디오 기반 음원 위치 결정, 및 급속 검출 기술을 사용하여, 자동 초기화 모듈(140)은 새로운 얼굴 영역에 대한 후보를 검출한다. 그 후, 이 후보는, 후보가 실제로 얼굴을 포함하는지의 여부를 검증하기 위해, 계층적 검증 모듈(142)로 전달된다. 모든 프레임이 새로운 얼굴을 포함하지 않으므로, 자동 초기화 모듈(140)은, 상술한 기술들을 모두 사용하더라도, 프레임에서 새로운 얼굴 영역에 대한 어떠한 후보도 검출할 수 없다.
계층적 검증
도 3의 계층적 검증 모듈(142)은 자동 초기화 모듈(140)에 의해 식별된 후보 얼굴 영역을 검증한다. 또한, 검출 및 트래킹 모듈(132)은 멀티큐 트래킹 모듈(144)이 동작시 대상의 트래킹을 상실할 확률을 계산한다. 이러한 트래킹 상실은, 교합(occlusions)(예를 들면, 다른 참석자가 비디오 캡처 장치와 트래킹되는 개인 사이로 걷는 경우), 갑작스런 조명 변화 등의 각종 원인에 의해 발생할 수 있다. 계층적 검증 모듈(142)은 트래킹되는 각각의 대상을 규칙 또는 불규칙적인 간격으로 재검증하고, 대상을 얼굴로부터 얼굴 후보로 적당한 만큼 격하시킨다. 간격의 길이는 원하는 트래킹 정확도(짧은 간격은 정확성을 향상시키는 경향이 있음), 가용 컴퓨팅 전력량(검증의 형태에 따라, 트래킹은 재검증보다 컴퓨팅 전력을 덜 필요로 함), 및 검증 모듈의 계산 비용에 따라 변화할 수 있다.
일 구현예에서, 계층적 검증 모듈(142)은 대상을 얼굴로서 검증하고, 대상을 얼굴 또는 비얼굴이라고 식별한다. 다른 방법으로는, 검증 모듈(142)은 서로 다른특징(예, 오디오, 컬러 히스토그램 거리, 경계 주위의 에지 검출 결과, 급속 검출 결과 등)에 기초하여 확률 검증 결과를 출력할 수 있다. 출력된 확률 검증 결과는 아래에서 설명하는 파티클 필터링의 가중치 방식과 결합될 수 있다.
계산 고려 때문에, 계층적 검증 모듈(142)은 다단계 계층적 처리를 사용하여 대상이 얼굴을 포함하는지의 여부를 검증한다. 이 검증 처리는, 속도는 빠르지만 정확도는 낮은 검증으로 시작하고, 필요한 경우, 속도는 느리지만 정확도는 높은 검증으로 진행하여, 거친 처리에서 세밀한 처리로 진행한다. 설명한 예에서, 계층적 처리는 2개의 단계를 포함한다. 다른 방법으로는, 계층적 처리는 3개 이상의 단계를 포함할 수 있다.
도 3의 계층적 검증 모듈(142)은 급속 컬러 기반 검증 모듈(164) 및 멀티뷰 얼굴 검출 모듈(166)을 포함한다. 계층적 검증 모듈(142)은 대상이 연속적인 프레임 동안 컬러를 상당히 변화시키지 않는다고 상정한다. 컬러 기반 검증 모듈(164)은 현재 프레임의 대상의 컬러 히스토그램과 이전 프레임의 대상의 추정(estimated) 컬러 히스토그램간의 유사도에 기초하여 대상을 검증한다. 유사도가 높다면, 트래킹의 상실이 발생하지 않고 멀티뷰 얼굴 검출 모듈(166)을 거칠 필요가 없다. 그러나, 유사성이 낮으면, 트래킹의 손실이 발생하므로, 대상이 얼굴로부터 얼굴 후보로 격하되고 멀티뷰 얼굴 검출 모듈(166)로 전달된다. 멀티뷰 얼굴 검출 모듈(166)이 대상을 얼굴이라고 검증하면, 대상은 얼굴 후보로부터 얼굴로 격상된다. 그러나, 멀티뷰 얼굴 검출 모듈(166)이 대상을 얼굴이 아니라고 검증하면, 대상은 트래킹 리스트(146)에서 삭제된다.
일 구현예에서, 컬러 기반 검증 모듈(164)은 각각의 프레임에 대해 검증을 행하고, 멀티뷰 얼굴 검출 모듈(166)은 검증을 덜 빈번하게 행한다. 일례로서, 멀티뷰 얼굴 검출 모듈(166)은 수 초에 한 번씩 검증을 행할 수 있지만, 상술한 각종 요소에 기초하여 상이한 간격이 사용될 수 있다.
도 7은 계층적 검증을 행하기 위한 예시적인 처리(320)를 나타내는 플로우차트이다. 처리(320)는 도 3의 계층적 검증 모듈(142)에 의해 행하지만, 소프트웨어로 행할 수 있다.
우선, 관심이 있는 구역의 이미지를 획득한다(단계 322). 관심이 있는 구역은 자동 초기화 모듈(140)에 의해 식별된 후보 영역, 또는 재검증이 필요한 영역일 수 있다. 계층적 검증 모듈(142)에, 분석될 구역의 표시를 가지는 전체 프레임이 전달될 수 있거나, 또는 다른 방법으로는, 분석될 구역을 포함하는 프레임의 일부만이 전달될 수 있다. 일단 수신되면, 급속 컬러 기반 검증을 사용하여 구역에 얼굴이 있는지의 여부를 검증한다(단계 324).
단계 324의 급속 컬러 기반 검증은 도 8을 참조하여 상세히 설명한다. 도 8의 처리(324)는 도 3의 급속 컬러 기반 검증 모듈(164)에 의해 행하지만, 소프트웨어로 행할 수 있다. 우선, 현재 프레임 t에서 대상의 컬러 히스토그램 qt(x)를 생성한다(단계 362). 또한, 이전 프레임에서 대상의 추정 컬러 히스토그램 pt-1(x)를 생성한다(단계 364). 추정 컬러 히스토그램 pt-1(x)는 다음과 같이 생성된다.
여기서, α는 가중치를 나타내며, qt-1(x)는 이전 프레임 t-1의 대상의 컬러 히스토그램이며, pt-2(x)는 이전 프레임 t-1의 대상에 대해 생성된 추정 컬러 히스토그램이다. 넓은 범위의 α값은 서로 다른 구현예에 사용될 수 있지만, 정확한 값이 내역의 진실성과 현재 프레임의 진실성간의 타협점으로서 선택된다(예를 들면, 일 구현예에서, α값은 0.25 내지 0.75의 범위일 수 있다). 따라서, 대상에 대해 추정 컬러 히스토그램 pt-1(x)은 각각의 프레임의 대상의 컬러 히스토그램에 기초하여 갱신된다.
그 후, 2개의 히스토그램들간의 유사도를 결정한다(단계 366). 2개의 히스토그램 qt(x) 와 pt-1(x)간의 유사도 측정을 결정하기 위해, 다음과 같은 공지의 바타차야(Bhattachayya) 계수를 사용한다.
여기서, ρ는 정적 가설 시험에서 분류 에러 확률을 나타내며, 에러 확률이 클수록, 2개의 분포는 더욱 유사하다. ρ값은 0 내지 1의 범위이며, 1은 2개의 히스토그램이 동일하다는 것을 의미하고, 0은 2개의 히스토그램이 완전히 다르다는 것을 의미한다. 이러한 유사도 측정값은 여기에서는 확신 레벨이라 한다. 다른 방법으로는, K-L 발산, 히스토그램 교차 등의 공지의 유사도 측정을 사용할 수 있다.
2개의 히스토그램들간의 유사성이 임계치를 초과하는지의 여부에 대해 조사한다(단계 368). 유사도가 임계치보다 크다면, 얼굴은 검증되고(단계 370), 즉, 대상은 얼굴을 포함하는 것으로 검증된다. 그러나, 유사도가 임계치 이하이면, 얼굴은 검증되지 않고(단계 372), 즉, 대상은 얼굴을 포함하지 않는 것으로 검증된다. 서로 다른 임계치가 서로 다른 구현예에 사용될 수 있다. 일 구현예에서, 임계치는 0.90 내지 0.95의 범위일 수 있고, 특정한 구현예에서 0.94이다.
도 7로 되돌아가, 처리는 얼굴이 검증되는지의 여부에 따라 진행한다(단계 326). 얼굴이 검증되면, 얼굴 후보로부터 얼굴로 격상되고(이전에 얼굴이 아닌 경우)(단계 328), 계층적 검증 처리는 종료되고(단계 330), 이 때, 더이상 관심의 대상인 구역에 대한 검증이 행해지지 않는다. 그러나, 얼굴이 검증되지 않으면, 얼굴은 얼굴로부터 얼굴 후보로 격하된다(현재 얼굴인 경우)(단계 332). 그 후, 얼굴을 포함하는 대상을 도 3의 멀티뷰 얼굴 검출 모듈(166)로 전달하고, 멀티뷰 얼굴 검출을 사용하여 구역에 얼굴이 있는지의 여부를 검증한다(단계 334).
멀티뷰 얼굴 검출 모듈(166)은 하나 이상의 검출 처리를 사용하여, 서로 다른 자세의 인간의 얼굴을 다양한 각도로 검출하기 위한 시도를 한다(즉, 머리가 기울어졌거나, 비디오 캡처 장치로부터 회전하면서 멀어지는 경우 등이라 하더라도 얼굴을 검출함). 각종 얼굴 검출 기술이 멀티뷰 얼굴 검출 모듈(166)에 의해 사용될 수 있다.
이러한 멀티뷰 얼굴 검출 처리의 일례는, S.Z. Li, Q.D. Fu, L. Gu, B. Scholkopf, Y.M. Cheng, H.J. Zhang에 의한, "Kernel Machine Based learning for Multi-View Face Detection and Pose Estimation", 제8회 컴퓨터 비젼에 관한 IEEE국제 회의의 의사록, 뱅쿠버, 캐나다, 2001년 7월 9~12일에서 상세히 논의된 커넬(kernel) 기계 기반 처리이다. 이 검출 처리의 개요는 다음과 같다.
를 얼굴의 외관 또는 윈도우된 회색도 이미지라고 한다. 모든 시각이 0˚와 90˚사이가 되도록, 좌측으로 회전된 모든 얼굴(91˚와 180˚사이의 시각을 가짐)이 우측으로 회전된 얼굴에 반사된다고 상정한다. 자세를 L개의 이산값의 세트로 양자화한다(예를 들면, 각 0°내지 90°을 10개의 동일한 공간을 만들기 위해 L=10으로 선택하며, 0°은 우측 시각에 대응하고, 90°은 정면 시각에 대응함).
습득을 위해 숙련용 얼굴 이미지가 제공된다고 상정한다. 이미지 Ip가 시각에서뿐만 아니라, 조명에서도 변화하게 된다. 숙련용 세트는, 각각의 얼굴 이미지가 가능한 한 진실에 가까운 뷰 값으로 수동으로 라벨링되는 점에서, 뷰 라벨링되고(view-labeled), 가장 근접한 뷰 값에 따라 L개의 그룹 중의 하나에 할당된다. 이는, 얼굴의 뷰 부분공간을 습득하기 위해 L개의 뷰 라벨링된 얼굴 이미지 서브세트를 제공한다. 또한, 비얼굴 이미지의 다른 숙련용 세트가 얼굴 검출 숙련을 위해 사용된다.
다음과 같은 l에 의해 인덱싱된 L+1개의 등급이 있으며, l∈{0,1,...,L-1}은 L개의 얼굴의 뷰에 대응하고, l=L은 비얼굴 등급에 대응한다. 2개의 작업, 즉, 얼굴 검출 및 자세 산출이, 입력 IP를 L+1개의 등급중의 하나로 분류함으로써, 함께 행해진다. 입력이 L개의 얼굴 등급 중의 하나로 분류되면, 얼굴은 검출되고, 대응하는 뷰는 산출된 자세이며, 그렇지 않으면, 입력 패턴은 비얼굴 패턴으로 여겨진다.
커넬 기계를 사용하여 얼굴 검출 및 자세 산출을 위한 습득은, 2개의 단계, 즉, 커넬 주요 콤포넌트 분석(KPCA;kernel principal component analysis) 뷰 부분공간 습득을 위한 단계, 및 커넬 지원 벡터 분류자(KSVC;kernel support vector classifier) 분류자 숙련을 위한 단계로 행해진다. 단계 1은 L개의 얼굴 뷰 서브세트로부터 L개의 KPCA 뷰 부분공간을 습득하는 것을 목적으로 한다. 커넬 주요 콤포넌트(KPCs;kernel principal components) 중의 한 세트는 각각의 뷰 서브세트로부터 습득된다. 가장 중요한 콤포넌트(예, 상위 50)는 뷰 부분공간을 구축하기 위한 기본 벡터로서 사용된다. 이 단계에서의 습득은 각각이 지원 벡터 및 대응하는 계수의 세트에 의해 정의되는 L개의 뷰 서브 공간을 제공한다. 각각의 뷰 채널의 KPCA는 입력 이미지 공간으로부터 출력 KPCA 특징 공간(feature space)(가장 중요한 콤포넌트의 콤포넌트 수와 동일한 차원을 가짐)으로의 비선형 매핑을 효과적으로 행한다.
단계 2는 L개의 KSVC를 숙련하여 얼굴 검출을 위해 얼굴 및 비얼굴 패턴을 차별화하는 것을 목적으로 한다. 이는, L개의 뷰 얼굴 서브세트, 및 비얼굴 서브세트로 이루어지는 숙련용 세트를 사용한다. 각각의 뷰에 대해 KSVC를 숙련하여, 대응하는 KPCA 부분공간의 특징에 기초하여 L+1 등급 분류를 행한다. 대응하는 뷰의 KPCA 부분공간으로의 프로젝션은 특징 벡터(feature vector)로서 사용된다. KSVC의 다수 등급 문제점을 해결하기 위해 공지의 일 대 나머지(one-against-the-rest) 방법이 사용된다. 단계 2는 L개의 KSVC를 제공한다.
시험 단계에서, 시험 샘플을 KPCA 특징 추출기(feature extractor)로 제공하여 각각의 뷰 l이 그 뷰에 대한 특징 벡터를 얻도록 한다. 그 뷰의 대응하는 KSVC는 입력에 대한 L+1개의 등급의 응답으로서 출력 벡터를 계산한다. 이는, 모든 L개의 뷰 채널에 대해 L개의 출력 벡터 {yl|l=0,...,L-1}를 생성하도록 행해진다. 값는, 입력 IP가 l번째 뷰 KPCA 부분공간의 특징 면에서 등급 c에 속한다는 판단의 증거이다. 최종 분류 결정은, 모든 L개의 뷰 채널로부터 증거를 종합하여 행한다. 이러한 종합의 한 방법은, 증거를 합하는 것, 즉, 각각의 등급 c=0,...,L에 대해 다음과 같이 계산하는 것이다.
이 계산식은 IP를 등급 c로 분류함에 있어 전체 증거를 제공한다. 최종 결정은 증거를 최대화함으로써, 행해지며, c*=arg maxcyc(IP)라면, IP는 c*에 속한다.
도 7을 계속하여, 멀티뷰 얼굴 검출에 의해 얼굴이 검출되는지(단계 336) 여부에 따라 처리가 진행한다. 얼굴이 검출되면, 얼굴은 얼굴 후보로부터 얼굴로 격상되고(단계 328), 계층적 검증 처리는 종료된다(단계 330). 그러나, 얼굴이 검증되지 않으면, 후보는 도 3의 트래킹 리스트(146)에서 제외되고(단계 338), 계층적 검증 처리는 종료된다(단계 330).
계층적 검증에 대해 분석할 비디오 내용이 없는 경우, 오디오 큐만이 적당할 때 검증을 위해 사용된다. 예를 들면, 얼굴이 트래킹되는 사람이 계속 이야기하고있을 때, 또는 공지의 오디오 화자 기반 식별이 행해질 때, 오디오 큐만이 사용될 수 있다(음원이 개인 화자의 오디오에 결합되게 하고, 소정의 음원 위치로부터의 오디오가 그 음원 위치로부터 이전에 수신된 동일 화자 식별과 일치하는지의 여부를 판정함으로써, 검증을 행함).
멀티큐 트래킹
비디오 내용의 프레임에서 얼굴이 검출되면, 비디오 내용의 후속 프레임에서 도 3의 멀티큐 트래킹 모듈(144)에 의해 얼굴이 트래킹된다. 얼굴이 트래킹되는 참석자가 배회함으로써, 얼굴의 위치가 비디오 내용의 서로 다른 프레임에서 서로 다를 수 있다. 또한, 예를 들면, 참석자가 그의 머리를 회전하고(예를 들어, 그의 얼굴이 비디오 캡처 장치를 직접 바라보지 않도록), 각종 교합이 발생하고(예를 들어, 참석자가 그의 머리를 손으로 가릴 수 있음), 조명이 변화될 수도 있다. 멀티큐 트래킹 모듈(144)은 프레임에서 프레임으로 발생할 수 있는 각종 변화를 설명하려고 한다. 또한, 이러한 변화 때문에, 일부 큐는 트래킹하기에 신뢰할 수 없다. 또한, 멀티큐 트래킹 모듈(144)은 프레임에서 프레임으로 발생할 수 있는 큐 신뢰성의 변화를 설명하려고 한다.
얼굴을 트래킹함에 있어, 멀티큐 트래킹 모듈(144)에 의해 각종 큐가 사용된다. 일 구현예에서, 트래킹 큐는 얼굴의 형상(타원형으로 모델링됨), 동작, 에지, 전면 컬러 및 배경 컬러를 포함한다. 다른 방법으로는, 하나 이상의 큐가 사용되지 않을 수 있거나, 또는 오디오 큐 등의 추가의 큐가 사용될 수 있다.
멀티큐 트래킹 모듈(144)은 오디오 큐를 사용하여, 오디오 내용이 입수가능할 때 트래킹을 보조한다(또는 트래킹에 대한 유일한 기본으로서). 오디오 기반 트래킹은 음원 위치 결정 처리에 기초하여 행해지고, 상술한 도 3의 오디오 기반 초기화 모듈(158)에 의해 행해지는 오디오 기반 검출과 동일한 방법으로 행해진다.
도 9는 멀티큐 트래킹을 행하기 위한 예시적인 처리(400)를 나타내는 플로우차트이다. 처리(400)는 도 3의 멀티큐 트래킹 모듈(144)에 의해 행하지만, 소프트웨어로 행할 수 있다.
우선, 이전 프레임 t-1로부터의 트래킹 결과 및 대상의 다이내믹스(아래에서 자세히 설명하는 공지의 랑제방(Langevin) 처리에 의해 모델링함)에 기초하여 현재 프레임 t-1에서 대상이 있을 위치에 대한 예측을 행한다(단계 402). 대상의 예측된 윤곽의 법선의 세트를 따라 관측을 수집하고(단계 404), 법선 상의 모든 픽셀에 대해 관측 가능성(likelihood) 함수를 산출한다(단계 406). 프레임 t-1에서 프레임 t로의 상태 변화 확률(state transition probability)을 산출하고(단계 408), 주어진 관측에 대해 최적의 윤곽을 결정한다(단계 410). 검출된 회형에 기초하여 프레임 t의 이미지에 최적의 타원을 일치시키고(단계 412), 이 모델을 후속 프레임 t+1에 사용하기에 적응시킨다(단계 414).
멀티큐 트래킹 모듈(144)은 도 9의 단계들을 행하기 위한 각종 모듈을 포함한다. 설명한 예에서, 멀티큐 트래킹 모듈(144)은 관측 가능성 모듈(168), 평탄 제약 모듈(170), 윤곽 선택 모듈(172) 및 모델 적응 모듈(174)을 포함한다.
멀티큐 트래킹 모듈(144)은 타원형(약 1:1.2)인 인간의 머리 트래킹에 초점을 둔다. 트래킹되는 얼굴에 대한 인간의 머리는 각종 트래킹 큐를 가지는 타원형모델로 나타낸다. 비디오 내용의 프레임의 이미지를 분석할 때, 그 모델을 이미지의 각종 위치와 비교하고, 그 모델에 가장 일치하는 위치를 결정한다. 그 모델에 가장 일치하는 위치는 새로운 프레임의 얼굴로서 선택된다.
도 10은 이러한 모델링 및 비교를 상세히 설명한다. 도 10에서, 실곡선(422)은 바로 이전 프레임 t-1로부터의 트래킹 결과에 기초하여 소정의 프레임 t에서의 인간의 머리의 예측된 윤곽을 나타낸다. 점곡선(424)은 프레임 t에서의 인간의 머리의 윤곽을 나타낸다. 예측된 윤곽(422)의 다수(M개)의 법선(426)을 따라 측정의 세트가 수집된다. 점(428)(c(φ))은 φ번째 법선 상의 진정한 윤곽점이다. 점(430)(ρφ(N))은 φ번째 법선 상의 예측된 윤곽점이다. 멀티큐 트래킹 모듈(144)은, 예측된 윤곽(422) 상의 가능한 한 많은 윤곽점이 진정한 윤곽선(424) 상의 윤곽점과 동일하게 함으로써, 진정한 윤곽(424)을 위치시키려고 한다.
도 3의 관측 가능성 모듈(168)은, 다음과 같이, 선 φ상의 픽셀 λ에서의 이미지 강도를 나타내는 값 ρφ(λ)을 생성한다.
여기서, φ는 1 내지 M(법선(426)의 총수)의 범위이며, λ는 법선(각각의 법선은 2N+1개의 픽셀을 가짐)을 따라 -N 내지 N의 범위이며, xλφ,yλφ는 φ번째 법선 상의 픽셀 λ의 대응하는 이미지 좌표이며, I(xλφ,yλφ)는 점 (xλφ,yλφ)에서의 이미지 강도이다.
윤곽점을 검출하기 위해, 숨은 마르코프 모델(HMM;Hidden Markov Model)을사용하여 서로 다른 큐(예, 에지 강도, 전면 및 배경의 컬러 모델) 및 사전 제약(예, 윤곽 평탄 제약)이 통합될 수 있다. HMM은 당업자에게 공지되어 있으며, 여기에서 설명하는 다수의 개인의 자동 검출에 관한 것을 제외하고는 더이상 설명하지 않는다. HMM의 숨은 상태는 각각의 법선 상의 진정한 윤곽점이다(s={s1,...,sφ,...,sM}으로 나타냄). HMM의 관측,O={O1...,Oφ,...,OM}은, 각각의 법선 φ를 따라 수집된다. HMM은 상태의 수(이 경우, 2N+1), 관측 모델 P(Oφ|sφ) 및 변화 확률(transition probability) p(sφ|sφ-1)에 의해 특정된다.
관측 가능성 모듈(168)은 다음과 같은 멀티큐 관측 가능성 함수를 생성하기 위해 진행한다. 선 φ상의 관측(Oφ로 나타냄)은 다수의 큐, 예를 들어, 선을 따라 에지 강도(즉, zφ) 및 픽셀 강도(즉, ρφ(λ), λ∈[-N,N])를 포함한다. 공지의 소벨(Sobel) 에지 검출기 또는 캐니(Canny) 에지 검출기 등의 각종 종래의 에지 검출 처리를 사용하여 에지 검출 결과 zφ의 관측 가능성 모델을 유도할 수 있다. 잡음 및 이미지 클러터(clutter) 때문에, 각각의 법선 φ를 따라 다수의 에지가 있을 수 있다. 값 J는 검출된 에지(zφ=(z1,z2,...,zJ))의 수를 나타낸다. J개의 검출된 에지 중에서, 1개 이하만이 도 10의 윤곽선(424) 상에 있다. 따라서, J+1개의 가설을 정의할 수 있다.
여기서, ej=T는 j번째 에지가 진정한 윤곽선에 관련되어 있음을 나타내고, ej=F는 j번째 에지가 진정한 윤곽선에 관련되어 있지 않음을 나타낸다. 따라서, 가설 HO는 어떠한 에지도 진정한 윤곽선에 관련되어 있지 않음을 나타낸다.
이미지 클러터가 부분 밀도 γ를 가지는 선을 따라 공지의 포이즌(Poisson) 처리이고 진정한 목표 측정이 표준 편차 σz로 통상적으로 분배된다고 상정하면, 다음과 같은 에지 가능성 모델이 얻어진다.
여기서, q는 가설 HO의 사전 확률이다.
에지 가능성 모델에 더하여, 예를 들어, 혼합 컬러 모델인 전면 및 배경의 영역 속성에 대한 다른 큐가 HMM 프레임워크로 통합된다. p(v|FG) 및 p(v|BG)가 전면(FG) 및 배경(BG)에 대한 컬러 분포를 각각 나타낸다고 한다. 사후 확률 P(BG|v) 및 P(FG|v)를 다음과 같이 유도할 수 있다.
sφφ가 선 φ상의 윤곽점이라면, 세그먼트 [-N, sφ]는 전면 상에 있고, 세그먼트 [sφ+1, N]은 배경 상에 있다. 에지 가능성 모델 및 컬러 사후 확률의 결합하면, 다음과 같은 HMM에 대한 멀티큐 관측 가능성 함수를 얻는다.
또한, 오디오 큐(예, 음원 위치, 및 소정의 위치로부터의 음의 가능성에 기초하여) 등의 다른 큐가 유사한 방법으로 통합될 수 있다. 분석할 비디오 내용이 없는 경우, 오디오 큐만이 사용된다. 다른 방법으로는, 이러한 오디오 큐에 더하여 또는 대신하여, 아래에서 설명하는 UP(unscented particle)필터링을 가지는 제안 함수로서 오디오가 사용될 수 있다.
HMM의 다른 콤포넌트는 시간 t-1에서의 상태가 시간 t에서의 다른 상태로 변화하는 방법을 결정하는 변화 확률이다. 도 3의 평탄 제약 모듈(170)은 변화 확률을 유도한다.
평탄한 윤곽을 얻기 위해, 평탄 제약 조건을 인코딩하고 조도(roughness)에 페널티를 가하기 위해 변화 확률을 사용한다. 도 10을 참조하면, 법선(426)이 조밀할 때(예, 30개의 법선 정도), 인접한 법선(426) 상의 진정한 윤곽선(424)의 점은 예측된 윤곽선(422)으로부터 동일한 배치를 가질 수 있다(각각의 법선 상에 0으로 표시됨). 이러한 상관관계는 평탄한 윤곽을 얻는 것을 보조하기 위해 사용된다.
HMM에서, 현재 상태 sφ가 주어지면, 현재 관측 Oφ는 이전 상태 sφ-1및 이전 관측 Oφ-1에 독립적이다. 또한, 마르코프 확률 때문에,를얻는다.
윤곽 평탄 제약은 다음과 같은 상태 변화 p(sφ|sφ-1)에 의해 캡처될 수 있다.
여기서, c는 통상 제약이고, σs는 윤곽의 평탄을 조정하는 소정의 상수이다. 이 변화 확률은 인접한 선들간의 윤곽점의 갑작스런 변화에 페널티를 가함으로써, 평탄한 윤곽을 얻는다. 최적의 윤곽은 윤곽 선택 모듈(172)에 의해 얻을 수 있다.
위의 수학식 3에 따라 평탄 제약 모듈(170)에 의해 생성된 변화 확률은 법선 상의 다른 픽셀에 관계없이 윤곽점을 고려한다. 다른 방법으로는, 평탄 제약 모듈(170)은 JPDAF(joint probability data association filer;합동 확률 데이터 조합 필터) 기반 방법을 사용하여, 법선 상의 다수의(예, 모든) 픽셀 상에서 관측된 윤곽 평탄 제약 및 영역 평탄 제약을 인코딩한다. 설명한 예에서, 다이내믹 프로그래밍에 기초한 JPDAF 처리가 실시간 성능을 향상시키기 위해 사용된다.
통상의 상태 하에서, 인간의 몸체의 일부(예, 얼굴 또는 머리)의 픽셀 강도는 영역 내에서 평탄하게 변화한다. 따라서, 인간 트래킹에서, 2개의 인접한 선상의 측정이 유사하도록 전면 및 배경이 평탄한 영역 속성을 가진다는 가정은 합당하다. sφ및 sφ+1각각이 선 φ및 선 φ+1 상의 윤곽점이라 한다. 이 2개의 윤곽점은2개의 선을 전면 세그먼트 및 배경 세그먼트로 분할한다. 영역 평탄 가정에 따르면, sφ및 sφ+1가 서로 근접하여야 하고, 2개의 선 상의 모든 다른 픽셀이 매칭되어야 한다. 영역 평탄 제약을 얻기 위해, 선 매칭을 행하기 위해 JPDAF가 사용된다. 즉, 한 점 대 한 점 매칭 문제가 아니라, 2N+1개의 점 대 2N+1개의 점 매칭 문제이다. 선을 따라 모든 픽셀을 함께 고려함으로써, 더 견고한 매칭 결과를 얻을 수 있다. 따라서, 통상, JPDAF 처리에 기초한 변화 확률은 더 정확하다. DF(i,j) 및 DB(i,j)가 각각 전면(선 φ상의 [-N,i] 및 선 φ+1 상의 [-N,j]) 및 배경(선 φ상의 [i+1,N] 및 선 φ+1 상의 [j+1,N])의 매칭 거리라 한다. 변화 확률은 수학식 3을 참조하여 상술한 것을 대체하여 다음과 같이 정의될 수 있다.
영역 평탄 개념은 도 11에 나타낸 합성 이미지로 나타낼 수 있다. 2개의 영역, 즉, 배경 클러터를 나타내는 직사각형 영역(460), 및 대상을 나타내는 대략 원형 영역(462)을 나타낸다. 또한, 2개의 인접한 법선(464 및 466)을 나타낸다. 점(a 및 b)은 선(464) 상의 검출된 에지 점이며, 점(c 및 d)은 선(466) 상의 검출된 에지 점이다. 목적은 2개의 선(464 및 466) 상에 윤곽점이 있는 위치를 찾는 것이다. 2개의 선(464 및 466)을 따라 강도의 측정은 도 12에 나타낸다. 측정(482)은 선(464)을 따라 강도를 나타내며, 측정(484)은 선(466)을 따라 강도를 나타낸다. 측정(482 및 484)은 일부 변형을 제외하고는 서로 유사하다. 윤곽 평탄 제약만을 기초하면, a로부터 c로의 윤곽 및 b로부터 c로의 윤곽은, |a-c||b-c|이기 때문에, 거의 동일한 평탄 에너지량을 가진다. 그러나, 영역 평탄 가정을 고려하면, 가능한 윤곽이 ad 또는 bc일 수 있지만, ac 또는 bd일 수는 없다. 또한, 윤곽 후보 ad 및 bc는 모든 관측선에 기초한 HMM에 의하여 분별될 수 있다.
새로운 변화 확률을 얻기 위해, 상태 ((2N+1)2)의 모든 가능한 쌍들간의 매칭을 계산한다. 도 13은 매칭 거리의 계산을 도식적으로 나타낸다. 선(464 및 466)이 주어지면, 매칭 거리의 계산은 다음과 같은 순환식으로 표현될 수 있고, 도 13에서 알 수 있다.
여기서, d(.,.)는 매칭하는 2개의 픽셀의 코스트(cost)이다. DF(i,j)는 선(464) 상의 세그먼트 [-N,i]와 선(466) 상의 세그먼트 [-N,j]간의 최적의 매칭 거리이다. DF(0,j)=DF(i,0)=0으로부터 시작하여, 여기서, i,j∈[-N,N], 상술한 순환식을 사용하여 i=-N으로부터 N까지 및 j=-N으로부터 N까지의 매칭 거리 DF(i,j)를 얻는다. DB(i,j)를 계산하기 위해 유사한 처리를 할 수 있지만, DB(N,N)=0으로부터 시작하여 DB(-N,-N)까지 계산한다. 모든 매칭 거리를 얻은 후, 상태 변화 확률을계산할 수 있고, 아래에서 설명하는 도 3의 윤곽 선택 모듈(172)에 의해 윤곽 트래킹을 달성할 수 있다.
관측 시퀀스및 변화 확률이 주어지면, 윤곽 선택 모듈(172)은 다음과 같은 공지의 비터비(Viterbi) 알고리즘을 사용하여 가장 유사한 상태 시퀀스s *를 찾아서 구한 최적의 윤곽을 결정한다.
값 V(φ, λ)는 다음과 같이 정의된다.
마르코프 상태 독립 가정을 사용하여, V(φ, λ)를 다음과 같이 순환하여 계산할 수 있다.
초기화이며, 초기 상태 확률이다. 항 j*(φ, λ)는 선 φ에서의 상태 λ로부터 "최적의 이전 상태"를 기록한다. 따라서, 시퀀스의 종료시,를 얻는다.로부터 시작하여,로, j*를 역트래킹하여 최적의 상태 시퀀스s *를 얻을 수 있다.
최적의 상태 시퀀스가 주어지면, 선 φ상의 최적의 윤곽점sφ *의 대응하는 이미지 좌표는 [xφ,yφ]에 의해 나타낸다. 파라메트릭 윤곽 모델로서 타원이 사용되기 때문에, 각각의 윤곽점 [xφ,yφ]에 대해, 다음과 같이 유지된다.
이 식의 행렬 표현은 다음과 같다.
여기서,
이며, b=[1,1,...,1]T이다. 가장 적합한 타원의 파라미터는 최소 제곱 평균(LMS;least mean square) 식에 의해 얻을 수 있다.
상술한 타원 표현는 수학적으로 편리하다. 그러나, 5개의 파라미터를 물리적으로 명확하게 해석할 수 없다. 트래킹에 있어, 통상, 서로 다른 5개의 원소 타원 표현이 사용된다.
여기서, (x,y)는 타원의 중심이며, α및 β는 타원의 장축 및 단축의 길이이며, φ는 타원의 방향이다.f및 θ가 동일한 타원의 2개의 표현식이기 때문에, 여기에서 상호 교환적으로 사용된다.
동적 환경에서, 트래킹되는 대상(들) 및 배경이 외관을 점차 변화할 수 있다. 따라서, 모델 적응 모듈(174)은 관측 가능성 모델을 동적으로 적응시킨다. 관측 가능성 모델을 적응시키는 한 방법은, 프레임 t-1에서 비터비 알고리즘에 의해 복귀한 윤곽을 완전히 신뢰하고, 윤곽 내부 및 외부의 모든 픽셀을 평균하여 프레임 t에서 새로운 전면/배경 컬러 모델을 얻는다. 그러나, 프레임 t-1에서 에러가 발생하면, 이러한 과정은 틀린 방법으로 모델을 적응시킬 수 있다. 따라서, 모델 적응 모듈(174)은 확률적인 방법으로 관측 모델을 숙련시킨다.
프레임 t-1에서 얻은 윤곽을 완전히 신뢰하는 대신에, 순방향-역방향 알고리즘을 사용하여 관측 모델을 갱신하는 방법에 대해 결정한다. "순방향 확률 분포"는 다음과 같이 정의된다.
이는, 다음과 같은 순환식을 사용하여 계산할 수 있다.
유사하게는, "역방향 확률 분포"는 다음과 같이 정의된다.
이는, 다음과 같은 순환식을 사용하여 계산할 수 있다.
순방향 및 역방향 확률을 계산한 후, 선 φ에서 각각의 상태의 확률을 다음과 같이 계산할 수 있다.
이는, 측정선 φ상의 s에서 윤곽점을 가지는 확률을 나타낸다.
이러한 확률에 기초하여, 다음과 같이 법선을 따라 P(sφ=s|O)를 적분하여, 전면(또는 배경)에 있는 픽셀 λφ의 확률을 계산할 수 있다.
이 확률은 관측 모델의 적응시 서로 다른 픽셀에 가중치를 두는 로버스트 방법을 제공한다. 더 확신하여 분류된 픽셀은 컬러 모델에 더 공헌하지만, 덜 확신하여 분류된 픽셀은 컬러 모델에 덜 공헌한다.
새롭게 적응된 모델은 트래킹시 변화하는 컬러 분포를 반영한다. 새롭게 적응된 모델은 후속 프레임에서 윤곽을 탐색하는 동안 수학식 1로 다시 대입된다.설명한 예에서, 변화 확률은, 트래킹 처리시 비교적 일정하기 유지되기 때문에 숙련되지 않는다. 다른 방법으로는, 변화 확률은 컬러 분포의 숙련과 유사한 방법으로 숙련될 수 있다.
도 9로 되돌아가, 멀티큐 트래킹 처리(400)를 도 14를 참조하여 더 살펴본다. 도 14는 시간 t-1에서의 한 프레임(522)으로부터 시간 t에서의 후속 프레임(524)으로의 대상의 트래킹을 나타낸다. 이전 프레임 t-1에서의 트래킹 결과 및 대상의 다이내믹스에 기초하여 현재 프레임 t에 대상이 있을 위치를 예측한다(단계 402). 예측한 윤곽의 법선의 세트를 따라 관측을 수집한다(단계 404). 인간의 동작 다이내믹스를 모델링하기 위해 공지의 랑제방 처리를 사용한다.
여기서,는 파라메트릭 타원을 나타내며,이다. βθ는 속도 상수이며, m은 가우스 분포 N(0, Q)로부터 유도된 열적 여기 처리이며, τ는 이산화 시간 스텝이며,는 대기 상태 rms(root-mean-square) 속도이다.
법선 φ상의 모든 픽셀에 대해 관측 가능성 함수를 계산한다(단계 406).
상술한 수학식 2를 사용하여 선 상의 각각의 픽셀의 색도 및 에지 검출에 기초한다. 또한, 상술한 수학식 4에 나타낸 바와 같이, JPDAF에 기초한 상태 변화확률을 계산한다(단계 408).
이전에 계산한 관측 가능성 및 변화 확률 행렬로, 비터비 알고리즘에 의해 주어진 관측에 대한 최적의 윤곽을 구하고, 검출된 윤곽에 기초하여, 상술한 수학식 6을 사용하여 최적의 타원을 일치시킨다(단계 412).
그 후, 순방향-역방향 알고리즘을 사용하여 법선 상의 각각의 픽셀(전면 및 배경으로)의 소프트 분류를 산출함으로써, 상술한 수학식 6에 기초하여 전면 및 배경의 컬러 모델을 갱신한다(단계 414).
도 9의 처리(400)는 비디오 내용의 각각의 프레임에 대해 반복된다.
멀티큐 트래킹 모듈(144)은 큐 신뢰성의 설명을 시도하고, 큐 신뢰성을 변화시킨다. 예를 들면, 전면 및 배경 모두의 속성을 모델링하고(수학식 1 참조), 상술한 수학식 2의 모델을 사용하여 경계를 검출한다(예를 들어, 전면 및 배경의 컬러가 유사하면, 경계 검출에 많은 공헌을 하지 않고, 처리는 동작 등의 더 분별적인 다른 큐에 의존한다). 또한, 전면 및 배경의 모델은 상술한 수학식 6으로 표현되는 트래킹 동안 적응된다.
상술한 멀티큐 트래킹 처리에 다양한 변형을 할 수 있다. 일 대체예에 따르면, 트래킹되는 얼굴의 하나 이상의 특징점의 세트가 유지되고, 새로운 각각의 프레임을 분석하여 특징점의 세트의 위치를 결정한다. 특징점의 세트의 위치가 결정되면, 얼굴의 위치는 위치 결정된 점의 세트에 기초하여 거친 레벨로 산출될 수 있고, 이 거친 산출은 상술한 파라메트릭 윤곽 트래킹에서 초기의 예측으로서 사용된다. 달리 말하면, 상술한 예측된 위치에 의존하는 대신에, 새로운 프레임을 분석하여 파라메트릭 윤곽 트래킹 처리를 위해 초기의 예측점의 위치를 결정한다. 이 변형례는 연속적인 프레임들간의 대상 동작이 큰(상술한 예측된 위치가 후속 프레임에서 실제 윤곽 위치에 근접하지 않을 정도로 큼) 경우에 특히 유용하다.
눈가, 입가, 콧구멍 등의 각종 서로 다른 특징점이 트래킹될 수 있다. 또한, 시각적 특징에 더하여 또는 대신하여, 오디오의 음원이 특징점으로서 트래킹될 수 있다. 공지의 루카스 카나데(Lucas-Kanade) 특징 트래킹기 등의 각종 서로 다른 특징 트래킹 처리가 사용될 수 있다. 루카스 카나데 특징 트래킹기에 관한 추가 정보는, J. Shi 및 C. Tomasi에 의한 "Good Features to Track", 컴퓨터 비젼 및 패턴 인식에 관한 IEEE 회의, p593~600, 1994년판에 기재되어 있다.
상태 공간 대신에 특징점(검출된 윤곽점)으로부터 샘플링하는 확률 샘플링을 행할 때, 상술한 멀티큐 트래킹 처리에 다른 변형을 할 수 있다. 예를 들면, 모든 검출된 윤곽점으로부터 수개의 윤곽점을 샘플링할 수 있고, 샘플링된 윤곽점 상에 파라메트릭 형태를 일치시킬 수 있다.
멀티큐 트래킹 처리에 다른 변형을 하여, 얼굴에 대한 다수의 가능한 위치 트래킹, 달리 말하여, 한 가설 대신에 다수의 가설을 트래킹할 수 있다. 약한 가설이 즉시 배제되지 않도록 다수의 가설을 유지하게 위해 파티클 필터링 기술을 사용할 수 있다. 대신에, 약한 가설이 유지되고, 이 약한 가설을 입증하기 위해 허용된 시간이 좋은 선택이 된다. 다음, UPF로서 언급되는 파티클 필터 기술 중의 하나를 설명한다.
UKF(unscented Kalman filter)를 사용하는 UPF(unscented particle filter)가 멀티큐 트래킹 모듈(144)에 의해 사용되어 다수의 가설을 트래킹한다. UT(unscented transformation)을 사용하여 g()의 테일러 급수 전개식의 2차항(이전의 가우스에 대해서는 3차항)까지 평균 및 공분산을 계산하기 위해 사용된다. nx를 x의 차원,를 x의 평균, Px를 x의 공분산이라 하면, UT는 다음과 같이 y=g(x)의 평균 및 공분산을 계산한다.
우선, 2nx+1 시그마 점 Si={Xi, Wi}를 결정적으로 생성한다.
여기서, κ는 시그마 점들간의 거리 및 평균를 제어하는 스케일링 파라미터이며, α는 비선형 함수 g( )로부터의 고차 효과를 제어하는 포지티브 스케일링 파라미터이며, β는 O번째 시그마 점의 가중치를 제어하는 파라미터이며,는 행렬 제곱근의 i번째 행이다. 일 구현예에서, 스칼라 경우에 대해, α=1, β=0 및 κ=2이다. O번째 시그마 점의 가중치는 평균 및 공분산을 계산하는 경우에 대해 다르다.
그 후, 시그마 점은 비선형 변환을 통해 증가된다.
y의 평균 및 공분산은 다음과 같이 계산한다.
y의 평균 및 공분산은 테일러 급수 전개식의 2차항까지 정확하다.
상태 공간을 확장하여 잡음 요소를 포함하게 함으로써, 즉,로 함으로써, UT를 사용하여 UKF를 구현할 수 있다. Na=Nx+Nm+Nn을 확장된 상태 공간의 차원이라고 하며, 여기서, Nm및 Nn은 잡음 mt및 nt의 차원이며, Q 및 R을 잡음 mt및 nt에 대한 공분산이라 하면, UKF는 다음과 같이 요약할 수 있다.
초기화:
각각의 시간 인스턴스 t에 대해 다음과 같은 과정을 반복한다.
a) 수학식 7의 과정을 사용하여 시그마 점을 계산한다.
b) 시간 갱신
c) 측정 갱신
UKF로, 가장 최근의 관측을 상태 산출(예, 상술한 c) 측정 갱신)로 용이하게 통합할 수 있지만, 상태 분포의 가우스 가정을 행한다. 한편, 파티클 필터는 임의의 분포를 모델링할 수 있지만, 새로운 관측 yt를 제안 분포로 통합하는 것은 어렵다. UKF를 사용하여 파티클 필터에 대한 제안 분포를 생성시킴으로써, 하이브리드 UPF를 초래한다. 구체적으로 말하면, 각각의 파티클에 대한 제안 분포는 다음과같다.
여기서,및 Pt는 UKF(수학식 10 내지 18)를 사용하여 계산된 x의 평균 및 공분산이다. 가우스 가정이 사후 분포 p(xt|xt-1, y0:t)를 근사화사기에 현실적이지 못하더라도, 개별 파티클을 별개의및 Pt로 생성하는 것은 문제점이 적다. 또한, UKF가 사후의 평균 및 공분산을 2차까지 근사화하기 때문에, 시스템의 비선형성은 보존된다. UPF 처리는, UKF 단계 및 수학식 19를 통상의 파티클 필터 알고리즘에 삽입함으로써 용이하게 얻을 수 있다.
도 15는 예시적인 UPF 처리(550)를 나타내는 플로우차트이다. 도 15의 처리는 도 3의 멀티큐 트래킹 모듈(144)에 의해 행하지만, 소프트웨어로 행할 수 있다.
처음, 수학식 11 내지 18을 사용하여 파티클, i=1,...,N을 갱신하여를 얻는다(단계 552). 그 후, 제안 분포로부터 파티클, i=1,...,N을 샘플링한다(단계 554). 그 후, 다음과 같은 수학식 20을 사용하여 파티클 가중치를 계산한다(단계 556).
그 후, 다음과 같은 수학식 21을 사용하여 중요 가중치를 정규화한다(단계 558).
여기서, 파티클는 알려진 분포 q로부터 도출되고,는 미정규화된 중요 가중치 및 정규화된 중요 가중치이다.
그 후, 다음과 같은 수학식 22를 사용하여 유효 파티클 크기 S를 결정한다(단계 560).
S<ST이면, 가중 파티클을 증가(또는 억압)하여 N개의 동일 가중 파티클을 생성한다(단계 562). 다음과 같은 수학식 23을 사용하여 g( )의 기대치를 계산한다(단계 564).
xt의 조건 평균은 gt(xt)=xt로 계산할 수 있고, xt의 조건 공분산은 gt(xt)=xtxt T로 계산할 수 있다.
도 15의 UPF 처리(550)를 사용하여 오디오에 기초한 참석자의 트래킹을 설명한다. 통상, 수평 패닝(panning) 각을 계산하기 위해 2개의 마이크로폰으로 충분하다. 여기에서는 수평 패닝 각에 기초한 트래킹을 설명하며, 화자의 수직 틸팅(tilting) 각에 기초한 트래킹을 행하기 위해 유사한 동작이 행해질 수 있다. 도 16은 예시적인 다수의 마이크로폰 환경을 나타낸다. 도 16에서, 2개의 마이크로폰이 위치(A 및 B)에 있고, 음원이 위치(C)에 있다고 상정한다. 음원의 거리(즉, |OC|)가 마이크로폰쌍 기준선의 길이 |AB|보다 긴 경우, 패닝 각 θ=∠COX는 다음과 같이 계산할 수 있다.
여기서, D는 2개의 마이크로폰들간의 시간 지연이며, ν=342 ㎧는 공기중의 음속이다.
트래킹 애플리케이션에서 UPF 프레임워크를 이용하기 위해, 4개의 실체를 확립하며, 4개의 실체는, 수학식 12에 사용되는 시스템 다이내믹스 모델 xt=f(xt-1,mt-1), 수학식 13에 사용되는 시스템 관측 모델 yt=h(xt,nt), 수학식 22에 사용되는 가능성 모델 p(yt|xt), 및 수학식 18에 사용되는 이노베이션(innovation) 모델이다. 4개의 실체를 확립하면, 도 15의 UPF 처리(550)를 사용하여 트래킹은 곧바로 진행한다.
시스템 다이내믹스 모델 xt=f(xt-1,mt-1)는 다음과 같이 결정된다.를 상태 공간이라 하며, 각각, 패닐 각 및 패닝 각속도이다. 화자의 동작 다이내믹스를 모델링하기 위해, 공지의 랑제방 처리를 사용하며, 이산식은 다음과 같다.
여기서, βθ는 속도 상수이며, m은로부터 도출된 열적 여기 처리이며, τ는 분별화 시간 스텝이며,는 대기 상태 rms 속도이다.
시스템 관측 모델 yt=h(xt,nt)는 다음과 같이 결정된다. 시스템 관측 yt는 시간 지연 Dt이다. 상술한 수학식 24에 기초하여, 관측은 다음과 같은 상태에 관한 것이다.
여기서, nt은 측정 잡음이고, N(0,R)의 가우스 분포를 따른다.
가능성 모델 p(yt|xt)는 다음과 같이 결정된다. J를 GCCF(generalizedcross-correlation function;일반화 상호 상관관계 함수)의 피크수라 한다. J개의 피크 위치 중에서, 최대 1개만이 진정한 음원으로부터이다. 따라서, J+1개의 가설을 정의할 수 있다.
여기서, cj=T는 j번째 피크가 진정한 음원과 관련되어 있음을 의미하고, cj=C는 그 외의 경우이다. 따라서, 가설 H0는 어떠한 피크도 진정한 음원과 관련되어 있지 않음을 의미한다. 따라서, 결합된 가능성 모델은 다음과 같다.
여기서, π0는 가설 H0의 사전 확률이며, πj,j=1,...,J는 j번째 피크의 상대적 높이로부터 얻을 수 있으며, Nm은 정규화 인자이며, Dj는 j번째 피크에 대응하는 시간 지연이며, U는 균일한 분포를 나타내며, N( )은 가우스 분포를 나타낸다.
이노베이션 모델는 다음과 같이 결정된다. 또한, 가능성 모델과 동일하게, 이노베이션 모델은 다수의 피크 사항을 고려하여야 한다.
여기서,는 UKF(상술한 수학식 18 참조)로부터 얻은 예측 측정이다.
도 15의 UPF 처리(550)를 사용하여 시각 데이터에 기초하여 참석자를 트래킹하는 것은, 오디오 데이터에 기초하여 참석자를 트래킹하는 것과 유사하다. 트래킹 애플리케이션에서 UPF 프레임워크를 이용하기 위해, 4개의 실체를 확립하며, 4개의 실체는, 수학식 12에 사용되는 시스템 다이내믹스 모델 xt=f(xt-1,mt-1), 수학식 13에 사용되는 시스템 관측 모델 yt=h(xt,nt), 수학식 22에 사용되는 가능성 모델 p(yt|xt), 및 수학식 18에 사용되는 이노베이션 모델이다. 4개의 실체를 확립하면, 도 15의 UPF 처리(550)를 사용하여 트래킹은 곧바로 진행한다.
시스템 다이내믹스 모델 xt=f(xt-1,mt-1)는 다음과 같이 결정된다. (r,s)를 이미지 좌표라고 한다. 윤곽 기반 트래킹에서, 시스템 상태는 타원 중심의 위치, 및 이 위치의 수평 속도 및 수직 속도, 즉,이다. 오디오 데이터에 대한 시스템 다이내믹스 모델과 유사하게, 공지의 랑제방 처리를 사용하여 인간의 동작 다이내믹스를 모델링한다.
시스템 관측 모델 yt=h(xt,nt)는 다음과 같이 결정된다. 타원은 현재 상태 위치 (rt,st)에 중심이 있다. 타원 중심으로부터 K개의 방사선이 생성되어 타원 경계와 교차한다. 타원 중심은 로컬 좌표 시스템의 원점으로서 사용되므로, 교차점 (uk,vk), k=1,2,...,K는 다음과 같이 얻을 수 있다.
다음과 같은 타원 방정식 및 방사선 식을 함께 풀어 얻을 수 있다.
로컬 (u, v) 좌표를 이미지 좌표로 다시 변환하여, 다음과 같은 관측을 얻는다.
여기서, nt은 측정 잡음이고, N(0,R)의 가우스 분포를 따른다. 관측 모델은 매우 비선형이다.
가능성 모델 p(yt|xt)는 다음과 같이 결정된다. 에지 강도를 사용하여 상태 가능성을 모델링한다. K개의 방사선 각각을 따라, 공지의 캐니 에지 검출기를 사용하여 에지 강도를 계산한다. 결과의 함수는 다수 피크 함수이고, 오디오 데이터에 대한 가능성 모델의 GCCF와 동일하다. 다수의 피크는 이 방사선을 따라 다수의에지 후보가 있음을 의미한다. 피크수를 J라고 하면, 오디오 데이터에 대한 가능성 모델에서 발전시킨 동일한 가능성 모델을 사용하여 방사선 k를 따라 에지 가능성을 모델링할 수 있다.
따라서, 모든 K개의 방사선을 고려한 전체 가능성은 다음과 같다.
이노베이션 모델는 다음과 같이 결정된다. 또한, 가능성 모델과 동일하게, 이노베이션 모델은 다수의 피크 사항을 고려하여야 한다.
여기서, k=1,2,...,K이며, πkj는 방사선 k를 따라 j번째 피크에 대한 혼합 가중치이고, 대응하는 에지 강도로부터 얻을 수 있다.
통상의 컴퓨터 환경
도 17은 통상의 컴퓨터 환경(600)을 나타내며, 이 컴퓨터 환경을 사용하여 다수의 개인의 자동 검출 및 트래킹을 구현할 수 있다. 컴퓨터 환경(600)은 컴퓨팅 환경의 일례일 뿐이고, 컴퓨터 및 네트워크 아키텍쳐의 사용 또는 기능의 범위에 대해 한정하려고 의도한 것은 아니다. 컴퓨터 환경(600)이 예시적인 컴퓨터 환경(600)에서 설명한 구성요소 중의 하나 또는 조합에 관한 의존성 또는 필요조건을가지는 것으로 해석되어서는 안된다.
컴퓨터 환경(600)은 컴퓨터(602)의 형태로 일반 목적의 컴퓨팅 장치를 포함한다. 컴퓨터(602)는, 예를 들면, 도 1의 시스템(102), 도 2의 시스템(112), 도 3의 시스템(130) 등일 수 있다. 컴퓨터(602)의 구성요소는 하나 이상의 프로세서 또는 프로세싱 유닛(604), 시스템 메모리(606), 및 프로세서(604)를 포함하는 각종 시스템 구성요소를 시스템 메모리(606)로 접속시키는 시스템 버스(608)를 포함하지만, 이에 한정되지 않는다
시스템 버스(608)는, 메모리 버스 또는 메모리 제어기, 주변장치 버스, 초고속 그래픽 전용포트(accelerated graphics port), 각종 버스 아키텍쳐를 사용하는 프로세서 또는 로컬 버스를 포함하는 수개 형태의 버스 구조 중에서 하나 이상을 나타낸다. 예를 들면, 이러한 아키텍쳐는 산업 규격 아키텍쳐(ISA;Industry Standard Architecture) 버스, 마이크로 채널 아키텍쳐(MCA;Micro Channel Architecture) 버스, 향상된 ISA(EISA;Enhanced ISA) 버스, 비디오 전자공학 표준 협회(VESA;Video Electronics Standards Association) 로컬 버스, 및 메자닌(Mezzanine) 버스로 알려진 주변 소자 상호접속(PCI;Peripheral Component Interconnects) 버스를 포함할 수 있다.
컴퓨터(602)는 각종 컴퓨터 판독가능 매체를 가진다. 이러한 매체는 컴퓨터(602)에 의해 액세스될 수 있고, 휘발성 및 비휘발성 매체, 유동성(removable) 및 비유동성 매체를 모두 포함하는 임의의 입수가능한 매체일 수 있다.
시스템 메모리(606)는, RAM(610)과 같은 휘발성 메모리, 및/또는 ROM(612)과 같은 비휘발성 메모리의 형태로 컴퓨터 판독가능 매체를 포함한다. 컴퓨터 구동시 컴퓨터(602) 내의 구성요소들간의 정보 전송을 보조하는 기본 루틴을 포함하는 기본 입출력 시스템(BIOS;basic input/output system)(614)이 ROM(612)에 기억되어 있다. 통상, RAM(610)은 프로세싱 유닛(604)으로 즉시 액세스될 수 있거나 프로세싱 유닛(604)에 의해 즉시 동작될 수 있는 데이터 및/또는 프로그램 모듈을 포함한다.
또한, 컴퓨터(602)는 다른 유동성/비유동성, 휘발성/비휘발성 컴퓨터 기억 매체를 포함할 수 있다. 예를 들어, 도 17은 비유동성 비휘발성 자기 매체(도시하지 않음)에 기입/판독하는 하드디스크 드라이브(616), 유동성 비휘발성 자기 디스크(620)(예, 플로피디스크)에 기입/판독하는 자기 디스크 드라이브(618), 및 CD-ROM, DVD-ROM 또는 다른 광학 매체 등의 유동성 비휘발성 광 디스크(624)에 기입/판독하는 광 디스크 드라이브(622)를 나타낸다. 하드디스크 드라이브(616), 자기 디스크 드라이브(618), 및 광 디스크 드라이브(622)는 하나 이상의 데이터 매체 인터페이스(625)에 의해 시스템 버스(608)에 각각 접속된다. 다른 방법으로는, 하드디스크 드라이브(616), 자기 디스크 드라이브(618), 및 광 디스크 드라이브(622)는 하나 이상의 인터페이스(도시하지 않음)에 의해 시스템 버스(608)에 접속될 수 있다.
디스크 드라이브 및 이 디스크 드라이브와 결합한 컴퓨터 판독가능 매체는 컴퓨터(602)에 컴퓨터 판독가능 명령, 데이터 구조, 프로그램 모듈 및 다른 데이터를 제공한다. 이 예에서 하드디스크(616), 유동성 자기 디스크(620) 및 유동성 광 디스크(624)를 나타냈지만, 자기 카세트 등의 자기 기억 장치, 플래시 메모리 카드, CD-ROM, DVD 등의 광 기억 장치, RAM, ROM, EEPROM 등과 같이, 컴퓨터에 의해 액세스될 수 있는 데이터를 기억할 수 있는 다른 형태의 컴퓨터 판독가능 매체를 사용하여 예시적인 컴퓨팅 시스템 및 환경을 구현할 수 있다.
하드디스크(616), 자기 디스크(620), 광 디스크(624), ROM(612) 및/또는 RAM(610)에, 예로서, 오퍼레이팅 시스템(626), 하나 이상의 애플리케이션 프로그램(628), 다른 프로그램 모듈(630) 및 프로그램 데이터(632)를 포함하는 임의의 수의 프로그램 모듈이 기억될 수 있다. 이러한 오퍼레이팅 시스템(626), 하나 이상의 애플리케이션 프로그램(628), 다른 프로그램 모듈(630) 및 프로그램 데이터(632)(또는 이들의 일부 조합) 각각은 분배형 파일 시스템을 지원하는 고유의 구성요소의 일부 또는 전부를 구현할 수 있다.
사용자는 키보드(634), 포인팅 장치(636)(예, 마우스) 등의 입력 장치를 사용하여 명령 및 정보를 컴퓨터(602)에 입력할 수 있다. 다른 입력 장치(638)(구체적으로 도시하지 않음)는 마이크로폰, 조이스틱, 게임 패드, 위성 접시, 직렬 포트, 스캐너 등을 포함할 수 있다. 이러한 입력 장치는 시스템 버스(608)에 접속되는 입출력 인터페이스(640)를 통해 프로세싱 유닛(604)에 접속되지만, 병렬 포트, 게임 포트, 범용 직렬 버스(USB; universal serial bus) 등의 다른 인터페이스 및 버스 구조에 의해 접속될 수 있다.
또한, 모니터(642) 또는 다른 형태의 표시 장치가 비디오 어댑터(644)와 같은 인터페이스를 통해 시스템 버스(608)에 접속될 수 있다. 모니터(642)에 더하여, 다른 출력 주변 장치는 입출력 인터페이스(640)를 통해 컴퓨터(602)에 접속될 수 있는 프린터(646) 및 스피커(도시하지 않음) 등의 구성요소를 포함할 수 있다.
컴퓨터(602)는 원격 컴퓨팅 장치(648)와 같은 하나 이상의 원격 컴퓨터에의 논리 접속을 사용하여 네트워크 환경에서 동작할 수 있다. 예를 들면, 원격 컴퓨터(648)는 개인용 컴퓨터, 휴대형 컴퓨터, 서버, 라우터, 네트워크 컴퓨터, 피어(peer) 장치 또는 다른 통상의 네트워크 노드 등일 수 있다. 원격 컴퓨팅 장치(648)는, 컴퓨터(602)에 대해 상술한 특징 및 구성요소의 다수 또는 모두를 포함하는 휴대형 컴퓨터로서 나타낸다.
컴퓨터(602)와 원격 컴퓨터(648)간의 논리 접속은 LAN(650) 및 WAN(652)으로서 나타낸다. 이러한 네트워크 환경은 사무실, 기업 규모 컴퓨터 네트워크, 인트라넷, 및 인터넷이다.
LAN 네트워크 환경에서 구현될 때, 컴퓨터(602)는 네트워크 인터페이스 또는 어댑터(654)를 통해 LAN(650)에 접속된다. WAN 네트워크 환경에서 구현될 때, 통상, 컴퓨터(620)는 인터넷과 같은 WAN(652)을 통한 통신을 설립하기 위해 모뎀(656) 또는 다른 수단을 포함한다. 컴퓨터(602)의 내장형이거나 또는 외장형일 수 있는 모뎀(656)은 입출력 인터페이스(640) 또는 다른 적당한 메카니즘을 통해 시스템 버스(608)에 접속될 수 있다. 설명한 네트워크 접속은 예시적인 것이고 컴퓨터들(602 및 648)간의 통신 링크를 설립하는 다른 수단이 사용될 수 있다.
컴퓨팅 환경(600)을 예로 들어 설명한 네트워크 환경에서는, 컴퓨터(602)에대해 설명한 프로그램 모듈, 또는 그 프로그램 모듈의 일부가 원격 메모리 기억 장치에 기억될 수 있다. 예를 들어, 원격 애프리케이션 프로그램(658)은 원격 컴퓨터(648)의 메모리 장치 상에 존재한다. 설명을 위해, 애플리케이션 프로그램 및 오퍼레이팅 시스템과 같은 다른 실행가능한 프로그램 구성요소가 여기에서 분리된 블록으로 도시되어 있지만, 이러한 프로그램 및 구성요소는 다양한 시간에 컴퓨팅 장치(602)의 서로 다른 기억 구성요소에 내재하고 컴퓨터의 데이터 프로세서에 의해 실행된다.
분배형 파일 시스템(150)의 구현예는, 하나 이상의 컴퓨터 또는 그 밖의 장치에 의해 실행되는 프로그램 모듈과 같은 컴퓨터 실행가능한 명령의 일반적 내용에서 설명한다. 통상, 프로그램 모듈은, 소정의 작업을 행하거나 소정의 추상적 데이터 형태를 구현하는 루틴, 프로그램, 대상, 콤포넌트, 데이터 구조 등을 포함한다. 통상, 프로그램 모듈의 기능은 각종 실시예에서 원하는 대로 결합되거나 분배될 수 있다.
암호화된 파일에 대한 파일 형식의 구현예는 일부 형태의 컴퓨터 판독가능 매체에 기억되거나 전송될 수 있다. 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스될 수 있는 입수가능한 매체이다. 예를 들면, 컴퓨터 판독가능 매체는 컴퓨터 기억 매체 및 통신 매체를 구비할 수 있지만, 이에 한정되지 않는다.
컴퓨터 기억 매체는 컴퓨터 판독가능 명령, 데이터 구조, 프로그램 모듈 또는 다른 데이터 등의 정보를 기억하기 위해 임의의 방법 또는 기술로 구현되는 휘발성 및 비휘발성, 유동성 및 비유동성 매체를 포함한다. 컴퓨터 기억 매체는RAM, ROM, EEPROM, 플래시 메모리 등의 메모리 테크놀로지, CD-ROM, DVD 등의 광 기억 장치, 자기 카세트, 자기 테이프, 자기 디스크 기억 장치 등의 자기 기억 장치, 또는 원하는 정보를 기억하고 컴퓨터에 의해 액세스 될 수 있는 다른 매체를 포함하지만, 이에 한정되지 않는다.
통상, 통신 매체는 컴퓨터 판독가능 명령, 데이터 구조, 프로그램 모듈, 또는 반송파 또는 다른 전송 메커니즘 등의 변조 데이터 신호의 다른 데이터를 포함한다. 또한, 통신 매체는 임의의 정보 전달 매체를 포함한다. "변조 데이터 신호"라는 용어는, 신호에 정보를 인코딩하는 방법으로 설정되거나 변화된 하나 이상의 특성을 가지는 신호를 의미한다. 예를 들면, 통신 매체는 유선 네트워크 또는 직접 유선 접속 등의 유선 매체, 및 음향, RF, 적외선, 및 다른 무선 매체 등의 무선 매체를 포함한다. 또한, 상술한 매체들의 임의의 조합이 컴퓨터 판독가능 매체의 범위 내에 포함될 수 있다.
이상, 상술한 바와 같이, 본 발명에 따르면, 다수의 개인을 보다 정확하게 자동 검출 및 트래킹할 수 있다.
인간의 얼굴을 참조하여 주로 설명하였지만, 여기서 설명한 인간의 얼굴과 유사하게 다른 대상을 자동 검출 및/또는 트래킹할 수 있다.
결론
상술한 설명은 구조적 특징 및/또는 방법상의 단계에 특정적인 언어를 사용하였지만, 첨부한 특허청구범위에 기재된 본 발명은 상술한 특정의 특징 및 단계에한정되지 않는다. 대신에, 특정의 특징 및 단계는 본 발명을 구현하는 예시적인 형태로서 개시되어 있다.

Claims (71)

  1. 내용의 프레임을 수신하는 단계;
    상기 프레임에서 새로운 얼굴 영역에 대한 후보 구역을 자동 검출하는 단계;
    하나 이상의 계층적 검증 레벨(hierarchical verification level)을 사용하여 상기 후보 구역에 인간의 얼굴이 있는지의 여부를 검증하는 단계;
    상기 하나 이상의 계층적 검증 레벨이 상기 후보 구역에 상기 인간의 얼굴이 있음을 검증하면, 상기 후보 구역이 얼굴을 포함한다는 표시를 하는 단계; 및
    복수의 큐를 사용하여 프레임에서 프레임으로 상기 내용에서 각각의 검증된 얼굴을 트래킹하는 단계를 포함하는 것을 특징으로 하는 방법.
  2. 제1항에 있어서,
    상기 내용의 프레임은 비디오 내용의 프레임을 포함하는 것을 특징으로 하는 방법.
  3. 제1항에 있어서,
    상기 내용의 프레임은 오디오 내용의 프레임을 포함하는 것을 특징으로 하는 방법.
  4. 제1항에 있어서,
    상기 내용의 프레임은 비디오 및 오디오 내용의 프레임을 모두 포함하는 것을 특징으로 하는 방법.
  5. 제1항에 있어서,
    검증된 얼굴의 트래킹이 상실된 경우 상기 자동 검출을 반복하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  6. 제1항에 있어서,
    상기 내용의 프레임을 수신하는 상기 단계는, 상기 방법을 구현하는 시스템의 로컬 비디오 캡처 장치로부터 비디오 내용의 프레임을 수신하는 단계를 포함하는 것을 특징으로 하는 방법.
  7. 제1항에 있어서,
    상기 내용의 프레임을 수신하는 상기 단계는, 상기 방법을 구현하는 시스템에 액세스될 수 있는 컴퓨터 판독가능 매체로부터 상기 내용의 프레임을 수신하는 단계를 포함하는 것을 특징으로 하는 방법.
  8. 제1항에 있어서,
    상기 프레임에서 상기 새로운 얼굴 영역에 대한 상기 후보 구역을 검출하는 상기 단계는,
    상기 프레임에 동작이 있는지의 여부를 검출하고, 상기 프레임에 동작이 있으면, 동작 기반 초기화를 행하여 하나 이상의 후보 구역을 식별하는 단계,
    상기 프레임에 오디오가 있는지의 여부를 검출하고, 상기 프레임에 오디오가 있으면, 오디오 기반 초기화를 행하여 상기 하나 이상의 후보 구역을 식별하는 단계, 및
    상기 프레임에 동작도 오디오도 없으면, 급속 얼굴 검출기를 사용하여 상기 하나 이상의 후보 구역을 식별하는 단계를 포함하는 것을 특징으로 하는 방법.
  9. 제1항에 있어서,
    상기 프레임에서 상기 새로운 얼굴 영역에 대한 상기 후보 구역을 검출하는 상기 단계는,
    상기 프레임을 가로지르는 복수의 선 상의 복수의 픽셀에 동작이 있는지의 여부를 판정하는 단계,
    상기 복수의 선 각각의 가능한 세그먼트 각각에 대해 프레임 차이(frame difference)들의 합을 생성하는 단계,
    상기 복수의 선 각각에 대해 가장 큰 합을 가지는 세그먼트를 선택하는 단계,
    선택된 상기 세그먼트의 가장 평탄한 영역(smoothness region)을 식별하는 단계,
    상기 가장 평탄한 영역이 인간의 상체를 닮았는지의 여부를 조사하는 단계,및
    상기 후보 영역으로서, 인간의 머리를 닮은 상기 가장 평탄한 영역의 일부를 추출하는 단계를 포함하는 것을 특징으로 하는 방법.
  10. 제9항에 있어서,
    동작이 있는지의 여부를 판정하는 상기 단계는,
    상기 복수의 픽셀 각각에 대해, 상기 프레임의 상기 픽셀의 강도값과 하나 이상의 다른 프레임의 대응하는 픽셀의 강도값간의 차이가 임계치를 초과하는지의 여부를 판정하는 단계를 포함하는 것을 특징으로 하는 방법.
  11. 제1항에 있어서,
    상기 하나 이상의 계층적 검증 레벨은 거친 레벨(coarse level) 및 세밀한 레벨(fine level)을 포함하며, 상기 거친 레벨은 상기 후보 구역에 상기 인간의 얼굴이 있는지의 여부를 상기 세밀한 레벨보다 속도는 빠르지만 정확도는 낮게 검증할 수 있는 것을 특징으로 하는 방법.
  12. 제1항에 있어서,
    상기 하나 이상의 계층적 검증 레벨을 사용하는 상기 단계는, 상기 검증 레벨 중 하나로서,
    상기 후보 구역의 컬러 히스토그램(color histogram)을 생성하는 단계,
    이전 프레임들에 기초하여 상기 후보 구역의 추정(estimated) 컬러 히스토그램을 생성하는 단계,
    상기 컬러 히스토그램과 상기 추정 컬러 히스토그램간의 유사도를 결정하는 단계, 및
    상기 유사도가 상기 임계치보다 크면, 상기 후보 구역이 얼굴을 포함하는 것을 검증하는 단계를 포함하는 것을 특징으로 하는 방법.
  13. 제1항에 있어서,
    상기 후보 구역이 얼굴을 포함한다고 표시하는 상기 단계는, 상기 후보 구역을 트래킹 리스트에 기록하는 단계를 포함하는 것을 특징으로 하는 방법.
  14. 제13항에 있어서,
    상기 후보 구역을 상기 트래킹 리스트에 기록하는 상기 단계는, 상기 후보 구역에 대응하는 기록을 액세스하고 상기 후보의 최종 검증 후의 시간을 재설정하는 단계를 포함하는 것을 특징으로 하는 방법.
  15. 제1항에 있어서,
    상기 하나 이상의 계층적 검증 레벨은 제1 레벨 및 제2 레벨을 포함하며, 상기 하나 이상의 계층적 검증 레벨을 사용하여 상기 후보 구역에 상기 인간의 얼굴이 있는지의 여부를 검증하는 상기 단계는,
    상기 제1 레벨 검증을 사용하여 상기 후보 구역에 상기 인간의 얼굴이 있는지의 여부를 조사하는 단계, 및
    상기 조사하는 단계가 상기 제1 레벨 검증에 의해 상기 후보 구역에 상기 인간의 얼굴이 없는 것으로 검증된다고 표시하는 경우에만, 상기 제2 레벨 검증을 사용하는 단계를 포함하는 것을 특징으로 하는 방법.
  16. 제1항에 있어서,
    상기 하나 이상의 계층적 검증 레벨을 사용하는 상기 단계는,
    제1 검증 처리를 사용하여 상기 후보 구역에 상기 인간의 머리가 있는지의 여부를 판정하는 단계, 및
    상기 제1 검증 처리가 상기 후보 구역에 상기 인간의 머리가 있다고 검증하면, 상기 후보 구역이 얼굴을 포함한다고 표시하고, 그렇지 않은 경우, 제2 검증 처리를 사용하여 상기 후보 구역에 상기 인간의 머리가 있는지의 여부를 판정하는 단계를 포함하는 것을 특징으로 하는 방법.
  17. 제16항에 있어서,
    상기 제1 검증 처리는 상기 제2 검증 처리보다 속도는 빠르지만 정확도는 낮게 하는 것을 특징으로 하는 방법.
  18. 제1항에 있어서,
    상기 복수의 큐는 전면(foreground) 컬러, 배경(background) 컬러, 에지 강도, 동작 및 오디오를 포함하는 것을 특징으로 하는 방법.
  19. 제1항에 있어서,
    상기 복수의 큐를 사용하여 각각의 검증된 얼굴을 트래킹하는 상기 단계는, 각각의 얼굴에 대해,
    상기 얼굴의 윤곽이 있을 위치를 예측하는 단계,
    조도(roughness)에 페널티를 가하는 평탄 제약(smoothness constraint)을 인코딩하는 단계,
    상기 평탄 제약을 복수의 가능한 윤곽 위치에 행하는 단계, 및
    가장 평탄한 윤곽을 가지는 상기 윤곽 위치를 상기 프레임의 상기 얼굴의 위치로서 선택하는 단계를 포함하는 것을 특징으로 하는 방법.
  20. 제19항에 있어서,
    상기 평탄 제약은 윤곽 평탄을 포함하는 것을 특징으로 하는 방법.
  21. 제19항에 있어서,
    상기 평탄 제약은 윤곽 평탄 및 영역 평탄을 모두 포함하는 것을 특징으로 하는 방법.
  22. 제19항에 있어서,
    상기 평탄 제약을 인코딩하는 상기 단계는, 히든 마르코프 모델(HMM;Hidden Markov Model) 상태 변화 확률(state transition probability)을 생성하는 단계를 포함하는 것을 특징으로 하는 방법.
  23. 제19항에 있어서,
    상기 평탄 제약을 인코딩하는 상기 단계는, 합동 확률 데이터 조합 필터(JPDAF;Joint Probability Data Association Filer) 상태 변화 확률을 생성하는 단계를 포함하는 것을 특징으로 하는 방법.
  24. 제19항에 있어서,
    상기 복수의 큐를 사용하여 각각의 검증된 얼굴을 트래킹하는 상기 단계는, 상기 각각의 얼굴에 대해,
    후속 프레임에서 상기 얼굴에 대한 예측을 행하여, 변화하는 컬러 분포를 설명하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  25. 제19항에 있어서,
    상기 복수의 큐를 사용하여 각각의 검증된 얼굴을 트래킹하는 상기 단계는, 상기 각각의 얼굴에 대해,
    상기 프레임에서 관측된 하나 이상의 큐에 기초하여 후속 프레임에서 상기얼굴에 대한 예측을 행하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  26. 제1항에 있어서,
    상기 복수의 큐를 사용하여 각각의 검증된 얼굴을 트래킹하는 상기 단계는, 각각의 얼굴에 대해,
    상기 얼굴의 하나 이상의 특징점(feature point)의 세트를 액세스하는 단계,
    상기 프레임을 분석하여 상기 하나 이상의 특징점의 세트를 포함하는 구역을 식별하는 단계,
    조도에 페널티를 가하는 평탄 제약을 인코딩하는 단계,
    상기 평탄 제약을 복수의 가능한 윤곽 위치에 행하는 단계, 및
    가장 평탄한 윤곽을 가지는 상기 윤곽 위치를 상기 프레임의 상기 얼굴의 위치로서 선택하는 단계를 포함하는 것을 특징으로 하는 방법.
  27. 제1항에 있어서,
    상기 복수의 큐를 사용하여 각각의 검증된 얼굴을 트래킹하는 상기 단계는, 프레임에서 프레임으로 상기 얼굴에 대한 다수의 가능한 위치를 동시에 트래킹하는 단계를 포함하는 것을 특징으로 하는 방법.
  28. 제27항에 있어서,
    다수의 가설 트래킹 기술을 사용하여 상기 다수의 가능한 위치를 동시에 트래킹하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  29. 제27항에 있어서,
    파티클 필터를 사용하여 상기 다수의 가능한 위치를 동시에 트래킹하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  30. 제27항에 있어서,
    UPF(unscented particle filter)를 사용하여 상기 다수의 가능한 위치를 동시에 트래킹하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  31. 비디오 내용에서 다수의 개인을 트래킹하기 위한 시스템에 있어서,
    상기 비디오 내용의 프레임에서 새로운 얼굴에 대한 후보 영역을 검출하는 자동 초기화 모듈;
    상기 후보 영역에 대한 확신 레벨(confidence level)을 생성하는 계층적 검증 모듈; 및
    복수의 시각적 큐를 사용하여, 상기 계층적 검증 모듈에 의해 생성된 확신 레벨로, 임계치를 초과한 이전 후보 영역들을 트래킹하는 멀티큐 트래킹 모듈을 포함하는 것을 특징으로 하는 시스템.
  32. 제31항에 있어서,
    상기 계층적 검증 모듈은,
    상기 확신 레벨이 상기 임계치를 초과하는지의 여부를 조사하고,
    상기 확신 레벨이 상기 임계치를 초과하면, 상기 후보 영역을 상기 멀티큐 트래킹 모듈로 전달하고,
    상기 확신 레벨이 상기 임계치 이하이면, 상기 후보 영역을 폐기하고 상기 후보 영역을 상기 멀티큐 트래킹 모듈로 전달하지 않도록 구성되는 것을 특징으로 하는 시스템.
  33. 제31항에 있어서,
    상기 계층적 검증 모듈은,
    상기 멀티큐 트래킹 모듈로부터 영역의 표시를 수신하고,
    상기 영역이 얼굴인지의 여부를 검증하고,
    상기 영역이 얼굴이라고 검증된 경우에만, 연속적 트래킹을 하기 위해 상기 영역을 상기 멀티큐 트래킹 모듈로 복귀시키도록 더 구성되는 것을 특징으로 하는 시스템.
  34. 제31항에 있어서,
    상기 시스템은 비디오 회의 시스템을 포함하는 것을 특징으로 하는 시스템.
  35. 제31항에 있어서,
    상기 자동 초기화 모듈은,
    상기 프레임에 동작이 있는지의 여부를 검출하고,
    상기 프레임에 동작이 있으면, 동작 기반 초기화를 행하여 상기 후보 영역을 식별하고,
    상기 프레임에 오디오가 있는지의 여부를 검출하고,
    상기 프레임에 오디오가 있으면, 오디오 기반 초기화를 행하여 상기 후보 영역을 식별하고,
    상기 프레임에 동작도 오디오도 없으면, 급속 얼굴 검출기를 사용하여 상기 후보 영역을 식별하도록 더 구성되는 것을 특징으로 하는 시스템.
  36. 제31항에 있어서,
    상기 계층적 검증 모듈은, 거친 레벨 및 세밀한 레벨을 포함하는 하나 이상의 계층적 검증 레벨을 사용하며, 상기 거친 레벨은 상기 후보 구역에 새로운 얼굴이 있는지의 여부를 상기 세밀한 레벨보다 속도는 빠르지만 정확도는 낮게 검증할 수 있는 것을 특징으로 하는 시스템.
  37. 복수의 명령이 저장된 하나 이상의 컴퓨터 판독가능 매체에 있어서,
    상기 복수의 명령은, 하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서로 하여금,
    비디오 내용의 프레임의 구역에 대한 표시를 수신하고;
    제1 검증 처리를 사용하여 상기 구역에 인간의 머리가 있는지의 여부를 판정하고;
    상기 제1 검증 처리가 상기 구역에 상기 인간의 머리가 있음을 검증하면, 상기 구역이 얼굴을 포함한다고 표시하고, 그렇지 않은 경우, 제2 검증 처리를 사용하여 상기 구역에 인간의 머리가 있는지의 여부를 판정하도록 하는 것을 특징으로 하는 하나 이상의 컴퓨터 판독가능 매체.
  38. 제37항에 있어서,
    상기 제1 검증 처리 및 상기 제2 검증 처리는 복수의 계층적 검증 레벨에 대응하는 것을 특징으로 하는 하나 이상의 컴퓨터 판독가능 매체.
  39. 제38항에 있어서,
    상기 복수의 계층적 검증 레벨은 2개 이상의 계층적 검증 레벨을 포함하는 것을 특징으로 하는 하나 이상의 컴퓨터 판독가능 매체.
  40. 제37항에 있어서,
    상기 제1 검증 처리는 거친 레벨 처리이고, 상기 제2 검증 처리는 세밀한 레벨 처리이며, 상기 거친 레벨 처리는 상기 후보 영역에 상기 인간의 머리가 있는지의 여부를 상기 세밀한 레벨 처리보다 속도는 빠르지만 정확도는 낮게 검증할 수 있는 것을 특징으로 하는 하나 이상의 컴퓨터 판독가능 매체.
  41. 제37항에 있어서,
    상기 제1 검증 처리를 사용하기 위한 상기 복수의 명령은, 상기 하나 이상의 프로세서로 하여금,
    상기 구역의 컬러 히스토그램을 생성하고,
    상기 비디오 내용의 이전 프레임에 기초하여 상기 구역의 추정 컬러 히스토그램을 생성하고,
    상기 컬러 히스토그램과 상기 추정 컬러 히스토그램간의 유사도를 결정하고,
    상기 유사도가 임계치보다 크면, 상기 후보 구역이 상기 인간의 머리를 포함한다고 검증하도록 하는 명령을 포함하는 것을 특징으로 하는 하나 이상의 컴퓨터 판독가능 매체.
  42. 제37항에 있어서,
    상기 비디오 내용의 프레임의 구역의 표시를 수신하기 위한 상기 복수의 명령은, 상기 하나 이상의 프로세서로 하여금,
    상기 프레임에서 새로운 얼굴 영역에 대한 후보 구역을 수신하도록 하는 명령을 포함하는 것을 특징으로 하는 하나 이상의 컴퓨터 판독가능 매체.
  43. 제37항에 있어서,
    상기 비디오 내용의 프레임의 구역의 표시를 수신하기 위한 상기 복수의 명령은, 상기 하나 이상의 프로세서로 하여금,
    구역의 표시를 수신하여 얼굴을 포함하는 것으로 재검증하도록 하는 명령을 포함하는 것을 특징으로 하는 하나 이상의 컴퓨터 판독가능 매체.
  44. 내용의 프레임에서 트래킹되지 않은 얼굴에 대한 후보 영역을 검출하기 위한 복수의 명령이 저장된 하나 이상의 컴퓨터 판독가능 매체에 있어서,
    상기 복수의 명령은, 하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서로 하여금,
    상기 프레임에 동작이 있는지의 여부를 검출하고;
    상기 프레임에 동작이 있으면, 동작 기반 초기화를 행하여 상기 후보 영역을 식별하고;
    상기 프레임에 오디오가 있는지의 여부를 검출하고;
    상기 프레임에 오디오가 있으면, 오디오 기반 초기화를 행하여 상기 후보 영역을 식별하고;
    상기 프레임에 동작도 오디오도 없으면, 급속 얼굴 검출기를 사용하여 상기 후보 영역을 식별하도록 하는 것을 특징으로 하는 하나 이상의 컴퓨터 판독가능 매체.
  45. 제44항에 있어서,
    동작 기반 초기화를 행하기 위한 상기 복수의 명령은, 상기 하나 이상의 프로세서로 하여금,
    상기 프레임을 가로지르는 복수의 선 상의 복수의 픽셀에 동작이 있는지의 여부를 판정하고,
    상기 복수의 선 중 복수 개의 선의 복수의 세그먼트 각각에 대해 프레임 차이들의 합을 생성하고,
    상기 복수의 선 각각에 대해 가장 큰 합을 가지는 세그먼트를 선택하고,
    상기 선택된 세그먼트의 가장 평탄한 영역을 식별하고,
    상기 가장 평탄한 영역이 인간의 상체를 닮았는지의 여부를 조사하고,
    후보 영역으로서, 인간의 머리를 닮은 상기 가장 평탄한 영역의 일부를 추출하도록 하는 명령을 포함하는 것을 특징으로 하는 하나 이상의 컴퓨터 판독가능 매체.
  46. 제45항에 있어서,
    상기 동작이 있는지의 여부를 판정하기 위한 명령은, 상기 하나 이상의 프로세서로 하여금,
    상기 복수의 픽셀 각각에 대해, 상기 프레임의 상기 픽셀의 강도값과 하나 이상의 다른 프레임의 대응하는 픽셀의 강도값간의 차이가 임계치를 초과하는지의 여부를 판정하도록 하는 명령을 더 포함하는 것을 특징으로 하는 하나 이상의 컴퓨터 판독가능 매체.
  47. 내용의 프레임에서 프레임으로 얼굴을 트래킹하기 위한 복수의 명령이 저장된 하나 이상의 컴퓨터 판독가능 매체에 있어서,
    상기 복수의 명령은, 하나 이상의 프로세서에 의해 실행될 때, 하나 이상의 프로세서로 하여금,
    복수의 큐를 사용하여, 프레임에서 얼굴의 윤곽이 있을 위치를 예측하고;
    조도에 페널티를 가하는 평탄 제약을 인코딩하고;
    상기 평탄 제약을 복수의 가능한 윤곽 위치에 적응시키고;
    가장 평탄한 윤곽을 가지는 상기 윤곽 위치를 상기 프레임의 상기 얼굴의 위치로서 선택하도록 하는 명령을 포함하는 것을 특징으로 하는 하나 이상의 컴퓨터 판독가능 매체.
  48. 제47항에 있어서,
    상기 복수의 큐는 전면 컬러, 배경 컬러, 에지 강도 및 동작을 포함하는 것을 특징으로 하는 하나 이상의 컴퓨터 판독가능 매체.
  49. 제47항에 있어서,
    상기 복수의 큐는 오디오를 포함하는 것을 특징으로 하는 하나 이상의 컴퓨터 판독가능 매체.
  50. 제47항에 있어서,
    상기 평탄 제약은 윤곽 평탄을 포함하는 것을 특징으로 하는 하나 이상의 컴퓨터 판독가능 매체.
  51. 제47항에 있어서,
    상기 평탄 제약은 윤곽 평탄 및 영역 평탄을 모두 포함하는 것을 특징으로 하는 하나 이상의 컴퓨터 판독가능 매체.
  52. 제47항에 있어서,
    상기 평탄 제약을 인코딩하기 위한 상기 복수의 명령은, 상기 하나 이상의 프로세서로 하여금 HMM(Hidden Mark Mode) 상태 변화 확률을 생성하도록 하는 명령을 포함하는 것을 특징으로 하는 하나 이상의 컴퓨터 판독가능 매체.
  53. 제47항에 있어서,
    상기 평탄 제약을 인코딩하기 위한 상기 복수의 명령은, 상기 하나 이상의 프로세서로 하여금 JPDAF(Joint Probability Data Association Filter) 상태 변화 확률을 생성하도록 하는 명령을 포함하는 것을 특징으로 하는 하나 이상의 컴퓨터 판독가능 매체.
  54. 제47항에 있어서,
    상기 복수의 명령은, 상기 하나 이상의 프로세서로 하여금, 후속 프레임에서얼굴에 대한 예측을 행하여 변화하는 컬러 분포를 설명하도록 하는 명령을 더 포함하는 것을 특징으로 하는 하나 이상의 컴퓨터 판독가능 매체.
  55. 제47항에 있어서,
    상기 복수의 명령은, 상기 하나 이상의 프로세서로 하여금, 상기 프레임에서 관측된 하나 이상의 큐에 기초하여 후속 프레임에서 상기 얼굴에 대한 예측을 행하도록 하는 명령을 더 포함하는 것을 특징으로 하는 하나 이상의 컴퓨터 판독가능 매체.
  56. 제47항에 있어서,
    상기 복수의 명령은, 상기 하나 이상의 프로세서로 하여금, 프레임에서 프레임으로 상기 얼굴에 대한 다수의 가능한 위치를 동시에 트래킹하도록 하는 명령을 더 포함하는 것을 특징으로 하는 하나 이상의 컴퓨터 판독가능 매체.
  57. 제56항에 있어서,
    상기 복수의 명령은, 상기 하나 이상의 프로세서로 하여금, 상기 다수의 가능한 위치를 동시에 트래킹하도록 하는 명령을 더 포함하는 것을 특징으로 하는 하나 이상의 컴퓨터 판독가능 매체.
  58. 내용의 프레임들을 따라 대상을 트래킹하는 방법에 있어서,
    복수의 큐를 사용하여 상기 대상을 트래킹하는 단계를 포함하는 것을 특징으로 하는 방법.
  59. 제58항에 있어서,
    상기 복수의 큐는 전면 컬러, 배경 컬러, 에지 강도, 동작 및 오디오를 포함하는 것을 특징으로 하는 방법.
  60. 제58항에 있어서,
    상기 복수의 큐를 사용하는 상기 단계는, 상기 복수의 큐에 기초하여 프레임에서 프레임으로 상기 대상이 있을 위치를 예측하는 단계를 포함하는 것을 특징으로 하는 방법.
  61. 내용의 프레임들을 따라 대상을 트래킹하는 방법에 있어서,
    프레임에서 상기 대상이 있을 위치를 예측하는 단계;
    조도에 페널티를 가하는 평탄 제약을 인코딩하는 단계;
    상기 평탄 제약을 복수의 가능한 대상 위치에 가하는 단계; 및
    가장 평탄한 윤곽을 가지는 상기 대상 위치를 상기 프레임의 상기 대상의 위치로서 선택하는 단계를 포함하는 것을 특징으로 하는 방법.
  62. 제61항에 있어서,
    상기 예측하는 단계는, 전면 컬러, 배경 컬러, 에지 강도, 동작 및 오디오를 포함하는 복수의 큐를 사용하는 것을 특징으로 하는 방법.
  63. 제61항에 있어서,
    상기 평탄 제약은 윤곽 평탄 및 영역 평탄을 모두 포함하는 것을 특징으로 하는 방법.
  64. 제61항에 있어서,
    상기 평탄 제약을 인코딩하는 상기 단계는, HMM 상태 변화 확률을 생성하는 단계를 포함하는 것을 특징으로 하는 방법.
  65. 제61항에 있어서,
    상기 평탄 제약을 인코딩하는 상기 단계는, JPDAF 상태 변화 확률을 생성하는 단계를 포함하는 것을 특징으로 하는 방법.
  66. 제61항에 있어서,
    상기 복수의 큐를 사용하여 각각의 검증된 얼굴을 트래킹하는 상기 단계는, 각각의 얼굴에 대해,
    상기 프레임에서 관측된 하나 이상의 큐에 기초하여 후속 프레임에서 얼굴에 대한 예측을 행하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  67. 제61항에 있어서,
    상기 대상이 있을 위치를 예측하는 상기 단계는,
    상기 얼굴의 하나 이상의 특징점의 세트를 액세스하는 단계;
    상기 프레임을 분석하여 상기 하나 이상의 특징점의 세트를 포함하는 구역을 식별하는 단계를 포함하는 것을 특징으로 하는 방법.
  68. 제61항에 있어서,
    상기 복수의 큐를 사용하여 각각의 검증된 얼굴을 트래킹하는 상기 단계는, 프레임에서 프레임으로 상기 얼굴에 대한 다수의 가능한 위치를 동시에 트래킹하는 단계를 포함하는 것을 특징으로 하는 방법.
  69. 제68항에 있어서,
    다수의 가설 트래킹 기술을 사용하여 상기 다수의 가능한 위치를 동시에 트래킹하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  70. 제61항에 있어서,
    상기 대상은 비디오 내용의 얼굴을 포함하는 것을 특징으로 하는 방법.
  71. 제61항에 있어서,
    상기 대상은 오디오 내용의 음원 위치를 포함하는 것을 특징으로 하는 방법.
KR1020020076068A 2001-12-03 2002-12-02 다수의 큐를 사용하여 다수의 개인들의 자동 검출 및 트래킹을 하기 위한 방법, 시스템, 컴퓨터 판독가능 매체 및 컴퓨팅 장치 KR100905793B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/006,927 2001-12-03
US10/006,927 US7130446B2 (en) 2001-12-03 2001-12-03 Automatic detection and tracking of multiple individuals using multiple cues

Publications (2)

Publication Number Publication Date
KR20030045624A true KR20030045624A (ko) 2003-06-11
KR100905793B1 KR100905793B1 (ko) 2009-07-02

Family

ID=21723307

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020020076068A KR100905793B1 (ko) 2001-12-03 2002-12-02 다수의 큐를 사용하여 다수의 개인들의 자동 검출 및 트래킹을 하기 위한 방법, 시스템, 컴퓨터 판독가능 매체 및 컴퓨팅 장치

Country Status (8)

Country Link
US (5) US7130446B2 (ko)
EP (4) EP1330128B1 (ko)
JP (4) JP4142420B2 (ko)
KR (1) KR100905793B1 (ko)
CN (2) CN100334881C (ko)
AT (2) ATE551676T1 (ko)
DE (1) DE60226838D1 (ko)
TW (1) TWI222031B (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100902771B1 (ko) * 2007-10-29 2009-06-15 재단법인 포항산업과학연구원 파티클 필터를 이용한 다중물체 추적방법
KR101402206B1 (ko) * 2014-04-10 2014-05-30 국방과학연구소 운동학 및 형상 정보를 활용한 다중 표적 추적 방법

Families Citing this family (325)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7738015B2 (en) 1997-10-09 2010-06-15 Fotonation Vision Limited Red-eye filter method and apparatus
US7630006B2 (en) 1997-10-09 2009-12-08 Fotonation Ireland Limited Detecting red eye filter and apparatus using meta-data
US7042505B1 (en) 1997-10-09 2006-05-09 Fotonation Ireland Ltd. Red-eye filter method and apparatus
KR100456619B1 (ko) * 2001-12-05 2004-11-10 한국전자통신연구원 에스.브이.엠(svm)을 이용한 얼굴 등록/인증 시스템 및방법
US7391906B2 (en) * 2001-12-05 2008-06-24 Microsoft Corporation Methods and system for providing image object boundary definition by particle filtering
AU2002318862B2 (en) * 2001-12-19 2005-02-10 Canon Kabushiki Kaisha A Method for Video Object Detection and Tracking Using a Dense Motion or Range Field
AU2003280516A1 (en) * 2002-07-01 2004-01-19 The Regents Of The University Of California Digital processing of video images
JP4013684B2 (ja) * 2002-07-23 2007-11-28 オムロン株式会社 個人認証システムにおける不正登録防止装置
US7177470B2 (en) * 2002-11-13 2007-02-13 Koninklijke Philips Electronics N. V. Method of and system for detecting uniform color segments
GB2395779A (en) * 2002-11-29 2004-06-02 Sony Uk Ltd Face detection
GB2395780A (en) * 2002-11-29 2004-06-02 Sony Uk Ltd Face detection
US7440593B1 (en) * 2003-06-26 2008-10-21 Fotonation Vision Limited Method of improving orientation and color balance of digital images using face detection information
US7970182B2 (en) 2005-11-18 2011-06-28 Tessera Technologies Ireland Limited Two stage detection for photographic eye artifacts
US8036458B2 (en) 2007-11-08 2011-10-11 DigitalOptics Corporation Europe Limited Detecting redeye defects in digital images
US7844076B2 (en) 2003-06-26 2010-11-30 Fotonation Vision Limited Digital image processing using face detection and skin tone information
US8553949B2 (en) 2004-01-22 2013-10-08 DigitalOptics Corporation Europe Limited Classification and organization of consumer digital images using workflow, and face detection and recognition
US8155397B2 (en) * 2007-09-26 2012-04-10 DigitalOptics Corporation Europe Limited Face tracking in a camera processor
US8170294B2 (en) 2006-11-10 2012-05-01 DigitalOptics Corporation Europe Limited Method of detecting redeye in a digital image
US7565030B2 (en) 2003-06-26 2009-07-21 Fotonation Vision Limited Detecting orientation of digital images using face detection information
US8363951B2 (en) 2007-03-05 2013-01-29 DigitalOptics Corporation Europe Limited Face recognition training method and apparatus
US8593542B2 (en) 2005-12-27 2013-11-26 DigitalOptics Corporation Europe Limited Foreground/background separation using reference images
US7792970B2 (en) 2005-06-17 2010-09-07 Fotonation Vision Limited Method for establishing a paired connection between media devices
US8494286B2 (en) 2008-02-05 2013-07-23 DigitalOptics Corporation Europe Limited Face detection in mid-shot digital images
US8189927B2 (en) 2007-03-05 2012-05-29 DigitalOptics Corporation Europe Limited Face categorization and annotation of a mobile phone contact list
US7336821B2 (en) 2006-02-14 2008-02-26 Fotonation Vision Limited Automatic detection and correction of non-red eye flash defects
US7792335B2 (en) 2006-02-24 2010-09-07 Fotonation Vision Limited Method and apparatus for selective disqualification of digital images
US8682097B2 (en) 2006-02-14 2014-03-25 DigitalOptics Corporation Europe Limited Digital image enhancement with reference images
US8254674B2 (en) 2004-10-28 2012-08-28 DigitalOptics Corporation Europe Limited Analyzing partial face regions for red-eye detection in acquired digital images
US7680342B2 (en) 2004-08-16 2010-03-16 Fotonation Vision Limited Indoor/outdoor classification in digital images
US7616233B2 (en) * 2003-06-26 2009-11-10 Fotonation Vision Limited Perfecting of digital image capture parameters within acquisition devices using face detection
US8896725B2 (en) 2007-06-21 2014-11-25 Fotonation Limited Image capture device with contemporaneous reference image capture mechanism
US7920723B2 (en) 2005-11-18 2011-04-05 Tessera Technologies Ireland Limited Two stage detection for photographic eye artifacts
US7689009B2 (en) 2005-11-18 2010-03-30 Fotonation Vision Ltd. Two stage detection for photographic eye artifacts
US9129381B2 (en) 2003-06-26 2015-09-08 Fotonation Limited Modification of post-viewing parameters for digital images using image region or feature information
US8498452B2 (en) 2003-06-26 2013-07-30 DigitalOptics Corporation Europe Limited Digital image processing using face detection information
US8948468B2 (en) 2003-06-26 2015-02-03 Fotonation Limited Modification of viewing parameters for digital images using face detection information
US8989453B2 (en) 2003-06-26 2015-03-24 Fotonation Limited Digital image processing using face detection information
US9692964B2 (en) 2003-06-26 2017-06-27 Fotonation Limited Modification of post-viewing parameters for digital images using image region or feature information
US7620218B2 (en) * 2006-08-11 2009-11-17 Fotonation Ireland Limited Real-time face tracking with reference images
US7362368B2 (en) * 2003-06-26 2008-04-22 Fotonation Vision Limited Perfecting the optics within a digital image acquisition device using face detection
US7471846B2 (en) 2003-06-26 2008-12-30 Fotonation Vision Limited Perfecting the effect of flash within an image acquisition devices using face detection
US8330831B2 (en) * 2003-08-05 2012-12-11 DigitalOptics Corporation Europe Limited Method of gathering visual meta data using a reference image
US7269292B2 (en) 2003-06-26 2007-09-11 Fotonation Vision Limited Digital image adjustable compression and resolution using face detection information
US7574016B2 (en) 2003-06-26 2009-08-11 Fotonation Vision Limited Digital image processing using face detection information
JP2005044330A (ja) * 2003-07-24 2005-02-17 Univ Of California San Diego 弱仮説生成装置及び方法、学習装置及び方法、検出装置及び方法、表情学習装置及び方法、表情認識装置及び方法、並びにロボット装置
US8520093B2 (en) 2003-08-05 2013-08-27 DigitalOptics Corporation Europe Limited Face tracker and partial face tracker for red-eye filter method and apparatus
US9412007B2 (en) 2003-08-05 2016-08-09 Fotonation Limited Partial face detector red-eye filter method and apparatus
US20050140801A1 (en) * 2003-08-05 2005-06-30 Yury Prilutsky Optimized performance and performance for red-eye filter method and apparatus
US20050047664A1 (en) * 2003-08-27 2005-03-03 Nefian Ara Victor Identifying a speaker using markov models
US20050080849A1 (en) * 2003-10-09 2005-04-14 Wee Susie J. Management system for rich media environments
US20050125223A1 (en) * 2003-12-05 2005-06-09 Ajay Divakaran Audio-visual highlights detection using coupled hidden markov models
GB2409029A (en) * 2003-12-11 2005-06-15 Sony Uk Ltd Face detection
GB2409031A (en) * 2003-12-11 2005-06-15 Sony Uk Ltd Face detection
US7525584B2 (en) * 2004-01-05 2009-04-28 Lifesize Communications, Inc. Fast edge directed demosaicing
KR101017362B1 (ko) * 2004-01-08 2011-02-28 삼성전자주식회사 다이나믹 영상 재생을 위한 자동 줌 장치 및 방법
US7564994B1 (en) 2004-01-22 2009-07-21 Fotonation Vision Limited Classification system for consumer digital images using automatic workflow and face detection and recognition
US7486815B2 (en) * 2004-02-20 2009-02-03 Microsoft Corporation Method and apparatus for scene learning and three-dimensional tracking using stereo video cameras
US7636489B2 (en) * 2004-04-16 2009-12-22 Apple Inc. Blur computation algorithm
US7831094B2 (en) * 2004-04-27 2010-11-09 Honda Motor Co., Ltd. Simultaneous localization and mapping using multiple view feature descriptors
JP2005346806A (ja) * 2004-06-02 2005-12-15 Funai Electric Co Ltd Dvdレコーダおよび記録再生装置
US7894647B2 (en) * 2004-06-21 2011-02-22 Siemens Medical Solutions Usa, Inc. System and method for 3D contour tracking of anatomical structures
US7650011B2 (en) * 2004-07-09 2010-01-19 Honda Motor Co., Inc. Visual tracking using incremental fisher discriminant analysis
US7457435B2 (en) * 2004-11-17 2008-11-25 Euclid Discoveries, Llc Apparatus and method for processing video data
JP4928451B2 (ja) 2004-07-30 2012-05-09 ユークリッド・ディスカバリーズ・エルエルシー ビデオデータを処理する装置および方法
US9743078B2 (en) 2004-07-30 2017-08-22 Euclid Discoveries, Llc Standards-compliant model-based video encoding and decoding
US7508990B2 (en) * 2004-07-30 2009-03-24 Euclid Discoveries, Llc Apparatus and method for processing video data
US8902971B2 (en) 2004-07-30 2014-12-02 Euclid Discoveries, Llc Video compression repository and model reuse
US9578345B2 (en) 2005-03-31 2017-02-21 Euclid Discoveries, Llc Model-based video encoding and decoding
US9532069B2 (en) 2004-07-30 2016-12-27 Euclid Discoveries, Llc Video compression repository and model reuse
US7436981B2 (en) * 2005-01-28 2008-10-14 Euclid Discoveries, Llc Apparatus and method for processing video data
US7457472B2 (en) * 2005-03-31 2008-11-25 Euclid Discoveries, Llc Apparatus and method for processing video data
JP2006048322A (ja) * 2004-08-04 2006-02-16 Seiko Epson Corp オブジェクト画像検出装置、顔画像検出プログラムおよび顔画像検出方法
KR100668303B1 (ko) * 2004-08-04 2007-01-12 삼성전자주식회사 피부색 및 패턴 매칭을 이용한 얼굴 검출 방법
US7430321B2 (en) * 2004-09-09 2008-09-30 Siemens Medical Solutions Usa, Inc. System and method for volumetric tumor segmentation using joint space-intensity likelihood ratio test
AU2005286786B2 (en) * 2004-09-21 2010-02-11 Euclid Discoveries, Llc Apparatus and method for processing video data
US8437502B1 (en) * 2004-09-25 2013-05-07 Cognex Technology And Investment Corporation General pose refinement and tracking tool
JP4843208B2 (ja) * 2004-09-30 2011-12-21 株式会社東芝 デジタルコンテンツ編集装置、デジタルコンテンツ編集方法、デジタルコンテンツ編集プログラムおよびデジタルコンテンツ編集プログラムを記録した記録媒体
KR100754385B1 (ko) * 2004-09-30 2007-08-31 삼성전자주식회사 오디오/비디오 센서를 이용한 위치 파악, 추적 및 분리장치와 그 방법
US8477173B2 (en) * 2004-10-15 2013-07-02 Lifesize Communications, Inc. High definition videoconferencing system
US7864221B2 (en) * 2004-10-15 2011-01-04 Lifesize Communications, Inc. White balance for video applications
US7545435B2 (en) * 2004-10-15 2009-06-09 Lifesize Communications, Inc. Automatic backlight compensation and exposure control
US8320641B2 (en) 2004-10-28 2012-11-27 DigitalOptics Corporation Europe Limited Method and apparatus for red-eye detection using preview or other reference images
US7212665B2 (en) * 2004-11-05 2007-05-01 Honda Motor Co. Human pose estimation with data driven belief propagation
US7796827B2 (en) * 2004-11-30 2010-09-14 Hewlett-Packard Development Company, L.P. Face enhancement in a digital video
GB0426523D0 (en) * 2004-12-02 2005-01-05 British Telecomm Video processing
JP4460528B2 (ja) * 2004-12-14 2010-05-12 本田技研工業株式会社 識別対象識別装置およびそれを備えたロボット
US8488023B2 (en) 2009-05-20 2013-07-16 DigitalOptics Corporation Europe Limited Identifying facial expressions in acquired digital images
US8503800B2 (en) * 2007-03-05 2013-08-06 DigitalOptics Corporation Europe Limited Illumination detection using classifier chains
US7315631B1 (en) 2006-08-11 2008-01-01 Fotonation Vision Limited Real-time face tracking in a digital image acquisition device
US7715597B2 (en) 2004-12-29 2010-05-11 Fotonation Ireland Limited Method and component for image recognition
JP4824411B2 (ja) * 2005-01-20 2011-11-30 パナソニック株式会社 顔抽出装置、半導体集積回路
KR100703699B1 (ko) * 2005-02-05 2007-04-05 삼성전자주식회사 다자간 화상 통신을 제공하는 장치 및 방법
US7512262B2 (en) * 2005-02-25 2009-03-31 Microsoft Corporation Stereo-based image processing
JP4516448B2 (ja) * 2005-02-25 2010-08-04 株式会社デンソーアイティーラボラトリ 領域抽出装置及び領域抽出方法
US8942283B2 (en) 2005-03-31 2015-01-27 Euclid Discoveries, Llc Feature-based hybrid video codec comparing compression efficiency of encodings
JP4836065B2 (ja) * 2005-03-31 2011-12-14 株式会社国際電気通信基礎技術研究所 エッジトラッキング方法及びそのコンピュータプログラム
US8908766B2 (en) * 2005-03-31 2014-12-09 Euclid Discoveries, Llc Computer method and apparatus for processing image data
US8948461B1 (en) * 2005-04-29 2015-02-03 Hewlett-Packard Development Company, L.P. Method and system for estimating the three dimensional position of an object in a three dimensional physical space
US7286707B2 (en) * 2005-04-29 2007-10-23 National Chiao Tung University Object-detection method multi-class Bhattacharyya Boost algorithm used therein
JP4441879B2 (ja) * 2005-06-28 2010-03-31 ソニー株式会社 信号処理装置および方法、プログラム、並びに記録媒体
JP2007072520A (ja) * 2005-09-02 2007-03-22 Sony Corp 映像処理装置
US7519201B2 (en) * 2005-10-28 2009-04-14 Honda Motor Co., Ltd. Detecting humans via their pose
US7599577B2 (en) 2005-11-18 2009-10-06 Fotonation Vision Limited Method and apparatus of correcting hybrid flash artifacts in digital images
US8311129B2 (en) * 2005-12-16 2012-11-13 Lifesize Communications, Inc. Temporal video filtering
US7480870B2 (en) * 2005-12-23 2009-01-20 Apple Inc. Indication of progress towards satisfaction of a user input condition
US7657849B2 (en) 2005-12-23 2010-02-02 Apple Inc. Unlocking a device by performing gestures on an unlock image
JP4564464B2 (ja) * 2006-01-05 2010-10-20 株式会社東芝 デジタルコンテンツ再生装置、方法およびプログラム
US20070171281A1 (en) * 2006-01-23 2007-07-26 Honeywell International Inc. Object initialization in video tracking
US8125509B2 (en) * 2006-01-24 2012-02-28 Lifesize Communications, Inc. Facial recognition for a videoconference
US8487976B2 (en) * 2006-01-24 2013-07-16 Lifesize Communications, Inc. Participant authentication for a videoconference
JP4290164B2 (ja) * 2006-01-31 2009-07-01 キヤノン株式会社 識別領域を示す表示を画像と共に表示させる表示方法、コンピュータ装置に実行させるプログラム、および、撮像装置
US8150155B2 (en) 2006-02-07 2012-04-03 Qualcomm Incorporated Multi-mode region-of-interest video object segmentation
US8265349B2 (en) * 2006-02-07 2012-09-11 Qualcomm Incorporated Intra-mode region-of-interest video object segmentation
US8265392B2 (en) * 2006-02-07 2012-09-11 Qualcomm Incorporated Inter-mode region-of-interest video object segmentation
US7620204B2 (en) * 2006-02-09 2009-11-17 Mitsubishi Electric Research Laboratories, Inc. Method for tracking objects in videos using covariance matrices
JP4532419B2 (ja) * 2006-02-22 2010-08-25 富士フイルム株式会社 特徴点検出方法および装置並びにプログラム
US7804983B2 (en) * 2006-02-24 2010-09-28 Fotonation Vision Limited Digital image acquisition control and correction method and apparatus
KR100717401B1 (ko) * 2006-03-02 2007-05-11 삼성전자주식회사 역방향 누적 히스토그램을 이용한 음성 특징 벡터의 정규화방법 및 그 장치
JP2007249309A (ja) * 2006-03-13 2007-09-27 Toshiba Corp 障害物追跡装置及びその方法
US7773771B2 (en) * 2006-03-15 2010-08-10 Honeywell International Inc. Video data tracker
JP4673241B2 (ja) * 2006-03-20 2011-04-20 日本電信電話株式会社 動体追跡装置、動体追跡方法及びその方法を実現したプログラムを格納した記録媒体
KR100780057B1 (ko) * 2006-04-25 2007-11-29 삼성전자주식회사 동영상 그레쥬얼 샷 변환 장치 및 그 방법
DE602007012246D1 (de) 2006-06-12 2011-03-10 Tessera Tech Ireland Ltd Fortschritte bei der erweiterung der aam-techniken aus grauskalen- zu farbbildern
US20080001614A1 (en) * 2006-06-28 2008-01-03 Thorson Dean E Image Capture Device with Alignment Indicia
US7515740B2 (en) * 2006-08-02 2009-04-07 Fotonation Vision Limited Face recognition with combined PCA-based datasets
US7403643B2 (en) 2006-08-11 2008-07-22 Fotonation Vision Limited Real-time face tracking in a digital image acquisition device
US7916897B2 (en) 2006-08-11 2011-03-29 Tessera Technologies Ireland Limited Face tracking for controlling imaging parameters
JP5044321B2 (ja) * 2006-09-13 2012-10-10 株式会社リコー 撮像装置および被写体検出方法
US7889912B2 (en) * 2006-09-15 2011-02-15 The General Electric Company Method for real-time tracking of cardiac structures in 3D echocardiography
US8437535B2 (en) 2006-09-19 2013-05-07 Roboticvisiontech Llc System and method of determining object pose
US8659654B2 (en) * 2006-10-11 2014-02-25 Microsoft Corporation Image verification with tiered tolerance
US20080154555A1 (en) * 2006-10-13 2008-06-26 Motorola, Inc. Method and apparatus to disambiguate state information for multiple items tracking
US8073196B2 (en) * 2006-10-16 2011-12-06 University Of Southern California Detection and tracking of moving objects from a moving platform in presence of strong parallax
JP2008134939A (ja) * 2006-11-29 2008-06-12 Nippon Telegr & Teleph Corp <Ntt> 動体追跡装置,動体追跡方法,その方法を記述した動体追跡プログラム及びそのプログラムを格納した記録媒体
US7869631B2 (en) * 2006-12-11 2011-01-11 Arcsoft, Inc. Automatic skin color model face detection and mean-shift face tracking
WO2008076942A1 (en) * 2006-12-15 2008-06-26 Braintech Canada, Inc. System and method of identifying objects
US8055067B2 (en) 2007-01-18 2011-11-08 DigitalOptics Corporation Europe Limited Color segmentation
US8553782B2 (en) * 2007-01-23 2013-10-08 Euclid Discoveries, Llc Object archival systems and methods
JP2010517427A (ja) * 2007-01-23 2010-05-20 ユークリッド・ディスカバリーズ・エルエルシー 個人向けのビデオサービスを提供するシステムおよび方法
US8233353B2 (en) * 2007-01-26 2012-07-31 Microsoft Corporation Multi-sensor sound source localization
US8300890B1 (en) * 2007-01-29 2012-10-30 Intellivision Technologies Corporation Person/object image and screening
KR100818289B1 (ko) * 2007-02-02 2008-03-31 삼성전자주식회사 비디오 영상 트레킹 방법 및 장치
DE602008001607D1 (de) * 2007-02-28 2010-08-05 Fotonation Vision Ltd Trennung der direktionalen beleuchtungsvariabilität in der statistischen gesichtsmodellierung auf basis von texturraumzerlegungen
WO2008109708A1 (en) 2007-03-05 2008-09-12 Fotonation Vision Limited Red eye false positive filtering using face location and orientation
WO2008107002A1 (en) 2007-03-05 2008-09-12 Fotonation Vision Limited Face searching and detection in a digital image acquisition device
US8627211B2 (en) 2007-03-30 2014-01-07 Uranus International Limited Method, apparatus, system, medium, and signals for supporting pointer display in a multiple-party communication
US7765266B2 (en) 2007-03-30 2010-07-27 Uranus International Limited Method, apparatus, system, medium, and signals for publishing content created during a communication
US7950046B2 (en) 2007-03-30 2011-05-24 Uranus International Limited Method, apparatus, system, medium, and signals for intercepting a multiple-party communication
US8702505B2 (en) 2007-03-30 2014-04-22 Uranus International Limited Method, apparatus, system, medium, and signals for supporting game piece movement in a multiple-party communication
US7765261B2 (en) 2007-03-30 2010-07-27 Uranus International Limited Method, apparatus, system, medium and signals for supporting a multiple-party communication on a plurality of computer servers
US8060887B2 (en) 2007-03-30 2011-11-15 Uranus International Limited Method, apparatus, system, and medium for supporting multiple-party communications
JP4775306B2 (ja) * 2007-04-23 2011-09-21 ソニー株式会社 画像処理装置、撮像装置、および画像表示制御方法、並びにコンピュータ・プログラム
US7916971B2 (en) 2007-05-24 2011-03-29 Tessera Technologies Ireland Limited Image processing method and apparatus
WO2008146616A1 (ja) * 2007-05-25 2008-12-04 Nec Corporation 画像音響区間群対応付け装置と方法およびプログラム
US8253770B2 (en) * 2007-05-31 2012-08-28 Eastman Kodak Company Residential video communication system
CN101325691B (zh) * 2007-06-14 2010-08-18 清华大学 融合不同生存期的多个观测模型的跟踪方法和跟踪装置
NO327899B1 (no) 2007-07-13 2009-10-19 Tandberg Telecom As Fremgangsmate og system for automatisk kamerakontroll
US20090030683A1 (en) * 2007-07-26 2009-01-29 At&T Labs, Inc System and method for tracking dialogue states using particle filters
US8432449B2 (en) * 2007-08-13 2013-04-30 Fuji Xerox Co., Ltd. Hidden markov model for camera handoff
JP2009059076A (ja) * 2007-08-30 2009-03-19 Toshiba Corp 情報処理装置、プログラム及び情報処理方法
KR102389147B1 (ko) 2007-09-24 2022-04-21 애플 인크. 전자 장치 내의 내장형 인증 시스템들
US8503818B2 (en) 2007-09-25 2013-08-06 DigitalOptics Corporation Europe Limited Eye defect detection in international standards organization images
JP4766495B2 (ja) * 2007-09-28 2011-09-07 株式会社ソニー・コンピュータエンタテインメント 対象物追跡装置および対象物追跡方法
CN101414348A (zh) * 2007-10-19 2009-04-22 三星电子株式会社 多角度人脸识别方法和***
JP4462339B2 (ja) * 2007-12-07 2010-05-12 ソニー株式会社 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
TWI424360B (zh) * 2007-12-31 2014-01-21 Altek Corp Multi-directional face detection method
US8750578B2 (en) * 2008-01-29 2014-06-10 DigitalOptics Corporation Europe Limited Detecting facial expressions in digital images
US8212864B2 (en) 2008-01-30 2012-07-03 DigitalOptics Corporation Europe Limited Methods and apparatuses for using image acquisition data to detect and correct image defects
US7884734B2 (en) * 2008-01-31 2011-02-08 Microsoft Corporation Unique identification of devices using color detection
US20090210491A1 (en) * 2008-02-20 2009-08-20 Microsoft Corporation Techniques to automatically identify participants for a multimedia conference event
JP4991595B2 (ja) 2008-02-21 2012-08-01 株式会社東芝 パーティクルフィルタを使用する追跡システム
JP5072655B2 (ja) * 2008-03-03 2012-11-14 キヤノン株式会社 画像処理装置、画像処理方法、プログラム及び記憶媒体
US8331619B2 (en) * 2008-03-14 2012-12-11 Sony Computer Entertainment Inc. Image processing apparatus and image processing method
US20090241039A1 (en) * 2008-03-19 2009-09-24 Leonardo William Estevez System and method for avatar viewing
US7855737B2 (en) 2008-03-26 2010-12-21 Fotonation Ireland Limited Method of making a digital camera image of a scene including the camera user
US8538171B2 (en) * 2008-03-28 2013-09-17 Honeywell International Inc. Method and system for object detection in images utilizing adaptive scanning
CN102016878B (zh) * 2008-05-08 2015-03-18 纽昂斯通讯公司 定位声音信号源的位置
US8174503B2 (en) 2008-05-17 2012-05-08 David H. Cain Touch-based authentication of a mobile device through user generated pattern creation
US20090290791A1 (en) * 2008-05-20 2009-11-26 Holub Alex David Automatic tracking of people and bodies in video
US8355543B2 (en) * 2008-06-02 2013-01-15 The Hong Kong Polytechnic University Method and system for identifying a person based on their tongue
GB2472932B (en) * 2008-06-13 2012-10-03 Lockheed Corp Method and system for crowd segmentation
US8130257B2 (en) * 2008-06-27 2012-03-06 Microsoft Corporation Speaker and person backlighting for improved AEC and AGC
CN101615291B (zh) * 2008-06-27 2012-10-10 睿致科技股份有限公司 一种反馈式对象侦测方法
US20100017033A1 (en) * 2008-07-18 2010-01-21 Remus Boca Robotic systems with user operable robot control terminals
US8855360B2 (en) * 2008-07-23 2014-10-07 Qualcomm Technologies, Inc. System and method for face tracking
WO2010012448A2 (en) 2008-07-30 2010-02-04 Fotonation Ireland Limited Automatic face and skin beautification using face detection
US8081254B2 (en) 2008-08-14 2011-12-20 DigitalOptics Corporation Europe Limited In-camera based method of detecting defect eye with high accuracy
JP5159515B2 (ja) * 2008-08-26 2013-03-06 キヤノン株式会社 画像処理装置およびその制御方法
JP5077164B2 (ja) * 2008-09-16 2012-11-21 オムロン株式会社 追跡装置及び追跡方法
JP5247337B2 (ja) * 2008-10-02 2013-07-24 キヤノン株式会社 画像認識装置および画像認識方法
CN101727568B (zh) * 2008-10-10 2013-04-17 索尼(中国)有限公司 前景动作估计装置和前景动作估计方法
KR101323439B1 (ko) 2008-11-12 2013-10-29 보드 오브 트러스티스 오브 더 리랜드 스탠포드 주니어 유니버시티 특징 디스크립터를 표현하고 식별하는 방법, 장치 및 컴퓨터 판독가능 저장 매체
US8144945B2 (en) * 2008-12-04 2012-03-27 Nokia Corporation Method, apparatus and computer program product for providing an orientation independent face detector
WO2010063463A2 (en) * 2008-12-05 2010-06-10 Fotonation Ireland Limited Face recognition using face tracker classifier data
KR101179497B1 (ko) * 2008-12-22 2012-09-07 한국전자통신연구원 얼굴 검출 방법 및 장치
TWI492188B (zh) * 2008-12-25 2015-07-11 Univ Nat Chiao Tung 利用多攝影機自動偵測與追蹤多目標的方法及系統
JP5219847B2 (ja) * 2009-01-09 2013-06-26 キヤノン株式会社 画像処理装置及び画像処理方法
US8774498B2 (en) * 2009-01-28 2014-07-08 Xerox Corporation Modeling images as sets of weighted features
JP2010182150A (ja) * 2009-02-06 2010-08-19 Seiko Epson Corp 顔の特徴部位の座標位置を検出する画像処理装置
US9130605B2 (en) 2009-07-09 2015-09-08 Mediatek Inc. Systems and methods for coexistence between plurality of wireless communications modules sharing single antenna
US8229219B1 (en) 2009-08-06 2012-07-24 Google Inc. Full-length video fingerprinting
US8638939B1 (en) 2009-08-20 2014-01-28 Apple Inc. User authentication on an electronic device
KR101092820B1 (ko) * 2009-09-22 2011-12-12 현대자동차주식회사 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템
US8532863B2 (en) * 2009-09-28 2013-09-10 Sri International Audio based robot control and navigation
US8290918B1 (en) * 2009-09-29 2012-10-16 Google Inc. Robust hashing of digital media data
US8379917B2 (en) 2009-10-02 2013-02-19 DigitalOptics Corporation Europe Limited Face recognition performance using additional image features
US8170332B2 (en) * 2009-10-07 2012-05-01 Seiko Epson Corporation Automatic red-eye object classification in digital images using a boosting-based framework
US8705793B2 (en) * 2009-10-08 2014-04-22 University Of Southern California Object tracking by hierarchical association of detection responses
TWI419058B (zh) * 2009-10-23 2013-12-11 Univ Nat Chiao Tung Image recognition model and the image recognition method using the image recognition model
US8175617B2 (en) 2009-10-28 2012-05-08 Digimarc Corporation Sensor-based mobile search, related methods and systems
CN102844771B (zh) * 2009-11-19 2015-08-05 诺基亚公司 用旋转不变特征描述符进行跟踪和识别的方法和设备
WO2011067788A2 (en) 2009-12-02 2011-06-09 Tata Consultancy Services Limited A cost effective and robust system and method for eye tracking and driver drowsiness identification
JP5476955B2 (ja) * 2009-12-04 2014-04-23 ソニー株式会社 画像処理装置および画像処理方法、並びにプログラム
KR101652261B1 (ko) * 2009-12-24 2016-08-30 삼성전자주식회사 카메라를 이용한 오브젝트 검출 방법
US8933884B2 (en) 2010-01-15 2015-01-13 Microsoft Corporation Tracking groups of users in motion capture system
US8265341B2 (en) * 2010-01-25 2012-09-11 Microsoft Corporation Voice-body identity correlation
KR101129328B1 (ko) * 2010-03-03 2012-03-26 광주과학기술원 타겟 추적 장치 및 방법
US9240053B2 (en) 2010-03-15 2016-01-19 Bae Systems Plc Target tracking
GB201004232D0 (en) * 2010-03-15 2010-04-28 Bae Systems Plc Target tracking
US8635066B2 (en) * 2010-04-14 2014-01-21 T-Mobile Usa, Inc. Camera-assisted noise cancellation and speech recognition
WO2011149558A2 (en) 2010-05-28 2011-12-01 Abelow Daniel H Reality alternate
US8464183B2 (en) * 2010-06-03 2013-06-11 Hewlett-Packard Development Company, L.P. System and method for distinguishing multimodal commands directed at a machine from ambient human communications
US10614289B2 (en) * 2010-06-07 2020-04-07 Affectiva, Inc. Facial tracking with classifiers
US11935281B2 (en) 2010-06-07 2024-03-19 Affectiva, Inc. Vehicular in-cabin facial tracking using machine learning
WO2011161307A1 (en) * 2010-06-23 2011-12-29 Nokia Corporation Method, apparatus and computer program product for tracking face portion
JP5522389B2 (ja) * 2010-07-01 2014-06-18 独立行政法人情報通信研究機構 類似度算出装置、類似度算出方法、及びプログラム
US8528072B2 (en) 2010-07-23 2013-09-03 Apple Inc. Method, apparatus and system for access mode control of a device
US9594960B2 (en) 2010-09-14 2017-03-14 Microsoft Technology Licensing, Llc Visualizing video within existing still images
US20120095337A1 (en) * 2010-10-14 2012-04-19 Radu Alexandru Systems and methods to improve ultrasound beamforming
US8547354B2 (en) 2010-11-05 2013-10-01 Apple Inc. Device, method, and graphical user interface for manipulating soft keyboards
US8587547B2 (en) 2010-11-05 2013-11-19 Apple Inc. Device, method, and graphical user interface for manipulating soft keyboards
TW201220127A (en) * 2010-11-11 2012-05-16 Inst Information Industry Interactive device and method thereof
CN102486676A (zh) * 2010-12-03 2012-06-06 财团法人资讯工业策进会 人机互动装置及其方法
KR101972356B1 (ko) * 2010-12-21 2019-04-25 한국전자통신연구원 상반신 검출장치 및 검출방법
TW201227399A (en) * 2010-12-24 2012-07-01 Hon Hai Prec Ind Co Ltd Motion recognition module, electronic device appling the motion recognition module and method thereof
US9092132B2 (en) 2011-01-24 2015-07-28 Apple Inc. Device, method, and graphical user interface with a dynamic gesture disambiguation threshold
US20120207356A1 (en) * 2011-02-10 2012-08-16 Murphy William A Targeted content acquisition using image analysis
JP4784709B1 (ja) * 2011-03-10 2011-10-05 オムロン株式会社 対象物追跡装置、対象物追跡方法、および制御プログラム
CN103003842B (zh) * 2011-03-22 2015-08-19 株式会社摩如富 运动物体检测装置、运动物体检测方法、运动物体跟踪装置、运动物体跟踪方法
US8306267B1 (en) * 2011-05-09 2012-11-06 Google Inc. Object tracking
US9025832B2 (en) * 2011-06-01 2015-05-05 Microsoft Technology Licensing, Llc Automated sensor driven friending
US11165963B2 (en) 2011-06-05 2021-11-02 Apple Inc. Device, method, and graphical user interface for accessing an application in a locked device
MX344762B (es) 2011-08-05 2016-12-15 Fox Sports Productions Inc Captura selectiva y presentacion de porciones de imagen nativas.
US11039109B2 (en) 2011-08-05 2021-06-15 Fox Sports Productions, Llc System and method for adjusting an image for a vehicle mounted camera
JP5836095B2 (ja) * 2011-12-05 2015-12-24 キヤノン株式会社 画像処理装置、画像処理方法
CN103164441B (zh) * 2011-12-14 2017-09-19 富泰华工业(深圳)有限公司 基于脸部特征值对图片分类的电子装置及方法
CN102595024B (zh) * 2011-12-16 2014-10-22 飞狐信息技术(天津)有限公司 一种数字视频图像修复方法与装置
CN104011735B (zh) * 2011-12-26 2018-03-30 英特尔公司 基于车辆的对乘员音频和可视输入的确定
US9372978B2 (en) 2012-01-20 2016-06-21 Apple Inc. Device, method, and graphical user interface for accessing an application in a locked device
JP5306500B2 (ja) * 2012-02-29 2013-10-02 株式会社東芝 画像処理装置、画像処理方法及びプログラム
US8965046B2 (en) 2012-03-16 2015-02-24 Qualcomm Technologies, Inc. Method, apparatus, and manufacture for smiling face detection
US8761442B2 (en) 2012-03-29 2014-06-24 The Nielsen Company (Us), Llc Methods and apparatus to count people in images
US9092675B2 (en) 2012-03-29 2015-07-28 The Nielsen Company (Us), Llc Methods and apparatus to count people in images
US8660307B2 (en) 2012-03-29 2014-02-25 The Nielsen Company (Us), Llc Methods and apparatus to count people in images
US9275285B2 (en) 2012-03-29 2016-03-01 The Nielsen Company (Us), Llc Methods and apparatus to count people in images
US9275467B2 (en) 2012-03-29 2016-03-01 Analog Devices, Inc. Incremental contour-extraction scheme for binary image segments
CN102663775A (zh) * 2012-03-30 2012-09-12 温州大学 面向低帧率视频的目标跟踪方法
JP2015111746A (ja) * 2012-04-09 2015-06-18 ソニー株式会社 画像処理装置、画像処理方法、プログラム
US9495591B2 (en) * 2012-04-13 2016-11-15 Qualcomm Incorporated Object recognition using multi-modal matching scheme
CN103458220A (zh) * 2012-06-04 2013-12-18 联想(北京)有限公司 一种图像处理方法以及电子设备
US8441548B1 (en) * 2012-06-15 2013-05-14 Google Inc. Facial image quality assessment
US9256957B1 (en) 2012-09-13 2016-02-09 Bae Systems Information And Electronic Systems Integration Inc. Method for moving-object detection tracking identification cueing of videos
US20150249887A1 (en) * 2012-09-14 2015-09-03 Nec Casio Mobile Communications, Ltd. Speaker device and electronic apparatus
US20140098233A1 (en) * 2012-10-05 2014-04-10 Sensormatic Electronics, LLC Access Control Reader with Audio Spatial Filtering
US8957940B2 (en) 2013-03-11 2015-02-17 Cisco Technology, Inc. Utilizing a smart camera system for immersive telepresence
US9098737B2 (en) 2013-03-12 2015-08-04 Dell Products L.P. Efficient 360 degree video processing
US9704259B2 (en) 2013-03-26 2017-07-11 Hitachi Kokusai Electric Inc. People counting device and people counting method
EP2833325A1 (en) * 2013-07-30 2015-02-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for resource-adaptive object detection and tracking
US9311639B2 (en) 2014-02-11 2016-04-12 Digimarc Corporation Methods, apparatus and arrangements for device to device communication
US10091507B2 (en) 2014-03-10 2018-10-02 Euclid Discoveries, Llc Perceptual optimization for model-based video encoding
CA2942336A1 (en) 2014-03-10 2015-09-17 Euclid Discoveries, Llc Continuous block tracking for temporal prediction in video encoding
US10097851B2 (en) 2014-03-10 2018-10-09 Euclid Discoveries, Llc Perceptual optimization for model-based video encoding
US10127783B2 (en) 2014-07-07 2018-11-13 Google Llc Method and device for processing motion events
US9354794B2 (en) 2014-07-07 2016-05-31 Google Inc. Method and system for performing client-side zooming of a remote video feed
US9420331B2 (en) 2014-07-07 2016-08-16 Google Inc. Method and system for categorizing detected motion events
US9501915B1 (en) 2014-07-07 2016-11-22 Google Inc. Systems and methods for analyzing a video stream
US9449229B1 (en) 2014-07-07 2016-09-20 Google Inc. Systems and methods for categorizing motion event candidates
US10140827B2 (en) 2014-07-07 2018-11-27 Google Llc Method and system for processing motion event notifications
USD782495S1 (en) 2014-10-07 2017-03-28 Google Inc. Display screen or portion thereof with graphical user interface
US9665804B2 (en) * 2014-11-12 2017-05-30 Qualcomm Incorporated Systems and methods for tracking an object
US11159854B2 (en) 2014-12-13 2021-10-26 Fox Sports Productions, Llc Systems and methods for tracking and tagging objects within a broadcast
US11758238B2 (en) 2014-12-13 2023-09-12 Fox Sports Productions, Llc Systems and methods for displaying wind characteristics and effects within a broadcast
CN105893920B (zh) 2015-01-26 2019-12-27 阿里巴巴集团控股有限公司 一种人脸活体检测方法和装置
US9245547B1 (en) * 2015-02-19 2016-01-26 Allegro Microsystems, Llc Magnetic sensor having enhanced linearization
US10636154B2 (en) * 2015-04-01 2020-04-28 Owl Labs, Inc. Scaling sub-scenes within a wide angle scene by setting a width of a sub-scene video signal
US9361011B1 (en) 2015-06-14 2016-06-07 Google Inc. Methods and systems for presenting multiple live video feeds in a user interface
EP3115967A1 (en) 2015-07-08 2017-01-11 Thomson Licensing A method for controlling tracking using a color model, corresponding apparatus and non-transitory program storage device
CN105760826B (zh) * 2016-02-03 2020-11-13 歌尔股份有限公司 一种人脸跟踪方法、装置和智能终端
US9600717B1 (en) * 2016-02-25 2017-03-21 Zepp Labs, Inc. Real-time single-view action recognition based on key pose analysis for sports videos
CN105825524B (zh) * 2016-03-10 2018-07-24 浙江生辉照明有限公司 目标跟踪方法和装置
US10506237B1 (en) 2016-05-27 2019-12-10 Google Llc Methods and devices for dynamic adaptation of encoding bitrate for video streaming
US10380429B2 (en) 2016-07-11 2019-08-13 Google Llc Methods and systems for person detection in a video feed
CN106251366A (zh) * 2016-07-27 2016-12-21 潘燕 使用多种线索对多个人进行自动探测和追踪的***
US10467509B2 (en) 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer
US11100384B2 (en) 2017-02-14 2021-08-24 Microsoft Technology Licensing, Llc Intelligent device user interactions
US11010601B2 (en) 2017-02-14 2021-05-18 Microsoft Technology Licensing, Llc Intelligent assistant device communicating non-verbal cues
US9989633B1 (en) 2017-03-15 2018-06-05 Cypress Semiconductor Corporation Estimating angle measurements for source tracking using a phased array system
JP2017146990A (ja) * 2017-04-26 2017-08-24 株式会社東芝 物体検出装置及びその検出方法
US11783010B2 (en) 2017-05-30 2023-10-10 Google Llc Systems and methods of person recognition in video streams
US10181192B1 (en) * 2017-06-30 2019-01-15 Canon Kabushiki Kaisha Background modelling of sport videos
WO2019054045A1 (ja) * 2017-09-15 2019-03-21 富士フイルム株式会社 医療画像処理装置、医療画像処理方法及び医療画像処理プログラム
US10664688B2 (en) 2017-09-20 2020-05-26 Google Llc Systems and methods of detecting and responding to a visitor to a smart home environment
US10535361B2 (en) * 2017-10-19 2020-01-14 Kardome Technology Ltd. Speech enhancement using clustering of cues
CN108010066B (zh) * 2017-11-23 2021-10-22 中国航空工业集团公司洛阳电光设备研究所 基于红外目标灰度互相关和角度信息的多假设跟踪方法
CN108416265A (zh) * 2018-01-30 2018-08-17 深圳大学 一种人脸检测方法、装置、设备及存储介质
JP6977624B2 (ja) * 2018-03-07 2021-12-08 オムロン株式会社 物体検出装置、物体検出方法、およびプログラム
CN108182337B (zh) * 2018-03-12 2021-07-09 重庆科技学院 一种基于ScMiUKFNN算法的天然气净化工艺建模方法
US10523864B2 (en) 2018-04-10 2019-12-31 Facebook, Inc. Automated cinematic decisions based on descriptive models
JP6919619B2 (ja) * 2018-04-12 2021-08-18 オムロン株式会社 画像解析装置、方法およびプログラム
JP6973258B2 (ja) * 2018-04-13 2021-11-24 オムロン株式会社 画像解析装置、方法およびプログラム
CN110008802B (zh) 2018-12-04 2023-08-29 创新先进技术有限公司 从多个脸部中选择目标脸部及脸部识别比对方法、装置
CN109671317B (zh) * 2019-01-30 2021-05-25 重庆康普达科技有限公司 基于ar的脸谱互动教学方法
US11343545B2 (en) 2019-03-27 2022-05-24 International Business Machines Corporation Computer-implemented event detection using sonification
CN110210872A (zh) * 2019-05-07 2019-09-06 上海上湖信息技术有限公司 证件真伪鉴定方法、装置以及计算机可读存储介质
CN110567441B (zh) * 2019-07-29 2021-09-28 广东星舆科技有限公司 基于粒子滤波的定位方法、定位装置、建图及定位的方法
CN113544692A (zh) * 2019-10-10 2021-10-22 谷歌有限责任公司 用于面部认证的摄像头同步和图像标记
CN111209845A (zh) * 2020-01-03 2020-05-29 平安科技(深圳)有限公司 人脸识别方法、装置、计算机设备及存储介质
US11234090B2 (en) * 2020-01-06 2022-01-25 Facebook Technologies, Llc Using audio visual correspondence for sound source identification
US11087777B1 (en) 2020-02-11 2021-08-10 Facebook Technologies, Llc Audio visual correspondence based signal augmentation
WO2022031872A1 (en) 2020-08-04 2022-02-10 Owl Labs Inc. Designated view within a multi-view composited webcam signal
JP2023541551A (ja) 2020-08-24 2023-10-03 アウル ラブス、インク. 複数のカメラからのウェブカム信号のマージ
US11763595B2 (en) * 2020-08-27 2023-09-19 Sensormatic Electronics, LLC Method and system for identifying, tracking, and collecting data on a person of interest
CN112839165B (zh) * 2020-11-27 2022-07-29 深圳市捷视飞通科技股份有限公司 人脸跟踪摄像的实现方法、装置、计算机设备和存储介质
US11922026B2 (en) 2022-02-16 2024-03-05 T-Mobile Usa, Inc. Preventing data loss in a filesystem by creating duplicates of data in parallel, such as charging data in a wireless telecommunications network
CN117475360B (zh) * 2023-12-27 2024-03-26 南京纳实医学科技有限公司 基于改进型mlstm-fcn的音视频特点的生物特征提取与分析方法

Family Cites Families (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4975960A (en) * 1985-06-03 1990-12-04 Petajan Eric D Electronic facial tracking and detection system and method and apparatus for automated speech recognition
EP0330455A3 (en) * 1988-02-22 1990-07-04 Kabushiki Kaisha Toshiba Image encoding apparatus
JP3033622B2 (ja) * 1991-10-31 2000-04-17 日本電気株式会社 Tv会議システム
JPH08235363A (ja) * 1992-06-18 1996-09-13 Nec Corp コンピュータ視覚プロセス
GB9308952D0 (en) * 1993-04-30 1993-06-16 Philips Electronics Uk Ltd Tracking objects in video sequences
US6798834B1 (en) * 1996-08-15 2004-09-28 Mitsubishi Denki Kabushiki Kaisha Image coding apparatus with segment classification and segmentation-type motion prediction circuit
US6330023B1 (en) * 1994-03-18 2001-12-11 American Telephone And Telegraph Corporation Video signal processing systems and methods utilizing automated speech analysis
US5500671A (en) * 1994-10-25 1996-03-19 At&T Corp. Video conference system and method of providing parallax correction and a sense of presence
US5805733A (en) * 1994-12-12 1998-09-08 Apple Computer, Inc. Method and system for detecting scenes and summarizing video sequences
JPH08221567A (ja) * 1995-02-10 1996-08-30 Fuji Photo Film Co Ltd 色領域分離方法
KR0119724Y1 (ko) * 1995-03-29 1998-08-01 배순훈 헤드드럼 조립체
JP3809210B2 (ja) * 1995-12-28 2006-08-16 キヤノン株式会社 画像抽出装置
JP3850076B2 (ja) * 1996-04-24 2006-11-29 富士写真フイルム株式会社 動的輪郭抽出方法
JP3263311B2 (ja) * 1996-04-24 2002-03-04 ニッタン株式会社 対象検知装置および対象検知方法および対象監視システム
JPH09293165A (ja) 1996-04-26 1997-11-11 Ace Denken:Kk ポイントカード精算機
US5864630A (en) * 1996-11-20 1999-01-26 At&T Corp Multi-modal method for locating objects in images
US6184926B1 (en) * 1996-11-26 2001-02-06 Ncr Corporation System and method for detecting a human face in uncontrolled environments
US5832115A (en) * 1997-01-02 1998-11-03 Lucent Technologies Inc. Ternary image templates for improved semantic compression
US6229562B1 (en) * 1997-07-08 2001-05-08 Stanley H. Kremen System and apparatus for the recording and projection of images in substantially 3-dimensional format
US6616836B1 (en) * 1997-07-29 2003-09-09 Dana Corporation Filter element for oil pans and filter element/oil pan combination
US6148092A (en) * 1998-01-08 2000-11-14 Sharp Laboratories Of America, Inc System for detecting skin-tone regions within an image
JP2948186B2 (ja) * 1998-02-10 1999-09-13 株式会社エイ・ティ・アール知能映像通信研究所 顔動画像からの表情抽出方法
JP3641126B2 (ja) * 1998-03-16 2005-04-20 株式会社東芝 画像処理方法および画像処理装置
AU3639699A (en) * 1998-04-13 1999-11-01 Eyematic Interfaces, Inc. Wavelet-based facial motion capture for avatar animation
US6593956B1 (en) 1998-05-15 2003-07-15 Polycom, Inc. Locating an audio source
US6404900B1 (en) * 1998-06-22 2002-06-11 Sharp Laboratories Of America, Inc. Method for robust human face tracking in presence of multiple persons
WO2000016243A1 (en) * 1998-09-10 2000-03-23 Mate - Media Access Technologies Ltd. Method of face indexing for efficient browsing and searching ofp eople in video
JP2002525988A (ja) 1998-09-24 2002-08-13 ザ トラスティーズ オブ コロンビア ユニヴァーシティ イン ザ シティ オブ ニューヨーク 意味的映像オブジェクト分割のためのシステムおよび方法
DE19847261A1 (de) * 1998-10-05 2000-04-06 Dcs Dialog Communication Syste Verfahren und System zur Personenerkennung mit modellbasierter Gesichtsfindung
US6606111B1 (en) * 1998-10-09 2003-08-12 Sony Corporation Communication apparatus and method thereof
US6263113B1 (en) * 1998-12-11 2001-07-17 Philips Electronics North America Corp. Method for detecting a face in a digital image
US7057636B1 (en) 1998-12-22 2006-06-06 Koninklijke Philips Electronics N.V. Conferencing system and method for the automatic determination of preset positions corresponding to participants in video-mediated communications
JP2000216979A (ja) * 1999-01-22 2000-08-04 Canon Inc 画像抽出方法及び装置並びに記憶媒体
WO2000067959A1 (fr) * 1999-05-10 2000-11-16 Sony Corporation Dispositif robotique et procede de commande associe
US6219640B1 (en) * 1999-08-06 2001-04-17 International Business Machines Corporation Methods and apparatus for audio-visual speaker recognition and utterance verification
US6594629B1 (en) * 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
US7015954B1 (en) * 1999-08-09 2006-03-21 Fuji Xerox Co., Ltd. Automatic video system using multiple cameras
US6780232B2 (en) * 1999-08-20 2004-08-24 The Walman Optical Company Coating composition yielding abrasion-resistant tiniable coating
JP2001060265A (ja) * 1999-08-24 2001-03-06 Sony Corp 画像処理装置および方法、並びに媒体
US6539099B1 (en) * 1999-08-30 2003-03-25 Electric Planet System and method for visual chat
GB2359971A (en) * 1999-11-18 2001-09-05 Anthropics Technology Ltd Image processing system using hierarchical set of functions
US7123745B1 (en) * 1999-11-24 2006-10-17 Koninklijke Philips Electronics N.V. Method and apparatus for detecting moving objects in video conferencing and other applications
US6754389B1 (en) * 1999-12-01 2004-06-22 Koninklijke Philips Electronics N.V. Program classification using object tracking
GB2357650A (en) * 1999-12-23 2001-06-27 Mitsubishi Electric Inf Tech Method for tracking an area of interest in a video image, and for transmitting said area
US6574353B1 (en) * 2000-02-08 2003-06-03 University Of Washington Video object tracking using a hierarchy of deformable templates
US6940545B1 (en) * 2000-02-28 2005-09-06 Eastman Kodak Company Face detecting camera and method
US6567775B1 (en) * 2000-04-26 2003-05-20 International Business Machines Corporation Fusion of audio and video based speaker identification for multimedia information access
US6754373B1 (en) * 2000-07-14 2004-06-22 International Business Machines Corporation System and method for microphone activation using visual speech cues
US6766042B2 (en) * 2001-04-26 2004-07-20 Memphis Eye & Contact Associates System to automatically detect eye corneal striae
TW505892B (en) * 2001-05-25 2002-10-11 Ind Tech Res Inst System and method for promptly tracking multiple faces
US6937266B2 (en) 2001-06-14 2005-08-30 Microsoft Corporation Automated online broadcasting system and method using an omni-directional camera system for viewing meetings over a computer network
JP3863394B2 (ja) * 2001-07-04 2006-12-27 住友電装株式会社 ワイヤーハーネス配索用摺動部品

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100902771B1 (ko) * 2007-10-29 2009-06-15 재단법인 포항산업과학연구원 파티클 필터를 이용한 다중물체 추적방법
KR101402206B1 (ko) * 2014-04-10 2014-05-30 국방과학연구소 운동학 및 형상 정보를 활용한 다중 표적 추적 방법

Also Published As

Publication number Publication date
EP1330128A2 (en) 2003-07-23
ATE397354T1 (de) 2008-06-15
ATE551676T1 (de) 2012-04-15
US7171025B2 (en) 2007-01-30
EP1330128B1 (en) 2008-05-28
EP1942679A3 (en) 2011-03-23
EP1942679B1 (en) 2012-03-28
CN101093541A (zh) 2007-12-26
EP1838104B1 (en) 2012-07-11
EP1838104A2 (en) 2007-09-26
JP4607984B2 (ja) 2011-01-05
EP1944975A3 (en) 2011-04-06
US7151843B2 (en) 2006-12-19
US20050210103A1 (en) 2005-09-22
CN100334881C (zh) 2007-08-29
EP1944975A2 (en) 2008-07-16
CN100583124C (zh) 2010-01-20
JP4142420B2 (ja) 2008-09-03
JP4642093B2 (ja) 2011-03-02
JP2003216951A (ja) 2003-07-31
KR100905793B1 (ko) 2009-07-02
EP1944975B1 (en) 2012-08-01
EP1838104A3 (en) 2009-09-30
EP1330128A3 (en) 2006-02-08
TWI222031B (en) 2004-10-11
US7130446B2 (en) 2006-10-31
JP2008204479A (ja) 2008-09-04
JP4536789B2 (ja) 2010-09-01
JP2008243215A (ja) 2008-10-09
US20030103647A1 (en) 2003-06-05
JP2008243214A (ja) 2008-10-09
CN1423487A (zh) 2003-06-11
EP1942679A2 (en) 2008-07-09
US20050147278A1 (en) 2005-07-07
US7433495B2 (en) 2008-10-07
US20050188013A1 (en) 2005-08-25
US7428315B2 (en) 2008-09-23
DE60226838D1 (de) 2008-07-10
US20050129278A1 (en) 2005-06-16

Similar Documents

Publication Publication Date Title
KR100905793B1 (ko) 다수의 큐를 사용하여 다수의 개인들의 자동 검출 및 트래킹을 하기 위한 방법, 시스템, 컴퓨터 판독가능 매체 및 컴퓨팅 장치
Chen et al. Real-time speaker tracking using particle filter sensor fusion
US6882959B2 (en) System and process for tracking an object state using a particle filter sensor fusion technique
US7343289B2 (en) System and method for audio/video speaker detection
US7266225B2 (en) Face direction estimation using a single gray-level image
US20100208078A1 (en) Horizontal gaze estimation for video conferencing
Tsalakanidou et al. Integration of 2D and 3D images for enhanced face authentication
Cordea et al. Real-time 2 (1/2)-D head pose recovery for model-based video-coding
Wallhoff et al. Face tracking in meeting room scenarios using omnidirectional views
Zhang et al. Robust multi-view multi-camera face detection inside smart rooms using spatio-temporal dynamic programming
Lu et al. A particle filter without dynamics for robust 3d face tracking
Canton-Ferrer et al. Multimodal real-time focus of attention estimation in smartrooms
Hu et al. Robust attentive behavior detection by non-linear head pose embedding and estimation
Zhang et al. Face shape extraction and recognition using 3d morphing and distance mapping
Rui et al. System and process for tracking an object state using a particle filter sensor fusion technique

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130521

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20140516

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20150515

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20160527

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee