KR20090131626A

KR20090131626A - 영상 데이터내의 특정 클래스의 오브젝트를 세그멘테이션하기 위한 시스템 및 방법

Info

Publication number: KR20090131626A
Application number: KR1020090003399A
Authority: KR
Inventors: 아룬쿠마르 모하난체티아; 닝 쑤
Original assignee: 삼성전자주식회사
Priority date: 2008-06-18
Filing date: 2009-01-15
Publication date: 2009-12-29
Also published as: US8107726B2; US20090316988A1

Abstract

영상의 세그멘트들이 오브젝트 클래스에 속하는지 여부를 결정하기 위하여 영상을 처리하는 시스템 및 방법이 개시된다. 본 발명의 일 실시예에서는, 복수개의 픽셀들을 포함하는 영상을 나타내는 디지털화 된 데이터를 수신하고, 복수 개의 스케일 레벨에서 상기 픽셀 데이터를 세그멘트하고, 세그멘트들의 시지각(visual perception)의 하나 이상의 측정치를 포함하는, 복수개의 스케일 레벨에서의 특징 벡터를 결정하고, 둘 이상의 특징 벡터를 비교하여 결정된 유사도를 하나 이상 결정하고, 세그멘트들의 제 1 서브셋 각각에 대하여 세그멘트들이 오브젝트 클래스의 구성원일 제 1 확률 값을 결정하고, 결정된 제 1 확률 값에 기초하여 확률 인자들을 결정하고, 결정된 유사도에 기초하여 유사도 인자들을 결정하고, 확률 인자들 및 유사도 인자들에 기초하여, 세그메트들의 제 2 서브셋 각각에 대한 제 2 확률 값을 결정하기 위한 인자 그래프 분석을 수행한다.

세그멘트, 분류

Description

영상 데이터내의 특정 클래스의 오브젝트를 세그멘테이션하기 위한 시스템 및 방법{System and method for class-specific object segmentation of image data}

본 발명은 비디오 처리에 관한 것으로, 특히 영상 데이터내의 교육된(learned) 클래스의 오브젝트의 검출 및 세그멘테이션에 관한 것이다.

최근 디지털 영상, 디지털 비디오, 및 데이터 저장 매체의 용량의 발전은 다양한 형태의 자동 오브젝트 감지 및 오브젝트 분류를 가능하게 한다. 디지털 카메라 및 다른 영상 획득 시스템들의 정확성의 향상함에 따라, 다양한 분석 방법에 의하여 사용되고 분석되는 엄청난 양의 데이터가 제공된다. 처리 속도의 향상이 성능을 향상시키고 보다 정확한 분석을 가능하게 하였으나, 효율적인 분석은 여전히 시간 및 전력의 절약에 달려있다.

영상 세그멘테이션은 디지털 영상을 복수의 영역(픽셀들의 그룹)으로 분할하는 것과 관련된다. 세그멘테이션의 목적 중 하나는 간단히 하는 것 및/또는 영상의 표시(representation)를 보다 의미있고 분석하기 쉬운 것으로 변경하는 것이다. 영상 세그멘테이션은 일반적으로 영상들내에서 오브젝트들 및 경계들(직선, 곡선 등 등)을 발견하는데 사용된다. 영상 세그멘테이션의 결과는 전체 영상을 커버하는 영역들의 집합이거나, 영상으로부터 추출된 윤곽들의 집합(에지 검출을 참고)이다. 일반적으로 영역 내의 각각의 픽셀들은 색상, 명암, 텍스쳐(texture)과 같은 특유한 또는 계산된 어떤 특질들에 있어서 유사하다. 인접한 영역들은 특질들이 상이하다. 현대의 영상 획득 시스템에 의하여 제공되는 보다 큰 픽셀 밀도에 따라, 영상 세그멘테이션이 매우 정교한 스케일로 수행될 수 있다. 그러나, 매우 정교한 스케일에서의 세그멘테이션을 수행하기 위해서는 많은 양의 전력이 소모된다. 보다 큰 스케일에서의 세그멘테이션은 효율성이 향상될 수는 있으나, 정확성이 감소될 수 있다.

알려진 클래스의 오브젝트들에 관한 영상 세그멘트들이 제공되면(예를 들면 이전에 세그멘트된 오브젝트 영상들), 미래의 영상들내에서 오브젝트들을 자동적으로 분류하기 위하여 이미 알려진 영상들로부터 분류기 모델이 습득될 수 있다. 오브젝트의 일부 이미지 특성에 기초하여 설계된 간단한 분류기들은 분류 작업에 있어서 부족할 수 있다. 오브젝트 분류에 관한 부스팅 방법을 사용하는 것이 부분류기(weak classifier)를 통하여 전체 분류 성능을 향상시키기 위한 하나의 방법이다. 또한, 영상 획득 장치내의 정교한 조작이 가능함에 따라, 오브젝트 분류가 적절한 처리 전력 및 시간하에서 매우 정교한 스케일로 수행될 수 있다. 또한, 정확도를 포기하고 처리 속도를 높이기 위하여 오브젝트 분류가 보다 큰 스케일로 수행될 수 있다.

본 발명의 시스템 및 방법은 각각이 다양한 특징을 가지며, 이들 중 하나가 단독으로 그것들의 바람직한 속성을 대표하지 않는다. 이후의 청구항에 의하여 표현되는 본 발명의 범위를 제한하지 않고, 더 지배적인 특징이 이하에서 간단히 서술된다. 여기의 간단한 서술을 고려한 후 발명의 실시를 위한 구체적인 설명을 읽은 후에는 본 발명에 의하여 더 강력하고 효과적으로 하나 또는 그 이상의 오브젝트 클래스를 세그멘트하거나 영상을 분류할 수 있는지를 이해할 수 있을 것이다.

본 발명의 하나의 특징은 영상을 처리하는 방법이며, 복수개의 픽셀들을 포함하는 영상을 나타내는 디지털화 된 데이터를 수신하는 단계; 복수 개의 스케일 레벨에서 상기 픽셀 데이터를 세그멘트하는 단계; 상기 세그멘트들의 시지각(visual perception)의 측도(measure)를 포함하는, 상기 복수개의 스케일 레벨에서의 특징 벡터를 결정하는 단계; 둘 이상의 특징 벡터를 비교하여 결정된 유사도를 하나 이상 결정하는 단계; 상기 세그멘트들의 제 1 서브셋 각각에 대하여 상기 세그멘트들이 오브젝트 클래스의 구성원일 제 1 확률 값을 결정하는 단계; 상기 결정된 확률의 제 1 확률 값에 기초하여 확률 인자들을 결정하고, 상기 결정된 유사도에 기초하여 유사도 인자들을 결정하는 단계; 및 상기 확률 인자들 및 유사도 인자들에 기초하여, 세그메트들의 제 2 서브셋 각각에 대한 제 2 확률 값을 결정하기 위한 인자 그래프 분석을 수행하는 단계를 포함하는 것이다.

본 발명의 다른 특징은, 영상을 처리하는 시스템에 있어서, 복수개의 픽셀들을 포함하는 영상을 나타내는 디지털화 된 데이터를 수신하도록 구성된 비디오 서브시스템; 복수개의 스케일 레벨에서 상기 픽셀 데이터를 세그멘트 하도록 구성된 영상 세그멘테이션 서브시스템; 하나 이상의 세그멘트들의 시지각(visual perception)의 측도를 포함하는, 상기 복수 개의 스케일 레벨에서의 특징 벡터를 결정하고, 둘 이상의 특징 벡터를 비교하여 결정된 유사도를 하나 이상 결정하도록 구성된 지각적 분석 서브시스템; 상기 세그멘트들의 제 1 서브셋 각각에 대하여 상기 세그멘트들이 오브젝트 클래스의 구성원일 제 1 확률 값을 결정하도록 구성된 오브젝트 분류 서브시스템; 상기 결정된 제 1 확률 값에 기초하여 확률 인자들을 결정하고, 상기 결정된 유사도에 기초하여 유사도 인자들을 결정하고, 상기 확률 인자들 및 유사도 인자들에 기초하여, 세그메트들의 제 2 서브셋 각각에 대한 제 2 확률 값을 결정하기 위한 인자 그래프 분석을 수행하도록 구성된 통계적 분석 서브시스템을 포함하는 것이다.

이하의 상세한 설명은 본 발명의 일 실시예에 관한 것이다. 그러나, 본 발명은 청구항에 의해서 정의되고 뒷받침되는 다양한 방법의 결합으로 구현될 수 있다. 상세한 설명에서, 참고는 도면 전체에서 동일한 부분들이 동일한 번호를 갖도록 설계된다.

컴퓨터 비젼은 기계가 다양한 정보의 조각들에 관한 영상 데이터를 분석하고 볼 수 있도록 하는 자동화된 영상 분석의 과학 및 기술이다. 영상 데이터는 단일 영상, 비디오 시퀀스, 복수의 카메라들로부터의 시점들 또는 의료 스캐너를 통하는 등의 다중 차원 데이터와 같은 다양한 형태로 획득될 수 있다.

디지털 영상은 다양한 형태의 빛-감지 카메라들 외에도 구역(range) 센서, x 선 단층 획득(tomography) 장치들, 레이더, 초음파(ultra-sonic) 카메라들을 포함하는 하나 또는 다수의 영상 센서들에 의하여 생산된다. 센서의 형태에 따라서 결과 영상 데이터는 일반적인 2차원 영상, 3차원 영상 또는 영상 시퀀스 이다. 픽셀 값들은 일반적으로 하나 또는 다수의 스펙트럼 영역(예를 들면 흑백 영상 또는 칼라 영상)내의 빛의 세기에 대응하지만, 깊이, 흡수, 음향 반사(reflectance of sonic), 전자기파(electromagnetic wave), 또는 핵자기공명(nuclear magnetic resonance)와 같은 다양한 물리적 양에도 관련될 수 있다. 여기에서 사용되는 디지털 영상 데이터(또는 영상 데이터)는 당업자에게 알려진 어떠한 형태의 가시적인 영상(visual image) 또는 어떠한 형태의 비가시적인 영상(non-visual)을 포함하는 것으로 정의된다.

특정 분야에서, 컴퓨터 비젼은 컴퓨터 비젼 시스템내에서 다양한 작업을 수행하도록 컴퓨터 비젼의 이론이나 모델의 적용을 모색한다. 컴퓨터 비젼 시스템의 적용에 관한 일 예는 예를 들면 처리 제어(예를 들면 조립 라인 로봇), 사건이나 사람 또는 물건의 존재를 검출하기 위한 가시적 감시, 데이터베이스내의 영상 정보들을 분류하고 조직하는 것, 및 사람과 기계의 상호작용을 포함한다.

도 1A는 비디오 감시를 위한 오브젝트 세그멘테이션 및 분류를 이용하는 컴퓨터 비젼 시스템(10)의 일 실시예에 관한 기능적 블록도이다.

시스템(10)은 장면(20)내의 영상 데이터를 획득하는 비디오(또는 영상) 획득 장치(15)를 포함한다. 일 실시예에서는, 감시되는 장면(20)이 다양한 지점에 위치할 수 있도록 비디오 획득 장치(10)가 제어가능할 수 있다. 다른 실시예에서는, 비 디오 획득 장치(10)가 고정되며, 장면(20)이 고정된 상태로 유지된다. 비디오(또는 영상) 획득 장치(10)는 예를 들면 컴퓨터 분야에서 잘 알려진 것으로써의 “웹켐”, 또는 더 복잡하고 기술적으로 진보한 카메라들과 같은 다양한 복잡도의 카메라들을 포함할 수 있다.

비디오 획득 장치(10)에 의하여 획득된 영상 데이터는 비디오 분석 시스템(25)에게 전달된다. 비디오 분석 시스템은 개인용 컴퓨터(personal computer) 또는 하나 또는 그 이상의 프로세서들을 구비한 다른 형태의 컴퓨터 시스템을 포함할 수 있다. 프로세서는 ‘Pentium processor’, ‘Pentium II processor’, ‘Pentium III processor’, ‘Pentium IV process’ 또는 ‘Pentium Pro processor’, ‘8051 processor’, ‘MIPS processor’, ‘Power PC processor’ 또는 ‘ALPHA process’와 같은 종래의 일반적인 목적의 단일 또는 다중 칩 마이크로 프로세서일 수 있다. 또한, 프로세서는 디지털 신호 처리기와 같은 종래의 어떠한 특정한 목적의 마이크로 프로세서일 수 있다.

비디오 분석 시스템(25)은 오브젝트 세그멘테이션 및 분류 시스템(27)을 포함한다. 오브젝트 세그멘테이션 및 분류 시스템(27)은 비디오 획득 장치(15)로부터 수신된 획득된 영상 데이터를 분석하는데 사용되는 기능들을 수행한다. 오브젝트 세그멘테이션 및 분류 시스템(27)은 비디오 획득 장치에 의하여 감시되는 장면(20)내에 존재할 수 있는 하나 또는 그 이상의 오브젝트들의 클래스를 세그멘트 하도록 설계될 수 있다. 예를 들면, 하나의 오브젝트들의 클래스는 장면(20)에서의 트럭과 같은 차량일 수 있다. 다른 오브젝트들의 클래스는 장면(20)에서의 사람과 같은 인 물일 수 있다. 오브젝트 세그멘테이션 및 분류 시스템(27)은 비디오 획득 장치(15)에 의하여 획득된 장면(20)의 영상내의 오브젝트 클래스의 구성원을 검출하도록 설계된다. 클래스(non-class)에 해당하지 않는 오브젝트들이 획득된 영상의 뒷배경(background) 또는 앞배경(foreground)에 위치하도록 하는 한편, 오브젝트 세그멘테이션 및 분류 시스템(27)이 오브젝트 클래스의 구성원들을 분류할 수 있다. 이러한 클래스에 해당하지 않는 오브젝트들은 예를 들면 장면(20)내에서의 개(23),우산(24) 및 빌딩(26)을 포함할 수 있다.

실시예에 따라서는, 오브젝트 세그멘테이션 및 분류 시스템(27)은 오브젝트 클레스의 구성원이 존재함을 나타내는 정보를 비디오 분석 시스템(25)내의 메모리(29)에 저장한다. 메모리는 정보(일반적인 컴퓨터 데이터)가 저장되거나 독출되도록 하는 전기 회로를 지칭한다. 메모리는 디스크 드라이브나 테이브 드라이브와 같은 외부 장치 또는 시스템을 지칭할 수도 있다. 또한, 메모리는 비디오 분석 시스템(25)의 하나 또는 그 이상의 프로세서들에 직접적으로 연결된 RAM(Random Access Memory) 또는 다양한 형태의 ROM(Read Only Memory)과 같은 고속 반도체 저장소자(칩들)을 지칭할 수 있다. 다른 형태의 메모리는 가상 메모리 또는 자심 기억 장치(core memory)를 포함한다. 일 실시예에서는, 오브젝트 세그멘테이션 및 분류 시스템(27)은 오브젝트 클레스의 구성원이 존재함을 나타내는 정보를 출력 신호 장치(30)를 통하여 전달한다. 출력 신호는 가청적 또는/ 및 가시적인 알람이나 텍스트와 같은 어떠한 형태의 디지털 정보도 가능하다.

도 1B는 사람과 기계간의 인터페이스(human machine interface)를 통하여 텔 레비전을 제어하기 위한 오브젝트 세그멘테이션 및 분류를 이용하는 컴퓨터 비젼 시스템의 다른 예에 관한 기능적 블록도이다.

비디오 시스템(100)은 사용자(110)가 예를 들면 손동작을 이용하여 텔레비전(135)를 제어하도록 하는데 사용된다. 이 실시예에서, 비디오 시스템(100)은 디지털 비디오 카메라와 같은 비디오 획득 장치(105)를 포함한다. 비디오 획득 장치(105)는 사용자(110)의 디지털 영상을 획득한다. 일 실시예에서는, 비디오 획득 장치가 사용자(110)를 추종하도록 하기 위하여 예를 들면 움직임 검출을 이용하여 비디오 획득 장치(105)가 제어될 수 있다. 다른 실시예에서는, 비디오 획득 장치(105)가 고정적이다. 비디오(또는 영상)획득 장치(105)는 예를 들면 컴퓨터 분야에서 잘 알려진 것으로써의 “웹켐”, 또는 더 복잡하고 기술적으로 진보한 카메라들과 같은 다양한 복잡도의 카메라들을 포함할 수 있다.

비디오 획득 장치(105)에 의하여 획득된 영상 데이터는 비디오 분석 시스템(120)에게 전달된다. 비디오 분석 시스템(120)은 개인용 컴퓨터(personal computer) 또는 하나 또는 그 이상의 프로세서들을 구비한 다른 형태의 컴퓨터 시스템을 포함할 수 있다. 프로세서는 ‘Pentium processor’, ‘Pentium II processor’, ‘Pentium III processor’, ‘Pentium IV process’ 또는 ‘Pentium Pro processor’, ‘8051 processor’, ‘MIPS processor’, ‘Power PC processor’ 또는 ‘ALPHA process’와 같은 종래의 일반적인 목적의 단일 또는 다중 칩 마이크로 프로세서일 수 있다. 또한, 프로세서는 디지털 신호 처리기와 같은 종래의 어떠한 특정한 목적의 마이크로 프로세서일 수 있다. 또한 비디오 분석 시스 템(120)은 메모리(미도시)를 포함한다. 메모리는 도 1A에서 메모리(29)를 참고하여 상술한 어떠한 메모리도 포함할 수 있다.

비디오 분석 시스템(120)은 오브젝트 세그멘테이션 및 분류 시스템(125)과 사용자 인터페이스 제어 시스템(130)을 포함한다. 오브젝트 세그멘테이션 및 분류 시스템(125)는 비디오 획득 장치(105)로부터 수신된 획득된 영상을 분석하는데 사용되는 기능들을 수행한다. 오브젝트 세그멘테이션 및 분류 시스템은 사용자 인터페이스 제어(130)를 통하여 텔레비전을 제어할 목적으로 사용자에 의하여 사용되는 하나 또는 그 이상의 오브젝트 클래스를 분류하도록 설계될 수 있다. 예를 들면 일 실시예에서, 오브젝트 세그멘테이션 및 분류 시스템(125)이 식별하도록 설계된 오브젝트 클래스는 사용자(110)의 손 또는 손들을 포함할 수 있다. 다른 실시예에서, 오브젝트 세그멘테이션 및 분류 시스템(125)이 식별하도록 설계된 오브젝트 클래스는 사용자가 소지한 포인터 또는 지팡이와 같은 외부 오브젝트를 포함할 수 있다. 오브젝트 세그멘테이션 및 분류 시스템(125)은 비디오 획득 장치(105)에 의하여 획득된 영상 데이터내의 오브젝트 클래스(예를 들면 손 또는 외부 오브젝트)의 구성원을 감지하도록 설계될 수 있다.

사용자 인터페이스 제어 시스템(130)은 오브젝트 세그멘테이션 및 분류 시스템(125)로부터 클래스 오브젝트의 위치 데이터를 수신한다. 일 실시예에서는, 클레스 오브젝트의 위치 데이터는 텔레비전(135) 스크린상의 일부분과 관계되는 사용자(110)의 손의 위치를 나타낸다. 손의 위치 데이터를 이용하여, 사용자 인터페이스 제어 시스템(130)은 사용자의 손동작 및 손의 움직임을 결정한다. 이러한 손동 작은 사용자 인터페이스 제어 시스템(130)이 볼륨 조절, 채널 변경등과 같은 소정의 기능을 수행는데 사용된다. 사용자 인터페이스 제어 시스템(130)에 의하여 수행되는 기능 뿐만 아니라 사용자(110)에 의하여 사용되는 손동작의 예도 2008.2.25일에 출원된 미국 특허 출원 No. 12/037033 "SYSTEM AND METHOD FOR TELEVISION CONTROL USING HAND GESTURES"에 기재되어 있다.

도 1A 및 1B에서 서술된 시스템(10,100)은 여기에서 서술되는 오브젝트 세그멘테이션 및 분류 시스템과 방법을 사용할 수 있는 컴퓨터 비젼 시스템의 일 예이다. 실시예는 다양한 오브젝트 세그멘테이션, 분류 및 에지 확인 분석 기술을 결합함으로써 영상들로부터 알려진 클래스의 오브젝트를 분류하는 것을 포함한다. 다중　 스케일(multiple scale)에서의 세그멘테이션, 분류 및 에지 분류 중 하나 또는 그 이상을 수행함으로써 효율성 및 정확도가 향상된다. 다른 측면에서, 채용된 분석 기술은 1)다중 스케일에서 이미지를 컴포넌트로 세그멘테이션함에 기초한 그래프를 이용하여 세기(intensity)차로부터 상향(bottom-up) 정보를 생성하는 것 2)하나 또는 그 이상의 습득된 특정 클래스의 부스팅 분류기 모델들(learned class-specific boosting classifier models)을 이용하여 세그멘트들이 오브젝트 클래스의 구성원들일 확률의 하향(top-down)값을 결정하는 것 3)인자 그래프를 이용하여 하향 정보 및 상향 측정을 병합하고, 세그멘트들이 오브젝트 클래스의 구성원일 개선된 제 2 확률 값을 생성하는 것을 포함한다.

또한 일 실시예는 오브젝트 클래스의 경계를 검출하도록 훈련된 부스팅 기반의 에지 교육 모델로부터 오브젝트 경계 또는 에지 정보를 결정하는 것을 포함한 다. 이러한 실시예에서는, 최종 세그먼트 분류는 이 확률을 향상된 에지 교율 모델(BEL)로부터 획득된 오브젝트 경계 확률과 결합함으로써 획득된다. 이 실시예의 성능은 이전의 오브젝트 분류 방법보다 비약적으로 향상될 수 있음은 증명되었다.

도 2는 도 1A 및 도 1B에서 서술된 컴퓨터 비젼 시스템(10,100)의 오브젝트 세그멘테이션 및 분류 시스템(27,125)에서 사용될 수 있는 오브젝트 세그멘테이션 및 분류 시스템(200)의 일 예에 관한 블록도를 나타낸다.

이 실시예에서, 오브젝트 세그멘테이션 및 분류 시스템(200)은 프로세스 성분(205), 메모리 성분(210), 비디오 서브시스템(215), 영상 세그멘테이션 서브시스템(220), 지각 분석 서브시스템(225), 오브젝트 분류 서브시스템(230), 통계적 분석 서브시스템(235) 및 선택적 에지 정보 서브시스템(235)을 포함한다.

프로세스(250)는 일반적인 프로세서 및/또는 디지털 신호 처리기 및/또는 어플리케이션 특정의 하드웨어 프로세서 중 하나 또는 그 이상을 포함할 수 있다. 메모리(210)는 예를 들면 집적 회로 또는 디스크 기반의 저장매체 또는 어떠한 형태의 기록 및 판독 가능한 임의 접근 메모리 장치 중 하나 또는 그 이상을 포함할 수 있다. 프로세서(250)는 메모리(210)와 연결되며, 다른 성분들의 다양한 기능을 수행시키기 위하여 다른 성분들과 연결된다. 일 실시예에서는, 비디오 서브 시스템(215)이 케이블 또는 지역 네트워크와 같은 무선 연결을 통하여 비디오 데이터를 수신한다.(예를 들면, 도 1A 및 도 1B의 비디오 획득 장치(15,105)로부터). 다른 실시예에서는, 비디오 서브시스템(215)이 메모리 성분(210) 또는 메모리 디스크들, 메모리 카드들, 인터넷 서버 메모리등을 포함하는 외부 메모리 장치 중 하나 또는 그 이상으로부터 직접 비디오 데이터를 획득할 수 있다. 비디오 데이터는 압축되거나 압축되지 않은 비디오 데이터일 수 있다. 메모리 성분(210) 또는 외부 메모리 장치내에 저장된 압축된 비디오 데이터의 경우, 압축된 비디오 데이터가 도 1A 또는 도 1B의 비디오 획득 장치(27,125)와 같은 인코딩 장치에 의하여 생성될 수 있다. 비디오 서브시스템(215)은 다른 서브시스템이 압축되지 않은 비디오를 사용하도록 하기 위하여 압축된 비디오의 압축을 풀 수 있다.

영상 세그멘테이션 서브시스템(220)은 비디오 서브시스템(215)에 의하여 획득된 영상 데이터의 세그멘테이션과 관련된 작업을 수행한다. 비디오 데이터의 세그멘테이션은 영상내의 다른 오브젝트과의 분류를 간단하게 하는데 있어서 중요하게 사용될 수 있다. 일 실시예에서는, 영상 세그멘테이션 서브시스템은 영상 데이터를 오브젝트와 장면내의 배경으로 세그멘트한다. 주된 어려움 중 하나는 세그멘테이션의 정의 자체에 있다. 의미있는 세그멘테이션을 어떻게 정의할 것인가? 또는, 영상을 장면내의 다양한 오브젝트들로 세그멘트 하고자 한다면, 오브젝트를 무엇으로 정의할 것인가? 우리가 주어진 클레스, 말, 사람의 손들 또는 얼굴들의 오브젝트들을 세그멘테이션하는 것의 문제점을 말하는 때에 두 가지 질문에 대한 해답을 얻을 수 있다. 이 후, 문제는 이미지 픽셀들을 주어진 클레스의 오브젝트에 속하는 픽셀들로 레이블링 하거나 배경에 속하는 픽셀들로 레이블링 하는 것으로 줄어든다. 클레스의 오브젝트들은 다양한 위치와 형태로 나타낸다. 영상이 획득된 위치와 광량에 따라서 동일한 오브젝트가 다양한 형태 및 모양을 가질 수 있다. 이러한 모든 가변성에도 불구하고 오브젝트들을 세그멘테이션 하는 것은 도전적인 문 제일 수 있다. 일각에서는 지난 십년을 통하여 세그멘테이션 알고리짐이 비약적으로 발전하였다.

일 실시예에서는, 영상 세그멘테이션 서브시스템(220)은 상향식 세그멘테이션으로 알려진 세그멘테이션 방법을 사용한다. 알려진 클레스의 오브젝트들로 직접 세그멘트 하는 방법과는 달리, 상향식 세그멘테이션은 세기, 컬러 및 텍스쳐의 불연속이 일반적으로 오브젝트의 경계를 특정한다는 사실을 이용한다. 따라서, 일 예에서는 이미지가 다수의 동질의 영역으로 세그멘트되고, 이 후 오브젝트에 속하는 세그멘트들이 분류된다. (예를 들면, 오브젝트 분류 서브시스템(230)을 사용한다.) 이는 종종 성분들이 나타내는 의미와는 관계없이 오직 성분들의 세기의 균일함, 컬러의 균일함, 때로는 경계의 모양에만 의존하여 수행된다.

일반적으로 상향 세그멘테이션의 목적은 이미지내의 지각적으로(perceptually) 동일한 지역을 함께 그룹화하는 것이다. 고유 벡터에 기반한 방법에 의하여 이 분야의 바람직한 발전이 이루어졌다. 고유 벡터에 기반한 방법들의 예는 컴퓨터 비젼 및 패턴 인식에 관한 IEEE 회의에서 J.Shi 및 H.Malik가 발표한 "Nomalized cuts and image segmentation"(731-737 page,1997) 및 컴퓨터 비젼에 관한 국제 회의에서 Y.Weiss가 발표한 "Segmentation using eigenvectors:A unifying view"(975-982 page, 1999)에서 설명된다. 이러한 방법들은 어떤 어플리케이션들에 있어서는 지나치게 복잡할 수 있다. 어떤 다른 고속 접근이 지각적으로 의미있는 세그멘테이션을 생성하는 데에 실패했다. ‘Pdero F. Felzenszwalb’는 계산적인 면에서 효과적이고 고유 벡터 기반의 방법들보다 유용한 결과를 도출하는 그래프 기반의 세그멘테이션 방법(2004 9월 컴퓨터 비젼의 국제 저널의 “Efficient graph-based methods을 참고)을 개발하였다. 영상 세그멘테이션 서브시스템(220)의 일 예에서는 Felzenszwalb가 설명하는 하향 세그멘테이션과 유사한 세그멘테이션 방법들을 이용한다. 그러나, 영상 세그멘테이션 서브시스템(220)은 이러한 세그멘테이션 또는 당업자가 알고 있는 다른 세그멘테이션 방법 중 어떠한 것도 사용할 수 있다. 영상 세그멘테이션 서브시스템(220)의 일 실시예에 의하여 실행되는 기능에 관한 자세한 것은 이하에서 설명한다.

영상 세그멘테이션 서브시스템(220)은 다양한 스케일에서 수행될 수 있으며, 세크멘테이션의 크기가 변한다. 예를 들면, 스케일 레벨은 분류되는 오브젝트들의 예상 크기보다 더 큰 세그멘트들 뿐만아니라 분류되는 오브젝트들의 예상 크기보다 더 작은 세그멘트들을 포함하도록 선택될 수 있다. 이 방법에서는, 오브젝트 세그멘테이션 및 분류 시스템(200)에 의하여 수행되는 분석이 전체적으로 효율성 및 정확성 사이에서 균형을 이룰 수 있다.

지각적 분석 서브시스템(225)는 영상 세그멘테이션 서브시스템(220)에 의하여 분류된 세그멘트들에 관한 하나 또는 그 이상의 시각적 인지(visual perception) 측도(measure)를 포함하는 특징 벡터(feature vector)들을 계산한다. “특징 벡터”라 함은 픽셀들의 하나 또는 그 이상의 특징들을 나타내는데 사용될 수 있는 모든 종류의 측도 또는 값들을 포함하는 개념이다. 특징 벡터는 세기, 컬러 및 텍스쳐 중 하나이상을 포함할 수 있다. 일 실시예에서는, 특징 벡터 값이 세기, 컬러 및/또는 텍스쳐에 관한 히스토그램을 포함할 수 있다. 컬러(color) 특징 벡터는 예를 들면 붉은색, 녹색 또는 푸른색과 같은 하나 또는 그 이상의 색상(hue)의 히스토그램을 포함할 수 있다.

컬러 특징 벡터는 또한 컬러의 순수함의 정도 또는 포화를 나타내는 히스토그램을 포함할 수 있으며, 포화는 텍스쳐의 측도이다. 일 실시예에서, 개버(Gabor) 필터가 텍스처의 대표적인 특징 벡터 값을 생성하는데 사용될 수 있다. 영상내의 다양한 방향에서의 텍스처를 확인하기 위하여 다향한 방위에 개버 필터가 위치할 수 있다. 또한, 다양한 스케일에서 개버 필터들이 사용될 수 있으며, 스케일이 픽셀들의 개수를 결정하고 따라서 개버 필터가 목표하는 텍스쳐 정확성을 결정한다. 지각 분석 서브시스템(225)에서 사용될 수 있는 다른 특징 벡터 값은 Haar 필터 에너지(Harr filter energy), 에지 지시자(edge indicator), 주파수 영역 변환(frequency domain transform), wavalet 기반의 측도(wavelet based measure), 다양한 스케일에서의 픽셀 값의 그레디언트 및 기술 분야에서 알려진 다른 것들을 포함한다.

세그멘트들에 관한 특징 벡터를 계산하는 것 뿐만 아니라, 지각 분석 서브시스템(225)은 또한 특징 벡터들의 쌍, 예를 들면 이웃하는 세그먼트 쌍에 대응하는 특징 벡트들간의 유사성(similarity)을 계산한다. 여기에서 사용된 것과 같은 “유사성”은 두 개의 세그멘트들이 얼마나 유사한지를 측정한 값 또는 값들의 집합일 수 있다. 일 실시예에서, 값은 미리 계산된(already calculated) 특징 벡트에 기초한다. 다른 실시예에서는 유사성이 직접적으로 계산될 수 있다. 비록 “유사”가 두 개의 오브젝트들이 크기는 다르지만 동일한 모양을 갖는 것을 개략적으로 나타 내는 기하학 분야의 용어이지만, 여기에서 사용된 “유사”는 모양의 유사성이 반드시 필요한 것은 아니며 각도(degree), 특질(property), 독특한 형질(characteristic trait)을 공유하는 것을 포함하는 일반적인 영어식 의미를 갖는다. 일 실시예에서, 이러한 유사성은 영상 세그멘테이션 서브 시스템(220) 및 오브젝트 분류 서브시스템(230)의 다양한 출력 값을 혼합하는데 사용되는 인자(factor) 그래프내의 에지로써 통계적 분석 서브시스템(235)에 의하여 사용된다. 유사성들은 두 개의 세그먼트의 특징 벡터들간의 유클리언 거리(Euclidean distance) 또는 예를 들면 1-놈(norm) 거리, 2-놈 거리, 무한 놈 거리와 같은 다른 거리 미터(distance metric)의 형태일 수 있다. 본 발명의 기술분야에 알려진 다른 유사성의 측도가 또한 사용될 수 있다. 지각적 분석 서브시스템에 의하여 수행되는 기능에 관한 자세한 설명은 후술한다.

세그먼트가 분류된 하나 또는 그 이상의 오브젝트 클레스의 구성원일 제 1 확률 값을 생성하기 위하여, 오브젝트 분류 서브시스템(230)은 영상 세그멘테이션 서브시스템에 의하여 분류된 세그멘트들의 분석을 수행한다. 오브젝트 분류 서브시스템(230)은 하나 또는 그 이상의 학습된(learned) 부스팅(boosting) 분류기 모델들을 사용할 수 있으며, 하나 또는 그 이상의 부스팅 분류기 모델들은 영상 데이터의 일부가 하나 또는 그 이상의 오브젝트 클래스들의 구성원과 유사한지를 확인하기 위하여 계발된 것이다. 일 실시예에서는, 다양한 학습된 부스팅 분류기 모델들이 영상 세그멘테이션 서브 시스템이 픽셀 데이터를 세그멘테이션하는 스케일 레벨 각각에 대하여 생성된다. (예를 들면 관리된 학습 방법을 사용하여)

부스팅 분류기 모델들은 오브젝트 클래스의 구성원으로써 설계된 세그먼트들 및 오브젝트 클래스의 구성원이 아닌 다른 세그먼트들을 포함하는 미리 세그멘트된 (pre-segmented)영상들을 분석함으로써 관리된 학습 방법을 이용하여 생성될 수 있다. 일 실시예에서는 손과 같은 고도의 비강성(non-rigid) 오브젝트들을 세그멘트하는 것이 요구된다. 이러한 실시예에서는, 미리 세그멘트된 영상들은 다양한 오브젝트 구성들, 크기들 및 색상들을 포함하여야 한다. 이는 학습된 분류기 모델이 미리 세그멘트된 영상들에 포함된 특정한 클래스의 오브젝트의 지식을 이용하여 세그멘테이션 알고리즘에 도달하도록 만드는 것이 가능하도록 할 것이다.

부스팅 분류기는 세기, 컬러 및 텍스쳐 특징을 이용할 수 있으며, 따라서 비강성 변환의 일반적인 자세 변화를 처리할 수 있다. 일 실시예에서는, 지각적 분석 서브시스템(225)에 의하여 미리 세그멘트된 영상 세그멘트들에 관하여 생성된 특징 벡터들에 기초하여 훈련된다. 이러한 방식으로 교육된 부스팅 분류기 모델들은 실질적인(관리된 트레이닝과는 대조적으로) 오브젝트 세그멘테이션 및 분류 과정동안 특징 벡터를 입력받는다. 상술한바와 같이 특징 벡터들은 컬러, 세기 및 텍스쳐 중 하나 또는 그 이상을 포함할 수 있으며, 동일한 영상내에서 다수의 다양한 오브젝트 타입들을 적절하게 구별하는 동작을 실행할 수 있다.

손, 얼굴, 동물 및 차량과 같은 오브젝트는 다수의 다양한 방향을 가질 수 있으며 간혹 매우 비강성 및/또는 재구성이 가능할 수 있기 때문에(예를 들면, 다양한 손가락 위치 또는 문이 열려있거나 변환가능한 루프가 내려진 상태의 차) 미리 세그멘트된 영상들은 가능한 많은 방향 및/또는 구성들을 포함할 수 있다.　

교육된 부스팅 분류기 모델을 포함하고 세그멘트들이 오브젝트 클래스의 구성원에 속할 제 2 확률 값을 결정하는 것 뿐 만아니라, 오브젝트 분류 서브시스템(230)은 유사성 측도, 제 1 확률 값 및 최종 분류에서 에지를 지시하는 측도를 통계적으로 함께 통합하기 위하여 지각적 분석 서브시스템(225), 통계적 분석 서브시스템(235) 및 에지 정보 서브시스템 중 하나 또는 그 이상을 포함할 수 있다.

일 실시예에서는 오브젝트 분류 서브시스템(230)은 세그멘트들이 상이하게 레이블링된 각각의 맵을 갖는 복수의 후보 세그멘트 레이블 맵들을 결정한다. (예를 들면 상이한 오브젝트 및 오브젝트가 아닌 세그멘트 레이블들) 이 후, 제 2 확률 값 및/또는 유사성 측도, 제 1 확률 값 및 에지 측도 중 둘 이상을 결합하도록 셜계된 에너지 함수 중 하나 또는 그 이상에 기초하여 최종 분류를 결정하도록, 다양한 세그멘트 레이블 맵들은 통계적 분석 서브시스템(235)와 통신하면서 오브젝트 분류 서브시스템(230)에 의하여 분석된다. 통계적 결합 방법에 관한 자세한 설명은 후술한다.

통계적인 분석 서브시스템(235)은 다른 서브시스템들에 의하여 생성된 측도들을 함께 통합하는 다양한 통계적인 수단들과 관련된 기능들을 수행한다. 통계적인 분석 서브시스템(235)은 영상 세그멘테이션 서브시스템(220)에 의하여 생성된 세그멘트들을 노드로써 포함하는 인자 그래프들을 생성한다.

일 실시예에서는, 도 2의 오브젝트 세그멘테이션 및 분류 서브시스템(200)의 하나 또는 그 이상의 구성요소들이 재배열 및/또는 결합 될 수 있다. 구성요소들은 하드웨어, 소프트웨어, 펌웨어, 미들웨어, 마이크로코드 또는 상술한 이들의 결합 에 의하여 구현될 수 있다. 오브젝트 세그멘테이션 및 분류 시스템(200)의 구성요소들에 의하여 수행되는 동작에 관한 자세한 설명은 도 3A 및 도 3B에서 설명된 방법을 참고하여 후술한다.

도 3A 및 도 3B는 영상내에서 오브젝트를 검출하는 방법에 관한 흐름도를 나타낸다. 과정 300은 복수개의 픽셀들을 포함하는 영상 데이터를 나타내는 디지털화 된 데이터를 획득하는 것에 의하여 개시된다.(305) 영상 데이터는 비디오를 형성하는 시퀀스내에서의 복수개의 영상들 중 하나를 나타낼 수 있다. 영상 데이터는 BMP(bitmap), GIF(Graphics Interchange Format), PNG(Portable Network Graphics) 또는 JPEG(Joint Photographic Experts Group)등의 다양한 형식일 수 있으나 여기에 한정되는 것은 아니다. 영상 데이터는 압축 방법과 같이 상술한 형태에 의하여 나타내어지는 하나 또는 그 이상의 특징을 사용하는 다른 형식일 수 있다. 영상 데이터는 또한 비압축 형식으로 얻어질 수 있으며, 적어도 비압축 형식으로 변환될 수 있다.

영상 데이터는 다양한 스케일 레벨에서 복수개의 세그멘트들로 세그멘트된다.(310) 예를 들면, 영상은 ‘거친’레벨(10)에서 3개의 세그멘트들로 세그멘트 되거나, ‘중간’ 레벨(24)에서 10개의 세그멘트들로 세그멘트 되거나 ‘정교한’레벨(24)에서 24개의 세그멘트들로 세그멘트 될 수 있다. 레벨의 개수는 3개, 5개 또는 임의의 개수일 수 있다. 어떤 경우에는 하나의 레벨만이 사용될 수도 있다. 일 실시예에서는, 주어진 스케일 레벨에서의 세그멘트들이 겹쳐지지 않는다. 그러나, 다른 스케일 레벨에서는 세그멘트들이 겹쳐질 수 있다.(예를 들면, 다른 스케 일 레벨에서 두 개의 세그멘트들에 속하는 것으로써 동일한 픽셀을 분류함으로써) 세그멘테이션이 완전할 수 있다. 즉, 단일 스케일 레벨에서 각각의 픽셀들이 하나 또는 그 이상의 세그멘트들에 할당될 수 있다. 다른 실시예에서, 세그멘테이션이 불완전하며 영상내의 일부 픽셀들이 해당 스케일 레벨에서의 세그멘트들과 아무런 연관이 없을 수 있다. 다양한 세그멘테이션 방법을 이하에서 자세히 설명한다.

다음 단계에서는, 다양한 스케일 레벨에서의 세그멘트들의 특징 벡터들이 계산되고, 특징 벡터 쌍간의 유사성이 계산된다.(315) 상술한 바와 같이, 특징 벡터는 하나 또는 그 이상의 픽셀들의 특징을 구별하는데 사용될 수 있는 모든 종류의 측정치들 또는 값들을 포함한다. 특징 벡터들의 값은 세기, 컬러 및/또는 텍스쳐 중 하나 또는 그 이상을 포함한다. 컬러 특징 벡터는 예를 들면 붉은색, 녹색 또는 푸른색과 같은 색상에 관한 하나 또는 그 이상의 히스토그램을 포함할 수 있다. 또한 색상 특징 벡터들은 색상의 순도 또는 포화를 나타내는 히스토그램을 포함할 수 있으며, 포화는 텍스쳐의 측도이다. 일 실시예에서는, 개버 필터가 텍스쳐를 나타내는 특징 벡터 값을 생성하는데 사용된다. 영상내의 다양한 방향에서의 텍스쳐를 확인하기 위하여 다양한 방향에 개버 필터가 위치할 수 있다. 다양한 스케일의 개버 필터가 사용될 수 있으며, 스케일은 픽셀들의 개수를 결정하고 따라서 개버 필터가 목표로 하는 텍스쳐 정확도를 결정한다. 과정내의 이 단계에서 사용될 수 있는 다른 특징 벡트 값들은 Haar 필터 에너지, 에지 지시자, 주파수 영역 변환, wavalet 기반의 측정, 다양한 스케일에서의 픽셀 값의 그레디언트 및 기술 분야에서 알려진 다른 것들을 포함한다. 특징 벡터들의 쌍(예를 들면 이웃하는 세그먼트 들의 쌍에 대응하는 특징 벡터들)간의 유사성이 또한 계산된다. 유사성들은 두개의 세그먼트의 특징 벡트들간의 유클리언 거리(Euclidean distance) 또는 예를 들면 1-놈(norm) 거리, 2-놈 거리, 무한 놈 거리와 같은 다른 거리 미터(distance metric)의 형태일 수 있다. 유사성은 또한 두개의 특징 벡터들 간의 상관관계(correlation)에 의하여 계산될 수 있다. 본 발명이 속하는 기술 분야에 알려진 다른 유사성의 측도가 또한 사용될 수 있다. 두 개의 세그멘트들 간의 유사성은 특징 벡터에 필요한 것을 전달함으로써 직접적으로 계산될 수도 있다. “상관관계”(correlation)는 수학 분야에서 벡터 그 자체가 곱해진 벡터의 컨쥬게이트(conjugate)의 정의를 나타내지만, 여기에서 사용된 “상관관계”는 또한 세그멘트들, 벡터들 또는 다른 변수들과 같은 두 개의 오브젝트들 간의 관계의 측도가 포함된 일반적인 영어의 의미를 갖는다.

다음 단계는 복수의 스케일 레벨에서 각각의 세그멘트들이 오브젝트 클래스의 구성원일 제 1 확률 값을 결정하는 것과 관련된다.(320) 다른 실시예에서는, 제 1 확률 값은 오직 세그멘트들의 부분 집합에 대해서만 결정된다. 예를 들면, 제 1 확률값이 오직 영상의 에지로부터 멀리 떨어진 세그멘트들에 대해서만 결정되거나, 특징 벡터들로부터 확인된 특징을 갖는 세그멘트들에 대해서만 결정된다. 일반적으로 부분집합은 집합내의 하나의 원소, 집합내의 적어도 두개의 원소, 집합내의 적어도 세 개의 원소, 집합내의 원소의 중요 부분(예를 들면 적어도 10%, 20%, 30%), 집합내의 원소의 과반수, 집합내의 원소의 대부분(예를 들면 적어도 80%,90%,95%), 집합내의 모든 원소들을 포함할 수 있다. 비록 “확률”이 수학 또는 통계학에서의 용어이며 넓게는 충분히 큰 샘플들 내에서 사건이 발생할 것으로 기대되는 횟수를 의미하지만, 여기에서 사용되는 “확률”은 어떤 것이 발생할 기회 또는 가능성을 포함하는 일반적인 영어의 의미를 갖는다. 따라서, 계산된 확률이 실질적으로 수학적 의미에 대응하고, ‘Bayes의 법칙’,‘total probability 법칙' 및 ’central limit 이론‘과 같은 다양한 수학적 법칙에 따른다. 확률은 정확성의 손실과 상보적으로 연산 코스트를 완화시키기 위하여 웨이트들 또는 라벨들(비슷함/비슷하지 않음)이 사용될 수 있다.

다음 단계에서는, 다양한 스케일 레벨에서의 노드로써의 세그멘트들과 에지로써의 확률 인자들 및 유사성 인자들을 포함하는 인자 그래프가 생성된다.(325) 세그멘트의 오브젝트 분류에 관하여 획득된 정보를 결합하는 다른 방법이 사용될 수 있다. 인자 그래프가 수학적인 구조이므로, 동일한 결정론적인 결과를 성취하기 위하여 실질적인 그래프가 필수적으로 필요한 것은 아니다. 따라서 비록 인자 그래프를 생성하는 것으로 설명이 되었으나, 여기에서 사용된 이 단계는 정보를 결합하는 방법을 설명하는 것으로 이해된다. 확률 인자 및 유사성 인자는 자식 노드가 분류되어진 가능성이 있는 오브젝트로써 분류되어질 부모 노드의 확률, 특징 벡터(노드 그 자체로써의 특징 벡터)가 주어진 오브젝트로써 분류되어질 노드의 확률 또는 모든 다른 정보가 주어진 오브젝트로써 노드가 분류되어질 확률을 포함한다.

이와 같은 정보와 함께, 각각의 세그멘트가 오브젝트 클레스의 구성원일 제 2 확률 값은 제 1 확률 값, 확률 인자들 및 인자 그래프의 유사성 인자들을 결합함으로써 결정된다.(330) 일 실시예에서는 제 1 확률 값과 같이 제 2 확률 값의 결과 가 오직 세그멘트들의 부분집합에 대해서만 수행된다. 상술한 바와 같이, 정보를 결합하는 다른 방법이 채용될 수 있다. 또한 상술한 바와 같이 비록 수학적 확률이 일 실시예에서 사용될 수도 있으나, “확률”의 의미는 어떤 것이 일어날 가능성 및 기회를 포함한다.(예를 들면 세그멘트가 오브젝트 클레스에 속할 가능성)일 실시예에서는 결합이 엄격한 수학적 공식 대신에 가중치를 더하거나 레이블들을 비교함으로써 수행될 수 있다.

이 시점에서, 하나 또는 그 이상의 후보 세그멘트 레이블 맵들이 결정될 수 있으며, 각각의 맵은 오브젝트 클래스의 구성원으로써 다양한 세그멘트의 집합을 분류한다. 일 실시예에서, 각각의 후보 세그멘트 레이블 맵은 1s 및 0s의 벡터이며, 벡터의 각각의 성분은 세그멘트에 대응하며, 각각의 1은 세그멘트가 오브젝트 클래스의 구성원임을 나타내고, 각각의 0은 세그멘트가 오브젝트 클래스의 구성원이 아님을 나타낸다. 다른 실시예에서는, 후보 세그멘트 레이블 맵들이 각각의 세그멘트가 오브젝트 클레스에 속할 확률과 관련될 수도 있다. 본 발명의 일 실시예에서는, 제안된 분류가 보다 효율적으로 시각화되도록 하기 위하여 후보 세그멘트 레이블 맵을 영상에 부가할 수 있다. 후보 세그멘트 레이블 맵들의 개수가 또한 실시예에 따라서 변경될 수 있다. 이 맵들은 가장 유사한 맵핑이거나 랜덤 맵핑일 수 있다. 다른 실시예에서는, 다수의 후보 세그멘트 레이블 맵들이 결정될 수 있다. 모든 가능한 맵핑들을 포함하는 후보 세그멘트 레이블 맵의 집합이 생성될 수도 있으며, 가장 유사한 맵핑들만을 포함하는 부분집합이 생성될 수도 있다.

하나 또는 그 이상의 후보 세그멘트 레이블 맵들은 후보 세그멘트 레이블 맵 의 정확도와 더 연관될 수 있다. 상술한 바와 같이, 이것은 가중치를 합하거나, 지명된 레이블들을 비교하거나, 수학적인 확률 법칙을 사용하는 것을 포함하는 다양한 방법을 통하여 수행될 수 있다. 일 실시예에서는, 후보 세그멘트 레이블 맵들 중 하나가 최종 레이블 맵으로 선정될 수 있으며, 이것은 사용자 인터페이스 제어와 같은 다른 어플리케이션에서 사용될 수 있다. 선택은 다수의 인자에 기초할 수 있다. 예를 들면, 가장 정확한 레이블 맵이 최종 레이블 맵으로 선정될 수 있다. 다른 실시예에서는 레이블 맵의 적용에 있어서의 오류를 피하기 위하여 가장 정확한 레이블 맵이 선정되지 않을 수도 있다. 예를 들면, 가장 정확한 레이블 맵이 오브젝트로써 분류되는 세그멘트들이 없음을 나타내는 경우, 이 레이블 맵은 오브젝트로써 분류된 적어도 하나의 세그멘트를 포함하는 덜 우수한 맵핑에 대해서 무시될 수 있다. 선택된 후보 세그멘트 레이블 맵은 최종적으로 각각의 세그멘트를 오브젝트 또는 오브젝트가 아닌 것으로 분류하는데 사용될 수 있다. 다른 실시예에서는, 하나 또는 그 이상의 후보 세그멘트 레이블 맵의 생성되지 않을 수도 있으며, 세그멘트 자체가 맵핑 없이 분류될 수 있다. 예를 들면, 오브젝트 클레스에 속할 확률이 가장 높은 세그멘트들은 맵을 이용하여 다른 세그멘트들을 분류하지 않고 출력될 수 있다.

다른 실시예에서는, 후보 세그멘트 레이블 맵들은 에지 데이터를 이용하여 더 정제될 수 있다. 예를 들면, 다음 단계는 이웃하는 세그멘트의 에지에 접하는 픽셀들의 쌍을 확인하고, 각각의 확인된 픽셀들의 쌍이 오브젝트 클래스 세그멘트와 오브젝트 클래스가 아닌 세그멘트간의 에지 픽셀들일 확률을 나타내는 측도를 계산한다. 간단한 에지 검출은 영상 처리 분야에서 알려져 있으며, 그러한 측도를 계산하는 여러 방법이 후술된다.

이러한 정보를 이용하는 것은 제 2 확률 값과 계산된 에지 픽셀 측도에 기초하여 에너지 함수를 생성하는 것을 포함한다.(345) 일 실시예에서, 에너지 함수는 (1)제 1 확률 값에 따라 세그멘트에 레이블링을 부과하고, 에지 픽셀 측도에 기초하여 이웃하는 두 개의 세그멘트들을 오브젝트 클레스로 레이블링을 부과한다. 에지 정보를 분류 과정에 병합하는 다른 방법들이 사용될 수 있다. 예를 들면, 일 실시예서는, 에너지 함수는 두개의 이웃하는 세그멘트들의 함수인 평탄 코스트(smoothness cost)를 이용하고, 이를 단일 세그멘트의 함수인 데이터 코스트(data cost) 특히 단일 세그멘트가 오브젝트 클레스에 속할 가능성을 더한다.

상향식, 하향식 및 에지 정보를 결합함으로써 세그멘트가 오브젝트의 구성원으로써 분류되어 질 수 있다.(350) 다른 실시예에서는, 후보 세그멘트 레이블 맵에 관하여 상술한 바와 같이 에지 정보가 사용되지 않을 수도 있으며, 분류가 이전 단계에서 수행될 수 있다. 다른 실시예는 이전 단계에서 계산된 에너지 함수를 최소화함으로써 세그멘트들을 분류한다. 최소화 방법 및 최적화 방법은 본 발명이 속하는 기술 분야에 알려져 있다. 본 발명의 일 실시예는 기울기 감소(gradient descent), 다운힐 심플렉스(downhill simplex) 방법, 뉴턴의 방법, 가상화된 풀림(simulated annealing), 유전적(genetic) 알고리즘 또는 그래프 절단(graph-cut) 방법을 사용할 수 있다.

최종 단계에서, 결과는 오브젝트 클레스에 속하는 세그멘트 및 오브젝트 클 레스에 속하지 않는 세그멘트 중 적어도 하나에 관한 분류이다. 원하는 결과가 오브젝트의 위치라면, 이 정보를 확인하기 위하여 추가적인 단계가 더 수행될 수 있다. 분석된 영상이 비디오 데이터와 같은 연속적인 영상의 일부라면, 오브젝트의 위치가 추적될 수 있으며, 경로 또는 궤적이 계산되어서 출력될 수 있다.

예를 들어 오브젝트 클레스가 사람의 손을 포함한다면, 비디오 분석에 의하여 형성된 경로 또는 궤적이 사람과 기계간의 인터페이스의 일부로써 사용될 수 있다. 오브젝트 클레스가 차량(자동차, 트럭, SUV, 오토바이 등)을 포함한다면, 상기 방법이 자동화 또는 편리한 교통 분석에 사용될 수 있다. 선택되고 훈련된 오브젝트 클래스로써의 주사위에 의하여 자동화된 크랩스(craps) 테이블이 생성되고, 던져진 주사위가 카메라에 의하여 추적되며, 주사위가 바닥에 떨어졌을때의 결과 숫자가 분석된다. 면에 해당하는 세그멘트를 분류함으로써 표면 인식 기술이 개선될 수 있다.

영상 세그멘테이션

세그멘테이션이 다른 비젼 문제들을 해결하는 것과 같이, 세그멘테이션이 다른 비젼 정보로부터 도움을 받는다.　 일부 세그멘테이션 알고리즘들은 오브젝트 인식이 오브젝트 세그멘테이션을 돕는데 사용될 수 있다는 사실을 이용한다. 일부는 알려진 클래스의 오브젝트의 형태-배경 세그멘테이션에 관한 알고리즘이다. 이들 알고리즘은 종종 상향식 및 하향식 방법의 동시 결합에 의하여 도움을 받는다. 상향식 접근은 세기, 색상 및/또는 텍스쳐 불연속이 종종 오브젝트 경계를 특정한다는 사실을 이용한다. 따라서, 영상을 복수개의 연속적인 영역으로 세그멘트하고, 이 영역들이 오브젝트에 속하는 영역들을 분류한다. 이것은 성분들의 특정 의미와는 관계없이 수행된다. (예를 들면, 오직 성분 영역들의 균일한 세기 및 컬러를 추적하거나, 경계의 형태를 포함함으로써) 오브젝트 영역이 배경과 유사한 세기 및 컬러 범위를 포함할 수 있으므로, 이 자체로써는 의미있는 세그멘테이션 결과를 얻을 수 없다. 따라서, 상향식 알고리즘은 종종 배경과 혼합된 오브젝트 성분들을 생성한다. 반면, 하향식 알고리즘은 상보적인 접근을 따르며, 사용자가 세그멘트 하고자 하는 오브젝트의 정보를 이용한다. 하샹식 알고리즘은 모양 및/또는 외관면에서 오브젝트와 유사한 영역을 탐색한다. 하향식 알고리즘에서는 오브젝트의 외관 및 모양의 변화와 영상의 위치 변화를 처리하는 것이 어렵다. E.Boresntein 과　 S. Ullman이 ECCV에서 발표한 “Class-specific, top-down segmentati”(pages 109-124, 2002)에서 작가는 저장된 클래스내의 오브젝트의 모양에 관한 설명에 의하여 수행되는 하향식 세그멘테이션 방법을 설명한다. 설명(representation)은 오브젝트 영상 조각들의 사전적인 형태이다. 각각의 조각들이 형상-배경 세그멘테이션을 제공하는 레이블 조각들과 관련되어 있다. 동일한 클래스로부터의 오브젝트를 포함하는 영상이 주어지면, 상기 방법은 가장 일치하는 조각들의 검색하고 매칭되는 위치를 일치시킴으로써 오브젝트의 범위를 결정한다. 이는 조각들과 영상간의 상관관계에 의하여 수행된다. 세그멘테이션은 대응하는 조각 레이블들의 평균적인 가중치에 의하여 획득된다. 가중치는 매칭되는 정도에 대응한다. 이러한 접근의 주된 어려움은 사전이 클레스 오브젝트의 외관 및 자세의 가능한 모든 변화에 관하여 설명하여야 한다는 것이다. 비강성 오브젝트의 경우, 사전은 현실적으로 불가능할 정도로 방대해 질 수 있다.

상기 두 가지 방법의 특성이 상보적이기 때문에 많은 작가들이 이들을 결합시킬 것을 제안해왔다. 이 두 방법을 결합하는 알고리즘에 의해서 더 나은 결과가 도출되어 왔다. ‘L. Lin and S. Scarloff’ 가 ICCV(1)에서 발표한 ‘Region segmentation via deformable model-guided split and merge’에서는,　 변형 가능한　 템플릿이 상향식 세그멘테이션과 결합된다. 먼저 영상이 크게 세그멘테이션 된 후, 변형 가능한 템플릿에 의하여 표현되는 모양에 가장 부합하는 다양한 그룹핑 및 분할이 고려된다. 이 방법은 고차원(high-dimensional) 파라미터 공간에서의 최소화가 어렵다. ‘E. Borsenstein, E. Sharon 및 S. Ullman’에 의하여 2004년에 워싱턴의 ‘CVPR POCV’에서 발표된 ‘Comining top-down and bottom-up segmentation'에서, 영상 프레그먼트를 하향식 세그멘테이션에 적용시키고, 메시지 전달(message-passing) 알고리즘의 클래스를 이용하여 상향식 기준과 결합한다. 다음의 두 섹션에서는, 상향식 및 하향식 세그멘테이션 방법들을 설명한다.

상향식 세그멘테이션

상향식 세그멘테이션의 일 예에서는 그래프를 채용하며, 픽셀들은 그래프내의 노드들 및 그들간의 유사성의 정도에 기초한 가중치를 갖는 이웃하는 픽셀들을 연결한 에지들이다. 이 방법은 두 가지 양을 비교하여 두개의 영역간의 경계를 확인한다. 하나는 경계간의 세기 차에 기초하며, 다른 하나는 경계내의 이웃하는 픽셀간의 세기 차에 기초한다. 비록 이 방법에 의하면 그리디하게(greedy) 결정되지만, 일부 광범위한 특징을 만족하는 세그멘테이션을 생성한다. 알고리즘은 영상 픽 셀들의 개수에 거의 비례하는 시간에 동작하며, 실질적으로 상당히 빠르다. 경계는 각각의 성분들 내에서의 세기차에 비례하는 두개의 성분들간의 세기차에 기초하여 결정될 수 있기 때문에, 이 방법은 텍스쳐 경계 및 큰 변동 영역 뿐만 아니라 작은 변동 영역사이에서의 경계를 검출할 수 있다. 컬러 영상은 각각의 컬러 채널들에 대해서 동일한 절차를 반복하고, 새 개의 성분들의 집합을 교차시킴으로써 세그멘트 될 수 있다. 예를 들면, 세 개의 모든 컬러면 세그멘테이션내의 동일한 성분내에 존재하면, 두 개의 픽셀들은 동일한 성분으로 생각될 수 있다. 색상, 포화, 및/또는 명암 또는 값을 분석하는 것을 포함하는 다른 방법이 컬러 영상의 세그멘테이션에 사용될 수 있다.

상향식 세그멘테이션의 목적은 영상을 세기 또는 컬러 불연속을 따라 분류하는 것이다. 세그멘테이션 정보가 수집되고 복수개의 스케일에서 사용된다. 예를 들면 도 4에서는 3개의 스케일들이 사용된다. 도 4는 다양한 스케일에서의 성분들로부터 트리를 형성하는 세그멘테이션 정보를 통합하기 위한 다중 스케일 세그멘테이션의 사용을 나타내는 도면이다. 가장 낮은 스케일에서는 일부 성분들이 너무 작아서 정확하게 인식하는 것이 어려울 수 있으며, 가장 높은 스케일에서는 일부 성분들이 너무 커서 분류기가 혼동할 수 있다. 세그멘트들이 너무 작은 경우 하향식 알고리즘을 사용하는 것이 오브젝트의 모양을 함께 구성하는 세그멘트들의 그룹을 발견하는데 있어서 더 용이할 수 있다. 이는 하향식 정보가 전체적인 세그멘테이션에서 우위를 차지함을 의미한다. 반면에, 상향식 세그멘트들이 너무 큰 경우에는, 오브젝트의 모양을 형성하는 하부 집합을 탐색하는 것이 어려울 수 있다. 종종 세그 멘트들이 앞배경 및 뒷배경과 겹쳐질 수 있다. 가장 좋은 방법은 다중 스케일에서 세그멘테이션 함으로써 얻어진다. 도 4에 도시된 다중 스케일 분해에서는, 가장 잘 인식될 수 있는 스케일에서 성분들이 높은 점수를 획득하며, 다른 스케일에서의 성분들은 그들의 부모로부터 레이블을 물려 받는다. 이는 하나의 스케일에서 나타나지 않을 수 있는 적절한 성분들이 다른 스케일에서 나타날 수 있기 때문이다. 이는 다중 스케일에서의 부스팅 분류기 정보를 제공하는 것의 한 방법으로써 후술할 하향식 세그멘테이션으로부터 도움을 받을 수 있다. 예를 들면, 도 4의 예에서 오브젝트 분류 알고리즘에서 세그멘트(5)는 ‘소’로 인식될 수 있다. 세그멘트(11,12)가 그러한 것처럼 세그멘트(2)는 모양이 부족하다. 따라서, 세그멘테이션이 하나의 스케일에서만 수행된다면, 오브젝트 분류기는 영상내에서 ‘소’를 제외할 수도 있다. 세그멘트(2)는 ‘소’를 포함하며 세그멘트(11,12)은 ‘소’의 일부임을 나타내는 정보가 트리를 통하여 전달될 수 있다. 세그멘테이션들의 계층 구조가 다수의 다양한 파라미티들의 집합을 갖는 동일한 세그멘테이션 알고리즘을 이용하여 생성될 수 있다. 예를 들면, 손 영상 훈련에 있어서 세 개의 다른 파라미터들의 집합 {σ, k, m}이 사용되며, σ는 가오스 필터 파라미터를 나타내며, k는 영상의 그래뉼레이션(granulation)에 따른 스케일을 정의하고, m은 픽셀들을 반복하여 분류하는 반복 횟수를 정의한다. 이와 같은 세 개의 파라미터들의 집합은 예를 들면 제 1 스케일, 제 2 스케일 및 제 3 스케일에서 각각 {1,10,50}, {1,10,100} 및 {1,10,300}일 수 있다. 다른 실시예에서는 상이한 스케일에서는 상이한 세그멘테이션 알고리즘들이 사용될 수 있다.

다중 스케일에서의 세그멘테이션들은 트리 구조의 조건부 랜덤 필드(Conditional Random Field)로 변환될 세그메테이션 계층 구조를 형성하며, 세그멘트들은 CRF내에서 상이한 스케일의 성분들간의 지리적인 관계를 나타내는 노드들 및 에지들을 형성한다. 이것이 최종 세그멘테이션에서 상향식을 선호하게 한다. 일 실시예에서는 이것이 하방식 분류기에 의하여 제공된 노드 징표(예를 들면 확률)들을 입력한 후에 트리로부터의 추론에 기초한 짧은 전파(belief propagation, BP)에 의하여 수행될 수 있다.

하방식 세그멘테이션

본 발명의 일 실시예는 부스팅에 기초한 관리된 교육 방법을 이용하여 손과 같은 고도의 비강성 오브젝트들을 세그멘테이션 할 수 있다. 이는 세그멘테이션을 수행하기 위하여 특정한 오브젝트 클래스의 지식의 사용을 가능하게 할 수 있다. 일 실시예에서, 부스팅 분류기는 세기, 컬러 및 텍스쳐 특징들을 사용하며, 따라서 자세 변화 및 비강성 변환들을 처리할 수 있다. 이는 ‘J. Winn, A. Criminisi, and T. Minka’가 2005년에 컴퓨터 비젼 및 패턴 인식에 관한 IEEE 회의에서 제시한 “Object categorization by learned visual dictionary”에서 간단한 컬러 및 텍스쳐 기반의 분류기가 “소”로부터 “오토바이”까지의 9가지의 다양한 종류의 오브젝트들을 획기적으로 검출할 수 있음이 증명되었다. 일부 오브젝트들은 고도의 비강성이기 때문에, 프레그먼트들의 사전에 기반한 방법은 실질적으로 구현하기에는 너무 큰 사전을 요구한다. 이는 저장 공간의 증가와 프로세서의 스피드의 개선에 따라서 변화될 수도 있다. 세 개의 세그멘트 스케일들을 이용하는 일 실시예에 서는, 세 개의 분류기가 세 개의 스케일에 대해서 각각 동작하며, 개별적으로 훈련된다.

일 실시예에서는, 부스팅 분류기가 각각의 스케일에 대해서 독립적으로 설계된다. 그러나 다른 실시예에서는 부스팅 분류기가 각각의 스케일에 대하여 적절하게 스케일된 정보들을 공유할 수 있다. 다른 실시예에서는 분석되는 이미지에 따라 데이터가 통합될 수 있거나 통합될 수 없도록 하기 위하여 다른 훈련 집합들을 사용하는 각각의 스케일에 대하여 다수의 부스팅 분류기들이 설계될 수 있다. 각각의 스케일에서, 각각의 세그멘트들에 대한 특징 벡터들이 계산된다. 일 실시예에서는, 특징 벡터가 세기, 컬러 및 텍스쳐의 히스토그램으로 구성된다. 텍스쳐를 계산하기 위하여, 개버 필터가 사용될 수 있다.(예를 들면 6개의 방향과 4개의 스케일에서) 각각의 세그멘트를 통하여 이들 필터들이 출력한 에너지의 히스토그램이 계산될 수 있다. 예를 들어 하나가 색상 및 포화에 대하여 100-bin 2D 히스토그램을 사용하며, 세기에 대하여 10-bin 히스토그램을 사용할 수 있다. 개버 필터 에너지들에 대하여, 11-bin 히스토그램이 사용될 수도 있다. 상술한 숫자를 사용하는 일 실시예에 있어서, 이것은 100+10+6*4*11=374 특징들을 제공한다. 다른 실시예에서는, 적용 분야에 따라 특징들의 개수가 더 작거나 더 많을 수 있다.

부스팅은 상향식 세그멘테이션에 의하여 제공되는 세그멘트를 오브젝트와 배경으로 분류하는 것을 용이하게 할 수 있다. J. Friedman, T. Hastie, 및 R. Tibshirani가 2000년에 ‘통계학의 역사’에서 제시한 ‘Additive logistic regression: A statistical view of boosting’ 및 A. Torralba, K. P. Murphy 와 W. T. Freeman가 2007는 5월 IEEE 패턴 분석 및 인공 지능에 관한 보고에서 발표한 ‘Sharing visual features for multiclass and multiview object detection'(vol. 29, No. 5)에서 증명된 바와 같이 부스팅이 이러한 어플리케이션에서 성공적인 분류 알고리즘이 될 수 있음이 증명되었다. 부스팅은 형태의 부가적인 분류기에 적합하다.

여기에서, v는 성분 특징 벡터이고, M은 부스팅 라운드들(boosting rounds)이며,

H(v)=

,

는 -1(배경)에 대하여 +1(오브젝트)인 성분 레이벨의 상대적인 크기이다.

이것은

를 제공한다. 또한, M, h_m(v) 각각은 특징 벡터의 하나의 특징으로써 행동하며, 따라서 부분류기(weak classifier)로 지칭되며 조인트 분류기인 H(v)는 주분류기(strong classifier)로 지칭된다. 일 실시예에서 M은 특징들의 개수와 동일하다. 따라서 부스팅은 다음의 부가 모델의 비용 함수 한 항을 동시에 최적화한다.

여기에서, E는 기댓값이다. 지수 코스트 함수 e^-xH(v)는 xH(v)<0이면 1의 값을 갖고 그렇지 않으면 0의 값을 갖는 오분류(misclassification) 에러의 변경 가능한 상방경계로써 취급될 수 있다. 일 실시예에서는, J를 최소화하기 위한 알고리즘은 상술한 ‘Additive logistic regression'에서 언급된 ‘gentleboost'에 기초하여 선택된다. 그것이 수식적으로 우수하고 표면 검출과 같은 작업들을 위한 다른 변형 부스팅을 능가하는 것이 실험적으로 입증되었기 때문이다. 본 발명의 실시예에서는 다른 부스팅 방법이 사용될 수도 있다. 또한, 부스팅에 기초하지 않은 다른 오브젝트 분류 방법이 알고리즘의 하향식 부분에 채용될 수 있다. 젠틀 부스팅에서는 각각의 단계에서의 가중치가 부여된 제곱된 에러를 최소화하는 것에 대응하는 적응적인 뉴턴 단계들을 이용하여 수행된다. 예를 들면, 현재 추정치가 H(v)이고, h_m에 관하여 J(H+h_m)을 최소화함으로써 개선된 추정치 H(v)+h_m(v)를 구한다고 가정해보자. h_m이 0에 가까울 때 J(H+h_m)은 2차 지수로 확장된다.　

기억할 것은 x의 값이 ‘+’인지 ‘-’이지에 관계없이 x²=1이라는 것이다. h_m(v)에 대한 포인트-와이즈(point-wise)를 최소화함으로써 다음을 발견한다.

여기에서, E_w는 가중치 e-^xH(v) 의 가중치가 부여된 기댓값을 지칭한다. 기댓값을 훈련 데이터를 통한 평균으로 대체하고, 훈련 예 i에 대하여　 가중치를 w_i=e^-(x_iH(v_i))로 정의함으로써, 가중치가 부여된 제곱 에러가 최소화되도록 줄일 수 있다.

여기에서, N은 샘플들의 개수이다.

부분류기 h_m은 예를 들면 일반적으로 사용되는 것 중 하나인

일 수 있다. 이 때, f는 특징 벡터 v의 f번째 성분을 의미하고, θ는 임계치를, δ는 표시함수(indicator function)이며, a와 b는 회귀(regression) 파라미터들이다. 다른 실시예에서는 다른 형태의 부분류기가 사용된다. h_m에 대한 Jse의 최저치는 그것들의 파라미터에 대한 최저치와 동일하다. 검색은 작용하는 모든 가능한 특징 성분 f를 통하여 실행되며 모든 가능한 임계치 Θ를 통하여 각각의 f에 대하여 실행될 수 있다. 최적의 f 및 Θ가 주어지면, a와 b는 웨이트가 부여된 최소 제곱 또는 다른 방법에 의하여 추정될 수 있다. 이는 다음과 같다.

이 부분류기는 결합 분류기 H(v)의 현재 추정치에 더해질 수 있다. 업데이트의 다음 순환 동안 각각의 훈련 샘플들에 대한 가중치들이 w_ie^(x_ih_m(v_i))가 된다. 현재 상태에서 잘못 분류된 샘플들에 대한 가중치는 증가하고 정확하게 분류된 샘플들에 대한 가중치는 감소하는 것을 볼 수 있을 것이다. 잘못 분류된 샘플들에 대한 가중치가 증가하는 것은 부스팅 알고리즘의 특징에서 자주 보여진다.

상기 방법에 대한 일 실시예에서는, 앞배경 또는 뒷배경으로 레이블 된 픽셀이 적어도 75%가 포함된 경우에만 세그멘트가 앞배경 또는 뒷배경으로 취급된다. 다른 실시예에서는, 세그멘트들이 앞배경 또는 뒷배경으로 취급되기 위해서 주된 픽셀들이 앞배경 또는 뒷배경으로 레이블되는 것으로 충분하다. 다른 실시예에서는, 앞배경 및 뒷배경 픽셀들의 중요한 부분을 포함하는 불명확한 세그멘트들에 제 3 레이블이 적용될 수 있다.

상향식 및 하향식 세그멘테이션의 결합

하나의 레벨에서의 세그멘트에 대응하는 노드(또는 노드들)와 가장 일반적인 펙셀들을 갖는 세그멘트에 대응하는 더 높은 레벨에서의 노드를 연결하는 트리를 형성하기 위하여 다중 스케일 상향식 세그멘테이션에 의하여 생성된 세그멘트들이 개념적으로 사용된다. 최상위 레벨에서의 노드들은 부모들을 갖지 않기 때문에 도 4에 도시된 바와 같이 결과는 트리들의 집합이다. 또한, 최상위 노드가 전체 영상을 둘러싸는 세그멘트를 나타내는 단일 노드를 모두 연결하는 것으로 생각할 수 있다. 에지들(또는 자식과 부모 노드를 연결하는 선)은 부모와 자식 노드들간의 연결의 정도를 반영하는 가중치가 할당된다. 더 높은 레벨에서의 성분이 더 낮은 레벨에서의 앞배경 및 뒷배경을 병합함으로써 형성될 수 있다. 이 경우, 부모의 레이블이 자식의 레이블에 영향을 미치지 않아야 한다. 따라서, 에지들은 두개의 성분들의 특징들간의 유사성에 의하여 가중치가 부여된다. 유사성은 두 개의 특징 벡터들간의 유클리드 거리로부터 계산될 수 있다. 또한 상술한 다른 방법이 사용될 수도 있다. 조건부 랜덤 필드(CRF) 구조는 에지 가중치에 기초한 조건부 확률을 할당함 으로써 획득된다. 노드 j를 그들의 자식 노드인 i에 연결하는 에지의 가중치가

이면,

노드 j에 대한 노드 i의 조건부 확률 분포는 다음과 같다.

.

여기에서 a는 상수 곱 인자(예를 들면 1)이다. 특히 수학적인 확률을 사용하는 일 실시예에서는 열(column)들은 하나로 합하기 위하여 일반화된다. 하향식 세그멘테이션과 상향식 세그멘테이션의 통합은 CRF 구조에 기초한 최종 세그멘테이션, X,에 대한 이전 확률 분포(prior probility distribution)를 제공하기 위하여 상향식 세그멘테이션을 이용하여 수행된다. 부스팅 분류기에 의하여 제공되는 하향식 세그멘테이션 확률은 관찰 확률(observation likelihood)로써 취급된다. 하나의 레벨내의 세그멘트 노드들은 상호간에 독립적이다. 모든 레벨내의 모든 노드들에 대한 세그멘트 레이블을 X라고 둔다. 상향식 세그멘테이션으로부터의 X의 이전 확 률이 다음과 같이 주어진다.

여기에서 는 l 번째 레벨에서의 i 번째 노드를 나타내며, Ni는 l번째 레벨에서의 세그멘트들의 개수이며, L은 레벨들의 개수이다. 달리말하면, 상향식 세그멘테이션만으로 특정 레이블링이 정확할 확률은 각각의 노드에 대해서 레이블링이 정확할 확률의 곱에 기초한다는 것이다. 중요한 것은 최상위 레벨에서의 노드들은 부모 노드들이 없기 때문에 포함되지 않는다는 점이다. 본 발명의 일예는 상향식 및 하향식 정보의 혼합을 제공한다. 따라서, 주어진 두개의 B, 상향식 정보 및 T에 대해 세그멘트 레이블이 정확할 확률을 제공한다. 이 확률은 P(X|B,T)일 수 있다. 이는 수학적인 확률 및 아래의 Baye의 법칙에 의하여 계산되거나 다른 방법들에 의하여 계산될 수 있다.

최종 세그멘테이션은 X에 대하여 P(X|B,T)를 최대로 함으로써 얻어질 수 있으며, 이는 P(X|B)P(T|X,B)를 최대로 하는 것과 동일하다. 하향식 용어 P(T|X,B)는 부스팅 분류기로부터 획득될 수 있다. 하향식 분류기가 세그멘트들 상호간에 독립적으로 동작하므로, 얻어지는 확률은 독립적인 것으로 가정한다.

,

여기에서 H(V^l _i)는 l번째 레벨에서의 i번째 노드에 대한 부스팅 분류기의 출력이다. P(X|B,T)의 최대화는 최대-합 알고리즘 또는 합-곱 알고리즘과 같은 인자 그래프 기반의 추론 알고리즘에 의하여 수행될 수 있다. 트리는 도 5에 도시된 형태의 인자 그래프로써 개념화 될 수 있다. 도 5는 상향식 및 하향식 세그멘테이션 정보를 혼합하는데 사용된 조건부 랜덤 필드에 대응하는 인자 그래프의 일 예이다. 문자 x,y 및 z로 레이블 된 노드들은 제 3, 제 2 및 제 1 레벨 세그멘트들에 대응하며, N_i는 노드 y_j의 자식 노드들의 개수를 나타낸다. 인자 그래프는 인자 노드(그림에서 사각형 노드로 표현된)들을 도입하여 사용될 수 있다. 각각의 인자 노드는 상향식 이전 확률 항(term)과 하향식 관찰 가능성 항 간의 함수 곱을 나타낸다. 최대-합 알고리즘은 결합 분포(joint distribution)의 곱 형태를 초래하는 CRF 트리의 조건부 독립 구조를 이용한다. 이 알고리즘은 모든 다른 노드들에서의 레이블 할당을 통하여 최대화함으로써 각각의 노드에서의 이후(posterior) 확률 분포를 찾 는다. 트리 구조에 의하여 알고리즘의 복잡성은 세그멘트들의 개수에 비례하며, 추론은 정확하다. 대안적으로, 다른 노드들을 합함으로써 결합 확률 P(X|B,T)로부터 각각의 노드 레이블 xi의 한계 이후 확률(marginal posterior probability)를 발견하는 변수가 사용될 수 있다.

에지 정보의 병합

그레디언트 하나에 의한 것과 같은 낮은 레벨 방법에 기초한 에지 검출은 가장 강력하거나 정확한 알고리짐이 아니다. 그러나, 그러한 정보가 본 발명의 일 실시예에서 채용되거나 유용될 수 있다. ‘P. Dollr, Z. Tu, 및 S. Belongie’가 컴퓨터 비젼 및 패턴 인식에 관한 IEEE 회의에서 2006년 6월에 발표한 "Supervised learning of edges and object boundaries,"에서는 향상된 에지 교육(Boosted Edge Learning, BEL)로 지칭되는 에지 및 경계 검출을 위한 새로운 관리된 교육 알고리즘을 소개한다. 에지의 결정은 영상내의 각각의 위치에서 독립적으로 수행된다. 지점 주위의 큰 윈도우로부터의 다중 특징은 경계를 발견하는데 있어서 중요한 컨텍스트(context)를 제공한다.　 교육 단계에서, 독특한 모델을 교육하기 위하여, 알고리즘은 확률 부스팅 트리 분류 알고리즘을 이용하여 다양한 스케일을 통한 많은 수의 특징을 선택하거나 결합한다. 훈련에 필요한 배경 사실 오브젝트 경계는 하향식 세그멘테이션에 관한 부스팅 분류기를 교육시키기 위하여 사용되는 도형-배경(figure-ground)으로부터 도출될 수 있다. 다른 실시예에서는, 상이한 훈련이 에지 검출 및 하향식 분류기에 대하여 이용될 수 있다. 도형-배경 레이블 맵은 그레디언트 크기를 획득함으로써 경계 맵으로 전환될 수 있다. 분류기를 교육하는 에지 에서 사용되는 도형들은 다중 스케일 및 위치들에서의 그레디언트, 필터 응답(가오스(DoG)의 차이)으로부터 계산된 히스토그램 간의 차이, 다중 스케일 및 위치들에서의 가오스 옵셋(DooG)간의 차이 및 또한 'Haar wavelet'을 포함한다. 특징들은 또한 각각의 컬러 채널을 통하여 계산될 수 있다. 컬러 채널을 분석하기 보다는 색상, 포화 및/또는 강도의 분석을 포함하는 컬러 영상을 처리하는 다른 방법들이 채용될 수 있다.

사후 확률 분포가 획득되면, 가장 정교한 스케일에서의 최종 세그멘테이션을 획득하기 위하여 가장 정교한 스케일에서 각각의 성분들에게 더 높은 확률을 갖는 레이블을 부여한다. 이는 최대 사후 확률 또는 맵 결정 법칙으로 알려진다. 각각의 세그멘트에 레이블이 할당되면, 뒷배경 및 앞배경을 포함하는 세그멘트들내의 일부 픽셀들이 잘못 레이블 되는 경우가 있을 수 있다. 이는 상향식 세그멘테이션의 한계에 의하여 일부 세그멘트들에서도 발생할 수 있다. 본 발명의 일 실시예는 도형-배경 경계를 이행하는 동안에 레이블링의 사후 확률을 최대화하는 픽셀 단위의 레이블 할당 문제를 공식화함으로써 이 문제의 해결책을 제시한다. 가장 정교한 스케일에서의 도형-배경 경계 정보는 이전 섹션에서 상술한 부스팅 기반의 에지 교육으로부터 획득된다. BEL은 오브젝트의 도형-배경을 검출하도록 훈련된다. 부스팅 기반의 에지 검출기로부터 상향식 정보 및 하향식 정보가 주어진 확률 분표, P(X|B,T) 영상 I 가 주어진 에지 확률인 P(e|I)가 제공되면, 가장 정교한 스케일인 X₁에서의 이전 세그멘테이션 맵의 에너지가 다음과 같이 정의될 수 있다.

,

여기에서 V _p,q 는 평탄(smooth) 코스트이며, D_p는 데이터 코스트이고, N은 영향을 미치는 이웃하는 픽셀들의 집합이며, P_l은 가장 정교한 스케일에서의 픽셀들의 집함이며, v는 평탄 코스트 및 데이터 코스트의 균형을 맞추는 인자이다. 예를 들면 4개의 연결된 이웃하는 그리드와 v=125가 사용될 수 있다. 레이블들에 대한 에너지를 최소화함으로써 최대화될 수 있는 에너지와 관련된 결합 확률이 존재한다. 예를 들면, 데이터 코스트는 Dp(Xp=1) = P(Xp=0|B,T) 및 Dp(Xp=0) = P(Xp=1|B,T)일 수 있다. 이는 더 높은 확률을 갖는 레이블을 만든다. 예를 들면 포트의 모델(Potts' model)을 이용하여 에지에서의 불연속성을 유지하면서 레이블의 평탄성이 만들어질 수 있다.

여기에서

, P(e_p|I) 및 P(e_q|I) 는 펙셀 p 및 q에서의 에지 확률이며, a는 곱인자(예를 들면 10)이다. 최종 세그멘테이션은 에너지 함수를 최소화하도록 레이블을 할당함으로써 얻어진다. 예를 들면, 최소화는 그래프 절단에 기초한 알고리즘에 의하여 수행될 수 있으며, 이는 ‘Y. Boykov, O. Veksler,　 및 R. Zabih’가 패턴 분석 및 인공 지능에 관한 IEEE 보고에서 "Fast approximate energy minimization via graph cuts,"(2001,11월) 에 기술되어 있다. 알고리즘은 알파 확장 움직임(alpha-expansion move)으로 지칭되는 많은 움직임의 형태에 대한 지역적 최소 값을 효과적으로 발견하며, 광역적 최소값 으로부터의 두 개의 인자내의 레이블을 발견할 수 있다.

결론

특히 여기에서는 저-레벨 및 중간-레벨 영상 큐를 사용하는 세 개의 다른 큐들, 특정 오브젝트 클레스 및 이들의 특징에 관한 정보를 포함하는 영상으로부터 클래스-특정 오브젝트들을 세그멘테이션하는 방법이 개시된다. 저-레벨 및 중간-레벨 정보는 그래프 기반의 상향식 세그멘테이션 및 부스팅 기반의 에지 교육 기계(BEL) 모두에 사용된다. 오브젝트 정보는 부스팅 기반의 하향식 세그멘테이션 분류기에 사용된다. 모든 단계에서 다수의 다양한 스케일에서 획득될 수 있다. 인자-그래프-기반의 추론 알고리즘이 조건부 랜덤 필드 구성내에서 다중 스케일에서의 상향식 및 하향식 세그멘테이션을 결합시키는데 사용될 수 있다. 사후 확률 결과는 예를 들면 그래그 절단 기반의 알고리즘를 이용하여 최적화 될 수 있는 에너지 함 수를 형성하기 전에 BEL이 도출된 평탄에 결합될 수 있다.

상술한 설명은 다양한 실시예에서 적용될 수 있는 본 발명의 신규한 기술적 특징에 기초하여 서술되었으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진자는 본 발명을 벗어나지 않는 범위내에서 서술된 장치 및 방법의 형태 및 설명을 생략, 대체 및 변경할 수 있다. 따라서, 본 발명의 범위는 상술한 상세한 설명보다는이후의 청구항에 의하여 결정된다. 청구항과 동일 범위 또는 균등 범위내에서 다양한 변화가 가능하다.

한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다.

상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등) 및 캐리어 웨이브(예를 들면, 인터넷을 통한 전송)와 같은 저장매체를 포함한다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으 로 해석되어야 할 것이다.

도 1a는 본 발명의 일 실시예에 따른 비디오 감시를 위한 오브젝트 세그멘테이션 및 분류를 사용하는 컴퓨터 비젼 시스템에 관한 블록도이다.

도 1b는 본 발명의 일 실시예에 따른 사람과 기계간의 인터페이스를 통하여 텔레비전을 제어하기 위한 오브젝트 세그멘테이션 및 분류를 사용하는 컴퓨터 비젼 시스템에 관한 블록도이다.

도 2는 도 1a 및 도 1b와 같은 컴퓨터 비젼 시스템에서 사용되는 오브젝트 세그멘테이션 및 분류 시스템에 관한 블록도이다.

도 3a 및 도 3b는 본 발명의 일 실시예에 따른 영상내의 오브젝트를 검출하는 방법에 관한 흐름도이다.

도 4는 다양한 스케일에서의 성분들로부터 형성된 트리를 이용하여 복수의 스케일에서의 세그멘트 정보를 혼합하는 다중-스케일 세그멘트를 이용을 나타낸다.

도 5는 본 발명의 일 실시예에 따른 하향식 및 상향식 세그멘트 정보를 혼합하는데 사용되는 조건부 랜덤 필드에 대응하는 인자 그래프의 일 예이다.

Claims

영상을 처리하는 방법에 있어서,

복수개의 픽셀들을 포함하는 영상을 나타내는 디지털화 된 데이터를 수신하는 단계;

복수 개의 스케일 레벨에서 상기 픽셀 데이터를 세그멘트하는 단계;

상기 세그멘트들의 시지각(visual perception)의 측도(measure)를 포함하는, 상기 복수개의 스케일 레벨에서의 특징 벡터를 결정하는 단계;

둘 이상의 특징 벡터를 비교하여 결정된 유사도를 하나 이상 결정하는 단계;

상기 세그멘트들의 제 1 서브셋 각각에 대하여 상기 세그멘트들이 오브젝트 클래스의 구성원일 제 1 확률 값을 결정하는 단계;

상기 결정된 확률의 제 1 확률 값에 기초하여 확률 인자들을 결정하고, 상기 결정된 유사도에 기초하여 유사도 인자들을 결정하는 단계; 및

상기 확률 인자들 및 유사도 인자들에 기초하여, 세그메트들의 제 2 서브셋 각각에 대한 제 2 확률 값을 결정하기 위한 인자 그래프 분석을 수행하는 단계를 포함하는 것을 특징으로 하는 영상 처리 방법.
제 1 항에 있어서,

상기 세그멘트들의 제 2 서브셋 각각은, 인자 그래프 분석내의 가변적인 노드들이며,

상기 상이한 스케일 레벨에서의 상기 가변적인 노드들간의 인자 노드들은 유사도 인자 및 확률 인자로부터 계산되는 것을 특징으로 하는 영상 처리 방법.
제 2항에 있어서,

상기 결정된 제 2 확률 값에 기초하여, 적어도 하나의 세그멘트들을 오브젝트 클래스의 구성원 또는 오브젝트 클래스의 비구성원으로 분류하는 단계를 더 포함하는 것을 특징으로 하는 영상 처리 방법.
제 3항에 있어서, 상기 적어도 하나의 세그멘트들을 분류하는 단계는,

상기 가장 정교한 스케일 레벨에서의 상기 제 2 확률 값을 최대화하는 단계를 포함하는 것을 특징으로 하는 영상 처리 방법.
제 1항에 있어서, 상기 제 2 확률 값을 결정하는 단계는,

상기 오브젝트 클래스에 대하여 생성된 하나 이상의 교육된 부스팅 분류기 모델(learned boosting classifier model)들을 이용하는 단계를 포함하는 것을 특징으로 하는 영상 처리 방법.　
제 5항에 있어서,

소정의 오브젝트 클래스 세그멘트들과 비-오브젝트 클래스 세그멘트들을 포함하는 영상들에 기초하여, 상기 하나 이상의 교육된 부스팅 분류기 모델들을 생성 하는 단계를 더 포함하는 것을 특징으로 하는 영상 처리 방법.
제 5항에 있어서, 상기 하나 이상의 교육된 부스팅 분류기 모델들은,

상기 복수개의 스케일 레벨들 각각에 대하여 생성된 교육된 분류기 모델을 포함하는 것을 특징으로 하는 영상 처리 방법.
제 1항에 있어서, 인자 그래프 분석내의 제 1 스케일 레벨에서의 세그멘트들 중 하나는, 상기 인자 그래프 분석내의 제 2 스케일 레벨에서의 둘 이상의 세그멘트들과 인접한 에지들을 통하여 연결되는 것을 특징으로 하는 영상 처리 방법.
제 2항에 있어서,

상기 오브젝트 클래스의 구성원으로써의 세그멘트들의 다양한 집합들을 나타내는 후보 세그멘트 레이블 맵을 하나 이상 결정하는 단계;

상기 후보 세그멘트 레이블 맵들에 대하여, 이웃하는 오브젝트 클래스 세그멘트들의 에지에 인접하는 픽셀들의 쌍을 확인하고, 상기 확인된 픽셀들의 쌍이 오브젝트 클래스 세그멘트와 비-오브젝트 클래스 세그멘트 간의 에지 픽셀들임을 나타내는 측도를 계산하는 단계; 및

상기 후보 세그멘트 레이블 맵들에 대하여, 상기 제 2 확률 값 및 상기 계산된 에지 픽셀 측도에 기초하여 에너지 함수를 생성하는 단계를 더 포함하고,

상기 에너지 함수는 상기 제 2 확률 값에 따라 세그멘트에 레이블링을 부여 하고, 상기 에지 픽셀 측도에 기초하여 두 개의 이웃하는 세그멘트들을 오브젝트 클래스 세그멘트들로 레이블링을 수행하는 것을 특징으로 하는 영상 처리 방법.
제 9항에 있어서,

사익 후보 세그멘트 레이블 맵들의 에너지 함수에 기초하여 상기 오브젝트 클래스의 구성원으로 상기 세그멘트들을 분류하는 단계를 더 포함하는 것을 특징으로 하는 영상 처리 방법.
제 10항에 있어서, 상기 에너지 함수는,

상기 에지 픽셀 측도에 비례하여 에너지 함수를 증가시키는 제 1 코스트 성분 및 상기 제 2 확률 값에 비례하여 세그멘트를 분류하는 것 보다 상기 제 2 확률 값에 반비례하여 세그멘트들을 분류함에 있어서 상기 에너지 함수를 더 증가시키는 제 2 코스트 성분을 포함하고,

상기 방법은, 상기 에너지 함수를 최소화하는 것에 기초하여 상기 세그멘트들을 분류하는 단계를 더 포함하는 것을 특징으로 하는 영상 처리 방법.
제 9항에 있어서, 상기 에지 픽셀 측도를 계산하는 단계는,

오브젝트 클래스 세그멘트들 및 비-오브젝트 클래스 세그멘트들간의 에지를 분류하기 위하여 생성된 교육된 부스팅 분류기 알고리즘을 이용하는 단계를 포함하는 것을 특징으로 하는 영상 처리 방법.
제 12항에 있어서,

소정의 오브젝트 클래스 세그멘트 및 비-오브젝트 클래스 세그멘트를 포함하는 영상들에 기초하여 에지를 분류하는 교육된 부스팅 분류기 모델을 생성하는 단계를 더 포함하는 것을 특징으로 하는 영상 처리 방법.
영상을 처리하는 시스템에 있어서,

복수개의 픽셀들을 포함하는 영상을 나타내는 디지털화 된 데이터를 수신하도록 구성된 비디오 서브시스템;

복수개의 스케일 레벨에서 상기 픽셀 데이터를 세그멘트 하도록 구성된 영상 세그멘테이션 서브시스템;

하나 이상의 세그멘트들의 시지각(visual perception)의 측도를 포함하는, 상기 복수 개의 스케일 레벨에서의 특징 벡터를 결정하고, 둘 이상의 특징 벡터를 비교하여 결정된 유사도를 하나 이상 결정하도록 구성된 지각적 분석 서브시스템;

상기 세그멘트들의 제 1 서브셋 각각에 대하여 상기 세그멘트들이 오브젝트 클래스의 구성원일 제 1 확률 값을 결정하도록 구성된 오브젝트 분류 서브시스템;

상기 결정된 제 1 확률 값에 기초하여 확률 인자들을 결정하고, 상기 결정된 유사도에 기초하여 유사도 인자들을 결정하고, 상기 확률 인자들 및 유사도 인자들에 기초하여, 세그메트들의 제 2 서브셋 각각에 대한 제 2 확률 값을 결정하기 위한 인자 그래프 분석을 수행하도록 구성된 통계적 분석 서브시스템을 포함하는 것 을 특징으로 하는 영상 처리 시스템.
제 14 항에 있어서,

상기 세그멘트들의 제 2 서브셋 각각은, 인자 그래프 분석내의 가변적인 노드들이며,

상기 상이한 스케일 레벨에서의 상기 가변적인 노드들간의 인자 노드들은 유사도 인자 및 확률 인자로부터 계산되는 것을 특징으로 하는 영상 처리 시스템.
제 15항에 있어서,

상기 결정된 제 2 확률 값에 기초하여, 적어도 하나의 세그멘트들을 오브젝트 클래스의 구성원 또는 오브젝트 클래스의 비구성원으로 분류하는 단계를 더 포함하는 것을 특징으로 하는 영상 처리 시스템.
제 16항에 있어서, 상기 오브젝트 분류 서브시스템은,

상기 가장 정교한 스케일 레벨에서의 상기 제 2 확률 값을 최대화도록 더 구성된 것을 특징으로 하는 영상 처리 시스템.
제 17항에 있어서, 상기 오브젝트 분류 서브시스템은,

상기 오브젝트 클래스에 대하여 생성된 하나 이상의 교육된 부스팅 분류기 모델들을 이용하도록 구성된 것을 특징으로 하는 영상 처리 시스템.
제 18항에 있어서, 상기 오브젝트 분류 서브시스템은,

소정의 오브젝트 클래스 세그멘트들과 비-오브젝트 클래스 세그멘트들을 포함하는 영상들에 기초하여 상기 하나 이상의 교육된 부스팅 분류기 모델들을 생성하도록 더 구성된 것을 특징으로 하는 영상 처리 시스템.
제 18항에 있어서, 상기 하나 이상의 교육된 부스팅 분류기 모델들은,

상기 복수개의 스케일 레벨들 각각에 대하여 생성된 교육된 분류기 모델을 포함하는 것을 특징으로 하는 영상 처리 시스템.
제 14항에 있어서, 인자 그래프 분석내의 제 1 스케일 레벨에서의 세그멘트들 중 하나는, 상기 인자 그래프 분석내의 제 2 스케일 레벨에서의 둘 이상의 세그멘트들과 인접한 에지들을 통하여 연결되는 것을 특징으로 하는 영상 처리 시스템.
제 15항에 있어서,

상기 오브젝트 분류 서브시스템은, 상기 오브젝트 클래스의 구성원으로써의 세그멘트들의 다양한 집합들을 나타내는 후보 세그멘트 레이블 맵을 하나 이상 결정하도록 더 구성되고,

상기 시스템은, 상기 후보 세그멘트 레이블 맵들에 대하여, 이웃하는 오브젝트 클래스 세그멘트들의 에지에 인접하는 픽셀들의 쌍을 확인하고, 상기 확인된 픽 셀들의 쌍이 오브젝트 클래스 세그멘트와 비-오브젝트 클래스 세그멘트간의 에지 픽셀들임을 나타내는 측도를 계산하도록 더 구성되며,

상기 통계적 분석 서브시스템은, 상기 후보 세그멘트 레이블 맵들에 대하여, 상기 제 2 확률 값 및 상기 계산된 에지 픽셀 측도에 기초하여 에너지 함수를 생성하도록 더 구성되며,

상기 에너지 함수는, 상기 제 2 확률 값에 따라 세그멘트에 레이블링을 부여하고, 상기 에지 픽셀 측도에 기초하여 두 개의 이웃하는 세그멘트들을 오브젝트 클래스 세그멘트들로 레이블링을 수행하는 것을 특징으로 하는 영상 처리 시스템.
제 22항에 있어서, 상기 오브젝트 분류 서브시스템은,

상기 후보 세그멘트 레이블 맵들의 에너지 함수에 기초하여 상기 오브젝트 클래스의 구성원으로써 상기 세그멘트들을 분류하도록 더 구성된 것을 특징으로 하는 영상 처리 시스템.
제 23항에 있어서, 상기 에너지 함수는,

상기 에지 픽셀 측도에 비례하여 에너지 함수를 증가시키는 제 1 코스트 성분 및 상기 제 2 확률 값에 비례하여 세그멘트를 분류하는 것 보다 상기 제 2 확률 값에 반비례하여 세그멘트들을 분류할 때 상기 에너지 함수를 더 증가시키는 제 2 코스트 성분을 포함하고,

상기 오브젝트 분류 서브시스템은, 상기 에너지 함수를 최소화하는 것에 기 초하여 상기 세그멘트들을 분류하는 것을 특징으로 하는 영상 처리 시스템.
제 22항에 있어서, 상기 에지 정보 서브시스템은,

오브젝트 클래스 세그멘트들 및 비-오브젝트 클래스 세그멘트들 간의 에지를 분류하기 위하여 생성된 교육된 부스팅 분류기 알고리즘을 이용하여 에지 픽셀 측도를 계산하는 것을 특징으로 하는 영상 처리 시스템.
제 25항에 있어서, 상기 에지 정보 서브시스템은,

소정의 오브젝트 클래스 세그멘트 및 비-오브젝트 클래스 세그멘트를 포함하는 영상들에 기초하여 에지를 분류하는 교육된 부스팅 분류기 모델을 생성하도록 더 구성된 것을 특징으로 하는 영상 처리 시스템.