KR101260847B1

KR101260847B1 - 행동 인식 시스템

Info

Publication number: KR101260847B1
Application number: KR1020097018650A
Authority: KR
Inventors: 존 에릭 이튼; 웨슬리 케네쓰 코브; 데니스 진 유레치; 바비 어니스트 블라이더; 데이비드 사무엘 프리들랜더; 라즈키란 쿠마르 고투무칼; 론 윌리암 라이징거; 키쇼르 아디나쓰 사이트왈; 밍-중 세우; 데이비드 마빈 살럼; 강 쑤; 타오 양
Original assignee: 비헤이버럴 레코그니션 시스템즈, 인코포레이티드
Priority date: 2007-02-08
Filing date: 2008-02-08
Publication date: 2013-05-06
Also published as: CN101622652A; WO2008098188A3; AU2008213586B2; US20080193010A1; EG26304A; EP2118864B1; NZ578752A; ES2522589T3; EP2118864A2; DK2118864T3; JP5602792B2; RU2009133474A; JP5278770B2; KR20090121309A; US20120163670A1; JP2012230686A; RU2475853C2; US8131012B2; PL2118864T3; BRPI0806968A8

Abstract

본 발명의 실시예들은 비디오 프레임들의 획득된 스트림에 기초하여 행동을 분석 및 학습하기 위한 방법 및 시스템을 제공한다. 스트림으로 표현되는 대상물들은 비디오 프레임들의 분석에 기초하여 결정된다. 각각의 대상물은 대상물의 모션을 프레임 별로 추적하기 위해 사용되는 상응하는 검색 모델을 가질 수 있다. 대상물들의 클래스들이 결정되고 대상물들의 의미 표현들이 생성된다. 의미 표현들은 대상물의 행동들을 결정하고 획득된 비디오 스트림들로 표현되는 환경에서 발생하는 행동들에 대하여 학습하기 위해 사용된다. 이러한 방식으로, 시스템은 그러한 환경에서의 움직임들 또는 활동들 또는 부재를 분석함으로써 임의의 환경에서 정상적 및 비정상적 행동들을 실시간으로 신속하게 학습하고, 학습된 것에 기초하여 비정상적이고 의심스러운 행동을 식별 및 예측한다.

Description

행동 인식 시스템{BEHAVIORAL RECOGNITION SYSTEM}

본 발명은 일반적으로 비디오 분석에 관한 것으로서, 보다 구체적으로는 스트리밍(streaming) 비디오 데이터에 기초하여 행동(behavior)을 분석 및 학습하는 것에 관한 것이다.

현재 이용가능한 몇몇 비디오 감시 시스템들은 간단한 인식 능력을 갖고 있다. 그러나, 그러한 많은 감시 시스템들은 시스템이 개발되기 이전에 시스템들이 찾을 수 있는 대상물들(objects) 및/또는 동작들(actions)의 사전 지식(advance knowledge)을 요구한다. 특정한 "비정상(abnormal)" 행동들에 관련된 하위(underlying) 애플리케이션 코드가 개발되어서 이러한 감시 시스템들이 충분하게 기능하고 동작가능하게 되어야 한다. 즉, 시스템 하위 코드가 특정한 행동들의 설명들을 포함하지 않는 경우, 시스템은 그러한 행동들을 인식할 수 없을 것이다. 또한, 별개의(distinct) 행동들에 대하여, 종종 개별 소프트웨어 물건들(products)이 개발될 필요가 있다. 이는 감시 시스템들이 노동 집약적이고 매우 고비용의 인식 능력들을 갖게 한다. 예를 들어, 숨어있는 범죄자들을 공항 출입문들에서 모니터링하고 수영장에서 움직이지 않고 있는 수영자들을 식별하는 것은 2가지 별개의 상황들이므로, 이들의 각각의 "비정상" 행동들이 사전-코딩된(pre-coded) 2개의 별 개의 소프트웨어 물건들의 개발을 요구할 수 있다.

감시 시스템들은 또한 정상적인 장면들을 기억하고 정상적인 것으로 고려된 것이 변화될 때마다 경보(alarm)를 발생시키도록 설계될 수도 있다. 그러나, 이러한 타입들의 감시 시스템들은 얼마나 많은 변화가 비정상적인지를 인지하도록 사전-프로그래밍되어야 한다. 또한, 그러한 시스템들은 실제로 어떤 일이 발생했는지를 정확히 특성화할 수 없다. 보다 정확히 말하면, 이러한 시스템들은 "정상적"인 것으로 이전에 고려되었던 무언가가 변화되었음을 결정한다. 따라서, 그러한 방식으로 개발된 물건들은 제한된 범위의 미리 규정된 타입의 행동만을 감지하도록 구성된다.

본 발명의 실시예들은 획득된 비디오 프레임들의 스트림에 기초하여 행동을 분석하고 학습하기 위한 방법 및 시스템을 제공한다. 스트림으로 표현(depict)되는 대상물들은 비디오 프레임들의 분석에 기초하여 결정된다. 각각의 대상물은 대상물들의 모션(motion)들을 프레임 별로 추적하기 위해 사용되는 상응하는 검색 모델을 가질 수 있다. 대상물들의 클래스들(classes)이 결정되고 대상물들의 의미 표현들(semantic representations)이 생성된다. 의미 표현들은 대상물들의 행동들을 결정하고 획득된 비디오 스트림들로 표현되는 환경에서 발생하는 행동들에 관하여 학습하기 위해 사용된다. 이러한 방식으로, 시스템은 그러한 환경에서의 움직임들(movements) 또는 활동들(activity) 또는 부재(absence)를 분석함으로써 임의의 환경에서 정상 및 비정상 행동들을 실시간으로 신속하게 학습하며, 학습되었던 것에 기초하여 비정상 및 의심스러운 행동을 식별하고 예측한다.

본 발명의 하나의 특정 실시예는 장면 내의 비디오 프레임들 기록 이벤트들의 스트림을 처리하기 위한 방법을 포함한다. 방법은 일반적으로 스트림의 제 1 프레임을 수신하는 단계를 포함할 수 있다. 제 1 프레임은 프레임에 포함된 다수의 픽셀들에 대한 데이터를 포함한다. 방법은 제 1 프레임의 하나 이상의 그룹들의 픽셀들을 식별하는 단계를 추가로 포함할 수 있다. 각각의 그룹은 장면 내의 대상물을 표현한다. 방법은 각각의 식별된 대상물과 연관된 하나 이상의 특징(feature)들을 저장하는 검색 모델을 생성하는 단계, 트레이닝된 분류자(trained classifier)를 이용하여 각각의 대상물들을 분류하는 단계, 제 2 프레임에서, 검색 모델을 이용하여 제 1 프레임에서 식별된 각각의 대상물들을 추적하는 단계, 및 상기 제 1 프레임, 상기 제 2 프레임 및 상기 대상물 분류들을 기계 학습 엔진에 공급하는 단계를 추가로 포함할 수 있다. 상기 방법은 다수의 프레임들에 대하여 장면 내의 대상물들에 관련된 행동의 하나 이상의 의미 표현들을 기계 학습 엔진에 의해 생성하는 단계를 추가로 포함할 수 있다. 일반적으로, 기계 학습 엔진은 다수의 프레임들에 대하여 장면 내에서 관찰된 행동의 패턴들을 학습하고 분류된 대상물들에 관련된 행동의 패턴들의 발생들을 식별하도록 구성될 수 있다.

본 발명의 상기 인용된 특징들, 장점들 및 목적들은 달성되고 상세히 이해될 수 있는 방식으로, 상기에서 간단히 요약된 본 발명의 보다 특정한 설명이 첨부된 도면들에 도시된 실시예들을 참조로 이루어질 수 있다.

그러나, 첨부된 도면들은 본 발명의 전형적인 실시예들만을 도시하므로 그 범주를 제한하는 것으로 고려되어서는 안되며, 본 발명에 대해 다른 동일한 효과적인 실시예들이 허용될 수 있다는 점을 유의해야 한다.

도 1은 본 발명의 일 실시예에 따른 행동 인식 시스템의 상위-레벨 블록도이다.

도 2는 본 발명의 일 실시예에 따른 비디오 프레임들의 스트림에 기초하여 행동을 분석 및 학습하기 위한 방법의 흐름도를 도시한다.

도 3은 본 발명의 일 실시예에 따른 컴퓨터 영상 엔진의 백그라운드-포어그라운드 모듈을 도시한다.

도 4는 본 발명의 일 실시예에 따른 컴퓨터 영상 엔진의 관심 대상물들을 추적하기 위한 모듈을 도시한다.

도 5는 본 발명의 일 실시예에 따른 컴퓨터 영상 엔진의 추정기/식별자 모듈을 도시한다.

도 6은 본 발명의 일 실시예에 따른 컴퓨터 영상 엔진의 콘텍스트 프로세서 컴포넌트를 도시한다.

도 7은 본 발명의 일 실시예에 따른 기계 학습 엔진의 의미적 분석 모듈을 도시한다.

도 8은 본 발명의 일 실시예에 따른 기계 학습 엔진의 감각 모듈을 도시한다.

도 9A-9C는 본 발명의 일 실시예에 따른 행동 인식 시스템이 비정상 행동을 감지하고 경보를 발생시키는 비디오 프레임들의 시퀀스를 도시한다.

본 명세서에서 기술되는 본 발명의 실시예들과 같은, 기계-학습 행동 인식 시스템들은 시간 동안 획득되는 정보에 기초하여 행동들을 학습한다. 본 발명의 범주에서, 비디오 스트림으로부터의 정보(즉, 개별 비디오 프레임들의 시퀀스)가 분석된다. 본 개시물은 시간에 따른 움직임들 및/또는 활동들(또는 이들의 부재)을 분석함으로써 장면 내의 정상 및 비정상 행동을 식별 및 구별하도록 학습하는 행동 인식 시스템을 제시한다. 정상/비정상 행동들은 미리 정의되거나 또는 하드-코딩되지 않는다. 대신에, 본 발명에서 제시되는 행동 인식 시스템은 임의의 환경에서 "정상"인 것이 무엇인지를 신속하게 학습하고, 위치를 모니터링함으로써, 즉 기록된 비디오 프레임별 콘텐츠를 분석함으로써, 학습된 것에 기초하여 비정상 및 의심스러운 행동을 식별한다.

이하에서, 본 발명의 실시예들을 참조한다. 그러나, 본 발명은 임의의 구체적으로 기술된 실시예로 제한되지 않음을 이해해야 한다. 대신에, 상이한 실시예들에 관련되는 또는 관련되지 않는, 이하의 특징들 및 구성요소들의 임의의 조합은 본 발명을 구현하고 실시하기 위해 고려된다. 더욱이, 다양한 실시예들에서, 본 발명은 종래기술에 비해 많은 장점들을 제공한다. 그러나, 본 발명의 실시예들은 다른 가능한 솔루션들 및/또는 종래기술에 비하여 장점들을 달성할 수 있지만, 주어진 실시예에 의해 특정한 장점이 달성되는지 여부는 본 발명을 제한하지 않는다. 따라서, 이하의 양상들, 특징들, 실시예들 및 장점들은 단지 예시적인 것이며, 명 시적으로 청구항(들)에서 인용되는 것을 제외하고 첨부된 청구범위의 제한들 또는 구성요소들로서 고려되어서는 안된다. 마찬가지로, "본 발명"이란 참조는 본 명세서에 개시된 임의의 진보적 대상의 일반화로서 간주되어서는 안되며 청구항(들)에 명시적으로 인용되는 것을 제외하고 첨부된 청구범위의 제한 또는 구성요소로 고려되어서는 안된다.

본 발명의 일 실시예는 컴퓨터 시스템에 사용하기 위한 프로그램 물건(program product)으로서 구현된다. 프로그램 물건의 프로그램(들)은 실시예들의 기능들(본 명세서에서 기술되는 방법들을 포함하는)을 정의하고 다양한 컴퓨터-판독가능 저장 매체에 포함될 수 있다. 예시적인 컴퓨터-판독가능 저장 매체는 이에 제한됨이 없이 다음을 포함한다: (i) 정보가 영구적으로 저장되는 비-기록가능 저장 매체(예, CD-ROM 드라이브에 의해 판독가능한 CD-ROM 디스크들과 같은 컴퓨터 내의 리드-온리 메모리 디바이스들); (ⅱ) 변경가능 정보가 저장되는 기록가능 저장 매체(예, 디스켓 드라이브 또는 하드-디스크 드라이브 내의 플로피 디스크들). 그러한 컴퓨터-판독가능 저장 매체는 본 발명의 기능들에 관련된 컴퓨터-판독가능 명령들을 보유하는 경우 본 발명의 실시예들이다. 다른 매체들은 예를 들어 무선 통신 네트워크들을 포함하는 컴퓨터 또는 전화 네트워크를 통하여 컴퓨터로 전달된다. 후자의 실시예는 특히 인터넷 및 다른 네트워크들로 정보를 전송하거나 인터넷 및 다른 네트워크들로부터 정보를 전송하는 것을 포함한다. 그러한 통신 매체들은 본 발명의 기능들에 관련된 컴퓨터-판독가능 명령들을 보유할 때 본 발명의 실시예들이다. 컴퓨터-판독가능 저장 매체들 및 통신 매체들은 본 명세서에서 컴 퓨터-판독가능 매체들로서 폭넓게 지칭될 수 있다.

일반적으로, 본 발명의 실시예들을 구현하기 위해 실행되는 루틴들은 운영 체제, 특정 애플리케이션, 컴포넌트, 프로그램, 모듈, 오브젝트, 또는 명령들의 시퀀스의 부분일 수 있다. 본 발명의 컴퓨터 프로그램은 전형적으로 특정(native) 컴퓨터에 의해 기계-판독가능 포맷으로 번역되는 많은 명령들 및 이에 따른 실행가능 명령들로 구성된다. 또한, 프로그램들은 프로그램에 로컬로 상주하거나 메모리 또는 저장 장치들에서 발견되는 데이터 구조들 및 변수들로 구성된다. 또한, 본 명세서에서 기술되는 다양한 프로그램들은 본 발명의 특정 실시예에서 이들이 구현되는 애플리케이션에 기초하여 식별될 수 있다. 그러나, 후속하는 임의의 특정 프로그램 명칭(nomenclature)은 단지 편의를 위해 사용되므로, 본 발명은 그러한 명칭에 의해 식별 및/또는 암시되는 임의의 특정 애플리케이션에서 단독으로 사용되는 것으로 제한되어서는 안된다.

본 발명의 실시예들은 행동들을 분석, 학습 및 인식하기 위한 행동 인식 시스템 및 방법을 제공한다. 도 1은 본 발명의 일 실시예에 따라, 행동 인식 시스템(100)의 상위-레벨 블록도이다. 도시된 것처럼, 행동 인식 시스템(100)은 비디오 입력(105), 네트워크(110), 컴퓨터 시스템(115), 및 입력 및 출력 장치들(145)(예, 모니터, 키보드, 마우스, 프린터 등)을 포함한다.

네트워크(110)는 비디오 입력(105)으로부터 비디오 데이터(예, 비디오 스트림(들), 비디오 이미지들 등)를 수신한다. 비디오 입력(105)은 비디오 카메라, VCR, DVR, DVD, 컴퓨터 등일 수 있다. 예를 들어, 비디오 입력(105)은 특정 영역 (예, 지하철 역)을 목표로 하고 상기 영역 및 그곳에서 발생하는 이벤트들을 연속적으로 기록하는 고정식 비디오 카메라일 수 있다. 일반적으로, 카메라에 보여질 수 있는 영역은 "장면(scene)"으로서 지칭된다. 비디오 입력(105)은 특정 프레임-속도(예, 초당 24 프레임들)로 개별 비디오 프레임들의 시퀀스로서 장면을 기록하도록 구성될 수 있으며, 여기서 각각의 프레임은 고정된 수의 픽셀들(예, 320×240)을 포함한다. 각각의 프레임의 각각의 픽셀은 컬러값(예, RGB 값)을 특정한다. 또한, 비디오 스트림은 예를 들어 MPEG2, MJPEG, MPEG4, H.263, H.264 등과 같은 공지된 그러한 포맷들을 이용하여 포맷팅될 수 있다. 이하에서 보다 상세히 논의되는 것처럼, 행동 인식 시스템은 이러한 원시(raw) 정보를 분석하여 스트림의 활동 대상물들을 식별하고, 그러한 엘리먼트들을 분류하며, 그러한 엘리먼트들의 상호작용들 및 동작들에 관한 다양한 메타데이터를 유도하고, 이러한 정보를 기계 학습 엔진에 제공한다. 이 때, 기계 학습 엔진은 시간 동안 평가, 학습 및 기억하도록 구성될 수 있다. 또한, "학습"에 기초하여, 기계 학습 엔진은 특정 행동들을 비정상적인 것으로 식별할 수 있다.

네트워크(110)는 비디오 입력(105)에 의해 기록된 비디오 데이터를 컴퓨터 시스템(115)으로 전송하기 위해 사용될 수 있다. 일 실시예에서, 네트워크(110)는 비디오 프레임들의 수신된 스트림을 컴퓨터 시스템(115)으로 전송한다.

예시적으로, 컴퓨터 시스템(115)은 CPU(120), 스토리지(125)(예, 디스크 드라이브, 광 디스크 드라이브, 플로피 디스크 드라이브 등), 및 컴퓨터 영상(vision) 엔진(135)과 기계 학습 엔진(140)을 포함하는 메모리(130)를 포함한다. 컴퓨터 영상 엔진(135)은 비디오 입력(105)에 의해 제공되는 비디오 프레임들의 시퀀스를 분석하도록 구성된 소프트웨어 애플리케이션을 제공할 수 있다. 예를 들어, 일 실시예에서, 컴퓨터 영상 엔진(135)은 비디오 프레임들을 분석하여 관심 타겟들을 식별하고, 그러한 관심 타겟들을 추적하며, 관심 타겟들에 관한 특성들을 추정하고, 이들을 카테고리들로 분류하며, 관측된 데이터를 태그(tag)하도록 구성될 수 있다. 일 실시예에서, 컴퓨터 영상 엔진(135)은 분류된 관심 대상물들의 속성들(예, 질감, 색상 등)의 리스트를 생성하고, 리스트를 기계 학습 엔진(140)에 제공한다. 부가적으로, 컴퓨터 영상 엔진은 장면 내의 각각의 추적된 대상물에 관한 다양한 정보(예, 운동 데이터, 깊이 데이터, 색상 데이터, 외형 데이터 등)를 기계 학습 엔진(140)에 제공할 수 있다.

기계 학습 엔진(140)은 비디오 프레임들 및 컴퓨터 영상 엔진(135)에 의해 생성된 결과들을 수신한다. 기계 학습 엔진(140)은 수신된 데이터를 분석하고, 비디오 프레임들에 표현된 이벤트들의 의미 표현들을 생성하며, 패턴들을 결정하고, 정상 및/또는 비정상 이벤트들을 식별하기 위해 이러한 관측된 행동들로부터 학습한다. 컴퓨터 영상 엔진(135)과 기계 학습 엔진(140) 및 이들의 컴포넌트들은 이하에서 보다 상세히 제시된다. 정상/비정상 행동/이벤트가 결정되었는지 여부 및/또는 그러한 행동/이벤트가 무엇인지를 기술하는 데이터는 예를 들어, GUI 인터페이스 스크린 상에 나타나는 경보 메시지와 같은 경보들을 발생시키기 위해 출력 장치들(145)에 제공될 수 있다.

일반적으로, 컴퓨터 영상 엔진(135)과 기계 학습 엔진(140)은 둘다 수신된 비디오 데이터를 실시간으로 처리한다. 그러나, 컴퓨터 영상 엔진(135)과 기계 학습 엔진(140)에 의해 정보를 처리하기 위한 시간 스케일들은 상이할 수 있다. 예를 들어, 일 실시예에서, 컴퓨터 영상 엔진(135)은 프레임 별로 수신된 비디오 데이터를 처리하는 반면에, 기계 학습 엔진은 N-프레임들마다 수신된 데이터를 처리한다. 즉, 컴퓨터 영상 엔진(135)은 주어진 프레임 내에서 어떤일이 발생하고 있는지에 관한 정보의 세트를 유도하기 위해 각각의 프레임을 실시간으로 분석하는 반면에, 기계 학습 엔진(140)은 비디오 입력의 실시간 프레임 속도로 제한되지 않는다.

그러나, 도 1은 단지 행동 인식 시스템(100)의 하나의 가능한 배열만을 도시한다는 것을 유의한다. 예를 들어, 비디오 입력(105)은 네트워크(110)를 통하여 컴퓨터 시스템(115)에 접속된 것으로 도시되지만, 네트워크(110)가 항상 제공되거나 필요한 것은 아니다(예, 비디오 입력(105)은 컴퓨터 시스템(115)에 직접 접속될 수 있음). 또한, 일 실시예에서, 컴퓨터 영상 엔진(135)은 비디오 입력 장치의 부분으로서(예, 비디오 카메라에 직접 배선된 펌웨어 컴포넌트로서) 구현될 수 있다. 그러한 경우에서, 비디오 카메라의 출력들은 분석을 위해 기계 학습 엔진(140)에 제공될 수 있다.

도 2는 본 발명의 일 실시예에 따른, 비디오 프레임들의 스트림으로부터 행동을 분석 및 학습하기 위한 방법(200)을 도시한다. 도시된 것처럼, 방법(200)은 단계(205)에서 시작된다. 단계(210)에서, 비디오 프레임들의 세트는 비디오 입력 소스로부터 수신된다. 단계(215)에서, 비디오 프레임들은 비디오 노이즈, 불규칙 적인 또는 일반적이지 않은 장면 조도(illumination), 색상-관련 문제들 등을 최소화하도록 처리될 수 있다. 즉, 비디오 프레임들의 콘텐츠는 행동 인식 시스템의 컴포넌트들(예, 상기에서 논의된 컴퓨터 영상 엔진(135)과 기계 학습 엔진(140))에 의한 처리 이전에 이미지들의 가시성(visibility)을 개선하기 위해 향상될 수 있다.

단계(220)에서, 각각의 연속적인 비디오 프레임은 방법(200)의 순차적인 단계들 동안 사용하기 위한 포어그라운드(foreground) 및 백그라운드(background) 이미지를 식별 및/또는 업데이트하기 위해 분석된다. 일반적으로, 백그라운드 이미지는 비디오 입력에 의해 캡쳐되는 장면의 고정 엘리먼트들(예, 지하철 역의 플랫폼을 표현하는 픽셀들)을 포함하는 반면에, 포어그라운드 이미지는 비디오 입력에 의해 캡쳐된 순간적인(volatile) 엘리먼트들(예, 플랫폼 주위를 이동하고 있는 사람을 표현하는 픽셀들)을 포함한다. 즉, 백그라운드 이미지는 포어그라운드 엘리먼트들이 진입하여 서로 상호작용하고 떠나는 스테이지(stage)를 제공한다. 백그라운드 이미지는 백그라운드 이미지의 각각의 픽셀에 대한 색상값을 포함할 수 있다. 일 실시예에서, 백그라운드 이미지는 다수의 프레임들에 대해 주어진 픽셀에 대한 색상값들을 샘플링함으로써 유도될 수 있다. 또한, 새로운 프레임들이 수신됨에 따라, 백그라운드 이미지의 엘리먼트들은 각각의 연속적인 프레임에 포함된 부가적인 정보에 기초하여 업데이트될 수 있다. 전형적으로, 어떤 픽셀들이 백그라운드 또는 포어그라운드의 부분들인지는 비디오 프레임들의 시퀀스의 각각의 프레임에 대해 결정될 수 있으며, 포어그라운드 엘리먼트들은 백그라운드 이미지를 주어진 프레임의 픽셀 색상값들과 비교함으로써 식별될 수 있다. 포어그라운드 픽셀들이 식별되면, 프레임에 마스크가 적용되어, 이미지로부터 백그라운드의 부분인 픽셀들을 효과적으로 커팅하고, 이미지의 포어그라운드 픽셀들의 하나 이상의 블로브(blob)들만을 남겨둔다. 예를 들어, 각각의 포어그라운드 픽셀이 백색으로서 표현되고 각각의 백그라운드 픽셀이 검정색으로 표현되도록, 프레임에 마스크들이 적용될 수 있다. 결과적인 검정색 및 백색 이미지(2차원 어레이로 표현됨)는 행동 인식 시스템의 후속적인 엘리먼트들에 제공될 수 있다. 일 실시예에서, 컴퓨터 시스템(115)에는 주어진 장면에 대한 백그라운드 이미지의 초기(initial) 모델들이 제공될 수 있다.

단계(225)에서, 주어진 프레임과 연관된 포어그라운드 이미지는 포어그라운드 이미지를 관심 타겟들로 분할(segmenting)함으로써 블로브들의 세트(즉, 관련 픽셀들의 그룹)를 식별하기 위해 분석될 수 있다. 즉, 시스템은 포어그라운드 이미지 내의 상이한 블로브들을 분리시키도록 구성될 수 있으며, 여기서 각각의 블로브는 프레임 내의 상이한 포어그라운드 대상물(예, 자동차, 사람, 가방 등)을 표현하는 것으로 보인다. 각각의 포어그라운드 블로브에 대하여, 검색 모델은 포어그라운드 블로브가 최초로 식별될 때 초기화될 수 있다. 검색 모델은 스켐(scheme)내의 블로브의 위치를 캡쳐하고, 어떤 픽셀들이 블로브의 부분으로서 포함되는지를 식별하며, 프레임 별로 블로브의 관측된 행동에 관한 다양한 메타데이터를 저장하기 위해 사용된다. 또한, 검색 모델은 프레임 별로 상응하는 대상물의 모션들을 예측, 검색 및 추적하기 위한 추적 모듈에 의해 사용될 수 있다. 연속적인 프레임 들이 수신됨에 따라, 검색 모델은 포어그라운드 블로브가 연속적인 비디오 프레임들을 통하여 계속 존재할 때 업데이트된다. 그러한 업데이트들은 수신되는 새로운 정보가 필요에 따라 검색 모델의 리파이닝(refining)을 허용할 때, 각각의 부가적인 비디오 프레임에 주기적으로 수행될 수 있다.

검색 모델은 다양한 방식들로 구현될 수 있다. 예를 들어, 일 실시예에서, 검색 모델은 어떤 픽셀들이 그 포어그라운드 대상물의 부분으로서 고려되는지를 포함하는, 주어진 포어그라운드 대상물에 관한 다수의 특징들을 캡쳐하도록 구성된 외형 모델일 수 있다. 그 다음, 주어진 대상물의 외형 모델은 프레임 별로 그 대상물을 표현하는 픽셀들에 기초하여 업데이트될 수 있다. 다른 실시예에서, 검색 모델은 대상물을 둘러싸는 최소 경계(minimal bounding) 사각형일 수 있다. 보다 신속하게 계산되지만, 최소 경계 사각형은 사실상 백그라운드의 부분인 블로브의 부분으로서 픽셀들을 포함한다. 그럼에도 불구하고, 몇몇 타입들의 분석에 대하여, 이러한 방법이 효과적일 수 있다. 이러한 검색 모델들은 이하에서 보다 상세히 기술된다. 단계(230)에서, 검색 모델들은 프레임 별로 장면에 대하여 이동함에 따라 포어그라운드 대상물의 모션들을 추적하기 위해 이용된다. 즉, 제 1 프레임에서 대상물이 식별되고 외형 모델(및/또는 경계 박스)이 그 대상물에 대해 생성되면, 포어그라운드 대상물이 장면에서 사라질 때까지, 외형 모델(및/또는 경계 박스)에 기초하여 후속적인 프레임들에서 그 대상물을 식별 및 추적하기 위해 검색 모델이 이용될 수 있다. 검색 모델은 예를 들어 대상물이 장소 또는 위치를 변화시킨 이후에 비디오 프레임들 내의 대상물을 식별하기 위해 이용될 수 있다. 따라 서, 동일한 대상물들에 관한 상이한 타입들의 정보는 그러한 대상물이 장면을 통하여 이동함에 따라 결정된다(예, 대상물의 운동 특성들, 배향(orientation), 이동 방향 등).

단계(235)에서, 행동 인식 시스템은 상이한 수의 분류들 중 하나로서 포어그라운드 블로브들을 분류하도록 시도한다. 예를 들어, 일 실시예에서, 행동 인식 시스템은 "인간", "차량", "기타(other)" 또는 "알수 없음(unknown)" 중 하나로서 각각의 포어그라운드 대상물을 분류하도록 구성될 수 있다. 물론, 보다 많은 분류들이 사용될 수 있으며, 추가로, 개별 케이스의 요구들을 충족시키도록 분류들이 조정될 수 있다. 예를 들어, 수화물 컨베이어 벨트의 비디오 이미지들을 수신하는 행동 인식 시스템은 상기 벨트 상의 대상물들을 상이한 타입들/크기들의 수화물로서 분류할 수 있다. 포어그라운드 대상물을 분류한 이후, 그러한 대상물에 관한 추가적인 추정들이 이루어질 수 있는데, 예를 들어 대상물의 포즈(pose)(예, 배향, 자세, 등), 위치(예, 비디오 이미지들로 표현된 장면 내의 위치, 다른 관심 대상물들에 대한 위치 등), 및 모션(예, 궤적, 속도, 방향 등)이 추정된다. 이러한 정보는 유사한 대상물들(예, 인간으로 분류된 다른 대상물들)의 과거 관측들에 기초하여 정상 또는 비정상으로서 특정 행동들을 특성화하기 위해 기계 학습 엔진(140)에 의해 이용될 수 있다.

단계(240)에서, 이전 단계들의 결과들(예, 추적 결과들, 백그라운드/포어그라운드 이미지 데이터, 분류 결과들 등)이 조합 및 분석되어, 비디오 프레임들로 표현되는 장면의 맵을 생성한다. 일 실시예에서, 장면은 공간적으로 분리된 영역 들로 분할되고, 각각의 세그먼트는 픽셀들의 세트에 의해 규정된다. 상기 영역들은 z-깊이(즉, 어떤 세그먼트가 보다 근접하고 어떤 세그먼트가 비디오 캡쳐 장치로부터 추가적으로 나오는지)에 따라 분류되며, 선택사항으로서 라벨링된다(예, 천연(natural), 인조(man-made) 등). 단계(245)에서, 대상물들의 모션들의 의미 표현들이 생성된다. 즉, 추적되는 대상물들의 동작들 및/또는 움직임들의 상징적 표현들(symbolic representations)이 생성된다(예, "자동차 주차", "자동차 정지", "사람이 구부림", "사람이 사라짐" 등). 단계(250)에서, 의미 표현들은 인식가능한 패턴들에 대하여 분석된다.

결과적인 의미 표현들, 장면의 주석이 달린(annotated) 맵, 및 분류 결과들은 단계(255)에서 분석된다. 행동 인식 시스템은 행동의 패턴들을 학습하기 위해 그러한 결과들을 분석하고, 관측들에 기초하여 일반화시키며, 유추함으로써 학습한다. 이는 또한 행동 인식 시스템이 어떤 종류의 행동이 정상적이고 어떤 종류의 행동이 비정상적인지를 결정 및/또는 학습할 수 있도록 한다. 즉, 기계 학습 엔진은 인식가능한 패턴들을 식별하고, 주어진 대상물에 대한 새로운 행동들을 평가하며, 주어진 대상물에 관하여 학습된 행동들의 패턴들을 변형 또는 강화시키도록 구성될 수 있다.

단계(260)에서, 선택사항으로서, 이전 단계들의 결과들이 인식된 행동에 대해 분석된다. 부가적으로, 행동 인식 시스템은 주어진 이벤트의 발생 인식에 응답하여 특정한 동작을 수행하도록 구성될 수 있다. 예를 들어, 이전 단계들의 결과들에 기초하여, 행동 인식 시스템은 인간으로서 분류된 포어그라운드 대상물이 일 반적이지 않은 행동에 연관될 때 경보(alert)를 발생시킬 수 있다. 또한, 어떤 행동이 "일반적이지 않은지" 여부는 학습 엔진이 주어진 장면에서 인간에 대해 "정상적인" 행동인 것으로 "학습"했던 것에 기초하여 이루어질 수 있다. 일 실시예에서, 비정상적인 행동이라고 결정된 경우에만 경보들이 발생된다(예, 사람이 지하철 역에서 가방을 내버려두고 떠났음을 나타내는 경보). 다른 실시예에서, 정상적인 이벤트들이 장면에서 발생하고 있음을 나타내기 위한 경보들이 발생된다(예, 자동차가 주차되었음을 나타내는 경보). 방법은 단계(275)에서 종료된다.

전술한 모든 단계들이 지정된 순서로 수행될 필요는 없음을 유의해야 한다. 더욱이, 전술한 모든 단계들이 기술된 방법을 운용하는데 필요한 것은 아니다. 어떤 단계들이 사용되어야 하고, 어떤 순서로 단계들이 수행되어야 하며, 일부 단계들이 다른 단계들보다 더 빈번하게 반복되어야 하는지 여부는 예를 들어, 특정한 사용자, 관측된 환경의 특정한 특성들 등의 요구사항들에 기초하여 결정된다.

도 3 내지 도 6은 본 발명의 일 실시예에 따라 도 1에 도시된 컴퓨터 영상 엔진(135)의 상이한 컴포넌트들을 도시한다. 구체적으로는, 도 3은 백그라운드-포어그라운드 모듈(300)의 컴포넌트들을 도시한다. 백그라운드-포어그라운드 모듈(300)은 어떤 픽셀들이 백그라운드 이미지에 속하고 어떤 픽셀들이 포어그라운드 이미지에 속하는지를 식별하기 위해 각각의 비디오 프레임의 특징들을 사용한다. 일 실시예에서, 비디오 프레임들이 분석되어 장면(및 그 프레임)에 대한 백그라운드 이미지의 디스플레이 부분 또는 그 프레임에 대한 포어그라운드 이미지의 디스플레이 부분으로서 각각의 픽셀을 분류한다.

전형적으로, 시간 동안 색상을 변화시키지 않는 픽셀들은 백그라운드 이미지의 부분으로서 고려된다. 시간 동안 픽셀의 색상값을 샘플링함으로써, 몇몇 프레임들의 포어그라운드 대상물의 존재가 밝혀질 수 있다(wash out). 또한, 백그라운드 이미지가 동적으로 업데이트됨에 따라, 백그라운드 이미지는 밝은 부분(light)과 어두운 부분(shadow)에서의 변화들을 보상할 수 있다. 유사하게, 백그라운드 이미지에 대하여 색상을 변화시키는 픽셀들은 포어그라운드 대상물을 디스플레이하는 것으로 가정된다. 즉, 장면의 포어그라운드 대상물들의 모션들은 연속적인 비디오 프레임들의 픽셀 색상값들 간의 차이들에 기초하여 결정된다. 일반적으로, 백그라운드 이미지는 포어그라운드 대상물들이 컷아웃(cut-out)되는 픽셀들의 비디오 프레임으로서 고려될 수 있다. 포어그라운드 이미지들은 백그라운드를 차단하는(occlude) 픽셀들로서 고려될 수 있다. 대안적으로, 단지 하나의 포어그라운드 이미지만이 사용될 수 있다. 그러한 포어그라운드 이미지는 포어그라운드 픽셀들의 패치들(patches)을 갖는 투명 비디오 프레임으로서 고려될 수 있다. 2개의 연속적인 프레임들은 주어진 포어그라운드 대상물을 추적하는데 충분할 수 있지만, 다수개의 연속적인 프레임들을 비교하는 것이 주어진 장면에 대한 백그라운드 이미지를 결정할 때 보다 정확한 결과들을 제공한다는 것을 유의해야 한다.

또한, 백그라운드 픽셀로서 최초로 결정된 픽셀(하나의 프레임에서)은 포어그라운드 픽셀(다른 프레임에서)이 될 수 있고 그 반대일 수 있다는 것을 유의해야 한다. 예를 들어, 백그라운드의 픽셀의 색상값이 변화되기 시작하면, 이를 포어그라운드 픽셀로서 재분류하는 것이 바람직할 수 있다(예, 긴 시간 기간 동안 주차장 에 주차된 자동차가 움직이기 시작할 때). 유사하게, 변화되는 픽셀이 정적(static)인 것이 될 수 있기 때문에, 백그라운드 픽셀로서 그러한 픽셀을 재특성화할 필요가 있을 수 있다(예, 휴지통이 영구적인 사용을 위해 지하철 역에 세워져 있을 때). 그러나, 불필요한 픽셀들 재분류를 방지하고 백그라운드 및 포어그라운드 이미지들에 무엇이 포함되는지에 관한 해석을 향상시키기 위해, 일 실시예에서, 행동 인식 시스템은 단기간 백그라운드(STBG), 단기간 포어그라운드(STFG), 장기간 백그라운드(LTBG), 및 장기간 포어그라운드(LTFG)의 부분으로서 픽셀들을 분류할 수 있다. STBG 및 STFG는 짧은 시간 기간(예, 수초 이하) 동안 메모리에 저장되는 반면에, LTBG 및 LTFG는 보다 긴 시간 기간(예, 수분) 동안 메모리에 저장된다. 처음에 픽셀들이 STBG/STFG인 것으로 결정되면, 특성화된 픽셀들만이 LTBG/LTFG로서 해석되어 어떤 픽셀들이 백그라운드/포어그라운드 이미지의 부분인지를 보다 정확히 결정할 수 있다. 물론, 시간 기간들은 특정 장면 내에서 발생하는 이벤트들에 따라 조절될 수 있다.

도 3은 본 발명의 일 실시예에 따른 비디오 프레임에 대한 백그라운드 및 포어그라운드 이미지들을 생성하기 위해 이용될 수 있는 백그라운드-포어그라운드 모듈(300)의 컴포넌트들을 도시한다. 초기에, 비디오 프레임들은 백그라운드 트레이닝 모듈(305)에 의해 수신된다. 백그라운드-포어그라운드 모듈(300)은 프레임들의 초기 시퀀스를 이용하여 트레이닝될 수 있다. 트레이닝은 백그라운드-포어그라운드 모듈(300)이 획득된 비디오 프레임들에 표현되는 장면의 백그라운드 이미지를 생성할 수 있도록 한다. 트레이닝 프로세스는 시스템의 초기화 단계 동안, 즉 장 면의 백그라운드 이미지가 결정되기 이전에 수행될 수 있다.

어두운 장면 보상 모듈(310)은 장면의 부분들에서 낮은 또는 어두운 조명(lighting) 조건들을 보상하도록 픽셀값들을 처리할 수 있다. 부가적으로, 어두운 장면 보상 모듈(310)은 처리된 비디오 프레임들을 STFG/STBG 모듈(315) 및 LTFG/LTBG 모듈(320)에 제공하도록 구성될 수 있다. STFG/STBG 모듈(315)은 주어진 프레임 내에서 STFG 및 STBG 픽셀들을 식별하고 이러한 정보를 스테일(stale) FG 모듈(325) 및 조도(illumination) 보상 모듈(335)에 각각 제공하도록 구성될 수 있다. LTFG/LTBG 모듈(320)은 LTFG 및 LTBG 픽셀들을 식별하고 STFG/STBG 모듈(315)과 유사하게 이러한 정보를 스테일 FG 모듈(325) 및 조도 보상 모듈(335)에 각각 제공하도록 구성될 수 있다. 스테일 FG 모듈(325)은 스테일 포어그라운드 픽셀들을 식별하고 그 결과들을 업데이트 BG 모듈(330)에 제공한다. 픽셀은 BG/FG 결정이 불필요하고(obsolescent) 재평가될 필요가 있을 때 "스테일"이 될 수 있다. 수신되면, 조도 보상 모듈(335)은 조명의 변화들에 대한 처리를 동적으로 조절할 수 있으며(예, 태양을 가리는 구름들로 인한 장면의 밝음/어두음, 또는 인공적인 광원들에 대한 조절들), 어두운 장면 보상 모듈(310)은 매우 어두운 영역들 및/또는 저-조명(low-light) 조건들의 제한으로 특수한 처리를 동적으로 제공할 것이다. 업데이트 BG 모듈(330)은 백그라운드 이미지 모델을 업데이트하고 그 결과들을 조도 보상 모듈(335)로 전송하며, 이 때 모든 수신된 결과들의 처리 이후, 처리된 결과들을 LTFG/LTBG 모듈에 제공한다.

따라서, 집합적으로, 백그라운드-포어그라운드 모듈(300)은 행동 인식 시스 템의 다른 컴포넌트들에 의한 사용을 위해 백그라운드 및 포어그라운드 이미지들의 세트 및/또는 백그라운드 및 포어그라운드 모델들을 결정한다. 백그라운드 및 포어그라운드 모델들은 장면 백그라운드의 부분(즉, 스테이지의 부분)인 픽셀들과 포어그라운드 대상물들을 디스플레이하는 픽셀들(즉, 스테이지 상에서 몇몇 동작을 수행하는 엘리먼트들)을 구별한다. 백그라운드-포어그라운드 모듈(300)의 상기한 설명에서, 단지 하나의 백그라운드 이미지만이 참조되지만, 대안적으로, 백그라운드-포어그라운드 모듈(300)은 다수의 백그라운드 이미지들을 사용할 수 있다는 점을 유의해야 한다(예, 이미지 프레임의 장면은 보다 정확한 백그라운드 식별을 위해 몇가지 백그라운드 구역들로 분할될 수 있음).

일 실시예에서, 백그라운드 모델/이미지는 픽셀 컬러들과 같은 부가적인 정보를 포함할 수 있다. 또한, 포어그라운드 모델/이미지는 전형적으로 색상과 같은 부가적인 픽셀 특성들을 포함한다. 그러나, 그러한 정보를 유지 또는 수집하는 것은 생략될 수 있다(예를 들어, 대부분 동일하거나 유사한 색상의 대상물들을 수송하는 컨베이어 라인과 같이, 색상들의 인지가 관심 대상물들의 구별을 현저하게 개선시키지 않는 환경에서 자원들을 절약하기 위해).

도 4는 본 발명의 일 실시예에 따라, 장면의 포어그라운드 이미지들에서 디스플레이되는 대상물들을 식별하도록 구성된 포어그라운드 대상물 모듈(400)을 도시한다. 일반적으로, 포어그라운드 대상물 모듈(400)은 주어진 프레임에 대해 백그라운드-포어그라운드 모듈(300)에 의해 생성되는 포어그라운드 이미지들을 수신하고, 포어그라운드 이미지들에 대한 검색 모델들을 생성(build)/업데이트하며, 프 레임 별로 장면에 대하여 그 대상물이 이동함에 따라 포어그라운드 이미지들에서 디스플레이되는 대상물의 모션들의 추적을 시도하도록 구성될 수 있다.

도 4에 도시된 것처럼, 포어그라운드 대상물 모듈(400)은 블로브 검출 모듈(405), 생성/업데이트 모듈(410), 추적 모듈(420) 및 1-M 검색 모델들로서 검색 모델 1(415₁), 검색 모델 2(415₂), … 검색 모델 M(415_M)을 포함한다. 일 실시예에서, 블로브 검출 모듈(405)은 포어그라운드 블로브들로서 지칭되는 관련 픽셀들의 그룹들을 검출하기 위해 포어그라운드 이미지들을 분석하도록 구성될 수 있으며, 여기서 각각의 그러한 픽셀들의 그룹은 장면 내의 개별 대상물을 표현하는 것으로 보인다. 부가적으로, 각각의 검출된 포어그라운드 블로브에는 추적 식별 번호가 할당된다. 포어그라운드 블로브들은 검색 모델들(415₁ ~ 415_M)을 생성/업데이트하기 위해 생성/업데이트 모듈(410)에 의해 사용되며, 여기서 이미 존재하는 검색 모델들은 이전 비디오 프레임들에서 식별된 블로브들에 대해 생성 또는 업데이트되었다. 일 실시예에서, 검색 모델들(415₁ ~ 415_M)을 업데이트하기 위해, 생성/업데이트 모듈(410)은 또한 추적 모듈(420)에 의해 생성된 결과들을 이용한다. 현재 검출된 블로브가 각각의 검색 모델을 갖고 있지 않다면, 그러한 검색 모델이 생성된다.

임의의 주어진 순간에, 포어그라운드 대상물 모듈(400)은 다수의 검색 모델들을 포함할 수 있으며, 각각의 검색 모델은 상이한 포어그라운드 블로브를 표현한다. 검색 모델들의 수는 얼마나 많은 포어그라운드 블로브들이 포어그라운드 이미 지 내에서 블로브 검출 모듈(405)에 의해 식별되는지에 좌우될 수 있다. 일 실시예에서, 검색 모델들은 포어그라운드 블로브들이 후속적인 비디오 프레임들에서 수행할 수 있는 것에 관한 예측 능력들을 갖도록 구성될 수 있다. 예를 들어, 주어진 포어그라운드 블로브와 연관된 검색 모델은 현재 위치 및 운동 데이터에 기초하여 그 블로브의 예측된 미래의 위치(및 형상)를 포함할 수 있다. 또한, 각각의 검색 모델은 주어진 포어그라운드 블로브에 대하여 유도된 다양한 정보(예, 질감, 색상, 패턴, 장면 내의 z-깊이 위치, 크기, 이동 속도, 운동량)를 포함할 수도 있다.

또한, 상이한 타입들의 검색 모델들이 본 발명의 원리들에 따라 사용될 수 있다. 상술한 것처럼, 검색 모델은 프레임 별로 상응하는 대상물의 모션들을 예측, 검색 및 추적하기 위해 추적 모듈(420)에 의해 이용될 수 있다. 일 실시예에서, 외형 모델이 사용된다. 외형 모델은 대상물을 디스플레이하기 위해 사용되는 픽셀들을 포함한다(예, 프레임이 포어그라운드 이미지의 인간을 디스플레이하는 경우, 외형 모델은 인간을 아웃라인하는 대부분의 픽셀들 및 아웃라인 내부의 픽셀들을 포함함). 다른 실시예에서, 검색 모델은 특징-기반 모델(feature-based model)로서 구현되며, 여기서 특징-기반 모델은 대상물을 둘러싸는 최소 경계 사각형과 같은 사각형 내의 픽셀들을 표현한다(예, 대상물이 인간인 경우, 특징-기반 모델은 인간을 둘러싸는 경계 사각형을 포함할 수 있음). 대안적으로, 특징-기반 모델은 그 대상물의 상이한 영역들을 둘러싸는 가능한 최소 크기들의 사각형들과 같은, 주어진 대상물에 대한 다수의 경계 사각형들을 포함할 수 있다(예, 프레임이 인간을 디스플레이하는 경우, 그러한 대상물에 대한 특징 기반 모델은 최소 크기의 몇몇 사각형들을 포함할 수 있고, 여기서 사각형들은 팔, 다리, 머리 및 몸통과 같은 인간의 상이한 영역들을 둘러쌈).

어떤 검색 모델이 사용되는지는 예를 들어, 관측되는 환경에서, 행동 인식 시스템의 사용자의 선호도들 등에 좌우될 수 있다. 예를 들어, 외형 모델은 보다 정확한 추적을 제공하는 것으로 보이지만, 특징-기반 모델은 자원들을 절약할 수 있으며, 여기서 예를 들어 추적되는 관심 대상물들의 형상들은 간단하다(예, 수화물 컨베이어 벨트).

전술한 것처럼, 추적 모듈(420)은 장면에서 그러한 대상물들이 이동함에 따라 프레임 별로 비디오 시퀀스에 표현되는 상응하는 대상물들의 모션들을 추적하기 위해 검색 모델들(415)을 이용한다. 추적 모듈(420)은 현재 비디오 프레임의 검출된 포어그라운드 블로브를 획득하고 포어그라운드 블로브와 가장 근접한 매칭을 제공하는 이전 비디오 프레임의 검색 모델을 찾는다. 일 실시예에서, 각각 현재 검출된 포어그라운드 블로브에 대해, 추적 모듈(420)은 검색 모델과 포어그라운드 블로브 사이의 상대성 차원의 벡터링 거리(relative dimensional vectoring distance)가 포괄적으로 최소인 검색 모델(415)을 찾는다. 이러한 방식으로, 추적 모듈(420)은 프레임 별로 검색 모델들(415) 중 하나로 표현되는 각각의 대상물의 위치들을 추적할 수 있다. 일 실시예에서, 추적 모듈(420)은 현재 비디오 프레임 내의 검색 모델의 위치들을 추정하기 위해 이전 비디오 프레임들에 기초하여 획득된 운동 정보를 이용한다.

도 5는 본 발명의 일 실시예에 따라, 컴퓨터 영상 엔진의 추정 자(estimator)/식별자(identifier) 모듈(500)을 도시한다. 일반적으로, 추정자/식별자(500)는 포어그라운드 블로브들 및 각각의 검색 모델들을 수신하고, 공지된 카테고리들(클래스들)의 멤버들로서, 포어그라운드 블로브들로 표현되는 바와 같은, 비디오 프레임의 대상물들을 분류하도록 시도한다. 일 실시예에서, 관심 대상물이 식별되었으면, 추정자/식별자 모듈(500)은 관심 대상물의 포즈, 위치, 및 모션을 추정한다. 추정자/식별자(500)는 일반적으로 주어진 클래스의 예들을 표현하는 많은 포지티브 및 네거티브 예들로 트레이닝된다. 또한, 프레임 별로 분석하면서 분류자(classifier)를 동적으로 업데이트하기 위해 온라인 트레이닝이 이용될 수 있다.

도시된 것처럼, 추정자/식별자(500)는 분류자(505), 클래스 1(510₁) 내지 클래스 N(510_N), 및 식별자(515)를 포함한다. 분류자(505)는 클래스들 중 하나의 멤버로서, 클래스 1(510₁) 내지 클래스 N(510_N)으로 포어그라운드 대상물을 분류하도록 시도한다. 만약 성공적이면, 분류된 대상물을 나타내는 정적 데이터(예, 크기, 색상 등) 및 운동 데이터(예, 속도, 속력, 방향 등)가 식별자(515)에 의해 시간 주기 동안 결정될 수도 있다(예, X 개수의 프레임들). 각각의 식별된 대상물에 대해, 추정자/식별자(500)는 관심 대상물의 전술한 정적 및 운동 특성들을 포함하는 원시 콘텍스트(raw context) 이벤트들, 및 식별된 대상물의 클래스의 평균 멤버의 정적 및 운동 특성들을 포함하는 공지된 대상물 관측값들을 출력한다.

일 실시예에서, 시스템은 4개의 분류자들을 사용한다: 인간, 자동차, 기타, 및 알수 없음(unknown). 관심 대상물의 클래스가 결정될 때까지, 그러한 대상물은 "알수 없음" 클래스의 멤버로서 처리된다. 각각의 클래스는 클래스의 평균 멤버에 관한 포즈, 정적, 및 운동 데이터를 포함한다. 일 실시예에서, 그러한 데이터는 보다 많은 관심 대상물들이 분류 및 식별되고 이들의 포즈, 정적 및 운동 데이터가 결정 및 수집됨에 따라 연속적으로 업데이트된다. 전형적으로, 추정자/식별자(500)는 프레임별 기반으로 실시간으로 정보를 처리한다.

도 6은 본 발명의 일 실시예에 따라, 컴퓨터 영상 엔진(135)의 콘텍스트 프로세서(600)를 도시한다. 일반적으로, 콘텍스트 프로세서(600)는 백그라운드-포어그라운드 모듈(300), 포어그라운드 대상물 모듈(400), 및 추정자/식별자 모듈(500)의 다른 컴포넌트들로부터 수신된 결과들을 조합하여, 비디오 프레임들에서 캡쳐된 장면의 주석이 달린 맵을 생성한다. 일 실시예에서, 장면은 공간적으로 분리된 영역들로 분할되며, 공간적으로 분리된 영역들은 장면의 z-깊이에 따라 분류되고 선택적으로 천연 또는 인조 엘리먼트들을 표현하는 것으로서 라벨링된다.

도시된 것처럼, 콘텍스트 프로세서(600)는 장면을 보다 작은 구역들(영역들)로 분할하기 위한 영역 분할기(region segmenter)(605), 영역들 간의 관계들을 규정하기 위한 영역 시퀀서(region sequencer)(610), 및 주석이 달린 맵을 생성하기 위한 장면 맵퍼(scene mapper)(615)를 포함할 수 있다. 일 실시예에서, 콘텍스트 프로세서(600)는 주석이 달린 맵을 생성하기 위해 추적되는 관심 대상물들의 위치들 및 모션들(궤적과 같은)에 관한 정보를 이용한다.

도 7 및 도 8은 도 1에 도시된 기계 학습 엔진(140)의 상이한 컴포넌트들을 도시한다. 구체적으로는, 본 발명의 일 실시예에 따라, 도 7은 의미 분석 모듈(700)의 컴포넌트들을 도시하고, 도 8은 감지(perception) 모듈(800)의 컴포넌트들을 도시한다. 일반적으로, 의미 모듈(700)은 추적되는 대상물들의 모션들 및 동작들의 의미 표현들(즉, 상징적 표현들)을 생성한다. 의미 표현은 추적되는 특정 대상물의 모션들에 기초하여(그리고 궁극적으로, 프레임별 픽셀-색상값들의 변화들에 기초하여) 장면에서 발생하고 있는 것으로 판단되는 것을 기술하기 위한 형식적 방법(formal way)을 제공한다. 장면에서 이벤트들(예, "자동차 주차(car parks)", "사람이 나타남(person appears)" 등)을 기술하기 위해 형식 언어(formal language) 문법(예, 명사 및 동사)이 사용된다.

후속적으로, 의미 표현들은 인식가능한 패턴들에 대해 분석되고 그 결과들은 도 8에 도시된 감지 모듈(800)에 제공된다. 일 실시예에서, 의미 모듈(700)은 또한 장면에서 대상물들의 궤적들의 상징적 표현들과 같은, 장면에서 발생하는 상이한 양상들의 이벤트들을 포함하는, 장면의 상징적 맵을 생성한다. 일 실시예에서, 상징적 맵은 또한 빈도 분포(예, 특정 클래스들 또는 종류들의 대상물들이 장면에 얼마나 자주 및 어디에 존재하는지에 관한 데이터)를 포함할 수도 있다.

도 7에 도시된 것처럼, 의미 모듈(700)은 감각(sensory) 메모리(710), 잠복성(latent) 의미 분석 모듈(LSA)(715), 초기(primitive) 이벤트 모듈(725), 위상 공간 분할 모듈(730), 점증적(incremental) 잠복성 의미 분석 모듈(iLSA)(735), 및 형식 언어 모듈(740)을 포함한다. 감각 메모리(710)는 의미 모듈(700)에 대해 제공되는 정보를 획득하고, 초기 이벤트 모듈(725) 및 위상 공간 분할 모듈(730)에 의한 후속적인 사용을 위해 이러한 정보를 저장한다. 일 실시예에서, 감각 메모리(710)는 초기 이벤트 모듈(725) 및 위상 공간 분할 모듈(730)에 대한 추가적인 분석을 위해 어떤 정보가 제공되어야 하는지를 식별한다.

초기 이벤트 검출 모듈(725)은 감각 메모리(710)에서 초기 이벤트들(예, 자동차 정지, 역방향, 사라짐, 나타남; 사람이 구부림, 떨어짐; 교환 등)의 발생을 식별하도록 구성될 수 있다. 초기 이벤트들은 전형적으로 추적되는 대상물들의 운동 특성들의 변화들을 반영한다. 따라서, 대상물이 "자동차"인 것으로 분류되면, 초기 이벤트 검출 모듈(725)은 상이한 행동 이벤트들이 발생함에 따라 이들을 식별하기 위해 자동차에 관한 데이터를 평가할 수 있다. 일 실시예에서, 초기 이벤트들은 미리 정의된다(예, 자가-학습 행동 인식 시스템이 사용되는 특정 환경에서). 다른 실시예에서, 초기 이벤트들 중 일부만이 미리 규정되고(예, 주차, 회전, 하강), 다른 초기 이벤트들은 시간 동안 학습된다(예, 특정 클래스의 대상물들은 장면의 특정 장소에서 발견될 수 있음).

위상 공간 분할 모듈(730)은 장면에서 대상물들의 속력을 갖는 기하학적 위치에 관한 정보를 결정한다. 따라서, 초기 이벤트 모듈(725) 및 위상 공간 분할 모듈(730)은 의미 모듈(700)이 2가지 상이한 방식들로 데이터를 분석할 수 있도록 한다. 초기 이벤트 모듈(725) 및 위상 공간 분할 모듈(730)의 결과들에 기초하여, LSA(715) 및 iLSA(735)는 장면의 모델을 생성/업데이트하고, 여기서 모델은 관심 대상물들을 포함한다.

LSA(715)는 일반적으로 의미 모듈(700)의 초기 트레이닝 모듈이다. LSA(715)가 충분한 통계적 가중치의 결과들을 생성할 때까지 LSA는 시간 주기 동안 데이터를 수집한다. 즉, LSA(715)는 장면의 기본 레이아웃을 학습하는 반면, iLSA(735)는 그러한 레이아웃을 점증적으로 업데이트한다. iLSA(735)는 장면에서 발생하는 행동의 패턴들의 변화들을 처리하기 위해 충분하게 적응성이 있다(flexible)는 점을 유의해야 한다. 형식 언어 학습 모듈(740)은 의미 표현들(장면에서 일어나고 있는 일의 상징적 표현)을 생성하기 위해 iLSA(735)에 의해 생성되는 데이터를 이용하고, 생성된 의미 표현들의 무엇을 의미하는지를 학습하기 위해 의미 표현들을 감지 모듈(800)에 제공한다.

도 8은 본 발명의 일 실시예에 따른 기계 학습 엔진의 감지 모듈을 도시한다. 감지 모듈(800)은 컴퓨터 영상 엔진(135) 및 기계 학습 엔진(140)의 컴포넌트들(예, 추정자/식별자 모듈(500), 콘텍스트 프로세서(600), 의미 모듈(700) 등) 중 적어도 일부에 의해 생성되는 결과들을 처리하도록 구성될 수 있다. 일반적으로, 감지 모듈(800)은 패턴들을 학습하고, 관측들에 기초하여 일반화시키며, 유추함으로써 학습한다.

도 8에 도시된 것처럼, 감지 모듈(800)은 감각 결합성(perceptive associative) 메모리(805), 스케쥴러(810), 워크스페이스(workspace)(815), 일시적(episodic memory)(820), 및 장기적(long-term) 메모리(825)를 포함할 수 있다. 워크스페이스(815)는 기계 학습 엔진(140)에 의해 어떤 정보가 현재 평가되고 있는지를 반영하는 메모리 영역을 제공한다. 즉, 워크스페이스(815)는 기계 학습 환경(140)에서 현재 "주의"하고 있는 데이터 엘리먼트들을 저장한다. 이하에서 기술 되는 것처럼, 워크스페이스(815)의 데이터는 지각표상들(percepts)(각각 이벤트를 기술함)과 코드릿(codelet)들의 집합을 포함할 수 있다(감각 결합성 메모리(805)는 감지 모듈(800)에 제공되는 데이터를 수집하고 지각표상들로서 그러한 데이터를 저장함). 각각의 지각표상은 초기 이벤트와 같이, 비디오에서 발생된 무엇가를 기술하는 데이터를 제공할 수 있다. 감각 결합성 메모리(805)는 지각표상들 및/또는 코드릿들을 워크스페이스(815)에 제공한다.

코드릿은 상이한 지각표상들 간의 관계들을 기술 및/또는 찾는 실행가능 코드의 조각(piece)을 제공한다. 즉, 코드릿은 특정 행동/이벤트(예, 주차 이벤트)를 결정하기 위한 규칙들을 요약하며, 여기서 행동/이벤트는 하나 이상의 지각표상들과 연관된다. 각각의 코드릿은 입력 지각표상들의 세트를 획득하여 이들을 특정한 방식으로 처리하도록 구성될 수 있다. 예를 들어, 코드릿은 입력 지각표상들의 세트를 획득할 수 있고 이들을 평가하여 특정 이벤트(예, 자동차 주차)가 발생했는지 여부를 결정할 수 있다. 자동차 주차의 예를 이용하면, 지각표상은 어떤 자동차, 어떤 자동차 색상, 자동차가 주차된 장소 등에 관한 정보로 일시적 메모리(820)를 업데이트할 수 있다. 또한, 이러한 검출된 초기 이벤트에 관한 정보는 장기적 메모리(825)에서 초기 이벤트의 정의를 업데이트하기 위해 이용될 수 있다. 또한, 예외(anomaly)들을 인식하는 코드릿들이 감지 모듈(800)에 의해 사용된다. 그러한 코드릿들은 지각표상들에 액세스하고 특정 지각표상이 이전에 누적된 통계적 데이터와 통계적으로 상관되지 않는 경우, 비정상적 이벤트가 식별될 수 있다.

일 실시예에서, 코드릿들은 완전히 사전-기록된다. 다른 실시예에서, 적어 도 몇몇 코드릿들은 완전하지 않게 사전-기록되지만, 대신에 시간 동안에 생성된다. 예를 들어, 특정 지각표상(들)에 대한 정상적인 행동을 기술하는 코드릿은 상응하는 관측된 이벤트들을 기술하는 누적된 데이터에 기초하여 자체-생성/변형될 수 있다.

스케쥴러(810)는 임의의 주어진 시간에서 어떤 코드릿이 활성화될 필요가 있는지를 결정한다. 예를 들어, 스케쥴러(810)는 워크스페이스(815)에 배치된 지각표상들과 코드릿들 간의 매칭을 식별하도록 시도할 수 있다. 주어진 코드릿에 대해 요구되는 입력들의 적절한 세트가 이용가능할 때, 그 코드릿이 워크스페이스(815)에 배치되고 호출될 수 있다. 다수의 코드릿들이 활성화를 위해 이용가능할 때, 어떤 코드릿이 활성화되고 언제 활성화되는지의 결정은 무작위(random)일 수 있다. 그러나, 일 실시예에서, 구성되는 특정 코드릿들은 다른 것들(예, 특정한 비정상적 행동을 규정하는 코드릿)에 대하여 우선순위를 갖는다. 각각의 주어진 수간에, 많은 코드릿들이 워크스페이스(815)내의 스케쥴러(810)에 의해 활성화될 수 있다.

감지 모듈(800)은 또한 일시적 메모리(820) 및 장기적 메모리(825)를 사용하여 초기 이벤트들에 관한 단기적 및 장기적 데이터 둘다를 캡쳐한다. 일시적 메모리(820)는 최근의 지각표상들을 저장하기 위한 단기적 메모리이다. 예를 들어, 최근에 변화되었던 지각표상은 일시적 메모리(820)에서 발견된다. 지각표상들은 워크스페이스(815)로부터 일시적 메모리(820)로 배치된다. 동시에, 워크스페이스(820)는 일시적 메모리(820)에 저장된 지각표상들을 이용하여 이들을 각각의 코 드릿들과 매칭시킬 수 있다.

전형적으로, 적어도 몇몇 지각표상들은 일시적 메모리(820)로부터 장기적 메모리(825)로 이동한다. 그러나, 일시적 메모리(820)에 배치된 모든 데이터 조각이 장기적 메모리(825)로 이동하는 것은 아니다. 일부 데이터(예, 비정상적인 것으로 결정되지 않은 1회(one-time) 이벤트를 기술하는 데이터)는 장기적 메모리(825)에 전혀 도달함이 없이 일시적 메모리(820)로부터 소멸된다.

동시에, 그 이벤트의 양상들은 장기적 메모리(825)의 정보를 강화하기 위해 사용될 수 있다(예, 주차장에 자동차가 어떻게, 어디에 및 얼마나 오래 주차되었는지의 양상들). 따라서, 장기적 메모리(825)는 주어진 장면 내에서 행동의 일반적인 패턴들을 생성 및 누적하기 위해 사용될 수 있다. 일 실시예에서, 일시적 메모리(820)에 저장된 행동의 패턴들 및 충분한 통계적 가중치를 획득한 행동의 패턴들이 행동의 일반적인 패턴들로서 장기적 메모리(825)로 이동된다. 그러나, 장기적 메모리(825)에 배치된 모든 데이터가 장기적 메모리(825)에 유지되는 것은 아니다. 일부 데이터는 점진적으로 소멸된다(예, 특정 세부사항들). 예를 들어, 상이한 색상들의 몇몇 자동차들이 시간 주기 동안 동일한 장소에 주차된 경우, 상기 특정 장소에 주차할 수 있는 자동차의 일반적인 패턴이 학습되고 장기적 메모리(825)에 배치될 수 있다. 그러나, 이전에 주차된 자동차들에 관한 세부사항들(자동차들의 색상들과 같은)은 몇몇 시간 주기 이후 장기적 메모리(825)로부터 소멸된다.

일 실시예에서, 워크스페이스(815)는 장기적 메모리(825)에서 발견되는 행동의 일반적인 패턴들을 이용하여 장면에서 발생하는 이벤트들을 결정한다. 이벤트 가 인식되면, 인식된 이벤트가 식별되었음을 나타내는 정보가 생성된다. 그러한 정보는 경보들을 발생시키기 위해 후속적으로 사용된다. 일 실시예에서, 식별된 비정상적인 행동에 대해서만 경보들이 발생되지만(예, 폭행), 다른 실시예에서, 정상적인 것으로 식별된 것을 기술하는 경보들 또한 발생된다(예, 주차된 자동차).

도 9A-9C는 본 발명의 일 실시예에 따라, 행동 인식 시스템이 비정상적인 행동을 감지하고 경보를 발생시키는, 지하철 역(900)에서 발생하는 시나리오를 도시한다. 도시된 것처럼, 고정식 비디오 카메라(915)는 지하철 역(900)에서 발생하는 이벤트들을 캡쳐하고 이벤트들을 표현하는 비디오 이미지들을 행동 인식 시스템에 제공한다. 도 9A-9C에 도시된 것처럼, 비디오 카메라(915)는 쓰레기 통(920)에 접근하여(도 9A), 쓰레기 통(920) 옆 지면에 가방(910)을 내려놓고(도 9B), 가방(910)을 내버려둔채 떠나는(도 9C), 가방(910)을 갖고 있는 사람(905)의 비디오 이미지들을 캡쳐한다. 지하철 역(900)에 진입하는 사람들의 관측으로부터의 학습에 기초하여, 사람으로 분류된 대상물이 가지고 온 "다른" 대상물(즉, 가방)을 내버려두는 행동은 비정상적인 것으로 식별될 수 있고, 이에 따라 행동 인식 시스템은 경보를 발생시켜서 그러한 이벤트의 발생을 표시한다.

상기 논의된 원리들에 따라, 행동 인식 시스템은 쓰레기 통(920)을 쓰레기 통으로서 구체적으로 식별함이 없이, 백그라운드 이미지의 부분으로서 고정식 쓰레기 통(920)을 디스플레이하는 픽셀들을 처리한다. 대조적으로, 행동 인식 시스템은 사람(905)과 가방(910) 둘다를 포어그라운드 이미지(들)로서 처리한다. 초기에(도 9A), 자가-학습 행동 인식 시스템은 사람(905)과 가방(910)을 하나의 포어그 라운드 블로브로서 고려할 수 있다. 그러나, 사람(905)이 가방(910)을 내려놓음에 따라(도 9B-9C), 사람과 가방(910)은 개별적인 포어그라운드 블로브들의 부분들이 된다. 일 실시예에서 사람(905)이 가방(910)을 주을 때 이들의 각각의 포어그라운드 블로브들이 새로운 포어그라운드 블로브들에 합쳐지는 반면에, 다른 실시예에서, 사람(905)과 가방(910)은 2개의 개별 포어그라운드 블로브들로서 계속 처리된다. 또 다른 실시예에서, 사람(905)과 가방(910)은 시작시점(도 9A)으로부터 개별적인 포어그라운드 블로브들로 고려된다.

사람(905)과 가방(910) 둘다에 대하여, 행동 인식 시스템은 이러한 대상물들을 프레임 별로 추적하기 위해 검색 모델들을 생성 및 업데이트한다. 또한, 행동 인식 시스템은 사람(905)을 "인간"으로서 분류하고 가방(910)을 "기타"(대안적으로 "가방")으로서 분류하며, 이들에 관한 정보를 수집하고, 지하철 역에서 이전에 학습된 가방들 및 사람들의 행동에 기초하여 이들의 동작들을 예측한다. 가방을 내버려둔채 떠나는 것은 학습된 정상적인 행동과 연관되지 않기 때문에, 행동 인식 시스템은 비정상적인 것으로서 그러한 행동을 식별하고 경보를 발생시킨다. 대안적으로, 시스템이 가방을 내버려둔채 떠나는 것이 비정상적인 행동을 나타낸다고 이전에 학습했기 때문에 그러한 행동은 비정상적인 것으로서 식별될 수 있다.

전술한 설명은 본 발명의 실시예들에 관한 것이지만, 본 발명의 다른 실시예들과 추가적인 실시예들은 그 기본 범주를 벗어남이 없이 안출될 수 있으며, 그 범주는 이하의 청구범위에 의해 결정된다.

Claims

장면(scene)내의 이벤트들을 기록하는 비디오 프레임들의 스트림을 처리하기 위한 방법으로서,

상기 스트림의 제 1 프레임을 수신하는 단계 ―상기 제 1 프레임은 상기 제 1 프레임에 포함된 다수의 픽셀들에 대한 데이터를 포함함―;

상기 제 1 프레임에서 픽셀들의 하나 또는 그 초과의 그룹들을 식별하는 단계― 각각의 그룹은 상기 장면 내의 대상물(object)을 묘사(depict)함―;

각각의 식별된 대상물과 연관된 하나 또는 그 초과의 특징들(features)을 저장하는 검색 모델(search model)을 생성하는 단계;

트레이닝된 분류자(trained classifier)를 이용하여 상기 대상물들 각각을 분류하는 단계;

상기 검색 모델을 이용하여 상기 제 1 프레임에서 식별된 상기 대상물들 각각을 제 2 프레임에서 추적하는 단계;

상기 제 1 프레임, 상기 제 2 프레임, 및 상기 대상물 분류들을 기계 학습 엔진에 제공하는 단계; 및

다수의 프레임들에 걸쳐서 상기 장면의 상기 대상물들에 의해 관련된 행동의 하나 또는 그 초과의 의미 표현들(semantic representations)을 상기 기계 학습 엔진에 의해 생성하는 단계

를 포함하며, 상기 기계 학습 엔진은 상기 다수의 프레임들에 걸쳐서 상기 장면에서 관측된 행동의 패턴들을 학습하고 상기 분류된 대상물들에 의해 관련된 행동의 패턴들의 발생들을 식별하도록 구성되는,

비디오 프레임들의 스트림을 처리하기 위한 방법.
제 1 항에 있어서,

상기 추적되는 대상물들 중 하나에 의해 상기 식별된 행동의 패턴들 중 하나의 발생을 나타내는 적어도 하나의 경보(alert)를 발행하는 단계를 더 포함하는, 비디오 프레임들의 스트림을 처리하기 위한 방법.
제 1 항에 있어서,

각각의 검색 모델은 외형(appearance) 모델 및 특징-기반 모델 중 하나로서 생성되는, 비디오 프레임들의 스트림을 처리하기 위한 방법.
제 1 항에 있어서,

상기 검색 모델을 이용하여 상기 제 1 프레임에서 식별된 상기 대상물들 각각을 상기 제 2 프레임에서 추적하는 단계는,

상기 제 2 프레임 내에 상기 식별된 대상물들을 배치하는 단계; 및

각각의 식별된 대상물에 대한 각각의 상기 검색 모델을 업데이트하는 단계

를 포함하는, 비디오 프레임들의 스트림을 처리하기 위한 방법.
제 1 항에 있어서,

상기 트레이닝된 분류자는 사람, 자동차, 또는 기타의 것(other) 중 하나로 각각의 대상물을 분류하도록 구성되는, 비디오 프레임들의 스트림을 처리하기 위한 방법.
제 5 항에 있어서,

상기 트레이닝된 분류자는, 다수의 연속 프레임들에 걸쳐서 상기 대상물을 묘사하는 상기 픽셀들의 그룹에 대한 변화들에 기초하여, 상기 분류된 대상물들 중 적어도 하나에 대한 포즈, 위치, 및 모션 중 적어도 하나를 추정하도록 추가로 구성되는, 비디오 프레임들의 스트림을 처리하기 위한 방법.
제 1 항에 있어서,

상기 제 1 프레임에서 픽셀들의 하나 또는 그 초과의 그룹들을 식별하는 단계는,

상기 제 1 프레임의 포어그라운드(foreground) 영역을 표현하는 픽셀들의 적어도 하나의 그룹 및 상기 제 1 프레임의 백그라운드(background) 영역을 표현하는 픽셀들의 적어도 하나의 그룹을 식별하는 단계;

포어그라운드 영역들을 포어그라운드 블로브(blob)들로 분할하는 단계 ― 각각의 포어그라운드 블로브는 상기 제 1 프레임에서 묘사되는 대상물을 표현함 ―; 및

상기 제 1 프레임에서 식별되는 상기 백그라운드 영역들에 기초하여 상기 장면의 백그라운드 이미지를 업데이트하는 단계

를 포함하는, 비디오 프레임들의 스트림을 처리하기 위한 방법.
제 7 항에 있어서,

각각의 식별된 대상물과 연관된 하나 또는 그 초과의 특징들을 저장하는 검색 모델을 생성하는 단계;

트레이닝된 분류자를 이용하여 각각의 상기 대상물들을 분류하는 단계; 및

상기 검색 모델을 이용하여 상기 제 1 프레임에서 식별된 각각의 상기 대상물들을 제 2 프레임에서 추적하는 단계

의 결과들을 이용하여, 상기 비디오 프레임들의 스트림에 의해 묘사되는 상기 장면의 주석이 달린(annotated) 맵을 업데이트하는 단계

를 더 포함하는, 비디오 프레임들의 스트림을 처리하기 위한 방법.
제 8 항에 있어서,

상기 주석이 달린 맵은 상기 식별된 대상물들의 추정된 3차원 위치 및 상기 장면의 상기 백그라운드 이미지에 묘사되는 다수의 대상물들의 추정된 3차원 위치를 포함하는 상기 장면의 3차원 기하학적 형상(geometry)을 기술하는, 비디오 프레임들의 스트림을 처리하기 위한 방법.
제 8 항에 있어서,

상기 하나 또는 그 초과의 의미 표현들을 생성하는 단계는 잠복성(latent) 의미 분석을 이용하여 인식가능한 행동 패턴들에 대하여 상기 생성된 하나 또는 그 초과의 의미 표현들을 분석하는 단계를 더 포함하는, 비디오 프레임들의 스트림을 처리하기 위한 방법.
장면 내의 이벤트들을 기록하는 비디오 프레임들의 스트림을 처리하기 위한 비-일시적 컴퓨터-판독가능 저장 매체로서, 상기 비-일시적 컴퓨터-판독가능 저장 매체는 프로세서상에서 실행될 때, 동작을 수행하도록 구성되는, 프로그램을 포함하고, 상기 동작은,

스트림의 제 1 프레임을 수신하고 ―상기 제 1 프레임은 상기 제 1 프레임에 포함된 다수의 픽셀들에 대한 데이터를 포함함―;

상기 제 1 프레임에서 픽셀들의 하나 또는 그 초과의 그룹들을 식별하고― 각각의 그룹은 상기 장면 내의 대상물(object)을 묘사함―;

각각의 식별된 대상물과 연관된 하나 또는 그 초과의 특징들(features)을 저장하는 검색 모델(search model)을 생성하고;

트레이닝된 분류자(trained classifier)를 이용하여 상기 대상물들 각각을 분류하고;

상기 검색 모델을 이용하여 상기 제 1 프레임에서 식별된 상기 대상물들 각각을 제 2 프레임에서 추적하고;

상기 제 1 프레임, 상기 제 2 프레임, 및 상기 대상물 분류들을 기계 학습 엔진에 제공하고; 그리고

다수의 프레임들에 걸쳐서 상기 장면의 상기 대상물들에 의해 관련된 행동의 하나 또는 그 초과의 의미 표현들(semantic representations)을 상기 기계 학습 엔진에 의해 생성하는 것

을 포함하며, 상기 기계 학습 엔진은 상기 다수의 프레임들에 걸쳐서 상기 장면에서 관측된 행동의 패턴들을 학습하고 상기 분류된 대상물들에 의해 관련된 행동의 패턴들의 발생들을 식별하도록 구성되는, 비-일시적 컴퓨터-판독가능 저장 매체.
제 11 항에 있어서,

상기 동작은 상기 추적되는 대상물들 중 하나에 의해 상기 식별된 행동의 패턴들 중 하나의 발생을 나타내는 적어도 하나의 경보(alert)를 발행하는 것을 더 포함하는, 비-일시적 컴퓨터-판독가능 저장 매체.
제 11 항에 있어서,

각각의 검색 모델은 외형(appearance) 모델 및 특징-기반 모델 중 하나로서 생성되는, 비-일시적 컴퓨터-판독가능 저장 매체.
제 11 항에 있어서,

상기 검색 모델을 이용하여 상기 제 1 프레임에서 식별된 상기 대상물들 각각을 상기 제 2 프레임에서 추적하는 것은,

상기 제 2 프레임 내에 상기 식별된 대상물들을 배치하는 것; 및

각각의 식별된 대상물에 대한 각각의 상기 검색 모델을 업데이트하는 것을 포함하는, 비-일시적 컴퓨터-판독가능 저장 매체.
제 11 항에 있어서,

상기 트레이닝된 분류자는 사람, 자동차, 또는 기타의 것(other) 중 하나로 각각의 대상물을 분류하도록 구성되는, 비-일시적 컴퓨터-판독가능 저장 매체.
제 15 항에 있어서,

상기 트레이닝된 분류자는, 다수의 연속 프레임들에 걸쳐서 상기 대상물을 묘사하는 상기 픽셀들의 그룹에 대한 변화들에 기초하여, 상기 분류된 대상물들 중 적어도 하나에 대한 포즈, 위치, 및 모션 중 적어도 하나를 추정하도록 추가로 구성되는, 비-일시적 컴퓨터-판독가능 저장 매체.
제 11 항에 있어서,

상기 제 1 프레임에서 픽셀들의 하나 또는 그 초과의 그룹들을 식별하는 것은,

상기 제 1 프레임의 포어그라운드(foreground) 영역을 표현하는 픽셀들의 적어도 하나의 그룹 및 상기 제 1 프레임의 백그라운드(background) 영역을 표현하는 픽셀들의 적어도 하나의 그룹을 식별하는 것;

포어그라운드 영역들을 포어그라운드 블로브(blob)들로 분할하는 것 ― 각각의 포어그라운드 블로브는 상기 제 1 프레임에서 묘사되는 대상물을 표현함 ―; 및

상기 제 1 프레임에서 식별되는 상기 백그라운드 영역들에 기초하여 상기 장면의 백그라운드 이미지를 업데이트하는 것

을 포함하는, 비-일시적 컴퓨터-판독가능 저장 매체.
제 17 항에 있어서, 상기 동작은,

각각의 식별된 대상물과 연관된 하나 또는 그 초과의 특징들을 저장하는 검색 모델을 생성하는 것;

트레이닝된 분류자를 이용하여 각각의 상기 대상물들을 분류하는 단계; 및

상기 검색 모델을 이용하여 상기 제 1 프레임에서 식별된 상기 대상물들 각각을 제 2 프레임에서 추적하는 것

의 결과들을 이용하여, 상기 비디오 프레임들의 스트림에 의해 묘사되는 상기 장면의 주석이 달린(annotated) 맵을 업데이트하는 것을 더 포함하는, 비-일시적 컴퓨터-판독가능 저장 매체.
제 18 항에 있어서,

상기 주석이 달린 맵은 상기 식별된 대상물들의 추정된 3차원 위치 및 상기 장면의 상기 백그라운드 이미지에 묘사되는 다수의 대상물들의 추정된 3차원 위치를 포함하는 상기 장면의 3차원 기하학적 형상(geometry)을 기술하는, 비-일시적 컴퓨터-판독가능 저장 매체.
제 18 항에 있어서,

상기 하나 또는 그 초과의 의미 표현들을 생성하는 것은 잠복성(latent) 의미 분석을 이용하여 인식가능한 행동 패턴들에 대하여 상기 생성된 하나 또는 그 초과의 의미 표현들을 분석하는 것을 더 포함하는, 비-일시적 컴퓨터-판독가능 저장 매체.
장면 내의 이벤트들을 기록하는 비디오 프레임들의 스트림을 처리하기 위한 시스템으로서,

비디오 입력 소스;

프로세서; 및

컴퓨터 영상(vision) 엔진과 기계 학습 엔진을 저장하는 메모리

를 포함하고, 상기 컴퓨터 영상 엔진은,

상기 비디오 입력 소스로부터 스트림의 제 1 프레임을 수신하고 ― 상기 제 1 프레임은 상기 제 1 프레임에 포함된 다수의 픽셀들에 대한 데이터를 포함함 ―,

상기 제 1 프레임에서 픽셀들의 하나 또는 그 초과의 그룹들을 식별하며 ― 각각의 그룹은 상기 장면 내의 대상물을 묘사함 ―,

각각의 식별된 대상물과 연관된 하나 또는 그 초과의 특징들을 저장하는 검색 모델을 생성하고,

트레이닝된 분류자를 이용하여 상기 대상물들 각각을 분류하며,

상기 검색 모델을 이용하여 상기 제 1 프레임에서 식별된 상기 대상물들 각각을 제 2 프레임에서 추적하고, 그리고

상기 제 1 프레임, 상기 제 2 프레임, 및 상기 대상물 분류들을 기계 학습 엔진에 제공하도록 구성되며,

상기 기계 학습 엔진은, 다수의 프레임들에 걸쳐서 상기 장면의 상기 대상물들에 의해 관련된 행동의 하나 또는 그 초과의 의미 표현들을 생성하도록 구성되며 상기 다수의 프레임들에 걸쳐서 상기 장면에서 관측된 행동의 패턴들을 학습하고 상기 분류된 대상물들에 의해 관련된 상기 행동의 패턴들의 발생들을 식별하도록 추가로 구성되는,

시스템.
제 21 항에 있어서,

상기 기계 학습 엔진은 상기 추적되는 대상물들 중 하나에 의해 상기 식별된 행동의 패턴들 중 하나의 발생을 나타내는 적어도 하나의 경보를 발행하도록 추가로 구성되는, 시스템.
제 21 항에 있어서,

각각의 검색 모델은 외형 모델 및 특징-기반 모델 중 하나로서 생성되는, 시스템.
제 21 항에 있어서,

상기 검색 모델을 이용하여 상기 제 1 프레임에서 식별된 상기 대상물들 각각을 상기 제 2 프레임에서 추적하는 것은,

상기 제 2 프레임 내에 상기 식별된 대상물들을 배치하는 것; 및

각각의 식별된 대상물에 대하여 각각의 상기 검색 모델을 업데이트하는 것

을 포함하는, 시스템.
제 21 항에 있어서,

상기 트레이닝된 분류자는 사람, 자동차, 또는 기타(other) 중 하나로서 각각의 대상물을 분류하도록 구성되는, 시스템.
제 25 항에 있어서,

상기 트레이닝된 분류자는 다수의 연속적인 프레임들에 걸쳐서 상기 대상물을 묘사하는 픽셀들의 그룹에 대한 변화들에 기초하여, 상기 분류된 대상물들 중 적어도 하나에 대한 포즈(pose), 위치 및 모션(motion) 중 적어도 하나를 추정하도록 추가로 구성되는, 시스템.
제 21 항에 있어서,

상기 컴퓨터 영상 엔진은,

상기 제 1 프레임의 포어그라운드 영역을 표현하는 픽셀들의 적어도 하나의 그룹 및 상기 제 1 프레임의 백그라운드 영역을 표현하는 픽셀들의 적어도 하나의 그룹을 식별하는 단계;

포어그라운드 영역들을 포어그라운드 블로브들로 분할하는 단계 ― 각각의 포어그라운드 블로브는 상기 제 1 프레임에 묘사되는 대상물을 표현함 ―; 및

상기 제 1 프레임에서 식별된 상기 백그라운드 영역들에 기초하여 상기 장면의 백그라운드 이미지를 업데이트하는 단계

를 수행함으로써, 상기 제 1 프레임의 상기 픽셀들의 하나 이상의 그룹들을 식별하도록 구성되는, 시스템.
제 27 항에 있어서,

상기 컴퓨터 영상 엔진은, 각각의 식별된 대상물과 연관된 하나 또는 그 초과의 특징들을 저장하는 생성된 검색 모델을 이용하여 상기 비디오 프레임들의 스트림에 의해 묘사되는 상기 장면의 주석이 달린 맵을 업데이트하도록 추가로 구성되는, 시스템.
제 28 항에 있어서,

상기 주석이 달린 맵은 상기 식별된 대상물들의 추정된 3차원 위치 및 상기 장면의 상기 백그라운드 이미지에 묘사되는 다수의 대상물들의 추정된 3차원 위치를 포함하는 상기 장면의 3차원 기하학적 형상(geometry)을 기술하는, 시스템.
제 28 항에 있어서,

상기 하나 또는 그 초과의 의미 표현들을 생성하는 것은 잠복성(latent) 의미 분석을 이용하여 인식가능한 행동 패턴들에 대하여 상기 생성된 하나 또는 그 초과의 의미 표현들을 분석하는 것을 더 포함하는, 시스템.