KR20150084939A

KR20150084939A - 비디오 감시 시스템들에 대한 이미지 안정화 기술들

Info

Publication number: KR20150084939A
Application number: KR1020157015273A
Authority: KR
Inventors: 키쇼르 아디나스 사이트왈; 웨슬리 케네스 콥; 타오 양
Original assignee: 비헤이버럴 레코그니션 시스템즈, 인코포레이티드
Priority date: 2012-11-12
Filing date: 2013-11-11
Publication date: 2015-07-22
Also published as: US20190289215A1; US9674442B2; JP2015534202A; BR112015010384A2; WO2014075022A1; CN104823444A; US10827122B2; US10237483B2; EP2918076A4; US20160134812A1; US9232140B2; US20140132786A1; US20180084196A1; IN2015DN03877A; EP2918076A1

Abstract

거동 인식 시스템은 비디오데이터에서 거동의 패턴들을 관찰 및 학습하도록 구성된 컴퓨터 비전 엔진 및 머신 학습 엔진 둘 다를 포함할 수 있다. 특정 실시예들은 카메라로부터 얻어진 비디오 스트림의 이미지 안정화를 제공할 수 있다. 거동 인식 시스템에서 이미지 안정화 모듈은 비디오 스트림으로부터 기준 이미지를 획득한다. 이미지 안정화 모듈은 피처들이 밀집한 이미지의 구역들에 기초하여 기준 이미지 내 정렬 구역들을 식별한다. 현재 이미지의 추적된 피처들이 기준 이미지와 정렬을 벗어난 것을 결정할 때, 이미지 안정화 모듈은 이미지를 적당한 정렬로 랩핑(warp)하기 위하여 전체 현재 이미지에 적용하도록 아핀 변화 매트릭스를 추정하도록 최대 피처 밀집도 정렬 구역을 사용한다.

Description

비디오 감시 시스템들에 대한 이미지 안정화 기술들{IMAGE STABILIZATION TECHNIQUES FOR VIDEO SURVEILLANCE SYSTEMS}

[0001] 본원에 제시된 실시예들은 비디오 프레임들의 시퀀스를 분석하기 위한 기술들을 개시한다. 보다 구체적으로, 실시예들은 비디오 감시 시스템에 의해 캡처된 카메라 이미지들을 안정화하기 위한 기술들을 제공한다.

[0002] 몇몇 현재 이용 가능한 비디오 감시 시스템들은 간단한 오브젝트(object) 인식 능력들을 제공한다. 예를 들어, 비디오 감시 시스템은 특정 오브젝트(예를 들어, 사람 또는 차량)인 것으로 주어진 프레임 내 픽셀들의 그룹("블로브(blob)"로 지칭됨)을 분류하도록 구성될 수 있다. 일단 식별되면, "블로브"는 시간에 따른 장면을 통한 "블로브" 움직임", 예를 들어, 비디오 감시 카메라의 시야를 가로질러 걷고 있는 사람을 좇기 위하여 프레임 단위로 추적될 수 있다. 게다가, 그런 시스템들은 오브젝트가 특정 미리 정의된 거동들에 참여할 때를 결정하도록 구성될 수 있다. 예를 들어, 시스템은 다수의 사전 정의된 이벤트들의 발생을 인식하기 위하여 사용된 정의들을 포함할 수 있고, 예를 들어 시스템은 차를 묘사하는 것으로서 분류된 오브젝트의 어피어런스(appearance)(차량-발생 이벤트)가 다수의 프레임들에 걸쳐 정지하는(차량-정지 이벤트) 것을 평가할 수 있다. 그 후, 새로운 포어그라운드(foreground) 오브젝트는 나타날 수 있고 사람(사람-어피어런스 이벤트)으로서 분류될 수 있고 그 다음 사람은 프레임의 밖으로 떠난다(사람-사라짐 이벤트). 게다가, 시스템은 "주차-이벤트"로서 제 1 두 개의 이벤트들의 결합을 인식할 수 있다.

[0003] 그러나, 그런 감시 시스템들은 통상적으로, 시스템에 의해 인식될 수 있는 오브젝트들 및/또는 거동들이 미리 정의되는 것을 요구한다. 따라서, 실제로, 이들 시스템들은 비디오 시퀀스를 평가하기 위하여 오브젝트들 및/또는 거동들에 대한 미리 정의된 정의들에 의존한다. 근원적인 시스템이 특정 오브젝트 또는 거동에 대한 설명을 포함하지 않으면, 시스템은 일반적으로 해당 거동(또는 적어도 특정 오브젝트 또는 거동을 설명하는 패턴의 예들)을 인식할 수 없다. 보다 일반적으로, 그런 시스템들은 종종 시간에 걸친 장면에서 발생하는 것을 관찰함으로써 오브젝트들, 이벤트들, 거동들, 또는 패턴들을 식별(또는 정상 또는 비정상으로서, 그런 오브젝트들, 이벤트들, 거동들, 등을 분류)할 수 없고, 대신, 그런 시스템들은 미리 정의된 정적 패턴들에 의존한다.

[0004] 본원에 제시된 하나의 실시예는 비디오 레코딩 디바이스에 의해 캡처되고 비디오 분석 애플리케이션에 의해 평가된 카메라 이미지들을 안정화하기 위한 방법을 포함한다. 방법은 일반적으로 비디오 카메라에 의해 캡처된 프레임들의 스트림을 정렬하는데 사용하기 위하여 기준 프레임 내 후보 구역들을 식별하는 단계를 포함한다. 후보 구역들은 각각의 후보 구역 내 추적된 피처(feature)들의 밀집도에 의해 내림차순으로 분류된다. 방법은 또한 후보 구역들의 추적된 피처들 중 가장 높은 밀집도를 가진 후보 구역을, 각각의 캡처된 프레임에 대한 정렬 구역으로서 지정하는 단계를 포함한다. 스트림이, 현재 프레임 내 추적된 피처들이 기준 프레임의 대응하는 피처들에 관련하여 오정렬되는 것에 기초하여 불안정하다는 것의 결정시, 정렬 구역에 기초한 현재 프레임에 대한 아핀 변환 매트릭스(affine transformation matrix)가 결정된다. 게다가, 현재 프레임은, 현재 프레임의 정렬 구역 내 피처들이 기준 프레임의 대응하는 피처들에 매칭하도록 아핀 변환 매트릭스를 사용하여 랩핑(warp)된다. 부가적으로, 정합 에러는 랩핑된 현재 프레임과 기준 프레임 사이에서 식별되고, 정합 에러가 허용 오차 임계치 내에 있다는 것의 결정시, 랩핑된 현재 프레임은 안정화된 프레임으로서 지정된다.

[0005] 본원에 제시된 다른 실시예는 비디오 레코딩 디바이스에 의해 캡처된 카메라 이미지들을 안정화하기 위한 방법을 포함한다. 방법은 일반적으로 비디오 카메라에 의해 캡처된 프레임을 정렬하는데 사용하기 위하여 기준 프레임 내 후보 구역들을 식별하는 단계를 포함한다. 후보 구역들은 각각의 후보 구역 내 추적된 피처들의 밀집도에 의해 내림차순으로 분류된다. 방법은 또한 일반적으로 후보 구역들 중 가장 높은 밀집도의 추적된 피처들을 가진 후보 구역을, 각각의 캡처된 프레임에 대한 정렬 구역으로서 지정하는 단계를 포함한다. 스트림이 현재 프레임 내 추적된 피처들이 기준 프레임의 대응하는 피처들에 관하여 오정렬된다는 것에 기초하여 불안정하다는 것의 결정시, 현재 프레임은 정렬된다.

[0006] 다른 실시예들은, 제한 없이, 프로세싱 유닛이 개시된 방법들뿐 아니라 개시된 방법들의 하나 또는 그 초과의 양상들을 구현하도록 구성된 프로세서, 메모리, 및 애플리케이션 프로그램들을 가진 시스템의 하나 또는 그 초과의 양상들을 구현하게 하게 하는 명령들을 포함하는 컴퓨터-판독가능 매체를 포함한다.

[0007] 본 발명의 상기 인용된 피처들, 장점들, 및 목적들이 달성되고 상세히 이해될 수 있는 방식으로, 상기 짧게 요약된 본 발명의 보다 구체적 설명은 첨부된 도면들에 예시된 실시예들을 참조함으로써 얻을 수 있다.
[0008] 그러나, 본 발명이 다른 똑같이 효과적인 실시예들에 수용될 수 있기 때문에, 첨부된 도면들이 본 발명의 단지 통상적인 실시예들을 예시하고 그러므로 자신의 범위를 제한하는 것이 고려되지 않아야 하는 것이 주의된다.
[0009] 도 1은 일 실시예에 따른, 비디오 분석 시스템의 컴포넌트들을 예시한다.
[0010] 도 2는 일 실시예에 따른, 도 1에 도시된 비디오 분석 시스템의 컴포넌트들을 추가로 예시한다.
[0011] 도 3은 일 실시예에 따른, 카메라에 의해 캡처된 기준 이미지 및 현재 이미지의 그래픽 표현들을 예시한다.
[0012] 도 4는 카메라에 의해 캡처된 오정렬된 이미지를 안정화하기 위한 방법을 예시한다.

[0013] 본원에 제시된 실시예들은 비디오 프레임이 오정렬될 때를 식별하기 위하여 비디오 프레임들의 획득된 스트림을 분석하기 위한 방법 및 시스템을 개시한다. 일단 오정렬된 프레임이 검출되면, 거동 인식 기반 비디오 감시 시스템은 프레임을 정렬할 수 있다.

[0014] 거동 인식 시스템은 다르게 비디오 스트림으로서 알려진 개별 프레임들의 시퀀스를 관찰함으로써 거동의 패턴들을 학습, 식별 및 인식하도록 구성될 수 있다. 식별할 바의 미리 정의된 패턴들을 포함하는 규칙-기반 비디오 감시 시스템과 달리, 본원에 개시된 거동 인식 시스템은 관찰된 바의 입력을 생성하고 메모리들을 수립함으로써 패턴들을 학습한다. 시간에 걸쳐, 거동 인식 시스템은 비디오 스트림 내에서 캡처된 시야 내에서 정상과 비정상 거동 사이를 구별하기 위하여 이들 메모리들을 사용한다. 일반적으로 이런 시야는 "장면"으로 지칭된다.

[0015] 일 실시예에서, 가동 인식 시스템은 컴퓨터 비전 엔진 및 머신 학습 엔진을 포함한다. 컴퓨터 비전 엔진은 장면을 프로세싱하고, 관찰된 활동을 특징으로 하는 정보 스트림들을 생성하고, 그 다음 스트림들을 머신 학습 엔진에 전달하도록 구성될 수 있다. 차례로, 머신 학습 엔진은 해당 장면에서 오브젝트 거동들을 학습하도록 구성될 수 있다. 학습 기반 거동에 더하여, 머신 학습 엔진은 장면 특정 거동들의 모델들을 수립하고 오브젝트의 거동이 모델에 관련하여 비정상인 것을 관찰들이 가리키는지를 결정하도록 구성될 수 있다.

[0016] 흔히, 다른 고정식 비디오 카메라는 장면을 캡처할 때 몇몇 물리적 모션에 영향을 받을 수 있다. 예를 들어, 지하철역을 관찰하도록 훈련된 카메라는 기차들이 역에 진입하고 나갈 때 약간의 튀어오름을 경험할 수 있다. 유사하게, 실외 카메라는 바람에 응답하여 약간의 모션을 가질 수 있다. 장면이 캡처되는 그런 경우들에서, 카메라는, 카메라가 상하로 움직일 때 불안해지거나, 동요하게 되거나, 약간 밀쳐질 수 있다. 결과적으로, 이미지들은 다양한 복합 방식들로 왜곡되거나 변경될 수 있고, 예를 들어 병진, 회전, 잘라지는 것 등등일 수 있다.

[0017] 정정 없이, 이 미러 움직임의 결과들은 비디오 컴퓨터 비전 엔진을 방해할 수 있다. 예를 들어 백그라운드가 변화되지 않고 있는 동안 백그라운드를 묘사하는 장면의 일부를 고려하면, 백그라운드 엘리먼트들의 포지션은 카메라 움직임에 응답하여 변화한다. 움직임이 현재 프레임 내 충분히 다른 픽셀 값들을 초래하면, 컴퓨터 비전 엔진은 거짓 포어그라운드 오브젝트들을 부적당하게 식별할 수 있고, 즉 진실로 포어그라운드가 아닌 오브젝트들이 그럼에도 불구하고 진실 포어그라운드로 특징지어진다. 게다가, 이들 거짓 오브젝트들은 상기 논의된 프로세싱 파이프라인에서 추가 엘리먼트들에 전달되고 머신 학습 품질을 떨어뜨릴 수 있고, 궁극적으로 거짓 경고들을 유도한다.

[0018] 이 문제를 처리하기 위하여, 일 실시예에서, 컴퓨터 비전 엔진은 장면이 오정렬된 때를 식별하고 수신된 프레임을 정렬하기 위한 방법을 수행하도록 구성될 수 있다. 이렇게 하는 것은 컴퓨터 비전 엔진과 머신 학습 엔진 둘 다에 의해 사용하기 위한 일치하는 이미지를 제공하는 것을 돕는다.

[0019] 다음에서, 본 발명의 실시예들에 대해 참조가 이루어질 수 있다. 그러나, 본 발명이 임의의 구체적으로 설명된 실시예로 제한되지 않는 것이 이해되어야 한다. 대신, 상이한 실시예들에 관련되든 아니든 다음 피처들 및 엘리먼트들의 임의의 결합은 본 발명을 구현 및 실시하기 위하여 고려된다. 게다가, 다양한 실시예들에서 본 발명은 종래 기술에 비해 다수의 장점들을 제공한다. 그러나, 본 발명의 실시예들이 다른 가능한 해결책들 및/또는 종래 기술에 비해 장점들을 달성할 수 있지만, 특정 장점이 주어진 실시예에 의해 달성되는지 여부는 본 발명을 제한하지 않는다. 따라서, 다음 양상들, 피처들, 실시예들 및 장점들은 단지 예시이고 명시적으로 청구항(들)에 인용되는 것을 제외하고 첨부된 청구항들의 고려된 엘리먼트들 또는 제한들이 아니다. 마찬가지로, "본 발명"에 대한 참조는 본원에 개시된 임의의 본 발명의 청구 대상의 개념으로서 해석되지 않을 것이고 명시적으로 청구항(들)에 인용되는 것을 제외하고 첨부된 청구항들의 엘리먼트 또는 제한이도록 고려되지 않을 것이다.

[0020] 일 실시예는 컴퓨터 시스템과 함께 사용하기 위한 프로그램 물건으로서 구현된다. 프로그램 물건의 프로그램(들)은 실시예들(본원에 설명된 방법들 포함)의 기능들을 정의하고 여러 가지의 컴퓨터-판독가능 스토리지 매체들에 포함될 수 있다. 컴퓨터-판독가능 스토리지 매체들의 예들은 (ⅰ) 정보가 영구적으로 저장되는 비-기록 가능 스토리지 매체들(예를 들어, 광학 매체 드라이브에 의해 판독 가능한 CD-ROM 또는 DVD-ROM 디스크들 같은 컴퓨터 내 판독-전용 메모리 디바이스들); (ⅱ) 변경 가능 정보가 저장되는 기록 가능 스토리지 매체들(예를 들어, 디스켓 드라이브 또는 하드-디스크 드라이브 내 플로피 디스크들)을 포함한다. 그런 컴퓨터-판독가능 스토리지 매체들은, 본 발명의 기능들을 지시하는 컴퓨터-판독가능 명령들을 보유할 때, 본 발명의 실시예들이다. 다른 예시적 매체들은 무선 통신 네트워크들을 포함하고, 컴퓨터 또는 전화 네트워크를 통해서와 같이 정보가 컴퓨터에 전달되는, 통신 매체들을 포함한다.

[0021] 일반적으로, 실시예들을 구현하기 위하여 실행된 루틴들은 오퍼레이팅 시스템 또는 특정 애플리케이션, 컴포넌트, 프로그램, 모듈, 오브젝트, 또는 명령들의 시퀀스의 일부일 수 있다. 컴퓨터 프로그램은 통상적으로 네이티브(native) 컴퓨터에 의해 머신-판독가능 포맷으로 번역되고 따라서 실행 가능 명령들일 다수의 명령들로 이루어진다. 또한, 프로그램들은 프로그램에 로컬로 상주하거나 메모리 내에서 또는 스토리지 디바이스들 상에서 발견되는 변수들 및 데이터 구조들로 이루어진다. 게다가, 본원에 설명된 다양한 프로그램들은, 그들이 특정 실시예로 구현되는 애플리케이션에 기초하여 식별될 수 있다. 그러나, 다음의 임의의 특정 프로그램 명칭이 단순히 편의를 위하여 사용되고, 따라서 본 발명이 그런 명칭에 의해 식별되고 및/또는 암시되는 임의의 특정 애플리케이션에서만 오로지 사용하도록 제한되지 않는 것이 인식되어야 한다.

[0022] 도 1은 일 실시예에 따른, 비디오 분석 및 거동 인식 시스템(100)의 컴포넌트들을 예시한다. 도시된 바와 같이, 거동 인식 시스템(100)은 비디오 입력 소스(105), 네트워크(110), 컴퓨터 시스템(115), 및 입력 및 출력 디바이스들(118)(예를 들어, 모니터, 키보드, 마우스, 프린터 등)을 포함한다. 네트워크(110)는 비디오 입력(105)에 의해 레코드된 비디오 데이터를 컴퓨터 시스템(115)에 전송할 수 있다. 예시적으로, 컴퓨터 시스템(115)은 CPU(120), 스토리지(125)(예를 들어, 디스크 드라이브, 광학 디스크 드라이브 등), 및 컴퓨터 비전 엔진(135)과 머신 학습 엔진(140) 둘 다를 포함하는 메모리(130)를 포함한다. 하기 더 상세히 설명된 바와 같이, 컴퓨터 비전 엔진(135) 및 머신 학습 엔진(140)은 비디오 입력(105)에 의해 제공된 비디오 프레임들의 시퀀스를 분석하도록 구성된 소프트웨어 애플리케이션들을 제공할 수 있다.

[0023] 네트워크(110)는 비디오 입력 소스(105)로부터 비디오 데이터(예를 들어, 비디오 스트림(들), 비디오 이미지들 등)를 수신한다. 비디오 입력 소스(105)는 비디오 카메라, VCR, DVR, DVD, 컴퓨터, 웹-캠 디바이스 등일 수 있다. 예를 들어, 비디오 입력 소스(105)는 본원에서 발생하는 이벤트들을 레코딩하는 특정 영역(예를 들어, 지하철 역, 주차 지역, 빌딩 입구/출구, 등)을 겨냥하는 고정식 비디오 카메라일 수 있다. 일반적으로, 카메라의 시야 내 영역은 장면으로서 지칭된다. 비디오 입력 소스(105)는 특정된 프레임-레이트(예를 들어, 초당 24 프레임들)로 개별 비디오 프레임들의 시퀀스로서 장면을 레코딩하도록 구성될 수 있고, 여기서 각각의 프레임은 고정된 수의 픽셀들(예를 들어, 320×240)을 포함한다. 각각의 프레임의 각각의 픽셀은 컬러 값(예를 들어, RGB 값) 또는 그레이스케일(grayscale) 값(예를 들어, 0-255 사이의 복사 휘도 값)을 지정할 수 있다. 게다가, 비디오 스트림은 알려진 그런 포맷들, 예를 들어, MPEG2, MJPEG, MPEG4, H.263, H.264 등을 사용하여 포맷화될 수 있다.

[0024] 주의된 바와 같이, 컴퓨터 비전 엔진(135)은 비디오 스트림 내 액티브 오브젝트들을 식별하기 위하여 이런 로우(raw) 정보를 분석하고, 오정렬된 카메라 이미지들을 검출하고, 오브젝트 분류들을 유도하기 위하여 머신 학습 엔진(140)에 의해 사용된 여러 가지 어피어런스 및 운동학적 피처들을 식별하고, 그런 오브젝트들의 활동들 및 상호작용들에 관한 여러 가지 메타데이터를 유도하고, 그리고 이 정보를 머신 학습 엔진(140)에 공급하도록 구성될 수 있다. 그리고 차례로, 머신 학습 엔진(140)은 시간에 걸친 장면 내에서 발생하는 이벤트들에 관한 상세들(및 이벤트들의 타입들)을 평가, 관찰, 학습 및 기억하도록 구성될 수 있다.

[0025] 일 실시예에서, 머신 학습 엔진(140)은 컴퓨터 비전 엔진(135)에 의해 생성된 데이터를 수신한다. 머신 학습 엔진(140)은 수신된 데이터를 분석하고, 유사한 시각 및/또는 운동학적 피처들을 가진 오브젝트들을 클러스팅(cluster)하고, 비디오 프레임들 내에 묘사된 이벤트들의 시맨틱(semantic) 표현들을 수립하도록 구성될 수 있다. 시간에 걸쳐, 머신 학습 엔진(140)은 주어진 클러스터에 맵핑하는 오브젝트들에 대한 거동의 예상된 패턴들을 학습한다. 따라서, 시간에 걸쳐, 머신 학습 엔진은 정상 및/또는 비정상 이벤트들을 식별하기 위하여 이들 관찰된 패턴들로부터 학습한다. 즉, 미리 정의된 패턴들, 오브젝트들, 오브젝트 타입들, 또는 활동들을 가지기보다, 머신 학습 엔진(140)은 어떤 상이한 오브젝트 타입들이 관찰되었는지(예를 들어, 운동학적 및/또는 어피어런스 피처들의 클러스터들에 기초하여)의 그 자신의 모델뿐 아니라 주어진 오브젝트 타입에 대한 예상된 거동의 모델을 수립한다. 그 후, 머신 학습 엔진은 관찰된 이벤트의 거동이 이전 학습에 기초하여 비정상인지 아닌지를 결정할 수 있다.

[0026] 정상/비정상 거동/이벤트가 결정되었는지 여부 및/또는 어떤 그런 거동/이벤트가 경고들, 예를 들어 GUI 인터페이스 스크린상에 제시된 경고 메시지를 발행하기 위하여 출력 디바이스들(118)에 제공될 수 있는지를 설명하는 데이터가 있다.

[0027] 일반적으로, 컴퓨터 비전 엔진(135)은 비디오 데이터, 즉 실시간으로 카메라에 의해 캡처된 프레임들의 시퀀스를 프로세싱한다. 그러나, 컴퓨터 비전 엔진(135)과 머신 학습 엔진(140)에 의해 정보를 프로세싱하기 위한 시간 스케일(scale)들은 상이할 수 있다. 예를 들어, 일 실시예에서, 컴퓨터 비전 엔진(135)은 수신된 비디오 데이터를 프레임마다 프로세싱하는 반면, 머신 학습 엔진(140)은 매 N-프레임들을 특징으로 하는 데이터를 프로세싱한다. 다른 말로, 컴퓨터 비전 엔진(135)은 프레임에서 관찰된 오브젝트들에 관련된 운동학적 및 외관 데이터의 세트를 유도하기 위하여 실시간으로 각각의 프레임을 분석할 수 있는 반면, 머신 학습 엔진(140)은 비디오 입력의 실시간 프레임 레이트에 의해 제한되지 않는다.

[0028] 그러나, 도 1이 거동 인식 시스템(100)의 단지 하나의 가능한 어레인지먼트를 예시하는 것을 주의하라. 예를 들어, 비록 비디오 입력 소스(105)가 네트워크(110)를 통해 컴퓨터 시스템(115)에 연결된 것으로 도시되지만, 네트워크(110)는 항상 존재하거나 필요하지 않다(예를 들어, 비디오 입력 소스(105)는 컴퓨터 시스템(115)에 직접 연결될 수 있음). 게다가, 거동 인식 시스템(100)의 다양한 컴포넌트들 및 모듈들은 다른 시스템들로 구현될 수 있다. 예를 들어, 일 실시예에서, 컴퓨터 비전 엔진(135)은 비디오 입력 디바이스의 일부로서(예를 들어, 비디오 카메라에 직접 배선된 펌웨어 컴포넌트로서) 구현될 수 있다. 그런 경우, 비디오 카메라의 출력은 분석을 위해 머신 학습 엔진(140)에 제공될 수 있다. 유사하게, 컴퓨터 비전 엔진(135) 및 머신 학습 엔진(140)으로부터의 출력은 컴퓨터 네트워크(110)를 통해 다른 컴퓨터 시스템들에 공급될 수 있다. 예를 들어, 컴퓨터 비전 엔진(135) 및 머신 학습 엔진(140)은 서버 시스템상에 인스톨링될 수 있고 다수의 입력 소스들(즉, 다수의 카메라들)로부터 비디오를 프로세싱하도록 구성될 수 있다. 그런 경우에, 다른 컴퓨터 시스템상에서 운용하는 클라이언트 애플리케이션(250)은 네트워크(110)를 통해 결과들을 요청(또는 수신)할 수 있다.

[0029] 도 2는 일 실시예에 따라, 도 1에 첫 번째 예시된 컴퓨터 비전 엔진(135) 및 머신 학습 엔진(140)의 컴포넌트들을 추가로 예시한다. 도시된 바와 같이, 컴퓨터 비전 엔진(135)은 데이터 인게스터(ingestor)(205), 검출기(215), 추적기(215), 콘텍스트 이벤트 생성기(220), 경고 발생기(225), 및 이벤트 버스(230)를 포함한다. 집합적으로, 컴포넌트들(205, 210, 215 및 220)은 비디오 입력 소스(105)에 의해 공급된 비디오 프레임들의 인입 시퀀스를 프로세싱하기 위한 파이프라인(컴포넌트들을 링크하는 실선 화살표들에 의해 표시됨)을 제공한다. 일 실시예에서, 컴포넌트들(210, 215 및 220)은 본원에 설명된 기능들을 제공하도록 구성된 소프트웨어 모듈을 각각 제공할 수 있다. 물론, 당업자 중 하나는 컴포넌트들(205, 210, 215 및 220)이 특정 경우의 필요에 적합하도록 결합(또는 추가로 하위분할)될 수 있고 추가로 부가적인 컴포넌트들이 비디오 감시 시스템으로부터 부가(또는 몇몇은 제거)될 수 있다는 것을 인식할 것이다.

[0030] 일 실시예에서, 데이터 인게스터(205)는 비디오 입력 소스(105)로부터 로우 비디오 입력을 수신한다. 데이터 인게스터(205)는 입력 데이터를 검출기(210)에 전송하기 전에 입력 데이터를 사전 프로세싱하도록 구성될 수 있다. 예를 들어, 데이터 인게스터(205)는 제공된 비디오의 각각의 프레임을 고정식 또는 정적 부분(장면 백그라운드) 및 가변 부분들의 콜렉션(collection)(장면 포어그라운드)으로 분리하도록 구성될 수 있다. 프레임 자체는 다수의 채널들(예를 들어, 컬러 비디오에 대한 RGB 채널들 또는 그레이스케일 채널 또는 검정 및 백색 비디오에 대한 복사 휘도 채널)에 대한 픽셀 값들의 2차원 어레이를 포함할 수 있다.

[0031] 데이터 인게스터(205)는 이미지 안정화 모듈(207)을 포함할 수 있다. 일 실시예에서, 이미지 안정화 모듈(207)은 이미지를 백그라운드 및 포어그라운드 오브젝트들로 분리하기 전에, 이미지들이 카메라 움직임으로 인해 안정화될 필요가 있는지를 결정하기 위하여 비디오 카메라에 의해 캡처된 이미지들을 평가하도록 구성된다. 그러기 위해서, 이미지 안정화 모듈(207)은, 현재 이미지의 안정성이 평가되는 기준 이미지를 생성할 수 있다. 예를 들어, 일 실시예에서, 제 1 로우 카메라 이미지는 안정화를 시작하기 위하여 사용된다. 대안적으로, 현재 백그라운드 이미지가 사용될 수 있다. 기준 이미지는 주기적으로, 예를 들어 매 5분들에 업데이트될 수 있다.

[0032] 일단 기준 이미지가 결정되면, 이미지 안정화 모듈(207)은 정렬 구역들의 세트를 결정할 수 있다. 예를 들어, 이미지 안정화 모듈은 기준 이미지 내 피처 부유 영역들의 세트(예를 들어, 80×80 픽셀 그리드)를 식별할 수 있다. 보다 구체적으로, 이미지 안정화는 커널 밀집도 평가를 사용하여 기준 이미지 내 최대 피처 밀집 직사각형 구역들을 검출할 수 있다. 이들 구역들은 피처 밀집도들의 내림차순으로 저장될 수 있다. 최대 피처 밀집 구역들은 차후 로우 이미지들의 정렬을 검출하기 위하여 사용된다.

[0033] 이미지 안정화 모듈(207)은 현재 프레임이 안정화될 필요가 있는지를 식별하기 위하여 피처-부유 정렬 구역들을 식별한다. 그러기 위해서, 이미지 안정화 모듈은 대부분의 추적된 피처들이 고정적인지 또는 일치하는 아핀 변환들을 나타내는지를 결정하기 위하여 기준 이미지로부터 SURF(Speeded-Up Robust Feature)들을 추출하고 차후 프레임들 내 SURF들을 추적한다. 피처들이 현재 프레임 내에서 고정적이면, 안정화는 필요하지 않다.

[0034] 그렇지 않으면, 이미지 안정화 모듈(207)은 기준 프레임의 식별된 정렬 구역에 기초하여 이미지를 정렬한다. 구역을 정렬하는 동안, 이미지 안정화 모듈은 기준 프레임에 기초하여 현재 프레임 내 추적된 포지션으로부터 정렬된 포지션으로 피처들을 변환하기 위한 아핀 변환 매트릭스를 발견한다.

[0035] 일 실시예에서, 검출기(210)는 적응적 공명 이론(ART: adaptive resonance theory) 네트워크를 사용하여 각각의 픽셀에 대한 백그라운드 상태들을 모델링할 수 있다. 즉, 각각의 픽셀은 해당 픽셀들을 모델링하는 ART 네트워크를 사용하여 장면 포어그라운드 또는 장면 백그라운드를 묘사하는 것으로 분류될 수 있다. 물론, 장면 포어그라운드와 백그라운드 사이를 구별하기 위한 다른 접근법들이 사용될 수 있다.

[0036] 부가적으로, 검출기(210)는 장면의 어느 픽셀들이 포어그라운드를 묘사하는 것으로 분류되고, 반대로 어느 픽셀들이 장면 백그라운드로 분류되는지를 식별하기 위하여 사용된 마스크를 생성하도록 구성될 수 있다. 그 다음 검출기(210)는 장면 포어그라운드의 일부(포어그라운드 "블로브" 또는 "패치(patch)"로 지칭됨)을 포함하는 장면의 구역들을 식별하고 이 정보를 파이프라인의 차후 스테이지들에 공급한다. 부가적으로, 장면 백그라운드를 묘사하는 것으로 분류된 픽셀들은 장면을 모델링하는 백그라운드 이미지를 생성하기 위하여 사용될 수 있다.

[0037] 일 실시예에서, 검출기(210)는 장면의 흐름을 검출하도록 구성될 수 있다. 예를 들어, 일단 포어그라운드 패치들이 분리되었다면, 검출기(210)는 프레임마다 모든 포어그라운드 패치들의 임의의 에지들 및 모서리들을 검사한다. 검출기(210)는 단일 오브젝트 또는 모션들의 단일 연관에 가장 잘 속할 것 같은 유사한 모션 흐름으로 움직이는 포어그라운드 패치들을 식별한다. 검출기(210)가 포어그라운드 오브젝트들을 식별할 때, 검출기(210)는 이 정보를 추적기(215)에 전송한다.

[0038] 추적기(215)는 검출기(210)에 의해 생성된 포어그라운드 패치들을 수신하고 패치들에 대한 계산 모델들을 생성할 수 있다. 예를 들어, 추적기(215)는 이 정보를 사용하도록 구성되고, 로우-비디오의 각각의 연속적인 프레임에 대해, 예를 들어 장면에 관해 움직일 때 주어진 포어그라운드 패치에 의해 묘사된 포어그라운드 오브젝트의 모션을 추적을 시도하도록 구성될 수 있다. 즉, 추적기(215)는 포어그라운드 오브젝트를 프레임마다 추적함으로써 컴퓨터 비전 엔진(135)의 다른 엘리먼트들에 연속성을 제공한다. 추적기(215)는 또한 포어그라운드 오브젝트의 여러 가지 운동학적 및/또는 어피어런스 피처들, 예를 들어 사이즈, 높이, 폭, 및 면적(픽셀들에서), 반사도, 밝기 강도, 속도 속력 등을 계산할 수 있다.

[0039] 콘텍스트 이벤트 생성기(220)는 파이프라인의 다른 스테이지들로부터 출력을 수신할 수 있다. 이 정보를 사용하여, 콘텍스트 프로세서(220)는 (추적기 컴포넌트(210)에 의해) 추적된 오브젝트들에 관한 콘텍스트 이벤트들의 스트림을 생성하도록 구성될 수 있다. 예를 들어, 콘텍스트 이벤트 생성기(220)는 오브젝트의 마이크로 피처 벡터들 및 운동학적 관찰들의 스트림을 패키징할 수 있고 이것을 머신 학습 엔진(140)에, 예를 들어 5Hz의 레이트로 출력할 수 있다. 일 실시예에서, 콘텍스트 이벤트들은 궤적으로서 패키징된다. 본원에 사용된 바와 같이, 궤적은 일반적으로 연속적인 프레임들 또는 샘플들 내에서 특정 포어그라운드 오브젝트의 운동학적 데이터를 패키징하는 벡터를 지칭한다. 궤적에서 각각의 엘리먼트는 특정 시점에서 해당 오브젝트에 대해 캡처된 운동학적 데이터를 표현한다. 통상적으로, 완전한 궤적은, 장면을 떠날 때까지(또는 프레임 백그라운드로 디졸빙(dissolving)하는 포인트로 고정됨), 예를 들어 포어그라운드 오브젝트가 각각의 연속적인 관찰을 따라 비디오 프레임에서 먼저 관찰될 때 얻어진 운동학적 데이터를 포함한다. 따라서, 컴퓨터 비전 엔진(135)이 5Hz의 레이트로 동작하는 것을 가정하면, 오브젝트에 대한 궤적은 완료될 때까지, 매 200 밀리 초마다 업데이트된다. 콘텍스트 이벤트 생성기(220)는 또한 다양한 어피어런스 속성들 이를 테면 형상, 폭 및 다른 물리적 피처들을 평가하고 각각의 속성을 수치 스코어에 할당함으로써 모든 각각의 포어그라운드 오브젝트들의 어피어런스 데이터를 계산 및 패키징할 수 있다.

[0040] 컴퓨터 비전 엔진(135)은 장면 내 추적된 오브젝트들의 모션들 및 행동들을 설명하는 컴포넌트들(205, 210, 215 및 220)로부터 출력을 취할 수 있고 이 정보를 이벤트 버스(230)를 통해 머신 학습 엔진(140)에 공급할 수 있다. 예시적으로, 머신 학습 엔진(140)은 분류기 모듈(235), 시맨틱 모듈(240), 맵퍼(mapper) 모듈(245), 인식 모듈(250), 코텍스(cortex) 모듈(270), 및 정규화 모듈(265)을 포함한다.

[0041] 분류기 모듈(235)은 컴퓨터 비전 엔진(135)으로부터 어피어런스 데이터 같은 콘텍스트 이벤트들을 수신하고 상기 데이터를 뉴럴 네트워크상에 맵핑한다. 일 실시예에서, 뉴럴 네트워크는 자가-조직 맵(SOM: self-organizing map) 및 ART 네트워크의 결합이다. 데이터는 서로 연관으로 반복적으로 발생하는 피처들에 의해 클러스터링 및 결합된다. 그 다음, 이들 반복 타입들에 기초하여, 분류기 모듈(235)은 오브젝트들의 타입들을 정의한다. 예를 들어, 분류기 모듈(235)은 예를 들어, 타입 1 오브젝트 같은 높은 밝기 강도 및 반사도를 가진 포어그라운드 패치들을 정의할 수 있다. 그 다음 이들 정의된 타입들은 시스템의 나머지 도처에 전파한다.

[0042] 코텍스 모듈(270)은 컴퓨터 비전 엔진(135)으로부터 운동학적 데이터를 수신하고 상기 데이터를 뉴럴 네트워크(SOM-ART 네트워크 같은) 상에 맵핑한다. 일 실시예에서, SOM-ART 네트워크는 장면에서 이벤트들의 공통 시퀀스들을 수립하기 위하여 운동학적 데이터를 클러스터링한다. 다른 실시예에서, SOM-ART 네트워크는 장면에서 공통 상호작용들을 수립하기 위하여 상호작용하는 궤적들로부터 운동학적 데이터를 클러스터링한다. 장면 내 이벤트들 및 상호작용들의 공통 시퀀스들을 학습함으로써, 코텍스 모듈(270)은 비정상 시퀀스들 및 상호작용들을 검출할 때 머신 학습 엔진을 돕는다.

[0043] 맵퍼 모듈(240)은 이벤트들이 발생할 것 같거나 발생하지 않을 것 같은 장소 및 때의 맵들을 생성하기 위하여 포어그라운드 패치들에 대한 시스템을 가로질러 공간 및 시간적 상관들 및 거동들을 탐색함으로써 이들 타입들을 사용한다. 일 실시예에서, 맵퍼 모듈(240)은 시간 메모리 ART 네트워크, 공간 메모리 ART 네트워크, 및 통계적 엔진들을 포함한다. 예를 들어, 맵퍼 모듈(240)은 타입 1 오브젝트들의 패치들을 찾을 수 있다. 공간 메모리 ART 네트워크는 이들 오브젝트들의 통계적 데이터, 이를 테면 장면에서 이들 패치들이 나타나는 장소, 어느 방향으로 이들 패치들이 진행하는 경향이 있는지, 얼마나 빨리 이들 패치들이 진행하는지, 이들 패치들이 방향을 변화할지 여부 등을 생성하기 위하여 통계적 엔진들을 사용한다. 그 다음 맵퍼 모듈(240)은 오브젝트 거동들을 비교하기 위하여 메모리 템플릿(template)이 되는 이 정보의 뉴럴 네트워크를 수립한다. 시간 메모리 ART 네트워크는 시간 슬라이스들의 샘플링들에 기초하여 통계적 데이터를 생성하기 위하여 통계적 엔진들을 사용한다. 일 실시예에서, 초기 샘플링은 매 30분 간격으로 발생한다. 만약 많은 이벤트들이 시간 슬라이스 내에서 발생하면, 시간 분해능은 보다 미세한 분해능으로 동적으로 변화될 수 있다. 반대로, 보다 적은 이벤트들이 시간 슬라이스 내에서 발생하면, 시간 분해능은 보다 거시적 분해능으로 동적으로 변화될 수 있다.

[0044] 일 실시예에서, 시맨틱 모듈(245)은 장면 내 모션 또는 궤적들의 패턴들을 식별하고 일반화를 통해 비정상 거동에 대한 장면을 분석한다. 장면을 쪽매맞춤하고 포어그라운드 패치들을 많은 상이한 쪽(tessera)으로 분할함으로써, 시맨틱 모듈(245)은 오브젝트의 궤적을 추적하고 궤적으로부터 패턴들을 학습한다. 시맨틱 모듈(245)은 이들 패턴들을 분석하고 이들을 다른 패턴들과 비교한다. 오브젝트들이 장면에 진입할 때, 시맨틱 모듈(245)은 적응성 그리드를 수립하고 오브젝트들 및 그들의 궤적들을 그리드 상에 맵핑한다. 더 많은 피처들 및 궤적들이 그리드 상에 거주될 때, 머신 학습 엔진은 장면에 공통인 궤적들을 학습하고 비정상 거동으로부터 정상 거동을 추가로 구별한다.

[0045] 일 실시예에서, 인식 모듈(250)은 지각적 메모리, 에피소드 메모리, 장기 메모리, 및 작업 영역을 포함한다. 일반적으로, 작업 영역은 머신 학습 엔진(140)에 대한 계산 엔진을 제공한다. 예를 들어, 작업 영역은 지각적 메모리로부터 정보를 카피하고, 에피소드 메모리 및 장기 메모리로부터 관련 메모리들을 리트리브하고, 그리고 실행할 코드릿(codelet)들을 선택하도록 구성될 수 있다. 일 실시예에서, 코드릿은 이벤트들의 상이한 시퀀스들을 평가하고 어떻게 하나의 시퀀스가 다른 시퀀스(예를 들어, 유한 상태 머신)를 따르는지(또는 그렇지 않으면 관련되는지)를 결정하기 위하여 구성된 소프트웨어 프로그램이다. 보다 일반적으로, 코드릿은 머신 학습 엔진에 공급된 데이터의 스트림들로부터 관심 패턴들을 검출하도록 구성된 소프트웨어 모듈을 제공할 수 있다. 차례로, 코드릿은 에피소드 메모리 및 장기 메모리에서 메모리들을 생성, 리트리브, 강화, 또는 수정할 수 있다. 실행을 위해 코드릿들을 반복적으로 스케쥴링함으로써, 인식 모듈(250)의 작업 공간에/작업 공간으로부터 메모리들 및 지각 대상들을 카피하여, 머신 학습 엔진(140)은 장면 내에서 발생하는 거동의 패턴들에 관하여 관찰, 및 학습하기 위하여 사용된 인식 사이클을 수행한다.

[0046] 일 실시예에서, 지각적 메모리, 에피소드 메모리, 및 장기 메모리는 거동의 패턴들을 식별하고, 장면 내에서 발생하는 이벤트들을 평가하고, 그리고 관찰들을 인코딩 및 저장하기 위해 사용된다. 일반적으로, 지각적 메모리는 컴퓨터 비전 엔진(135)의 출력(예를 들어, 콘텍스트 이벤트들의 스트림)을 수신한다. 에피소드 메모리는 특정 에피소드에 관련된 상세들, 예를 들어 이벤트에 관련된 시간 및 공간 상세들을 설명하는 정보로 관찰된 이벤트들을 표현하는 데이터를 저장한다. 즉, 에피소드메모리(252)는 특정 이벤트의 특정 상세들, 즉 특정 차량(차 A)이 9:43AM에 주자 공간(주차 공간 5)인 것으로 믿어지는 위치로 움직이는 것 같은 "무엇이 그리고 어디서" 무언가가 장면 내에서 발생했는가를 인코딩할 수 있다.

[0047] 반대로, 장기 메모리는 장면 내에서 관찰된 데이터 일반화 이벤트들을 저장할 수 있다. 차량 주차의 예를 계속하여, 장기 메모리는 장면 내에서 오브젝트들의 거동의 분석에 의해 학습된 관찰들 및 일반화들을 캡처하는 정보, 이를 테면 "차량들이 장면 내 특정 장소에 주차하려고 하는 경향", "주차하는 차량들이 특정 속도로 움직이는 경향", 및 "차량 주차 후, 사람이 차량에 근접한 장면에서 나타나는 경향" 등을 인코딩할 수 있다. "차량"의 사용이 유사한 방식에 의해 제공된다는 것이 주의된다. 그러나, 엄밀히 말하면, 장기 메모리도 에피소드 메모리도 "사람" 또는 "차량" 같은 엔티티의 임의의 개념을 가지지 않는다. 대신, 이들 구조들은 시간에 걸쳐 변화하는 픽셀 값들의 관찰들로부터 유도된 통계적 데이터를 저장한다. 따라서, 장기 메모리는 상당한 특정 에피소드 상세들이 제거된 장면 내에서 무엇이 발생하는가에 관한 관찰들을 저장한다. 이런 방식으로, 새로운 이벤트가 발생할 때, 에피소드 메모리 및 장기 메모리로부터의 메모리들은 현재 이벤트를 관련 및 이해하기 위하여 사용될 수 있고, 즉 새로운 이벤트는 지난 경험과 비교될 수 있고, 시간에 걸쳐, 장기 메모리에 저장된 정보에 대한 강화, 쇠퇴, 및 조절들 둘 다를 유도한다. 특정 실시예에서, 장기 메모리는 ART 네트워크 및 축약 분산 메모리 데이터 구조로서 구현될 수 있다. 그러나, 중요하게, 이런 접근법은 미리 정의될 상이한 오브젝트 타입 분류들을 요구하지 않는다.

[0048] 일 실시예에서, 모듈들(235, 240, 245, 250, 및 270)은 장면 내 비정상들을 검출하도록 구성될 수 있다. 즉, 각각의 모듈은 장면의 지난 관찰들에 관련하여 비정상 거동을 식별하도록 구성될 수 있다. 임의의 모듈이 비정상 거동을 식별하면, 임의의 모듈은 경고를 생성하고 정규화 모듈(265)을 통해 경고를 전달한다. 예를 들어, 시맨틱 모듈(245)은 학습된 패턴들 및 모델들을 사용하여 특이한 궤적들을 검출한다. 포어그라운드 오브젝트가 어슬렁거리는 거동을 나타내면, 예를 들어, 시맨틱 모듈(245)은 어슬렁거리는 모델들을 사용하여 오브젝트 궤적을 평가하고, 차후 경고를 생성하고, 그리고 경고를 정규화 모듈(265)에 전송한다. 경고를 수신시, 정규화 모듈(265)은 경고가 공개되어야 하는지를 평가한다.

[0049] 도 3은 일 실시예에 따른, 카메라에 의해 캡처된 기준 이미지와 현재 이미지의 그래픽 표현들을 예시한다. 이 기준 이미지(305) 및 현재 이미지(310) 각각은 주어진 장면의 프레임을 묘사한다: 공원 벤치 및 자갈을 가진 관찰된 영역. 언급된 바와 같이, 이미지 안정화 모듈(207)은 차후 캡처된 로우 비디오 이미지들의 안정성을 평가하는데 사용하기 위한 기준 이미지를 획득할 수 있다. 초기 기준 프레임은 제 1 로우 카메라 이미지일 수 있다. 이미지 안정화 모듈(207)은 그 후에 기준 이미지를 주기적으로(예를 들어, 매 5분) 업데이트할 수 있다.

[0050] 기준 이미지가 획득되거나 업데이트될 때, 이미지 안정화 모듈(207)은 모서리들, 에지들, 또는 다른 맥락과 관련된 정보 같은 높은 피처 밀집도들을 가진 이미지 내 위치들을 알아내기 위하여 이미지로부터 SURF(Speeded-Up Robust Feature)들을 추출한다. 일 실시예에서, 이미지 안정화 모듈(207)은 이미지의 최대 피처 밀집 구역들을 결정하기 위하여 균일한 커널 밀집도 추정 알고리즘을 적용한다. 이미지 안정화 모듈(207)은 안정화가 필요하면 정렬 구역들로서 그런 구역들을 사용한다. 정렬 구역들이 식별되면, 이미지 안정화 모듈(207)은 피처 병진, 회전, 또는 스케일링 같은 피처들의 임의의 변화들을 검출하기 위하여 기준 프레임에서 추출된 SURF들을 차후 캡처된 프레임들에서 추적할 수 있다. 게다가, 식별된 정렬 구역이 안정화 후 부적당한 결과들(예를 들어, 포어그라운드 오브젝트들에 대응하는 정렬 구역 내 피처들의 몇몇으로 인함)을 제공하면, 이미지 안정화 모듈(207)은 안정화를 위하여 다음 최대 피처 밀집 정렬 구역(등등)을 사용할 수 있다.

[0051] 기준 이미지(305)는 예시적 정렬 구역(307a)(프레임 내에서 점선 박스로 묘사됨)을 포함한다. 이미지 안정화 모듈(207)은 차후 이미지가 정렬을 벗어났는지(예를 들어, 기준 이미지(305)를 정렬 구역(307a)과 비교할 때 주어진 프레임 내 피처들이 포지션을 벗어남)를 검출하기 위하여 기준 프레임 내에서 추출된 피처들을 추적한다. 이미지가 정렬을 벗어나면, 이미지 안정화 모듈(207)은 이미지를 실현하는데 적용할 아핀 변환 매트릭스를 추정하기 위하여 정렬 구역을 사용한다. 실제로, 정렬 구역은 도 3에 묘사된 것보다 작을 수 있다. 예를 들어, 경험은 81×81 픽셀들의 정렬 구역들을 사용하는 것이 우수한 결과들을 양산하는 것을 도시한다.

[0052] 현재 이미지(310)는 피처들이 기준 이미지(305)로부터 포지션 적으로 벗어나는 경우 프레임의 예이다. 예시적으로, 현재 이미지(310)는 기준 이미지(305)의 동일한 장면을 묘사하지만 캡처된 피처들의 약간 양의 병진 및 회전을 가진다. 그런 편차는 예를 들어 인근의 조화 모션들 또는 진동들로부터(예를 들어, 진동들을 유발하는 장면을 지나 운전되는 차들, 바람, 불안정한 카메라 장착, 등에 의해) 발생할 수 있다. 도시된 바와 같이, 현재 이미지(310)는 정렬 구역(307a)과 동일한 프레임의 포지션에 위치된 정렬 구역(307b)을 포함한다. 정렬 구역(307a) 내 피처들의 포지션과 비교하여, 정렬 구역(307b) 내 피처들의 포지션은 회전된다. 이미지 안정화 모듈(207)은 기준 이미지(305)의 SURF들을 현재 이미지(310)에 비교할 때 그런 회전(또는 임의의 다른 아핀 변환)을 검출하고 차후 현재 이미지(310)가 안정화될 필요가 있는지 결정할 수 있다.

[0053] 도 4는 일 실시예에 따른, 카메라에 의해 캡처된 오정렬된 프레임을 안정화하기 위한 방법(400)을 예시한다. 경험은, 방법(400)이 효과적으로 작동하기 위하여, 비디오 샘플들이 획득되는 레이트(즉, 프레임 레이트)가, 보상되는 장면 불안정성들을 유발하는 진동들 또는 모션들이 발생하는 특성 레이트에 적어도 매칭(및 바람직하게 다소 초과)하여야 하는 것을 도시한다는 것을 주의하라.

[0054] 이미지 안정화 모듈(207)이 거동 인식 시스템의 시작 같은 초기 기준 이미지를 이미 획득하였다고 가정하고, 그리고 또한 초기 정렬 구역들이 이미 검출되었다고 가정하자. 단계(405)에서, 데이터 인게스터(205)는 입력 소스(105)로부터 로우 비디오 입력(즉, 현재 관찰된 이미지)을 수신한다. 단계(410)에서, 이미지 안정화 모듈(207)은 기준 이미지를 업데이트할지를 결정한다. 예를 들어, 이미지 안정화 모듈(207)은 로우 비디오 입력에 기초하여 기준 이미지를 주기적으로 업데이트할 수 있다. 업데이트된 기준 이미지는 재정렬된 이미지에 대응할 수 있다. 다른 경우에서, 이미지 안정화 모듈은 백그라운드 모델과 또한 정합하는 현재 이미지로서 새로운 기준 이미지를 탐색하도록 구성될 수 있다.

[0055] 기준 이미지를 업데이팅한 후, 이미지 안정화 모듈(207)은 기준 이미지 내 직사각형 정렬 구역들을 검출한다. 일 실시예에서, 이미지 안정화 모듈(207)은 최대 피처 밀집 구역들을 식별하기 위하여 기준 이미지(예를 들어, 81×81 구역들)의 픽셀 구역들에 걸쳐 균일한 커널 밀집도 추정 알고리즘을 적용한다. 실제로, 이미지 안정화 모듈(207)은, 이미지 안정화 모듈(207)이 더 많이 식별하도록 구성될 수 있지만, 그런 구역들의 4 이하를 식별할 수 있다. 이미지 안정화 모듈(207)은 정렬 구역들로서 가장 밀집한 피처들을 가진 구역들을 지정할 수 있다. 일단 정렬 구역들이 식별되면, 이미지 안정화 모듈(207)은 이미지 안정화에 사용하기 위하여 내림차순으로 구역들을 랭킹(rank)할 수 있다.

[0056] 단계(425)에서, 이미지 안정화 모듈(207)은 현재 관찰된 이미지가 기준 프레임에 관련하여 적당하게 정렬되지 않았는지를 결정한다. 즉, 현재 프레임의 대부분의 추적된 피처들이 기준 프레임을 현재 프레임에 비교할 때 동일한 위치에 있다면, 이미지는 아마도 적당한 정렬로 있을 것이고, 안정화가 요구되지 않는다. 그러나, 이미지 안정화 모듈(207)이 프레임 내 피처들에 대한 아핀 변환들, 이를 테면, 회전, 변환, 및 스케일링을 검출하면, 이미지 안정화 모듈(207)은 프레임을 안정화할 필요가 있을 수 있다. 일 실시예에서, 피라미드 루카스-카나데(Lucas-Kanade) 광학 흐름 분석 방법은 피처들을 추적하기 위하여 사용될 수 있다.

[0057] 만약 그렇다면, 지정된 정렬 구역을 사용하는 이미지 안정화 모듈(207)은, 정렬 알고리즘을 사용하여 현재 이미지를 안정화한다. 알고리즘은 지정된 정렬 구역에 기초하여 전체 이미지에 대한 아핀 변환 매트릭스를 추정함으로써 현재 이미지를 안정화한다. 알고리즘은 이미지가 안정화할 때까지 불안정한 이미지를 랩핑하기 위하여 아민 변환 매트릭스를 사용한다. 식별된 아민 변환 매트릭스는 이미지 안정화 모듈(207)이 기준 이미지에 기초하여 현재 이미지 내 추적된 포지션으로부터 정렬된 포지션으로 피처들을 변환하게 한다.

[0058] 추정된 아핀 변환 매트릭스를 획득하기 위하여, 이미지 안정화 모듈(207)은 정렬 알고리즘에 4개의 파라미터들: 1) 지정된 정렬 구역을 정렬하기 위한 반복들의 수; 2) 현재 이미지의 정렬 구역과 기준 이미지의 정렬 구역 사이의 수평 병진에서 엡실론 차(ε); 3) 현재 이미지의 정렬 구역과 기준 이미지의 정렬 구역 사이의 수직 병진의 ε; 및 4) 현재 이미지의 정렬 구역과 기준 이미지의 정렬 구역 사이의 회전 ε을 전달한다. 일 실시예에서, 인버스 구성 방법은 지정된 정렬 구역을 조절하기 위하여 사용될 수 있다. 일반적으로, 알고리즘은 병진 및 회전 에러들을 감소시키기 위하여 기울기 하강 분석을 사용한다. 즉, 알고리즘은 가장 가파른 하강 매트릭스를 계산하기 위하여 주어진 파라미터들을 사용한다. 가장 가파른 하강 매트릭스는 2개의 차원들에서 기울기 매트릭스이다. 현재 이미지가 기준 이미지와 완전하게 정렬될 때, 수평 및 수직 기울기 값들은 영과 동일하다. 모든 각각의 반복시, 정렬 알고리즘은 에러 값들이 가능한 한 근접하게 ε 값들을 향하여 움직이도록 정렬 구역을 재조절한다. 일 실시예에서, 섭동 이론 방법들은 또한 각각의 반복시 정렬 구역들이 로컬 최소치들 내에 머무는(즉, 기준 이미지와 정렬을 벗어남) 이벤트에서 이미지를 안정화하는 추가 강화를 위하여 사용될 수 있다. 추가로, 각각의 반복시, 알고리즘은 정렬을 달성하기 위하여 요구된 추정된 아핀 변환 매트릭스를 업데이트한다. 특정된 반복들을 완료한 후(또는 일단 병진 및 회전 값들이 ε 값들 아래에 있다면), 알고리즘은 전체 현재 이미지에 대해 결과적인 아핀 변환 매트릭스를 적용한다.

[0059] 게다가, 일 실시예에서, 이미지 안정화 모듈(207)은 이미지를 재정렬한 후 통계적 가중을 정렬 구역에 할당할 수 있다. 그렇게 하는 것은 이미지 안정화 모듈(207)로 하여금, 기준 이미지 및 정렬된 이미지가 구성 가능한 허용 오차 내에 속하는지, 예를 들어 정렬된 이미지의 피처들이 얼마나 잘 기준 이미지와 정합하는지를 결정하게 한다. 예를 들어, 이미지 안정화 모듈(207)이 이미지 내 가장 밀집한 피처들을 가진 정렬 구역을 처음에 결정할 수 있지만, 구역은 구역 밀집도에 기여하는 포어그라운드 오브젝트들을 움직임으로 인해 제한된 유용성을 가질 수 있다. 결과적으로, 초기 정렬 구역은 빈약한 안정화를 양산할 수 있다.

[0060] 통계적 가중은 아핀 변환 매트릭스에 의해 요구된 병진, 회전, 및 스케일링의 측정에 기초하여 임의의 정합 에러에 기초하여 계산될 수 있다. 정합 에러가 구성된 양 외측이면(다시 정렬 구역과 현재 프레임의 정합에 관련하여 다시 측정됨), 다음 최대 피처 밀집 정렬 구역은 현재 이미지를 정렬하기 위하여 사용될 수 있다. 그러므로, 특정 정렬 구역이 낮은 에러(예를 들어, 기준 이미지와 현재 이미지의 정렬 구역의 정합과 관련하여)를 가진 결과들을 계속 생성하면, 이미지 안정화 모듈(207)은 구역의 통계적 가중을 강화할 수 있다. 반대로, 정렬 구역이 높은 에러를 가진 결과들을 생성하기 시작하면, 이미지 안정화 모듈(207)은 구역의 통계적 가중을 감소시킬 수 있다. 보다 일반적으로, 현재 구역이 주어진 부분 허용 오차 내에서 이미지를 안정화시키지 못하면, 그의 통계적 중요도는 감소된다. 다른 한편, 주어진 허용 오차 내에서 이미지를 안정화하는 유용한 구역의 중요도는 증가된다. 구역들은 자신의 통계적 가중에 기초하여 계속 분류되고 가장 높은 통계적 가중을 가진 구역은 항상 현재 이미지 내에서 자신의 정렬을 위하여 첫 번째로 사용된다.

[0061] 게다가, 컴퓨터 비전 엔진이 거의 실시간으로 비디오 데이터를 프로세싱할 필요가 있을 때, 이미지 안정화 모듈(207)은 프레임 안정화 품질과 시스템 성능을 밸런싱하기 위하여 다수의 튜닝 가능 파라미터들을 지원할 수 있다. 예를 들어, 이미지 안정화 모듈(207)은 허용된 또는 타겟 시간 제한으로 구성될 수 있다. 최종 n 프레임들을 안정화하기 위하여 요구된 시간이 제한 아래에 있다면, 이미지 안정화 모듈(207)은 보다 많은 계산들, 특히 기준 이미지에 매칭하기 위하여 현재 이미지 내 피처들을 변환하기 위하여 요구된 아핀 변환 매트릭스를 결정하기 위하여 보다 많은 시간이 보다 우수한 안정화를 허용할 수 있다. 정렬을 위한 보다 많은 시간은 보다 큰 안정화가 발생하도록 한다. 다른 한편, 이미지를 안정화하기 위한 시간이 허용된 시간 제한을 초과하면, 이미지 안정화 모듈(207)은 아핀 변환 매트릭스를 결정하기 위하여 수행된 계산들의 수를 감소시킬 수 있다. 그렇게 하는 것은 이미지 안정화 모듈이 비디오 감시 시스템의 실시간 수요들을 알게 한다.

[0062] 설명된 바와 같이, 본원에 제시된 실시예들은 비디오 카메라에 의해 이전에 캡처된 기준 이미지에 관하여 정렬을 벗어난 이미지를 안정화하기 위한 기술들을 제공한다. 컴퓨터 비전 엔진은 장면에서 포어그라운드 오브젝트들로부터 백그라운드 오브젝트들을 분리하기 전에 주어진 장면에서 오정렬된 이미지들을 안정화한다. 유리하게, 결과 이미지들은 일관되고 컴퓨터 비전 엔진 및 머시 학습 엔진이 비디오 스트림 내 캡처된 이미지들을 적당하게 분석하게 한다.

[0063] 상기가 본 발명의 실시예들에 관한 것이지만, 본 발명의 다른 그리고 추가의 실시예들은 본 발명의 기본 범위에서 벗어남이 없이 고안될 수 있고, 본 발명의 범위는 다음 청구항들에 의해 결정된다.

Claims

비디오 레코딩 디바이스에 의해 캡처되고 비디오 분석 애플리케이션에 의해 평가되는 카메라 이미지들을 안정화하기 위한 방법으로서,
비디오 카메라에 의해 캡처된 프레임들의 스트림을 정렬하는데 사용하기 위하여 기준 프레임 내 후보 구역들을 식별하는 단계 ― 상기 후보 구역들은 각각의 후보 구역 내 추적된 피처(feature)들의 밀집도에 의해 내림차순으로 분류됨 ―;
상기 후보 구역들 중 가장 높은 밀집도의 추적된 피처들을 가진 후보 구역을, 각각의 캡처된 프레임에 대한 정렬 구역으로서 지정하는 단계; 및
현재 프레임 내 추적된 피처들이 상기 기준 프레임의 대응하는 피처들에 관련하여 오정렬되는 것을 기초하여 상기 스트림이 불안정하다는 것을 결정할 시:
상기 정렬 구역에 기초하여 상기 현재 프레임에 대한 아핀 변환 매트릭스(affine transformation matrix)를 결정하는 단계,
상기 현재 프레임의 상기 정렬 구역 내 피처들이 상기 기준 프레임의 상기 대응하는 피처들에 대응하도록, 상기 아핀 변환 매트릭스를 사용하여 상기 현재 프레임을 랩핑(warping)하는 단계,
상기 랩핑된 현재 프레임과 상기 기준 프레임 사이의 정합 에러를 식별하는 단계, 및
상기 정합 에러가 허용 오차 임계치 내에 있다는 것을 결정할 시, 상기 랩핑된 현재 프레임을 안정화된 프레임으로서 지정하는 단계
를 포함하는,
비디오 레코딩 디바이스에 의해 캡처되고 비디오 분석 애플리케이션에 의해 평가되는 카메라 이미지들을 안정화하기 위한 방법.
제 1 항에 있어서,
상기 아핀 변환 매트릭스는 기울기 하강 분석을 사용하여 상기 기준 프레임과 상기 현재 프레임의 정렬 구역 내 피처들의 수직 병진, 수평 병진, 및 회전에 기초하여 특정된 반복들의 수에 걸쳐 결정되는,
비디오 레코딩 디바이스에 의해 캡처되고 비디오 분석 애플리케이션에 의해 평가되는 카메라 이미지들을 안정화하기 위한 방법.
제 2 항에 있어서,
이전 아핀 변환 매트릭스가 특정된 시간 길이 하에서 결정되는 것에 기초하여, 상기 반복들의 수는 증가되고 상기 수직 병진 및 상기 수평 병진의 임계치들은 감소되는,
비디오 레코딩 디바이스에 의해 캡처되고 비디오 분석 애플리케이션에 의해 평가되는 카메라 이미지들을 안정화하기 위한 방법.
제 1 항에 있어서,
상기 기준 프레임은 시작시 상기 카메라에 의해 캡처된 초기 로우(raw) 프레임인,
비디오 레코딩 디바이스에 의해 캡처되고 비디오 분석 애플리케이션에 의해 평가되는 카메라 이미지들을 안정화하기 위한 방법.
제 1 항에 있어서,
상기 기준 프레임을 상기 안정화된 프레임으로 업데이팅하는 단계를 더 포함하는,
비디오 레코딩 디바이스에 의해 캡처되고 비디오 분석 애플리케이션에 의해 평가되는 카메라 이미지들을 안정화하기 위한 방법.
제 1 항에 있어서,
상기 정합 에러에 기초하여 상기 정렬 구역에 통계적 가중을 할당하는 단계를 더 포함하는,
비디오 레코딩 디바이스에 의해 캡처되고 비디오 분석 애플리케이션에 의해 평가되는 카메라 이미지들을 안정화하기 위한 방법.
제 6 항에 있어서,
상기 정합 에러가 허용 오차 임계치 내에 있지 않다는 것을 결정할 시:
상기 정렬 구역의 통계적 가중을 감소시키는 단계; 및
다음 통계적으로 중요한 후보 구역을, 상기 정렬 구역으로서 지정하는 단계
를 더 포함하는,
비디오 레코딩 디바이스에 의해 캡처되고 비디오 분석 애플리케이션에 의해 평가되는 카메라 이미지들을 안정화하기 위한 방법.
프로세서상에서 실행될 때, 비디오 레코딩 디바이스에 의해 캡처되고 비디오 분석 애플리케이션에 의해 평가되는 카메라 이미지들을 안정화하기 위한 동작을 수행하는 명령들을 저장하는 컴퓨터-판독가능 저장 매체로서,
상기 동작은,
비디오 카메라에 의해 캡처된 프레임들의 스트림을 정렬하는데 사용하기 위한 기준 프레임 내 후보 구역들을 식별하는 동작 ― 상기 후보 구역들은 각각의 후보 구역 내 추적된 피처들의 밀집도에 의해 내림차순으로 분류됨 ―;
상기 후보 구역들 중 가장 높은 밀집도의 추적된 피처들을 가진 후보 구역을, 각각의 캡처된 프레임에 대한 정렬 구역으로서 지정하는 동작; 및
현재 프레임 내 추적된 피처들이 상기 기준 프레임의 대응하는 피처들에 관련하여 오정렬되는 것을 기초하여 상기 스트림이 불안정하다는 것을 결정할 시:
상기 정렬 구역에 기초하여 상기 현재 프레임에 대한 아핀 변환 매트릭스를 결정하는 동작,
상기 현재 프레임의 상기 정렬 구역 내 피처들이 상기 기준 프레임의 상기 대응하는 피처들에 대응하도록, 상기 아핀 변환 매트릭스를 사용하여 상기 현재 프레임을 랩핑하는 동작,
상기 랩핑된 현재 프레임과 상기 기준 프레임 사이의 정합 에러를 식별하는 동작, 및
상기 정합 에러가 허용 오차 임계치 내에 있다는 것을 결정할 시, 상기 랩핑된 현재 프레임을 안정화된 프레임으로서 지정하는 동작
을 포함하는,
프로세서상에서 실행될 때, 비디오 레코딩 디바이스에 의해 캡처되고 비디오 분석 애플리케이션에 의해 평가되는 카메라 이미지들을 안정화하기 위한 동작을 수행하는 명령들을 저장하는 컴퓨터-판독가능 저장 매체.
제 8 항에 있어서,
상기 아핀 변환 매트릭스는 기울기 하강 분석을 사용하여 상기 기준 프레임과 상기 현재 프레임의 정렬 구역 내 피처들의 수직 병진, 수평 병진, 및 회전에 기초하여 특정된 반복들의 수에 걸쳐 결정되는,
프로세서상에서 실행될 때, 비디오 레코딩 디바이스에 의해 캡처되고 비디오 분석 애플리케이션에 의해 평가되는 카메라 이미지들을 안정화하기 위한 동작을 수행하는 명령들을 저장하는 컴퓨터-판독가능 저장 매체.
제 9 항에 있어서,
이전 아핀 변환 매트릭스가 특정된 시간 길이 하에서 결정되는 것에 기초하여, 상기 반복들의 수는 증가되고 상기 수직 병진 및 상기 수평 병진의 임계치들은 감소되는,
프로세서상에서 실행될 때, 비디오 레코딩 디바이스에 의해 캡처되고 비디오 분석 애플리케이션에 의해 평가되는 카메라 이미지들을 안정화하기 위한 동작을 수행하는 명령들을 저장하는 컴퓨터-판독가능 저장 매체.
제 8 항에 있어서,
상기 기준 프레임은 시작시 상기 카메라에 의해 캡처된 초기 로우 프레임인,
프로세서상에서 실행될 때, 비디오 레코딩 디바이스에 의해 캡처되고 비디오 분석 애플리케이션에 의해 평가되는 카메라 이미지들을 안정화하기 위한 동작을 수행하는 명령들을 저장하는 컴퓨터-판독가능 저장 매체.
제 8 항에 있어서,
상기 기준 프레임을 상기 안정화된 프레임으로 업데이팅하는 동작을 더 포함하는,
프로세서상에서 실행될 때, 비디오 레코딩 디바이스에 의해 캡처되고 비디오 분석 애플리케이션에 의해 평가되는 카메라 이미지들을 안정화하기 위한 동작을 수행하는 명령들을 저장하는 컴퓨터-판독가능 저장 매체.
제 8 항에 있어서,
상기 정합 에러에 기초하여 상기 정렬 구역에 통계적 가중을 할당하는 동작을 더 포함하는,
프로세서상에서 실행될 때, 비디오 레코딩 디바이스에 의해 캡처되고 비디오 분석 애플리케이션에 의해 평가되는 카메라 이미지들을 안정화하기 위한 동작을 수행하는 명령들을 저장하는 컴퓨터-판독가능 저장 매체.
제 13 항에 있어서,
상기 정합 에러가 허용 오차 임계치 내에 있지 않다는 것을 결정할 시:
상기 정렬 구역의 통계적 가중을 감소시키는 동작; 및
다음 통계적으로 중요한 후보 구역을, 상기 정렬 구역으로서 지정하는 동작
을 더 포함하는,
프로세서상에서 실행될 때, 비디오 레코딩 디바이스에 의해 캡처되고 비디오 분석 애플리케이션에 의해 평가되는 카메라 이미지들을 안정화하기 위한 동작을 수행하는 명령들을 저장하는 컴퓨터-판독가능 저장 매체.
시스템으로서,
프로세서; 및
상기 프로세서상에서 실행될 때, 비디오 레코딩 디바이스에 의해 캡처되고 비디오 분석 애플리케이션에 의해 평가된 카메라 이미지들을 안정화하기 위한 동작을 수행하는 애플리케이션을 호스팅하는 메모리
를 포함하고,
상기 동작은,
비디오 카메라에 의해 캡처된 프레임들의 스트림을 정렬하는데 사용하기 위한 기준 프레임 내 후보 구역들을 식별하는 동작 ― 상기 후보 구역들은 각각의 후보 구역 내 추적된 피처들의 밀집도에 의해 내림차순으로 분류됨 ―;
상기 후보 구역들 중 가장 높은 밀집도의 추적된 피처들을 가진 후보 구역을, 각각의 캡처된 프레임에 대해 정렬 구역으로서 지정하는 동작; 및
현재 프레임 내 추적된 피처들이 상기 기준 프레임의 대응하는 피처들에 관련하여 오정렬되는 것을 기초하여 상기 스트림이 불안정하다는 것을 결정할 시:
상기 정렬 구역에 기초하여 상기 현재 프레임에 대한 아핀 변환 매트릭스를 결정하는 동작,
상기 현재 프레임의 상기 정렬 구역 내 피처들이 상기 기준 프레임의 상기 대응하는 피처들에 대응하도록, 상기 아핀 변환 매트릭스를 사용하여 상기 현재 프레임을 랩핑하는 동작,
상기 랩핑된 현재 프레임과 상기 기준 프레임 사이의 정합 에러를 식별하는 동작, 및
상기 정합 에러가 허용 오차 임계치 내에 있다는 것을 결정할 시, 상기 랩핑된 현재 프레임을 안정화된 프레임으로서 지정하는 동작
을 포함하는,
시스템.
제 15 항에 있어서,
상기 아핀 변환 매트릭스는 기울기 하강 분석을 사용하여 상기 기준 프레임과 상기 현재 프레임의 정렬 구역 내 피처들의 수직 병진, 수평 병진, 및 회전에 기초하여 특정된 반복들의 수에 걸쳐 결정되는,
시스템.
제 16 항에 있어서,
이전 아핀 변환 매트릭스가 특정된 시간 길이 하에서 결정되는 것에 기초하여, 상기 반복들의 수는 증가되고 상기 수직 병진 및 상기 수평 병진의 임계치들은 감소되는,
시스템.
제 15 항에 있어서,
상기 기준 프레임은 시작시 상기 카메라에 의해 캡처된 초기 로우 프레임인,
시스템.
제 15 항에 있어서,
상기 기준 프레임을 상기 안정화된 프레임으로 업데이팅하는 동작을 더 포함하는,
시스템.
제 15 항에 있어서,
상기 정합 에러에 기초하여 상기 정렬 구역에 통계적 가중을 할당하는 동작을 더 포함하는,
시스템.
제 20 항에 있어서,
상기 정합 에러가 허용 오차 임계치 내에 있지 않다는 것을 결정할 시:
상기 정렬 구역의 통계적 가중을 감소시키는 동작; 및
다음 통계적으로 중요한 후보 구역을, 상기 정렬 구역으로서 지정하는 동작
을 더 포함하는,
시스템.
비디오 레코딩 디바이스에 의해 캡처된 카메라 이미지들을 안정화하기 위한 방법으로서,
비디오 카메라에 의해 캡처된 프레임을 정렬하는데 사용하기 위하여 기준 프레임 내 후보 구역들을 식별하는 단계 ― 상기 후보 구역들은 각각의 후보 구역 내 추적된 피처들의 밀집도에 의해 내림차순으로 분류됨 ―;
상기 후보 구역들 중 가장 높은 밀집도의 추적된 피처들을 가진 후보 구역을, 각각의 캡처된 프레임에 대한 정렬 구역으로서 지정하는 단계; 및
현재 프레임 내 추적된 피처들이 상기 기준 프레임의 대응하는 피처들에 관련하여 오정렬되는 것을 기초하여 스트림이 불안정하다는 것을 결정할 시, 상기 현재 프레임을 정렬하는 단계
를 포함하는,
비디오 레코딩 디바이스에 의해 캡처된 카메라 이미지들을 안정화하기 위한 방법.
제 22 항에 있어서,
상기 현재 프레임은 섭동 이론 방법들을 사용하여 정렬되는,
비디오 레코딩 디바이스에 의해 캡처된 카메라 이미지들을 안정화하기 위한 방법.