KR20160010338A

KR20160010338A - 비디오 분석 방법

Info

Publication number: KR20160010338A
Application number: KR1020150100278A
Authority: KR
Inventors: 마이클 터쉬; 일리야 로마넨코; 알렉세이 로피치
Original assignee: 애피컬 리미티드
Priority date: 2014-07-18
Filing date: 2015-07-15
Publication date: 2016-01-27
Also published as: GB2528330B; US20160019426A1; CN105279480A; GB2528330A; GB201412846D0

Abstract

본 발명은, 비디오 스트림을 분석하기 위한 방법에 관한 것이다. 이 방법은 오브젝트를 포함하는 둘 이상의 프레임의 세트를 결정하고, 상기 오브젝트의 적어도 하나의 특징의 시간 진화를 기재하는 오브젝트 레코드를 생성한다.

Description

비디오 분석 방법{A METHOD OF VIDEO ANALYSIS}

본 발명은, 비디오 스트림을 분석하여, 상이한 장소에 송신될 수 있는 메타데이터를 생성하는 방법에 관한 것이다.

레코딩된 또는 라이브-스트리밍된 비디오를 분석하여, 분석의 결과를 포함한 컴팩트 메타데이터를 발생시키는 것이 바람직하다. 메타데이터가 원격의 장소에서 분석될 것이라면, 이러한 메타데이터를 단지 스트리밍하는 것은 불편할 수 있으며, 이는 데이터량이 시간이 지남에 따라 커질 수 있기 때문이다. 메타데이터의 량을 감소시키는 방법이 필요하다.

게다가, 원 비디오의 분석에 의해 유도할 수 있는 것들과 비교하여 결과를 생성하는 원격의 디바이스에서 분석을 실행하는 것이 바람직할 수 있다. 종래기술에 따라, 이것은 비디오 스트림이 서버에 전체가 송신되는 것을 필요로 할 것이다.

전체 비디오 송신은 비효율적이며, 더 효율적인 송신을 위한 방법이 필요하다.

본 발명의 제1 양상에 따라, 프레임을 갖는 비디오 스트림을 분석하기 위한 방법으로서,

오브젝트 검출 알고리즘을 사용하여 오브젝트가 존재하는 프레임의 세트를 결정하는 단계; 및

비디오 스트림의 콘텐트로부터 적어도 하나의 오브젝트 레코드 - 상기 오브젝트 레코드는 프레임의 세트에 있는 오브젝트의 적어도 하나의 특징의 시간 진화(time evolution)를 포함함 - 를 생성하는 단계를 포함하는 방법이 제공된다.

이러한 방법은 메타데이터의 량을 감소시키는 문제를 해결하며, 이는 선택된 메타데이터만이 오브젝트 레코드에 포함되기 때문이다. 이것은 저장, 송신 및 인덱싱(indexing)에 편리하다.

이 방법은 바람직하게는 오브젝트 레코드를 분석하는 단계를 포함하며, 이러한 분석 단계는, 프레임의 세트를 결정하는 단계 및 적어도 하나의 오브젝트 레코드를 생성하는 단계와 동일한 장소에서, 또는 상이한 장소에서 실행될 수 있다.

본 발명은 또한 제1 장소에서 프레임을 갖는 비디오 스트림을 처리하기 위한 제1 장치로서,

적어도 하나의 프로세서; 및

컴퓨터 프로그램 명령을 포함하는 적어도 하나의 메모리를 포함하며,

적어도 하나의 메모리 및 컴퓨터 프로그램 명령은, 적어도 하나의 프로세서에 의해, 장치가,

비디오 스트림의 콘텐트로부터 적어도 하나의 오브젝트 레코드 - 상기 오브젝트 레코드는 프레임의 세트에 있는 오브젝트의 적어도 하나의 특징의 시간 진화를 포함함 - 를 생성하는 단계로 된 방법을 실행하게 하도록 구성되는, 제1 장치에 관한 것이다.

본 발명은 또한 제2 장소에서 메타데이터를 포함하는 오브젝트 레코드를 처리하기 위한 제2 장치로서,

적어도 하나의 프로세서; 및

제1 장소로부터 오브젝트 레코드를 수신하는 단계;

오브젝트 레코드를 분석하는 단계; 및

분석의 결과를 얻는 단계로 된 방법을 실행하게 하도록 구성되는, 제2 장치에 관한 것이다.

본 발명은 또한 전술한 바와 같은 제1 장치 및 제2 장치를 포함하는, 비디오 스트림을 처리하기 위한 시스템에 관한 것이다.

본 발명의 추가 특성 및 장점은, 수반하는 도면을 참조하여 이뤄지는 예를 들어서만 기재되는 본 발명의 바람직한 실시예에 대한 다음의 기재로부터 분명해질 것이다.

상술한 바와 같이, 본 발명에 의하면, 비디오 스트림을 분석하여, 상이한 장소에 송신될 수 있는 메타데이터를 생성하는 방법을 얻을 수 있다.

도 1은, 메타데이터를 생성하여 이 메타데이터를 분석하기 위한 방법을 도시한다.
도 2는, 비디오 프레임으로부터 메타데이터를 생성하기 위한 방법을 도시한다.
도 3은, 비디오 스트림에서 식별된 오브젝트의 일생 동안의 여러 키 포인트를 도시한다.
도 4는, 검출된 오브젝트가 동일한 오브젝트에 대응함을 결정함에 응답하여, 결합된 오브젝트 레코드를 형성하기 위한 두 개의 오브젝트 레코드의 조합을 도시한다.
도 5는, 도 1의 방법을 구현하는 두 개의 시스템을 도시한다.

비디오 분석 기술이 메모리에 저장된 미리-레코딩된 비디오에, 그리고 또한 예컨대 카메라에 의해 촬영된 실시간 비디오에 적용될 수 있다. 비디오는 카메라 모듈 내의 이미지 처리 결과일 수 있거나, 미처리 데이터 스트림, 예컨대 CMOS 또는 CCD 센서에 의한 출력으로 구성될 수 있다. 이 비디오는, 예컨대 메타데이터와 같은 비디오 스트림의 콘텐트에 관련된 데이터를 발생시키도록 분석될 수 있으며, 예컨대 오브젝트 검출 알고리즘이 비디오 스트림에 존재하는 오브젝트를 식별하기 위해 적용될 수 있다. 다수의 오브젝트가 비디오 스트림의 동일한 포인트에서 또는 상이한 포인트에서 비디오 스트림에서 검출될 수 있으며, 만약 그렇게 검출된다면, 여기서 기재한 방법은 각 검출된 오브젝트에 적용될 수 있다. 이 경우에, 데이터는 비디오 스트림에서 오브젝트 또는 오브젝트들의 특징의 세트를 포함할 수 있다. 그러한 특징의 예는 각 오브젝트에 대한 식별자, 비디오의 프레임 내에서 각 오브젝트의 장소 및 크기, 오브젝트 타입(예컨대, "사람" 또는 "개"), 오브젝트의 부위(예컨대, "머리", "상반신") 및 그 배향각, 검출의 정확도를 기재한 검출 스코어, 및 각 오브젝트에 대한 가장 가능성있는 배향각의 지시(예컨대, 카메라를 향해 배향된 인간의 얼굴을 측면으로 배향된 얼굴로부터 구별함)을 포함한다. 각 컬러 성분에 대한 평균 값 및 표준 편차와 같은 오브젝트 컬러의 히스토그램 또는 기타 메트릭 또는 이미지의 잘린 부분에 대응하는 섬 네일(thumbnail)과 같은 다른 설명 데이터가 데이터에 포함될 수 있다. 이들 특징 중 일부는, 특정한 오브젝트가 존재하는 시간 기간 동안 변할 수 있으며, 데이터는, 예컨대 오브젝트가 존재하는 프레임의 세트의 각 비디오 프레임에 대해 또는 그러한 프레임의 세트의 프레임의 서브세트에 대해 별도의 값을 저장함으로써 그러한 변화를 반영할 수 있다. 오브젝트가 존재하는 프레임의 시리즈 동안 주어진 오브젝트에 대한 그러한 특징 중 하나 이상의 시간 진화를 보여주는 데이터 집합을 "추적 레코드" 또는 "오브젝트 레코드"라고 칭할 수 있다. 오브젝트 레코드는 예컨대 제3 자 툴에 의한 용이한 해석을 위해 ASCII XML 포맷으로 인코딩될 수 있다.

도 1은, 오브젝트 레코드가 생성되어 분석될 수 있는 일 실시예에 따른 방법을 개략적으로 도시한다. 소스, 예컨대 라이브 푸티지(live footage)를 발생시키는 카메라나 비디오 파일이 저장되는 메모리는, 오브젝트 검출 알고리즘을 사용하는 제1 분석(102)이 제1 처리 시스템에서 실행되는 비디오 스트림과 같은 비디오 데이터(101)를 제공한다. 이 분석은 오브젝트가 존재하는 프레임을 식별한다. 제2 처리 시스템에서의 제2 분석(104)을 위해 송신될, 앞서 기재한 메타데이터와 같은 데이터(103)를 포함하는 오브젝트 레코드가 그 후 발생한다. 하나 이상의 오브젝트 레코드는 바람직하게는 연속해서 스트리밍되기 보다는 대신에 한 번에 적어도 하나의 청크(chunk)나 부분으로 송신될 수 있다. 제1 및 제2 처리 시스템은 스마트폰이나 카메라와 같은 동일 디바이스 내에 포함될 수 있거나, 원거리에 위치할 수 있다. 예컨대, 제1 처리 시스템은 제1 장소에서 카메라 내에 있을 수 있으며, 제2 처리 시스템은 제2 장소에서 원격의 서버 내에 위치할 수 있다. 다른 예로서, 제1 처리 시스템은, 메모리로부터 비디오 파일을 회수하는 컴퓨터일 수 있다. 제2 처리 시스템은 하나 이상의 오브젝트 레코드를 분석하여, 일부 실시예에 따라서, 이 분석의 적어도 하나의 결과를 포함한 데이터(105)를 다시 제1 처리 시스템에 송신할 수 있다. 분석의 결과는 분석된 비디오의 적어도 일부분을 포함하는 비디오 파일에 저장할 수 있다.

일부 실시예에 따라, 제1 처리 시스템은 카메라이며, 제2 처리 시스템은 예컨대 서버와 같은 컴퓨터 시스템이다. 대안적으로, 두 분석 단계는 동일한 처리 시스템에서 실행될 수 있다. 오브젝트 레코드를 발생시키기 위한 그러한 카메라에서 비디오의 분석은, 도 2에 더 상세하게 도시한다. 비디오 스트림은 프레임을 포함할 수 있으며, 각 프레임은 이미지를 포함한다. 도 2는, 이 경우에는 인물인 오브젝트(202)를 포함하는 비디오 프레임(201)을 도시한다. 프레임은 오브젝트 검출 단계(203)에서 분석된다. 오브젝트 검출 알고리즘은 종래기술에 잘 알려져 있으며, 예컨대 주어진 배향각에서 인간의 얼굴을 검출하도록 구성된 얼굴 검출 알고리즘을 포함한다. 얼굴 검출 알고리즘은 비올라 및 존스 방법(method of Viola and Jones)을 기반으로 할 수 있다. 특징적 형상을 갖는 다른 타입의 오브젝트 뿐만 아니라 인체 형상을 전체 또는 부분으로 검출할 수 있는 다른 예가 알려져 있으며, 지지 벡터 머신(support vector machine)과 같은 분류기에 의한 또는 예컨대 컴볼루셔널 중립 네트워크를 사용한 배향된 그레디언트의 히스토그램을 기반으로 할 수 있다. 이 예에서, 오브젝트 검출 알고리즘은, 이미지가 도면에서 점선으로 지시한 둘레인 인물(204) 및 그 내에서 점선 둘레에 의해 도시한 인간의 얼굴(205)을 포함함을 결정하는데 사용된다. 특정한 오브젝트의 식별의 이들 개별 경우를 "검출"이라고 명명할 수 있다.

다수의 검출이 단일 오브젝트에 대응할 수 있다. 예컨대, 도 2에서, 검출된 인물과 검출된 인간의 얼굴은 프레임에서 동일인에 대응한다. 또한, 검출 알고리즘은 얼굴과 같은 단일 오브젝트를, 실제 오브젝트 주위에 모여있는 다수의 상이한 크기 스케일 및 공간 오프셋에서 검출할 수 있다. 다수의 검출에 의해 캡쳐된 단일 오브젝트를 식별하는 처리를 "필터링"이라 명명할 수 있다. 검출은 필터링 단계(206)에서 필터링될 수 있으며, 이 단계는 예컨대 서로의 근접한 공간 및 시간 범위 내의 다수의 검출을 단일 오브젝트로서 그룹화할 수 있다. 시간 범위는 비디오 스트림에서 프레임의 범위로서 표현할 수 있다. 필터링 단계는 또한, 인간의 얼굴과 신체와 같은 미리 결정된 검출의 조합을 검색하는 단계와 이들을 그룹화하는 단계를 포함할 수 있다. 이 예에서, 필터링 단계는, 인물과 인간의 얼굴이 이들이 동일한 오브젝트(인간(202))에 대응함을 결론내리기에 충분히 중첩됨을 결정할 수 있으며, 다수의 분류기로부터 단일 오브젝트로의 그러한 검출 조합에 대한 데이터를 "하이 레벨 데이터"(207)로 명명할 수 있다.

검출된 오브젝트는 분석될 수 있어서, 비디오 스트림의 콘텐트로부터 오브젝트 레코드(208)를 생성할 수 있으며, 오브젝트 레코드는 데이터(209)를 포함하며, 데이터(209)는 다음의 특징을 포함하지만 이들로 제한되지 않는 광범위한 오브젝트의 특징을 기재할 수 있다:

● 오브젝트에 대응하는 고유한 식별자;

● 오브젝트가 처음 비디오 스트림에 나타나는 프레임 또는 시간(오브젝트가 존재하는 제1 프레임)의 지시자;

● 오브젝트가 비디오 스트림으로부터 사라지는 프레임 또는 시간(오브젝트가 존재하는 마지막 프레임)의 지시자;

● 예컨대, 상단 좌측 코너와 같은 프레임의 코너로부터 오브젝트의 경계를 정하는 박스의 오프셋으로서 예컨대 표현되는 프레임 내의 오브젝트의 장소;

● 오브젝트의 경계를 정하는 박스의 높이와 폭으로서 예컨대 표현되는 오브젝트의 크기;

● 오브젝트 타입; 아마도 타입은 "사람", "차", "개" 등을 포함함;

● 가장 가능성이 있는 오브젝트의 배향 및/또는 오브젝트가 주어진 배향을 갖는 프레임이나 시간의 지시자;

● 오브젝트의 검출 정확도 또는 그 식별의 신뢰도를 기술하는 검출 스코어;

● 오브젝트 레코드의 정보가 정확할 가능성을 지시하는 추적 신뢰도;

● 통상, 이전에 검출된 오브젝트가 검출되지 않는 각각의 프레임에 대해 감소하며 오브젝트를 볼 수 있는 각각의 프레임에 대해 증가하는 값인 "추적 수명";

● 프레임 수에 대해 결정되는 오브젝트의 속도;

● 오브젝트 내의 컬러의 분포를 기재하는 하나 이상의 메트릭;

● 프레임이 캡쳐된 시간을 지시하는 타임스탬프; 또는

● 오브젝트에 관한 임의의 다른 관련 기재 정보.

데이터는 오브젝트가 검출되는 프레임의 세트에 대해 레코딩되며, 프레임의 세트는 적어도 두 개의 프레임을 포함한다. 오브젝트 레코드는, 오브젝트가 비디오 스트림에 존재하는 프레임의 세트 동안 오브젝트의 적어도 하나의 특징의 시간 진화의 레코드를 포함한다. 시간 기간으로서 표현될 수 있는 프레임의 세트는 오브젝트의 수명 또는 일생이라고 부를 수 도 있다. 제1 출현과 마지막 출현은, 속도인 것으로서, 프레임의 세트 동안 오브젝트의 시간 진화를 보여주는 특징이다. 시간 진화를 보여주는 다른 특징은 예컨대, 장소, 크기, 배향, 검출 스코어, 추적 신뢰도, 추적 수명, 및 컬러의 분포이며, 이들 다른 특징은 적어도 두 개의 프레임에 대해 레코딩되어서 시간 진화를 보여줘야 한다.

도 2의 각 단계에서, 데이터 량은 실질적으로 감소하며, 예컨대 비디오 스트림에서 보통은 수 메가바이트의 크기인 비디오 프레임은 대략 수천 킬로바이트의 분류기 검출의 조합에 의해 기재할 수 있으며, 이 조합은 이제, 대략 수 킬로바이트의 단일 데이터 블록에서 수 개의 프레임(둘 이상)에 대응하는 데이터를 포함하는 오브젝트 레코드에 의해 기재할 수 있다. 오브젝트 레코드는 그에 따라 도 1에 도시한 추가 분석을 위해 제2 처리 시스템에 송신될 수 있어서, 오브젝트 레코드에 속한 전체 프레임이나 전체 비디오 스트림을 송신하는데 필요한 것보다는 상당히 적은 송신 대역폭을 필요로 한다.

도 3은 오브젝트(302), 이 경우에는 비디오 스트림에서의 사람의 수명(301) 동안의 몇 가지 핵심 시간 포인트를 지시한다. 오브젝트의 탄생은, 오브젝트가 처음으로 비디오 스트림에 나타나는 이벤트이다. 이것은, 오브젝트가 검출되는, 이 경우에는 왼쪽으로부터 사람이 입장하는 것에 대응하는 제1 프레임(303)에 대응하는 시간에 발생한다. 사람이 304 주위로 움직임에 따라 데이터가 생성된다. "최상의 스냅(snap)"(305)은, 오브젝트의 검출 스코어가 최대이거나 검출 스코어가 미리 결정된 임계치를 초과하는 프레임으로서 부가적으로 식별될 수 있다. 예컨대, 검출은, 카메라에 대한 오브젝트의 특정 배향을 지시한다. 사람을 검출할 때, 최상의 스냅은, 사람의 주어진 부위, 예컨대 얼굴이 카메라를 향해 있는 프레임일 수 있다. 오브젝트의 사망은, 오브젝트가 비디오 스트림으로부터 사라지는 이벤트이며, 이것은 오브젝트가 검출된 마지막 프레임(306)에서 발생한다. 오브젝트의 수명은, 오브젝트가 비디오 스트림에서 존재하는 시간 기간 또는 다시 말해 오브젝트의 탄생과 사망 사이의 시간이다. 오브젝트가 존재하는 적어도 일부 프레임에 대응하는 데이터는 오브젝트 레코드(307)에 포함되지만, 오브젝트가 존재하지 않는 프레임(308)에 대응하는 데이터는 통상 포함되지 않는다.

특정한 실시예의 요건에 따라, 레코딩된 후 오브젝트 레코드에 포함되어 서버에 송신되는 데이터 량은 변할 수 있다. 최소의 예에서, 탄생 시의 그 구성과 사망 시의 그 구성에 대응하는 오브젝트의 특징만을 레코딩하여, 송신되어 저장될 데이터의 총량을 최소화하는 것이 바람직할 수 있다. 대안적으로, 탄생 및 사망 시의 특징 외에, 탄생과 사망 사이의 복수의 중간 시간에 그 구성에 대응하는, 예컨대 전술한 "최상의 스냅"에 대응하거나 오브젝트가 비디오 프레임의 경계를 건너는 포인트에 대응하거나, 오브젝트 일생 동안 정상적으로 이격된 시간 포인트에 대응하는 오브젝트의 특징을 레코딩하여, 이미징된 장면에서 오브젝트의 추적 또는 움직임의 상대적으로 손쉬운 분석을 허용하는 것이 바람직할 수 도 있다. 다른 예로서, 오브젝트의 이력 또는 시간-진화에 관해 전체 정보가 바람직하다면, 전체 수명 동안 각 프레임에 대한 오브젝트의 특징을 기재하는 데이터를 오브젝트 레코드에 레코딩하여, 더 완벽한 정보를 제공하는 것이 바람직할 수 있지만, 더 높은 송신 대역폭을 필요로 한다. 대안적으로, 데이터는, 예컨대 오브젝트가 그 이전 장소로부터 미리 한정된 거리 움직였을 때, 오브젝트의 움직임에 대응하는 비정상 간격으로 오브젝트 레코드에 레코딩될 수 있다. 시간 스탬프가 각각의 그러한 간격에 레코딩될 수 있으므로, 오브젝트의 전체 움직임은 추후 재구성될 수 있다.

오브젝트 레코드를 분석하기 전에, 오브젝트 레코드를 후-처리하여 데이터 량을 감소시키는 것이 또한 바람직할 수 있다. 예컨대, 시간 포인트의 수는 다운샘플링될 수 있거나, 스플라인 곡선(spline curve)과 같은 산술 함수가 오브젝트 궤적에 맞춰질 수 있다.

오브젝트 레코드는 적어도 하나의 청크나 부분으로 서버에 송신되며; 송신 타이밍은 비디오 스트림의 콘텐트에 의해 결정할 수 있다. 타이밍은, 앞서 기재한 오브젝트 레코드의 생성 타이밍과 독립적으로, 본 발명의 특정한 구현에 따라 변할 수 있다. 예컨대, 송신의 총 수는 오브젝트의 사망에서 또는 그 이후 전체 오브젝트 레코드를 송신함으로써 최소화될 수 있다. 그러나, 이것이 항상 바람직할 수는 없다. 예컨대, 오브젝트 레코드의 제1 부분은 오브젝트가 검출되는 제1 프레임에 또는 그 이후에 송신될 수 있으며, 오브젝트 레코드의 나머지를 포함할 수 있는 제2 부분은 오브젝트가 검출되는 마지막 프레임에 또는 그 이후에 송신될 수 있다. 다른 예로서, 보안 카메라 푸티지에 침입자를 검출하도록 구성된 시스템에서, 침입자의 진입에 대응하는 오브젝트의 탄생의 시간에서의 검출을 나타내는 오브젝트 레코드의 제1 부분을 송신하고, 그 뒤에, 가장 이른 가능 시간에 침입자의 정확한 식별을 가능케 하는 "최상의 스냅" 시간에 제2 부분을 송신하며, 이제 그 뒤에, 침입자의 퇴장에 대응하는 오브젝트의 사망에 제3 부분을 송신하는 것이 바람직할 수 있다. 이런 식으로, 방법은, 오브젝트가 비디오 스트림에서 검출되는 적어도 하나의 시간에 오브젝트 레코드의 분석을 실행하는 단계를 포함할 수 있다. 보안 카메라 푸티지에서 침입자의 예를 계속하면, 오브젝트 레코드의 일부분이 또한 예컨대 침입자가 다른 방에 들어갈 때처럼, 비디오 프레임의 경계를 넘을 때와 같이 오브젝트의 특징의 변화에 대응하는 시간에 예컨대 송신될 수 있다. 제2 처리 시스템은 통상 수신된 오브젝트 레코드 부분들을 조합하여, 송신의 총 수와 상관없이, 오브젝트에 대응하는 모든 송신된 데이터를 포함하는 단일 오브젝트 레코드가 발생한다. 다른 실시예에 따라, 오브젝트 레코드, 또는 상이한 오브젝트에 대응하는 다수의 오브젝트 레코드가, 미리 결정된 시간 이후, 미리 결정된 시각에, 또는 미리 결정된 수의 오브젝트 레코드를 생성한 이후 송신될 수 있다.

앞서 기재한 데이터 외에, 예컨대 섬 네일 또는 다수의 섬 네일과 같이 프레임 또는 프레임들의 일부분에 대응하는 이미지 또는 이미지들과 같은 추가 데이터가 오브젝트 레코드에 포함될 수 있다. 예시한 예로서, 검출된 인간의 얼굴을 포함하는 비디오 프레임의 잘린 부분을 포함하는 섬 네일이 "최상의 스냅" 시간에 캡쳐될 수 있으며, 오브젝트 레코드에 포함하기 위해 선택될 수 있다. 추가 데이터는 대안적으로는 예컨대 이미지의 관련 부분에서의 컬러 분포의 히스토그램을 포함할 수 있다. 비디오의 하나 이상의 전체 프레임이 오브젝트 레코드에 또한 포함될 수 도 있다.

도 1에 도시한 바와 같이, 히스토그램과 같은 임의의 추가 데이터를 포함하는 송신된 오브젝트 레코드가 제2 처리 시스템에 의해 분석된다. 예컨대, "최상의 스냅" 시간에 캡쳐된 인간의 얼굴에 대응하는 섬 네일이 제1 분석 시 오브젝트 레코드에 포함될 수 있으며, 그 후 얼굴 인식 알고리즘을 사용하여 제2 분석에서 분석될 수 있으며, 그러한 알고리즘의 예는 종래 기술에서 잘 알려져 있어서, 비디오 스트림에서 인간을 식별한다. 제2 처리 시스템이 서버인 일부 실시예에 따라, 이러한 분석의 결과는 카메라에 다시 송신될 수 있다. 예시한 예로서, 카메라는 비디오 스트림에서 사람을 추적할 수 있으며, 초기에 그 사람을 식별 번호로 식별한다. 사람의 얼굴에 대응하는 섬 네일이 그 후, "전방-배향 얼굴" 분류자의 검출 스코어가 미리 결정된 임계치를 초과할 때, 캡쳐될 수 있다. 섬 네일은 그 후 서버에 송신될 수 있으며, 여기서 사람의 신원이 얼굴 인식 알고리즘을 사용하여 결정된다. 이 신원은 그 후 카메라에 다시 송신될 수 있어서, 검출한 사람은 오브젝트의 전체 이력 내내 자신의 이름으로 식별할 수 있으며, 그 이름은 아마도 그 사람이 식별되기 전 시간에 대응하는 비디오의 프레임에 포함되어 있다. 유사하게, 오브젝트 레코드가 서버에 저장된다면, 저장된 오브젝트 레코드에 포함된 식별자는 인물의 이름으로 교체될 수 있다. 얼굴 인식 알고리즘은 통상 얼굴 정보의 대형 데이터베이스에 대한 빠른 액세스를 필요로 하며, 그에 따라 이상적으로는 서버에서 구현되며, 본 방법은, 분석을 위한 전체 비디오를 서버에 송신할 때 초래되는 상당히 높은 대역폭 비용을 필요로 하지 않고도 그러한 방법을 적용할 수 있게 한다. 또한, 얼굴 인식 알고리즘은 비디오 시퀀스의 모든 프레임에서의 모든 오브젝트 상에서 실행하기에는 고가이다. 얼굴 인식에 적절한 크기와 배향으로 얼굴이 캡쳐된 프레임에 대한 단 하나 또는 수 개의 이미지 크랍(crop)을 공급함으로써, 많은 양의 낭비된 계산을 회피할 수 있다. 바람직한 배향은 얼굴 인식에 가장 적절한 것이다. 예컨대, 사람은 인식될 수 있으며, 단 하나 또는 작은 수의 잘 선택한 얼굴 인식 시도를 통해 비디오 시퀀스 내에서 그 수명 동안 효율적으로 추적될 수 있다. 송신된 데이터의 크기는, 예컨대 알려진 압축 알고리즘을 사용하여 오브젝트 레코드의 압축에 의해 더 감소될 수 있다. 송신된 데이터의 크기는 또한, 오브젝트가 존재하는 프레임 세트에서의 모든 프레임에 대응하는 데이터를 오브젝트 레코드에 포함하기 보다는 오브젝트가 존재하는 프레임의 세트의 서브세트인, 비디오 스트림의 프레임의 서브세트에 대응하는 데이터를 오브젝트 레코드에 포함함으로써 감소될 수 있다. 예컨대, 세트의 매 10개의 프레임 중 하나의 프레임에 관련된 데이터가 오브젝트 레코드에 포함될 수 있거나, 분당 하나의 프레임에 관련된 것이 포함될 수 있다. 그러한 프레임의 서브세트는 또한 예컨대, 오브젝트가 프레임에서 미리 결정된 거리를 움직이면 프레임을 선택함으로써 오브젝트의 움직임을 기반으로 하여 선택될 수 있다.

이 방법의 상이한 단계가 상이한 시간에 실행될 수 있다. 예컨대, 보안 카메라 푸티지가 침입자에 대하여 모니터링되는 상기 기재한 실시예에서, 카메라에서의 오브젝트 검출과 서버에서의 얼굴 식별을 실시간으로 실행하여, 오브젝트가 비디오 프레임에 존재한 동안 분석이 실행되는 것이 바람직할 수 있다. 다른 예로서, 오브젝트 검출과 오브젝트 레코드 생성을 실시간으로 실행하는 것이 바람직할 수 있지만, 오브젝트가 비디오 스트림에 더 이상 존재하지 않는 시간에 또는 그 이후에 오브젝트 레코드를 분석하는 것이 바람직할 수 있다. 대안적으로, 오브젝트 레코드를 실시간으로 발생시켜서 이를 메타데이터로서 비디오 스트림의 적어도 일부분을 포함하는 비디오 파일에 저장하는 것이 바람직할 수 있으며, 그 후, 이 레코드는 추후에, 추가 분석을 위해 서버에 송신될 수 있다. 비디오의 적어도 일부분이 카메라의 메모리 유닛에 비디오 파일로서 먼저 저장되고, 오브젝트 검출 및 오브젝트 레코드 분석 둘 모두가 시간상의 추후 포인트에서 발생하는 추가 실시예를 생각해 볼 수 있다. 어느 경우에도, 서버에서 분석의 결과는 비디오 스트림을 포함하는 비디오 파일에서 또는 그에 첨부되어 추가 메타데이터로서 저장될 수 있다. 서버는 또한, 데이터베이스에 분석의 결과를 저장할 수 있다. 카메라의 비디오 파일에 있는 추가 메타데이터나, 서버의 데이터베이스는 분석에 관한 정보를 추출하도록 질의받을 수 있다. 이로 인해, 다수의 비디오 파일에는 검출된 오브젝트의 특징에 따라 인덱스가 붙을 수 있다. 예컨대, 비디오 스트림에 상이한 사람들의 총 수나, 주어진 사람이 존재했던 시간을 저장하는 것이 바람직할 수 있다. 이것은, 전체 비디오 파일이 서버에 송신될 필요 없이도 서버에서 구현될 수 있다. 하나 이상의 명시한 오브젝트의 존재는 그 후 대응하는 하나 이상의 오브젝트 레코드를 검색함으로써 비디오 파일의 세트 내에서 검색될 수 있다.

동일한 오브젝트에 대응하는 다수의 오브젝트 레코드가 발생될 수 있는 시나리오를 생각해 볼 수 있다. 예컨대, 다수의 카메라가 동일한 장면 또는 상이한 장면을 레코딩할 수 있으며, 단일 오브젝트에 대응하는 오브젝트 레코드를 독립적으로 발생시킬 수 있다. 게다가, 오브젝트는 장면에서 퇴장할 수 있으며, 추후 동일한 장면에 재입장할 수 있고, 잠시 시야에서 가려질 수 있거나, 시간 기간 동안 실수로 검출되지 않을 수 있으며, 이들 시나리오 모두는 동일한 오브젝트가 다수의 관련 오브젝트 레코드에 의해 다수의 구별된 오브젝트로서 검출되게 할 수 있다. 예컨대, 오브젝트가 비디오에 입장할 수 있고, 검출될 수 있으며, 퇴장할 수 있다. 동일한 오브젝트가 재입장한다면, 이것은 처음 오브젝트와 관련되지 않는 추가 오브젝트로서 검출될 수 있으며, 새로운 오브젝트 레코드가 생성될 수 있다. 일부 실시예에 따라, 본 발명은 그러한 다수의 오브젝트 레코드를 조합할 수 있어서, 오브젝트에 대응하는 단일 오브젝트 레코드를 발생시킬 수 있다. 예를 들어, 도 4는 프레임(402)에 입장하는 사람(401)을 도시한다. 이 사람은 또한 추가 프레임(403 및 404)에 존재하며, 그 후 비디오 스트림을 떠난다. 이 사람이 존재했던 프레임(402, 403 및 404)에 대응하는 데이터가 제1 오브젝트 레코드(405)에 포함된다.

이 사람은 그 후 프레임(406)에서 비디오 스트림에 재입장하며, 또한 추가 프레임(407, 408 및 409)에서 존재하며, 그 후 비디오 스트림을 떠난다. 이들 프레임에 대응하는 데이터는 제2 오브젝트 레코드(410)에 포함된다. 그러면, 두 개의 오브젝트 레코드가 동일한 사람에 대응함이, 예컨대 얼굴 인식 알고리즘을 사용하여 결정되며, 제1 및 제2 오브젝트 레코드는 조합된 오브젝트 레코드(411)로 조합된다.

여러 방법이 사용될 수 있어서, 별도의 오브젝트 레코드가 동일한 오브젝트에 대응함을 결정할 수 있다. 예컨대, 서버는, 얼굴 인식 알고리즘을 사용하여, 상이한 시간에 검출된 두 인물이 사실 동일인임을 결정할 수 있으며, 두 인물의 오브젝트 레코드를 합병하여 단일 오브젝트 레코드를 형성할 수 있다. 다른 예로서, 카메라 또는 서버는 두 개의 오브젝트에 대응하는 픽셀의 컬러 분포를 분석할 수 있어서, 만약 이들이 미리 결정된 에러 마진 내에서 매칭한다면, 두 개의 오브젝트가 사실 동일한 오브젝트임을 결정하고 두 개의 오브젝트의 오브젝트 레코드를 합병한다. 이러한 구성은 다음과 같이 실행될 수 있다. 오브젝트가 검출되는 각각의 프레임마다, 각 컬러 성분(예컨대, 적색, 녹색 및 청색)의 평균값 및 표준 편차가 오브젝트에 대응하는 것으로서 오브젝트 검출 알고리즘에 의해 규정된 영역 내에서 측정된다. 이 컬러 정보는 대응하는 오브젝트 레코드에 포함된다. 후속하여, 둘 이상의 오브젝트 레코드의 컬러 정보 사이의 상관관계가 측정될 수 있으며, 상관관계가 충분히 높다면 오브젝트 레코드 사이에 관계가 이뤄진다.

앞서 기재한 방법을 실행하기 위한 장치의 두 예시적인 실시예는 도 5에 도시된다. 도 5a는, 예컨대 라이브 푸티지를 제공하는 카메라일 수 있는, 비디오 스트림을 제공하는 소스(501)와, 프로세서가 비디오 스트림에서 오브젝트를 검출하게 하며 전술한 방식으로 오브젝트 레코드를 생성하게 하도록 구성되는 컴퓨터 프로그래밍 언어를 포함하는 메모리(502)를 기재하며, 각각의 구성요소는 제1 처리 시스템(503)에 연결된다. 제1 처리 시스템은 또한, 컴퓨터 프로그램 명령을 포함하는 제2 메모리(505)에 연결되며 상기 기재에 따라 오브젝트 레코드를 분석하도록 구성되는 제2 처리 시스템(504)에 연결된다. 일부 실시예에 따라, 메모리(502 및 505)는 단일 메모리 유닛일 수 있다. 모든 구성요소는, 예컨대 카메라 또는 스마트폰일 수 있는 단일 디바이스(506) 내에 포함된다.

도 5b는, 도 5a를 참조하여 앞서 기재한 바와 같이 제1 처리 시스템(503)에 연결되는, 소스(501) 및 컴퓨터 프로그래밍 명령을 포함하는 메모리(502)를 기재하며, 이들 구성요소는 제1 장소에서 제1 디바이스(507) 내에 포함된다. 제1 디바이스는 제2 처리 시스템(504)에 연결되며, 이제 제2 시스템은 도 5a를 참조하여 앞서 기재한 바와 같이 컴퓨터 프로그램 명령을 포함하는 제2 메모리(505)에 연결되며, 이들 두 구성요소는 별도의 장소에서 제2 디바이스(508) 내에 있다. 제1 디바이스는 카메라 또는 스마트폰일 수 있으며, 제2 디바이스는 서버일 수 있다.

상기 기재는 분포된 카메라 네트워크로 일반화될 수 있다. 이 경우에, 제2 디바이스는 네트워크 상의 다른 카메라이다. 이로 인해, 하나의 카메라에 의해 캡쳐된 오브젝트의 레코드는 다른 카메라나 카메라들에게 송신될 수 있어서, 오브젝트의 존재와 거동은 상이한 디바이스 사이에서 비교될 수 있다.

상기 실시예는 본 발명의 예시적 예로서 이해될 것이다. 본 발명의 추가 실시예를 생각할 수 있다. 예컨대, 소스는 컴퓨터 내의 메모리일 수 있으며, 제1 및 제2 처리 시스템은 둘 모두 컴퓨터의 프로세서 내에서 구현될 수 있다. 임의의 하나의 실시예와 관련하여 기재한 임의의 특성이 단독으로 또는 기재한 다른 특성과 조합하여 사용될 수 있고, 또한 임의의 다른 실시예의 하나 이상의 특성과 조합하거나 임의의 다른 실시예의 임의의 조합으로 사용될 수 있음을 이해해야 할 것이다. 더 나아가, 앞서 기재하지 않은 등가물 및 변경물이, 수반하는 청구범위에 규정된 본 발명의 범위로부터 벗어나지 않고도 사용될 수 있다.

Claims

프레임을 갖는 비디오 스트림을 분석하기 위한 방법으로서,
- 오브젝트 검출 알고리즘을 사용하여, 오브젝트가 존재하는 프레임의 세트를 결정하는 단계; 및
- 상기 비디오 스트림의 콘텐트로부터 적어도 하나의 오브젝트 레코드 - 상기 오브젝트 레코드는 상기 프레임의 세트에서 상기 오브젝트의 적어도 하나의 특징의 시간 진화(time evolution)를 포함함 - 를 생성하는 단계를 포함하는, 비디오 스트림 분석 방법.
청구항 1에 있어서, 상기 오브젝트 레코드를 분석하는 단계와, 분석의 결과를 얻는 단계를 포함하는, 비디오 스트림 분석 방법.
청구항 2에 있어서, 프레임의 세트를 결정하는 상기 단계와 오브젝트 레코드를 생성하는 상기 단계는 제1 장소에서 실행되고, 오브젝트 레코드를 분석하는 상기 단계는 상이한 제2 장소에서 실행되며,
상기 방법은, 송신 시간에 상기 오브젝트 레코드를 상기 제1 장소로부터 상기 제2 장소로 송신하는 단계를 포함하는, 비디오 스트림 분석 방법.
청구항 3에 있어서, 상기 송신 시간은 상기 비디오 스트림의 콘텐트에 의해 결정되는, 비디오 스트림 분석 방법.
청구항 3에 있어서, 상기 송신 시간은 미리 결정된 시각(time of day)인, 비디오 스트림 분석 방법.
청구항 3에 있어서, 상기 송신 시간은 미리 결정된 수의 오브젝트 레코드를 생성한 후인, 비디오 스트림 분석 방법.
청구항 3 내지 청구항 6 중 어느 한 항에 있어서, 상기 시간은 상기 오브젝트가 존재하는 마지막 프레임 후인, 비디오 스트림 분석 방법.
청구항 3 내지 청구항 7 중 어느 한 항에 있어서,
- 상기 오브젝트 검출 알고리즘을 사용하여 상기 오브젝트에 대한 응답의 세기를 결정하는 단계; 및
- 상기 응답의 세기가 미리 결정된 임계치를 초과한 후 상기 시간을 설정하는 단계를 포함하는, 비디오 스트림 분석 방법.
청구항 3 내지 청구항 8 중 어느 한 항에 있어서, 상기 오브젝트 레코드는 복수의 부분을 포함하며, 송신하는 상기 단계는,
- 상기 복수의 부분을 별도의 송신으로서 상기 제1 장소로부터 상기 제2 장소로 송신하는 단계를 포함하는, 비디오 스트림 분석 방법.
청구항 9에 있어서, 상기 복수의 부분은 적어도 제1 부분 및 제2 부분을 포함하며, 송신하는 상기 단계는,
- 상기 비디오 스트림에서 상기 오브젝트를 처음 식별한 때 또는 그 후와, 늦어도 상기 비디오 스트림에서 상기 오브젝트를 마지막으로 식별한 때에 상기 제1 부분을 송신하는 단계; 및
상기 비디오 스트림에서 상기 오브젝트를 마지막으로 식별한 후 상기 제2 부분을 송신하는 단계를 포함하는, 비디오 스트림 분석 방법.
청구항 9 또는 청구항 10에 있어서, 상기 오브젝트의 적어도 하나의 특징의 변화에 의존하는 시간에 상기 별도의 송신 각각을 실행하는 단계를 포함하는, 비디오 스트림 분석 방법.
청구항 1 내지 청구항 11 중 어느 한 항에 있어서, 상기 비디오 스트림에서의 상기 오브젝트의 식별을 실시간으로 실행하는 단계를 포함하는, 비디오 스트림 분석 방법.
청구항 2 내지 청구항 12 중 어느 한 항에 있어서, 상기 오브젝트 레코드에 분석의 결과를 저장하는 단계를 포함하는, 비디오 스트림 분석 방법.
청구항 1 내지 청구항 13 중 어느 한 항에 있어서,
- 비디오 파일로서 상기 비디오 스트림의 적어도 일부분을 세이브하는 단계; 및
- 상기 비디오 파일의 일부분으로서 또는 그에 대한 첨부로서 상기 적어도 하나의 오브젝트 레코드를 세이브하는 단계를 포함하는, 비디오 스트림 분석 방법.
청구항 2 내지 청구항 14 중 어느 한 항에 있어서, 결과를 얻는 상기 단계 이전의 시간에 대응하는 적어도 하나의 프레임에서의 상기 오브젝트에 적용함에 따라, 상기 오브젝트 레코드에서, 분석의 결과를 식별하는 단계를 포함하는, 비디오 스트림 분석 방법.
청구항 1 내지 청구항 15 중 어느 한 항에 있어서, 상기 적어도 하나의 특징은 상기 오브젝트의 포지션, 상기 오브젝트의 크기, 상기 오브젝트의 배향각, 상기 오브젝트 검출 알고리즘의 응답의 세기 및 상기 오브젝트에 대응하는 고유한 식별자 중 적어도 하나를 포함하는, 비디오 스트림 분석 방법.
청구항 2 내지 청구항 16 중 어느 한 항에 있어서, 그 이후로는 상기 오브젝트가 상기 비디오 스트림에 존재하지 않는 시간에 또는 그 시간 후에 상기 적어도 하나의 오브젝트 레코드를 분석하는 단계를 실행하는 단계를 포함하는, 비디오 스트림 분석 방법.
청구항 1 내지 청구항 17 중 어느 한 항에 있어서, 상기 오브젝트가 상기 비디오 스트림에서 검출되는 적어도 하나의 시간에 상기 적어도 하나의 오브젝트 레코드를 분석하는 단계를 실행하는 단계를 포함하는, 비디오 스트림 분석 방법.
청구항 1 내지 청구항 18 중 어느 한 항에 있어서, 상기 오브젝트는 인간의 적어도 일부분인, 비디오 스트림 분석 방법.
청구항 19에 있어서, 인간의 상기 적어도 일부분은 인간의 얼굴인, 비디오 스트림 분석 방법.
청구항 1 내지 청구항 20 중 어느 한 항에 있어서,
- 상기 비디오 스트림의 프레임 또는 프레임들이나 프레임 또는 프레임들의 일부분을 나타내는 이미지를 상기 오브젝트 레코드에 포함하는 단계를 포함하는, 비디오 스트림 분석 방법.
청구항 21에 있어서, 미리 결정된 임계치를 초과하는 오브젝트 검출 알고리즘의 응답 세기에 응답하여 상기 이미지를 선택하는 단계를 포함하는, 비디오 스트림 분석 방법.
청구항 21 또는 청구항 22에 있어서, 상기 이미지는 인간의 얼굴에 대응하는 프레임의 일부분인, 비디오 스트림 분석 방법.
청구항 23에 있어서, 상기 인간의 얼굴의 신원을 결정하는 단계를 포함하는, 비디오 스트림 분석 방법.
청구항 24에 있어서, 상기 오브젝트 레코드에 상기 인간의 얼굴의 신원을 저장하는 단계를 포함하는, 비디오 스트림 분석 방법.
청구항 3 내지 청구항 25 중 어느 한 항에 있어서, 제1 장소로부터 제2 장소로 상기 오브젝트 레코드를 송신하는 단계와, 상기 제2 장소로 송신되는 데이터의 크기를 상기 제1 장소에서 감소시키는 단계를 포함하는, 비디오 스트림 분석 방법.
청구항 26에 있어서, 데이터의 크기를 상기 제1 장소에서 감소시키는 상기 단계는, 상기 비디오 스트림의 프레임의 서브세트에 대응하는 데이터를 선택하는 단계를 포함하는, 비디오 스트림 분석 방법.
청구항 27에 있어서, 상기 오브젝트의 움직임에 기반하여 상기 서브세트를 선택하는 단계를 포함하는, 비디오 스트림 분석 방법.
청구항 1 내지 청구항 28 중 어느 한 항에 있어서,
- 상기 비디오 스트림에서 또는 추가 비디오 스트림에서 추가 오브젝트를 식별하는 단계;
- 상기 오브젝트 및 상기 추가 오브젝트가 동일한 오브젝트임을 결정하는 단계; 및
- 상기 오브젝트 및 상기 추가 오브젝트에 대응하는 오브젝트 레코드를 조합하거나 관련시키는 단계를 포함하는, 비디오 스트림 분석 방법.
청구항 29에 있어서,
- 상기 오브젝트 및 상기 추가 오브젝트는 사람들이며;
- 결정하는 상기 단계는 얼굴 인식 알고리즘을 사용하여 상기 오브젝트 및 상기 추가 오브젝트가 동일인에 대응함을 결정하는 단계를 포함하는, 비디오 스트림 분석 방법.
청구항 29에 있어서, 결정하는 상기 단계는 제1 및 제2 오브젝트의 컬러 분포를 분석하는 단계를 포함하는, 비디오 스트림 분석 방법.
청구항 3 내지 청구항 31 중 어느 한 항에 있어서, 제1 장소 또는 제2 장소에서의 데이터베이스에 상기 적어도 하나의 오브젝트 레코드를 저장하는 단계를 포함하는, 비디오 스트림 분석 방법.
비디오 파일의 세트 - 적어도 하나의 비디오 파일은 청구항 1 내지 청구항 32 중 어느 한 항에 기재된 적어도 하나의 오브젝트 레코드를 포함함 - 내에서 하나 이상의 명시된 오브젝트의 존재를 검색하는 방법으로서,
상기 적어도 하나의 오브젝트 레코드를 분석하는 단계와, 상기 적어도 하나의 오브젝트 레코드가 상기 명시된 오브젝트에 속하는지를 결정하는 단계를 포함하는, 오브젝트 존재 검색 방법.
제1 장소에서 프레임을 갖는 비디오 스트림을 처리하기 위한 제1 장치로서,
- 적어도 하나의 프로세서; 및
- 컴퓨터 프로그램 명령을 포함하는 적어도 하나의 메모리를 포함하며,
상기 적어도 하나의 메모리 및 상기 컴퓨터 프로그램 명령은, 상기 적어도 하나의 프로세서에 의해, 상기 장치가:
- 오브젝트 검출 알고리즘을 사용하여 오브젝트가 존재하는 프레임의 세트를 결정하는 단계;
- 상기 비디오 스트림의 콘텐트로부터 적어도 하나의 오브젝트 레코드 - 상기 오브젝트 레코드는 상기 프레임의 세트에서 상기 오브젝트의 적어도 하나의 특징의 시간 진화를 포함함 - 를 생성하는 단계로 된 방법을 실행하게 하도록 구성되는, 제1 장치.
오브젝트의 적어도 하나의 특징의 시간 진화를 포함하는 오브젝트 레코드를 처리하기 위한 제2 장치로서,
- 적어도 하나의 프로세서; 및
- 컴퓨터 프로그램 명령을 포함하는 적어도 하나의 메모리를 포함하며,
상기 적어도 하나의 메모리 및 상기 컴퓨터 프로그램 명령은, 상기 적어도 하나의 프로세서에 의해, 상기 장치가:
- 제1 장소로부터 상기 오브젝트 레코드를 수신하는 단계;
- 상기 오브젝트 레코드를 분석하는 단계; 및
- 분석의 결과를 얻는 단계로 된 방법을 실행하게 하도록 구성되는, 제2 장치.
청구항 34에 기재된 제1 장치와 청구항 35에 기재된 제2 장치를 포함하는, 비디오 스트림을 처리하기 위한 시스템.