KR102391853B1

KR102391853B1 - 영상 정보 처리 시스템 및 방법

Info

Publication number: KR102391853B1
Application number: KR1020210160583A
Authority: KR
Inventors: 이경석
Original assignee: 주식회사 케이비전
Priority date: 2021-11-19
Filing date: 2021-11-19
Publication date: 2022-05-09

Abstract

영상 정보 처리 시스템 및 방법은 변화가 있는 하나 이상의 영상 프레임을 선택하고, 선택한 영상 프레임의 시간적으로 사이가 있는 영상 프레임을 인공 신경 처리망에 적용하여 응답으로 영상 프레임에 사람 객체 여부를 인식하여 표시한다.
본 발명은 변화가 있는 영상 프레임을 선택하여 영상 처리하여 사람 객체를 검출하므로 검출 결과가 정확하여 신뢰성이 높은 객체 영상을 생성할 수 있으며, 이에 따라 CCTV와 같은 영상 정보 처리 장치에 다양한 목적으로 실용적으로 적용할 수 있다.

Description

영상 정보 처리 시스템 및 방법{System and Method for Processing Image Informaion}

본 발명은 영상 정보 처리 시스템에 관한 것으로서, 더욱 상세하게는 변화가 있는 하나 이상의 영상 프레임을 선택하고, 선택한 영상 프레임의 시간적으로 사이가 있는 영상 프레임을 인공 신경 처리망에 적용하여 응답으로 영상 프레임에 사람 객체 여부를 인식하여 표시하는 영상 정보 처리 시스템 및 방법에 관한 것이다.

현대 사회는 CCTV 및 차량의 블랙박스가 널리 보급됨에 따라 영상촬영수단에 의해 촬영된 객체 영상이 광범위하게 사용되고 있다.

특히, CCTV 및 차량의 블랙박스는 범죄 예방이나 범죄 수사에 많이 사용되고 있다.

감시 시스템은 CCTV 감시의 적용범위가 확대됨에 따라 엄청난 양의 영상 데이터가 생산되고 있다.

이러한 영상 데이터는 관리자의 모니터링에 의해 객체 및 상황 분석으로 위험을 탐지해야 한다.

범죄 수사는 CCTV의 영상에 포함된 객체, 특히 사람을 인식하는 기술이 중요하다. 그러나 종래의 CCTV는 화질이 떨어지는 기종을 사용하는 경우가 많아서 CCTV에 의해 획득한 영상에 노이즈가 많다. 따라서, 이러한 CCTV는 사람 인식이 불가능한 경우가 많으며, 저조도의 영상을 처리하여 객체를 검출하는 경우 검출 결과가 부정확하여 신뢰성에 한계가 있으며, CCTV가 범죄 예방에 실용적으로 적용되지 못하는 문제점이 있다.

한국 등록특허번호 제10-2083385호

이와 같은 문제점을 해결하기 위하여, 본 발명은 변화가 있는 하나 이상의 영상 프레임을 선택하고, 선택한 영상 프레임의 시간적으로 사이가 있는 영상 프레임을 인공 신경 처리망에 적용하여 응답으로 영상 프레임에 사람 객체 여부를 인식하여 표시하는 영상 정보 처리 시스템 및 방법을 제공하는데 그 목적이 있다.

상기 목적을 달성하기 위한 본 발명의 특징에 따른 영상 정보 처리 시스템은,

일정 영역을 촬영하여 복수의 영상 프레임들을 생성하는 복수의 카메라부; 및

상기 복수의 카메라부 중 어느 하나의 카메라부로부터 복수의 영상 프레임들을 수신하고, 상기 복수의 영상 프레임을 비교하여 변화가 있는 제1 영상 프레임과 제2 영상 프레임을 추출하고, 상기 제1 영상 프레임과 제2 영상 프레임의 사이의 차이―상기 차이는 상기 카메라부에 의해 모니터링되는 환경에서 객체에 의한 움직임 변화를 나타냄―를 식별하고, 상기 추출한 제1 영상 프레임과 제2 영상 프레임의 사이에 시간적으로 사이에 있는 제3 영상 프레임을 추출하고, 상기 추출한 제3 영상 프레임에서 객체의 사람 존재 여부를 추출하고, 상기 객체의 사람 존재 여부의 정확도 또는 가능성이 떨어지는 경우, 상기 제1 영상 프레임의 시간이 먼저인 상기 제1 영상 프레임의 왼쪽 프레임과, 상기 제2 영상 프레임의 시간이 더 나중인 상기 제2 영상 프레임의 오른쪽 프레임을 추출하여 상기 왼쪽 프레임과 상기 오른쪽 프레임의 사이의 차이를 식별하며, 상기 추출한 왼쪽 프레임과 오른쪽 프레임의 사이에서 상기 제3 영상 프레임을 다시 추출하고, 상기 다시 추출한 제3 영상 프레임에서 객체의 사람 존재 여부를 추출하는 영상 분석 서버를 포함한다.

본 발명의 특징에 따른 영상 정보 처리 방법은,

영상 분석 서버는 복수의 카메라부 중 어느 하나의 카메라부로부터 복수의 영상 프레임들을 수신하는 단계;

상기 영상 분석 서버는 상기 복수의 영상 프레임을 비교하여 변화가 있는 제1 영상 프레임과 제2 영상 프레임을 추출하는 단계;

상기 영상 분석 서버는 상기 제1 영상 프레임과 제2 영상 프레임의 사이의 차이―상기 차이는 상기 카메라부에 의해 모니터링되는 환경에서 객체에 의한 움직임 변화를 나타냄―를 식별하는 단계;

상기 영상 분석 서버는 상기 추출한 제1 영상 프레임과 제2 영상 프레임의 사이에 시간적으로 사이에 있는 제3 영상 프레임을 추출하고, 상기 추출한 제3 영상 프레임에서 객체의 사람 존재 여부를 추출하는 단계;

상기 영상 분석 서버는 상기 객체의 사람 존재 여부의 정확도 또는 가능성이 떨어지는 경우, 상기 제1 영상 프레임의 시간이 먼저인 상기 제1 영상 프레임의 왼쪽 프레임과, 상기 제2 영상 프레임의 시간이 더 나중인 상기 제2 영상 프레임의 오른쪽 프레임을 추출하여 상기 왼쪽 프레임과 상기 오른쪽 프레임의 사이의 차이를 식별하는 단계; 및

상기 영상 분석 서버는 상기 추출한 왼쪽 프레임과 오른쪽 프레임의 사이에서 상기 제3 영상 프레임을 다시 추출하고, 상기 다시 추출한 제3 영상 프레임에서 객체의 사람 존재 여부를 추출하는 단계를 포함한다.

전술한 구성에 의하여, 본 발명은 변화가 있는 영상 프레임을 선택하여 영상 처리하여 사람 객체를 검출하므로 검출 결과가 정확하여 신뢰성이 높은 객체 영상을 생성할 수 있으며, 이에 따라 CCTV와 같은 영상 정보 처리 장치에 다양한 목적으로 실용적으로 적용할 수 있다.

도 1은 본 발명의 실시예에 따른 영상 정보 처리 시스템의 구성을 간략하게 나타낸 도면이다.
도 2는 본 발명의 실시예에 따른 영상 분석 서버의 내부 구성을 간략하게 나타낸 도면이다.
도 3은 본 발명의 실시예에 따른 시간적 순서에 따른 영상 프레임의 일례를 나타낸 도면이다.
도 4는 본 발명의 실시예에 따른 영상 정보 처리 방법을 나타낸 도면이다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

도 1은 본 발명의 실시예에 따른 영상 정보 처리 시스템의 구성을 간략하게 나타낸 도면이다.

본 발명의 실시예에 따른 영상 정보 처리 시스템(100)은 복수의 카메라부(101-1, 101-2, 101-n), 영상 분석 서버(110), 관리 서버(130) 및 클라이언트(140)를 포함한다.

복수의 카메라부(101-1, 101-2, 101-n)는 주변의 감시 영역을 촬영하여 복수의 영상 프레임들을 생성한다.

카메라부(101-1, 101-2, 101-n)가 촬영한 영상 프레임은 제1 영상 프레임, 제2 영상 프레임, 제N 영상 프레임으로 호칭한다.

카메라부(101-1, 101-2, 101-n)는 피사체를 촬영하여 촬영한 사진 또는 동영상을 전기적 신호로 변환하여 영상 프레임을 생성한다.

통신망(102)은 유무선 통신망을 모두 포함하고, 유선망은 케이블망이나 공중 전화망(PSTn)과 같은 인터넷망을 포함하는 것이고, 무선 통신망은 CDMA, WCDMA, GSM, EPC(Evolved Packet Core), LTE(Long Term Evolution), 와이브로(Wibro) 망, 액세스 포인트 등을 포함하는 의미이다.

영상 분석 서버(110)는 복수의 카메라부(101-1, 101-2, 101-n) 중 어느 하나의 카메라부(101-1, 101-2, 101-n)로부터 복수의 영상 프레임들을 수신하고, 복수의 영상 프레임을 비교하여 변화가 있는 제1 영상 프레임과 제2 영상 프레임을 선택한다.

영상 분석 서버(110)는 선택된 제1 영상 프레임과 제2 영상 프레임의 사이에 시간적으로 사이에 있는 제3 영상 프레임을 선택하고, 선택한 제3 영상 프레임에서 검출된 객체의 사람 인식 여부를 표시한다.

영상 분석 서버(110)는 제1 영상 프레임과 제2 영상 프레임의 사이의 차이를 식별한다. 여기서, 차이는 카메라부(101-1, 101-2, 101-n)에 의해 모니터링되는 환경에서 객체에 의한 움직임 변화를 나타낸다.

영상 분석 서버(110)는 통신망(102)을 통해 제3 영상 프레임에서 검출된 객체의 사람 인식 정보를 관리 서버(130)로 전송한다.

관리 서버(130)는 영상 분석 서버(110)로부터 사람 객체가 포함된 제3 영상 프레임을 주기적으로 수신하여 다양한 객체 영상을 빅데이터로 관리한다. 관리 서버(130)는 클라이언트(140)의 요청에 따라 사람 객체가 포함된 제3 영상 프레임을 클라이언트(140)로 전송할 수 있다.

도 2는 본 발명의 실시예에 따른 영상 분석 서버의 내부 구성을 간략하게 나타낸 도면이고, 도 3은 본 발명의 실시예에 따른 시간적 순서에 따른 영상 프레임의 일례를 나타낸 도면이다.

본 발명의 실시예에 따른 영상 분석 서버(110)는 영상 처리부(111), 제어부(112), 영상 저장부(113), 전처리부(114), 객체 분리부(115), 움직임 판단부(116), 디스플레이부(117), 통신부(118), 학습 세트 생성부(120) 및 인공 신경 처리망(130)을 포함한다.

영상 처리부(111)는 각각의 카메라부(101-1, 101-2, 101-n)로부터 복수의 영상 프레임을 수신하여 영상 처리된다.

제어부(112)는 영상 처리부(111)로부터 수신된 각각의 영상 프레임을 영상 저장부(113)에 저장한다.

제어부(112)는 영상 저장부(113)에 저장된 제1 영상 프레임 내지 제N 영상 프레임을 순차적으로 추출하여 전처리부(114)로 전송한다.

전처리부(114)는 밤 시간이나 조명이 부족한 환경에서 촬영한 저조도의 입력 영상을 개선하여 객체 검출을 비롯한 각종 영상 처리 결과의 정확도 및 신뢰성을 향상시킨다.

전처리부(114)는 입력된 영상 프레임의 조도값을 계산하고, 계산된 조도값이 기설정된 임계치보다 낮은 경우, 저조도 영상으로 판단하여 영상 프레임의 각 픽셀값을 기설정된 평균 픽셀의 조도값으로 변환하여 객체 분리부(115)로 전송한다.

객체 분리부(115)는 입력된 영상 프레임을 영상 분할(Segmentation) 알고리즘을 통해 분석하여 영상 프레임에 포함된 객체의 경계선을 추출한다.

영상 분할은 영상 프레임에서 깊이 맵을 기반으로 자동으로 경계선을 추출해 주는 것을 의미한다.

경계선 추출은 다양한 알고리즘을 이용할 수 있지만 본 발명의 실시예에서는 영상의 깊이맵(Depth Map)을 기반으로 한 그랩 컷(grab cut) 알고리즘을 이용한다.

영상의 깊이맵은 영상의 깊이 정보를 농담으로 표현한 것으로, 농담의 값을 256 계층의 그레이 스케일로 나타낼 수 있다.

그리고 영상의 깊이 정보는 영상의 입체를 표현하기 위해 인접 영상간 깊이 차이를 나타내는 정보로, 영상의 경계선(edge) 특성, 색상, 밝기 특성, 소실점 특성과 같이 통상적인 영상 특징을 활용하여 생성할 수 있다.

따라서, 그랩 컷(grab cut) 알고리즘은 영상의 모든 픽셀에 대하여 그래프(graph)를 만들어서 인접 픽셀 간 색상 차이나 명도 차이 등에 인해 영상에 포함되어 있는 각 객체들의 깊이 정보를 파악하고 파악한 깊이 정보를 통해 객체의 경계선을 추출한다.

객체 분리부(115)는 추출된 경계선을 기초로 경계선의 내측으로 객체로 판단하고, 경계선의 외측으로 배경으로 판단할 수 있다.

다른 실시예로서, 객체 분리부(115)는 깊이 센서 카메라로 배경 깊이 영상을 획득한 후에 배경과 객체가 분리된 이진화 영상을 얻을 수 있다.

또 다른 실시예로서, 객체 분리부(115)는 입력된 영상 프레임을 기설정된 배경 모델과 비교하여 영상 프레임을 화소 단위로 전경과 배경으로 분리하는데, 즉, 각 영상 프레임마다의 영상을 배경 모델과 비교하여 화소 단위로 전경과 배경으로 분리한다. 화소 단위로 전경과 배경으로 분리한다는 것은 하나의 영상 프레임 내의 화소들 각각이 전경에 해당하는지 배경에 해당하는지를 구분하는 것이다.

움직임 판단부(116)는 객체 분리부(115)로부터 수신한 제1 영상 프레임(10)과 제2 영상 프레임(20)의 에지 맵(Edge Map)을 비교하여 움직임 객체를 판단한다.

이때, 에지 맵은 객체의 경계선을 나타내는 것으로 일정 면적을 갖는 복수의 에지 블럭으로 구성되고, 각 에지 블럭은 해당 면적에 대응되는 복수의 픽셀(Pixel)로 구성된다.

움직임 판단부(116)는 에지 블럭을 구성하는 픽셀 중 변화가 발생한 픽셀이 에지 블럭을 구성하는 전체 픽셀의 일정 비율 이상, 예를 들면, 15% 이상인 경우, 해당 에지 블럭을 움직임 블럭으로 판단하며, 이 움직임 블럭의 개수가 기설정된 기준 블럭 개수(예를 들어, 4개 등) 이상 존재하는 경우, 해당 영상 프레임의 변화가 있는 영상으로 판단한다.

움직임 판단부(116)는 영상 프레임에서 2개의 객체들이 중복된 경우, 제1 객체에 해당하는 경계선을 제1 바운딩 박스로 표시하고, 제2 객체에 해당하는 경계선을 제2 바운딩 박스로 표시한다.

움직임 판단부(116)는 제1 바운딩 박스와 제2 바운딩 박스의 교집합 영역의 넓이를 계산하고, 교집합 영역의 픽셀들을 대상으로 움직임 블럭을 판단할 수 있다.

제어부(112)는 움직임 판단부(116)에서 수신한 복수의 영상 프레임을 비교하고, 복수의 영상 프레임 중 변화가 있는 제1 영상 프레임(10)과 제2 영상 프레임(20)을 추출한다.

제어부(112)는 제1 영상 프레임(10)과 제2 영상 프레임(20)의 시간적으로 사이에 있는 제3 영상 프레임(30)을 추출한다.

객체 분리부(115)는 추출된 제3 영상 프레임(30)에서 객체와 배경을 추출한다.

제어부(112)는 제3 영상 프레임(30)의 객체에 대응되는 복수의 픽셀(Pixel) 값의 개수를 카운트하고, 객체 사이즈를 계산한다.

제어부(112)는 계산한 객체 사이즈를 기설정된 평균 객체 사이즈의 차이값을 계산한다.

제어부(112)는 계산한 객체 사이즈와 평균 객체 사이즈의 차이 값을 평균 객체 사이즈로 나누어 객체의 사이즈 적합성을 계산한다.

사이즈 적합성은 하기의 수학식 1과 같이 정의된다.

평균 객체 사이즈는 학습을 통해 얻어진 객체 사이즈들의 평균을 의미한다.

제어부(112)는 계산한 사이즈 적합성이 기설정된 임계값 이하인 경우, 객체가 사람으로 판단하고, 계산한 사이즈 적합성이 기설정된 임계값 이상인 경우, 객체가 사람으로 판단하지 않는다. 사이즈 적합성은 0에서 1 사이의 값을 가진다.

만약, 검출된 객체가 사람이 아니라 고양이, 개, 비둘기와 같은 동물인 경우, 객체의 사이즈에서 평균 객체 사이즈의 차이의 절대값은 제3 영상 프레임에서 검출된 객체가 사람일 때보다 상대적으로 큰 값을 가질 것이다.

제어부(112)는 추출한 제3 영상 프레임에서 객체의 사람 존재 여부를 추출한다.

제어부(112)는 객체의 사람 존재 여부의 정확도 또는 가능성이 떨어지는 경우, 제1 영상 프레임의 시간이 먼저인 제1 영상 프레임의 왼쪽 프레임과, 제2 영상 프레임의 시간이 더 나중인 제2 영상 프레임의 오른쪽 프레임을 추출한다.

제어부(112)는 왼쪽 프레임과 오른쪽 프레임의 사이의 차이를 식별하며, 추출한 왼쪽 프레임과 오른쪽 프레임의 사이에서 제3 영상 프레임을 다시 추출하고, 다시 추출한 제3 영상 프레임에서 객체의 사람 존재 여부를 추출한다. 즉, 시간 간격을 넓게 구성하면, 프레임 간의 차이가 더 나올 가능성이 높아진다.

제어부(112)는 입력으로 객체 정보가 포함된 제3 영상 프레임과, 객체의 사람 인식 여부를 훈련 데이터로 학습 세트 생성부(120)로 전송한다.

제어부(112)는 추출한 제3 영상 프레임(30)을 인공 신경 처리망(130)에 입력하여 적용하고, 인공 신경 처리망(130)의 응답으로 제3 영상 프레임(30)에서 검출된 객체의 사람 인식 여부를 제공하며, 사람으로 인식되면, 해당 객체에 바운딩 박스로 표시하여 디스플레이부(117)에 출력한다.

제어부(112)는 인공 신경 처리망(130)을 통해 복수의 영상 프레임에서 검출된 객체가 사람이 존재하거나 사람이 존재하지 않는다는 내용을 응답 데이터로 출력한다.

본 발명의 실시예에 따른 인공 지능 장치는 학습 세트 생성부(120) 및 인공 신경 처리망(130)을 포함한다.

학습 세트 생성부(120)는 학습 데이터 처리부(121), 학습부(122) 및 분류부(123)를 포함한다.

인공 신경 처리망(130)은 입력층(131), 컨볼루션 레이어부(133), 풀링 레이어부(134) 및 풀리 커넥티드 레이어부(135)로 이루어진 은닉층(132), 출력층(136)을 포함한다.

학습 데이터 처리부(121)는 영상 저장부(113)로부터 수신한 선택된 제3 영상 프레임과, 객체 정보에서 사람으로 인식된 객체 정보를 수신하고, 학습 데이터로 분산하여 저장한다. 학습 데이터 처리부(121)는 분산 병렬 처리가 가능한 데이터베이스부로 형성될 수 있다.

인공 신경 처리망(130)은 학습 데이터 처리부(121)에 저장된 객체 정보를 포함한 제3 영상 프레임을 신경망에 입력하여 적용시켜 오류를 수정하고, 수정된 오류를 이용하여 각각의 제3 영상 프레임에서 객체 정보에 대응하는 사람 인식 여부를 출력한다.

이때, 인공 신경 처리망(130)은 심층 컨볼루션 신경망(Deep Convolutional Neural Neworks, CNNs)을 이용하고, 입력층(131), 은닉층(132), 출력층(136)을 포함할 수 있다.

입력층(131)은 학습 데이터 처리부(121)에 저장된 학습 데이터를 획득하고, 획득한 학습 데이터를 특징맵을 가지는 레이어로 저장한다. 여기서, 특징맵은 다수의 노드들이 2차원으로 배열된 구조를 가짐으로써 후술되는 은닉층(132)과의 연결을 용이하게 할 수 있다.

은닉층(132)은 상위 계층에 위치한 레이어의 특징맵을 획득하고, 획득한 특징맵으로부터 점차 높은 수준의 특징을 추출한다. 은닉층(132)은 하나 또는 그 이상으로 형성될 수 있으며 컨볼루션 레이어부(133), 풀링 레이어부 및 풀리 커넥티드 레이어부를 포함한다.

컨볼루션 레이어부(133)는 학습 데이터로부터 컨볼루션 연산을 수행하는 구성으로서, 복수의 입력 특징맵과 연결되는 특징맵을 포함한다.

풀링 레이어부(134)는 컨볼루션 레이어부(133)의 출력을 입력으로 받아 컨볼루션 연산, 즉 서브 샘플링 연산을 수행하는 구성이고, 은닉층(132)의 하위 계층에 위치한 컨볼루션 레이어부(133)가 가지는 입력 특징맵의 수와 동일한 수의 특징맵을 포함하며, 각각의 특징맵은 입력 특징맵과 일대일로 연결된다.

풀리 커넥티드 레이어부(135)는 컨볼루션 레이어부(133)의 출력을 입력으로 받아 출력층(130)에서 출력되는 각 카테고리별 출력에 맞게 학습하는 구성이고, 학습된 국소적 정보, 즉 특징들을 종합하여 추상적인 내용을 학습한다.

이때, 은닉층(132)이 풀링 레이어부(132)를 구비할 경우, 폴링 커넥티드 레이어부(135)는 폴링 레이어부(134)와 연결되며, 폴링 레이어부(134)의 출력으로부터 특징들을 종합하여 추상적인 내용을 학습한다.

출력층(136)은 소프트 맥스(soft-max) 등의 함수를 이용하여 분류하고자 원하는 각 카테고리별 출력을 확률값으로 매핑한다. 이때, 출력층(136)에서 출력된 결과는 학습부(122) 또는 분류부(123)로 전달되어 오류역전파를 수행하거나 응답 데이터로 출력될 수도 있다.

학습부(122)는 지도 학습을 수행하는 것으로, 지도 학습은 학습 데이터에 기계학습 알고리즘을 적용하여 함수를 추론하고, 그 추론된 함수를 통해 해답을 찾는다.

학습부(122)는 지도 학습을 통해서 학습 데이터를 대표하는 선형 모델을 생성하고, 그 선형 모델을 통해 미래의 사건을 예측할 수 있다.

학습부(122)는 이전까지 학습된 데이터를 근거로 새로운 데이터가 기존에 학습된 데이터에 어떻게 분류되는지 판단한다.

학습부(122)는 제1 영상 프레임과 제2 영상 프레임의 사이에 시간적으로 사이에 있는 제3 영상 프레임(객체 정보 포함)을 인공 신경 처리망(130)의 학습을 수행하고, 유형별 딥러닝 특징값을 이용하여 객체 정보에 대응하는 사람 인식 여부를 학습한다.

학습부(122)는 유형별 딥러닝 특징값을 이용하여 객체 정보를 포함한 제3 영상 프레임과, 객체의 사람 인식 여부를 인공 신경 처리망(130)에서 학습한다.

본 발명의 일실시예에서 인공 신경 처리망(130)의 학습은 지도 학습(supervised-learning)으로 이루어진다.

지도 학습은 학습 데이터와 그에 대응하는 출력 데이터를 함께 인공 신경 처리망(130)에 입력하고, 학습 데이터에 대응하는 출력 데이터가 출력되도록 연결된 간선들의 가중치를 업데이트 하는 방법이다. 일예로, 본 발명의 인공 신경 처리망(130)은 델타 규칙 및 오류역전파 학습 등을 이용하여 인공뉴런들 사이의 연결 가중치를 업데이트 할 수 있다.

오류역전파(Error-back-propagation) 학습은 주어진 학습 데이터에 대해 전방계산(Feed-Forward)으로 오류를 추정한 후, 출력 레이어에서 시작하여 은닉층(132)과 입력층(131) 방향인 역방향으로 추정한 오류를 전파하고, 오류를 줄이는 방향으로 인공 뉴런들 사이의 연결 가중치를 업데이트한다.

학습부(122)는 입력층(131) - 은닉층(132) - 폴링 커넥티드 레이어부(135) - 출력층(136)을 통해 획득된 결과로부터 오차를 계산하고, 계산된 오차를 보정하기 위해 다시 출력층(136) - 폴링 커넥티드 레이어부(135) - 은닉층(132) - 입력층(131)의 순서로 오류를 전파하여 연결 가중치를 업데이트할 수 있다.

학습부(122)는 인공 신경 처리망(130)을 이용하여 입력되는 제3 영상 프레임과 객체 정보의 특징값들이 입력 벡터가 되며, 입력층(131), 은닉층(132), 출력층(136)을 통과하면, 객체 정보에 대응하는 사람 인식 여부를 출력 벡터로 생성하도록 지도 학습을 통해 학습된다.

학습부(122)는 인공 신경 처리망(130)을 이용하여 입력되는 복수개의 제3 영상 프레임과 객체 정보의 특징값들이 입력 벡터가 되며, 입력층(131), 은닉층(132), 출력층(136)을 통과하면, 객체 정보에 대응하는 사람 인식 여부(사람 객체 또는 사람이 아닌 객체)를 출력 벡터로 생성하도록 지도 학습을 통해 학습된다.

학습부(122)는 객체 정보를 포함한 제3 영상 프레임과, 객체 정보에 대응하는 사람 인식 여부를 학습 데이터로 하여 인공 신경 처리망(130)과 연동하여 인공지능에 학습한다.

분류부(123)는 객체 정보에 대응하는 사람 인식 여부(사람 객체 또는 사람이 아닌 객체)를 출력 데이터로 출력한다.

인공 신경 처리망(130)은 입력값(제3 영상 프레임, 객체 정보)이 입력되면, 출력값(객체 정보에 대응하는 사람 인식 정보)이 나와야 하는지 미리 알고 있다.

분류부(123)는 학습부(122)에서의 오류역전파를 통해 업데이트된 연결 가중치를 가지는 인공 신경 처리망(130)의 출력 데이터를 응답 데이터로 출력할 수 있다.

분류부(123)는 업데이트된 연결 가중치를 가지는 인공 신경 처리망(130)에 학습 데이터, 테스트 데이터 또는 학습에 사용되지 않은 새 데이터가 입력되면, 입력층(131) - 은닉층(132) - 폴링 커넥티드 레이어부(135) - 출력층(136)을 통해 출력된 결과를 획득하여 응답 데이터로 출력할 수 있다.

분류부(123)는 입력된 객체 정보를 포함한 제3 영상 프레임과, 객체 정보에 대응하는 사람 인식 여부를 기반으로 최적화를 통해 딥러닝 기반 분류기 모델을 생성한다.

분류부(123)는 객체 정보를 포함한 제3 영상 프레임을 입력으로 딥러닝 기반 분류기 모델을 통해 응답 데이터의 결과값(객체 정보에 대응하는 사람 인식 여부)으로 출력한다.

제어부(112)는 추출한 제3 영상 프레임 또는 다시 추출한 제3 영상 프레임을 인공 신경 처리망(130)에 입력하여 적용하고, 인공 신경 처리망(130)의 응답으로 추출한 제3 영상 프레임 또는 다시 추출한 제3 영상 프레임에서 검출된 객체의 사람 인식 여부를 표시한다.

제어부(112)는 인공 신경 처리망(130)에 적용된 결과를 바탕으로 제3 영상 프레임(30)에서 검출된 객체의 사람 인식 여부와, 식별된 차이를 기초로 사람이 존재하거나 존재하지 않는다는 표시를 제공한다.

제어부(112)는 제3 영상 프레임에서 객체의 사람 존재 여부와, 제1 영상 프레임과 제2 영상 프레임의 사이의 식별된 차이를 종합하여 모니터링되는 환경에 인간 존재 유무를 검출한다.

제어부(112)는 추출한 제3 영상 프레임 또는 다시 추출한 제3 영상 프레임을 인공 신경 처리망(130)에 입력하여 적용하고, 인공 신경 처리망(130)의 응답으로 추출한 제3 영상 프레임 또는 다시 추출한 제3 영상 프레임에서 검출된 객체가 사람의 영상 부분을 포함할 확률을 퍼센트율로 표시한다.

제어부(112)는 제3 영상 프레임(30)을 인공 신경 처리망(130)에 입력하여 적용하고, 인공 신경 처리망(130)의 응답으로 제3 영상 프레임(30)에서 검출된 객체의 사람 인식 여부를 판단하고, 객체 사람을 포함한 제3 영상 프레임(30)을 통신부(118)를 통해 관리 서버(130)로 전송한다.

도 4는 본 발명의 실시예에 따른 영상 정보 처리 방법을 나타낸 도면이다.

영상 분석 서버(110)는 복수의 카메라부(101-1, 101-2, 101-n) 중 어느 하나의 카메라부(101-1, 101-2, 101-n)로부터 복수의 영상 프레임들을 수신한다.

영상 분석 서버(110)는 복수의 영상 프레임을 비교하여 변화가 있는 제1 영상 프레임(10)과 제2 영상 프레임(20)을 추출한다(S100).

영상 분석 서버(110)는 제1 영상 프레임과 제2 영상 프레임의 사이의 차이를 식별하고(S101), 추출된 제1 영상 프레임(10)과 제2 영상 프레임(20)의 사이에 시간적으로 사이에 있는 제3 영상 프레임(30)을 추출한다(S102).

여기서, 차이는 카메라부(101-1, 101-2, 101-n)에 의해 모니터링되는 환경에서 객체에 의한 움직임 변화를 나타낸다.

영상 분석 서버(110)는 추출한 제3 영상 프레임(30)을 인공 신경 처리망(130)에 입력하여 적용하고, 인공 신경 처리망(130)의 응답으로 제3 영상 프레임(30)에서 검출된 객체의 사람 존재 여부를 추출 및 표시한다(S103).

영상 분석 서버(110)는 객체의 사람 존재 여부의 정확도 또는 가능성이 떨어지는 경우, 제1 영상 프레임의 시간이 먼저인 제1 영상 프레임의 왼쪽 프레임과, 상기 제2 영상 프레임의 시간이 더 나중인 제2 영상 프레임의 오른쪽 프레임을 추출하여 왼쪽 프레임과 오른쪽 프레임의 사이의 차이를 식별한다(S104).

영상 분석 서버(110)는 추출한 왼쪽 프레임과 오른쪽 프레임의 사이에서 제3 영상 프레임을 다시 추출한다(S105).

영상 분석 서버(110)는 다시 추출한 제3 영상 프레임(30)을 인공 신경 처리망(130)에 입력하여 적용하고, 인공 신경 처리망(130)의 응답으로 제3 영상 프레임(30)에서 검출된 객체의 사람 존재 여부를 추출 및 표시한다(S106).

영상 분석 서버(110)는 제3 영상 프레임(30)에서 검출된 객체가 사람이 존재하는 경우, 제3 영상 프레임(30)에서 검출된 객체의 사람 인식 여부를 표시한다.

영상 분석 서버(110)는 인공 신경 처리망(130)에 적용된 결과를 바탕으로 제3 영상 프레임에서 검출된 객체의 사람 인식 여부와, 식별된 차이를 기초로 사람이 존재하거나 존재하지 않는다는 표시를 디스플레이부(117)를 통해 표시한다.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

100: 영상 정보 처리 시스템
110: 영상 분석 서버
130: 관리 서버
140: 클라이언트

Claims

일정 영역을 촬영하여 복수의 영상 프레임들을 생성하는 복수의 카메라부; 및
상기 복수의 카메라부 중 어느 하나의 카메라부로부터 복수의 영상 프레임들을 수신하고, 상기 복수의 영상 프레임을 비교하여 변화가 있는 제1 영상 프레임과 제2 영상 프레임을 추출하고, 상기 제1 영상 프레임과 제2 영상 프레임의 사이의 차이―상기 차이는 상기 카메라부에 의해 모니터링되는 환경에서 객체에 의한 움직임 변화를 나타냄―를 식별하고, 상기 추출한 제1 영상 프레임과 제2 영상 프레임의 사이에 시간적으로 사이에 있는 제3 영상 프레임을 추출하고, 상기 추출한 제3 영상 프레임에서 객체의 사람 존재 여부를 추출하고, 상기 객체의 사람 존재 여부의 정확도 또는 가능성이 떨어지는 경우, 상기 제1 영상 프레임의 시간이 먼저인 상기 제1 영상 프레임의 왼쪽 프레임과, 상기 제2 영상 프레임의 시간이 더 나중인 상기 제2 영상 프레임의 오른쪽 프레임을 추출하여 상기 왼쪽 프레임과 상기 오른쪽 프레임의 사이의 차이를 식별하며, 상기 추출한 왼쪽 프레임과 오른쪽 프레임의 사이에서 상기 제3 영상 프레임을 다시 추출하고, 상기 다시 추출한 제3 영상 프레임에서 객체의 사람 존재 여부를 추출하는 영상 분석 서버를 포함하는 영상 정보 처리 시스템.
청구항 1에 있어서,
상기 영상 분석 서버는 상기 추출한 제3 영상 프레임 또는 상기 다시 추출한 제3 영상 프레임을 인공 신경 처리망에 입력하여 적용하고, 상기 인공 신경 처리망의 응답으로 상기 추출한 제3 영상 프레임 또는 상기 다시 추출한 제3 영상 프레임에서 검출된 객체의 사람 인식 여부를 표시하는 영상 정보 처리 시스템.
청구항 2에 있어서,
상기 영상 분석 서버는 상기 인공 신경 처리망에 적용된 결과를 바탕으로 상기 제3 영상 프레임에서 검출된 객체의 사람 인식 여부와, 상기 식별된 차이를 기초로 사람이 존재하거나 존재하지 않는다는 표시를 제공하는 영상 정보 처리 시스템.
청구항 1에 있어서,
상기 영상 분석 서버는 상기 제3 영상 프레임에서 객체의 사람 존재 여부와, 상기 제1 영상 프레임과 제2 영상 프레임의 사이의 식별된 차이를 종합하여 모니터링되는 환경에 인간 존재 유무를 검출하는 영상 정보 처리 시스템.
청구항 1에 있어서,
상기 영상 분석 서버는 입력된 영상 프레임의 조도값을 계산하고, 상기 계산된 조도값이 기설정된 임계치보다 낮은 경우, 저조도 영상으로 판단하여 영상 프레임의 각 픽셀값을 기설정된 평균 픽셀의 조도값으로 변환하는 전처리부를 더 포함하는 영상 정보 처리 시스템.
청구항 1에 있어서,
상기 영상 분석 서버는,
상기 복수의 영상 프레임을 영상 분할 알고리즘을 통해 분석하여 상기 영상 프레임에 포함된 객체의 경계선을 추출하고, 상기 추출된 경계선을 기초로 경계선의 내측으로 객체로 판단하고, 경계선의 외측으로 배경으로 판단하는 객체 분리부; 및
상기 객체 분리부로부터 수신한 제1 영상 프레임과 제2 영상 프레임의 에지 맵(Edge Map)을 비교하여 움직임 객체를 판단하는 움직임 판단부를 더 포함하며,
상기 에지 맵은 객체의 경계선을 나타내는 것으로 일정 면적을 갖는 복수의 에지 블럭으로 구성되고, 상기 각 에지 블럭은 해당 면적에 대응되는 복수의 픽셀(Pixel)로 구성하는 영상 정보 처리 시스템.
청구항 6에 있어서,
상기 움직임 판단부는 상기 에지 블럭을 구성하는 픽셀 중 변화가 발생한 픽셀이 상기 에지 블럭을 구성하는 전체 픽셀의 일정 비율 이상인 경우, 해당 에지 블럭을 움직임 블럭으로 판단하며, 상기 움직임 블럭의 개수가 기설정된 기준 블럭 개수 이상 존재하는 경우, 해당 영상 프레임의 변화가 있는 영상으로 판단하는 영상 정보 처리 시스템.
청구항 7에 있어서,
상기 움직임 판단부는 영상 프레임의 객체가 중복되는 경우, 제1 객체에 해당하는 경계선을 제1 바운딩 박스로 표시하고, 제2 객체에 해당하는 경계선을 제2 바운딩 박스로 표시하고, 상기 제1 바운딩 박스와 상기 제2 바운딩 박스의 교집합 영역의 넓이를 계산하고, 상기 교집합 영역의 픽셀들을 대상으로 상기 움직임 블럭을 판단하는 영상 정보 처리 시스템.
청구항 1에 있어서,
상기 영상 분석 서버는 상기 추출한 제3 영상 프레임 또는 상기 다시 추출한 제3 영상 프레임을 인공 신경 처리망에 입력하여 적용하고, 상기 인공 신경 처리망의 응답으로 상기 추출한 제3 영상 프레임 또는 상기 다시 추출한 제3 영상 프레임에서 검출된 객체가 사람의 영상 부분을 포함할 확률을 퍼센트율로 표시하는 영상 정보 처리 시스템.
영상 분석 서버는 복수의 카메라부 중 어느 하나의 카메라부로부터 복수의 영상 프레임들을 수신하는 단계;
상기 영상 분석 서버는 상기 복수의 영상 프레임을 비교하여 변화가 있는 제1 영상 프레임과 제2 영상 프레임을 추출하는 단계;
상기 영상 분석 서버는 상기 제1 영상 프레임과 제2 영상 프레임의 사이의 차이―상기 차이는 상기 카메라부에 의해 모니터링되는 환경에서 객체에 의한 움직임 변화를 나타냄―를 식별하는 단계;
상기 영상 분석 서버는 상기 추출한 제1 영상 프레임과 제2 영상 프레임의 사이에 시간적으로 사이에 있는 제3 영상 프레임을 추출하고, 상기 추출한 제3 영상 프레임에서 객체의 사람 존재 여부를 추출하는 단계;
상기 영상 분석 서버는 상기 객체의 사람 존재 여부의 정확도 또는 가능성이 떨어지는 경우, 상기 제1 영상 프레임의 시간이 먼저인 상기 제1 영상 프레임의 왼쪽 프레임과, 상기 제2 영상 프레임의 시간이 더 나중인 상기 제2 영상 프레임의 오른쪽 프레임을 추출하여 상기 왼쪽 프레임과 상기 오른쪽 프레임의 사이의 차이를 식별하는 단계; 및
상기 영상 분석 서버는 상기 추출한 왼쪽 프레임과 오른쪽 프레임의 사이에서 상기 제3 영상 프레임을 다시 추출하고, 상기 다시 추출한 제3 영상 프레임에서 객체의 사람 존재 여부를 추출하는 단계를 포함하는 영상 정보 처리 방법.
청구항 10에 있어서,
상기 영상 분석 서버는 상기 추출한 제3 영상 프레임 또는 상기 다시 추출한 제3 영상 프레임을 인공 신경 처리망에 입력하여 적용하고, 상기 인공 신경 처리망의 응답으로 상기 추출한 제3 영상 프레임 또는 상기 다시 추출한 제3 영상 프레임에서 검출된 객체의 사람 인식 여부를 표시하는 단계를 더 포함하는 영상 정보 처리 방법.
청구항 11에 있어서,
상기 영상 분석 서버는 상기 인공 신경 처리망에 적용된 결과를 바탕으로 상기 제3 영상 프레임에서 검출된 객체의 사람 인식 여부와, 상기 식별된 차이를 기초로 사람이 존재하거나 존재하지 않는다는 표시를 제공하는 단계를 더 포함하는 영상 정보 처리 방법.