KR102134902B1

KR102134902B1 - 딥러닝 기반 음영영상의 시공간적 특성 분석을 활용한 폭력검출 프레임워킹 방법

Info

Publication number: KR102134902B1
Application number: KR1020180140481A
Authority: KR
Inventors: 방승온
Original assignee: (주)지와이네트웍스
Priority date: 2018-11-15
Filing date: 2018-11-15
Publication date: 2020-07-17
Also published as: KR20200057834A; JP6668514B1; JP2020087400A

Abstract

본 발명은 딥러닝 기반 음영영상의 시공간적 특성 분석을 활용한 폭력검출 프레임워크에 관한 것으로, 영상의 폭력성 검출능력 및 정확도를 향상시키기 위한 것이다.
이를 위하여 본 발명은 비디오 카메라 또는 동영상 파일에서 주어지는 영상 프레임들로 구성된 입력 영상에서 폭력의 특징점을 검출하여 영상의 폭력성을 검출하는 폭력검출 프레임워크에 있어서, 실시간 입력 영상을 각 프레임당 영상으로 나누는 제1단계, 분리된 각 프레임당 영상에서 적(R),녹(G),청(B)을 제외하여 2D 기반의 Y 프레임 흑백 영상으로 추출하는 제2단계, 추출된 2D 기반의 Y 프레임 흑백 영상을 다수 개를 순차적으로 축적하여 3D 환경의 Y 프레임 흑백 영상으로 전환하는 제3단계, 및 전환된 3D 환경의 Y 프레임 흑백 영상 중에서 균등한 레이어의 프레임을 추출하고 다시 축적하여 영상 컨볼루션을 수행하고, 3*3*3 필터를 사용하여 원하는 검출 장면을 도출하는 제4단계를 포함하여, 네트워크 경량화 및 시간 공간에 최적화된 영상을 만들고 알고리즘에 적용하여 영상 컨볼루션 과정에서 특정 레이어에 폭력의 특징점을 지속적으로 기억시키고 재학습할 수 있도록 하여 영상의 폭력성 검출능력 및 정확도를 향상시키고 분석 프레임의 길이에 구애받지 않고 분석이 가능하며 연속된 행동에 대한 분석이 가능하게 한다.

Description

딥러닝 기반 음영영상의 시공간적 특성 분석을 활용한 폭력검출 프레임워킹 방법{Frameworking method for violence detection using spatiotemporal characteristic analysis of shading image based on deep learning}

본 발명은 딥러닝 기반 음영영상의 시공간적 특성 분석을 활용한 폭력검출 프레임워킹 방법에 관한 것으로, 보다 상세하게는 폭력영상 컨볼루션 수행시에 지나온 특징점을 쉽게 잃어버리게 되는 부분을 개선하여 영상의 폭력성 검출능력 및 정확도를 향상시키고, 작은 필터의 사용으로 분석 프레임의 길이에 관계없이 분석이 가능하며, 필터의 시간축 이동을 통해 연속 프레임에 대한 학습이 가능하게 하여 연속된 행동에 대한 분석이 가능하도록 한 딥러닝 기반 음영영상의 시공간적 특성 분석을 활용한 폭력검출 프레임워킹 방법에 관한 것이다.

일반적으로 주택가나 빌딩, 도로나 공공시설 등에서 폭력, 폭행, 또는 납치 사건 등이 발생하게 되었을 때, 주변에 사람이 존재하지 않거나 무관심으로 인해 신고가 이루어지지 않게 되면 그 발생 원인이나 정도를 판단하기 위한 정보 수집이 어렵게 되므로, 이러한 사건, 사고의 예방 및 보안수단으로 우범지대, 어두운 골목, 외진 지역 등에 영상을 촬영할 수 있는 다수 개의 CCTV를 각각 설치하고 이를 한꺼번에 관제센터 등에서 수집하여 다수의 CCTV 화면이 집결된 모니터링 화면으로 감시하도록 하고 있다.

그러나 관제센터 등에서 CCTV를 모니터링하는 화면은 보통 수십 개가 존재하지만 이를 확인하는 감시자는 소수이고, 게다가 폭력, 폭행, 납치 사건 등의 사건, 사고 행위는 순식간, 또는 비교적 짧은 시간에 발생하기 때문에 소수의 감시자가 모니터링 화면을 통해 확인하기란 쉽지 않은 단점이 있었으며, 이를 보완하고자, 최근에는 영상분석을 통한 폭력 검출 시스템이 개발되고 있다.

이와 관련하여, 기존의 폭력검출 프레임워크는 MoSIFT+HIK(Violence detection in video using computer vision techniques), VIF(Violent flows), MoSIFT+KDE+Sparse Coding(Violent video detection based on mosift feature and sparse coding), Gracia et al(Fast fight detection), Substantial Derivative(Violence detection in crowded scenes using substantial derivative), Bilinski et al(Human violence recognition and detection in surveillance videos), MoIWLD(Discriminative dictionary learning with motion weber local descriptor for violence detection), ViF+OViF(Violence detection using oriented violent flows), 및 Three streams + LSTM(Multi-stream deep networks for person to person violence detection in videos) 등이 있다.

(1) MoSIFT+HIK : Violence detection in video using computer vision techniques

A. 방법 : 도 1a에 예시된 바와 같이 시공간적 해석이 가능한 local feature와 BoW를 기반으로 영상 특성을 나타내고 SVM(Support Vector Machine)을 사용하여 폭력여부를 판단하며, Space-time interest points(STIP) : Harris corner detection의 결과를 시공간적으로 분석하게 되므로 corner point의 시공간적 변화를 분석할 수 있다.

B. Motion SIFT (MoSIFT) : 도 1b에 예시된 바와 같이, Standard SIFT(scale-invariant feature transform) + optical flow based local motion : SIFT 기반의 local feature 특성에 optical flow 기반의 정보를 결합하여 local feature의 변화 특성을 분석할 수 있다.

SIFT는 대부분 corner가 interest point로 추출되고 corner 주변 영역을 descriptor로 표현(histogram of oriented gradients)한다.

C. Bag-of-Words (BOW) : 도 1c에 예시된 바와 같이, Visual word(특정한 feature의 조합을 이용한 local descriptor)의 히스토그램으로 영상의 특성을 설명하는 방법이며, Visual word 기반의 특징을 학습과 분류의 정보로 사용한다.

(2) VIF : Violent flows : real-time detection of violent crowd behavior.

A. 방법 : optical flow vector magnitudes의 변화 양상을 SVM을 이용하여 폭력과 비폭력으로 구분한다.

B. ViF : Optical flow magnitude의 시간에 따른 변화 양상 표현하며, magnitude 자체의 값은 고려하지 않는다.

C. Classification : ViF와 ViF word를 사용하여 영상을 나타내고, SVM를 이용하여 폭력 여부를 판단한다.

(3) MoSIFT+KDE+Sparse Coding : Violent video detection based on mosift feature and sparse coding

A. 방법 : 도 1d에 예시된 바와 같이, MoSIFT를 KDE 기반으로 선별하고, sparse coding를 통하여 feature vector를 생성하여 폭력여부를 판단한다.

B. KDE(Kernel Density Estimation) : 히스토그램의 분포에서의 불연속성 및 bin의 크기 및 범위에 따른 분포 변화의 문제를 해결한 방법이며, 관측된 데이터마다 kernel function를 생성하고, 모든 kernel를 모두 합하여 전체 데이터 분포를 표현한다.

(4) Gracia et al : Fast fight detection

A. 방법 : 도 1e에 예시된 바와 같이, 프레임 간의 차이를 이용한 motion blob를 분석하여 폭력과 비폭력을 구분한다.

B. Motion blob(blob간의)의 shape, position 분석을 통하여 global motion과 local motion의 차이를 분석할 수 있다.

(5) Substantial Derivative : Violence detection in crowded scenes using substantial derivative.

A. 방법 : 도 1f에 예시된 바와 같이, 영상 간의 optical flow의 시공간적 특성을 추출하고(substantial derivative), 이를 BoW로 표현하여 폭력 여부를 판단한다.

(6) Bilinski et al. : Human violence recognition and detection in surveillance videos.

A. 방법 : Improved fisher filter에 시공간적 정보를 반영하여 폭력을 검지한다.

(7) MoIWLD : Discriminative dictionary learning with motion weber local descriptor for violence detection

(8) ViF+OViF : Violence detection using oriented violent flows

A. 방법 : 도 1g에 예시된 바와 같이, ViF의 개념을 optical flow direction에 적용한 OViF를 이용하여 영상의 나타내고 폭력을 검지한다.

(9) Three streams + LSTM : Multi-stream deep networks for person to person violence detection in videos

A. 방법 : 도 1h에 예시된 바와 같이, 기존의 단일 사람의 행동(예) 걷기, 팔 뻗기)을 분석하는 것으로는 폭행이 발행했을 때의 복합적인 형상을 분석할 수 있으며, 이를 해결하기 위하여 CNN을 이용하여 사람과 사람간의 형상를 자체를 학습하여 폭력을 검지한다.

그러나, 상기와 같은 종래의 기술들에서는 폭력 속성상 적어도 2명 이상의 사람들이 뒤엉켜져 복잡한 움직임을 갖는 것이 일반적이므로 이와 같이 엉켜져 있는 영상 속에서 폭력성을 검출하는 것은 쉽지 않은 문제점이 있었으며, 또한 이러한 종래의 방법들 중에서 행동의 시차적 차이까지 고려한 검출방법은 존재하지 않기 때문에 이와 같은 행동의 시차적 차이를 고려하지 않은 검출시스템은 그 성능이 저하될 수 밖에 없는 문제점이 있었다.

KR 10-1541272 B1 2015.07.28. 등록 KR 10-1552344 B1 2015.09.04. 등록 KR 10-1651410 B1 2016.08.22. 등록

따라서 본 발명은 상기의 문제점을 해결하기 위해 안출한 것으로서, 본 발명이 해결하고자 하는 기술적 과제는, 실시간 입력 영상에서 색차 성분(U,V)를 제외한 흑백 음영 영상인 휘도성분(Y) 영상을 추출한 후 네트워크 경량화 및 시간 공간에 최적화된 영상을 만들어 알고리즘에 적용하고 영상 컨볼루션 과정에서 특정 레이어에 폭력의 특징점을 지속적으로 기억시키고 재학습할 수 있도록 함으로써 폭력영상 컨볼루션 수행시에 지나온 특징점을 쉽게 잃어버리게 되는 부분을 개선하여 영상의 폭력성 검출능력 및 정확도를 향상시킬 수 있으며, 작은 필터의 사용으로 분석 프레임의 길이에 구애받지 않고 분석이 가능하고, 필터의 시간축 이동을 통해 연속 프레임에 대한 학습이 가능하게 하여 연속된 행동에 대한 분석이 가능한 딥러닝 기반 음영영상의 시공간적 특성 분석을 활용한 폭력검출 프레임워킹 방법을 제공하고자 하는 것이다.

상기 목적을 달성하기 위한 본 발명의 일 실시 형태는, 비디오 카메라 또는 동영상 파일에서 주어지는 영상 프레임들로 구성된 입력 영상에서 폭력의 특징점을 검출하여 영상의 폭력성을 검출하는 폭력검출 프레임워킹 방법에 있어서, 입력 영상에 포함된 하나의 프레임의 영상에서 색차 성분(U,V)을 제외하여 2차원(2D) 기반의 휘도 성분(Y) 영상을 추출하는 단계, 2D 기반의 Y 영상을 순차적으로 3차원(3D)으로 축적하고 이 중에서 균등한 간격의 프레임만을 추출하여 3차원(3D) 기반의 Y 영상 그룹을 획득하는 단계, 및 3D 기반의 Y 영상 그룹에 대하여 영상 컨볼루션을 수행하고, 3*3*3 필터를 사용하여 폭력 검출 장면을 도출하는 단계를 포함하는, 딥러닝 기반 음영영상의 시공간적 특성 분석을 활용한 폭력검출 프레임워킹 방법이다.

본 발명에 의하면, 실시간 입력 영상을 적(R),녹(G),청(B)을 제외한 Y 프레임 흑백 음영 영상을 추출한 후 네트워크 경량화 및 시간 공간에 최적화된 영상을 만들어 알고리즘에 적용하고 영상 컨볼루션 과정에서 재학습방법을 사용하여 특정 레이어에 폭력의 특징점을 지속적으로 기억시키고 재학습할 수 있도록 함으로써 폭력영상 컨볼루션 수행시에 지나온 특징점을 쉽게 잃어버리게 되는 부분을 개선하여 영상의 폭력성 검출능력을 향상시키는 이점을 제공할 수 있게 된다.

또한 본 발명은 기존의 프레임워크(3 x 3 x F)보다 작은 필터(3 x 3 x 3 커널)를 사용하게 되므로, 분석 프레임의 길이에 구애받지 않고 분석이 가능하게 하는 이점을 제공할 수 있게 된다.

또한 본 발명은 필터의 시간축 이동을 통해 기존의 프레임 워크에 비해 더 많은 연속된 프레임에 대한 학습을 가능하게 하여 연속된 행동에 대한 분석이 가능하게 하는 이점을 제공할 수 있게 된다.

또한 본 발명은 3D 컨볼루션에 대한 잔여 네트워크(Residual networks)의 적용으로 학습 시간 및 검출 정확도를 향상시킬 수 있는 이점을 제공할 수 있게 된다.

도 1a 내지 도 1h는 종래의 각종 폭력검출 프레임워크를 각각 예시한 참고도이다.
도 2는 본 발명에 의한 딥러닝 기반 음영영상의 시공간적 특성 분석을 활용한 폭력검출 프레임워킹 방법을 예시한 블록도이다.
도 3은 본 발명에 의한 폭력검출 프레임워킹 방법에서 영상 컨볼루션시 재학습 과정을 예시한 상세도이다.

이하, 본 발명의 바람직한 실시 형태에 따른 딥러닝 기반 음영영상의 시공간적 특성 분석을 활용한 폭력검출 프레임워킹 방법의 구성과 동작 및 그에 의한 작용 효과를 첨부 도면을 참조하여 상세히 설명한다.

본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정 해석되지 아니하며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서, 본 명세서에 기재된 실시 예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시 예에 불과할 뿐이므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.

도 2는 본 발명에 의한 딥러닝 기반 음영영상의 시공간적 특성 분석을 활용한 폭력검출 프레임워킹 방법을 예시한 블록도이고, 도 3은 본 발명에 의한 폭력검출 프레임워킹 방법에서 영상 컨볼루션시 재학습 과정을 예시한 상세도로서, 도면에 예시된 바와 같이 본 발명의 딥러닝 기반 음영영상의 시공간적 특성 분석을 활용한 폭력검출 프레임워킹 방법은, 입력 영상에 포함된 하나의 프레임의 영상에서 색차 성분(U,V)을 제외하여 2차원(2D) 기반의 휘도 성분(Y) 영상을 추출하는 단계, 2D 기반의 Y 영상을 순차적으로 3차원(3D)으로 축적하고 이 중에서 균등한 간격의 프레임만을 추출하여 3차원(3D) 기반의 Y 영상 그룹을 획득하는 단계, 및 3D 기반의 Y 영상 그룹에 대하여 영상 컨볼루션을 수행하고 3*3*3 필터를 사용하여 원하는 검출 장면을 도출하는 단계를 포함하여 구성되며, 이러한 본 발명은 비디오 카메라 또는 동영상 파일에서 주어지는 영상 프레임들로 구성된 입력 영상에서 폭력의 특징점을 검출하는 폭력검출 시스템의 영상 분석부에 소프트웨어 또는 플랫폼의 형태로 탑재되어 운용될 수 있다. 또한 본 발명을 수행하기 위해 영상분석부는 입력 영상이 RGB 기반의 영상인 경우, 입력영상을 RGB기반 영상에서 YUV기반 영상으로 변환할 수 있다.

영상분석부는 먼저 입력 영상에 포함된 하나의 프레임의 영상에서 색차 성분(U,V)을 제외하여 2차원(2D) 기반의 휘도 성분(Y) 영상을 추출하는 단계를 수행한다.

삭제

영상분석부는 상기 추출된 2D 기반의 Y 영상을 순차적으로 3차원(3D)으로 축적하고, 이 중에서 균등한 간격의 프레임만을 추출하여 3차원(3D) 기반의 Y 영상 그룹을 획득하는 단계를 수행한다. 본 발명에서는 2차원(2D) 기반의 30개 프레임을 쌓아 3차원 공간을 만드는 것이 바람직하다.

영상분석부는 상기 획득된 3D 기반의 Y 영상 그룹에 대하여 영상 컨볼루션을 수행하고, 3*3*3 필터를 사용하여 폭력 검출 장면을 도출하는 단계를 수행한다.

이러한 영상분석부는 검출장면 도출단계에서 3D 환경의 Y 프레임 흑백 음영 영상 중에서 균등한 순번째 레이어(예를 들면 미리 지정된 순번째 레이어)의 프레임만을 추출하도록 설정되는 것이 바람직하며, 10개 레이어를 사용하여 영상 컨볼루션을 수행하도록 설정되는 것이 바람직하다.

또한 이러한 영상분석부는 검출장면 도출단계에서 상기 추출된 10개 레이어의 프레임 중에서 미리 지정된 균등한 순번째 레이어의 프레임에 지나온 폭력의 특징점을 기억시키고, 폭력의 특징점을 기억시킨 해당 프레임의 다음 프레임에 재학습하여 폭력 행위를 기억할 수 있도록 함으로써, 영상 컨볼루션 과정에서 잃어버린 폭력의 특징점 손실 문제를 개선할 수 있게 한다.

또한 이러한 영상분석부는 검출장면 도출단계에서 최초 224*224 크기의 영상에 대하여 3*3*3 필터를 사용하여 제1합성곱 연산을 수행하고, 제1합성곱 연산된 상기 224*224 크기의 영상을 112*112 크기의 영상으로 1차 풀링 변환하고, 1차 풀링 변환된 112*112 크기의 영상에 대하여 제2합성곱 연산을 수행하여 1차 재학습하고, 상기 제2합성곱 연산된 112*112 크기의 영상에 대하여 제1합성곱 연산과 동일한 제3합성곱 연산, 56*56 크기의 영상으로 2차 풀링 변환, 및 제4합성곱 연산을 수행하도록 하며, 이러한 제1합성곱 연산과 제2합성곱 연산, 및 제3합성곱 연산과 제4합성곱 연산에서, 미리 지정된 균등한 순번째 레이어에 폭력의 특징점을 각각 기억시키고, 폭력의 특징을 기억시킨 해당 프레임의 다음 프레임에 각각 재학습하여, 폭력 행위를 기억시키는 재학습방법을 사용하도록 한다.

또한 이러한 영상분석부는 검출장면 도출단계에서, 3차원(3D) 공간에서 3x3x3 커널(kernel) 8개와 2x2x2 커널(kernel) 2개를 이용하여 영상의 폭력성을 검출하도록 함으로써, 분석 프레임의 길이에 구애받지 않고 분석이 가능하게 하면서도 필터의 시간축 이동을 통해 기존의 프레임 워크에 비해 더 많은 연속된 프레임에 대한 학습을 가능하게 하여 연속된 행동에 대한 분석이 가능하게 하여 학습 시간 및 검출 정확도를 향상시킬 수 있도록 한다.

이상과 같이 구성되는 본 발명에 따른 딥러닝 기반 음영영상의 시공간적 특성 분석을 활용한 폭력검출 프레임워킹 방법의 작용 효과를 설명하면 다음과 같다.

본 발명의 폭력검출 프레임워킹 방법은 폭력검출 시스템의 영상 분석부에 탑재되며, 이러한 영상분석부는 비디오 카메라 또는 동영상 파일에서 실시간으로 들어오는 입력 영상을 각 프레임당 영상으로 나누고 그 분리된 각 프레임당 영상에서 적(R), 녹(G), 청(B)을 제외하여 2D 기반의 Y 프레임 흑백 영상을 추출한다.

다음으로 상기 추출된 2D 기반의 Y 프레임 흑백 영상을 다수 개(바람직하게는 30 프레임)를 순차적으로 축적하여 3D 환경의 Y 프레임 흑백 영상으로 전환한다.

그런데. 이러한 3D 환경의 Y 프레임 흑백 영상들은 입력영상장치 및 영상 전달환경에 따라 균일하게 들어오지 않기 때문에 따라서 본 발명에서는 3D 환경의 Y 프레임 흑백 영상 중에서 균등한 순번째 레이어의 프레임(예를 들면 미리 지정된 순번째 레이어로서, 바람직하게는 5 프레임)만을 추출하여 그 추출된 프레임만을 다시 축적하고 10개 레이어를 사용하여 영상 컨볼루션을 수행한 후 시공간에 적합한 3*3*3 필터를 사용하여 원하는 검출 장면을 도출한다.

또한 상기 2D 기반의 Y 프레임 흑백 영상 30개를 순차적으로 축적하여 3D 환경의 Y 프레임 흑백 영상을 만들기 위해 폭력영상을 컨볼루션하게 되면, 지나온 특징점을 쉽게 잃어버리게 되므로 이러한 문제점을 개선하기 위하여 본 발명에서는 상기 추출된 10개 레이어 중에서 적어도 2개의 레이어에 지나온 폭력의 특징점을 각각 기억시키고, 폭력의 특징점을 기억시킨 해당 레이어의 다음 레이어에 재학습시켜 폭력 행위를 기억할 수 있도록 함으로써, 지나온 특징점을 재사용하는 방법으로 영상 컨볼루션 과정에서 잃어버린 폭력의 특징점 손실 문제를 개선할 수 있게 된다.

이때 영상 컨볼루션은 최초 224*224 크기의 영상에 대하여 제1합성곱 연산을 수행하여 112*112 크기의 영상으로 1차 변환하고, 1차 변환된 112*112 크기의 영상에 대하여 제2합성곱 연산을 수행하여 56*56 크기의 영상으로 2차 변환하여 컨볼루션하며, 이러한 제1합성곱 연산 및 제2합성곱 연산에서, 예를 들면 3 레이어 및 8 레이어에 폭력의 특징점을 각각 기억시키고, 기억된 폭력의 특징을 다음 레이어(4레이어 및 9 레이어)에 각각 재학습시켜, 폭력 행위를 기억시킨다.

또한 이러한 본 발명에서는 3차원(3D) 공간에서 3x3x3 커널(kernel) 8개와 2x2x2 커널(kernel) 2개를 이용하여 영상의 폭력성을 검출하게 되므로 분석 프레임의 길이에 구애받지 않고 분석이 가능하게 되며, 또한 필터의 시간축 이동을 통해 기존의 프레임 워크에 비해 더 많은 연속된 프레임에 대한 학습을 가능하게 되므로 연속된 행동에 대한 분석이 가능하게 되어 학습 시간 및 검출 정확도를 향상시킬 수 있게 된다.

하기의 표 1에는 이상과 같은 본 발명에 의한 폭력검출 프레임워크의 정확도를 기존 다수의 폭력검출 프레임워크 정확도와 비교한 결과를 예시하고 있다.

	Hockey Dataset	Movies Dataset	Vioent-Flows Dataset
1)MoSIFT+HIK	90.9%	89.5%
2)VIF	82.9±0.14%		81.3±0.21%
3)MoSIFT+KDE+Sparse coding	94.3±1.68%
4)Gracia et al.	82.4±0.4%	97.8±0.4%
5)Substantial Derivative		96.89±0.2%	85.43±0.21%
6)Bilinski et al.	93.4%	99%	96.4%
7)MoIWLD	96.8±1.04%		93.19±0.1%
8)ViF+OViF	87.5±1.7%		88±2.45%
9)Three streams+LSTM
본 발명	97.1±0.23%	99%	95.61±2.76%

이상의 본 발명에 의하면, 실시간 입력 영상을 적(R),녹(G),청(B)을 제외한 Y 프레임 흑백 음영 영상을 추출한 후 네트워크 경량화 및 시간 공간에 최적화된 영상을 만들어 알고리즘에 적용하고 영상 컨볼루션 과정에서 재학습방법을 사용하여 특정 레이어에 폭력의 특징점을 지속적으로 기억시키고 재학습할 수 있게 하므로 폭력영상 컨볼루션 수행시에 지나온 특징점을 쉽게 잃어버리게 되는 부분을 개선하여 영상의 폭력성 검출능력을 향상시킬 수 있으며, 또한 기존의 프레임워크(3 x 3 x F)보다 작은 필터(3 x 3 x 3 커널)를 사용하게 되므로 분석 프레임의 길이에 구애받지 않고 분석이 가능하게 하는 이점을 제공할 수 있게 된다.

또한 본 발명에 의하면, 필터의 시간축 이동을 통해 기존의 프레임 워크에 비해 더 많은 연속된 프레임에 대한 학습을 가능하게 되므로 연속된 행동에 대한 분석이 가능하게 되고, 3D 컨볼루션에 대한 잔여 네트워크의 적용으로 학습 시간 및 검출 정확도를 향상시킬 수 있게 된다.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명의 사상은 아래에 기재된 특허 청구 범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.

11 : 분리된 프레임당 영상
12 : 2D 기반 Y 프레임 흑백 영상
13 : 3D 환경 Y 프레임 흑백 영상

Claims

비디오 카메라 또는 동영상 파일에서 주어지는 영상 프레임들로 구성된 입력 영상에서 폭력의 특징점을 검출하여 영상의 폭력성을 검출하는 영상분석부를 구비한 폭력검출시스템에서 상기 영상분석부가 수행하는 폭력검출용 프레임워킹 방법에 있어서,
입력 영상에 포함된 하나의 프레임의 영상에서 색차 성분(U,V)을 제외하여 2차원(2D) 기반의 휘도 성분(Y) 흑백 Y 영상을 획득하는 단계;
상기 2D 기반의 Y 영상을 순차적으로 3차원(3D)으로 축적하고, 이 중에서 균등한 간격의 레이어의 30개 프레임만을 추출 및 다시 축적하여 3차원(3D) 기반의 Y 영상 그룹을 획득하는 단계; 및
상기 3D 기반의 Y 영상 그룹에 대하여 3*3*3 필터를 사용하여 영상 컨볼루션을 수행하고 원하는 검출 장면을 도출하는 단계;를 포함하여 이루어지며,
상기 영상분석부는 검출장면 도출단계에서,
최초 224*224 크기의 영상에 대하여 3*3*3 필터를 사용하여 제1합성곱 연산을 수행하고, 제1합성곱 연산된 상기 224*224 크기의 영상을 112*112 크기의 영상으로 1차 풀링 변환하고, 1차 풀링 변환된 112*112 크기의 영상에 대하여 제2합성곱 연산을 수행하여 1차 재학습하고, 상기 제2합성곱 연산된 112*112 크기의 영상에 대하여 제1합성곱 연산과 동일한 제3합성곱 연산, 56*56 크기의 영상으로 2차 풀링 변환, 및 제4합성곱 연산을 수행하며, 이러한 제1합성곱 연산과 제2합성곱 연산, 및 제3합성곱 연산과 제4합성곱 연산에서, 미리 지정된 균등한 순번째 레이어에 폭력의 특징점을 각각 기억시키고, 폭력의 특징을 기억시킨 해당 프레임의 다음 프레임에 각각 재학습하여, 폭력 행위를 기억시키고,
3D 환경의 Y 프레임 흑백 영상 중에서 10개 레이어를 추출하고 다시 축적하여 영상 컨볼루션을 수행하며, 추출된 10개 레이어 중에서 적어도 2개의 레이어에 지나온 폭력의 특징점을 각각 기억시키고, 폭력의 특징점을 기억시킨 각 레이어의 다음 레이어에 재학습시켜 폭력 행위를 기억시키는 재학습방법을 사용하며,
3차원(3D) 공간에서 3x3x3 커널(kernel) 8개와 2x2x2 커널(kernel) 2개를 이용하여 영상의 폭력성을 검출하는 것을 특징으로 하는 딥러닝 기반 음영영상의 시공간적 특성 분석을 활용한 폭력검출용 프레임워킹 방법.
삭제
삭제
삭제
삭제
삭제