KR102384299B1 - Cctv camera device having assault detection function and method for detecting assault based on cctv image performed - Google Patents

Cctv camera device having assault detection function and method for detecting assault based on cctv image performed Download PDF

Info

Publication number
KR102384299B1
KR102384299B1 KR1020190140799A KR20190140799A KR102384299B1 KR 102384299 B1 KR102384299 B1 KR 102384299B1 KR 1020190140799 A KR1020190140799 A KR 1020190140799A KR 20190140799 A KR20190140799 A KR 20190140799A KR 102384299 B1 KR102384299 B1 KR 102384299B1
Authority
KR
South Korea
Prior art keywords
assault
key
cctv
situation
person
Prior art date
Application number
KR1020190140799A
Other languages
Korean (ko)
Other versions
KR20210020723A (en
Inventor
조용범
Original Assignee
건국대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 건국대학교 산학협력단 filed Critical 건국대학교 산학협력단
Publication of KR20210020723A publication Critical patent/KR20210020723A/en
Application granted granted Critical
Publication of KR102384299B1 publication Critical patent/KR102384299B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Alarm Systems (AREA)
  • Image Analysis (AREA)

Abstract

본원은 폭행 감지 기능을 구비한 CCTV 촬영 장치 및 CCTV 촬영 장치에 의해 수행되는 CCTV 영상에 기초한 폭행 감지 방법이 개시되며, 본원의 일 실시예에 따른 CCTV 촬영 장치에 의해 수행되는 CCTV 영상에 기초한 폭행 감지 방법은, 촬영된 CCTV 영상에서 등장 인물을 식별하는 단계, 식별된 상기 등장 인물에 대한 키-포인트를 검출하는 단계, 검출된 상기 키-포인트 사이의 각도 정보를 계산하는 단계 및 기 생성된 분류 모델을 통해 상기 키-포인트 사이의 각도 정보의 변화 정도에 기초하여 폭행 상황의 발생을 감지하는 단계를 포함할 수 있다.The present application discloses an assault detection method based on a CCTV image performed by a CCTV photographing apparatus having an assault detection function and a CCTV photographing apparatus, and assault detection based on a CCTV image performed by a CCTV photographing apparatus according to an embodiment of the present application The method includes the steps of identifying a person from the captured CCTV image, detecting a key-point for the identified person, calculating angle information between the detected key-points, and a pre-generated classification model It may include the step of detecting the occurrence of an assault situation based on the degree of change of the angle information between the key-points through the .

Description

폭행 감지 기능을 구비한 CCTV 촬영 장치 및 CCTV 영상에 기초한 폭행 감지 방법{CCTV CAMERA DEVICE HAVING ASSAULT DETECTION FUNCTION AND METHOD FOR DETECTING ASSAULT BASED ON CCTV IMAGE PERFORMED}CCTV camera with assault detection function and assault detection method based on CCTV image

본원은 폭행 감지 기능을 구비한 CCTV 촬영 장치 및 CCTV 촬영 장치에 의해 수행되는 CCTV 영상에 기초한 폭행 감지 방법에 관한 것이다.The present application relates to a CCTV photographing device having an assault detection function and an assault detection method based on a CCTV image performed by the CCTV photographing apparatus.

최근 들어, 다양한 목적을 가지고 설치되는 폐쇄 회로 텔레비전(Closed Circuit Television, CCTV)의 수가 점차 증가하고 있으며, 영상 기술의 발전에 힘입어 CCTV 영상 역시 점차 선명해지고 고화질로 발전하고 있는 추세이다. 또한, 이러한 CCTV 시스템과 관련하여 각종 범죄, 폭력과 도난 사고 등의 발생이 증가함에 따라, 그 기능에 대한 사용자들의 기대도 높아지는 추세이다.Recently, the number of Closed Circuit Television (CCTV) installed for various purposes is gradually increasing, and with the development of image technology, CCTV images are also gradually becoming clearer and developing in high quality. In addition, as the occurrence of various crimes, violence and theft accidents in relation to the CCTV system increases, users' expectations for its functions are also increasing.

기존의 CCTV 시스템은 범죄나 도난 등의 발생시 사후적으로 범죄자 등을 색출하는 데 이용되는 것이 일반적이었다. 또한, CCTV는 감시 대상 공간에 대한 원거리 또는 원격 관찰을 가능하게 하고, 치안이 약하거나 유동인구가 적어 관찰하기 힘든 지역이나 수감자 등 집중적인 감시가 필요할 때 설치되어 사용될 수 있으나 CCTV 영상을 통해 소정의 영역을 감시하는 인원(경찰관, 경비원 등)이 CCTV 영상을 지속적으로 직접 육안으로 관찰하여야 하는 한계가 있었다.Existing CCTV systems are generally used to search for criminals after a crime or theft occurs. In addition, CCTV enables long-distance or remote observation of the space to be monitored, and can be installed and used when intensive monitoring is required, such as in an area where public security is weak or there is a small floating population, or when intensive monitoring is required, such as inmates. There was a limitation in that the personnel (police officers, security guards, etc.) monitoring the area had to continuously observe the CCTV images with the naked eye.

또한, 폭행 상황이 발생한 경우 이를 중지시키기 위하여 즉각적인 조치가 필요함에도 불구하고, 폭행 상황을 실시간으로 감지하여 담당자에게 알림을 즉각적으로 전송하는 시스템은 아직 개발된 바 없으며, 별도의 서버 장치 등을 마련하여 CCTV 촬영 장치로부터 영상을 획득하여 이에 대한 분석을 통해 폭행 상황을 감지하는 경우에는 영상을 송수신하는 과정, 별도의 서버 장치에서 분석을 하는 과정 등에 추가적인 시간이 소요되어 즉각적인 조치가 이루어지기 어렵다는 한계가 있었다.In addition, although immediate action is required to stop an assault situation when it occurs, a system that detects an assault situation in real time and immediately sends a notification to the person in charge has not yet been developed, and a separate server device is provided. In the case of detecting an assault situation by acquiring an image from a CCTV recording device and analyzing it, additional time is required for the process of transmitting and receiving the image and the process of analyzing it in a separate server device, so it is difficult to take immediate action. .

본원의 배경이 되는 기술은 한국공개특허공보 제10-2009-0035379호에 개시되어 있다.The background technology of the present application is disclosed in Korean Patent Application Laid-Open No. 10-2009-0035379.

본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 폭행 상황을 실시간으로 감지하고 폭행 상황이 감지되는 경우 보안 담당자 등의 사용자 단말에 해당 상황을 즉각적으로 알릴 수 있는 폭행 감지 기능을 구비한 CCTV 촬영 장치 및 CCTV 촬영 장치에 의해 수행되는 CCTV 영상에 기초한 폭행 감지 방법을 제공하는 것을 목적으로 한다.The present application is to solve the problems of the prior art described above, and when an assault situation is detected in real time, CCTV shooting with an assault detection function that can immediately notify the user terminal such as a security officer of the situation when an assault situation is detected An object of the present invention is to provide an assault detection method based on a CCTV image performed by a device and a CCTV recording device.

본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 보안 관찰자가 직접 모니터링을 하고 그 정보를 판단하여 해당 현장으로 출동하기 전에 실시간으로 폭력 상황 발생의 알람을 듣고 예방할 수 있는 기계학습 기반의 폭행 방지 CCTV 시스템을 제공하는 것을 목적으로 한다.The present application is to solve the problems of the prior art described above, and a machine learning-based assault prevention that a security observer can directly monitor and determine the information to hear and prevent the occurrence of a violent situation in real time before moving to the relevant site It aims to provide a CCTV system.

본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 모니터링을 하는 대상에게 실시간으로 폭행이 발생했음을 알리며 교도소, 학교, 술집 등 폭행이 발생할 확률이 높은 곳에서 폭행이 일어나는 순간 해당 동작을 인식하기 때문에 이어질 더 큰 사태에 대해 빠른 예방책을 마련해 줄 수 있는 기계학습 CCTV를 통한 폭행 방지 시스템을 제공하는 것을 목적으로 한다.This application is intended to solve the problems of the prior art described above, and informs the monitoring target that an assault has occurred in real time, and recognizes the corresponding motion at the moment when the assault occurs in places where there is a high probability of assault, such as a prison, school, or pub. The purpose of this is to provide an assault prevention system through machine learning CCTV that can provide a quick preventive measure for a bigger situation to follow.

본원은 전술한 데이터 수집을 위해서 CCTV 영상에 포함된 각 사람의 key-point를 기반으로 주변 사람의 각도를 추출하고 변화를 분석해서 폭행 가능성을 Labeling하여 보다 적은 연산량과 빠른 속도로 폭행이 발생할 가능성이 높을 때를 판단하여 알람 기능을 활용하여 보안 담당자에게 정보를 사전에 제공하는 것을 목적으로 한다.For the above-mentioned data collection, we extract the angle of people around us based on the key-point of each person included in the CCTV image and label the possibility of assault by analyzing the change to reduce the possibility of assault with less computation and faster speed. The purpose is to provide information in advance to the security officer by using the alarm function by determining when it is high.

다만, 본원의 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.However, the technical problems to be achieved by the embodiments of the present application are not limited to the technical problems described above, and other technical problems may exist.

상기한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본원의 일 실시예에 따른 CCTV 촬영 장치에 의해 수행되는 CCTV 영상에 기초한 폭행 감지 방법은, 촬영된 CCTV 영상에서 등장 인물을 식별하는 단계, 식별된 상기 등장 인물에 대한 키-포인트를 검출하는 단계, 검출된 상기 키-포인트 사이의 각도 정보를 계산하는 단계 및 기 생성된 분류 모델을 통해 상기 키-포인트 사이의 각도 정보의 변화 정도에 기초하여 폭행 상황의 발생을 감지하는 단계를 포함할 수 있다.As a technical means for achieving the above technical problem, the assault detection method based on a CCTV image performed by a CCTV recording device according to an embodiment of the present application, the step of identifying a person in the captured CCTV image, the identified Detecting a key-point for a character, calculating angle information between the detected key-points, and an assault situation based on the degree of change in the angle information between the key-points through a pre-generated classification model It may include the step of detecting the occurrence of

또한, 상기 키-포인트를 검출하는 단계는, 상기 등장 인물의 신체 중 관절의 위치에 대응되는 지점을 상기 키-포인트로 검출할 수 있다.Also, in the detecting of the key-point, a point corresponding to the position of the joint in the body of the person may be detected as the key-point.

또한, 상기 키-포인트를 검출하는 단계는, 학습 이미지로부터 소정의 관절의 위치를 추출한 제1 피처 및 추출된 관절이 어느 등장 인물에 대한 것인지를 나타내는 제2피처를 획득하고, 상기 제1피처 및 상기 제2피처를 기 확보된 인간 자세 데이터와 비교하여 상기 제1피처 및 상기 제2피처를 최적화하는 피드-포워드 네트워크에 기초하여 생성되는 딥러닝 기반의 키-포인트 추출 알고리즘을 기초로 하여 상기 키-포인트를 검출할 수 있다.In addition, the step of detecting the key-point includes obtaining a first feature from which the position of a predetermined joint is extracted from the learning image and a second feature indicating which character the extracted joint is for, the first feature and Based on a deep learning-based key-point extraction algorithm generated based on a feed-forward network that optimizes the first feature and the second feature by comparing the second feature with previously secured human posture data, the key - Points can be detected.

또한, 상기 각도 정보를 계산하는 단계는, 관절의 위치에 대응되는 상기 키-포인트의 적어도 일부를 잇는 복수의 연결선을 생성하는 단계 및 각각의 관절의 위치에 대응되는 상기 키-포인트에 대하여 생성된 두 연결선 사이의 각도를 측정하여 해당 키-포인트에 대한 각도 정보로 결정하는 단계를 포함할 수 있다.In addition, calculating the angle information includes generating a plurality of connecting lines connecting at least a portion of the key-point corresponding to the position of the joint and the key-point corresponding to the position of each joint. It may include measuring the angle between the two connecting lines and determining the corresponding key-point as angle information.

또한, 상기 기 생성된 분류 모델은, 폭행 상황을 포함하는 복수의 라벨링된 학습 영상 데이터에 기초하여 SVM(Support Vector Machine) 기법에 의해 생성되는 것일 수 있다.In addition, the pre-generated classification model may be generated by a support vector machine (SVM) technique based on a plurality of labeled learning image data including an assault situation.

또한, 본원의 일 실시예에 따른 CCTV 촬영 장치에 의해 수행되는 CCTV 영상에 기초한 폭행 감지 방법은, 상기 폭행 상황의 발생이 감지되는 경우, 상기 폭행 상황과 연계된 알림 신호를 생성 및 전송하는 단계를 포함할 수 있다.In addition, the assault detection method based on the CCTV image performed by the CCTV recording device according to an embodiment of the present application, when the occurrence of the assault situation is detected, generating and transmitting a notification signal associated with the assault situation may include

한편, 본원의 일 실시예에 따른 폭행 감지 기능을 구비한 CCTV 촬영 장치는, 소정의 감시 대상 공간을 촬영하여 CCTV 영상을 생성하는 카메라부, 촬영된 상기 CCTV 영상에서 등장 인물을 식별하는 인물 식별부, 식별된 상기 등장 인물에 대한 키-포인트를 검출하고, 검출된 상기 키-포인트 사이의 각도 정보를 계산하는 연산부 및 기 생성된 분류 모델을 통해 상기 키-포인트 사이의 각도 정보의 변화 정도에 기초하여 폭행 상황의 발생을 감지하는 폭행 감지부를 포함할 수 있다.On the other hand, the CCTV photographing device having an assault detection function according to an embodiment of the present application includes a camera unit for generating a CCTV image by photographing a predetermined monitoring target space, a person identification unit for identifying a person in the captured CCTV image , based on the degree of change in the angle information between the key-points through a calculation unit that detects key-points for the identified character, calculates angle information between the detected key-points, and a pre-generated classification model Thus, it may include an assault detection unit for detecting the occurrence of an assault situation.

또한, 상기 연산부는, 상기 등장 인물의 신체 중 관절의 위치에 대응되는 지점을 상기 키-포인트로 검출할 수 있다.In addition, the calculator may detect a point corresponding to the position of the joint in the body of the person as the key-point.

또한, 상기 연산부는, 학습 이미지로부터 소정의 관절의 위치를 추출한 제1 피처 및 추출된 관절이 어느 등장 인물에 대한 것인지를 나타내는 제2피처를 획득하고, 상기 제1피처 및 상기 제2피처를 기 확보된 인간 자세 데이터와 비교하여 상기 제1피처 및 상기 제2피처를 최적화하는 피드-포워드 네트워크에 기초하여 생성되는 딥러닝 기반의 키-포인트 추출 알고리즘을 기초로 하여 상기 키-포인트를 검출할 수 있다.In addition, the operation unit obtains a first feature from which the position of a predetermined joint is extracted from the learning image and a second feature indicating which character the extracted joint is for, and writes the first feature and the second feature The key-point can be detected based on a deep learning-based key-point extraction algorithm generated based on a feed-forward network that optimizes the first and second features by comparing with the secured human posture data. there is.

또한, 상기 연산부는, 관절의 위치에 대응되는 상기 키-포인트의 적어도 일부를 잇는 복수의 연결선을 생성하고, 각각의 관절의 위치에 대응되는 상기 키-포인트에 대하여 생성된 두 연결선 사이의 각도를 측정하여 해당 키-포인트에 대한 각도 정보로 결정할 수 있다.In addition, the calculation unit generates a plurality of connection lines connecting at least a portion of the key-points corresponding to the positions of the joints, and calculates the angle between the two connection lines generated with respect to the key-points corresponding to the positions of the respective joints. It can be determined by measuring the angle information for the corresponding key-point.

또한, 상기 폭행 감지부는, 폭행 상황을 포함하는 복수의 라벨링된 학습 영상 데이터에 기초하여 SVM(Support Vector Machine) 기법에 의해 생성된 상기 기 생성된 분류 모델을 활용하여 폭행 상황의 발생을 감지할 수 있다.In addition, the assault detection unit may detect the occurrence of an assault situation by using the pre-generated classification model generated by a support vector machine (SVM) technique based on a plurality of labeled learning image data including the assault situation. there is.

또한, 본원의 일 실시예에 따른 폭행 감지 기능을 구비한 CCTV 촬영 장치는, 상기 폭행 상황의 발생이 감지되는 경우, 상기 폭행 상황과 연계된 알림 신호를 생성 및 전송하는 알림 출력부를 포함할 수 있다.In addition, the CCTV recording device having an assault detection function according to an embodiment of the present application may include a notification output unit for generating and transmitting a notification signal associated with the assault situation when the occurrence of the assault situation is detected. .

한편, 본원의 일 실시예에 따른 CCTV 영상에 기초한 폭행 감지 장치는, CCTV 촬영 장치에 의해 촬영된 CCTV 영상을 수신하는 영상 수신부, 상기 CCTV 영상에서 등장 인물을 식별하는 인물 식별부, 식별된 상기 등장 인물에 대한 키-포인트를 검출하고, 검출된 상기 키-포인트 사이의 각도 정보를 계산하는 연산부 및 기 생성된 분류 모델을 통해 상기 키-포인트 사이의 각도 정보의 변화 정도에 기초하여 폭행 상황의 발생을 감지하는 폭행 감지부를 포함할 수 있다.On the other hand, the assault detection device based on the CCTV image according to an embodiment of the present application is an image receiving unit for receiving a CCTV image taken by a CCTV recording device, a person identification unit for identifying a person in the CCTV image, the identified appearance The occurrence of an assault situation based on the degree of change in the angle information between the key-points through a calculation unit that detects a key-point for a person and calculates the angle information between the detected key-points and a pre-generated classification model It may include an assault detection unit to detect the.

또한, 본원의 일 실시예에 따른 CCTV 영상에 기초한 폭행 감지 장치는, 상기 폭행 상황의 발생이 감지되는 경우, 상기 폭행 상황과 연계된 알림 신호를 생성 및 전송하는 알림 출력부를 포함할 수 있다.In addition, the apparatus for detecting assault based on a CCTV image according to an embodiment of the present application may include a notification output unit for generating and transmitting a notification signal associated with the assault situation when the occurrence of the assault situation is detected.

상술한 과제 해결 수단은 단지 예시적인 것으로서, 본원을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 추가적인 실시예가 존재할 수 있다.The above-described problem solving means are merely exemplary, and should not be construed as limiting the present application. In addition to the exemplary embodiments described above, additional embodiments may exist in the drawings and detailed description.

전술한 본원의 과제 해결 수단에 의하면, 폭행 상황을 실시간으로 감지하고 폭행 상황이 감지되는 경우 보안 담당자 등의 사용자 단말에 해당 상황을 즉각적으로 알릴 수 있는 폭행 감지 기능을 구비한 CCTV 촬영 장치 및 CCTV 촬영 장치에 의해 수행되는 CCTV 영상에 기초한 폭행 감지 방법을 제공할 수 있다.According to the above-described problem solving means of the present application, a CCTV shooting device and CCTV shooting with an assault detection function that can detect an assault situation in real time and immediately notify a user terminal such as a security officer of the situation when an assault situation is detected It is possible to provide an assault detection method based on CCTV images performed by the device.

전술한 본원의 과제 해결 수단에 의하면, 복잡한 연산 없이 키-포인트 사이의 각도 변화에 기초하여 폭행 발생 여부를 판단하는 SVM 기반의 분류 모델을 활용함으로써 연산 처리량, 처리 속도 등이 부족한 임베디드 환경의 CCTV 촬영 장치에도 본원의 폭행 감지 기능이 구비될 수 있는 이점이 있다.According to the above-described problem solving means of the present application, CCTV shooting in an embedded environment that lacks computational throughput and processing speed by utilizing an SVM-based classification model that determines whether an assault occurs based on an angle change between key-points without complex calculations There is an advantage that the device can also be equipped with the assault detection function of the present application.

전술한 본원의 과제 해결 수단에 의하면, 보안 관찰자가 직접 모니터링을 하고 그 정보를 판단하여 해당 현장으로 출동하기 전에 폭력 상황 발생의 알람을 듣고 예방할 수 있다.According to the above-described problem solving means of the present application, a security observer can directly monitor and determine the information to hear and prevent the occurrence of a violent situation before moving to the site.

전술한 본원의 과제 해결 수단에 의하면, 모니터링을 하는 대상에게 실시간으로 폭행이 발생했음을 알리며 교도소, 학교, 술집 등 폭행이 발생할 확률이 높은 곳에서 폭행이 일어나는 순간 해당 동작을 인식하기 때문에 이어질 더 큰 사태에 대해 빠른 예방책을 마련해 줄 수 있다.According to the above-mentioned means of solving the problems of the present hospital, the monitoring target is notified in real time that the assault has occurred, and the action is recognized at the moment when the assault occurs in places where there is a high probability of assault, such as a prison, school, or pub. can provide a quick preventative measure against

전술한 본원의 과제 해결 수단에 의하면, CCTV 영상에 포함된 각 사람의 key-point를 기반으로 주변 사람의 각도를 추출하고 변화를 분석해서 폭행 가능성을 Labeling하여 보다 적은 연산량과 빠른 속도로 폭생이 발생할 가능성이 높을 때를 판단하여 알람기능을 활용하여 보안자에게 정보를 사전에 제공할 수 있다.According to the above-mentioned problem solving means of the present application, based on the key-point of each person included in the CCTV image, the angle of the surrounding person is extracted and the change is analyzed to label the possibility of assault, so that explosion can occur at a faster rate and with less computation. By determining when the possibility is high, information can be provided to the security guard in advance by using the alarm function.

다만, 본원에서 얻을 수 있는 효과는 상기된 바와 같은 효과들로 한정되지 않으며, 또 다른 효과들이 존재할 수 있다.However, the effects obtainable herein are not limited to the above-described effects, and other effects may exist.

도 1은 본원의 일 실시예에 따른 폭행 감지 기능을 구비한 CCTV 촬영 장치를 포함하는 폭행 방지 시스템의 개략적인 구성도이다.
도 2는 본원의 다른 실시예에 따른 CCTV 영상에 기초한 폭행 감지 장치를 포함하는 폭행 방지 시스템의 개략적인 구성도이다.
도 3은 CCTV 영상에서 식별된 등장 인물의 키-포인트를 검출하는 것을 설명하기 위한 도면이다.
도 4는 본원의 일 실시예에 따른 딥러닝 기반의 키-포인트 추출 알고리즘을 설명하기 위한 도면이다.
도 5는 본원의 일 실시예에 따른 폭행 감지 기능을 구비한 CCTV 촬영 장치의 개략적인 구성도이다.
도 6은 본원의 일 실시예에 따른 CCTV 영상에 기초한 폭행 감지 장치의 개략적인 구성도이다.
도 7은 본원의 일 실시예에 따른 CCTV 영상에 기초한 폭행 감지 방법의 동작 흐름도이다.
1 is a schematic configuration diagram of an assault prevention system including a CCTV photographing device having an assault detection function according to an embodiment of the present application.
2 is a schematic configuration diagram of an assault prevention system including an assault detection device based on a CCTV image according to another embodiment of the present application.
3 is a view for explaining the detection of the key-point of the person identified in the CCTV image.
4 is a diagram for explaining a key-point extraction algorithm based on deep learning according to an embodiment of the present application.
5 is a schematic configuration diagram of a CCTV camera having an assault detection function according to an embodiment of the present application.
6 is a schematic configuration diagram of an assault detection device based on a CCTV image according to an embodiment of the present application.
7 is an operation flowchart of an assault detection method based on a CCTV image according to an embodiment of the present application.

아래에서는 첨부한 도면을 참조하여 본원이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본원의 실시예를 상세히 설명한다. 그러나 본원은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본원을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.Hereinafter, embodiments of the present application will be described in detail with reference to the accompanying drawings so that those of ordinary skill in the art to which the present application pertains can easily carry out. However, the present application may be implemented in several different forms and is not limited to the embodiments described herein. And in order to clearly explain the present application in the drawings, parts irrelevant to the description are omitted, and similar reference numerals are attached to similar parts throughout the specification.

본원 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결" 또는 "간접적으로 연결"되어 있는 경우도 포함한다. Throughout this specification, when a part is "connected" with another part, it is not only "directly connected" but also "electrically connected" or "indirectly connected" with another element interposed therebetween. "Including cases where

본원 명세서 전체에서, 어떤 부재가 다른 부재 "상에", "상부에", "상단에", "하에", "하부에", "하단에" 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.Throughout this specification, when a member is positioned “on”, “on”, “on”, “on”, “under”, “under”, or “under” another member, this means that a member is positioned on the other member. It includes not only the case where they are in contact, but also the case where another member exists between two members.

본원 명세서 전체에서, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.Throughout this specification, when a part "includes" a certain component, it means that other components may be further included, rather than excluding other components, unless otherwise stated.

본원은 폭행 감지 기능을 구비한 CCTV 촬영 장치 및 CCTV 촬영 장치에 의해 수행되는 CCTV 영상에 기초한 폭행 감지 방법에 관한 것이다.The present application relates to a CCTV photographing device having an assault detection function and an assault detection method based on a CCTV image performed by the CCTV photographing apparatus.

도 1은 본원의 일 실시예에 따른 폭행 감지 기능을 구비한 CCTV 촬영 장치를 포함하는 폭행 방지 시스템의 개략적인 구성도이다.1 is a schematic configuration diagram of an assault prevention system including a CCTV photographing device having an assault detection function according to an embodiment of the present application.

도 1을 참조하면, 본원의 일 실시예에 따른 폭행 방지 시스템(10)은, 폭행 감지 기능을 구비한 CCTV 촬영 장치(100), 네트워크(20) 및 사용자 단말(30)을 포함할 수 있다.Referring to FIG. 1 , the assault prevention system 10 according to an embodiment of the present application may include a CCTV photographing device 100 having an assault detection function, a network 20 , and a user terminal 30 .

예를 들면, 사용자 단말(30)은, 스마트폰(Smartphone), 스마트패드(SmartPad), 태블릿 PC, 컴퓨터, 노트북 등과 PCS(Personal Communication System), GSM(Global System for Mobile communication), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말기 같은 모든 종류의 유/무선 통신 장치를 포함할 수 있다. 특히, 본원에서의 사용자 단말(30)은 CCTV 촬영 장치(100)에 의해 촬영되는 감시 대상 공간에 대한 보안 관리를 수행하는 지위에 있는 사람(예를 들면, 건물 내 보안 담당자, 경비원, 방범대원 등)이 보유한 사용자 단말(30)을 의미하는 것일 수 있다.For example, the user terminal 30 includes a personal communication system (PCS), a global system for mobile communication (GSM), a personal digital (PDC), such as a smartphone, a smart pad, a tablet PC, a computer, and a notebook computer. Cellular), PHS (Personal Handyphone System), PDA (Personal Digital Assistant), IMT (International Mobile Telecommunication)-2000, CDMA (Code Division Multiple Access)-2000, W-CDMA (W-Code Division Multiple Access), Wibro ( It may include all types of wired/wireless communication devices such as wireless broadband Internet) terminals. In particular, the user terminal 30 in the present application is a person in a position to perform security management for the space to be monitored, which is photographed by the CCTV recording device 100 (eg, a security officer in a building, a security guard, a security guard, etc.) ) may mean the user terminal 30 possessed.

폭행 감지 기능을 구비한 CCTV 촬영 장치(100) 및 사용자 단말(20) 상호간은 네트워크(30)을 통해 연결될 수 있으며, 네트워크(30)는 단말들 및 서버들과 같은 각각의 노드 상호간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 이러한 네트워크의 일 예에는, 3GPP(3rd Generation Partnership Project) 네트워크, LTE(Long Term Evolution) 네트워크, 5G 네트워크, WIMAX(World Interoperability for Microwave Access) 네트워크, 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), wifi 네트워크, 블루투스(Bluetooth) 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크 등이 포함되나 이에 한정되지는 않는다.The CCTV recording device 100 and the user terminal 20 having an assault detection function may be connected through the network 30, and the network 30 exchanges information between each node, such as terminals and servers. As meaning a possible connection structure, an example of such a network includes a 3rd Generation Partnership Project (3GPP) network, a Long Term Evolution (LTE) network, a 5G network, a World Interoperability for Microwave Access (WIMAX) network, the Internet, LAN (Local Area Network), Wireless LAN (Wireless Local Area Network), WAN (Wide Area Network), PAN (Personal Area Network), wifi network, Bluetooth (Bluetooth) network, satellite broadcasting network, analog broadcasting network, DMB (Digital Multimedia Broadcasting) networks, etc. are included, but are not limited thereto.

도 2는 본원의 다른 실시예에 따른 CCTV 영상에 기초한 폭행 감지 장치를 포함하는 폭행 방지 시스템의 개략적인 구성도이다.2 is a schematic configuration diagram of an assault prevention system including an assault detection device based on a CCTV image according to another embodiment of the present application.

도 2를 참조하면, 본원의 다른 실시예에 따른 폭행 방지 시스템(100)은, CCTV 촬영 장치(100), CCTV 영상에 기초한 폭행 감지 장치(200), 네트워크(20) 및 사용자 단말(30)을 포함할 수 있다.Referring to FIG. 2 , the assault prevention system 100 according to another embodiment of the present application includes a CCTV recording device 100 , an assault detection device 200 based on a CCTV image, a network 20 and a user terminal 30 . may include

도 1에 도시된 본원의 일 실시예에 따른 폭행 감지 기능을 구비한 CCTV 촬영 장치를 포함하는 폭행 방지 시스템과 도 2에 도시된 본원의 다른 실시예에 따른 CCTV 영상에 기초한 폭행 감지 장치를 포함하는 폭행 방지 시스템은, 도 1에 도시된 폭행 방지 시스템은 CCTV 촬영 장치(100)가 자체적으로 폭행 감지 기능을 구비하여 촬영된 CCTV 영상으로부터 폭행 상황을 감지하고 폭행 상황이 감지되면 폭행 상황과 연계된 알림 신호를 사용자 단말(30)에 생성 및 전송하는 반면, 도 2에 도시된 폭행 방지 시스템은 CCTV 촬영 장치(100)가 촬영한 CCTV 영상을 폭행 감지 장치(200)가 수신하고, 폭행 감지 장치(200)에 의해 수신된 CCTV 영상으로부터 폭행 상황을 감지하고 폭행 상황이 감지되면 폭행 상황과 연계된 알림 신호를 사용자 단말(30)에 생성 및 전송하는 점에서 구분될 수 있다.An assault prevention system including a CCTV recording device having an assault detection function according to an embodiment of the present application shown in FIG. 1 and an assault detection device based on a CCTV image according to another embodiment of the present application shown in FIG. As for the assault prevention system, the assault prevention system shown in FIG. 1 detects an assault situation from a CCTV image captured by the CCTV recording device 100 having its own assault detection function, and when an assault situation is detected, a notification associated with the assault situation While generating and transmitting a signal to the user terminal 30, in the assault prevention system shown in FIG. 2, the assault detection device 200 receives the CCTV image captured by the CCTV photographing device 100, and the assault detection device 200 ) can be distinguished in that an assault situation is detected from the received CCTV image, and when an assault situation is detected, a notification signal related to the assault situation is generated and transmitted to the user terminal 30 .

달리 말해, 본원에서 개시하는 두가지 유형의 폭행 방지 시스템은 폭행 상황을 감지하는 주체에 의해 구분될 수 있다. 도1에 도시된 폭행 감지 시스템과 도2에 도시된 폭행 감지 시스템에서 CCTV 영상으로부터 폭행 상황을 감지하는 과정은 실질적으로 유사하게 수행되므로, 이하에서는, 설명의 편의를 위하여 도 1에 도시된 본원의 일 실시예에 따른 폭행 감지 기능을 구비한 CCTV 촬영 장치를 포함하는 폭행 방지 시스템에 의해 폭행 상황을 감지하는 과정에 대해 설명하도록 한다.In other words, the two types of assault prevention systems disclosed herein may be distinguished by a subject sensing an assault situation. Since the process of detecting an assault situation from a CCTV image in the assault detection system shown in FIG. 1 and the assault detection system shown in FIG. 2 is substantially similar, hereinafter, for convenience of explanation, the A process of detecting an assault situation by an assault prevention system including a CCTV photographing device having an assault detection function according to an embodiment will be described.

특히, 본원의 일 실시예에 따르면, 폭행 감지 기능을 구비한 CCTV 촬영 장치(100)를 포함하는 폭행 방지 시스템(10)의 경우, 촬영된 CCTV 영상을 별도의 서버 또는 장치 등에 전송할 필요 없이, CCTV 촬영 장치(100)가 자체적으로 폭행 감지 기능을 구비하므로 폭행 상황에 대한 즉각적인 조치(예를 들면, 실시간 감지)가 가능한 이점이 있을 수 있다.In particular, according to an embodiment of the present application, in the case of the assault prevention system 10 including the CCTV photographing device 100 having an assault detection function, there is no need to transmit the photographed CCTV image to a separate server or device, etc. Since the photographing device 100 has an assault detection function by itself, there may be an advantage that an immediate action (eg, real-time detection) for an assault situation is possible.

또한, 본원에서의 폭행 감지 기능은 연산 시간이 길고, 고도의 처리 능력이 요구되는 딥러닝 등의 방식이 아닌, 기 학습된 분류 모델(SVM 분류 모델)을 이용하여 등장 인물의 키-포인트 각도 변화에 기초하여 단순히 '폭행이 발생하였다는 정보'만을 추출할 수 있도록 구현하여 복잡한 계산을 수행할 필요가 없어 판단(처리) 속도가 향상되므로, 본원에 의할 때 연산 능력이 비교적 떨어지는 기존에 설치된 CCTV 촬영 장치를 새로이 교체하지 않고도 본원의 폭행 감지 기능과 연계된 소프트웨어, 모듈 등을 추가로 설치하거나 탑재하기만 하면 별도 서버 등에 의하지 않고도 CCTV 촬영 장치 자체적으로 실시간의 폭행 감지가 수행될 수 있다는 이점이 있다.In addition, the assault detection function in the present application uses a pre-learned classification model (SVM classification model), not a method such as deep learning that requires a long computation time and high processing power, to change the key-point angle of a character Based on this, it is implemented so that only 'information that an assault has occurred' can be extracted simply because there is no need to perform complex calculations, which improves the judgment (processing) speed. There is an advantage that real-time assault detection can be performed by the CCTV recording device itself without using a separate server by simply installing or installing additional software and modules related to the assault detection function of the institute without replacing the recording device. .

본원의 일 실시예에 따른 폭행 감지 기능을 구비한 CCTV 촬영 장치(100)(이하, 'CCTV 촬영 장치(100)'라 한다.)는, 촬영된 CCTV 영상에서 등장 인물을 식별할 수 있다. 특히, CCTV 촬영 장치(100)는 촬영된 CCTV 영상에 복수의 등장 인물이 등장하는 경우, 매 프레임 별로 각각의 등장 인물이 등장하는 영역을 구분하도록 동작할 수 있다. 본원의 일 실시예에 따르면, CCTV 촬영 장치(100)는 CCTV 영상의 각 프레임에 포함된 픽셀마다의 색상 정보 등에 기초하여 배경 차분 기법을 이용하여 등장 인물을 식별할 수 있다. 다른 예로, CCTV 촬영 장치(100)는 인공지능 기반의 등장 인물 식별을 수행하거나 의미론적 영역 분할 기반의 등장 인물 식별을 수행하는 것일 수 있다.The CCTV photographing apparatus 100 (hereinafter, referred to as 'CCTV photographing apparatus 100') having an assault detection function according to an embodiment of the present application may identify a person from the photographed CCTV image. In particular, when a plurality of characters appear in the captured CCTV image, the CCTV photographing apparatus 100 may operate to classify regions in which each character appears for each frame. According to an embodiment of the present application, the CCTV photographing apparatus 100 may identify a person using a background difference technique based on color information for each pixel included in each frame of the CCTV image. As another example, the CCTV photographing apparatus 100 may perform character identification based on artificial intelligence or character identification based on semantic domain division.

또한, CCTV 촬영 장치(100)는, 식별된 등장 인물에 대한 키-포인트(Key-Point)를 검출할 수 있다. 본원의 일 실시예에 따르면, CCTV 촬영 장치(100)는, 식별된 등장 인물 각각의 신체 중 관절의 위치에 대응되는 지점을 키-포인트로 검출하는 것일 수 있다.In addition, the CCTV photographing apparatus 100 may detect a key-point (Key-Point) for the identified person. According to an embodiment of the present application, the CCTV photographing apparatus 100 may be to detect a point corresponding to the position of the joint in the body of each identified person as a key-point.

도 3은 CCTV 영상에서 식별된 등장 인물의 키-포인트를 검출하는 것을 설명하기 위한 도면이다.3 is a view for explaining the detection of the key-point of the person identified in the CCTV image.

도 3을 참조하면, 하나의 등장 인물에 대하여 복수의 키-포인트가 검출될 수 있으며, CCTV 촬영 장치(100)는 식별된 등장 인물에 신체 중 주요 관절 위치에 대응되는 기 설정된 수만큼의 키-포인트를 검출할 수 있다. 본원의 일 실시예에 따르면, CCTV 촬영 장치(100)는 검출된 키-포인트 각각의 좌표값을 계산할 수 있다. 예를 들어, CCTV 영상의 매 프레임의 가로축 및 세로축을 기준으로 하는 2차원 좌표값이 검출된 키-포인트 각각에 대하여 계산될 수 있다.Referring to FIG. 3 , a plurality of key-points may be detected for one person, and the CCTV photographing apparatus 100 has a preset number of keys corresponding to major joint positions in the body of the identified person- points can be detected. According to an embodiment of the present application, the CCTV photographing apparatus 100 may calculate a coordinate value of each detected key-point. For example, a two-dimensional coordinate value based on a horizontal axis and a vertical axis of every frame of the CCTV image may be calculated for each detected key-point.

본원의 일 실시예에 따르면, 등장 인물 각각에 대해 검출되는 키-포인트의 수가 많을수록 해당 등장 인물의 행위나 동작을 정확하게 측정할 수 있으나, 폭행 상황 발생시 이에 대한 즉각적인 조치가 이루어져야 함을 고려하면, 폭행 상황에 대한 인식을 위한 연산은 빠른 속도로 수행되어야 한다. 따라서, 등장 인물 각각에 대한 신체의 모든 위치를 고려하는 것이 아니라 본원에서는 폭행 감지를 위한 연산 속도를 고려하여 검출되는 키-포인트의 수가 24개 이하의 범위에 속하도록 할 수 있다. 다만, 이에만 한정되는 것은 아니며, 등장 인물의 신체가 CCTV 영상 내에서 소정의 물체, 지형 지물 등에 의해 일부 가려지는 경우 이를 고려하여 해당 등장 인물에 대하여는 더 적은 수의 키-포인트만이 검출될 수 있다.According to an embodiment of the present application, the greater the number of key-points detected for each character, the more accurately the behavior or motion of the character can be measured. Calculations for recognizing the situation must be performed at high speed. Accordingly, instead of considering all positions of the body for each character, the number of detected key-points may fall within the range of 24 or less in consideration of the calculation speed for assault detection in the present application. However, the present invention is not limited thereto, and when the body of the person is partially covered by a predetermined object or topographical feature within the CCTV image, only a smaller number of key-points can be detected for the person in consideration of this. there is.

특히, 본원의 일 실시예에 따르면, CCTV 촬영 장치(100)는, 학습 이미지로부터 소정의 관절의 위치를 추출한 제1 피처 및 추출된 관절이 어느 등장 인물에 대한 것인지를 나타내는 제2피처를 획득하고, 제1피처 및 제2피처를 기 확보된 인간 자세 데이터와 비교하여 제1피처 및 상기 제2피처를 최적화하는 피드-포워드 네트워크에 기초하여 생성되는 딥러닝 기반의 키-포인트 추출 알고리즘을 기초로 하여 상기 키-포인트를 검출하도록 구현될 수 있다.In particular, according to an embodiment of the present application, the CCTV recording device 100 obtains a first feature that extracts the position of a predetermined joint from a learning image and a second feature indicating which character the extracted joint is for, and , based on a deep learning-based key-point extraction algorithm generated based on a feed-forward network that optimizes the first and second features by comparing the first and second features with previously secured human posture data. to detect the key-point.

본원의 일 실시예에 따르면, 제1피처는 Confidence Maps일 수 있고, 제2피처는 Affinity Field일 수 있다.According to an embodiment of the present application, the first feature may be Confidence Maps, and the second feature may be an Affinity Field.

도 4는 본원의 일 실시예에 따른 딥러닝 기반의 키-포인트 추출 알고리즘을 설명하기 위한 도면이다.4 is a diagram for explaining a key-point extraction algorithm based on deep learning according to an embodiment of the present application.

도 4를 참조하면, 딥러닝 기반의 키-포인트 추출 알고리즘은 입력 컬러 이미지((a); 학습 이미지)에서 등장 인물의 신체 부위 각각에 대한 2차원 Confidence maps(제1 피처, (b))를 예측할 수 있다. 딥러닝 기반의 키-포인트 추출 알고리즘 생성을 위한 학습 초반에는 제1피처가 유의미하지 않게 추출될 수 있으나, 이를 피드-포워드 네트워크(Feed-Forward Network)에 기초하여 기 확보된 인간 자세 데이터와의 비교를 통해 최적화하게 되면, 점차 등장 인물의 관절 위치에 근접한 키-포인트를 추출하게 된다. 제2 피처인 Affinity filed(c)는 추출된 관절 위치가 누구의 관절 위치인지를 나타내는 특성(벡터 필드 세트)을 반영한 것으로, 딥러닝 기반의 키-포인트 추출 알고리즘은 새로이 인가되는 입력 이미지로부터 제1피처와 제2피처를 추출하고, 이를 조합하여 도 4의 (e)와 같은 복수의 키-포인트를 포함하는 Human Skeleton을 추출할 수 있다. 특히, 등장 인물의 신체를 이루는 각 부분을 조합하여 Human Skeleton을 생성하는 경우, Greedy Relaxation을 통해 각 부분이 어느 등장 인물의 것인지를 판단할 수 있다.Referring to FIG. 4, the deep learning-based key-point extraction algorithm generates two-dimensional Confidence maps (first feature, (b)) for each body part of a character from an input color image ((a); learning image). predictable. Although the first feature may be insignificantly extracted at the beginning of learning for generating a key-point extraction algorithm based on deep learning, it is compared with human posture data obtained in advance based on a Feed-Forward Network. By optimizing through The second feature, Affinity field (c), reflects the characteristic (vector field set) indicating whose joint position the extracted joint position is, and the deep learning-based key-point extraction algorithm uses the first A human skeleton including a plurality of key-points as shown in FIG. 4(e) can be extracted by extracting the feature and the second feature and combining them. In particular, in the case of generating a human skeleton by combining each part of a character's body, it is possible to determine which character's each part belongs to through greedy relaxation.

CCTV 촬영 장치(100)는 검출된 키-포인트 사이의 각도 정보를 계산할 수 있다. 본원의 일 실시예에 따르면, 키-포인트 사이의 각도 정보를 계산하기 위하여, 관절의 위치에 대응되는 키-포인트의 적어도 일부를 잇는 복수의 연결선을 생성하고, 각각의 관절의 위치에 대응되는 키-포인트에 대하여 생성된 두 연결선 사이의 각도를 측정하여 해당 키-포인트에 대한 각도 정보로 결정할 수 있다. 이해를 돕기 위해 예시하면, CCTV 촬영 장치(100)는 도 3에 도시된 6번 키-포인트에 대한 각도 정보를 결정하기 위하여, 5번 키-포인트 및 6번 키-포인트를 잇는 연결선과 6번 키-포인트 및 7 번 키-포인트를 잇는 연결선 사이의 각도를 계산할 수 있고, 계산된 각도값을 6번 키-포인트에 대한 각도 정보로 결정할 수 있다. CCTV 촬영 장치(100)는 CCTV 영상에 포함된 프레임 각각에 대하여 복수의 등장 인물 별 키-포인트 각각에 대한 각도 정보를 계산할 수 있다. 본원의 일 실시예에 따르면, CCTV 촬영 장치(100)는 CCTV 영상에 포함된 매 프레임에 대하여 각도 정보를 계산하거나 소정의 간격(예를 들어, 프레임 간격 2, 3 등)을 갖는 프레임마다 각도 정보를 계산하도록 동작할 수 있다.The CCTV photographing apparatus 100 may calculate the angle information between the detected key-points. According to an embodiment of the present application, in order to calculate the angle information between the key-points, a key-point corresponding to the position of the joint is generated, a plurality of connecting lines connecting at least a portion of the point is generated, and a key corresponding to the position of each joint is generated. - By measuring the angle between two connecting lines created for a point, it can be determined with angle information about the corresponding key-point. As an example to help understanding, the CCTV recording device 100 is a connecting line connecting the 5th key-point and the 6th key-point and the 6th key-point in order to determine the angle information for the 6th key-point shown in FIG. The angle between the key-point and the connecting line connecting the 7th key-point may be calculated, and the calculated angle value may be determined as angle information for the 6th key-point. The CCTV photographing apparatus 100 may calculate angle information for each key-point of a plurality of characters for each frame included in the CCTV image. According to an embodiment of the present application, the CCTV photographing apparatus 100 calculates angle information for every frame included in the CCTV image or angle information for each frame having a predetermined interval (eg, frame intervals 2, 3, etc.) can be operated to calculate

또한, CCTV 촬영 장치(100)는 기 생성된 분류 모델을 통해 키-포인트 사이의 각도 정보의 변화 정도에 기초하여 폭행 상황의 발생을 감지할 수 있다.In addition, the CCTV photographing apparatus 100 may detect the occurrence of an assault situation based on the degree of change in angle information between key-points through a pre-generated classification model.

여기서, 본원의 일 실시예에 따르면, 기 생성된 분류 모델은 폭행 상황을 포함하는 복수의 라벨링된 학습 영상 데이터에 기초하여 SVM(Support Vector Machine) 기법에 의해 생성된 것을 의미할 수 있다.Here, according to an embodiment of the present application, the pre-generated classification model may mean that it is generated by a support vector machine (SVM) technique based on a plurality of labeled learning image data including an assault situation.

보다 구체적으로, 기 생성된 분류 모델을 생성하기 위하여, 폭행 상황을 포함하는 복수의 학습 영상 데이터(예를 들면, 영화, 드라마, 블랙박스 영상 등)를 활용하여 해당 학습 영상 데이터 각각에 대하여 등장 인물들을 폭행을 가하는 등장 인물, 폭행을 당하는 등장 인물, 폭행에 관여하지 않는 등장 인물 별로 라벨링하고, 라벨링 처리된 학습 영상 데이터를 SVM 기법을 통해 분류를 위한 학습을 반복 수행할 수 있다. More specifically, in order to generate a pre-generated classification model, a plurality of learning image data (eg, movie, drama, black box image, etc.) including an assault situation is utilized to generate a character for each corresponding learning image data. It is possible to label each of the characters who assault them, the characters who are assaulted, and the characters who are not involved in the assault, and repeat the learning for classification of the labeled learning image data through the SVM technique.

상술한 학습에 기초하여, 본원에서의 기 생성된 분류 모델은 CCTV 영상에서 소정의 간격의 프레임 변화에 따른 키-포인트 사이의 각도 정보의 변화 정도를 입력으로 하여 CCTV 영상 내 등장 인물 각각이 폭행을 가하는지 여부, 폭행을 당하는지 여부 및 폭행과 무관한지 여부 중 적어도 하나에 대한 분류 결과를 출력으로 제공할 수 있다.Based on the above-described learning, the classification model created in the present application receives as an input the degree of change in angle information between key-points according to the frame change of a predetermined interval in the CCTV image, and each of the characters in the CCTV image is assaulted. A classification result for at least one of whether or not the victim is assaulted, whether or not assaulted is not related to the assault may be provided as an output.

또한, 본원의 일 실시예에 따르면, CCTV 촬영 장치(100)는 폭행 상황의 발생이 감지되는 경우, 폭행 상황과 연계된 알림 신호를 생성하고, 생성된 알림 신호를 사용자 단말(30)에 전송할 수 있다. 구체적으로, 본원에서의 '폭행 상황'은 등장 인물 중 어느 하나가 폭행을 당하는 제1상황 및 등장 인물 중 어느 하나가 폭행을 가하는 제2상황을 포함하는 개념으로 이해될 수 있다. 본원에서의 CCTV 촬영 장치(100)는 상술한 제1상황 및 제2상황 중 적어도 하나가 발생한 경우, 폭행 상황과 연계된 알림 신호를 생성하도록 동작할 수 있다.In addition, according to an embodiment of the present application, when the occurrence of an assault situation is detected, the CCTV photographing apparatus 100 may generate a notification signal associated with the assault situation and transmit the generated notification signal to the user terminal 30 . there is. Specifically, the 'assault situation' in the present application may be understood as a concept including a first situation in which any one of the characters is assaulted and a second situation in which any one of the characters is assaulted. The CCTV photographing apparatus 100 in the present application may operate to generate a notification signal associated with an assault situation when at least one of the first and second situations described above occurs.

또한, 본원의 일 실시에에 따르면, CCTV 촬영 장치(100)는 폭행 상황과 연계된 알림 신호를 출력하는 음향 출력 모듈을 포함할 수 있다. 이에 따라, CCTV 촬영 장치(100)는 생성된 알림 신호를 사용자 단말(300)에 전송하여 보안 담당자 등이 폭행 상황의 발생을 인식할 수 있도록 할뿐만 아니라, 생성된 알림 신호에 기초하여 CCTV 촬영 장치(100) 자체에도 음향 출력 모듈을 통해 경보음, 경고음, 사이렌 등의 음향을 방사하여 감시 대상 공간에서 발생한 폭행 상황을 중지하도록 유도할 수 있다. 다른 예로, CCTV 촬영 장치(100)는 폭행 상황과 연계된 알림 신호에 따라 점등되거나 점멸되어 폭행 상황의 중지를 유도하는 광원 모듈을 포함할 수 있다. 또한, 본원의 일 실시예에 따르면, 상술한 음향 출력 모듈 또는 광원 모듈에서 방사되는 음향의 세기, 유형, 방사되는 광의 세기, 색상 등은 후술하는 폭행 상황과 연계된 위험도에 기초하여 결정되는 것일 수 있다.In addition, according to an embodiment of the present application, the CCTV photographing apparatus 100 may include a sound output module for outputting a notification signal associated with an assault situation. Accordingly, the CCTV photographing device 100 transmits the generated notification signal to the user terminal 300 so that the security officer or the like can recognize the occurrence of an assault situation, and based on the generated notification signal, the CCTV photographing device (100) itself can be induced to stop the assault situation occurring in the space to be monitored by emitting sounds such as an alarm sound, a warning sound, and a siren through the sound output module. As another example, the CCTV photographing apparatus 100 may include a light source module that lights up or flickers according to a notification signal associated with the assault situation to induce the cessation of the assault situation. In addition, according to an embodiment of the present application, the intensity, type, intensity, color, etc. of the sound emitted from the sound output module or the light source module described above may be determined based on the risk associated with the assault situation to be described later. there is.

또한, 본원의 일 실시예에 따르면, CCTV 촬영 장치(100)는 폭행 상황의 발생이 감지되는 경우, 폭행 상황이 발생이 감지된 프레임의 전후 기 설정된 프레임수의 프레임 집합을 포함하는 클립 영상을 생성 및 저장할 수 있다. 이러한 클립 영상은 CCTV 촬영 장치(100)에 내장되는 저장매체 등에 자동으로 저장될 수 있으며, 이후 폭행에 대한 증거 자료로 기능하거나, 방대한 CCTV 영상 데이터에서 폭행 상황을 포함하는 부분 영상을 쉽게 탐색 가능하도록 활용될 수 있다.In addition, according to an embodiment of the present application, when the occurrence of an assault situation is detected, the CCTV photographing apparatus 100 generates a clip image including a frame set of a preset number of frames before and after the frame in which the occurrence of the assault situation is detected. and can be stored. Such a clip image may be automatically stored on a storage medium embedded in the CCTV photographing device 100, etc. can be utilized.

또한, 본원의 일 실시예에 따르면, CCTV 촬영 장치(100)는 감지된 폭행 상황의 위험도를 분석할 수 있다. 또한, CCTV 촬영 장치(100)는 위험도에 기초하여 알림 신호의 경보 수준을 결정하도록 동작할 수 있다. 예를 들어, CCTV 촬영 장치(100)는 폭행을 가하는 등장 인물 또는 폭행을 당하는 등장 인물의 소정의 키-포인트 각도의 변화 정도에 기초하여 폭행 상황이 지속되는 시간을 파악하고 폭행 상황과 연계된 CCTV 영상 내 색상 정보, 객체 식별 정도 등에 기초하여 파악되는 출혈, 기물 파손, 흉기 등의 세부 상황 정보 등을 고려하여 폭행 상황의 위험도를 평가하는 것일 수 있다.In addition, according to an embodiment of the present application, the CCTV photographing apparatus 100 may analyze the degree of risk of the detected assault situation. In addition, the CCTV photographing apparatus 100 may operate to determine the alert level of the notification signal based on the degree of risk. For example, the CCTV recording device 100 determines the duration of the assault situation based on the degree of change of the predetermined key-point angle of the character who is assaulted or the character who is being assaulted, and the CCTV associated with the assault situation It may be to evaluate the risk of an assault situation in consideration of detailed situation information such as bleeding, vandalism, and weapon, etc., which are identified based on color information in the image, degree of object identification, and the like.

또한, 실시예에 따라 CCTV 촬영 장치(100)는 서로 다른 공간에 대한 복수의 CCTV 영상을 획득하거나, 복수의 CCTV 촬영 장치(100)에 의해 서로 다른 복수의 감시 대상 공간이 촬영되어 복수의 CCTV 영상이 획득되는 경우, CCTV 촬영 장치(100 또는 폭행 감지 장치(200)는 복수의 CCTV 영상 각각에 대하여 결정된 위험도에 기초하여 위험도가 높은 CCTV 영상에 대한 알림 신호를 위험도가 낮은 CCTV 영상에 대한 알림 신호보다 우선적으로 생성 및 전송하도록 동작할 수 있다.In addition, according to the embodiment, the CCTV photographing apparatus 100 acquires a plurality of CCTV images for different spaces, or a plurality of different monitoring target spaces are photographed by a plurality of CCTV photographing apparatuses 100 to obtain a plurality of CCTV images. When this is obtained, the CCTV recording device 100 or the assault detection device 200 transmits a notification signal for a high-risk CCTV image based on a risk determined for each of a plurality of CCTV images, a notification signal for a low-risk CCTV image. It may operate to generate and transmit preferentially.

도 5는 본원의 일 실시예에 따른 폭행 감지 기능을 구비한 CCTV 촬영 장치의 개략적인 구성도이다.5 is a schematic configuration diagram of a CCTV camera having an assault detection function according to an embodiment of the present application.

도 5를 참조하면, 본원의 일 실시예에 따른 폭행 감지 기능을 구비한 CCTV 촬영 장치(100)는, 카메라부(110), 인물 식별부(120), 연산부(130), 폭행 감지부(140) 및 알림 출력부(150)를 포함할 수 있다.Referring to FIG. 5 , the CCTV photographing apparatus 100 having an assault detection function according to an embodiment of the present application includes a camera unit 110 , a person identification unit 120 , an operation unit 130 , and an assault detection unit 140 . ) and a notification output unit 150 .

카메라부(110)는, 소정의 감시 대상 공간을 촬영하여 CCTV 영상을 생성할 수 있다.The camera unit 110 may generate a CCTV image by photographing a predetermined monitoring target space.

인물 식별부(120)는, 촬영된 CCTV 영상에서 등장 인물을 식별할 수 있다.The person identification unit 120 may identify the person in the captured CCTV image.

연산부(130)는, 식별된 등장 인물 각각에 대한 키-포인트를 검출하고, 검출된 키-포인트 사이의 각도 정보를 계산할 수 있다.The calculator 130 may detect a key-point for each of the identified characters, and calculate angle information between the detected key-points.

본원의 일 실시예에 따르면, 연산부(130)는, 등장 인물의 신체 중 관절의 위치에 대응되는 지점을 키-포인트로 검출할 수 있다. 또한, 본원의 일 실시예에 따르면, 연산부(130)는, 학습 이미지로부터 소정의 관절의 위치를 추출한 제1 피처 및 추출된 관절이 어느 등장 인물에 대한 것인지를 나타내는 제2피처를 획득하고, 제1피처 및 제2피처를 기 확보된 인간 자세 데이터와 비교하여 제1피처 및 제2피처를 최적화하는 피드-포워드 네트워크에 기초하여 생성되는 딥러닝 기반의 키-포인트 추출 알고리즘을 기초로 하여 키-포인트를 검출할 수 있다.According to an embodiment of the present application, the calculator 130 may detect a point corresponding to the position of the joint in the body of the character as a key-point. In addition, according to an embodiment of the present application, the calculating unit 130 obtains a first feature from which the position of a predetermined joint is extracted from the learning image and a second feature indicating which character the extracted joint is for, and Based on a deep learning-based key-point extraction algorithm generated based on a feed-forward network that optimizes the first and second features by comparing the first and second features with previously secured human posture data, the key- points can be detected.

또한, 본원의 일 실시예에 따르면, 연산부(130)는, 관절의 위치에 대응되는 키-포인트의 적어도 일부를 잇는 복수의 연결선을 생성하고, 각각의 관절의 위치에 대응되는 키-포인트에 대하여 생성된 두 연결선 사이의 각도를 측정하여 해당 키-포인트에 대한 각도 정보로 결정할 수 있다.In addition, according to an embodiment of the present application, the operation unit 130 generates a plurality of connecting lines connecting at least some of the key-points corresponding to the positions of the joints, and for the key-points corresponding to the positions of the respective joints. By measuring the angle between the two generated connecting lines, it can be determined as angle information for the corresponding key-point.

폭행 감지부(140)는, 기 생성된 분류 모델을 통해 검출된 키-포인트 사이의 각도 정보의 변화 정도에 기초하여 폭행 상황의 발생을 감지할 수 있다. 여기서, 기 생성된 분류 모델은, 폭행 상황을 포함하는 복수의 라벨링된 학습 영상 데이터에 기초하여 SVM(Support Vector Machine) 기법에 의해 생성될 수 있다.The assault detection unit 140 may detect the occurrence of an assault situation based on a degree of change in angle information between key-points detected through a pre-generated classification model. Here, the pre-generated classification model may be generated by a support vector machine (SVM) technique based on a plurality of labeled learning image data including an assault situation.

알림 출력부(150)는, 폭행 상황의 발생이 감지되는 경우, 폭행 상황과 연계된 알림 신호를 생성 및 전송할 수 있다.When the occurrence of an assault situation is detected, the notification output unit 150 may generate and transmit a notification signal associated with the assault situation.

도 6은 본원의 일 실시예에 따른 CCTV 영상에 기초한 폭행 감지 장치의 개략적인 구성도이다.6 is a schematic configuration diagram of an assault detection device based on a CCTV image according to an embodiment of the present application.

도 6을 참조하면, 본원의 일 실시예에 따른 CCTV 영상에 기초한 폭행 감지 장치(200)는, 영상 수신부(210), 인물 식별부(220), 연산부(230), 폭행 감지부(240) 및 알림 출력부(250)를 포함할 수 있다.Referring to FIG. 6 , the assault detection apparatus 200 based on the CCTV image according to an embodiment of the present application includes an image receiving unit 210 , a person identification unit 220 , a calculating unit 230 , an assault detection unit 240 and A notification output unit 250 may be included.

영상 수신부(210)는, CCTV 촬영 장치(100)에 의해 촬영된 CCTV 영상을 수신할 수 있다.The image receiving unit 210 may receive a CCTV image captured by the CCTV photographing apparatus 100 .

인물 식별부(220)는, 수신된 CCTV 영상에서 등장 인물을 식별할 수 있다.The person identification unit 220 may identify a person from the received CCTV image.

연산부(230)는, 식별된 등장 인물 각각에 대한 키-포인트를 검출하고, 검출된 키-포인트 사이의 각도 정보를 계산할 수 있다.The calculator 230 may detect key-points for each of the identified characters, and calculate angle information between the detected key-points.

폭행 감지부(240)는, 기 생성된 분류 모델을 통해 키-포인트 사이의 각도 정보의 변화 정도에 기초하여 폭행 상황의 발생을 감지할 수 있다.The assault detection unit 240 may detect the occurrence of an assault situation based on a degree of change in angle information between key-points through a pre-generated classification model.

알림 출력부(250)는, 폭행 상황의 발생이 감지되는 경우, 폭행 상황과 연계된 알림 신호를 생성 및 전송할 수 있다.When the occurrence of an assault situation is detected, the notification output unit 250 may generate and transmit a notification signal associated with the assault situation.

이하에서는 상기에 자세히 설명된 내용을 기반으로, 본원의 동작 흐름을 간단히 살펴보기로 한다.Hereinafter, an operation flow of the present application will be briefly reviewed based on the details described above.

도 7은 본원의 일 실시예에 따른 CCTV 영상에 기초한 폭행 감지 방법의 동작 흐름도이다.7 is an operation flowchart of an assault detection method based on a CCTV image according to an embodiment of the present application.

도 7에 도시된 CCTV 영상에 기초한 폭행 감지 방법은 앞서 설명된 폭행 감지 기능을 구비한 CCTV 촬영 장치(100) 또는 CCTV 영상에 기초한 폭행 감지 장치(200)에 의하여 수행될 수 있다. 따라서, 이하 생략된 내용이라고 하더라도 폭행 감지 기능을 구비한 CCTV 촬영 장치(100) 또는 CCTV 영상에 기초한 폭행 감지 장치(200)에 대하여 설명된 내용은 CCTV 영상에 기초한 폭행 감지 방법에 대한 설명에도 동일하게 적용될 수 있다.The assault detection method based on the CCTV image shown in FIG. 7 may be performed by the CCTV photographing apparatus 100 having the above-described assault detection function or the assault detection apparatus 200 based on the CCTV image. Therefore, even if omitted below, the contents described with respect to the CCTV recording device 100 having an assault detection function or the assault detection device 200 based on the CCTV image are the same in the description of the assault detection method based on the CCTV image. can be applied.

도 7을 참조하면, 단계 S710에서 인물 식별부(120, 220)는, CCTV 영상에서 등장 인물을 식별할 수 있다.Referring to FIG. 7 , in step S710 , the person identification units 120 and 220 may identify the person in the CCTV image.

다음으로, 단계 S720에서 연산부(130, 230)는, 식별된 등장 인물에 대한 키-포인트를 검출할 수 있다.Next, in step S720, the operation units 130 and 230 may detect a key-point for the identified person.

다음으로, 단계 S730에서 연산부(130, 230)는, 검출된 키-포인트 사이의 각도 정보를 계산할 수 있다.Next, in step S730, the calculators 130 and 230 may calculate angle information between the detected key-points.

다음으로, 단계 S740에서 폭행 감지부(140, 240)는, 기 생성된 분류 모델을 통해 키-포인트 사이의 각도 정보의 변화 정도에 기초하여 폭행 상황의 발생을 감지할 수 있다.Next, in step S740, the assault detection units 140 and 240 may detect the occurrence of an assault situation based on the degree of change in angle information between key-points through the pre-generated classification model.

다음으로, 단계 S750에서 알림 출력부(150, 250)는 단계 S740에서 폭행 감지부(140, 240)가 폭행 상황이 발생한 것으로 감지했는지 여부를 판단할 수 있다. 만일, CCTV 영상으로부터 폭행 상황이 감지되지 않은 경우(NO), 알림 신호 생성 및 전송 절차(단계 S760)를 수행하지 않고, 새롭게 획득되는 CCTV 영상에 대한 선행 단계들을 반복 수행할 수 있다. 반대로, CCTV 영상으로부터 폭행 상황이 감지된 경우(YES) 단계 S760으로 진행할 수 있다.Next, in step S750 , the notification output units 150 and 250 may determine whether the assault detection unit 140 or 240 detects that an assault situation has occurred in step S740 . If the assault situation is not detected from the CCTV image (NO), the preceding steps for the newly acquired CCTV image may be repeatedly performed without performing the notification signal generation and transmission procedure (step S760). Conversely, if an assault situation is detected from the CCTV image (YES), the process may proceed to step S760.

단계 S760에서 알림 출력부(150, 250)는, 폭행 상황과 연계된 알림 신호를 생성하고, 생성된 알림 신호를 사용자 단말(30)로 전송할 수 있다.In step S760 , the notification output units 150 and 250 may generate a notification signal associated with an assault situation and transmit the generated notification signal to the user terminal 30 .

상술한 설명에서, 단계 S710 내지 S760은 본원의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.In the above description, steps S710 to S760 may be further divided into additional steps or combined into fewer steps according to an embodiment of the present application. In addition, some steps may be omitted if necessary, and the order between steps may be changed.

지금까지 상술한 폭행 감지 기능을 구비한 CCTV 촬영 장치(100) 및 CCTV 영상에 기초한 폭행 감지 장치(200)에 대한 설명은, 본원의 구현예에 따라서, 하기에서 서술하는 기계학습 기반의 폭행 방지 CCTV 시스템에 대한 설명을 통해서 이해될 수 있다. 따라서, 이하, 생략된 내용이라고 하더라도 상술한 CCTV 촬영 장치(100) 및 CCTV 영상에 기초한 폭행 감지 장치(200)에 대하여 설명된 내용은 하기의 기계학습 기반의 폭행 방지 CCTV 시스템에도 동일하게 적용될 수 있다.The description of the CCTV recording device 100 having the above-described assault detection function and the assault detection device 200 based on the CCTV image is, according to the embodiment of the present application, the machine learning-based assault prevention CCTV described below. It can be understood through the description of the system. Therefore, hereinafter, even if omitted, the contents described with respect to the above-described CCTV photographing device 100 and the assault detection device 200 based on the CCTV image may be equally applied to the following machine learning-based assault prevention CCTV system. .

본원의 일 실시예에 따른 기계학습 기반의 폭행방지 CCTV 시스템은 CCTV로부터 복수의 다양한 영상을 수신할 수 있다. Machine learning-based assault prevention CCTV system according to an embodiment of the present application may receive a plurality of various images from the CCTV.

기계학습 기반의 폭행 방지 CCTV 시스템은 복수개의 CCTV에서 얻은 영상 정보를 실시간으로 감지할 수 있다. 기계학습 기반의 폭행 방지 CCTV 시스템은 딥러닝 방법으로 영상에 표시되는 대상이 되는 사람, 그 주변인 모두의 움직임을 실시간으로 파악해서 인식 정보를 저장한다. 또한, 본원의 일 실시예에 따르면, 기계학습 기반의 폭행 방지 CCTV 시스템은 모든 사람의 관절, 연결부에 해당하는 key-point를 딥러닝을 통해 추출할 수 있다. CCTV의 풀 영상 전체를 분석하여 영상인식을 통해 객체의 움직임을 파악하는 경우, 방대한 연산량이 필요하며 그에 따라 분석 시간도 상대적으로 길어지게 된다. 하지만, 본원의 일 실시예에 따른 기계학습 기반의 폭행 방지 CCTV 시스템은 영상 중 사람인 객체를 인식할 수 있는 key-point를 딥러닝을 통해 추출하고, key-point간의 각도 연산을 통해 폭행상황을 판단하기 때문에, 보다 적은 연산량으로 빠르게 실시간으로 폭생 발생 상황을 판단할 수 있다.Machine learning-based assault prevention CCTV system can detect video information obtained from multiple CCTVs in real time. Machine learning-based assault prevention CCTV system uses deep learning method to capture the movements of the target person displayed in the video and all those around them in real time and store the recognition information. In addition, according to an embodiment of the present application, the machine learning-based assault prevention CCTV system can extract key-points corresponding to joints and connections of all people through deep learning. In the case of analyzing the full video of CCTV and grasping the movement of an object through image recognition, a large amount of computation is required and, accordingly, the analysis time is relatively long. However, the machine learning-based assault prevention CCTV system according to an embodiment of the present application extracts a key-point capable of recognizing a human object in the image through deep learning, and determines the assault situation by calculating the angle between the key-points Therefore, it is possible to quickly determine the explosion occurrence situation in real time with a smaller amount of calculation.

기계학습 기반의 폭행 방지 CCTV 시스템은 key-point 정보를 바탕으로 대상자의 움직임을 각도로 예측할 수 있다. 기계학습 기반의 폭행 방지 CCTV 시스템은 key-point 간의 각도를 추출 및 연산하고, 추출된 각도의 변화를 분석하여 폭행이 일어났는가를 판단할 수 있다. 예를 들어, 기계학습 기반의 폭행 방지 CCTV 시스템은 사람 영상의 관절, 연결부, 움직임 패턴을 포함하고 있고, 딥 러닝에 따라 key point 각도와 사람 영상의 행동 또는 움직임의 정보와 연계하여 판단한다.Machine-learning-based assault prevention CCTV system can predict the movement of a subject at an angle based on key-point information. The machine learning-based assault prevention CCTV system extracts and calculates the angle between key-points, and analyzes the change in the extracted angle to determine whether an assault has occurred. For example, an assault prevention CCTV system based on machine learning includes joints, connections, and movement patterns of human images, and is determined in association with key point angles and behavior or movement information of human images according to deep learning.

또한, 본원의 일 실시예에 따르면, 기계학습 기반의 폭행 방지 CCTV 시스템은 폭행이 일어났는지 여부, 분류에 따른 CCTV 영상들을 Labeling한다. 본원의 일 실시예에 따르면, 기계학습 기반의 폭행 방지 CCTV 시스템은 먼저 임의로 폭행이 일어난 다양한 영상을 활용하여(영화, 폭행장면 블랙박스 등) 위에서 제시한 프로세스에 따라 영상 내 객체의 key-point의 각도를 추출한다. 그리고 각각 사람이 폭행을 하는지, 폭행을 당하는지를 구분하여 labeling한다. 그리고 처리된 데이터를 SVM(support vector machine)방법을 사용하여 classification을 훈련시킨다.In addition, according to an embodiment of the present application, the machine learning-based assault prevention CCTV system labels whether an assault has occurred and CCTV images according to classification. According to an embodiment of the present application, the machine learning-based assault prevention CCTV system first utilizes various images of arbitrary assault (movies, assault scene black box, etc.) Extract the angle. And labeling is done by distinguishing whether a person is being assaulted or being assaulted. Then, classification is trained using the SVM (support vector machine) method on the processed data.

그 다음 만들어진 모듈을 활용하여 CCTV에 찍힌 영상을 실시간으로 감시하여 영상에서 폭행을 하거나 당하는 경우 중 하나만 있어도 경비원에게 경보를 보내줄 수 있다.Then, by using the created module, the video recorded on the CCTV can be monitored in real time, and an alert can be sent to the security guard even if there is only one case of being assaulted or being assaulted in the video.

또한, 본원에서는 인공지능 기반으로 실시간 폭력방지 CCTV 시스템을 구현하였다. 본원에서 최종 목적으로 폭력방지를 목적으로 삼고, 인공지능 기법을 사용하여 사람 탐지, 추적 및 행위 판단을 한다. 또한 시스템의 운영환경상 필수로 실시간이 필요하다. 이를 위해 본원에서는 제품 단가를 고려하여 임베디드 graph를 사용하고 최적화를 하여 실시간으로 결과를 추출할 수 있게 구현되었다. 폭력 행위를 탐지하기 위하여, 본원에서는 먼저 인간 2D 포즈 추정을 하여야 한다. 인간의 2D 포즈 추정은 각각 인간의 신체 부분을 찾는데 중점을 두고 있다. 먼저, 각 영상에 서는 어떤 위치에 어떤 포즈가 어떤 크기로 발생할 수 있는지 알 수 없다. 둘째, 사람 간의 접촉 및 관절 움직임으로 인해 복잡한 공간 간섭을 유발하여 포즈 검출을 어렵게 만든다. 셋째, 영상의 인원이 늘어남에 따라 런타임 복잡성이 증가하는 경향이 있어 실시간 성능이 문제가 된다.In addition, we implemented a real-time anti-violence CCTV system based on artificial intelligence. The final purpose of this application is to prevent violence, and artificial intelligence techniques are used to detect, track, and judge people. In addition, real-time is necessary because of the operating environment of the system. To this end, in this study, the embedded graph was used in consideration of the product cost, and it was implemented so that the results could be extracted in real time by optimization. In order to detect an act of violence, in the present application, human 2D pose estimation must first be performed. Human 2D pose estimation focuses on finding each human body part. First, in each image, it is not possible to know which pose can occur at which position and at which size. Second, it causes complex spatial interference due to human-to-human contact and joint movement, making pose detection difficult. Third, as the number of images increases, runtime complexity tends to increase, so real-time performance becomes a problem.

본원의 일 실시예에 따른 기계학습 기반의 폭행 방지 CCTV 시스템은 영상 중 사람인 객체를 인식할 수 있는 key-point를 딥러닝을 통해 추출하고, key-point간의 각도 연산을 통해 폭행상황을 판단하는 프로세스를 설명한다. 시스템은 입력으로 크기 w Х h의 컬러 영상에서 프레임 단위를 취하고, 이미지에서 각 사람에 대한2D 위치를 출력한다. 이를 위해 먼저, feed-forward network로 인간 신체 부위 위치의 2D confidence maps를 예측한다. 즉, Confidence map은 이미지 속 사람의 관절 위치를 파악하는데 사용된다. 그 과정은 학습 초기단계에선 input 이미지에 따른 별 의미 없는 feature를 뽑게 된다. 하지만, 이 feature를 human pose data와 비교를 하고, 그 차이점을 점점 줄여나가는 방향으로 optimize를 진행하게되면 feature들은 점점 사람의 관절 위치를 나타내는 방향으로 나타나게 될 것이다. 또한 part affinities의 2D 벡터 필드 (L) 세트를 동시에 예측한다. 즉, Affinity field는 이미지에서 추출된 관절의 주인이 누구인가를 파악하는데 사용된다. confidence map과 affinity field를 조합하여 완성된 human skeleton을 만들어야 한다. 조합할 때는 greedy relaxation을 통해 각 part를 조합하게 된다. confidence map을 통해 나온 각 part를 조합할 때 이미지 속 사람이 여러명이라면 greedy relaxation을 통해 각 part의 주인이 누구 인가에 대한 판단을 하게 된다.Machine learning-based assault prevention CCTV system according to an embodiment of the present application is a process of extracting a key-point that can recognize a human object in an image through deep learning, and determining the assault situation by calculating the angle between the key-points explain The system takes as input frame units from a color image of size w Х h, and outputs a 2D position for each person in the image. To do this, first, we predict 2D confidence maps of the human body part positions with a feed-forward network. That is, the Confidence map is used to determine the joint position of a person in the image. In the initial stage of learning, the process selects meaningless features according to the input image. However, if this feature is compared with human pose data and the optimization is performed in a direction that gradually reduces the difference, the features will gradually appear in the direction indicating the position of the human joint. It also predicts a set of 2D vector fields (L) of part affinities simultaneously. That is, the affinity field is used to figure out who the owner of the joint extracted from the image is. A complete human skeleton should be created by combining the confidence map and affinity field. When combining, each part is combined through greedy relaxation. When combining each part from the confidence map, if there are several people in the image, greedy relaxation is used to determine who the owner of each part is.

마지막으로 영상에서 각 이미지의 사람 포즈의 좌표를 통해 multi classification을 통해 폭행을 하는지, 폭행을 당하는지, 아무 행위가 없는지를 결정한다. 여기서 각각 영상에서 사람 포즈의 좌표가 상대 위치에 있기에 각각 사람의 24좌표간의 각도를 계산하여 예측을 진행한다.Finally, based on the coordinates of the person's pose in each image in the image, it is determined whether there is an assault, an assault, or no action through multi classification. Here, since the coordinates of the person's poses in each image are in relative positions, the angle between the 24 coordinates of each person is calculated and prediction is performed.

본원의 일 실시 예에 따른 CCTV 영상에 기초한 폭행 감지 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The assault detection method based on the CCTV image according to an embodiment of the present application may be implemented in the form of a program command that can be executed through various computer means and recorded in a computer-readable medium. The computer-readable medium may include program instructions, data files, data structures, etc. alone or in combination. The program instructions recorded on the medium may be specially designed and configured for the present invention, or may be known and available to those skilled in the art of computer software. Examples of the computer-readable recording medium include magnetic media such as hard disks, floppy disks and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic such as floppy disks. - includes magneto-optical media, and hardware devices specially configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like. Examples of program instructions include not only machine language codes such as those generated by a compiler, but also high-level language codes that can be executed by a computer using an interpreter or the like. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.

또한, 전술한 CCTV 영상에 기초한 폭행 감지 방법은 기록 매체에 저장되는 컴퓨터에 의해 실행되는 컴퓨터 프로그램 또는 애플리케이션의 형태로도 구현될 수 있다.In addition, the assault detection method based on the above-described CCTV image may be implemented in the form of a computer program or application executed by a computer stored in a recording medium.

전술한 본원의 설명은 예시를 위한 것이며, 본원이 속하는 기술분야의 통상의 지식을 가진 자는 본원의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.The foregoing description of the present application is for illustration, and those of ordinary skill in the art to which the present application pertains will understand that it can be easily modified into other specific forms without changing the technical spirit or essential features of the present application. Therefore, it should be understood that the embodiments described above are illustrative in all respects and not restrictive. For example, each component described as a single type may be implemented in a dispersed form, and likewise components described as distributed may be implemented in a combined form.

본원의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본원의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present application is indicated by the following claims rather than the above detailed description, and all changes or modifications derived from the meaning and scope of the claims and their equivalent concepts should be construed as being included in the scope of the present application.

10: 폭행 방지 시스템
100: 폭행 감지 기능을 구비한 CCTV 촬영 장치
110: 카메라부
120: 인물 식별부
130: 연산부
140: 폭행 감지부
150: 알림 출력부
200: CCTV 영상에 기초한 폭행 감지 장치
210: 영상 수신부
220: 인물 식별부
230: 연산부
240: 폭행 감지부
250: 알림 출력부
20: 네트워크
30: 사용자 단말
10: Assault prevention system
100: CCTV recording device with assault detection function
110: camera unit
120: person identification unit
130: arithmetic unit
140: assault detection unit
150: notification output unit
200: Assault detection device based on CCTV image
210: video receiver
220: person identification unit
230: arithmetic unit
240: assault detection unit
250: notification output unit
20: network
30: user terminal

Claims (15)

CCTV 촬영 장치에 의해 수행되는 CCTV 영상에 기초한 폭행 감지 방법에 있어서,
촬영된 CCTV 영상에서 등장 인물을 식별하는 단계;
식별된 상기 등장 인물에 대한 키-포인트를 검출하는 단계;
검출된 상기 키-포인트 사이의 각도 정보를 계산하는 단계;
기 생성된 분류 모델을 통해 상기 키-포인트 사이의 각도 정보의 변화 정도에 기초하여 폭행 상황의 발생을 감지하는 단계; 및
상기 폭행 상황의 발생이 감지되면, 상기 폭행 상황과 연계된 알림 신호를 생성 및 전송하는 단계,
를 포함하고,
상기 키-포인트를 검출하는 단계는,
학습 이미지로부터 소정의 관절의 위치를 추출한 제1피처 및 추출된 관절이 어느 등장 인물에 대한 것인지를 나타내는 제2피처를 획득하고,
상기 제1피처 및 상기 제2피처를 기 확보된 인간 자세 데이터와 비교하여 상기 제1피처 및 상기 제2피처를 최적화하는 피드-포워드 네트워크에 기초하여 생성되는 딥러닝 기반의 키-포인트 추출 알고리즘을 기초로 하여 상기 키-포인트를 검출하되,
상기 제1피처는 상기 추출된 관절을 표시한 Confidence Maps이고, 상기 제2피처는 상기 추출된 관절 위치가 어느 등장 인물에 대한 것인지를 나타내는 벡터 필드 세트인 Affinity Filed이고,
상기 기 생성된 분류 모델은,
폭행 상황을 포함하되, 폭행을 가하는 인물, 폭행을 당하는 인물 및 폭행에 관여하지 않는 인물이 각각 라벨링된 학습 영상 데이터에 기초하여 생성되고,
상기 감지하는 단계는,
상기 CCTV 영상의 소정의 간격의 프레임 변화에 따른 상기 CCTV 영상 내 등장 인물 각각의 상기 키-포인트 사이의 각도 정보의 변화 정보를 상기 분류 모델에 입력하여 상기 등장 인물 각각이 폭행을 가하는지 여부, 폭행을 당하는지 여부 및 폭행과 무관한지 여부 중 적어도 하나에 대한 분류 결과를 출력으로 제공하되,
상기 등장 인물 중 폭행을 가하는 등장 인물 또는 폭행을 당하는 등장 인물의 상기 변화 정보에 기초하여 산출되는 상기 폭행 상황의 지속 시간, 상기 CCTV 영상 내 색상 정보 및 상기 CCTV 영상에서 식별되는 객체를 포함하는 세부 상황 정보에 기초하여 상기 폭행 상황의 위험도를 평가하고,
상기 알림 신호의 경보 수준은 상기 위험도에 기초하여 결정되는 것인, 폭행 감지 방법.
In the assault detection method based on the CCTV image performed by the CCTV recording device,
Identifying a person in the captured CCTV image;
detecting a key-point for the identified character;
calculating angle information between the detected key-points;
Detecting the occurrence of an assault situation based on the degree of change in the angle information between the key-points through the pre-generated classification model; and
When the occurrence of the assault situation is detected, generating and transmitting a notification signal associated with the assault situation;
including,
The step of detecting the key-point comprises:
Obtaining a first feature from which the position of a predetermined joint is extracted from the learning image and a second feature indicating which character the extracted joint is for,
A deep learning-based key-point extraction algorithm generated based on a feed-forward network that optimizes the first and second features by comparing the first and second features with previously secured human posture data. Detecting the key-point on the basis of,
The first feature is Confidence Maps indicating the extracted joints, and the second feature is Affinity Filed, which is a vector field set indicating which character the extracted joint positions are for,
The pre-generated classification model is,
Including the assault situation, the person who is assaulted, the person being assaulted, and the person not involved in the assault are generated based on the labeled learning image data, respectively,
The detecting step is
Whether each of the characters is assaulted by inputting change information of angle information between the key-points in the CCTV image to the classification model according to the frame change at a predetermined interval of the CCTV image, assault Provide as an output the classification result for at least one of whether or not it is subjected to assault and whether it is not related to assault,
A detailed situation including the duration of the assault situation calculated based on the change information of the character who is assaulted or the character who is being assaulted among the characters, color information in the CCTV image, and an object identified in the CCTV image Evaluate the risk of the assault situation based on the information,
The alert level of the notification signal will be determined based on the degree of risk, assault detection method.
제1항에 있어서,
상기 키-포인트를 검출하는 단계는,
상기 등장 인물의 신체 중 관절의 위치에 대응되는 지점을 상기 키-포인트로 검출하는 것인, 폭행 감지 방법.
According to claim 1,
The step of detecting the key-point comprises:
A point corresponding to the position of the joint in the body of the person is detected as the key-point, the assault detection method.
삭제delete 제2항에 있어서,
상기 각도 정보를 계산하는 단계는,
관절의 위치에 대응되는 상기 키-포인트의 적어도 일부를 잇는 복수의 연결선을 생성하는 단계; 및
각각의 관절의 위치에 대응되는 상기 키-포인트에 대하여 생성된 두 연결선 사이의 각도를 측정하여 해당 키-포인트에 대한 각도 정보로 결정하는 단계,
를 포함하는 것인, 폭행 감지 방법.
3. The method of claim 2,
Calculating the angle information includes:
generating a plurality of connecting lines connecting at least a portion of the key-point corresponding to the position of the joint; and
Measuring the angle between the two connecting lines generated with respect to the key-point corresponding to the position of each joint and determining the angle information for the corresponding key-point;
That comprising a, assault detection method.
제4항에 있어서,
상기 기 생성된 분류 모델은,
폭행 상황을 포함하는 복수의 라벨링된 학습 영상 데이터에 기초하여 SVM(Support Vector Machine) 기법에 의해 생성되는 것인, 폭행 감지 방법.
5. The method of claim 4,
The pre-generated classification model is,
Based on a plurality of labeled learning image data including the assault situation will be generated by the SVM (Support Vector Machine) technique, assault detection method.
삭제delete 폭행 감지 기능을 구비한 CCTV 촬영 장치에 있어서,
소정의 감시 대상 공간을 촬영하여 CCTV 영상을 생성하는 카메라부;
촬영된 상기 CCTV 영상에서 등장 인물을 식별하는 인물 식별부;
식별된 상기 등장 인물에 대한 키-포인트를 검출하고, 검출된 상기 키-포인트 사이의 각도 정보를 계산하는 연산부; 및
기 생성된 분류 모델을 통해 상기 키-포인트 사이의 각도 정보의 변화 정도에 기초하여 폭행 상황의 발생을 감지하는 폭행 감지부; 및
상기 폭행 상황의 발생이 감지되면, 상기 폭행 상황과 연계된 알림 신호를 생성 및 전송하는 알림 출력부,
를 포함하고,
상기 연산부는,
학습 이미지로부터 소정의 관절의 위치를 추출한 제1피처 및 추출된 관절이 어느 등장 인물에 대한 것인지를 나타내는 제2피처를 획득하고,
상기 제1피처 및 상기 제2피처를 기 확보된 인간 자세 데이터와 비교하여 상기 제1피처 및 상기 제2피처를 최적화하는 피드-포워드 네트워크에 기초하여 생성되는 딥러닝 기반의 키-포인트 추출 알고리즘을 기초로 하여 상기 키-포인트를 검출하되,
상기 제1피처는 상기 추출된 관절을 표시한 Confidence Maps이고, 상기 제2피처는 상기 추출된 관절 위치가 어느 등장 인물에 대한 것인지를 나타내는 벡터 필드 세트인 Affinity Filed이고,
상기 기 생성된 분류 모델은,
폭행 상황을 포함하되, 폭행을 가하는 인물, 폭행을 당하는 인물 및 폭행에 관여하지 않는 인물이 각각 라벨링된 학습 영상 데이터에 기초하여 생성되고,
상기 폭행 감지부는,
상기 CCTV 영상의 소정의 간격의 프레임 변화에 따른 상기 CCTV 영상 내 등장 인물 각각의 상기 키-포인트 사이의 각도 정보의 변화 정보를 상기 분류 모델에 입력하여 상기 등장 인물 각각이 폭행을 가하는지 여부, 폭행을 당하는지 여부 및 폭행과 무관한지 여부 중 적어도 하나에 대한 분류 결과를 출력으로 제공하되,
상기 등장 인물 중 폭행을 가하는 등장 인물 또는 폭행을 당하는 등장 인물의 상기 변화 정보에 기초하여 산출되는 상기 폭행 상황의 지속 시간, 상기 CCTV 영상 내 색상 정보 및 상기 CCTV 영상에서 식별되는 객체를 포함하는 세부 상황 정보에 기초하여 상기 폭행 상황의 위험도를 평가하고,
상기 알림 신호의 경보 수준은 상기 위험도에 기초하여 결정되는 것인, CCTV 촬영 장치.
In the CCTV recording device having an assault detection function,
a camera unit for generating a CCTV image by photographing a predetermined monitoring target space;
a person identification unit for identifying a person in the captured CCTV image;
a calculating unit that detects key-points for the identified person and calculates angle information between the detected key-points; and
an assault detection unit configured to detect the occurrence of an assault situation based on a degree of change in angle information between the key-points through a pre-generated classification model; and
When the occurrence of the assault situation is detected, a notification output unit for generating and transmitting a notification signal associated with the assault situation;
including,
The calculation unit,
Obtaining a first feature from which the position of a predetermined joint is extracted from the learning image and a second feature indicating which character the extracted joint is for,
A deep learning-based key-point extraction algorithm generated based on a feed-forward network that optimizes the first and second features by comparing the first and second features with previously secured human posture data. Detecting the key-point on the basis of,
The first feature is Confidence Maps indicating the extracted joints, and the second feature is Affinity Filed, which is a vector field set indicating which character the extracted joint positions are for,
The pre-generated classification model is,
Including the assault situation, the person who is assaulted, the person being assaulted, and the person not involved in the assault are generated based on the labeled learning image data, respectively,
The assault detection unit,
Whether each of the characters is assaulted by inputting change information of angle information between the key-points in the CCTV image to the classification model according to the frame change at a predetermined interval of the CCTV image, assault Provide a classification result for at least one of whether or not to be assaulted as an output,
A detailed situation including the duration of the assault situation calculated based on the change information of the character who is assaulted or the character who is being assaulted among the characters, color information in the CCTV image, and an object identified in the CCTV image Evaluate the risk of the assault situation based on the information,
The alarm level of the notification signal will be determined based on the degree of risk, CCTV recording device.
제7항에 있어서,
상기 연산부는,
상기 등장 인물의 신체 중 관절의 위치에 대응되는 지점을 상기 키-포인트로 검출하는 것인, CCTV 촬영 장치.
8. The method of claim 7,
The calculation unit,
A point corresponding to the position of the joint in the body of the person is to be detected as the key-point, a CCTV recording device.
삭제delete 제8항에 있어서,
상기 연산부는,
관절의 위치에 대응되는 상기 키-포인트의 적어도 일부를 잇는 복수의 연결선을 생성하고, 각각의 관절의 위치에 대응되는 상기 키-포인트에 대하여 생성된 두 연결선 사이의 각도를 측정하여 해당 키-포인트에 대한 각도 정보로 결정하는 것인, CCTV 촬영 장치.
9. The method of claim 8,
The calculation unit,
A plurality of connecting lines connecting at least a portion of the key-point corresponding to the position of the joint are generated, and the angle between the two connecting lines generated with respect to the key-point corresponding to the position of each joint is measured and the corresponding key-point is generated. To be determined by the angle information for, CCTV recording device.
제10항에 있어서,
상기 폭행 감지부는,
폭행 상황을 포함하는 복수의 라벨링된 학습 영상 데이터에 기초하여 SVM(Support Vector Machine) 기법에 의해 생성된 상기 기 생성된 분류 모델을 활용하여 폭행 상황의 발생을 감지하는 것인, CCTV 촬영 장치.
11. The method of claim 10,
The assault detection unit,
A CCTV recording device that detects the occurrence of an assault situation by using the pre-generated classification model generated by a support vector machine (SVM) technique based on a plurality of labeled learning image data including an assault situation.
삭제delete CCTV 영상에 기초한 폭행 감지 장치에 있어서,
CCTV 촬영 장치에 의해 촬영된 CCTV 영상을 수신하는 영상 수신부;
상기 CCTV 영상에서 등장 인물을 식별하는 인물 식별부;
식별된 상기 등장 인물에 대한 키-포인트를 검출하고, 검출된 상기 키-포인트 사이의 각도 정보를 계산하는 연산부; 및
기 생성된 분류 모델을 통해 상기 키-포인트 사이의 각도 정보의 변화 정도에 기초하여 폭행 상황의 발생을 감지하는 폭행 감지부; 및
상기 폭행 상황의 발생이 감지되면, 상기 폭행 상황과 연계된 알림 신호를 생성 및 전송하는 알림 출력부,
를 포함하고,
상기 연산부는,
학습 이미지로부터 소정의 관절의 위치를 추출한 제1피처 및 추출된 관절이 어느 등장 인물에 대한 것인지를 나타내는 제2피처를 획득하고,
상기 제1피처 및 상기 제2피처를 기 확보된 인간 자세 데이터와 비교하여 상기 제1피처 및 상기 제2피처를 최적화하는 피드-포워드 네트워크에 기초하여 생성되는 딥러닝 기반의 키-포인트 추출 알고리즘을 기초로 하여 상기 키-포인트를 검출하되,
상기 제1피처는 상기 추출된 관절을 표시한 Confidence Maps이고, 상기 제2피처는 상기 추출된 관절 위치가 어느 등장 인물에 대한 것인지를 나타내는 벡터 필드 세트인 Affinity Filed이고,
상기 기 생성된 분류 모델은,
폭행 상황을 포함하되, 폭행을 가하는 인물, 폭행을 당하는 인물 및 폭행에 관여하지 않는 인물이 각각 라벨링된 학습 영상 데이터에 기초하여 생성되고,
상기 폭행 감지부는,
상기 CCTV 영상의 소정의 간격의 프레임 변화에 따른 상기 CCTV 영상 내 등장 인물 각각의 상기 키-포인트 사이의 각도 정보의 변화 정보를 상기 분류 모델에 입력하여 상기 등장 인물 각각이 폭행을 가하는지 여부, 폭행을 당하는지 여부 및 폭행과 무관한지 여부 중 적어도 하나에 대한 분류 결과를 출력으로 제공하되,
상기 등장 인물 중 폭행을 가하는 등장 인물 또는 폭행을 당하는 등장 인물의 상기 변화 정보에 기초하여 산출되는 상기 폭행 상황의 지속 시간, 상기 CCTV 영상 내 색상 정보 및 상기 CCTV 영상에서 식별되는 객체를 포함하는 세부 상황 정보에 기초하여 상기 폭행 상황의 위험도를 평가하고,
상기 알림 신호의 경보 수준은 상기 위험도에 기초하여 결정되는 것인, 폭행 감지 장치.
In the assault detection device based on the CCTV image,
an image receiving unit for receiving a CCTV image taken by a CCTV photographing device;
a person identification unit for identifying a person in the CCTV image;
a calculating unit that detects key-points for the identified person and calculates angle information between the detected key-points; and
an assault detection unit configured to detect the occurrence of an assault situation based on a degree of change in angle information between the key-points through a pre-generated classification model; and
When the occurrence of the assault situation is detected, a notification output unit for generating and transmitting a notification signal associated with the assault situation;
including,
The calculation unit,
Obtaining a first feature from which the position of a predetermined joint is extracted from the learning image and a second feature indicating which character the extracted joint is for,
A deep learning-based key-point extraction algorithm generated based on a feed-forward network that optimizes the first and second features by comparing the first and second features with previously secured human posture data. Detecting the key-point on the basis of,
The first feature is Confidence Maps indicating the extracted joints, and the second feature is Affinity Filed, which is a vector field set indicating which character the extracted joint positions are for,
The pre-generated classification model is,
Including the assault situation, the person who is assaulted, the person being assaulted, and the person not involved in the assault are generated based on the labeled learning image data, respectively,
The assault detection unit,
Whether each of the characters is assaulted by inputting change information of angle information between the key-points in the CCTV image to the classification model according to the frame change at a predetermined interval of the CCTV image, assault Provide a classification result for at least one of whether or not to be assaulted as an output,
A detailed situation including the duration of the assault situation calculated based on the change information of the character who is assaulted or the character who is being assaulted among the characters, color information in the CCTV image, and an object identified in the CCTV image Evaluate the risk of the assault situation based on the information,
The alert level of the notification signal will be determined based on the degree of risk, assault detection device.
삭제delete 제1항, 제2항, 제4항 및 제5항 중 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.A computer-readable recording medium in which a program for executing the method of any one of claims 1, 2, 4 and 5 on a computer is recorded.
KR1020190140799A 2019-08-14 2019-11-06 Cctv camera device having assault detection function and method for detecting assault based on cctv image performed KR102384299B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020190099879 2019-08-14
KR20190099879 2019-08-14

Publications (2)

Publication Number Publication Date
KR20210020723A KR20210020723A (en) 2021-02-24
KR102384299B1 true KR102384299B1 (en) 2022-04-07

Family

ID=74689321

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190140799A KR102384299B1 (en) 2019-08-14 2019-11-06 Cctv camera device having assault detection function and method for detecting assault based on cctv image performed

Country Status (1)

Country Link
KR (1) KR102384299B1 (en)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102597266B1 (en) * 2021-04-26 2023-11-03 재단법인차세대융합기술연구원 System amd method for predicting abnormal behavior, computer program
KR102676020B1 (en) 2021-09-13 2024-06-18 주식회사 포딕스시스템 Interaction behavior detection apparatus between objects in the image and, method thereof
KR102647139B1 (en) * 2021-11-03 2024-03-13 국민대학교산학협력단 Apparatus and method for detecting abnormal behavior through deep learning-based image analysis
KR102367584B1 (en) * 2021-11-04 2022-02-25 주식회사 티지 Automatic video surveillance system using skeleton video analysis technique
KR20230078063A (en) * 2021-11-26 2023-06-02 주식회사 공훈 Server for determining the posture type and operation method thereof
KR20240031457A (en) * 2022-08-29 2024-03-08 서봉진 Cirsis response application, system and method for control of crisis response
KR102641828B1 (en) * 2023-01-12 2024-02-28 퀀텀테크엔시큐 주식회사 Providing method, apparatus and computer-readable medium of recognition of military dangerous behaviors in videos and tracking of dangerous behaviors

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180096038A (en) * 2017-02-20 2018-08-29 숙명여자대학교산학협력단 Crime prediction system based on moving behavior pattern
KR20180097949A (en) * 2017-02-24 2018-09-03 오치민 The estimation and refinement of pose of joints in human picture using cascade stages of multiple convolutional neural networks

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
유혜림외 1명, "감시 영상을 활용한 OpenPose 기반 아동 학대 판단시스템", 한국정보통신학회논문지, Vol.23, No.3, 282-290 (2019.03) 1부.*

Also Published As

Publication number Publication date
KR20210020723A (en) 2021-02-24

Similar Documents

Publication Publication Date Title
KR102384299B1 (en) Cctv camera device having assault detection function and method for detecting assault based on cctv image performed
KR101995107B1 (en) Method and system for artificial intelligence based video surveillance using deep learning
WO2014125882A1 (en) Information processing system, information processing method, and program
Kumar et al. Study of robust and intelligent surveillance in visible and multi-modal framework
KR20210053534A (en) Apparatus for Performing Recognition of Activity Based on Deep Learning and Driving Method Thereof
JP6233624B2 (en) Information processing system, information processing method, and program
Nandhini et al. An Improved Crime Scene Detection System Based on Convolutional Neural Networks and Video Surveillance
KR20200103194A (en) Method and system for abnormal situation monitoring based on video
Zhang et al. Surveillance video anomaly detection via non-local U-Net frame prediction
KR101979375B1 (en) Method of predicting object behavior of surveillance video
Madhavi et al. Traffic Congestion Detection from Surveillance Videos using Deep Learning
Miao et al. Abnormal behavior learning based on edge computing toward a crowd monitoring system
Nakkach et al. Smart border surveillance system based on deep learning methods
KR101842488B1 (en) Smart monitoring system applied with patten recognition technic based on detection and tracking of long distance-moving object
Varghese et al. Video anomaly detection in confined areas
Shivthare et al. Suspicious activity detection network for video surveillance using machine learning
Zhang et al. Critical Infrastructure Security Using Computer Vision Technologies
Kim et al. Surveillance System for Real-Time High-Precision Recognition of Criminal Faces From Wild Videos
KR20230064095A (en) Apparatus and method for detecting abnormal behavior through deep learning-based image analysis
KR20140037354A (en) System for abandoned and stolen object detection
Katkar et al. Detection and Tracking the Criminal Activity using Network of CCTV cameras
Aremu et al. Towards smart city security: Violence and weaponized violence detection using dcnn
KR20220072499A (en) Method, apparatus and system for recognizing behavior based on multi-view video
Jodoin et al. Behavior subtraction
Hunain et al. A framework using artificial intelligence for vision-based automated firearm detection and reporting in smart cities

Legal Events

Date Code Title Description
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant