WO2023113421A1 - 드론을 통한 딥러닝 기반의 실종자 검출 및 수색 경로 관리 방법 및 이를 수행하는 시스템 - Google Patents

드론을 통한 딥러닝 기반의 실종자 검출 및 수색 경로 관리 방법 및 이를 수행하는 시스템 Download PDF

Info

Publication number
WO2023113421A1
WO2023113421A1 PCT/KR2022/020213 KR2022020213W WO2023113421A1 WO 2023113421 A1 WO2023113421 A1 WO 2023113421A1 KR 2022020213 W KR2022020213 W KR 2022020213W WO 2023113421 A1 WO2023113421 A1 WO 2023113421A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
missing person
neural network
unit
learning
Prior art date
Application number
PCT/KR2022/020213
Other languages
English (en)
French (fr)
Inventor
방승온
김형준
김형배
Original Assignee
(주)지와이네트웍스
주식회사 아쎄따
이화트론 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)지와이네트웍스, 주식회사 아쎄따, 이화트론 주식회사 filed Critical (주)지와이네트웍스
Publication of WO2023113421A1 publication Critical patent/WO2023113421A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/17Terrestrial scenes taken from planes or by drones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/80Recognising image objects characterised by unique random patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation

Definitions

  • the present invention relates to a learning method of a neural network for object detection for a special drone.
  • CNN Convolution Neural Network
  • the structure of the neural network optimized for faster and more accurate object detection using an image as an input for the neural network used for object recognition and high-quality learning data are important issues for practical application.
  • the object to be detected is a human
  • the variety of shapes and states is very large compared to other objects, making it more difficult to secure learning data, and various social issues such as the use of personal information may also be problematic.
  • the object of the present invention is to propose a more efficient neural network learning method for tracking a missing person.
  • an object of the present invention is to propose a method for augmenting learning data of a neural network and learning therethrough to have a higher prediction rate.
  • an object of the present invention is to propose a method for more effectively detecting a missing person located in a local area from a large screen image using a learned neural network.
  • the present invention makes it possible to set the path of a drone performing a search by using the detection result of a local region in a large screen image.
  • a learning method of a neural network performing deep learning-based missing person detection includes receiving a detection target image as an input; Dividing the detection target image into unit images of a predetermined size; defining an output of a neural network for the divided unit images as a first label value; generating a first modified image by transforming the unit image according to a first rule; and training the neural network using an output of the neural network for the first modified image and a loss for the first label value.
  • the defining of the first label value it is preferable to use a second modified image generated by transforming the unit image according to a second rule as an input of the neural network and define an output value as the first label value.
  • the first rule has a higher deformation strength than the second rule, which quantitatively defines the degree of deformation of the unit image.
  • the detection target image is divided into unit images by moving the search window having a predetermined size at predetermined intervals.
  • Extracting a unit image having a confidence score for the existence of the missing person higher than a threshold value in the divided unit images wherein the generating step transforms the extracted unit image to obtain a first modified image. It is desirable to create
  • the present invention enhances the learning performance of the neural network and has robust performance against changes in the external environment by augmenting learning data for a missing person located in a local area from an actual large screen image using the learned neural network.
  • the present invention can reduce the cost required for human search or rescue by using a neural network.
  • FIG. 1 is a diagram showing the structure of a system for detecting a missing person according to an embodiment of the present invention.
  • FIG. 2 is a flowchart illustrating a learning method of a neural network for tracking a missing person according to an embodiment of the present invention.
  • 3 to 4 are diagrams illustrating a method of segmenting a unit image of a neural network for tracking a missing person according to an embodiment of the present invention.
  • 5 to 7 are diagrams illustrating a learning method of a neural network for tracking a missing person according to an embodiment of the present invention.
  • FIGS. 8 and 9 are diagrams illustrating a method of extracting unit images for learning of a neural network according to an embodiment of the present invention.
  • FIG. 10 is a diagram showing the configuration of a server for tracking a missing person according to an embodiment of the present invention.
  • FIG. 11 is a diagram illustrating a method of utilizing a missing person tracking result according to an embodiment of the present invention.
  • FIG. 1 is a diagram showing the structure of a system for detecting a missing person according to an embodiment of the present invention.
  • the missing person detection system may include a photographing device for photographing a wide area and a server for receiving and processing images photographed therefrom.
  • the photographing device may be mounted on a flyable object such as a drone 1000, and therefore, an image captured on the ground during flight is transmitted to the server 100 using a communication network, and the server 100 transmits images within the image. track down the missing person
  • the server 100 it is configured in a form capable of network communication and implemented in a cloud form, so that it is possible to receive and process images taken by various photographing devices.
  • the collected images may be configured to include a cloud-based memory for this purpose.
  • the server 100 may be composed of an image input unit that receives a captured image such as a camera mounted on a drone or CCTV, and a missing person tracking unit that tracks the missing person 10 therein.
  • the missing person tracking unit tracks the missing person in the image using a neural network trained based on deep learning. This will be described in more detail with reference to FIG. 2 below.
  • FIG. 2 is a flowchart illustrating a learning method of a neural network for tracking a missing person according to an embodiment of the present invention.
  • a detection target image is input for learning (S10).
  • the detection target image is captured through the above-described camera device, and may be a wide area captured at once for more rapid tracking according to a purpose such as saving a life, or may be a large screen image.
  • the large screen image may be, for example, an image composed of 16 million or more pixels with a width of 5472 pixels and a height of 3078 pixels or more than 12 million pixels with a size of 4000 * 3000.
  • the drone acquires an image of the ground consisting of more than 10 million pixels during flight and detects a very small missing person in the obtained large screen image compared to the entire area.
  • a missing person such as a real person, it may be located in an area corresponding to one tenth of a thousand to one in a single image, and therefore, a large amount of computation is required to track the missing person.
  • a large amount of resources are required compared to the effectiveness of a person searching for and labeling large screen images one by one for learning.
  • the input image is divided into unit images to perform more efficient tracking, and the layers in the neural network also perform learning based on the divided unit images (S20).
  • a search window 32 having a predetermined size may be used for a large screen image 5 .
  • the image area within the search window 32 is divided into one unit image and used for tracking.
  • a search window may be moved within a region of a large screen image and divided into unit images, but may be defined to be moved at intervals smaller than the size of the search window based on the movement direction.
  • a plurality of unit images may be divided by using a 448x448 search window for an original large screen image of 5472 pixels in width and 3078 pixels in height, but defining a movement interval as 100 pixels.
  • the output of the neural network for the segmented unit images for learning is defined as a first label value.
  • the existence or location of the missing person is labeled in the neural network, and the error between the output detection result and the labeling value is back-propagated in the neural network to update various weights or biases used in the calculation. .
  • the neural network may be implemented in the form of a CNN (Convolution Neural Network), outputs a feature map through a convolution operation on pixel values in an input image, and flattens the feature map. Through this, the existence probability value of the missing person can be output as a Confidence Score.
  • CNN Convolution Neural Network
  • the neural network may be pre-learned through already labeled unit images.
  • additional learning is performed by transforming a unit image for more accurate learning. That is, the first modified image may be generated by transforming the unit image according to the first rule.
  • the neural network also performs learning on deformed images.
  • the neural network is trained using the output of the neural network for the first modified image and the loss for the first label value.
  • the first label value used for learning is a value that affects the first rule, which is the transformation rule of the image, and includes a value for location, for example, the labeling value modified by applying the first rule to the corresponding labeling value. to enable learning to be performed.
  • semi-supervised learning can be performed to further learn the neural network.
  • the neural network performs learning on unlabeled unit images for labeling values, so that the neural network can be used in a lifesaving area where it is relatively difficult to obtain training data.
  • the neural network performs learning using different transformations on the same unit image, so that it has robust performance under various shooting conditions that are affected by image acquisition.
  • transformation is performed through the second rule together with the first rule for the unit image to be learned.
  • the first label value at this time may be set regardless of the actual value (Ground-Truth).
  • the second rule defines that the deformation strength, which quantitatively defines the degree of deformation of the unit image, is smaller than that of the first rule, so that the neural network trained on the unit image finds the missing person more easily than the deformed image according to the first rule. defined as traceable.
  • the first rule may transform the image using various parameters compared to the second rule.
  • the second rule according to the present embodiment enables color conversion (hue, saturation, brightness) of a portion of an original unit image, and converts a modified image 210-2 through vertical or horizontal reversal. can be created.
  • the first rule is an image according to stronger deformation through inverting color or deleting a part of the image (CutOut) or removing the feature of pixels of a specific value using histogram equalization (Equalize). 210-1) can be created. Learning is performed using the above classified and deformed images.
  • a first modified image 210-1 is obtained by using the output 220-2 of the neural network 200 for the second modified image 210-2.
  • An error for the output 210-1 of the neural network according to is calculated and can be used for learning of the neural network.
  • the difference between the outputs of each neural network for the two transformed images can be calculated with the cross-entropy function (H(x)), and since the original image is the same, even if it is transformed, the missing person's tracking result is the same output. For this purpose, learning of the neural network 200 is performed.
  • the output of the neural network for the second modified image 210-2 used as the synthetic correct answer is the value as it is, and the first modified image 210-1 It is also possible to calculate the error with the output according to ), but the output for the second modified image 210-2 is defined as a binary value based on the threshold value and used as a ground-truth. It is also possible.
  • the neural network 200 can achieve a purpose such as quick rescue of a person by performing tracking on various unit images for tracking and searching for unit images in which a missing person accurately exists. It is also possible to learn by doing.
  • a transformation target image may be extracted through a simplified operation on the divided unit image.
  • a unit image having a reliability for the existence of a missing person equal to or higher than a reliability threshold within the divided unit images is extracted (S100).
  • an actual value of whether a missing person exists in a unit image is not used as a labeling value in semi-supervised learning, but an image having a high possibility of a missing person being present can be extracted from the unit image.
  • extraction of unit images usable as learning data may be performed through modification of the output terminal of the neural network. That is, instead of flattening the feature map output from the convolution layer into a one-dimensional matrix using a general fully connected layer, the feature map is extracted for each channel, but the degree of influence on the missing person for each channel is calculated as a weight, and at this time The weight may be multiplied by the feature map for each channel and output in the form of a heat map. By integrating the heat maps, locations that affect tracking of the missing person can be highlighted for each unit image as shown in FIG. 8 .
  • an image to be used as learning data is extracted and transformed into a unit image including pixels that affect tracking of a missing person having a reliability threshold or higher.
  • the unit image extracted through the above process is transformed to create a first modified image and a second modified image, which are trained according to the above-described supervised or semi-supervised learning method (S200).
  • the server 100 may include an image input unit 110, a neural network learning unit 120, and a tracking result output unit 130.
  • the image input unit 110 receives images captured from various photographing devices such as drones or CCTVs.
  • various photographing devices such as drones or CCTVs.
  • a high-definition large screen image obtained by capturing a wider area may be input.
  • the neural network learning unit 120 may train the neural network to track a missing person.
  • the neural network can be used for learning by dividing the original large screen image into unit images.
  • the entire unit image is searched using a search window having a designated size, and a plurality of unit images are extracted. Furthermore, by setting the movement interval for the search of the search window to be smaller than the size of the window, overlapping of some unit images is allowed, thereby increasing the learning effect.
  • the neural network learning unit 120 may perform supervised or unsupervised learning.
  • supervised learning may be performed when the correct answer value is previously labeled for the unit image.
  • the learning efficiency can be increased by using the unsupervised learning method in parallel.
  • the neural network learning unit 120 uses the unlabeled unit images for learning, and separates the transformation rules of the unit images to generate a pair of transformed images.
  • the deformation rule may be classified according to the deformation strength, and a first deformation image having a higher deformation strength and a second deformation image having a lower deformation strength are used for learning.
  • each deformed image is an absolute value that does not change whether or not there is a missing person even if it is deformed, it is used for learning the neural network for the purpose of making the output for each image similar.
  • an arbitrary labeling value may be set, and the neural network may be trained using an error between an output value for the first modified image and the corresponding labeling value.
  • the tracking result output unit 130 outputs a tracking result of the missing person using the learned neural network.
  • the tracking result output unit can perform tracking of the missing person by dividing the original large screen image into unit images in the same way as the learning method, and it is also possible to track the missing person by dividing the large screen image into a plurality of unit images using a search window. do.
  • corresponding search areas are checked so that areas acquired through flight by a drone can be checked against the entire wide search area.
  • each drone may be in charge of a search by dividing the corresponding area into a first size.
  • the large screen image 5 captured for each area is divided into unit areas as described above, and the object is tracked using the learned neural network.
  • the object detection is actually performed by setting the search window to the size of the unit area, the detected area can be marked in units of the corresponding window.
  • the present invention enhances the learning performance of the neural network and has robust performance against changes in the external environment by augmenting learning data for a missing person located in a local area from an actual large screen image using the learned neural network.
  • the present invention searches for a missing person based on the learned neural network and displays the detection result based on a unit area at the same time, so that it can be used to set a search route for a drone.
  • various embodiments described herein may be implemented in a recording medium readable by a computer or a device similar thereto using, for example, software, hardware, or a combination thereof.
  • the embodiments described herein include application specific integrated circuits (ASICs), digital signal processors (DSPs), digital signal processing devices (DSPDs), programmable logic devices (PLDs), field programmable gate arrays (FPGAs), It may be implemented using at least one of processors, controllers, micro-controllers, microprocessors, and electrical units for performing other functions.
  • ASICs application specific integrated circuits
  • DSPs digital signal processors
  • DSPDs digital signal processing devices
  • PLDs programmable logic devices
  • FPGAs field programmable gate arrays
  • It may be implemented using at least one of processors, controllers, micro-controllers, microprocessors, and electrical units for performing other functions.
  • the described embodiments may be implemented in the control module itself.
  • embodiments such as procedures and functions described in this specification may be implemented as separate software modules.
  • Each of the software modules may perform one or more functions and operations described herein.
  • the software code may be implemented as a software application written in any suitable programming language.
  • the software code may be stored in a memory module and executed by a control module.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Tourism & Hospitality (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Educational Administration (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Remote Sensing (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 딥러닝 기반의 실종자 검출 방법에 관한 것으로 본 발명에 따른 실종자 검출을 수행하는 방법을 검출 대상 이미지를 입력 받는 단계; 상기 검출 대상 이미지를 미리 결정된 크기의 단위 이미지로 분할하는 단계; 및 상기 단위 이미지를 기초로 실종자 검출을 수행하는 단계를 포함한다. 본 발명에 따르면 대화면 내에서 실종자를 효율적으로 검출할 수 있으며, 학습된 신경망을 바탕으로 실종자를 수색함과 동시에 단위 영역을 기준으로 검출 결과를 표시힘으로써 드론의 탐색 경로 설정에 활용할 수 있다.

Description

드론을 통한 딥러닝 기반의 실종자 검출 및 수색 경로 관리 방법 및 이를 수행하는 시스템
본 발명은 특수드론용을 위한 객체 검출을 위한 신경망의 학습 방법에 관한 것이다.
인공지능 기술의 발달로 다양한 기술 분야에 인공지능을 이용하고 있다.
특히 입력된 이미지에 대한 픽셀 값들을 특징으로 수학적인 연산을 통해 객체를 추적하고, 추적된 객체를 분류하기 위해 딥러닝 기반의 다양한 알고리즘들이 개발되고 있으며, 행렬로 정의되는 특징 값들에 대한 컨볼루션 연산을 수행하는 복수의 레이어들로 결합된 CNN(Convolution Neural Network) 신경망 모델들은 적용되는 도메인에 따라 최적화되어 이용되고 있다.
또한, 현재에는 이러한 신경망 모델 자체의 최적화 뿐만 아니라 신경망 모델을 잘 학습 시키기 위한 방법들도 고안되고 있으며, 이와 함께 학습에 이용되는 다수의 학습 이미지들을 확보하기 위해 기존의 학습 이미지의 변형을 통해 증강(Augmentation) 시키거나 신경망을 이용하여 가상의 이미지를 생성하는 등 학습 방법도 다양화 되고 있다.
즉, 객체 인식에 이용되는 신경망은 이미지를 입력으로 보다 빠르고 정확한 객체의 검출을 위해 최적화된 신경망의 구조와 양질의 학습 데이터가 실제 적용에 중요한 이슈가 된다.
특히, 검출 대상 객체가 사람인 경우 다른 객체에 비하여 모양과 상태의 다양성이 매우 커 학습 데이터의 확보에 보다 어려운 면이 있으며, 개인 정보의 이용 등의 다양한 사회적인 이슈도 함께 문제될 수 있다.
또한, 사람의 검출을 필요로 하는 상황 중 실종자 수색이나 이를 통한 인명 구조와 같은 목적의 경우는 긴급하고, 효율적인 탐색을 위해 항공 사진과 같이 넓은 영역을 촬영한 대화면 이미지를 이용하게 되나 대화면 내 복잡한 배경, 전체 화면 대비 매우 작은 크기의 사람을 추출하는 것은 일반적인 객체의 탐색에 비해 어려운 점이 있다.
따라서 추적 대상 객체로서 사람의 검출을 위해서는 보다 효율적인 신경망의 학습 방법과 이에 따른 탐색 방법이 고안될 필요가 있다.
이상 본 발명은 실종자 추적을 위한 보다 효율화된 신경망의 학습 방법을 제안하는 것을 목적으로 한다.
또한, 본 발명은 보다 높은 예측율을 갖도록 신경망의 학습 데이터의 증강 및 이를 통한 학습 방법을 제안하는 것을 목적으로 한다.
또한, 본 발명은 학습된 신경망을 이용하여 대화면 이미지로부터 국소 영역에 위치하는 실종자를 보다 효과적으로 검출하는 있는 방법을 제안하는 것을 목적으로 한다.
또한, 본 발명은 대화면 이미지 내 국소 영역의 검출 결과를 이용하여 수색을 수행하는 드론의 경로를 설정할 수 있도록 한다.
상기 기술적 과제를 해결하기 위한 본 발명의 일 실시예에 따른 딥러닝 기반의 실종자 검출을 수행하는 신경망의 학습 방법은 검출 대상 이미지를 입력 받는 단계; 상기 검출 대상 이미지를 미리 결정된 크기의 단위 이미지로 분할하는 단계; 상기 분할된 단위 이미지들에 대한 신경망의 출력을 제1 레이블 값으로 정의하는 단계; 상기 단위 이미지를 제1 규칙에 따라 변형하여 제1 변형 이미지를 생성하는 단계; 및 상기 제1 변형 이미지에 대한 상기 신경망의 출력과 상기 제1 레이블 값에 대한 손실을 이용하여 상기 신경망을 학습시키는 단계를 포함한다.
상기 제1 레이블 값으로 정의하는 단계는 상기 단위 이미지를 제2 규칙에 따라 변형하여 생성된 제2 변형 이미지를 신경망의 입력으로 이용하여 출력된 값을 제1 레이블 값으로 정의하는 것이 바람직하다.
상기 제1 규칙은 상기 단위 이미지의 변형 정도를 정량적으로 정의하는 변형 강도가 상기 제2 규칙에 비하여 높은 것이 바람직하다.
상기 분할하는 단계는 검출 대상 이미지를 상기 미리 결정된 크기의 탐색 윈도우를 소정 간격에 따라 이동하여 단위 이미지로 분할하는 것이 바람직하다.
상기 분할된 단위 이미지 중 내 임계값 이상의 상기 실종자의 존재에 대한 신뢰도(Confidence score)를 갖는 단위 이미지를 추출하는 단계를 포함하고, 상기 생성하는 단계는 추출된 단위 이미지를 변형하여 제1 변형 이미지를 생성하는 것이 바람직하다.
본 발명에 따르면 대화면 내에서 실종자를 검출하는 신경망을 효율적으로 학습시킬 수 있다.
또한, 본 발명은 학습된 신경망을 이용하여 실제 대화면 이미지로부터 국소 영역에 위치하는 실종자에 대한 학습 데이터를 증강시킴으로써 신경망의 학습 성능을 높이고 외부 환경 변화에 강인한 성능을 갖도록 한다.
또한, 본 발명은 신경망을 이용하여 인명 수색이나 구조에 소요되는 비용을 절감 시킬 수 있다.
도 1은 본 발명의 일 실시예에 따른 실종자 검출을 수행하는 시스템의 구조를 나타내는 도이다.
도 2는 본 발명의 일 실시예에 따른 실종자 추적을 위한 신경망의 학습 방법을 나타내는 흐름도이다.
도 3 내지 4는 본 발명의 일 실시예에 따른 실종자 추적을 위한 신경망의 단위 이미지 분할 방법을 예시하는 도이다.
도 5 내지 7은 본 발명의 일 실시예에 따른 실종자 추적을 위한 신경망의 학습 방법을 예시하는 도이다.
도 8 내지 9는 본 발명의 일 실시예에 따른 신경망의 학습을 위하여 단위 이미지를 추출하는 방법을 예시하는 도이다.
도 10은 본 발명의 일 실시예에 따른 실종자 추적을 위한 서버의 구성을 나타내는 도이다.
도 11은 본 발명의 일 실시예에 따른 실종자 추적 결과를 활용하는 방법을 예시하는 도이다.
이하의 내용은 단지 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시 되지 않았지만 발명의 원리를 구현하고 발명의 개념과 범위에 포함된 다양한 장치를 발명할 수 있는 것이다. 또한, 본 명세서에 열거된 모든 조건부 용어 및 실시 예들은 원칙적으로, 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이외같이 특별히 열거된 실시 예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다.
상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해질 것이며, 그에 따라 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다.
또한, 발명을 설명함에 있어서 발명과 관련된 공지 기술에 대한 구체적인 설명이 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하에는 첨부한 도면을 참조하여 본 발명의 바람직한 실시 예에 대해 상세하게 설명한다.
이하, 도 1을 참조하여 보다 상세히 설명한다.
도 1은 본 발명의 일 실시예에 따른 실종자 검출을 수행하는 시스템의 구조를 나타내는 도이다.
도 1을 참조하면, 본 실시예에 따른 실종자 검출 시스템은 넓은 영역을 촬영하기 위한 촬영 장치와 이로부터 촬영된 이미지를 수신하여 처리하는 서버로 구성될 수 있다.
도 1의 경우 촬영 장치는 드론(1000)과 같은 비행 가능한 물체에 탑재될 수 있으며, 따라서 비행 중에 지면을 촬영한 영상을 통신 네트워크를 이용하여 서버(100)로 송신하고 서버(100)는 영상 내 실종자를 추적한다.
또한, 드론(1000)과 같은 비행 가능한 물체 외에도 CCTV와 같이 일정 영역을 감시하기 위해 고정 설치된 도시 인프라를 활용하여 촬영된 이미지 내에 실종자가 존재하는지 여부를 검출하는 것도 가능하다.
서버(100)의 경우 네트워크 통신이 가능한 형태로 구성되며 클라우드 형태로 구현되어 다양한 촬영 장치에서 촬영된 영상들을 수신하여 처리하는 것도 가능하다.
또한, 수집된 영상들을 이용하여 학습 데이터로 활용하는 것도 가능하며 따라서 이를 위해 클라우드 기반의 메모리를 포함하여 구성될 수 있다.
구체적으로 서버(100)는 드론에 탑재된 카메라나 CCTV 등의 촬영 이미지를 입력 받는 이미지 입력부와 이를 통해 내부의 실종자(10)를 추적하는 실종자 추적부로 구성될 수 있다.
실종자 추적부는 딥러닝 기반으로 학습된 신경망을 이용하여 이미지 내의 실종자를 추적하게 되며, 특히 본 실시예의 경우 넓은 영역을 촬영한 대화면 이미지 내에 국소 영역에 해당하는 실종자를 효과적으로 추적하도록 학습될 수 있다. 이에 대해서는 이하 도 2를 참조하여 보다 상세히 설명한다.
도 2는 본 발명의 일 실시예에 따른 실종자 추적을 위한 신경망의 학습 방법을 나타내는 흐름도이다.
먼저 학습을 위해 검출 대상 이미지를 입력 받는다(S10).
검출 대상 이미지는 상술한 카메라 장치를 통해 촬영된 것으로 인명 구조와 같은 목적에 따라 보다 신속한 추적을 위해 한번에 넓은 영역을 촬영한 것일 수 있으며 대화면 이미지일 수 있다.
대화면 이미지는 예를 들어 가로 5472, 세로 3078의 픽셀로 1600만 이상의 픽셀 또는 4000 * 3000의 1200만 이상의 픽셀들로 구성된 이미지 일 수 있다.
즉, 드론은 비행 중에 1000만 이상의 픽셀로 구성되는 지면에 대한 영상을 획득하고, 획득된 대화면 이미지 내에서 전체 영역에 비해 매우 작은 크기의 실종자를 검출한다.
실제 사람과 같은 실종자의 경우는 한 장의 이미지 내에서 수천에서 수만 분의 일 정도에 해당하는 영역에 위치할 수 있으며 따라서 실종자를 추적하는데 많은 연산량을 요하게 된다. 또한 학습을 위해 대화면 이미지를 사람이 하나하나 검색하고 레이블링 하는 것 자체에도 효과 대비 많은 리소스를 필요로 하는 문제가 있다.
따라서, 본 실시예에서는 입력된 이미지를 단위 이미지로 분할하여 보다 효율적인 추적을 수행하게 하고 신경망 내 레이어들도 분할된 단위 이미지를 기초로 학습을 수행한다(S20).
구체적으로 단위 이미지의 분할 방법을 설명하기 위해 도 3을 참조하면, 본 실시예에서는 대화면 이미지(5)를 미리 결정된 크기의 탐색 윈도우(32)를 이용할 수 있다.
즉, 탐색 윈도(32)우 내의 이미지 영역을 하나의 단위 이미지로 분할하여 추적에 이용한다.
또한, 본 실시예에서는 대화면 이미지(5)를 단위 이미지로 분할할 때 일부 단위 이미지 간의 중첩을 허용할 수 있다.
도 4를 참조하면, 탐색 윈도우를 대화면 이미지의 영역 내에서 이동하며 단위 이미지를 분할하되 이동 방향을 기준으로 탐색 윈도우의 크기 보다 작은 간격으로 이동하도록 정의할 수 있다.
따라서, 보다 많은 수의 단위 이미지를 확보할 수 있으며 이를 통해 신경망을 보다 잘 학습시킴과 동시에 실종자의 추적율을 높일 수 있다.
예를 들어, 가로 5472 세로 3078의 픽셀의 원본 대화면 이미지를 448x448의 탐색 윈도우를 이용하되 이동 간격을 100픽셀로 정의하여 복수의 단위 이미지를 분할할 수 있다.
다음, 학습을 위하여 분할된 단위 이미지들에 대한 신경망의 출력을 제1 레이블 값으로 정의한다.
즉, 지도(Supervised) 학습으로 신경망 내에 실종자의 존재 여부 또는 실종자의 위치를 레이블링하고 출력된 검출 결과와 레이블링 값의 오차를 신경망 내에 역전파 함으로써 연산에 이용된 다양한 가중치나 편향 들을 갱신할 수 있도록 한다.
도 5를 참조하면 구체적으로 본 실시예에서 신경망은 CNN(Convolution Neural Network) 형태로 구현될 수 있으며, 입력된 이미지 내의 픽셀 값에 대한 컨볼루션 연산을 통해 특징맵을 출력하고 특징맵에 대한 평탄화를 통해 실종자의 존재 확률 값을 신뢰도(Confidence Score)로 출력할 수 있다.
즉, 본 실시예에서 신경망은 이미 레이블링 된 단위 이미지를 통해 선행 학습될 수 있다.
본 실시예에서는 보다 정확한 학습을 위하여 단위 이미지를 변형하여 추가적인 학습을 수행한다. 즉, 단위 이미지를 제1 규칙에 따라 변형하여 제1 변형 이미지를 생성할 수 있다.
신경망은 변형된 이미지에 대해서도 학습을 수행한다. 제1 변형 이미지에 대한 상기 신경망의 출력과 상기 제1 레이블 값에 대한 손실을 이용하여 상기 신경망을 학습시킨다.
이때 학습에 이용되는 제1 레이블 값이 이미지의 변형 규칙인 제1 규칙에 영향이 있는 값으로 예를 들어 위치에 대한 값도 포함하는 경우에는 해당 레이블링 값에도 제1 규칙을 적용하여 수정된 레이블링 값을 이용하여 학습을 수행할 수 있도록 한다.
나아가, 본 실시예에서는 이상의 레이블링 값을 통한 지도학습 외에 신경망을 더욱 학습 시키기 위하여 준지도(Semi-supervised) 학습을 수행할 수 있다.
이에 대해서는 도 6 및 7을 참조하여 보다 상세히 설명한다.
본 실시예에서 신경망은 레이블링 값는 언레이블드(Unlabeled) 단위 이미지에 대한 학습을 수행함으로써 상대적으로 학습 데이터의 확보가 어려운 인명 구조 영역에 신경망이 활용될 수 있도록 한다.
구체적으로 신경망은 동일한 단위 이미지에 대해 서로 다른 변형을 이용하여 학습을 수행함으로써, 이미지의 획득에 영향을 받는 다양한 촬영 조건으로부터 강인한 성능을 갖도록 한다.
즉, 학습 대상인 단위 이미지에 대하여 제1 규칙과 함께 제2 규칙을 통해 변형을 수행한다.
단위 이미지에 대한 변형 이미지 쌍이 생성되면 이를 이용하여 신경망의 학습을 수행하는데, 본 실시예에서는 제2 규칙에 따라 변형하여 생성된 제2 변형 이미지를 신경망의 입력으로 이용하여 출력된 값을 제1 레이블 값으로 정의할 수 있다.
즉, 이때의 제1 레이블 값은 실제값 (Ground-Truth)과는 무관하게 설정될 수 있다.
다만 제2 규칙은 단위 이미지의 변형 정도를 정량적으로 정의하는 변형 강도가 상기 제1 규칙에 비하여 적은 것으로 정의되어 단위 이미지에 대하여 학습된 신경망은 제1 규칙에 따른 변형 이미지에 비해서는 보다 쉽게 실종자를 추적할 수 있을 것으로 정의한다. 또는 제1 규칙은 제2 규칙에 비하여 다양한 파라미터를 이용하여 이미지를 변형하는 것도 가능하다.
도 6을 참조하면, 본 실시예에 따른 제2 규칙은 원본 단위 이미지의 일부의 색변환(색상, 채도, 명도)이 가능하며, 수직 또는 수평 방향의 반전을 통해 변형 이미지(210-2)를 생성하도록 할 수 있다.
반면 제1 규칙은 색상의 반전(Invert) 또는 이미지의 일부를 삭제(CutOut)하는 것 또는 히스토그램의 평활화(Equalize)를 이용하여 특정 값의 픽셀들의 특징을 제거하는 것을 통해 보다 강한 변형에 따른 이미지(210-1)를 생성하도록 할 수 있다. 이상의 구분된 변형 이미지를 이용하여 학습을 수행한다.
도 7을 참조하여 구체적인 학습 방법을 설명하면, 본 실시예에서는 제2 변형 이미지(210-2)에 대한 신경망(200)의 출력(220-2)을 이용하여 제1 변형 이미지(210-1)에 따른 신경망의 출력(210-1)에 대한 오차를 계산하고 이를 신경망의 학습에 이용할 수 있다.
두 변형 이미지에 대한 신경망 각각의 출력의 차이는 크로스 엔트로피(Cross-Entropy) 함수(H(x))로 산출될 수 있으며, 원본 이미지가 동일하므로 변형되었더라도 실종자의 추적 결과는 동일하게 출력되는 것을 최종 목적으로 신경망(200)의 학습을 수행한다.
구체적으로 가상(Synthetic)의 정답으로 이용되는 제2 변형 이미지(210-2)에 대한 신경망의 출력은 출력 그대로의 값으로 실종자의 존재 확률에 대한 확률 퍼센트를 이용하여 제1 변형 이미지(210-1)에 따른 출력과의 오차를 계산하는 것도 가능하나, 제2 변형 이미지(210-2)에 대한 출력을 임계값을 기준으로 존재 여부를 바이너리 값으로 마치 실제값(Ground-truth)으로 정의하여 이용하는 것도 가능하다.
즉, 본 실시예에서 신경망(200)은 추적을 위해 다양한 단위 이미지에 대한 추적을 수행하고 실종자가 정확히 존재하는 단위 이미지 들을 검색함으로써 빠른 인명 구조와 같은 목적을 달성할 수 있으므로 실종자의 존재 여부를 이용하여 학습시키는 것도 가능하다.
나아가 본 실시예에서는 학습을 위해 대화면 이미지에 대해 추출된 단위 이미지 전체를 변형하여 학습에 이용하는 경우, 인명 수색과 같은 원본 이미지의 특성상 실종자가 존재하는 이미지의 비율과 실종자가 부존재하는 이미지의 비율이 매우 차이나게 된다.
즉, 대화면 이미지의 국소 영역에 위치하는 실종자를 포함하는 단위 이미지 자체가 매우 적기 때문에 데이터를 동일한 비율로 증강 시키게 되면 이러한 차이는 더욱 커지게 되며 신경망의 학습 성능에 영향을 미칠 수 있다.
따라서, 본 실시예에서는 분할된 단위 이미지에 대해 간소화된 연산을 통해 변형 대상 이미지를 추출할 수 있다.
이에 대해서는 도 8 내지 9를 이용하여 설명한다.
본 실시예에 따른 신경망의 학습 방법은 분할된 단위 이미지 중 내 임계 신뢰도 이상의 실종자의 존재에 대한 신뢰도를 갖는 단위 이미지를 추출한다(S100).
즉, 본 실시예에서는 준지도 학습에서 단위 이미지 내 실종자의 존재 여부에 대한 실제값을 레이블링 값으로 이용하지는 않으나, 단위 이미지 중에서 실종자가 존재할 가능성이 높은 이미지를 추출할 수 있다.
구체적으로 원본 대화면 이미지에 대하여 분할된 단위 이미지에 대한 실종자 추적 확률이 임계 신뢰도 이상인 이미지 만을 추출하여 변형 대상으로 이용한다. 이때 임계 신뢰도는 실제 실종자의 추적을 위한 것이 아니라 학습 대상의 추출을 위한 것이므로 비교적 낮게 설정될 수 있으며 예를 들어 신뢰도가 10% 이상인 추적 결과를 포함하는 단위 이미지를 대상으로 변형시킬 수 있다.
도 9를 참조하면 단위 이미지 중 추적 대상 실종자인 사람이 존재할 신뢰도가 70%로 출력된 (a)이미지는 변형을 통해 학습에 이용되며, (b) 이미지의 경우 신뢰도가 2%로 임계 신뢰도 이하이므로 학습에 이용하지 않을 수 있다.
또한, 보다 균형있는 학습 데이터의 확보를 위하여 신뢰도를 이용하여 신뢰도에 따른 학습 데이터 셋을 구성하고 각각의 학습 데이터 셋 내의 단위 이미지를 변형하여 학습에 이용하는 것도 가능하다.
이때, 학습 데이터로 서의 활용 가능한 단위 이미지의 추출은 신경망의 출력단의 변형을 통해 수행될 수 있다. 즉, 일반적인 완전 연결 레이어를 이용하여 컨볼루션 레이어로부터 출력된 특징맵을 1차원 행렬로 평틴화 시키는 대신, 채널별로 특징 맵을 추출하되, 채널 별 실종자에 영향을 미치는 정도를 가중치로 산출하여 이때의 가중치를 각 채널 별 특징 맵과 곱하여 히트맵 형태로 출력할 수 있다. 히트맵들을 통합함으로써 실종자의 추적에 영향을 미치는 위치가 도 8과 같이 각각의 단위 이미지에 대해 강조되어 나타날 수 있다.
따라서, 본 실시예에서는 학습 데이터로 활용할 이미지를 임계 신뢰도 이상의 실종자의 추적에 영향을 미치는 픽셀들을 포함하는 단위 이미지로 추출하여 변형할 수 있도록 한다.
이상의 과정을 통해 추출된 단위 이미지를 변형하여 제1 변형 이미지 및 제2 변형 이미지를 생성하고 이를 상술한 지도 또는 준지도 학습 방법에 따라 학습시킨다(S200).
이하, 도 10을 참조하여 상술한 신경망의 학습 및 실종자 추적을 수행하는 서버(100)의 실종자 수색 방법에 대하여 설명한다.
서버(100)는 이미지 입력부(110), 신경망 학습부(120) 및 추적 결과 출력부(130)를 포함할 수 있다.
이미지 입력부(110)는 상술한 바와 같이 드론이나 CCTV 등의 다양한 촬영 장치로부터 촬영된 이미지를 입력 받는다. 또한 본 실시예에서는 인명 구조와 같은 목적으로 사람을 추적하기 위하여 보다 넓은 영역을 촬영한 고화질의 대화면 이미지를 입력 받을 수 있다.
다음 신경망 학습부(120)는 신경망을 실종자 추적을 위해 학습 시킬 수 있다.
구체적으로 본 실시예에서 신경망은 원본 대화면 이미지를 단위 이미지로 분할하여 학습에 이용할 수 있다.
즉, 지정된 크기의 탐색 윈도우를 이용하여 단위 이미지 전체를 탐색하고 복수의 단위 이미지를 추출한다. 나아가 탐색 윈도우의 탐색을 위한 이동 간격을 윈도우의 크기보다 작게 설정함으로 써 일부 단위 이미지의 겹침을 허용하고 이를 통해 학습의 효과를 높일 수 있다.
나아가, 신경망 학습부(120)는 지도 또는 비지도 학습을 수행할 수 있다.
즉, 단위 이미지에 대하여 미리 정답 값이 레이블링 되어 있는 경우에는 지도 학습을 수행할 수 있다. 다만 상술한 바와 같이 수만장에 해당하는 단위 이미지 중 극히 일부에 존재하는 실종자를 레이블링 하기 위해 모든 이미지를 수기로 판단하는 것을 비효율적일 수 있으므로 비지도 학습 방법을 병행하여 학습 효율을 높일 수 있다.
따라서, 신경망 학습부(120)는 레이블링 되지 않은 단위 이미지를 학습에 이용하되, 단위 이미지의 변형 규칙을 구분하여 변형 이미지 쌍을 생성한다.
이때 변형 규칙은 변형 강도에 따라 구분될 수 있으며 보다 높은 변형 강도를 가지는 제1 변형 이미지와 보다 낮은 변형 강도를 가지는 제2 변형 이미지를 학습에 이용한다.
각각의 변형 이미지는 변형되더라도 실종자의 존재 여부는 변하지 않는 절대 값이므로 각 이미지에 대한 출력이 유사해지는 것을 목적으로 신경망의 학습에 이용된다.
구체적으로 제2 변형 이미지가 덜 변형되었으므로 이를 임의의 레이블링 값으로 설정하고 제1 변형 이미지에 대한 출력 값과 해당 레이블링 값의 오차를 이용하여 신경망을 학습시킬 수 있다.
또한 제2 변형 이미지에 대한 예측 확률 값을 그대로 이용하는 대신, 실종자의 존재 여부에 대한 바이너리 값을 통해 학습을 시키는 것도 가능하다.
추적 결과 출력부(130)는 이상의 학습된 신경망을 이용하여 실종자의 추적 결과를 출력한다.
이때 추적 결과 출력부 역시 학습 방법과 동일하게 원본 대화면 이미지를 단위 이미지로 분할하여 실종자의 추적을 수행할 수 있으며, 대화면 이미지를 복수의 단위 이미지로 탐색 윈도우를 이용하여 분할하는 것을 통해 추적하는 것도 가능하다.
나아가, 본 실시예에서는 단위 이미지로 분할하여 실종자를 수색함에 있어서 해당 수색 영역들을 체크함으로써 전체 넓은 수색 영역 대비 드론이 비행을 통해 획득된 영역들을 확인할 수 있도록 한다.
도 11을 참조하면, 전체 수색 영역(2)에 대하여 각각의 드론은 해당 영역을 제1 크기로 구분하여 수색을 담당할 수 있다.
또한, 각 영역에 대하여 촬영된 대화면 이미지(5)는 상술한 바와 같이 단위 영역으로 구분되어 학습된 신경망을 이용하여 객체를 추적하도록 한다. 이때 단위 영역의 크기로 탐색 윈도우를 설정하여 객체 검출을 실제로 수행하므로 해당 윈도우를 단위로 검출이 완료된 영역을 마킹할 수 있다.
나아가, 해당 영역 별로 임계값 이상의 신뢰도를 갖는 객체가 검출되지 않더라도 객체로 추정되는 추정 객체들이 존재하는 경우 이를 영역별로 레이블링(52) 하여 중복 수색을 수행할 수 있도록 한다. 반면 객체가 없는 영역 또는 수색이 완료된 영역은 재 수색이 필요 없으므로 이를 제외하고 드론의 비행 경로를 결정하는 것도 가능하다.
이상. 본 발명에 따르면 대화면 내에서 실종자를 검출하는 신경망을 효율적으로 학습시킬 수 있다.
또한, 본 발명은 학습된 신경망을 이용하여 실제 대화면 이미지로부터 국소 영역에 위치하는 실종자에 대한 학습 데이터를 증강시킴으로써 신경망의 학습 성능을 높이고 외부 환경 변화에 강인한 성능을 갖도록 한다.
또한, 본 발명은 학습된 신경망을 바탕으로 실종자를 수색함과 동시에 단위 영역을 기준으로 검출 결과를 표시힘으로써 드론의 탐색 경로 설정에 활용할 수 있다.
나아가, 여기에 설명되는 다양한 실시예는 예를 들어, 소프트웨어, 하드웨어 또는 이들의 조합된 것을 이용하여 컴퓨터 또는 이와 유사한 장치로 읽을 수 있는 기록매체 내에서 구현될 수 있다.
하드웨어적인 구현에 의하면, 여기에 설명되는 실시예는 ASICs (application specific integrated circuits), DSPs (digital signal processors), DSPDs (digital signal processing devices), PLDs (programmable logic devices), FPGAs (field programmable gate arrays, 프로세서(processors), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors), 기타 기능 수행을 위한 전기적인 유닛 중 적어도 하나를 이용하여 구현될 수 있다. 일부의 경우에 본 명세서에서 설명되는 실시예들이 제어 모듈 자체로 구현될 수 있다.
소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 상기 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 작동을 수행할 수 있다. 적절한 프로그램 언어로 씌여진 소프트웨어 어플리케이션으로 소프트웨어 코드가 구현될 수 있다. 상기 소프트웨어 코드는 메모리 모듈에 저장되고, 제어모듈에 의해 실행될 수 있다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다.
따라서, 본 발명에 개시된 실시 예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구 범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (5)

  1. 딥러닝 기반의 실종자 검출을 수행하는 방법에 있어서,
    검출 대상 이미지를 입력 받는 단계;
    상기 검출 대상 이미지를 미리 결정된 크기의 단위 이미지로 분할하는 단계; 및
    상기 단위 이미지를 기초로 실종자 검출을 수행하는 단계를 포함하고,
    상기 신경망은,
    학습 이미지를 상기 미리 결정된 크기로 분할한 단위 이미지들에 대한 신경망의 출력을 제1 레이블 값으로 정의하는 단계;
    상기 단위 이미지를 제1 규칙에 따라 변형하여 제1 변형 이미지를 생성하는 단계; 및
    상기 제1 변형 이미지에 대한 상기 신경망의 출력과 상기 제1 레이블 값에 대한 손실을 이용하여 학습시키는 단계로 학습 된 것을 특징으로 하는 딥러닝 기반의 실종자 검출을 수행하는 방법
  2. 제 1 항에 있어서,
    상기 제1 레이블 값으로 정의하는 단계는 상기 단위 이미지를 제2 규칙에 따라 변형하여 생성된 제2 변형 이미지를 신경망의 입력으로 이용하여 출력된 값을 제1 레이블 값으로 정의하는 것을 특징으로 하는 딥러닝 기반의 실종자 검출을 수행하는 방법.
  3. 제 1 항에 있어서,
    상기 제1 규칙은 상기 단위 이미지의 변형 정도를 정량적으로 정의하는 변형 강도가 상기 제2 규칙에 비하여 높은 것을 특징으로 하는 딥러닝 기반의 실종자 검출을 수행하는 방법.
  4. 제 1 항에 있어서,
    상기 분할하는 단계는 검출 대상 이미지를 상기 미리 결정된 크기의 탐색 윈도우를 소정 간격에 따라 이동하여 단위 이미지로 분할하고,
    상기 검출을 수행하는 단계는 검출 결과에 따라 상기 단위 이미지를 구분하는 것을 특징으로 하는 딥러닝 기반의 실종자 검출을 수행하는 방법.
  5. 제 1 항에 있어서,
    상기 분할된 단위 이미지 중 내 임계값 이상의 상기 실종자의 존재에 대한 신뢰도(Confidence score)를 갖는 단위 이미지를 추출하는 단계를 포함하고,
    상기 생성하는 단계는 추출된 단위 이미지를 변형하여 제1 변형 이미지를 생성하는 것을 특징으로 하는 딥러닝 기반의 실종자 검출을 수행하는 방법.
PCT/KR2022/020213 2021-12-13 2022-12-13 드론을 통한 딥러닝 기반의 실종자 검출 및 수색 경로 관리 방법 및 이를 수행하는 시스템 WO2023113421A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2021-0177717 2021-12-13
KR1020210177717A KR20230089241A (ko) 2021-12-13 2021-12-13 드론을 통한 딥러닝 기반의 실종자 검출 및 수색 경로 관리 방법 및 이를 수행하는 시스템

Publications (1)

Publication Number Publication Date
WO2023113421A1 true WO2023113421A1 (ko) 2023-06-22

Family

ID=86773073

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/020213 WO2023113421A1 (ko) 2021-12-13 2022-12-13 드론을 통한 딥러닝 기반의 실종자 검출 및 수색 경로 관리 방법 및 이를 수행하는 시스템

Country Status (2)

Country Link
KR (1) KR20230089241A (ko)
WO (1) WO2023113421A1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102090879B1 (ko) * 2018-10-25 2020-03-18 주식회사 서브 원거리 얼굴인식 및 다채널 모니터링 시스템
KR20200078314A (ko) * 2018-12-21 2020-07-01 삼성전자주식회사 시맨틱 분할에 의해 지배적 장면 분류를 제공하는 시스템 및 방법
CN111507378A (zh) * 2020-03-24 2020-08-07 华为技术有限公司 训练图像处理模型的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102090879B1 (ko) * 2018-10-25 2020-03-18 주식회사 서브 원거리 얼굴인식 및 다채널 모니터링 시스템
KR20200078314A (ko) * 2018-12-21 2020-07-01 삼성전자주식회사 시맨틱 분할에 의해 지배적 장면 분류를 제공하는 시스템 및 방법
CN111507378A (zh) * 2020-03-24 2020-08-07 华为技术有限公司 训练图像处理模型的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KIM YOUNGEUN; KIM SEUNGHYEON; KIM TAEKYUNG; KIM CHANGICK: "CNN-Based Semantic Segmentation Using Level Set Loss", 2019 IEEE WINTER CONFERENCE ON APPLICATIONS OF COMPUTER VISION (WACV), IEEE, 7 January 2019 (2019-01-07), pages 1752 - 1760, XP033525651, DOI: 10.1109/WACV.2019.00191 *
LAN MENG; ZHANG YIPENG; ZHANG LEFEI; DU BO: "Defect Detection from UAV Images Based on Region-Based CNNs", 2018 IEEE INTERNATIONAL CONFERENCE ON DATA MINING WORKSHOPS (ICDMW), IEEE, 17 November 2018 (2018-11-17), pages 385 - 390, XP033516241, DOI: 10.1109/ICDMW.2018.00063 *

Also Published As

Publication number Publication date
KR20230089241A (ko) 2023-06-20

Similar Documents

Publication Publication Date Title
WO2017213398A1 (en) Learning model for salient facial region detection
Zhang et al. Deep convolutional neural networks for forest fire detection
WO2021085848A1 (ko) 강화학습 기반 신호 제어 장치 및 신호 제어 방법
CN108256439A (zh) 一种基于循环生成式对抗网络的行人图像生成方法及***
CN108564052A (zh) 基于mtcnn的多摄像头动态人脸识别***与方法
CN110490136B (zh) 一种基于知识蒸馏的人体行为预测方法
WO2011096651A2 (ko) 얼굴 식별 방법 및 그 장치
WO2020246655A1 (ko) 상황 인지 방법 및 이를 수행하는 장치
WO2022065817A1 (en) Methods for training and testing obfuscation network capable of performing distinct concealing processes for distinct regions of original image and learning and testing devices using the same
CN105788286A (zh) 智能识别闯红灯***以及车辆行为检测抓拍方法
CN111563557A (zh) 一种电力电缆隧道内目标检测的方法
WO2021153861A1 (ko) 다중 객체 검출 방법 및 그 장치
WO2021221254A1 (en) Method for performing continual learning on classifier in client capable of classifying images by using continual learning server and continual learning server using the same
WO2021040287A1 (ko) 사람 재식별 장치 및 방법
WO2021225296A1 (en) Method for explainable active learning, to be used for object detector, by using deep encoder and active learning device using the same
CN112836683B (zh) 用于便携式摄像设备的车牌识别方法、装置、设备和介质
WO2020017829A1 (ko) 노이즈 패턴을 이용한 차량 번호판 이미지 생성 방법 및 그 장치
Tomar et al. Crowd analysis in video surveillance: A review
WO2019035544A1 (ko) 학습을 이용한 얼굴 인식 장치 및 방법
WO2023113421A1 (ko) 드론을 통한 딥러닝 기반의 실종자 검출 및 수색 경로 관리 방법 및 이를 수행하는 시스템
WO2022139009A1 (ko) 자율 주행을 위한 딥러닝 알고리즘 설정 방법 및 장치
WO2020209487A1 (ko) 인공 신경망 기반의 장소 인식 장치 및 이의 학습 장치
WO2023113437A1 (ko) 메모리를 이용하는 의미론적 영상 분할 장치 및 방법
WO2019124602A1 (ko) 객체 추적 방법 및 이를 수행하는 장치들
WO2021125539A1 (ko) 영상에 포함된 객체를 분류하는 장치, 방법 및 컴퓨터 프로그램

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22907888

Country of ref document: EP

Kind code of ref document: A1