KR102592988B1 - Method and device for detecting object in aerial images - Google Patents

Method and device for detecting object in aerial images Download PDF

Info

Publication number
KR102592988B1
KR102592988B1 KR1020230051901A KR20230051901A KR102592988B1 KR 102592988 B1 KR102592988 B1 KR 102592988B1 KR 1020230051901 A KR1020230051901 A KR 1020230051901A KR 20230051901 A KR20230051901 A KR 20230051901A KR 102592988 B1 KR102592988 B1 KR 102592988B1
Authority
KR
South Korea
Prior art keywords
object recognition
area
recognition unit
object detection
image frame
Prior art date
Application number
KR1020230051901A
Other languages
Korean (ko)
Inventor
성현승
고진우
Original Assignee
국방과학연구소
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 국방과학연구소 filed Critical 국방과학연구소
Priority to KR1020230051901A priority Critical patent/KR102592988B1/en
Application granted granted Critical
Publication of KR102592988B1 publication Critical patent/KR102592988B1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/17Terrestrial scenes taken from planes or by drones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • G06V10/14Optical characteristics of the device performing the acquisition or on the illumination arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/10Recognition assisted with metadata

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Remote Sensing (AREA)
  • Image Analysis (AREA)

Abstract

유/무인 비행체에서 촬영된 항공영상에서 객체를 정확하게 탐지할 수 있는 항공영상에서의 객체 탐지방법이 제공된다. 객체 탐지방법은, 유/무인 비행체에서 수신된 항공영상에서 촬영기하를 추출하여 지상표본거리 맵을 생성하고, 기 학습된 객체 탐지부를 이용하여 항공영상에서 하나 이상의 객체를 탐지하여 출력한다. An object detection method in aerial images that can accurately detect objects in aerial images taken from manned/unmanned aircraft is provided. The object detection method generates a ground sample distance map by extracting the shooting geometry from aerial images received from a manned/unmanned aircraft, and detects and outputs one or more objects in the aerial images using a previously learned object detection unit.

Description

항공영상에서의 객체 탐지방법 및 장치{Method and device for detecting object in aerial images}Object detection method and device in aerial images {Method and device for detecting object in aerial images}

본 발명은 유/무인 비행체에서 촬영된 항공영상에서 객체를 정확하게 탐지할 수 있는 항공영상에서의 객체 탐지방법 및 장치에 관한 것이다. The present invention relates to a method and device for detecting objects in aerial images that can accurately detect objects in aerial images taken from manned/unmanned aircraft.

군사적 목적을 갖는 유/무인 비행체는 높은 고도에서 지표면을 촬영하여 영상을 출력하며, 이러한 항공영상은 비행체와 지표면 간 긴 경사거리(slant range)로 인해 낮은 고도각(elevation angle)을 갖는 특징이 있다. Manned/unmanned aircraft for military purposes capture images of the ground surface at high altitudes and output images, and these aerial images are characterized by a low elevation angle due to the long slant range between the aircraft and the ground surface. .

이러한 특징으로 인해 항공영상에서는 지표면에 위치된 객체들이 다양한 크기로 나타나게 된다. 예컨대, 비행체의 전방향에 위치된 객체는 비행체의 하방향에 위치된 객체와 실질적으로 동일 객체이더라도, 항공영상에서는 전방향의 객체가 하방향의 객체보다 작은 크기로 나타나게 된다. Due to these characteristics, objects located on the ground surface appear in various sizes in aerial images. For example, even if an object located in the forward direction of the aircraft is substantially the same as an object located in the downward direction of the aircraft, the forward object appears in a smaller size than the downward object in the aerial image.

한편, 항공영상에서 지표면에 위치된 객체, 예컨대 표적 등을 탐지하기 위해 종래에는 기술자에 의한 수작업, 예컨대 도화 작업을 통해 수동으로 객체를 탐지하는 방법이 사용되었다. 그러나, 최근 들어 머신 러닝 또는 딥 러닝 기술의 발전으로 인해 신경망모델을 이용하여 항공영상에서 객체를 탐지하는 방법이 사용되고 있다. Meanwhile, in order to detect objects located on the ground surface in aerial images, such as targets, conventionally, a method of manually detecting objects through manual work by a technician, such as drawing, was used. However, recently, due to the development of machine learning or deep learning technology, a method of detecting objects in aerial images using a neural network model has been used.

기존의 객체 탐지를 위한 신경망모델은, 실제 객체와 유사한 크기의 객체가 나타나있는 학습영상을 이용하여 학습을 수행한다. 이로 인해, 기존의 신경망모델은 실제영상이 입력되었을 때 학습 시 탐지했던 객체와 유사한 크기의 객체에 대한 탐지 정확도가 높은 특징이 있다. Existing neural network models for object detection perform learning using training images showing objects of similar size to actual objects. Because of this, the existing neural network model has the characteristic of high detection accuracy for objects of a similar size to the object detected during learning when real images are input.

그러나, 전술한 바와 같이, 항공영상에서는 실질적으로 동일한 객체이더라도 그 위치에 따라 서로 다른 크기로 나타나게 되므로, 기존의 신경망모델을 이용하여 항공영상에서 객체를 탐지하는 경우에, 탐지 정확도가 저하되는 문제가 있었다. However, as mentioned above, even if the object is substantially the same in an aerial image, it appears in different sizes depending on its location, so when detecting an object in an aerial image using an existing neural network model, there is a problem of reduced detection accuracy. there was.

한국공개특허 제10-2022-0033695호(2022.03.17.)Korean Patent Publication No. 10-2022-0033695 (2022.03.17.)

본 발명은 유/무인 비행체에서 촬영된 항공영상에서 객체를 정확하게 탐지할 수 있는 항공영상에서의 객체 탐지방법 및 장치를 제공하고자 하는 데 있다. The purpose of the present invention is to provide a method and device for detecting objects in aerial images that can accurately detect objects in aerial images taken from manned/unmanned aircraft.

본 발명의 일 실시예에 따른 객체 탐지방법은, 유/무인 비행체에서 촬영된 항공영상을 수신하여 상기 항공영상의 각 영상프레임에 대한 촬영기하를 추출하는 단계; 상기 촬영기하에 기초하여 상기 영상프레임에서 지상표본거리 맵을 생성하는 단계; 및 기 학습된 객체 탐지부를 이용하여 상기 영상프레임에서 하나 이상의 객체를 탐지하여 출력하는 단계를 포함한다.An object detection method according to an embodiment of the present invention includes the steps of receiving aerial images captured from a manned/unmanned aircraft and extracting the shooting geometry for each image frame of the aerial images; generating a ground sample distance map from the image frame based on the imaging geometry; and detecting and outputting one or more objects in the image frame using a previously learned object detection unit.

상기 촬영기하를 추출하는 단계는, 상기 영상프레임을 역다중화하여 영상데이터, 메타데이터 및 오디오데이터로 분리하는 단계; 상기 메타데이터를 파싱하여 하나 이상의 구성요소를 추출하는 단계; 및 상기 하나 이상의 구성요소에 기초하여 상기 항공영상에 대한 내부 표정요소 및 외부 표정요소를 상기 촬영기하로 추출하는 단계를 포함한다.The step of extracting the shooting geometry includes demultiplexing the video frame and separating it into video data, metadata, and audio data; parsing the metadata to extract one or more components; and extracting internal expression elements and external expression elements of the aerial image with the shooting geometry based on the one or more components.

여기서, 상기 내부 표정요소는 상기 유/무인 비행체의 카메라의 화각정보 및 영상프레임의 크기정보를 포함하고, 상기 외부 표정요소는 상기 카메라의 위치정보 및 자세정보를 포함한다.Here, the internal facial expression element includes angle of view information and image frame size information of the camera of the manned/unmanned flying vehicle, and the external facial expression element includes location information and posture information of the camera.

상기 지상표본거리 맵을 생성하는 단계는, 상기 촬영기하에 기초하여 상기 유/무인 비행체의 카메라에 대한 모델링을 수행하는 단계; 모델링 된 카메라에 기초하여 상기 영상프레임의 복수의 화소 각각에 대한 지리좌표를 추출하는 단계; 상기 복수의 화소 각각의 상기 지리좌표를 지구중심좌표로 변환하고, 변환된 좌표에 기초하여 각 화소의 지상표본거리를 산출하는 단계; 및 상기 복수의 화소 각각의 상기 지상표본거리에 기초하여 상기 항공영상에 대한 상기 지상표본거리 맵을 생성하는 단계를 포함한다. Generating the ground sample distance map may include performing modeling on a camera of the manned/unmanned air vehicle based on the imaging geometry; extracting geographic coordinates for each of a plurality of pixels of the image frame based on the modeled camera; converting the geographic coordinates of each of the plurality of pixels into geocentric coordinates and calculating a ground sample distance of each pixel based on the converted coordinates; and generating the ground sample distance map for the aerial image based on the ground sample distance of each of the plurality of pixels.

상기 지상표본거리를 산출하는 단계는, 상기 복수의 화소 중 제1화소 및 상기 제1화소에 인접된 복수의 인접화소 각각의 상기 변환된 좌표 간 거리를 산출하고, 산출된 거리의 평균값에 기초하여 상기 제1화소의 상기 지상표본거리를 산출하는 단계를 포함한다. The step of calculating the ground sample distance includes calculating the distance between the transformed coordinates of each of a first pixel among the plurality of pixels and a plurality of adjacent pixels adjacent to the first pixel, and based on the average value of the calculated distances. and calculating the ground sample distance of the first pixel.

또한, 상기 지상표본거리를 산출하는 단계는, 상기 영상프레임을 복수의 영역으로 분할하는 단계; 각 분할영역의 모서리에 위치하는 4개의 화소에서 상기 변환된 좌표를 추출하는 단계; 및 추출된 상기 변환된 좌표의 평균값을 산출하여 상기 각 분할영역 내 전체 화소의 상기 지상표본거리로 결정하는 단계를 포함한다.In addition, calculating the ground sample distance may include dividing the image frame into a plurality of areas; extracting the converted coordinates from four pixels located at the corners of each divided area; and calculating an average value of the extracted transformed coordinates and determining the ground sample distance of all pixels in each segment.

상기 객체 탐지부는, 기 학습된 제1객체인식부, 제2객체인식부 및 제3객체인식부를 포함한다. 이에, 상기 하나 이상의 객체를 탐지하여 출력하는 단계는, 상기 영상프레임을 제1영역, 제2영역 및 제3영역으로 분할하는 단계; 상기 제1객체인식부를 이용하여 제1영역의 영상프레임에 대한 객체 인식결과를 출력하고, 상기 제2객체인식부를 이용하여 제2영역의 영상프레임에 대한 객체 인식결과를 출력하고, 상기 제3객체인식부를 이용하여 제3영역의 영상프레임에 대한 객체 인식결과를 출력하는 단계; 및 상기 제1객체인식부, 제2객체인식부 및 제3객체인식부 각각의 출력을 융합하여 상기 항공영상에 대한 객체 탐지결과로 출력하는 단계를 포함한다. The object detection unit includes a previously learned first object recognition unit, a second object recognition unit, and a third object recognition unit. Accordingly, the step of detecting and outputting the one or more objects includes dividing the image frame into a first area, a second area, and a third area; Outputs an object recognition result for an image frame in the first area using the first object recognition unit, outputs an object recognition result for an image frame in the second area using the second object recognition unit, and outputs an object recognition result for the image frame in the second area using the second object recognition unit. Outputting an object recognition result for an image frame in a third area using a recognition unit; and fusing the outputs of each of the first object recognition unit, the second object recognition unit, and the third object recognition unit to output an object detection result for the aerial image.

여기서, 상기 제1객체인식부, 제2객체인식부 및 제3객체인식부 각각은 인식부 및 판별부를 포함한다. 상기 인식부는, 상기 제1영역의 영상프레임, 제2영역의 영상프레임 및 제3영역의 영상프레임 각각에서 객체 인식결과를 출력하도록 학습된다. 상기 판별부는, 상기 인식부에서 출력된 상기 객체 인식결과와 함께 레이블 데이터로 판별 정답을 입력 받으면, 상기 객체 인식결과에 대한 신뢰도를 판별하여 출력하도록 학습된다.Here, the first object recognition unit, the second object recognition unit, and the third object recognition unit each include a recognition unit and a determination unit. The recognition unit is trained to output object recognition results from each of the image frames of the first area, the image frame of the second area, and the image frame of the third area. The discriminator is trained to determine the reliability of the object recognition result and output the object recognition result output from the recognition unit when the correct answer is input as label data.

상기 제1영역, 제2영역 및 제3영역으로 분할하는 단계는, 상기 영상프레임의 상기 제1영역의 일부와 상기 제2영역의 일부가 중첩되는 제1중첩영역을 포함하도록 분할하는 단계를 포함한다. The step of dividing into the first area, the second area and the third area includes dividing the video frame to include a first overlap area where a part of the first area and a part of the second area overlap. do.

이에, 상기 하나 이상의 객체를 탐지하여 출력하는 단계는, 상기 제1중첩영역에 대한 상기 제1객체인식부의 객체 인식결과와 상기 제2객체인식부의 객체 인식결과 중에서 신뢰도 값이 높은 객체 인식결과를 상기 제1중첩영역에 대한 객체 탐지결과로 출력하는 단계를 포함한다.Accordingly, the step of detecting and outputting one or more objects includes selecting an object recognition result with a high reliability value among the object recognition results of the first object recognition unit and the object recognition results of the second object recognition unit for the first overlapping area. It includes outputting an object detection result for the first overlapping area.

또한, 상기 제1영역, 제2영역 및 제3영역으로 분할하는 단계는, 상기 영상프레임의 상기 제2영역의 일부와 상기 제3영역의 일부가 중첩되는 제2중첩영역을 포함하도록 분할하는 단계를 포함한다. In addition, the step of dividing into the first area, the second area and the third area includes dividing the video frame to include a second overlapping area where a part of the second area and a part of the third area overlap. Includes.

이에, 상기 하나 이상의 객체를 탐지하여 출력하는 단계는, 상기 제2중첩영역에 대한 상기 제2객체인식부의 객체 인식결과와 상기 제3객체인식부의 객체 인식결과 중에서 신뢰도 값이 높은 객체 인식결과를 상기 제2중첩영역에 대한 객체 탐지결과로 출력하는 단계를 포함한다.Accordingly, the step of detecting and outputting one or more objects includes selecting an object recognition result with a high reliability value among the object recognition results of the second object recognition unit and the object recognition results of the third object recognition unit for the second overlapping area. It includes outputting the object detection result for the second overlapping area.

본 발명의 실시예에 따른 객체 탐지장치는, 객체 탐지 프로그램이 저장된 메모리; 및 상기 객체 탐지 프로그램을 실행하여, 유/무인 비행체에서 촬영된 항공영상을 수신하여 상기 항공영상의 각 영상프레임에 대한 촬영기하를 추출하고, 추출된 상기 촬영기하에 기초하여 상기 영상프레임에서 지상표본거리 맵을 생성하고, 기 학습된 객체 탐지부를 이용하여 상기 영상프레임에서 하나 이상의 객체를 탐지하여 출력하는 프로세서를 포함한다.An object detection device according to an embodiment of the present invention includes a memory storing an object detection program; And executing the object detection program, receiving aerial images taken from manned/unmanned aircraft, extracting the shooting geometry for each image frame of the aerial images, and extracting ground samples from the image frames based on the extracted shooting geometry. It includes a processor that generates a distance map, detects and outputs one or more objects in the video frame using a previously learned object detection unit.

상기 프로세서는, 상기 영상프레임을 역다중화하여 영상데이터, 메타데이터 및 오디오데이터로 분리하고, 상기 메타데이터를 파싱하여 하나 이상의 구성요소를 추출하고, 상기 하나 이상의 구성요소에 기초하여 상기 항공영상에 대한 내부 표정요소 및 외부 표정요소를 상기 촬영기하로 추출한다. The processor demultiplexes the video frame to separate it into video data, metadata, and audio data, parses the metadata to extract one or more components, and generates information about the aerial video based on the one or more components. Internal expression elements and external expression elements are extracted using the above shooting geometry.

또한, 상기 프로세서는, 상기 촬영기하에 기초하여 상기 유/무인 비행체의 카메라를 모델링하고, 모델링 된 카메라에 기초하여 상기 영상프레임의 복수의 화소 각각에 대한 지리좌표를 추출하고, 상기 복수의 화소 각각의 상기 지리좌표를 지구중심좌표로 변환하고, 변환된 좌표에 기초하여 각 화소의 지상표본거리를 산출하고, 상기 복수의 화소 각각의 상기 지상표본거리에 기초하여 상기 항공영상에 대한 상기 지상표본거리 맵을 생성한다. In addition, the processor models a camera of the manned/unmanned aircraft based on the imaging geometry, extracts geographic coordinates for each of a plurality of pixels of the image frame based on the modeled camera, and extracts geographic coordinates for each of the plurality of pixels. Convert the geographic coordinates to geocentric coordinates, calculate the ground sample distance of each pixel based on the converted coordinates, and calculate the ground sample distance for the aerial image based on the ground sample distance of each of the plurality of pixels. Create a map.

여기서, 상기 프로세서는, 상기 복수의 화소 중 제1화소 및 상기 제1화소에 인접된 복수의 인접화소 각각의 상기 변환된 좌표 간 거리를 산출하고, 산출된 거리의 평균값에 기초하여 상기 제1화소의 상기 지상표본거리를 산출한다. Here, the processor calculates a distance between the converted coordinates of a first pixel among the plurality of pixels and a plurality of adjacent pixels adjacent to the first pixel, and based on the average value of the calculated distances, the first pixel Calculate the above ground sample distance.

또한, 상기 프로세서는, 상기 영상프레임을 복수의 영역으로 분할하고, 각 분할영역의 모서리에 위치하는 4개의 화소에서 상기 변환된 좌표를 추출하고, 추출된 상기 변환된 좌표의 평균값을 산출하여 상기 각 분할영역 내 전체 화소의 상기 지상표본거리로 결정한다.In addition, the processor divides the image frame into a plurality of regions, extracts the transformed coordinates from four pixels located at the corners of each divided region, calculates the average value of the extracted transformed coordinates, and calculates the average value of the extracted transformed coordinates. It is determined by the above-mentioned ground sampling distance of all pixels in the divided area.

상기 객체 탐지부는, 기 학습된 제1객체인식부, 제2객체인식부 및 제3객체인식부를 포함한다. The object detection unit includes a previously learned first object recognition unit, a second object recognition unit, and a third object recognition unit.

상기 프로세서는, 상기 영상프레임을 제1영역, 제2영역 및 제3영역으로 분할하고, 상기 제1객체인식부를 이용하여 제1영역의 영상프레임에 대한 객체 인식결과를 출력하고, 상기 제2객체인식부를 이용하여 제2영역의 영상프레임에 대한 객체 인식결과를 출력하고, 상기 제3객체인식부를 이용하여 제3영역의 영상프레임에 대한 객체 인식결과를 출력하고, 상기 제1객체인식부, 제2객체인식부 및 제3객체인식부 각각의 출력을 융합하여 상기 항공영상에 대한 객체 탐지결과로 출력한다.The processor divides the video frame into a first region, a second region, and a third region, outputs an object recognition result for the video frame of the first region using the first object recognition unit, and identifies the second object. Outputs an object recognition result for the image frame of the second area using the recognition unit, outputs an object recognition result for the image frame of the third area using the third object recognition unit, and outputs the object recognition result for the image frame of the third area using the first object recognition unit. The outputs of the second object recognition unit and the third object recognition unit are fused and output as an object detection result for the aerial image.

또한, 상기 제1객체인식부, 제2객체인식부 및 제3객체인식부 각각은 인식부 및 판별부를 포함한다. In addition, the first object recognition unit, the second object recognition unit, and the third object recognition unit each include a recognition unit and a determination unit.

여기서, 상기 인식부는, 상기 제1영역의 영상프레임, 제2영역의 영상프레임 및 제3영역의 영상프레임 각각에서 객체 인식결과를 출력하도록 학습된다.Here, the recognition unit is trained to output object recognition results from each of the image frames of the first area, the image frame of the second area, and the image frame of the third area.

상기 판별부는, 상기 인식부에서 출력된 상기 객체 인식결과와 함께 레이블 데이터로 판별 정답을 입력 받으면, 상기 객체 인식결과에 대한 신뢰도를 판별하여 출력하도록 학습된다.The discriminator is trained to determine the reliability of the object recognition result and output the object recognition result output from the recognition unit when the correct answer is input as label data.

상기 프로세서는, 상기 영상프레임의 상기 제1영역의 일부와 상기 제2영역의 일부가 중첩되는 제1중첩영역을 포함하도록 분할하고, 상기 제1중첩영역에 대한 상기 제1객체인식부의 객체 인식결과와 상기 제2객체인식부의 객체 인식결과 중에서 신뢰도 값이 높은 객체 인식결과를 상기 제1중첩영역에 대한 객체 탐지결과로 출력한다. The processor divides the image frame to include a first overlapping area where a part of the first area and a part of the second area overlap, and the object recognition result of the first object recognition unit for the first overlapping area. And among the object recognition results of the second object recognition unit, the object recognition result with a high reliability value is output as the object detection result for the first overlapping area.

또한, 상기 프로세서는, 상기 영상프레임의 상기 제2영역의 일부와 상기 제3영역의 일부가 중첩되는 제2중첩영역을 포함하도록 분할하고, 상기 제2중첩영역에 대한 상기 제2객체인식부의 객체 인식결과와 상기 제3객체인식부의 객체 인식결과 중에서 신뢰도 값이 높은 객체 인식결과를 상기 제2중첩영역에 대한 객체 탐지결과로 출력한다. In addition, the processor divides the video frame to include a second overlapping area where a part of the second area and a part of the third area overlap, and the object of the second object recognition unit for the second overlapping area. Among the recognition results and the object recognition results of the third object recognition unit, the object recognition result with a high reliability value is output as the object detection result for the second overlapping area.

본 발명은 항공영상을 복수의 영역으로 분할하고, 기 학습된 복수의 신경망모델을 이용하여 각 분할영역에 위치하는 객체를 인식하여 탐지할 수 있다. The present invention divides an aerial image into a plurality of regions and can recognize and detect objects located in each divided region using a plurality of previously learned neural network models.

또한, 본 발명은 항공영상의 각 분할영역 사이에 존재하는 중첩영역에 위치된 객체를 2 이상의 신경망모델이 인식한 경우에, 각 신경망모델의 인식결과 중 신뢰도가 높은 인식 결과를 이용하여 객체의 탐지결과로 출력할 수 있다. In addition, the present invention detects the object using a highly reliable recognition result among the recognition results of each neural network model when two or more neural network models recognize an object located in an overlapping area that exists between each divided area of an aerial image. The result can be output.

이에, 본 발명은 항공영상에서 다양한 크기로 나타나는 객체를 정확하게 인식하여 객체 탐지결과를 제공할 수 있다. Accordingly, the present invention can accurately recognize objects that appear in various sizes in aerial images and provide object detection results.

도 1은 본 발명의 실시예에 따른 항공영상을 나타내는 도면이다.
도 2는 본 발명의 실시예에 따른 객체 탐지장치를 나타내는 도면이다.
도 3은 도 2의 객체 탐지 프로그램의 기능을 개념적으로 나타내는 도면이다.
도 4는 도 3의 객체 탐지부를 학습시키는 방법을 나타내는 도면이다.
도 5는 본 발명의 실시예에 따른 객체 탐지방법을 나타내는 순서도이다.
도 6은 도 5의 촬영기하를 분석하는 단계를 나타내는 순서도이다.
도 7은 도 5의 지상표본거리 맵을 생성하는 단계를 나타내는 순서도이다.
도 8은 도 5의 객체를 탐지하는 단계를 나타내는 순서도이다.
도 9는 도 8의 객체를 탐지하는 단계에 대한 일 실시예를 나타내는 도면이다.
1 is a diagram showing an aerial image according to an embodiment of the present invention.
Figure 2 is a diagram showing an object detection device according to an embodiment of the present invention.
FIG. 3 is a diagram conceptually showing the function of the object detection program of FIG. 2.
FIG. 4 is a diagram showing a method of training the object detection unit of FIG. 3.
Figure 5 is a flowchart showing an object detection method according to an embodiment of the present invention.
FIG. 6 is a flowchart showing steps for analyzing the imaging geometry of FIG. 5.
FIG. 7 is a flowchart showing steps for generating the ground sample distance map of FIG. 5.
FIG. 8 is a flowchart showing steps for detecting the object of FIG. 5.
FIG. 9 is a diagram illustrating an embodiment of the object detection step of FIG. 8.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.The advantages and features of the present invention and methods for achieving them will become clear by referring to the embodiments described in detail below along with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below and may be implemented in various different forms. The present embodiments are merely provided to ensure that the disclosure of the present invention is complete and to be understood by those skilled in the art. It is provided to fully inform those who have the scope of the invention, and the present invention is only defined by the scope of the claims.

본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.In describing embodiments of the present invention, if a detailed description of a known function or configuration is judged to unnecessarily obscure the gist of the present invention, the detailed description will be omitted. The terms described below are terms defined in consideration of functions in the embodiments of the present invention, and may vary depending on the intention or custom of the user or operator. Therefore, the definition should be made based on the contents throughout this specification.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예에 대하여 상세하게 설명한다.Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the attached drawings.

도 1은 본 발명의 실시예에 따른 항공영상을 나타내는 도면이다.1 is a diagram showing an aerial image according to an embodiment of the present invention.

도 1을 참조하면, 본 실시예의 항공영상은 소정 고도로 비행중인 유/무인 비행체(10)에 장착된 카메라 등의 촬영장치에 의해 지표면, 예컨대 복수의 객체(A, B, C)가 위치하는 지표면을 촬영한 영상일 수 있다. Referring to FIG. 1, the aerial image of this embodiment is the ground surface, for example, the ground surface where a plurality of objects (A, B, C) are located by an imaging device such as a camera mounted on a manned/unmanned aircraft 10 flying at a predetermined altitude. It may be a video taken.

여기서, 항공영상은 유/무인 비행체(10)에 의해 높은 고도에서 촬영되므로, 긴 경사거리 및 이로 인한 낮은 고도각(θ)을 갖는 특징이 있으며, 이러한 특징으로 인해 지표면에 위치된 복수의 객체(A, B, C)는 항공영상에서 다양한 크기로 나타나게 된다. Here, the aerial image is taken at a high altitude by the manned/unmanned aircraft 10, so it has the characteristic of having a long slope distance and a low altitude angle (θ) due to this, and due to this feature, a plurality of objects located on the ground surface ( A, B, C) appear in various sizes in aerial images.

예컨대, 지표면에 위치된 제1객체(A), 제2객체(B) 및 제3객체(C)가 유/무인 비행체(10)에 의해 촬영된 경우에, 제1객체(A) 내지 제3객체(C)가 실제적으로 동일 크기를 가지더라도, 항공영상에서는 서로 다른 크기로 나타날 수 있다. 이때, 유/무인 비행체(10)의 진행방향, 즉 전방 지표면에 위치된 제3객체(C)는 유/무인 비행체(10)의 하방 지표면에 위치된 제1객체(A)보다 항공영상에서 작은 크기로 나타날 수 있다. For example, when the first object (A), second object (B), and third object (C) located on the ground surface are photographed by the manned/unmanned flying vehicle 10, the first object (A) to the third object (A) Even if objects (C) actually have the same size, they may appear in different sizes in aerial images. At this time, the third object (C) located on the ground surface in front of the moving direction of the manned/unmanned aircraft 10, that is, is smaller in the aerial image than the first object (A) located on the ground surface below the manned/unmanned aircraft 10. It can appear in size.

이에, 본 발명의 객체 탐지장치는 전술한 특징을 갖는 항공영상에서 객체의 탐지 성능을 높일 수 있도록 하는 신경망모델을 포함할 수 있다. 이러한 본 발명의 객체 탐지장치에 대해 도면을 참조하여 구체적으로 설명하기로 한다. Accordingly, the object detection device of the present invention may include a neural network model that improves object detection performance in aerial images having the above-described characteristics. The object detection device of the present invention will be described in detail with reference to the drawings.

도 2는 본 발명의 실시예에 따른 객체 탐지장치를 나타내는 도면이다.Figure 2 is a diagram showing an object detection device according to an embodiment of the present invention.

도 2를 참조하면, 본 실시예의 객체 탐지장치(100)는 입출력부(110), 프로세서(120) 및 메모리(130)를 포함할 수 있다. Referring to FIG. 2, the object detection device 100 of this embodiment may include an input/output unit 110, a processor 120, and a memory 130.

입출력부(110)는 유/무인 비행체(10)가 촬영한 항공영상을 수신할 수 있다. 또한, 입출력부(110)는 프로세서(120)에 의해 항공영상 내 위치된 하나 이상의 객체에 대한 탐지결과를 외부, 예컨대 관제서버(미도시) 등으로 출력할 수 있다. The input/output unit 110 can receive aerial images captured by the manned/unmanned aircraft 10. Additionally, the input/output unit 110 may output detection results for one or more objects located in the aerial image by the processor 120 to an external source, such as a control server (not shown).

프로세서(120)는 입출력부(110)를 통해 항공영상을 제공받고, 후술될 메모리(130)에 저장된 객체 탐지 프로그램(140)을 이용하여 항공영상에서 하나 이상의 객체를 탐지할 수 있다. 또한, 프로세서(120)는 탐지된 객체에 대한 정보를 포함하는 객체 탐지결과를 입출력부(110)를 통해 외부로 출력할 수 있다. The processor 120 may receive an aerial image through the input/output unit 110 and detect one or more objects in the aerial image using an object detection program 140 stored in the memory 130, which will be described later. Additionally, the processor 120 may output an object detection result including information about the detected object to the outside through the input/output unit 110.

메모리(130)는 객체 탐지 프로그램(140) 및 이의 실행에 필요한 정보를 저장할 수 있다. 객체 탐지 프로그램(140)은 입출력부(110)를 통해 수신된 항공영상에서 하나 이상의 객체를 탐지하여 탐지 결과를 출력할 수 있는 명령어들을 포함하는 소프트웨어일 수 있다. The memory 130 may store the object detection program 140 and information necessary for its execution. The object detection program 140 may be software that includes commands that can detect one or more objects in aerial images received through the input/output unit 110 and output detection results.

이에, 프로세서(120)는 메모리(130)에 저장된 객체 탐지 프로그램(140)을 실행하고, 이를 이용하여 입출력부(110)를 통해 수신된 항공영상에서 하나 이상의 객체를 탐지할 수 있다. Accordingly, the processor 120 can execute the object detection program 140 stored in the memory 130 and use it to detect one or more objects in the aerial image received through the input/output unit 110.

도 3은 도 2의 객체 탐지 프로그램의 기능을 개념적으로 나타내는 도면이다. FIG. 3 is a diagram conceptually showing the function of the object detection program of FIG. 2.

도 3을 참조하면, 본 실시예의 객체 탐지 프로그램(140)은 영상분석부(141), 지상표본거리(GSD, ground sample distance) 맵(map) 생성부(143) 및 객체 탐지부(145)를 포함할 수 있다. Referring to FIG. 3, the object detection program 140 of this embodiment includes an image analysis unit 141, a ground sample distance (GSD) map generation unit 143, and an object detection unit 145. It can be included.

도 3에 도시된 영상분석부(141), 지상표본거리 맵 생성부(143) 및 객체 탐지부(145)는 객체 탐지 프로그램(140)의 기능을 쉽게 설명하기 위해 개념적으로 나눈 것으로서, 본 발명은 이에 제한되지 않는다. The image analysis unit 141, the ground sample distance map creation unit 143, and the object detection unit 145 shown in FIG. 3 are conceptually divided to easily explain the function of the object detection program 140, and the present invention It is not limited to this.

예컨대, 본 발명의 실시예에 따라 영상분석부(141), 지상표본거리 맵 생성부(143) 및 객체 탐지부(145)는 그 기능이 병합되거나 분리될 수 있으며, 하나의 프로그램에 포함된 일련의 명령어들로 구현될 수도 있다.For example, according to an embodiment of the present invention, the functions of the image analysis unit 141, the ground sample distance map creation unit 143, and the object detection unit 145 may be merged or separated, and may be formed as a series of functions included in one program. It can also be implemented with instructions.

영상분석부(141)는 입출력부(110)로부터 제공된 항공영상에 대한 촬영기하를 추출할 수 있다. The image analysis unit 141 may extract the shooting geometry of the aerial image provided from the input/output unit 110.

여기서, 촬영기하는 유/무인 비행체(10)에 장착된 카메라 등의 촬영장치에 대한 요소, 예컨대 내부 표정요소(IOP, inner orientation parameters) 및 외부 표정요소(EOP, exterior orientation parameters)를 포함할 수 있다. 또한, 내부 표정요소는 카메라의 화각정보 및 항공영상의 영상프레임에 대한 크기정보를 포함할 수 있다. 외부 표정요소는 카메라의 위도, 경도, 고도 등에 대한 위치정보 및 상기 카메라의 방위각, 고각, 회전각 등의 자세정보를 포함할 수 있다. Here, the imaging device may include elements of a photographing device such as a camera mounted on the manned/unmanned aircraft 10, for example, internal orientation parameters (IOP) and exterior orientation parameters (EOP). . Additionally, the internal facial expression element may include information about the angle of view of the camera and size information about the image frame of the aerial image. External expression elements may include location information about the camera's latitude, longitude, and altitude, and posture information such as the camera's azimuth, elevation, and rotation angle.

이에, 영상분석부(141)는 항공영상의 각 영상프레임을 역다중화(demuxing)하여 상기 영상프레임을 영상데이터, 메타데이터 및 오디오데이터로 분리하고, 분리된 메타데이터를 파싱(parsing)하여 하나 이상의 구성요소를 추출할 수 있다. Accordingly, the video analysis unit 141 demultiplexes each video frame of the aerial video, separates the video frame into video data, metadata, and audio data, and parses the separated metadata to determine one or more Components can be extracted.

여기서, 하나 이상의 구성요소는 유/무인 비행체(10)의 위치 및 자세, 카메라의 위치 및 자세에 대한 요소를 포함할 수 있다. Here, one or more components may include elements for the position and posture of the manned/unmanned aircraft 10 and the position and posture of the camera.

또한, 영상분석부(141)는 추출된 하나 이상의 구성요소로부터 전술된 내부 표정요소 및 외부 표정요소를 포함하는 촬영기하를 추출할 수 있다. Additionally, the image analysis unit 141 may extract imaging geometry including the aforementioned internal expression elements and external expression elements from one or more extracted components.

지상표본거리 맵 생성부(143)는 추출된 촬영기하에 기초하여 항공영상의 전체 화소에 대한 지상표본거리를 산출하고, 산출된 지상표본거리에 기초하여 항공영상에 대응되는 지상표본거리 맵을 생성할 수 있다. The ground sample distance map generator 143 calculates the ground sample distance for all pixels of the aerial image based on the extracted shooting geometry, and generates a ground sample distance map corresponding to the aerial image based on the calculated ground sample distance. can do.

지상표본거리 맵 생성부(143)는 촬영기하에 기초하여 카메라를 모델링하고, 모델링 된 카메라에 기초하여 항공영상의 각 영상프레임의 복수의 화소 각각에 대한 지리좌표를 추출할 수 있다. 여기서, 복수의 화소 각각의 지리좌표는 각 화소의 위도 좌표값 및 경도 좌표값을 가질 수 있다. The ground sample distance map generator 143 may model a camera based on the shooting geometry and extract geographic coordinates for each of a plurality of pixels of each image frame of the aerial image based on the modeled camera. Here, the geographic coordinates of each of the plurality of pixels may have a latitude coordinate value and a longitude coordinate value of each pixel.

또한, 지상표본거리 맵 생성부(143)는 추출된 각 화소의 지리좌표를 지구중심좌표로 변환하고, 변환된 지리좌표에 기초하여 각 화소의 지상표본거리를 산출할 수 있다. 여기서, 지상표본거리는 각 화소의 중심 간 간격에 따른 거리를 의미할 수 있으며, 미터(m) 단위로 산출될 수 있다. Additionally, the ground sample distance map generator 143 may convert the geographic coordinates of each extracted pixel into geocentric coordinates and calculate the ground sample distance of each pixel based on the converted geographic coordinates. Here, the ground sample distance may refer to the distance according to the distance between the centers of each pixel, and may be calculated in meters (m).

일 실시예에 따라, 지상표본거리 맵 생성부(143)는 영상프레임의 복수의 화소 중 제1화소 및 상기 제1화소에 인접된 복수의 인접화소 각각의 변환된 지리좌표를 추출할 수 있다. 지상표본거리 맵 생성부(143)는 추출된 복수의 변환된 지리좌표 간 거리를 산출하고, 산출된 거리의 평균값에 기초하여 제1화소의 지상표본거리를 산출할 수 있다. According to one embodiment, the ground sample distance map generator 143 may extract the converted geographic coordinates of each of a first pixel among a plurality of pixels of the image frame and a plurality of adjacent pixels adjacent to the first pixel. The ground sample distance map generator 143 may calculate the distance between the extracted plurality of converted geographic coordinates and calculate the ground sample distance of the first pixel based on the average value of the calculated distances.

여기서, 복수의 인접화소는 제1화소에 대하여 4방향, 예컨대 상/하/좌/우 방향으로 인접된 4개의 화소일 수 있다. 또한, 복수의 인접화소는 제1화소에 대하여 8방향, 예컨대 상/하/좌/우/대각선 방향으로 인접된 8개의 화소일 수 있다. Here, the plurality of adjacent pixels may be four pixels adjacent to the first pixel in four directions, for example, up/down/left/right directions. Additionally, the plurality of adjacent pixels may be eight pixels adjacent to the first pixel in eight directions, for example, up/down/left/right/diagonally.

또한, 다른 실시예에 따라, 지상표본거리 맵 생성부(143)는 영상프레임을 복수의 영역으로 분할하고, 각 분할영역에서 모서리에 위치하는 4개의 화소 각각의 변환된 지리좌표를 추출할 수 있다. 지상표본거리 맵 생성부(143)는 각 분할영역에서 추출된 4개의 변환된 지리좌표의 평균값을 산출하고, 이를 각 분할영역의 모든 화소에 대한 지상표본거리로 결정할 수 있다.Additionally, according to another embodiment, the ground sample distance map generator 143 may divide the image frame into a plurality of regions and extract the converted geographic coordinates of each of the four pixels located at the corners in each divided region. . The ground sample distance map generator 143 may calculate the average value of the four converted geographic coordinates extracted from each divided region and determine this as the ground sample distance for all pixels in each divided region.

이에, 지상표본거리 맵 생성부(143)는 항공영상의 각 영상프레임의 복수의 화소 각각의 지상표본거리에 기초하여 해당 영상프레임에 대한 지상표본거리 맵을 생성할 수 있다. Accordingly, the ground sample distance map generator 143 may generate a ground sample distance map for the corresponding image frame based on the ground sample distance of each of the plurality of pixels of each image frame of the aerial image.

객체 탐지부(145)는 항공영상의 각 영상프레임에서 하나 이상의 객체를 인식하고, 그에 따른 객체 탐지결과를 출력할 수 있다. 여기서, 항공영상의 각 영상프레임은 전술된 지상표본거리 맵 생성부(143)에서 생성된 지상표본거리 맵을 포함할 수 있다. The object detection unit 145 may recognize one or more objects in each image frame of the aerial image and output an object detection result accordingly. Here, each image frame of the aerial image may include a ground sample distance map generated by the ground sample distance map generator 143 described above.

객체 탐지부(145)는 기 학습된 복수의 신경망모델, 예컨대 제1객체인식부(151), 제2객체인식부(153) 및 제3객체인식부(155)를 포함할 수 있다. The object detection unit 145 may include a plurality of previously learned neural network models, for example, a first object recognition unit 151, a second object recognition unit 153, and a third object recognition unit 155.

도 4는 도 3의 객체 탐지부를 학습시키는 방법을 나타내는 도면이다.FIG. 4 is a diagram showing a method of training the object detection unit of FIG. 3.

도 4를 참조하면, 본 실시예의 객체 탐지부(145)는 제1객체인식부(151), 제2객체인식부(153) 및 제3객체인식부(155)를 포함할 수 있다. Referring to FIG. 4, the object detection unit 145 of this embodiment may include a first object recognition unit 151, a second object recognition unit 153, and a third object recognition unit 155.

여기서, 제1객체인식부(151), 제2객체인식부(153) 및 제3객체인식부(155)는 항공영상의 각 영상프레임에서 서로 다른 영역 내 존재하는 하나 이상의 객체를 인식하고, 그에 따른 항공영상의 객체 탐지결과를 출력할 수 있다. Here, the first object recognition unit 151, the second object recognition unit 153, and the third object recognition unit 155 recognize one or more objects existing in different areas in each image frame of the aerial image, and Object detection results of aerial images can be output.

이에, 본 실시예의 객체 탐지부(145)는 항공영상의 영상프레임, 예컨대 제1영상프레임을 복수의 영역으로 분할하여 제1객체인식부(151), 제2객체인식부(153) 및 제3객체인식부(155) 각각에 제공하는 영역분할부(157) 및 제1객체인식부(151), 제2객체인식부(153) 및 제3객체인식부(155)에서 출력된 탐지결과를 앙상블하여 항공영상의 객체 탐지결과로 출력하는 결과융합부(170)를 더 포함할 수 있다. Accordingly, the object detection unit 145 of the present embodiment divides the image frame of the aerial image, for example, the first image frame, into a plurality of areas and uses the first object recognition unit 151, the second object recognition unit 153, and the third Ensemble the detection results output from the area dividing unit 157, the first object recognition unit 151, the second object recognition unit 153, and the third object recognition unit 155 provided to each of the object recognition units 155. Thus, it may further include a result fusion unit 170 that outputs the object detection result of the aerial image.

영역분할부(157)는 제1영상프레임을 복수의 영역, 예컨대 제1영역(IA1), 제2영역(IA2) 및 제3영역(IA3)으로 분할하고, 분할된 영역의 영상을 제1객체인식부(151), 제2객체인식부(153) 및 제3객체인식부(155)로 각각 제공할 수 있다. The area dividing unit 157 divides the first image frame into a plurality of areas, for example, the first area (IA1), the second area (IA2), and the third area (IA3), and divides the image of the divided area into a first object. It can be provided as a recognition unit 151, a second object recognition unit 153, and a third object recognition unit 155, respectively.

예컨대, 영역분할부(157)는 제1영상프레임의 제1영역(IA1)에 해당하는 영상프레임을 제1객체인식부(151)에 제공하고, 제2영역(IA2)에 해당하는 영상프레임을 제2객체인식부(153)에 제공하며, 제3영역(IA3)에 해당하는 영상프레임을 제3객체인식부(155)에 제공할 수 있다. For example, the area dividing unit 157 provides an image frame corresponding to the first area (IA1) of the first image frame to the first object recognition unit 151, and provides an image frame corresponding to the second area (IA2) It is provided to the second object recognition unit 153, and the video frame corresponding to the third area (IA3) can be provided to the third object recognition unit 155.

여기서, 제1영역(IA1)은 앞서 도 1에서 설명한 바와 같이, 유/무인 비행체(10)의 전방 지표면에 대한 영상이 포함된 영역일 수 있다. 또한, 제3영역(IA3)은 유/무인 비행체(10)의 하방 지표면에 대한 영상이 포함된 영역이고, 제2영역(IA2)은 제1영역(IA1)과 제2영역(IA2) 사이의 지표면에 대한 영상이 포함된 영역일 수 있다. Here, the first area IA1 may be an area containing an image of the ground surface in front of the manned/unmanned flying vehicle 10, as previously described in FIG. 1. In addition, the third area (IA3) is an area containing an image of the ground surface below the manned/unmanned aircraft 10, and the second area (IA2) is an area between the first area (IA1) and the second area (IA2). It may be an area containing images of the earth's surface.

이에, 제1영역(IA1)의 영상프레임의 지상표본거리 맵은 제3영역(IA3)의 영상프레임의 지상표본거리 맵과 대비하여 화소간 거리, 즉 지상표본거리가 큰 값을 가질 수 있다. Accordingly, the ground sample distance map of the image frame in the first area (IA1) may have a larger inter-pixel distance, that is, the ground sample distance, than the ground sample distance map of the image frame in the third area (IA3).

예컨대, 제1영역(IA1)의 영상프레임의 지상표본거리는 대략 10m 이상일 수 있고, 제2영역(IA2)의 영상프레임의 지상표본거리는 3-10m일 수 있으며, 제3영역(IA3)의 영상프레임의 지상표본거리는 대략 3m 이하일 수 있다. For example, the ground sampling distance of the video frame in the first area (IA1) may be approximately 10 m or more, the ground sampling distance of the video frame in the second area (IA2) may be 3-10 m, and the video frame in the third area (IA3) may be approximately 10 m or more. The ground sampling distance may be approximately 3 m or less.

또한, 제1영상프레임의 제1영역(IA1), 제2영역(IA2) 및 제3영역(IA3)은 각 영역의 일부분이 서로 겹쳐지는 중첩영역을 포함할 수 있다. 예컨대, 제1영역(IA1) 및 제2영역(IA2)은 두 영역 사이의 제1중첩영역을 포함할 수 있고, 제2영역(IA2) 및 제3영역(IA3)은 두 영역 사이의 제2중첩영역을 포함할 수 있다. Additionally, the first area (IA1), the second area (IA2), and the third area (IA3) of the first video frame may include an overlapping area where a portion of each area overlaps. For example, the first area (IA1) and the second area (IA2) may include a first overlapping area between the two areas, and the second area (IA2) and the third area (IA3) may include a second overlapping area between the two areas. May include overlapping areas.

제1객체인식부(151) 내지 제3객체인식부(155) 각각은 영역분할부(157)에서 제공된 제1영상프레임의 각 분할영역에서 객체를 인식하는 인식부 및 상기 인식부의 객체 인식결과의 신뢰도를 판단하는 판별부를 포함할 수 있다. Each of the first object recognition unit 151 to the third object recognition unit 155 is a recognition unit that recognizes an object in each divided area of the first video frame provided by the area dividing unit 157, and an object recognition result of the recognition unit is provided. It may include a determination unit that determines reliability.

예컨대, 제1객체인식부(151)는 제1인식부(161) 및 제1판별부(164)를 포함할 수 있다. 제1인식부(161)는 영역분할부(157)에서 제공된 제1영역(IA1)의 영상프레임에서 객체를 인식하여 그 결과를 출력할 수 있다. 제1판별부(164)는 제1인식부(161)의 객체 인식결과에 대한 신뢰도를 판단하여 출력할 수 있다. For example, the first object recognition unit 151 may include a first recognition unit 161 and a first determination unit 164. The first recognition unit 161 may recognize an object in the image frame of the first area IA1 provided by the area dividing unit 157 and output the result. The first determination unit 164 may determine the reliability of the object recognition result of the first recognition unit 161 and output the result.

또한, 제2객체인식부(153)는 제2인식부(162) 및 제2판별부(165)를 포함할 수 있다. 제2인식부(162)는 영역분할부(157)에서 제공된 제2영역(IA2)의 영상프레임에서 객체를 인식하여 그 결과를 출력할 수 있다. 제2판별부(165)는 제2인식부(162)의 객체 인식결과에 대한 신뢰도를 판단하여 출력할 수 있다. Additionally, the second object recognition unit 153 may include a second recognition unit 162 and a second determination unit 165. The second recognition unit 162 may recognize an object in the image frame of the second area IA2 provided by the area dividing unit 157 and output the result. The second determination unit 165 may determine the reliability of the object recognition result of the second recognition unit 162 and output the result.

제3객체인식부(155)는 제3인식부(163) 및 제3판별부(166)를 포함할 수 있다. 제3인식부(163)는 영역분할부(157)에서 제공된 제3영역(IA3)의 영상프레임에서 객체를 인식하여 그 결과를 출력할 수 있다. 제3판별부(166)는 제3인식부(163)의 객체 인식결과에 대한 신뢰도를 판단하여 출력할 수 있다. The third object recognition unit 155 may include a third recognition unit 163 and a third determination unit 166. The third recognition unit 163 may recognize an object in the image frame of the third area IA3 provided by the area division unit 157 and output the result. The third determination unit 166 may determine the reliability of the object recognition result of the third recognition unit 163 and output the result.

여기서, 제1객체인식부(151), 제2객체인식부(153) 및 제3객체인식부(155)는 영역분할부(157)로부터 서로 다른 영역의 영상프레임을 제공받는 것을 제외하고, 실질적으로 동일한 구성일 수 있다. 이에, 아래에서는 설명의 편의를 위하여 제1객체인식부(151)에 대해 상세히 설명하기로 한다. Here, the first object recognition unit 151, the second object recognition unit 153, and the third object recognition unit 155 are substantially It may have the same configuration. Accordingly, for convenience of explanation, the first object recognition unit 151 will be described in detail below.

제1객체인식부(151)의 제1인식부(161)는 영역분할부(157)로부터 제1영상프레임의 제1영역(IA1)의 영상프레임을 입력 받으면, 상기 제1영역(IA1)의 영상프레임에서 하나 이상의 객체를 인식하여 인식결과를 출력하도록 학습될 수 있다. When the first recognition unit 161 of the first object recognition unit 151 receives an image frame of the first area (IA1) of the first image frame from the area dividing unit 157, It can be learned to recognize one or more objects in an image frame and output recognition results.

또한, 제1객체인식부(151)의 제1판별부(164)는 제1인식부(161)의 인식결과를 입력 받으면, 인식된 객체의 신뢰도, 예컨대 진위 여부를 판별하여 출력하도록 학습될 수 있다. In addition, when the first determination unit 164 of the first object recognition unit 151 receives the recognition result of the first recognition unit 161, it can be trained to determine the reliability of the recognized object, for example, whether it is genuine or not, and output it. there is.

이때, 제1판별부(164)는 출력한 신뢰도를 이용하여 제1인식부(161) 및 제1판별부(164) 자신을 더 학습시키기 위한 판별 손실값을 생성할 수 있다. 이를 위하여, 제1판별부(164)는 제1인식부(161)에서 출력된 인식결과와 함께 레이블 데이터로 판별 정답, 예컨대 실제 탐지된 객체를 입력 받을 수 있다. 이에, 제1판별부(164)는 판별 정답을 실제 출력한 신뢰도, 즉 진위 여부 판별 결과와 비교하고, 비교 결과에 따라 판별 손실값을 생성할 수 있다. At this time, the first determination unit 164 can use the output reliability to generate a discrimination loss value for further training the first recognition unit 161 and the first determination unit 164 itself. To this end, the first determination unit 164 may receive the recognition result output from the first recognition unit 161 as well as the determination answer, for example, the actual detected object, as label data. Accordingly, the first determination unit 164 may compare the determination correct answer with the actual output reliability, that is, the authenticity determination result, and generate a determination loss value according to the comparison result.

예컨대, 제1판별부(164)는 0~1 사이의 값을 진위 여부 판별 결과, 즉 신뢰도 값으로 출력할 수 있다. 여기서, 제1판별부(164)에서 출력된 신뢰도 값이 0에 가까울수록 상기 제1판별부(164)로 입력된 객체 인식결과는 거짓이라고 판별되고, 1에 가까울수록 객체 인식결과는 진실이라고 판별될 수 있다. For example, the first determination unit 164 may output a value between 0 and 1 as the authenticity determination result, that is, the reliability value. Here, the closer the reliability value output from the first determination unit 164 is to 0, the object recognition result input to the first determination unit 164 is judged to be false, and the closer it is to 1, the object recognition result is judged to be true. It can be.

이때, 제1판별부(164)가 제1인식부(161)로부터 입력된 객체 인식결과에 대한 신뢰도 값으로 0.7을 출력하고, 상기 제1판별부(164)에 레이블 데이터로 입력된 판별 정답이 1인 경우에, 제1판별부(164)는 0.3을 판별 손실값으로 결정할 수 있다. At this time, the first determination unit 164 outputs 0.7 as a reliability value for the object recognition result input from the first recognition unit 161, and the determination correct answer input as label data to the first determination unit 164 is In the case of 1, the first determination unit 164 may determine 0.3 as the discrimination loss value.

이에, 제1판별부(164)는 결정된 판별 손실값을 제1인식부(161) 및 제1판별부(164) 자신에게 제공하고, 제1인식부(161) 및 제1판별부(164) 각각은 제공된 판별 손실값이 최소가 되도록 전술된 학습, 즉 제1인식부(161)가 제1영역(IA1)의 영상프레임으로부터 객체를 인식하는 학습 및 제1판별부(164)가 제1인식부(161)의 객체 인식결과에 대한 진위 여부를 판별하여 신뢰도 값을 출력하는 학습을 반복 수행할 수 있다. Accordingly, the first determination unit 164 provides the determined discrimination loss value to the first recognition unit 161 and the first determination unit 164 itself, and the first recognition unit 161 and the first determination unit 164 Each of the above-described learning processes is performed so that the provided discrimination loss value is minimized, that is, learning in which the first recognition unit 161 recognizes an object from an image frame in the first area IA1, and learning in which the first recognition unit 164 recognizes the object from the image frame in the first area IA1. Learning to determine the authenticity of the object recognition result of the unit 161 and output a reliability value may be repeatedly performed.

따라서, 제1객체인식부(151)는 학습된 제1인식부(161) 및 제1판별부(164)를 이용하여 제1영역(IA1)의 영상프레임에 대한 객체 인식결과를 출력할 수 있다. 이때, 제1객체인식부(151)에서 출력되는 객체 인식결과에는 인식된 객체에 대한 정보 및 해당 객체의 인식 신뢰도 값을 포함할 수 있다.Accordingly, the first object recognition unit 151 can output an object recognition result for the image frame of the first area IA1 using the learned first recognition unit 161 and first determination unit 164. . At this time, the object recognition result output from the first object recognition unit 151 may include information about the recognized object and the recognition reliability value of the object.

또한, 전술한 바와 같이, 영역분할부(157)에 의해 분할된 제1영역(IA1)의 영상프레임은 제3영역(IA3)의 영상프레임보다 상대적으로 큰 지상표본거리를 가질 수 있다. 이에, 제1객체인식부(151)는 제2객체인식부(153) 및 제3객체인식부(155)와 대비하여 입력된 영상프레임에서 소형 크기로 나타나는 객체를 인식하도록 학습될 수 있고, 제2객체인식부(153)는 제3객체인식부(155)와 대비하여 입력된 영상프레임에서 중형 크기로 나타나는 객체를 인식하도록 학습될 수 있다. Additionally, as described above, the image frame of the first area IA1 divided by the area dividing unit 157 may have a relatively larger ground sample distance than the image frame of the third area IA3. Accordingly, the first object recognition unit 151 can be trained to recognize objects that appear in small sizes in the input video frame compared to the second object recognition unit 153 and the third object recognition unit 155, and Compared to the third object recognition unit 155, the second object recognition unit 153 can be trained to recognize objects that appear in medium size in the input video frame.

결과융합부(170)는 제1영상프레임에 대한 제1객체인식부(151), 제2객체인식부(153) 및 제3객체인식부(155)의 출력, 즉 각 객체인식부의 객체 인식결과를 융합하여 제1영상프레임의 객체 탐지결과를 출력할 수 있다. 여기서, 객체 탐지결과는 탐지된 객체의 종류에 대한 정보를 포함할 수 있다. The result fusion unit 170 is the output of the first object recognition unit 151, the second object recognition unit 153, and the third object recognition unit 155 for the first video frame, that is, the object recognition result of each object recognition unit. By fusing, the object detection result of the first video frame can be output. Here, the object detection result may include information about the type of detected object.

한편, 전술한 바와 같이, 제1영상프레임은 제1영역(IA1), 제2영역(IA2) 및 제3영역(IA3) 사이의 중첩영역을 포함할 수 있다. 이러한 중첩영역에서는 제1객체인식부(151), 제2객체인식부(153) 및 제3객체인식부(155) 중 적어도 2개에서 객체가 인식되어 탐지될 수 있다. Meanwhile, as described above, the first video frame may include an overlapping area between the first area (IA1), the second area (IA2), and the third area (IA3). In this overlapping area, the object may be recognized and detected in at least two of the first object recognition unit 151, the second object recognition unit 153, and the third object recognition unit 155.

예컨대, 제1영역(IA1)과 제2영역(IA2) 사이에는 제1중첩영역에 객체가 위치된 경우에, 제1객체인식부(151) 및 제2객체인식부(153) 각각에서 해당 객체를 인식하여 객체 인식결과를 출력할 수 있다. For example, when an object is located in the first overlapping area between the first area (IA1) and the second area (IA2), the corresponding object is detected in each of the first object recognition unit 151 and the second object recognition unit 153. You can recognize and output object recognition results.

이에, 결과융합부(170)는 제1객체인식부(151) 및 제2객체인식부(153) 각각에서 출력된 객체 인식결과를 융합하여 객체 탐지결과를 출력하되, 제1객체인식부(151)의 인식결과와 제2객체인식부(153)의 인식결과 중에서 신뢰도 값이 높은 인식결과에 기초하여 제1중첩영역의 객체 탐지결과로 출력할 수 있다. Accordingly, the result fusion unit 170 fuses the object recognition results output from each of the first object recognition unit 151 and the second object recognition unit 153 and outputs an object detection result. ) and the recognition results of the second object recognition unit 153, the object detection result of the first overlapping area can be output based on the recognition result with a high reliability value.

상술한 바와 같이, 본 실시예의 객체 탐지장치(100)는 항공영상을 복수의 영역으로 분할하고, 기 학습된 복수의 신경망모델을 이용하여 각 분할영역에 위치하는 객체를 인식하여 탐지할 수 있다. As described above, the object detection apparatus 100 of this embodiment can divide an aerial image into a plurality of regions and recognize and detect objects located in each divided region using a plurality of pre-learned neural network models.

또한, 본 실시예의 객체 탐지장치(100)는 각 분할영역 사이의 중첩영역에 위치된 객체를 2 이상의 신경망모델이 인식한 경우에, 각 신경망모델의 인식결과 중 신뢰도가 높은 인식 결과를 이용하여 객체의 탐지결과로 출력할 수 있다. In addition, when two or more neural network models recognize an object located in the overlapping area between each divided area, the object detection device 100 of this embodiment uses a highly reliable recognition result among the recognition results of each neural network model to detect the object. It can be output as a detection result.

이에, 본 발명은 항공영상에서 다양한 크기로 나타나는 객체를 정확하게 인식하여 객체 탐지결과를 제공할 수 있다. Accordingly, the present invention can accurately recognize objects that appear in various sizes in aerial images and provide object detection results.

도 5는 본 발명의 실시예에 따른 객체 탐지방법을 나타내는 순서도이고, 도 6은 도 5의 촬영기하를 분석하는 단계를 나타내는 순서도이고, 도 7은 도 5의 지상표본거리 맵을 생성하는 단계를 나타내는 순서도이고, 도 8은 도 5의 객체를 탐지하는 단계를 나타내는 순서도이다.FIG. 5 is a flowchart showing an object detection method according to an embodiment of the present invention, FIG. 6 is a flowchart showing the steps of analyzing the shooting geometry of FIG. 5, and FIG. 7 is a step of generating a ground sample distance map of FIG. 5. This is a flowchart, and FIG. 8 is a flowchart showing the steps for detecting the object of FIG. 5.

도 5를 참조하면, 객체 탐지장치(100)는 유/무인 비행체(10)에서 촬영된 항공영상을 수신할 수 있다. Referring to FIG. 5 , the object detection device 100 can receive aerial images captured by the manned/unmanned aircraft 10.

여기서, 항공영상은 앞서 도 1을 참조하여 설명한 바와 같이, 유/무인 비행체(10)의 고도에 의한 경사거리로 인해 낮은 고도각을 가질 수 있으며, 이로 인해 항공영상에서 동일 크기의 객체라 하더라도 그 촬영된 위치, 다시 말해 항공영상에 나타나는 위치에 따라 서로 다른 크기를 가질 수 있다. Here, as previously explained with reference to FIG. 1, the aerial image may have a low elevation angle due to the inclination distance due to the altitude of the manned/unmanned aircraft 10, and as a result, even if the object is the same size in the aerial image, the aerial image may have a low altitude angle. It can have different sizes depending on the location where it was filmed, that is, the location that appears in the aerial image.

이에, 객체 탐지장치(100)의 프로세서(120)는 메모리(130)에 저장된 객체 탐지 프로그램(140)을 실행하고, 이를 이용하여 기 수신된 항공영상에서 하나 이상의 객체를 탐지하여 그 탐지결과를 출력할 수 있다. Accordingly, the processor 120 of the object detection device 100 executes the object detection program 140 stored in the memory 130, detects one or more objects in the previously received aerial image, and outputs the detection result. can do.

먼저, 객체 탐지장치(100)의 영상분석부(141)는 입출력부(110)를 통해 수신된 항공영상에서 촬영기하를 추출할 수 있다(S10).First, the image analysis unit 141 of the object detection device 100 can extract the shooting geometry from the aerial image received through the input/output unit 110 (S10).

도 6을 참조하면, 영상분석부(141)는 항공영상의 각 영상프레임을 역다중화하고, 그에 따라 영상프레임을 영상데이터, 메타데이터 및 오디오데이터로 분리할 수 있다(S110). Referring to FIG. 6, the video analysis unit 141 demultiplexes each video frame of the aerial video, thereby separating the video frame into video data, metadata, and audio data (S110).

이어, 영상분석부(141)는 분리된 메타데이터를 파싱하고, 그에 따라 메타데이터로부터 하나 이상의 구성요소를 추출할 수 있다(S120). Next, the image analysis unit 141 may parse the separated metadata and thereby extract one or more components from the metadata (S120).

그리고, 영상분석부(141)는 추출된 구성요소에 기초하여 내부 표정요소 및 외부 표정요소를 포함하는 촬영기하를 추출할 수 있다(S130).And, the image analysis unit 141 may extract the imaging geometry including internal expression elements and external expression elements based on the extracted components (S130).

여기서, 하나 이상의 구성요소는 유/무인 비행체(10)의 위치 및 자세에 대한 구성요소 또는 상기 유/무인 비행체(10)에 장착된 카메라 등의 촬영장치의 위치 및 자세에 대한 구성요소를 포함할 수 있다. Here, the one or more components may include components for the position and posture of the manned/unmanned air vehicle 10 or components for the position and posture of an imaging device such as a camera mounted on the manned/unmanned air vehicle 10. You can.

또한, 내부 표정요소는 카메라의 화각정보 및 항공영상의 영상프레임에 대한 크기정보를 포함하고, 외부 표정요소는 카메라의 위도, 경도, 고도 등에 대한 위치정보 및 상기 카메라의 방위각, 고각, 회전각 등의 자세정보를 포함할 수 있다. In addition, the internal expression element includes the camera's angle of view information and size information about the image frame of the aerial image, and the external expression element includes location information about the camera's latitude, longitude, altitude, etc. and the camera's azimuth, elevation angle, rotation angle, etc. Detailed information may be included.

다시 도 5를 참조하면, 지상표본거리 맵 생성부(143)는 기 추출된 촬영기하에 기초하여 항공영상의 각 영상프레임에 대한 지상표본거리 맵을 생성할 수 있다(S20).Referring again to FIG. 5, the ground sample distance map generator 143 may generate a ground sample distance map for each image frame of the aerial image based on the previously extracted shooting geometry (S20).

도 7을 참조하면, 지상표본거리 맵 생성부(143)는 기 추출된 촬영기하에 기초하여 카메라를 모델링할 수 있다. 그리고, 모델링 된 카메라에 기초하여 영상프레임의 복수의 화소 각각에 대한 지리좌표를 추출할 수 있다(S210).Referring to FIG. 7, the ground sample distance map generator 143 may model the camera based on the previously extracted shooting geometry. And, based on the modeled camera, geographic coordinates for each of the plurality of pixels in the image frame can be extracted (S210).

여기서, 복수의 화소 각각의 지리좌표는 각 화소의 위도 및 경도에 대한 좌표값을 포함할 수 있다. Here, the geographic coordinates of each of the plurality of pixels may include coordinate values for the latitude and longitude of each pixel.

다음으로, 지상표본거리 맵 생성부(143)는 추출된 각 화소의 지리좌표를 지구중심좌표로 변환하고, 변환된 좌표에 기초하여 각 화소에 대한 지상표본거리를 산출할 수 있다(S220).Next, the ground sample distance map generator 143 can convert the geographic coordinates of each extracted pixel into geocentric coordinates and calculate the ground sample distance for each pixel based on the converted coordinates (S220).

지상표본거리 맵 생성부(143)는 영상프레임의 모든 화소마다 지상표본거리를 산출하거나 또는 영상프레임의 하나 이상의 특정 화소에서 지상표본거리를 산출하여 전체 화소에 대한 지상표본거리로 적용할 수 있다. The ground sample distance map generator 143 may calculate the ground sample distance for every pixel of the image frame, or may calculate the ground sample distance for one or more specific pixels of the image frame and apply it as the ground sample distance for all pixels.

일 실시예에 따라, 지상표본거리 맵 생성부(143)는 영상프레임의 복수의 화소 중 제1화소 및 상기 제1화소에 인접된 복수의 인접화소 각각의 변환된 좌표를 추출할 수 있다. According to one embodiment, the ground sample distance map generator 143 may extract the converted coordinates of each of a first pixel among a plurality of pixels of an image frame and a plurality of adjacent pixels adjacent to the first pixel.

여기서, 복수의 인접화소는 제1화소에 대하여 4방향, 예컨대 상/하/좌/우 방향으로 인접된 4개의 화소일 수 있다. 또한, 복수의 인접화소는 제1화소에 대하여 8방향, 예컨대 상/하/좌/우/대각선 방향으로 인접된 8개의 화소일 수 있다. Here, the plurality of adjacent pixels may be four pixels adjacent to the first pixel in four directions, for example, up/down/left/right directions. Additionally, the plurality of adjacent pixels may be eight pixels adjacent to the first pixel in eight directions, for example, up/down/left/right/diagonally.

이어, 지상표본거리 맵 생성부(143)는 추출된 복수의 변환된 좌표 간 거리를 산출하고, 산출된 거리의 평균값에 기초하여 제1화소에 대한 지상표본거리를 산출할 수 있다. Next, the ground sample distance map generator 143 may calculate the distance between the extracted plurality of converted coordinates and calculate the ground sample distance for the first pixel based on the average value of the calculated distances.

다른 실시예에 따라, 지상표본거리 맵 생성부(143)는 영상프레임을 복수의 영역으로 분할하고, 각 분할영역에서 모서리에 위치하는 4개의 화소 각각의 변환된 지리좌표를 추출할 수 있다. 지상표본거리 맵 생성부(143)는 각 분할영역에서 추출된 4개의 변환된 지리좌표의 평균값을 산출하고, 이를 각 분할영역의 모든 화소에 대한 지상표본거리로 결정할 수 있다.According to another embodiment, the ground sample distance map generator 143 may divide the image frame into a plurality of regions and extract the converted geographic coordinates of each of the four pixels located at the corners of each divided region. The ground sample distance map generator 143 may calculate the average value of the four converted geographic coordinates extracted from each divided region and determine this as the ground sample distance for all pixels in each divided region.

다음으로, 지상표본거리 맵 생성부(143)는 항공영상의 각 영상프레임의 복수의 화소 각각의 지상표본거리에 기초하여 영상프레임에 대한 지상표본거리 맵을 생성할 수 있다(S230).Next, the ground sample distance map generator 143 may generate a ground sample distance map for the image frame based on the ground sample distance of each of the plurality of pixels of each image frame of the aerial image (S230).

또한, 도면에 도시하지는 않았으나, 지상표본거리 맵 생성부(143)는 생성된 지상표본거리 맵을 대응되는 영상프레임의 영상데이터 및 메타데이터와 다중화하여 출력할 수 있다.In addition, although not shown in the drawing, the ground sample distance map generator 143 may output the generated ground sample distance map by multiplexing it with the image data and metadata of the corresponding video frame.

다시 도 5를 참조하면, 객체 탐지부(145)는 지상표본거리 맵을 포함하는 영상프레임에서 하나 이상의 객체를 인식하고, 그에 따라 항공영상에 대한 객체 탐지결과를 출력할 수 있다(S30).Referring again to FIG. 5, the object detection unit 145 may recognize one or more objects in an image frame including a ground sample distance map and output an object detection result for the aerial image accordingly (S30).

여기서, 객체 탐지부(145)는 기 학습된 하나 이상의 신경망모델, 예컨대 객체탐지를 위한 신경망모델을 포함할 수 있다. Here, the object detection unit 145 may include one or more previously learned neural network models, for example, a neural network model for object detection.

예컨대, 도 4에 도시된 바와 같이, 객체 탐지부(145)는 객체 탐지를 위한 신경망모델로 제1객체인식부(151), 제2객체인식부(153) 및 제3객체인식부(155)를 포함할 수 있다. 여기서, 제1객체인식부(151)는 제2객체인식부(153) 및 제3객체인식부(155)와 대비하여 입력된 영상프레임에서 소형 크기로 나타나는 객체를 인식하도록 학습될 수 있고, 제2객체인식부(153)는 제3객체인식부(155)와 대비하여 입력된 영상프레임에서 중형 크기로 나타나는 객체를 인식하도록 학습될 수 있다. For example, as shown in FIG. 4, the object detection unit 145 is a neural network model for object detection and includes a first object recognition unit 151, a second object recognition unit 153, and a third object recognition unit 155. may include. Here, the first object recognition unit 151 can be trained to recognize objects that appear in small sizes in the input video frame compared to the second object recognition unit 153 and the third object recognition unit 155, and Compared to the third object recognition unit 155, the second object recognition unit 153 can be trained to recognize objects that appear in medium size in the input video frame.

도 9는 도 8의 객체를 탐지하는 단계에 대한 일 실시예를 나타내는 도면이다. FIG. 9 is a diagram illustrating an embodiment of the object detection step of FIG. 8.

도 4, 도 8 및 도 9를 참조하면, 객체 탐지부(145)의 영역분할부(157)는 항공영상의 영상프레임, 예컨대 제1영상프레임을 복수의 영역, 예컨대 제1영역(IA1), 제2영역(IA2) 및 제3영역(IA3)으로 분할할 수 있다(S310). Referring to FIGS. 4, 8, and 9, the region dividing unit 157 of the object detection unit 145 divides an image frame of an aerial image, such as a first image frame, into a plurality of areas, such as a first area (IA1), It can be divided into a second area (IA2) and a third area (IA3) (S310).

여기서, 제1영역(IA1)은 앞서 도 1에서 설명한 바와 같이, 유/무인 비행체(10)의 전방 지표면에 대한 영상이 포함된 영역일 수 있다. 또한, 제3영역(IA3)은 유/무인 비행체(10)의 하방 지표면에 대한 영상이 포함된 영역이고, 제2영역(IA2)은 제1영역(IA1)과 제2영역(IA2) 사이의 지표면에 대한 영상이 포함된 영역일 수 있다. Here, the first area IA1 may be an area containing an image of the ground surface in front of the manned/unmanned flying vehicle 10, as previously described in FIG. 1. In addition, the third area (IA3) is an area containing an image of the ground surface below the manned/unmanned aircraft 10, and the second area (IA2) is an area between the first area (IA1) and the second area (IA2). It may be an area containing images of the earth's surface.

이에, 제1영역(IA1)의 영상프레임의 지상표본거리 맵은 제3영역(IA3)의 영상프레임의 지상표본거리 맵과 대비하여 화소간 거리, 즉 지상표본거리가 큰 값을 가질 수 있다. Accordingly, the ground sample distance map of the image frame in the first area (IA1) may have a larger inter-pixel distance, that is, the ground sample distance, than the ground sample distance map of the image frame in the third area (IA3).

예컨대, 제1영역(IA1)의 영상프레임의 지상표본거리는 대략 10m 이상일 수 있고, 제2영역(IA2)의 영상프레임의 지상표본거리는 3-10m일 수 있으며, 제3영역(IA3)의 영상프레임의 지상표본거리는 대략 3m 이하일 수 있다. For example, the ground sampling distance of the video frame in the first area (IA1) may be approximately 10 m or more, the ground sampling distance of the video frame in the second area (IA2) may be 3-10 m, and the video frame in the third area (IA3) may be approximately 10 m or more. The ground sampling distance may be approximately 3 m or less.

또한, 제1영상프레임의 제1영역(IA1), 제2영역(IA2) 및 제3영역(IA3)은 각 영역의 일부분이 서로 겹쳐지는 중첩영역을 포함할 수 있다. 예컨대, 제1영역(IA1) 및 제2영역(IA2)은 두 영역 사이의 제1중첩영역을 포함할 수 있고, 제2영역(IA2) 및 제3영역(IA3)은 두 영역 사이의 제2중첩영역을 포함할 수 있다. Additionally, the first area (IA1), the second area (IA2), and the third area (IA3) of the first video frame may include an overlapping area where a portion of each area overlaps. For example, the first area (IA1) and the second area (IA2) may include a first overlapping area between the two areas, and the second area (IA2) and the third area (IA3) may include a second overlapping area between the two areas. May include overlapping areas.

다음으로, 영역분할부(157)는 제1영상프레임의 제1영역(IA1)에 해당하는 영상프레임을 객체 탐지부(145)의 제1객체인식부(151)에 제공하고, 제2영역(IA2)에 해당하는 영상프레임을 객체 탐지부(145)의 제2객체인식부(153)에 제공하며, 제3영역(IA3)에 해당하는 영상프레임을 객체 탐지부(145)의 제3객체인식부(155)에 제공할 수 있다. Next, the area division unit 157 provides the image frame corresponding to the first area (IA1) of the first image frame to the first object recognition unit 151 of the object detection unit 145, and the second area ( The image frame corresponding to IA2) is provided to the second object recognition unit 153 of the object detection unit 145, and the image frame corresponding to the third area IA3 is provided to the third object recognition unit 145. It can be provided to unit 155.

이에, 제1객체인식부(151) 내지 제3객체인식부(155) 각각은 영역분할부(157)에서 제공된 제1영상프레임의 각 분할영역, 즉 제1영역(IA1), 제2영역(IA2) 및 제3영역(IA3) 각각에서 객체를 인식하고, 그에 따른 객체 인식결과를 출력할 수 있다(S320). Accordingly, each of the first object recognition unit 151 to the third object recognition unit 155 is divided into each divided area of the first video frame provided by the area dividing unit 157, that is, the first area (IA1), the second area ( Objects can be recognized in each of the third area (IA2) and the third area (IA3), and the object recognition result can be output accordingly (S320).

여기서, 객체 인식결과는 인식된 객체에 대한 정보 및 객체 인식 결과에 대한 신뢰도 값을 포함할 수 있다. 이때, 신뢰도 값은 0~1 사이의 값으로 출력될 수 있으며, 1에 가까울수록 객체 인식결과가 진실일 수 있다.Here, the object recognition result may include information about the recognized object and a reliability value for the object recognition result. At this time, the reliability value can be output as a value between 0 and 1, and the closer it is to 1, the more truthful the object recognition result may be.

이에, 객체 탐지부(145)의 결과융합부(170)는 제1객체인식부(151), 제2객체인식부(153) 및 제3객체인식부(155) 각각에서 출력된 객체 인식결과를 융합하여 전체 영역, 즉 제1영상프레임에 대한 객체 탐지결과를 출력할 수 있다. Accordingly, the result fusion unit 170 of the object detection unit 145 combines the object recognition results output from each of the first object recognition unit 151, the second object recognition unit 153, and the third object recognition unit 155. By fusion, object detection results for the entire area, that is, the first video frame, can be output.

이때, 결과융합부(170)는 각 객체인식부에서 출력되는 객체 인식결과에 포함된 신뢰도 값을 기 설정된 기준값과 비교하고, 비교 결과에 따라 신뢰도 값이 기준값 이상인 경우를 추출하여 객체 탐지결과로 출력할 수 있다.At this time, the result fusion unit 170 compares the reliability value included in the object recognition result output from each object recognition unit with a preset reference value, extracts cases where the reliability value is greater than the reference value according to the comparison result, and outputs it as an object detection result. can do.

여기서, 객체 탐지결과에는 해당 객체의 종류에 대한 정보 및 객체의 위치에 대한 정보를 포함할 수 있다. Here, the object detection result may include information about the type of the object and information about the location of the object.

한편, 제1객체인식부(151), 제2객체인식부(153) 및 제3객체인식부(155) 각각은 해당 영역, 즉 영역분할부(157)에서 제공된 분할영역의 영상프레임에서 인식되는 객체에 대한 인식결과를 출력할 수 있다. Meanwhile, the first object recognition unit 151, the second object recognition unit 153, and the third object recognition unit 155 are each recognized in the video frame of the corresponding area, that is, the divided area provided by the area dividing unit 157. Recognition results for objects can be output.

이에, 결과융합부(170)는 제1영역(IA1)에 대한 제1객체인식부(151)의 객체 인식결과, 제2영역(IA2)에 대한 제2객체인식부(153)의 객체 인식결과 및 제3영역(IA3)에 대한 제3객체인식부(155)의 객체 인식결과를 융합하여 전체 영역, 즉 제1영상프레임에 대한 객체 탐지결과를 출력할 수 있다. Accordingly, the result fusion unit 170 produces the object recognition result of the first object recognition unit 151 for the first area (IA1) and the object recognition result of the second object recognition unit 153 for the second area (IA2). and the object recognition result of the third object recognition unit 155 for the third area (IA3) can be fused to output the object detection result for the entire area, that is, the first video frame.

그러나, 전술한 바와 같이, 각 분할영역 사이에 존재하는 중첩영역에서는 제1객체인식부(151), 제2객체인식부(153) 및 제3객체인식부(155) 중 적어도 2개에서 객체를 인식할 수 있고, 그에 따른 복수의 객체 인식결과가 출력될 수 있다. However, as described above, in the overlapping area between each divided area, at least two of the first object recognition unit 151, the second object recognition unit 153, and the third object recognition unit 155 recognize the object. It can be recognized, and a plurality of object recognition results can be output accordingly.

예컨대, 도 9에 도시된 바와 같이, 제2영역(IA2)과 제3영역(IA3) 사이의 제2중첩영역에 객체가 위치될 수 있다. 이때, 객체 탐지부(145)의 제2객체인식부(153) 및 제3객체인식부(155) 각각에서 해당 객체에 대한 인식 및 그에 따른 객체 인식결과를 출력할 수 있다.For example, as shown in FIG. 9, an object may be located in the second overlap area between the second area IA2 and the third area IA3. At this time, each of the second object recognition unit 153 and the third object recognition unit 155 of the object detection unit 145 may recognize the object and output the resulting object recognition result.

이에, 결과융합부(170)는 제2객체인식부(153)의 객체 인식결과와 제3객체인식부(155)의 객체 인식결과 각각의 신뢰도 값을 판단할 수 있다(S330).Accordingly, the result fusion unit 170 can determine the reliability values of the object recognition result of the second object recognition unit 153 and the object recognition result of the third object recognition unit 155 (S330).

그리고, 결과융합부(170)는 판단 결과에 기초하여, 가장 높은 신뢰도 값을 갖는 객체 인식결과를 제2중첩영역의 객체에 대한 탐지결과로 출력할 수 있다(S340).And, based on the judgment result, the result fusion unit 170 may output the object recognition result with the highest reliability value as the detection result for the object in the second overlapping area (S340).

예컨대, 제2중첩영역의 객체에 대해, 제2객체인식부(153)가 신뢰도 값 0.78을 포함하는 객체 인식결과를 출력하고, 제3객체인식부(155)가 신뢰도 값 0.75를 포함하는 객체 인식결과를 출력할 수 있다. 이에, 결과융합부(170)는 상대적으로 신뢰도 값이 높은 제2객체인식부(153)의 객체 인식결과를 제2중첩영역의 객체에 대한 탐지결과로 출력할 수 있다. For example, for an object in the second overlapping area, the second object recognition unit 153 outputs an object recognition result containing a reliability value of 0.78, and the third object recognition unit 155 recognizes an object containing a reliability value of 0.75. The results can be printed. Accordingly, the result fusion unit 170 may output the object recognition result of the second object recognition unit 153, which has a relatively high reliability value, as a detection result for the object in the second overlapping area.

상술한 바와 같이, 본 실시예에 따른 항공영상의 객체 탐지방법은, 항공영상을 복수의 영역으로 분할하고, 기 학습된 복수의 신경망모델을 이용하여 각 분할영역에 위치하는 객체를 인식하여 탐지할 수 있다. As described above, the object detection method of an aerial image according to this embodiment divides the aerial image into a plurality of regions and recognizes and detects objects located in each divided region using a plurality of pre-learned neural network models. You can.

또한, 본 실시예의 항공영상의 객체 탐지방법은, 각 분할영역 사이의 중첩영역에 위치된 객체를 2 이상의 신경망모델이 인식한 경우에, 각 신경망모델의 인식결과 중 신뢰도가 높은 인식 결과를 이용하여 객체의 탐지결과로 출력할 수 있다. In addition, the object detection method of the aerial image of this embodiment uses the highly reliable recognition result among the recognition results of each neural network model when two or more neural network models recognize an object located in the overlapping area between each segmented area. It can be output as an object detection result.

이에, 본 발명은 항공영상에서 다양한 크기로 나타나는 객체를 정확하게 인식하여 객체 탐지결과를 제공할 수 있다. Accordingly, the present invention can accurately recognize objects that appear in various sizes in aerial images and provide object detection results.

이상에서 설명된 본 발명의 블록도의 각 블록과 순서도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수도 있다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 인코딩 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 인코딩 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 순서도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방법으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 순서도 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 순서도의 각 단계에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.Combinations of each block of the block diagram of the present invention and each step of the flowchart described above may be performed by computer program instructions. Since these computer program instructions can be mounted on the encoding processor of a general-purpose computer, special-purpose computer, or other programmable data processing equipment, the instructions performed through the encoding processor of the computer or other programmable data processing equipment are included in each block or block of the block diagram. Each step of the flowchart creates a means to perform the functions described. These computer program instructions may also be stored in computer-usable or computer-readable memory that can be directed to a computer or other programmable data processing equipment to implement a function in a particular way, so that the computer-usable or computer-readable memory The instructions stored in can also produce manufactured items containing instruction means that perform the functions described in each block of the block diagram or each step of the flowchart. Computer program instructions can also be mounted on a computer or other programmable data processing equipment, so that a series of operational steps are performed on the computer or other programmable data processing equipment to create a process that is executed by the computer, thereby generating a process that is executed by the computer or other programmable data processing equipment. Instructions that perform processing equipment may also provide steps for executing functions described in each block of the block diagram and each step of the flowchart.

또한, 각 블록 또는 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.Additionally, each block or each step may represent a module, segment, or portion of code that includes one or more executable instructions for executing specified logical function(s). Additionally, it should be noted that in some alternative embodiments it is possible for the functions mentioned in the blocks or steps to occur out of order. For example, two blocks or steps shown in succession may in fact be performed substantially simultaneously, or the blocks or steps may sometimes be performed in reverse order depending on the corresponding function.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 품질에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 균등한 범위 내에 있는 모든 기술사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.The above description is merely an illustrative explanation of the technical idea of the present invention, and those skilled in the art will be able to make various modifications and variations without departing from the essential quality of the present invention. Accordingly, the embodiments disclosed in the present invention are not intended to limit the technical idea of the present invention, but are for illustrative purposes, and the scope of the technical idea of the present invention is not limited by these embodiments. The scope of protection of the present invention shall be interpreted in accordance with the claims below, and all technical ideas within the scope equivalent thereto shall be construed as being included in the scope of rights of the present invention.

100: 객체 탐지장치
110: 입출력부
120: 프로세서
130: 메모리
140: 객체 탐지 프로그램
141: 영상분석부
143: 지상표본거리 맵 생성부
145: 객체 탐지부
151: 제1객체인식부
153: 제2객체인식부
155: 제3객체인식부
157: 영역분할부
170: 결과융합부
100: object detection device
110: input/output unit
120: processor
130: memory
140: Object detection program
141: Video analysis department
143: Ground sample distance map generation unit
145: Object detection unit
151: First object recognition unit
153: Second object recognition unit
155: Third object recognition unit
157: Area division unit
170: Result fusion unit

Claims (22)

객체 탐지장치에 의한 항공영상에서의 객체 탐지방법으로,
유/무인 비행체에서 촬영된 상기 항공영상을 수신하여 상기 항공영상의 각 영상프레임에 대한 촬영기하를 추출하는 단계;
상기 촬영기하에 기초하여 상기 영상프레임에서 지상표본거리 맵을 생성하는 단계; 및
기 학습된 객체 탐지부를 이용하여 지상표본거리 맵을 포함하는 영상프레임에서 하나 이상의 객체를 탐지하여 출력하는 단계를 포함하고,
상기 지상표본거리 맵을 생성하는 단계는,
상기 촬영기하에 기초하여 상기 유/무인 비행체의 카메라에 대한 모델링을 수행하는 단계;
모델링 된 카메라에 기초하여 상기 영상프레임의 복수의 화소 각각에 대한 지리좌표를 추출하는 단계;
상기 복수의 화소 각각의 상기 지리좌표를 지구중심좌표로 변환하고, 변환된 좌표에 기초하여 각 화소의 지상표본거리를 산출하는 단계; 및
상기 복수의 화소 각각의 상기 지상표본거리에 기초하여 상기 항공영상에 대한 상기 지상표본거리 맵을 생성하는 단계를 포함하는 객체 탐지방법.
An object detection method in aerial images using an object detection device,
Receiving the aerial image captured from a manned/unmanned aircraft and extracting shooting geometry for each image frame of the aerial image;
generating a ground sample distance map from the image frame based on the imaging geometry; and
A step of detecting and outputting one or more objects in an image frame including a ground sample distance map using a previously learned object detection unit,
The step of generating the ground sample distance map is,
performing modeling for the camera of the manned/unmanned aircraft based on the imaging geometry;
extracting geographic coordinates for each of a plurality of pixels of the image frame based on the modeled camera;
converting the geographic coordinates of each of the plurality of pixels into geocentric coordinates and calculating a ground sample distance of each pixel based on the converted coordinates; and
An object detection method comprising generating the ground sample distance map for the aerial image based on the ground sample distance of each of the plurality of pixels.
제1항에 있어서,
상기 촬영기하를 추출하는 단계는,
상기 영상프레임을 역다중화하여 영상데이터, 메타데이터 및 오디오데이터로 분리하는 단계;
상기 메타데이터를 파싱하여 하나 이상의 구성요소를 추출하는 단계; 및
상기 하나 이상의 구성요소에 기초하여 상기 항공영상에 대한 내부 표정요소 및 외부 표정요소를 상기 촬영기하로 추출하는 단계를 포함하는 객체 탐지방법.
According to paragraph 1,
The step of extracting the shooting geometry is,
demultiplexing the video frame to separate it into video data, metadata, and audio data;
parsing the metadata to extract one or more components; and
An object detection method comprising extracting internal expression elements and external expression elements of the aerial image with the shooting geometry based on the one or more components.
제2항에 있어서,
상기 내부 표정요소는 상기 유/무인 비행체의 카메라의 화각정보 및 영상프레임의 크기정보를 포함하고,
상기 외부 표정요소는 상기 카메라의 위치정보 및 자세정보를 포함하는 객체 탐지방법.
According to paragraph 2,
The internal facial expression element includes angle of view information of the camera of the manned/unmanned aircraft and size information of the image frame,
An object detection method wherein the external expression element includes location information and posture information of the camera.
삭제delete 제1항에 있어서,
상기 지상표본거리를 산출하는 단계는,
상기 복수의 화소 중 제1화소 및 상기 제1화소에 인접된 복수의 인접화소 각각의 상기 변환된 좌표 간 거리를 산출하고, 산출된 거리의 평균값에 기초하여 상기 제1화소의 상기 지상표본거리를 산출하는 단계를 포함하는 객체 탐지방법.
According to paragraph 1,
The step of calculating the ground sample distance is,
Calculate the distance between the transformed coordinates of a first pixel among the plurality of pixels and a plurality of adjacent pixels adjacent to the first pixel, and calculate the ground sample distance of the first pixel based on the average value of the calculated distances. An object detection method including a calculating step.
제1항에 있어서,
상기 지상표본거리를 산출하는 단계는,
상기 영상프레임을 복수의 영역으로 분할하는 단계;
각 분할영역의 모서리에 위치하는 4개의 화소에서 상기 변환된 좌표를 추출하는 단계; 및
추출된 상기 변환된 좌표의 평균값을 산출하여 상기 각 분할영역 내 전체 화소의 상기 지상표본거리로 결정하는 단계를 포함하는 객체 탐지방법.
According to paragraph 1,
The step of calculating the ground sample distance is,
dividing the video frame into a plurality of regions;
extracting the converted coordinates from four pixels located at the corners of each divided area; and
An object detection method comprising calculating an average value of the extracted transformed coordinates and determining the ground sample distance of all pixels in each segment.
제1항에 있어서,
상기 객체 탐지부는,
기 학습된 제1객체인식부, 제2객체인식부 및 제3객체인식부를 포함하고,
상기 하나 이상의 객체를 탐지하여 출력하는 단계는,
상기 지상표본거리 맵을 포함하는 영상프레임을 제1영역, 제2영역 및 제3영역으로 분할하는 단계;
상기 제1객체인식부를 이용하여 제1영역의 영상프레임에 대한 객체 인식결과를 출력하고, 상기 제2객체인식부를 이용하여 제2영역의 영상프레임에 대한 객체 인식결과를 출력하고, 상기 제3객체인식부를 이용하여 제3영역의 영상프레임에 대한 객체 인식결과를 출력하는 단계; 및
상기 제1객체인식부, 제2객체인식부 및 제3객체인식부 각각의 출력을 융합하여 상기 항공영상에 대한 객체 탐지결과로 출력하는 단계를 포함하는 객체 탐지방법.
According to paragraph 1,
The object detection unit,
It includes a previously learned first object recognition unit, a second object recognition unit, and a third object recognition unit,
The step of detecting and outputting one or more objects includes:
dividing the image frame including the ground sample distance map into a first area, a second area, and a third area;
Outputs an object recognition result for an image frame in the first area using the first object recognition unit, outputs an object recognition result for an image frame in the second area using the second object recognition unit, and outputs an object recognition result for the image frame in the second area using the second object recognition unit. Outputting an object recognition result for an image frame in a third area using a recognition unit; and
An object detection method comprising fusing the outputs of each of the first object recognition unit, the second object recognition unit, and the third object recognition unit and outputting an object detection result for the aerial image.
제7항에 있어서,
상기 제1객체인식부, 제2객체인식부 및 제3객체인식부 각각은 인식부 및 판별부를 포함하고,
상기 인식부는,
상기 제1영역의 영상프레임, 제2영역의 영상프레임 및 제3영역의 영상프레임 각각에서 객체 인식결과를 출력하도록 학습되고,
상기 판별부는,
상기 인식부에서 출력된 상기 객체 인식결과와 함께 레이블 데이터로 판별 정답을 입력 받으면, 상기 객체 인식결과에 대한 신뢰도를 판별하여 출력하도록 학습된 객체 탐지방법.
In clause 7,
The first object recognition unit, the second object recognition unit, and the third object recognition unit each include a recognition unit and a determination unit,
The recognition unit,
Learning to output object recognition results from each of the image frames of the first area, the image frame of the second area, and the image frame of the third area,
The determination unit,
An object detection method learned to determine the reliability of the object recognition result and output it when the correct answer is input as label data together with the object recognition result output from the recognition unit.
제7항에 있어서,
상기 제1영역, 제2영역 및 제3영역으로 분할하는 단계는,
상기 지상표본거리 맵을 포함하는 영상프레임의 상기 제1영역의 일부와 상기 제2영역의 일부가 중첩되는 제1중첩영역을 포함하도록 분할하는 단계를 포함하고,
상기 하나 이상의 객체를 탐지하여 출력하는 단계는,
상기 제1중첩영역에 대한 상기 제1객체인식부의 객체 인식결과와 상기 제2객체인식부의 객체 인식결과 중에서 신뢰도 값이 높은 객체 인식결과를 상기 제1중첩영역에 대한 객체 탐지결과로 출력하는 단계를 포함하는 객체 탐지방법.
In clause 7,
The step of dividing into the first area, second area and third area,
A step of dividing the image frame including the ground sample distance map to include a first overlapping area where a part of the first area and a part of the second area overlap,
The step of detecting and outputting one or more objects includes:
Outputting an object recognition result with a high reliability value among the object recognition results of the first object recognition unit and the object recognition results of the second object recognition unit for the first overlapping area as the object detection result for the first overlapping area. Object detection method including:
제7항에 있어서,
상기 제1영역, 제2영역 및 제3영역으로 분할하는 단계는,
상기 지상표본거리 맵을 포함하는 영상프레임의 상기 제2영역의 일부와 상기 제3영역의 일부가 중첩되는 제2중첩영역을 포함하도록 분할하는 단계를 포함하고,
상기 하나 이상의 객체를 탐지하여 출력하는 단계는,
상기 제2중첩영역에 대한 상기 제2객체인식부의 객체 인식결과와 상기 제3객체인식부의 객체 인식결과 중에서 신뢰도 값이 높은 객체 인식결과를 상기 제2중첩영역에 대한 객체 탐지결과로 출력하는 단계를 포함하는 객체 탐지방법.
In clause 7,
The step of dividing into the first area, second area and third area,
A step of dividing the video frame including the ground sample distance map to include a second overlapping area where a part of the second area and a part of the third area overlap,
The step of detecting and outputting one or more objects includes:
Outputting an object recognition result with a high reliability value among the object recognition results of the second object recognition unit and the object recognition results of the third object recognition unit for the second overlapping area as the object detection result for the second overlapping area. Object detection method including:
객체 탐지 프로그램이 저장된 메모리; 및
상기 객체 탐지 프로그램을 실행하여, 유/무인 비행체에서 촬영된 항공영상을 수신하여 상기 항공영상의 각 영상프레임에 대한 촬영기하를 추출하고, 추출된 상기 촬영기하에 기초하여 상기 영상프레임에서 지상표본거리 맵을 생성하고, 기 학습된 객체 탐지부를 이용하여 지상표본거리 맵을 포함하는 영상프레임에서 하나 이상의 객체를 탐지하여 출력하는 프로세서를 포함하고,
상기 프로세서는,
상기 촬영기하에 기초하여 상기 유/무인 비행체의 카메라를 모델링하고, 모델링 된 카메라에 기초하여 상기 영상프레임의 복수의 화소 각각에 대한 지리좌표를 추출하고, 상기 복수의 화소 각각의 상기 지리좌표를 지구중심좌표로 변환하고, 변환된 좌표에 기초하여 각 화소의 지상표본거리를 산출하고, 상기 복수의 화소 각각의 상기 지상표본거리에 기초하여 상기 항공영상에 대한 상기 지상표본거리 맵을 생성하는 객체 탐지장치.
Memory where the object detection program is stored; and
By executing the object detection program, aerial images taken from manned/unmanned aircraft are received, the shooting geometry for each image frame of the aerial images is extracted, and the ground sample distance from the image frame is based on the extracted shooting geometry. A processor that generates a map, detects and outputs one or more objects in an image frame including a ground sample distance map using a previously learned object detection unit,
The processor,
Model the camera of the manned/unmanned air vehicle based on the imaging geometry, extract geographic coordinates for each of the plurality of pixels of the image frame based on the modeled camera, and apply the geographic coordinates of each of the plurality of pixels to the Earth. Object detection that converts to center coordinates, calculates the ground sample distance of each pixel based on the converted coordinates, and generates the ground sample distance map for the aerial image based on the ground sample distance of each of the plurality of pixels. Device.
제11항에 있어서,
상기 프로세서는,
상기 영상프레임을 역다중화하여 영상데이터, 메타데이터 및 오디오데이터로 분리하고, 상기 메타데이터를 파싱하여 하나 이상의 구성요소를 추출하고, 상기 하나 이상의 구성요소에 기초하여 상기 항공영상에 대한 내부 표정요소 및 외부 표정요소를 상기 촬영기하로 추출하는 객체 탐지장치.
According to clause 11,
The processor,
The video frame is demultiplexed to separate it into video data, metadata, and audio data, the metadata is parsed to extract one or more components, and based on the one or more components, an internal expression element for the aerial video and An object detection device that extracts external expression elements using the shooting geometry.
제12항에 있어서,
상기 내부 표정요소는 상기 유/무인 비행체의 카메라의 화각정보 및 영상프레임의 크기정보를 포함하고,
상기 외부 표정요소는 상기 카메라의 위치정보 및 자세정보를 포함하는 객체 탐지장치.
According to clause 12,
The internal facial expression element includes angle of view information of the camera of the manned/unmanned aircraft and size information of the image frame,
The external facial expression element is an object detection device including location information and posture information of the camera.
삭제delete 제11항에 있어서,
상기 프로세서는,
상기 복수의 화소 중 제1화소 및 상기 제1화소에 인접된 복수의 인접화소 각각의 상기 변환된 좌표 간 거리를 산출하고, 산출된 거리의 평균값에 기초하여 상기 제1화소의 상기 지상표본거리를 산출하는 객체 탐지장치.
According to clause 11,
The processor,
Calculate the distance between the transformed coordinates of a first pixel among the plurality of pixels and a plurality of adjacent pixels adjacent to the first pixel, and calculate the ground sample distance of the first pixel based on the average value of the calculated distances. Object detection device that calculates
제11항에 있어서,
상기 프로세서는,
상기 영상프레임을 복수의 영역으로 분할하고, 각 분할영역의 모서리에 위치하는 4개의 화소에서 상기 변환된 좌표를 추출하고, 추출된 상기 변환된 좌표의 평균값을 산출하여 상기 각 분할영역 내 전체 화소의 상기 지상표본거리로 결정하는 객체 탐지장치.
According to clause 11,
The processor,
Divide the video frame into a plurality of regions, extract the transformed coordinates from four pixels located at the corners of each divided region, calculate the average value of the extracted transformed coordinates, and calculate the average value of all pixels in each divided region. An object detection device that determines the ground sample distance.
제11항에 있어서,
상기 객체 탐지부는,
기 학습된 제1객체인식부, 제2객체인식부 및 제3객체인식부를 포함하고,
상기 프로세서는,
상기 지상표본거리 맵을 포함하는 영상프레임을 제1영역, 제2영역 및 제3영역으로 분할하고, 상기 제1객체인식부를 이용하여 제1영역의 영상프레임에 대한 객체 인식결과를 출력하고, 상기 제2객체인식부를 이용하여 제2영역의 영상프레임에 대한 객체 인식결과를 출력하고, 상기 제3객체인식부를 이용하여 제3영역의 영상프레임에 대한 객체 인식결과를 출력하고, 상기 제1객체인식부, 제2객체인식부 및 제3객체인식부 각각의 출력을 융합하여 상기 항공영상에 대한 객체 탐지결과로 출력하는 객체 탐지장치.
According to clause 11,
The object detection unit,
It includes a previously learned first object recognition unit, a second object recognition unit, and a third object recognition unit,
The processor,
Divide the video frame including the ground sample distance map into a first region, a second region, and a third region, output an object recognition result for the video frame of the first region using the first object recognition unit, and Using the second object recognition unit, output an object recognition result for the image frame in the second area, output an object recognition result for the image frame in the third area using the third object recognition unit, and output the object recognition result for the image frame in the third area using the first object recognition unit. An object detection device that fuses the outputs of each unit, the second object recognition unit, and the third object recognition unit to output an object detection result for the aerial image.
제17항에 있어서,
상기 제1객체인식부, 제2객체인식부 및 제3객체인식부 각각은 인식부 및 판별부를 포함하고,
상기 인식부는,
상기 제1영역의 영상프레임, 제2영역의 영상프레임 및 제3영역의 영상프레임 각각에서 객체 인식결과를 출력하도록 학습되고,
상기 판별부는,
상기 인식부에서 출력된 상기 객체 인식결과와 함께 레이블 데이터로 판별 정답을 입력 받으면, 상기 객체 인식결과에 대한 신뢰도를 판별하여 출력하도록 학습된 객체 탐지장치.
According to clause 17,
The first object recognition unit, the second object recognition unit, and the third object recognition unit each include a recognition unit and a determination unit,
The recognition unit,
Learning to output object recognition results from each of the image frames of the first area, the image frame of the second area, and the image frame of the third area,
The determination unit,
An object detection device that is trained to determine the reliability of the object recognition result and output the correct answer as label data together with the object recognition result output from the recognition unit.
제17항에 있어서,
상기 프로세서는,
상기 지상표본거리 맵을 포함하는 영상프레임의 상기 제1영역의 일부와 상기 제2영역의 일부가 중첩되는 제1중첩영역을 포함하도록 분할하고, 상기 제1중첩영역에 대한 상기 제1객체인식부의 객체 인식결과와 상기 제2객체인식부의 객체 인식결과 중에서 신뢰도 값이 높은 객체 인식결과를 상기 제1중첩영역에 대한 객체 탐지결과로 출력하는 객체 탐지장치.
According to clause 17,
The processor,
The image frame including the ground sample distance map is divided to include a first overlapping area where a part of the first area and a part of the second area overlap, and the first object recognition unit for the first overlapping area An object detection device that outputs an object recognition result with a high reliability value among the object recognition results and the object recognition results of the second object recognition unit as an object detection result for the first overlapping area.
제17항에 있어서,
상기 프로세서는,
상기 지상표본거리 맵을 포함하는 영상프레임의 상기 제2영역의 일부와 상기 제3영역의 일부가 중첩되는 제2중첩영역을 포함하도록 분할하고, 상기 제2중첩영역에 대한 상기 제2객체인식부의 객체 인식결과와 상기 제3객체인식부의 객체 인식결과 중에서 신뢰도 값이 높은 객체 인식결과를 상기 제2중첩영역에 대한 객체 탐지결과로 출력하는 객체 탐지장치.
According to clause 17,
The processor,
The video frame including the ground sample distance map is divided to include a second overlapping area where a part of the second area and a part of the third area overlap, and the second object recognition unit for the second overlapping area An object detection device that outputs an object recognition result with a high reliability value among the object recognition results and the object recognition results of the third object recognition unit as an object detection result for the second overlapping area.
컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 기록매체로서,
상기 컴퓨터 프로그램은,
유/무인 비행체에서 촬영된 항공영상을 수신하여 상기 항공영상의 각 영상프레임에 대한 촬영기하를 추출하는 단계;
상기 촬영기하에 기초하여 상기 유/무인 비행체의 카메라에 대한 모델링을 수행하는 단계;
모델링 된 카메라에 기초하여 상기 영상프레임의 복수의 화소 각각에 대한 지리좌표를 추출하는 단계;
상기 복수의 화소 각각의 상기 지리좌표를 지구중심좌표로 변환하고, 변환된 좌표에 기초하여 각 화소의 지상표본거리를 산출하는 단계;
상기 복수의 화소 각각의 상기 지상표본거리에 기초하여 상기 항공영상에 대한 상기 지상표본거리 맵을 생성하는 단계; 및
기 학습된 객체 탐지부를 이용하여 지상표본거리 맵을 포함하는 영상프레임에서 하나 이상의 객체를 탐지하여 출력하는 단계를 포함하는 객체 탐지방법을 수행하기 위한 명령어를 포함하는 컴퓨터 판독 가능한 기록매체.
A computer-readable recording medium storing a computer program,
The computer program is,
Receiving aerial images taken from a manned/unmanned aircraft and extracting the shooting geometry for each image frame of the aerial images;
performing modeling for the camera of the manned/unmanned aircraft based on the imaging geometry;
extracting geographic coordinates for each of a plurality of pixels of the image frame based on the modeled camera;
converting the geographic coordinates of each of the plurality of pixels into geocentric coordinates and calculating a ground sample distance of each pixel based on the converted coordinates;
generating the ground sample distance map for the aerial image based on the ground sample distance of each of the plurality of pixels; and
A computer-readable recording medium including instructions for performing an object detection method including detecting and outputting one or more objects in an image frame including a ground sample distance map using a previously learned object detection unit.
컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램으로서,
상기 컴퓨터 프로그램은,
유/무인 비행체에서 촬영된 항공영상을 수신하여 상기 항공영상의 각 영상프레임에 대한 촬영기하를 추출하는 단계;
상기 촬영기하에 기초하여 상기 유/무인 비행체의 카메라에 대한 모델링을 수행하는 단계;
모델링 된 카메라에 기초하여 상기 영상프레임의 복수의 화소 각각에 대한 지리좌표를 추출하는 단계;
상기 복수의 화소 각각의 상기 지리좌표를 지구중심좌표로 변환하고, 변환된 좌표에 기초하여 각 화소의 지상표본거리를 산출하는 단계;
상기 복수의 화소 각각의 상기 지상표본거리에 기초하여 상기 항공영상에 대한 상기 지상표본거리 맵을 생성하는 단계; 및
기 학습된 객체 탐지부를 이용하여 지상표본거리 맵을 포함하는 영상프레임에서 하나 이상의 객체를 탐지하여 출력하는 단계를 포함하는 객체 탐지방법을 수행하기 위한 명령어를 포함하는 기록매체에 저장된 컴퓨터 프로그램.
A computer program stored on a computer-readable recording medium,
The computer program is,
Receiving aerial images taken from a manned/unmanned aircraft and extracting the shooting geometry for each image frame of the aerial images;
performing modeling for the camera of the manned/unmanned aircraft based on the imaging geometry;
extracting geographic coordinates for each of a plurality of pixels of the image frame based on the modeled camera;
converting the geographic coordinates of each of the plurality of pixels into geocentric coordinates and calculating a ground sample distance of each pixel based on the converted coordinates;
generating the ground sample distance map for the aerial image based on the ground sample distance of each of the plurality of pixels; and
A computer program stored in a recording medium including instructions for performing an object detection method including the step of detecting and outputting one or more objects in an image frame including a ground sample distance map using a previously learned object detection unit.
KR1020230051901A 2023-04-20 2023-04-20 Method and device for detecting object in aerial images KR102592988B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020230051901A KR102592988B1 (en) 2023-04-20 2023-04-20 Method and device for detecting object in aerial images

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020230051901A KR102592988B1 (en) 2023-04-20 2023-04-20 Method and device for detecting object in aerial images

Publications (1)

Publication Number Publication Date
KR102592988B1 true KR102592988B1 (en) 2023-10-20

Family

ID=88514450

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230051901A KR102592988B1 (en) 2023-04-20 2023-04-20 Method and device for detecting object in aerial images

Country Status (1)

Country Link
KR (1) KR102592988B1 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210066119A (en) * 2019-11-28 2021-06-07 광운대학교 산학협력단 Method and apparatus for realtime object detection in unmanned aerial vehicle image
KR20220033695A (en) 2020-09-10 2022-03-17 현대오토에버 주식회사 Apparatus for detecting road based aerial images and method thereof
KR102376921B1 (en) * 2020-10-07 2022-03-23 한국국토정보공사 Database building method and apparatus for land status analysis
KR20220069541A (en) * 2020-11-20 2022-05-27 김동욱 Map making Platform apparatus and map making method using the platform

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210066119A (en) * 2019-11-28 2021-06-07 광운대학교 산학협력단 Method and apparatus for realtime object detection in unmanned aerial vehicle image
KR20220033695A (en) 2020-09-10 2022-03-17 현대오토에버 주식회사 Apparatus for detecting road based aerial images and method thereof
KR102376921B1 (en) * 2020-10-07 2022-03-23 한국국토정보공사 Database building method and apparatus for land status analysis
KR20220069541A (en) * 2020-11-20 2022-05-27 김동욱 Map making Platform apparatus and map making method using the platform

Similar Documents

Publication Publication Date Title
US11393256B2 (en) Method and device for liveness detection, and storage medium
KR102203135B1 (en) Method and system for detecting disaster damage information based on artificial intelligence using drone
US11443454B2 (en) Method for estimating the pose of a camera in the frame of reference of a three-dimensional scene, device, augmented reality system and computer program therefor
CN108648194B (en) Three-dimensional target identification segmentation and pose measurement method and device based on CAD model
US8055016B2 (en) Apparatus and method for normalizing face image used for detecting drowsy driving
US11783443B2 (en) Extraction of standardized images from a single view or multi-view capture
KR101374139B1 (en) Monitoring method through image fusion of surveillance system
CN111222395A (en) Target detection method and device and electronic equipment
US9679217B2 (en) Information processing apparatus, information processing system, information processing method and storage medium
CN110390302A (en) A kind of objective detection method
US20130135446A1 (en) Street view creating system and method thereof
US9947106B2 (en) Method and electronic device for object tracking in a light-field capture
KR101817440B1 (en) The 3d model-based object recognition techniques and systems with a multi-camera
CN113128430B (en) Crowd gathering detection method, device, electronic equipment and storage medium
JP2020017136A (en) Object detection and recognition apparatus, method, and program
CN113096016A (en) Low-altitude aerial image splicing method and system
KR102592988B1 (en) Method and device for detecting object in aerial images
KR20170106823A (en) Image processing device identifying object of interest based on partial depth map
KR102526857B1 (en) A method and apparatus for detecting unmanned aerial vehicle using stereo camera and additional camera
JP2014099055A (en) Detector, detection method, and program
KR102340527B1 (en) Apparatus and method for video and telemetry data synchronization based on frame sensor model
CN112802112B (en) Visual positioning method, device, server and storage medium
KR102310958B1 (en) Wide viewing angle stereo camera apparatus and depth image processing method using the same
CN114743264A (en) Shooting behavior detection method, device, equipment and storage medium
Gurram et al. On the Metrics for Evaluating Monocular Depth Estimation

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant