KR20220074319A - Probability-based object detector using various samples - Google Patents

Probability-based object detector using various samples Download PDF

Info

Publication number
KR20220074319A
KR20220074319A KR1020200162673A KR20200162673A KR20220074319A KR 20220074319 A KR20220074319 A KR 20220074319A KR 1020200162673 A KR1020200162673 A KR 1020200162673A KR 20200162673 A KR20200162673 A KR 20200162673A KR 20220074319 A KR20220074319 A KR 20220074319A
Authority
KR
South Korea
Prior art keywords
image
detection
albedo
nms
probability
Prior art date
Application number
KR1020200162673A
Other languages
Korean (ko)
Other versions
KR102435957B1 (en
Inventor
송병철
최재웅
이성욱
이승현
Original Assignee
인하대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인하대학교 산학협력단 filed Critical 인하대학교 산학협력단
Priority to KR1020200162673A priority Critical patent/KR102435957B1/en
Publication of KR20220074319A publication Critical patent/KR20220074319A/en
Application granted granted Critical
Publication of KR102435957B1 publication Critical patent/KR102435957B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06T5/005
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/77Retouching; Inpainting; Scratch removal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

다양한 샘플을 이용하여 개선한 확률기반 사물검출 방법 및 장치가 제시된다. 본 발명에서 제안하는 다양한 샘플을 이용하여 개선한 확률기반 사물검출 장치는 광원에 의한 오검출 가능성을 감소시키기 위해 검출하고자 하는 이미지의 알베도(Albedo) 성분을 추출하는 알베도 성분 추출부, 검출대상의 신뢰도 증가시키기 위해 알베도 성분 추출부에서 추출된 이미지에 대하여 소프트-드롭블록(Soft-Dropblock)을 수행하고, 반복하여 이미지를 추론하는 이미지 추론부, 반복되는 추론을 통해 누적된 결과들을 종합하기 위해 복수의 NMS(Non-Maximum Suppression)를 수행하는 적층형 NMS 수행부 및 복수의 NMS를 통해 생성되는 다중 도메인 간의 시각적 격차로 인한 오검출 결과를 제거하기 위해 인접 프레임 간의 검출 결과를 비교하여 최종 결과를 출력하는 인접 프레임 처리부를 포함한다.An improved probability-based object detection method and apparatus using various samples is presented. The probability-based object detection apparatus improved by using various samples proposed in the present invention includes an albedo component extraction unit that extracts an albedo component of an image to be detected in order to reduce the possibility of false detection by a light source, and the reliability of the detection target. An image inference unit that repeatedly infers an image by performing soft-dropblock on the image extracted by the albedo component extraction unit to increase it, and a plurality of A stacked NMS performing unit that performs Non-Maximum Suppression (NMS) and a neighbor that compares the detection results between adjacent frames and outputs the final result in order to remove the false detection result due to the visual gap between multiple domains generated through multiple NMSs It includes a frame processing unit.

Figure P1020200162673
Figure P1020200162673

Description

다양한 샘플을 이용하여 개선한 확률기반 사물검출기{Probability-based object detector using various samples}Probability-based object detector using various samples

본 발명은 다양한 샘플을 이용하여 개선한 확률기반 사물검출 방법 및 장치에 관한 것이다. The present invention relates to an improved probability-based object detection method and apparatus using various samples.

최근 딥러닝이 발달하여 실무에 적용하려는 시도가 증가하고 있다. 그 중 물체 감지 알고리즘은 실무에 적용되는 딥러닝의 대표적인 예이다. Recently, with the development of deep learning, attempts to apply it in practice are increasing. Among them, the object detection algorithm is a representative example of deep learning applied in practice.

하지만 사람이 아닌 기계의 판단이기에 검출결과가 '불확실'하다는 가능성을 고려하지 않기 때문에 실환경에서 크고 작은 사고를 야기하게 되기 때문에 확률기반 사물검출기의 필요성이 대두되었다. 물체 감지 알고리즘의 문제가 발생한다면 그것이 아주 작은 오류일지라도 공장 및 자율 주행 차량과 같은 중요한 분야에서는 심각한 사고로 이어질 수 있다. However, the necessity of a probability-based object detector has emerged because it does not take into account the possibility that the detection result is 'uncertain' because it is a judgment of a machine, not a human, and causes large and small accidents in the real environment. If an object detection algorithm fails, even the smallest error can lead to serious accidents in critical fields such as factories and autonomous vehicles.

따라서 확률기반 사물 검출기(Probabilistic Object Detector; PrOD)가 제안되었다. 그러나 현재의 PrOD [1] 들은 제한된 정보와 불완전한 네트워크 구조로 인해 편향된 검출 결과를 산출하며 이로 인해 물체를 안정적으로 검출하는데 문제가 있다. Therefore, a Probabilistic Object Detector (PrOD) has been proposed. However, current PrOD [1] produces biased detection results due to limited information and incomplete network structure, which has a problem in stably detecting objects.

기존 확률기반 사물검출기의 경우 많은 횟수의 추론으로 인해 검출 소요시간이 오래 걸리며, 검출 대상의 데이터가 한정되기 때문에 결과 또한 일정 범위 내로 편향되게 나타난다. 이는 실환경에서 적용할 경우 검출 결과의 높은 신뢰도를 기대하기 어렵고, 또한 고성능 장비를 도입하지 않게 되면 실시간 검출에는 한계가 생긴다. In the case of the existing probability-based object detector, it takes a long time to detect due to a large number of inferences, and since the data to be detected is limited, the results are also biased within a certain range. When this is applied in a real environment, it is difficult to expect high reliability of the detection result, and if high-performance equipment is not introduced, there is a limit to real-time detection.

D. Miller et al.은 probabilistic MC-Dropout 사물 검출기[3] 를 제안했다. 기존의 사물 검출기와 다른 점은 드롭아웃 레이어(Dropout layer)를 통해 확률적 검출을 구현했다는 점이다.D. Miller et al. proposed a probabilistic MC-Dropout object detector [3] . It is different from the existing object detector in that it implements probabilistic detection through a dropout layer.

드롭아웃 레이어는 특징 맵(feature map)을 부분적으로 제거함으로써 대상의 특징 일부를 누락시킨다. 이러한 상태로 여러 번 검출하게 되면 대상을 확률적으로 추론하게 된다.The dropout layer omits some of the features of the object by partially removing the feature map. If it is detected several times in this state, the target is inferred probabilistically.

하지만 드롭아웃 레이어는 확률적 추론을 위한 기술이 아니고, 또한 여러 번 추론하게 될 경우 검출 소요시간이 증가하는 등의 문제가 있다. 그 외에도 단일 이미지에서의 검출은 광원에 의한 오검출 가능성이 있으며, 후처리 과정인 NMS(Non-Maximum Suppression) 또한 여러 번 추론해서 나온 검출 결과들을 정확하게 종합하지 못했다. However, the dropout layer is not a technique for probabilistic inference, and there is a problem such as an increase in detection time when inference is made several times. In addition, detection in a single image may be misdetected by the light source, and post-processing, Non-Maximum Suppression (NMS), also did not accurately synthesize the detection results from multiple inferences.

따라서 확률적 사물 검출기를 위한 특징 맵 기술과 효과적인 NMS방식, 그리고 오검출 가능성을 줄이기 위한 다양한 이미지 샘플을 적용할 필요가 있다.Therefore, it is necessary to apply a feature map technique for a probabilistic object detector, an effective NMS method, and various image samples to reduce the possibility of false detection.

본 발명이 이루고자 하는 기술적 과제는 YOLOv3+ASFF 기법[2]을 기반으로 하여 검출 대상을 정확하게 분석하기 위한 사물검출 방법 및 장치를 제공하는데 있다. 이를 위해 알베도(Albedo) 성분 추출, 소프트-드롭 블록(Soft-DropBlock), 적층형 NMS(Stacked Non-Maximum Suppression), 인접 프레임 프로세싱(Inter-frame processing) 등의 네 가지 기술을 적용하여 다양한 샘플을 여러 관점에서 검출하고 결과를 종합함으로써 검출 대상의 오검출 여부 등을 고려할 수 있는 개선된 PrOD를 제안한다. 또한 PrOD의 평가를 위해 제안된 PDQ [1] 스코어를 통해 정량적 성능을 확인한다.An object of the present invention is to provide an object detection method and apparatus for accurately analyzing a detection target based on the YOLOv3+ASFF technique [2] . To this end, by applying four techniques: Albedo component extraction, Soft-DropBlock, Stacked Non-Maximum Suppression (NMS), and Inter-frame processing, various samples are We propose an improved PrOD that can take into account whether the detection target is erroneous or not by detecting it from the viewpoint and synthesizing the results. In addition, the quantitative performance is confirmed through the PDQ [1] score proposed for the evaluation of PrOD.

일 측면에 있어서, 본 발명에서 제안하는 다양한 샘플을 이용하여 개선한 확률기반 사물검출 장치는 광원에 의한 오검출 가능성을 감소시키기 위해 검출하고자 하는 이미지의 알베도(Albedo) 성분을 추출하는 알베도 성분 추출부, 검출대상의 신뢰도 증가시키기 위해 알베도 성분 추출부에서 추출된 이미지에 대하여 소프트-드롭블록(Soft-Dropblock)을 수행하고, 반복하여 이미지를 추론하는 이미지 추론부, 반복되는 추론을 통해 누적된 결과들을 종합하기 위해 복수의 NMS(Non-Maximum Suppression)를 수행하는 적층형 NMS 수행부 및 복수의 NMS를 통해 생성되는 다중 도메인 간의 시각적 격차로 인한 오검출 결과를 제거하기 위해 인접 프레임 간의 검출 결과를 비교하여 최종 결과를 출력하는 인접 프레임 처리부를 포함한다. In one aspect, the apparatus for detecting a probability-based object improved using various samples proposed in the present invention includes an albedo component extracting unit that extracts an albedo component of an image to be detected in order to reduce the possibility of erroneous detection by a light source. In order to increase the reliability of the detection target, soft-dropblock is performed on the image extracted by the albedo component extraction unit, and the image inference unit that repeatedly infers the image, and the results accumulated through repeated inference In order to eliminate the false detection results due to the visual gap between the multi-domains generated through the stacked NMS performer performing multiple NMS (Non-Maximum Suppression) and multiple NMSs to synthesize them, the detection results between adjacent frames are compared and finalized. and an adjacent frame processing unit for outputting a result.

알베도 성분 추출부는 U-Net을 이용한 알베도 성분 추출 방식을 이용하여 이미지의 음영을 제거한 알베도 이미지 추출하고, 추출된 알베도 이미지와 원본 이미지를 페어링된 데이터 셋으로 구성하여 알베도 네트워크를 학습시킨다. The albedo component extraction unit extracts the albedo image from which the shadows are removed using the albedo component extraction method using U-Net, and trains the albedo network by configuring the extracted albedo image and the original image as a paired data set.

이미지 추론부는 특징 맵의 로컬 정보를 제거하고, 불연속적인 경계면에 의한 중요 정보 제거를 방지하기 위해 소프트-드롭블록(Soft-Dropblock)을 이용하여 정보를 제거하고, 샘플을 획득한다. The image inference unit removes local information of the feature map, removes information using a Soft-Dropblock to prevent removal of important information due to discontinuous boundary surfaces, and acquires samples.

적층형 NMS 수행부는 반복되는 추론에 따라 검출된 사물을 합산하기 전에 예비 보정을 수행하고, 감지 빈도에 따라 검출된 사물을 추가로 제거하는 2단계 NMS를 수행하여 검출하고자 하는 사물을 재구성하고, 사물의 검출 빈도를 계산하여 결과로 출력할지 여부를 결정한다. The stacked NMS performing unit performs preliminary correction before adding up the detected objects according to repeated reasoning, and performs two-step NMS that additionally removes the detected objects according to the detection frequency to reconstruct the object to be detected, and Determines whether or not to output the result by calculating the detection frequency.

인접 프레임 처리부는 인접한 프레임과 현재 프레임에서 사물이 연속해서 검출되지 않을 경우 해당 사물을 제거함으로써 다중 도메인을 통해 추가 TP(True Positive)를 확보하고, 다중 도메인 간의 시각적 차이에 의해 발생하는 FP(False Positive)를 인접 프레임 프로세싱을 통해 제거한다. If an object is not continuously detected in the adjacent frame and the current frame, the adjacent frame processing unit secures additional TP (True Positive) through multiple domains by removing the object, and FP (False Positive) caused by visual differences between multiple domains ) is removed through adjacent frame processing.

또 다른 본 발명에서 제안하는 다양한 샘플을 이용하여 개선한 확률기반 사물검출 방법은 광원에 의한 오검출 가능성을 감소시키기 위해 알베도 성분 추출부를 통해 검출하고자 하는 이미지의 알베도(Albedo) 성분을 추출하는 단계, 검출대상의 신뢰도 증가시키기 위해 이미지 추론부를 통해 알베도 성분 추출부에서 추출된 이미지에 대하여 소프트-드롭블록(Soft-Dropblock)을 수행하고, 반복하여 이미지를 추론하는 단계, 반복되는 추론으로 누적된 결과들을 종합하기 위해 적층형 NMS 수행부를 통해 복수의 NMS(Non-Maximum Suppression)를 수행하는 단계 및 복수의 NMS로 생성되는 다중 도메인 간의 시각적 격차로 인한 오검출 결과를 제거하기 위해 인접 프레임 처리부를 통해 인접 프레임 간의 검출 결과를 비교하여 최종 결과를 출력하는 단계를 포함한다.Another method for detecting a probability-based object improved by using various samples proposed in the present invention includes the steps of extracting an albedo component of an image to be detected through an albedo component extraction unit in order to reduce the possibility of erroneous detection by a light source; In order to increase the reliability of the detection target, soft-dropblock is performed on the image extracted from the albedo component extraction unit through the image inference unit, and the image is repeatedly inferred. In order to synthesize multiple NMSs (Non-Maximum Suppression) through the stacked NMS execution unit, and to eliminate false detection results due to visual gaps between multiple domains generated by multiple NMSs, and outputting a final result by comparing the detection results.

본 발명의 실시예들에 따르면 YOLOv3+ASFF 기법[2]을 기반으로 하여 검출 대상을 정확하게 분석할 수 있다. 이를 위해 제안하는 개선된 PrOD를 통해 알베도(Albedo) 성분 추출, 소프트-드롭 블록(Soft-DropBlock), 적층형 NMS(Stacked Non-Maximum Suppression), 인접 프레임 프로세싱(Inter-frame processing) 등의 네 가지 기술을 적용하여 다양한 샘플을 여러 관점에서 검출하고 결과를 종합함으로써 검출 대상의 오검출 여부 등을 고려할 수 있다. 또한 PrOD의 평가를 위해 제안된 PDQ [1] 스코어를 통해 정량적 성능을 확인할 수 있다.According to embodiments of the present invention, it is possible to accurately analyze a detection target based on the YOLOv3+ASFF technique [2] . Four technologies such as Albedo component extraction, Soft-DropBlock, Stacked Non-Maximum Suppression (NMS), and Inter-frame processing through the proposed improved PrOD for this purpose , it is possible to consider whether the detection target is falsely detected by detecting various samples from various viewpoints and synthesizing the results. In addition, the quantitative performance can be confirmed through the PDQ [1] score proposed for the evaluation of PrOD.

도 1은 본 발명의 일 실시예에 따른 다양한 샘플을 이용하여 개선한 확률기반 사물검출 장치의 구성을 나타내는 도면이다.
도 2는 본 발명의 일 실시예에 따른 알베도 성분을 추출 과정을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 다양한 드롭 방식을 비교한 도면이다.
도 4는 본 발명의 일 실시예에 따른 다양한 NMS의 사물검출 결과를 비교한 도면이다.
도 5는 본 발명의 일 실시예에 따른 다양한 샘플을 이용하여 개선한 확률기반 사물검출 방법을 설명하기 위한 흐름도이다.
도 6은 본 발명의 일 실시예에 따른 다양한 샘플을 이용하여 개선한 확률기반 사물검출 기법의 적용 전과 후를 비교한 영상이다.
1 is a diagram showing the configuration of an improved probability-based object detection apparatus using various samples according to an embodiment of the present invention.
2 is a view for explaining a process of extracting an albedo component according to an embodiment of the present invention.
3 is a view comparing various drop methods according to an embodiment of the present invention.
4 is a diagram comparing object detection results of various NMSs according to an embodiment of the present invention.
5 is a flowchart illustrating an improved probability-based object detection method using various samples according to an embodiment of the present invention.
6 is an image comparing before and after application of the improved probability-based object detection technique using various samples according to an embodiment of the present invention.

본 발명에서는 YOLOv3+ASFF 기법[2] 을 기반으로 검출 소요시간을 줄이고 다양한 검출 샘플을 이용하여 신뢰도 높은 검출 결과를 산출하는 개선된 PrOD를 제안한다. 이를 위해 본 발명에서는 소프트-드롭 블록(Soft-DropBlock)과 적층형 NMS(Stacked Non-Maximum Suppression)로 적은 수의 추론 횟수만으로도 검출 결과의 신뢰성을 높인다. 또한, 검출 대상을 다각적으로 분석하기 위해 알베도(Albedo) 성분을 추출하여 검출 입력으로써 활용하였다. 이하, 본 발명의 실시 예를 첨부된 도면을 참조하여 상세하게 설명한다.In the present invention, based on the YOLOv3+ASFF technique [2] , we propose an improved PrOD that reduces the detection time and produces reliable detection results using various detection samples. To this end, in the present invention, the reliability of the detection result is increased with only a small number of inferences using Soft-DropBlock and Stacked Non-Maximum Suppression (NMS). In addition, in order to analyze the detection target in various ways, the albedo component was extracted and used as a detection input. Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일 실시예에 따른 다양한 샘플을 이용하여 개선한 확률기반 사물검출 장치의 구성을 나타내는 도면이다. 1 is a diagram showing the configuration of an improved probability-based object detection apparatus using various samples according to an embodiment of the present invention.

제안하는 다양한 샘플을 이용하여 개선한 확률기반 사물검출 장치는 알베도 성분 추출부(110), 이미지 추론부(120), 적층형 NMS 수행부(130) 및 인접 프레임 처리부(140)를 포함한다. The improved probability-based object detection apparatus using the various samples proposed includes an albedo component extraction unit 110 , an image inference unit 120 , a stacked NMS performing unit 130 , and an adjacent frame processing unit 140 .

알베도 성분 추출부(110)는 광원에 의한 오검출 가능성을 감소시키기 위해 검출하고자 하는 이미지의 알베도(Albedo) 성분을 추출한다. The albedo component extraction unit 110 extracts an albedo component of an image to be detected in order to reduce the possibility of erroneous detection by the light source.

알베도 성분 추출부(110)는 U-Net을 이용한 알베도 성분 추출 방식을 이용하여 이미지의 음영을 제거한 알베도 이미지 추출하고, 추출된 알베도 이미지와 원본 이미지를 페어링된 데이터 셋으로 구성하여 알베도 네트워크를 학습시킨다. The albedo component extraction unit 110 extracts the albedo image from which the shadows of the image are removed using the albedo component extraction method using U-Net, and configures the extracted albedo image and the original image as a paired data set to learn the albedo network. .

이미지 추론부(120)는 검출대상의 신뢰도 증가시키기 위해 알베도 성분 추출부에서 추출된 이미지에 대하여 소프트-드롭블록(Soft-Dropblock)을 수행하고, 반복하여 이미지를 추론한다. 검출 네트워크를 통해 이미지를 추론하되, 보다 효과적인 확률적 검출을 위해 소프트-드롭블록을 수행하며 이를 통해 검출대상의 신뢰도를 올릴 수 있다.The image inference unit 120 performs soft-dropblock on the image extracted by the albedo component extraction unit in order to increase the reliability of the detection target, and repeatedly infers the image. The image is inferred through the detection network, but soft-drop block is performed for more effective probabilistic detection, thereby increasing the reliability of the detection target.

이미지 추론부(120)는 특징 맵의 로컬 정보를 제거하고, 불연속적인 경계면에 의한 중요 정보 제거를 방지하기 위해 소프트-드롭블록(Soft-Dropblock)을 이용하여 정보를 제거하고, 샘플을 획득한다. The image inference unit 120 removes local information of the feature map and removes information using a soft-drop block to prevent removal of important information due to discontinuous boundary surfaces, and acquires samples.

적층형 NMS 수행부(130)는 반복되는 추론을 통해 누적된 결과들을 종합하기 위해 복수의 NMS(Non-Maximum Suppression)를 수행한다. 본 발명의 실시예에 따르면, 여러 번의 추론을 통해 누적된 결과들을 효과적으로 종합하기 위해 두 번의 NMS를 수행한다. The stacked NMS performing unit 130 performs a plurality of NMS (Non-Maximum Suppression) to synthesize results accumulated through repeated reasoning. According to an embodiment of the present invention, NMS is performed twice to effectively synthesize results accumulated through multiple inferences.

적층형 NMS 수행부(130)는 반복되는 추론에 따라 검출된 사물을 합산하기 전에 예비 보정을 수행하고, 감지 빈도에 따라 검출된 사물을 추가로 제거하는 2단계 NMS를 수행하여 검출하고자 하는 사물을 재구성하고, 사물의 검출 빈도를 계산하여 결과로 출력할지 여부를 결정한다. The stacked NMS performing unit 130 reconstructs the object to be detected by performing preliminary correction before summing up the objects detected according to repeated reasoning, and performing two-step NMS of additionally removing the detected objects according to the detection frequency. Then, it is decided whether to output the result by calculating the detection frequency of the object.

인접 프레임 처리부(140)는 복수의 NMS를 통해 생성되는 다중 도메인 간의 시각적 격차로 인한 오검출 결과를 제거하기 위해 인접 프레임 간의 검출 결과를 비교하여 최종 결과를 출력한다. 두 번의 NMS를 수행한 결과에 따른 두 도메인의 시각적 격차로 인한 오검출 결과들을 소거하기 위해 인접 프레임간의 검출 결과를 비교하여 확실한 결과들만을 남긴다. The adjacent frame processing unit 140 compares detection results between adjacent frames and outputs a final result in order to remove an erroneous detection result due to a visual disparity between multiple domains generated through a plurality of NMSs. In order to eliminate erroneous detection results due to the visual disparity between the two domains according to the results of performing NMS twice, detection results between adjacent frames are compared and only reliable results are left.

인접 프레임 처리부(140)는 인접한 프레임과 현재 프레임에서 사물이 연속해서 검출되지 않을 경우 해당 사물을 제거함으로써 다중 도메인을 통해 추가 TP(True Positive)를 확보하고, 다중 도메인 간의 시각적 차이에 의해 발생하는 FP(False Positive)를 인접 프레임 프로세싱을 통해 제거한다. 도 2 내지 도 4를 참조하여 제안하는 다양한 샘플을 이용하여 개선한 확률기반 사물검출 장치의 각 구성에 대하여 더욱 상세히 설명한다. The adjacent frame processing unit 140 secures an additional TP (True Positive) through multiple domains by removing the object if the object is not continuously detected in the adjacent frame and the current frame, and FP generated by the visual difference between the multi-domains (False positives) are removed through adjacent frame processing. Each configuration of the improved probability-based object detection apparatus using various samples proposed with reference to FIGS. 2 to 4 will be described in more detail.

도 2는 본 발명의 일 실시예에 따른 알베도 성분을 추출 과정을 설명하기 위한 도면이다. 2 is a view for explaining a process of extracting an albedo component according to an embodiment of the present invention.

종래기술의 PrOD의 경우 하나의 도메인 내에서 이미지를 검출하기 때문에 광원이나 반사에 의한 오검출 가능성이 존재한다. In the case of the prior art PrOD, since an image is detected within one domain, there is a possibility of erroneous detection due to a light source or reflection.

본 발명의 일 실시예에 따른 알베도 성분 추출부는 이러한 문제를 해결하기 위해 광원의 영향을 최소화할 수 있도록 검출하고자 하는 이미지(210)의 음영을 제거한 알베도(albedo) 이미지를 원본이미지와 함께 검출에 사용한다. In order to solve this problem, the albedo component extractor according to an embodiment of the present invention uses an albedo image from which the shadow of the image 210 to be detected is removed so as to minimize the influence of the light source together with the original image. do.

종래기술에 따른 알베도 추출 방식[4] 은 시간이 오래 걸린다는 단점이 있기 때문에 본 발명에서는 U-Net[5] 을 이용한 알베도 네트워크(AlbedoNet)(220)를 제안한다. MS COCO 데이터 셋에서 상기 알베도 추출 방식[4](230)을 이용하여 알베도 이미지를 추출(231)하고 원본 이미지(210)와 함께 페어링된 데이터 셋(paired dataset)을 구성하여 AlbedoNet을 학습시킨다. 학습된 페어링된 데이터 셋의 이미지는 AlbedoNet을 통해 기존 알베도 추출 방식[4] 보다 수 십배 가량 빠른 속도를 보인다. Since the albedo extraction method according to the prior art [4] has a disadvantage that it takes a long time, the present invention proposes an albedo network (AlbedoNet) 220 using U-Net [5] . Albedo image is extracted (231) from the MS COCO data set using the albedo extraction method [4] (230), and a paired dataset is configured with the original image 210 to train AlbedoNet. The image of the trained paired data set is several orders of magnitude faster than the existing albedo extraction method [4] through AlbedoNet.

도 2를 참조하여 더욱 상세히 설명하면, 알베도 네트워크(220)는 U-Net 구조를 통해 R(Real) 이미지를 입력으로 하고, A(Albedo) 이미지(221)를 출력으로 재생성하는 네트워크로서 GR->A 으로 나타낸다. 학습과정에서 필요한 알베도 이미지(221)와 원본 이미지(210)의 페어링된 데이터 셋(231)은 알베도 추출 방식[4](230)을 이용하여 생성한다. 2, the albedo network 220 is a network that takes an R (Real) image as an input through a U-Net structure and regenerates an A (Albedo) image 221 as an output, as a G R- >A is indicated. The paired data set 231 of the albedo image 221 and the original image 210 required in the learning process is generated using the albedo extraction method [4] (230).

도 3은 본 발명의 일 실시예에 따른 다양한 드롭 방식을 비교한 도면이다. 3 is a view comparing various drop methods according to an embodiment of the present invention.

종래기술[3]에 적용된 드롭아웃(dropout)[6] 은 특징 맵(feature map)의 일부를 제거함으로써 랜덤한 샘플을 얻게 하는 목적이 있다. 하지만 특징 맵은 인접 픽셀 간 높은 연관성이 있기 때문에 드롭아웃의 영향을 적게 받아 다양한 샘플을 얻는데 방해가 된다. The dropout [6] applied to the prior art [3] aims to obtain a random sample by removing a part of the feature map. However, since the feature map has high correlation between adjacent pixels, it is less affected by dropout, which hinders obtaining a variety of samples.

그로 인해 특징 맵의 정보가 효과적으로 제거되지 않는 문제들이 관찰되었다. 이러한 문제를 보완하기 위해 특징 맵의 로컬 정보(local information)를 효과적으로 제거하기 위한 드롭블록(DropBlock)[7] 이 제안되었다. 하지만 드롭블록(DropBlock)[7]의 불연속적인 경계면은 검출을 위한 중요한 정보를 과도하게 제거할 가능성이 있으므로 본 발명에서는 식(1)과 도 3(c)을 통해 나타낸 소프트-드롭블록(soft-DropBlock)을 제안하여 검출에 필요한 정보를 효과적으로 제거함과 동시에 다양한 샘플을 얻을 수 있는 방법을 제안한다. 소프트-드롭블록의 정의는 식(1)과 같다: As a result, problems were observed in which the information of the feature map was not effectively removed. To compensate for this problem, DropBlock [7] has been proposed to effectively remove local information of the feature map. However, since the discontinuous interface of DropBlock [7] has the potential to excessively remove important information for detection, in the present invention, the soft-drop block shown through Equation (1) and FIG. 3(c) DropBlock), which effectively removes the information required for detection and at the same time suggests a method to obtain various samples. The definition of soft-drop block is as Equation (1):

Figure pat00001
식(1)
Figure pat00001
Formula (1)

여기서, i와 j는 각각 특징맵의 픽셀 인덱스(x, y좌표)를 나타내고, k는 소프트-드롭블록되는 사각 영역의 한 변 길이를 나타낸다. 종래의 드롭 블록 기법은 한 변의 길이가 k픽셀인 박스 영역의 값을 0으로 지정한다. 하지만, 식(1)의 경우는 박스 크기만큼 값이 0으로 탈락된 마스크에 커널 사이즈 k만큼의 박스 필터링(box filtering)을 수행하여, 값이 있는 영역과 0인 값을 가지는 영역의 경계를 완화시킨다. 이로써, 소프트-드롭블록은 드롭블록에 비해 값을 유하게 없애는 효과를 갖는다. 이러한 소프트-드롭블록을 특징 맵에 적용하여 일정 정보를 제거한 상태로 반복적으로 추론하여 다양한 샘플을 획득한다. Here, i and j denote pixel indexes (x and y coordinates) of the feature map, respectively, and k denotes the length of one side of the soft-drop-blocked rectangular region. In the conventional drop block technique, a value of a box region having a side length of k pixels is designated as 0. However, in the case of Equation (1), box filtering as much as the kernel size k is performed on the mask in which the value is dropped to 0 as much as the box size to relax the boundary between the area with the value and the area with the value of 0. make it Accordingly, the soft-drop block has the effect of significantly eliminating the value compared to the drop block. By applying this soft-drop block to the feature map, iteratively infers with certain information removed to obtain various samples.

도 3(a)는 종래기술에 따른 드롭아웃, 도 3(b)는 종래기술에 따른 드롭블록, 도 3(c)는 본 발명에서 제안하는 소프트-드롭블록을 나타낸다. 본 발명의 일 실시예에 따른 이미지 추론부는 검출대상의 신뢰도 증가시키기 위해 알베도 성분 추출부에서 추출된 이미지에 대하여 소프트-드롭블록(Soft-Dropblock)을 수행하고, 반복하여 이미지를 추론한다. 특징 맵의 로컬 정보를 제거하고, 불연속적인 경계면에 의한 중요 정보 제거를 방지하기 위해 소프트-드롭블록(Soft-Dropblock)을 이용하여 정보를 제거하고, 샘플을 획득한다. 3(a) shows a dropout according to the prior art, FIG. 3(b) shows a drop block according to the prior art, and FIG. 3(c) shows a soft-drop block proposed by the present invention. The image inference unit according to an embodiment of the present invention performs soft-dropblock on the image extracted by the albedo component extraction unit in order to increase the reliability of the detection target, and repeatedly infers the image. In order to remove local information of the feature map and to prevent removal of important information due to discontinuous boundary surfaces, information is removed using a Soft-Dropblock, and samples are obtained.

도 4는 본 발명의 일 실시예에 따른 다양한 NMS의 사물검출 결과를 비교한 도면이다. 4 is a diagram comparing object detection results of various NMSs according to an embodiment of the present invention.

검출 결과를 정제하는 기존의 NMS는 모든 검출 결과가 신뢰할 수 있다는 가정하에 최종 결과를 추출한다. 일반적으로 부정확한 검출 대상은 오검출의 가능성을 증가시킨다. 일부 정보를 제거한 상태에서 사물 검출을 수행하면 일반적으로 경계 박스(bounding box)의 위치가 부정확하다. 따라서 기존의 NMS를 이러한 부정확한 박스들이 쌓였을 때 적용하면 처리가 복잡해지고 정확도가 크게 저하 될 수 있다. Conventional NMS, which purifies detection results, extracts the final results under the assumption that all detection results are reliable. In general, an incorrect detection target increases the possibility of false detection. When object detection is performed in a state in which some information is removed, the position of a bounding box is generally inaccurate. Therefore, if the existing NMS is applied when these inaccurate boxes are piled up, the processing becomes complicated and the accuracy can be greatly reduced.

이러한 문제를 해결하기 위해 본 발명의 일 실시예에 따른 적층형 NMS(Stacked Non-Maximum Suppression)는 2단계에 걸친 처리를 통해 박스를 재구성 한 다음 각 박스의 검출 빈도를 계산하여 결과로 출력할지 여부를 결정한다. In order to solve this problem, stacked non-maximum suppression (NMS) according to an embodiment of the present invention reconstructs a box through a two-step process, and then calculates the detection frequency of each box to determine whether to output the result. decide

2단계에 걸친 처리란, 결과로 출력되는 이미지에 같은 물체로 인식되는 여러 개의 박스가 그려진다. 해당 박스들의 영역을 겹친 영역에 따라 하나로 묶는 것을 1st NMS라 한다. 두 번째로 1st NMS에서 처리되어 쌓인 이미지들에 대하여 이미지들의 박스들을 다시 한번 2nd NMS를 통해 종합한다. In two-step processing, multiple boxes recognized as the same object are drawn on the resulting image. Grouping the areas of the boxes into one according to the overlapping area is called 1st NMS . Second, for the images processed and stacked in 1 st NMS, the boxes of images are again synthesized through 2 nd NMS.

여기서, 모든 이미지들에 대해 같은 위치 및 같은 클래스의 물체가 계속해서 검출되었는지 여부를 판단한다. 예를 들어, 5번의 결과 이미지를 쌓아놓았으면 같은 위치 및 같은 클래스의 물체가 3번이상 검출되어야 신뢰할 수 있다고 판단한다. Here, it is determined whether objects of the same position and the same class are continuously detected for all images. For example, if the result image of 5 times is stacked, it is judged to be reliable only when an object of the same location and the same class is detected 3 times or more.

제안된 적층형 NMS는 두 가지 장점이 있다. 첫째, 부정확한 검출 박스들이 합산되기 전에 예비 보정을 수행하여 전체적인 복잡성을 완화한다. 여러 번의 추론을 거치기 때문에 많은 수의 검출박스들이 생성될 수 있다. 예비보정은 각 이미지 별로 NMS를 통해 사전 종합을 수행함으로써 전체적인 검출박스의 수를 효과적으로 줄일 수 있다. The proposed stacked NMS has two advantages. First, a preliminary correction is performed before the incorrect detection boxes are summed to alleviate the overall complexity. A large number of detection boxes can be generated because multiple inferences are made. Preliminary correction can effectively reduce the overall number of detection boxes by performing pre-synthesis through NMS for each image.

둘째, 불확실성이 과소 평가 된 검출 박스는 감지 빈도에 따라 추가로 제거 할 수 있다. 도 4는 각 NMS의 결과 비교를 보여준다. 도 4(a)는 원본 이미지, 도 4(b)는 종래기술에 따른 NMS, 도 4(c)는 소프트-NMS, 도 4(d)는 적층형 NMS를 나타내는 도면이다. Second, detection boxes with underestimated uncertainty can be further removed depending on the detection frequency. 4 shows a comparison of the results of each NMS. 4(a) is an original image, FIG. 4(b) is a prior art NMS, FIG. 4(c) is a soft-NMS, and FIG. 4(d) is a stacked NMS.

본 발명의 일 실시예에 따른 인접 프레임 처리부는 복수의 NMS를 통해 생성되는 다중 도메인 간의 시각적 격차로 인한 오검출 결과를 제거하기 위해 인접 프레임 간의 검출 결과를 비교하여 최종 결과를 출력한다. The adjacent frame processing unit according to an embodiment of the present invention compares detection results between adjacent frames and outputs a final result in order to remove a false detection result due to a visual difference between multiple domains generated through a plurality of NMSs.

표 1은 알베도 추출과 인접 프레임 프로세싱 적용 여부에 따른 성능 평가를 비교한 표이다. 알베도 이미지를 기존 이미지와 함께 사용하면 FP(False Positive)와 TP(True Positive)가 증가한다는 것을 표 1을 통해 확인할 수 있다. Table 1 is a table comparing performance evaluation according to whether albedo extraction and adjacent frame processing are applied. It can be seen from Table 1 that FP (False Positive) and TP (True Positive) increase when an albedo image is used together with an existing image.

<표 1><Table 1>

Figure pat00002
Figure pat00002

또한, 알베도 이미지에서 검출된 대부분의 FP는 인접 프레임에서 연속해서 검출되지 않았음을 확인했다. 따라서 알베도 이미지에서 검출된 FP를 줄여 다중 도메인에서의 검출 성능을 향상시키기 위해 제안하는 인접 프레임 처리부를 통한 인접 프레임 프로세싱을 수행한다. 인접 프레임 프로세싱은 인접한 프레임들과 현재 프레임에서 사물이 연속해서 검출되지 않았을 경우 제거하는 동작을 수행한다. 본 발명에서 제안하는 인접 프레임 프로세싱과 알베도 이미지를 사물 검출에 함께 사용하면 다중 도메인 이미지를 통해 추가 검출결과(TP)를 확보할 수 있으며 도메인 간 시각적 차이에 의해 의도하지 않게 발생하는 FP는 인접 프레임 프로세싱을 통해 제거할 수 있으므로 오검출의 가능성을 줄일 수 있다. In addition, it was confirmed that most FPs detected in the albedo image were not continuously detected in adjacent frames. Therefore, adjacent frame processing is performed through the proposed adjacent frame processor to improve detection performance in multiple domains by reducing FP detected in the albedo image. In the adjacent frame processing, if an object is not continuously detected in adjacent frames and the current frame, it is removed. If the adjacent frame processing proposed in the present invention and the albedo image are used together for object detection, additional detection results (TP) can be obtained through multi-domain images. Since it can be removed through

도 5는 본 발명의 일 실시예에 따른 다양한 샘플을 이용하여 개선한 확률기반 사물검출 방법을 설명하기 위한 흐름도이다. 5 is a flowchart illustrating an improved probability-based object detection method using various samples according to an embodiment of the present invention.

제안하는 다양한 샘플을 이용하여 개선한 확률기반 사물검출 방법은 광원에 의한 오검출 가능성을 감소시키기 위해 알베도 성분 추출부를 통해 검출하고자 하는 이미지의 알베도(Albedo) 성분을 추출하는 단계(510), 검출대상의 신뢰도 증가시키기 위해 이미지 추론부를 통해 알베도 성분 추출부에서 추출된 이미지에 대하여 소프트-드롭블록(Soft-Dropblock)을 수행하고, 반복하여 이미지를 추론하는 단계(520), 반복되는 추론으로 누적된 결과들을 종합하기 위해 적층형 NMS 수행부를 통해 복수의 NMS(Non-Maximum Suppression)를 수행하는 단계(530) 및 복수의 NMS로 생성되는 다중 도메인 간의 시각적 격차로 인한 오검출 결과를 제거하기 위해 인접 프레임 처리부를 통해 인접 프레임 간의 검출 결과를 비교하여 최종 결과를 출력하는 단계(540)를 포함한다. The improved probability-based object detection method using the proposed various samples extracts the albedo component of the image to be detected through the albedo component extraction unit in order to reduce the possibility of false detection by the light source (510), the detection target In order to increase the reliability of , soft-dropblock is performed on the image extracted from the albedo component extraction unit through the image inference unit, and the image is repeatedly inferred ( 520 ), the result accumulated through repeated inference In order to remove the erroneous detection result due to the visual gap between the multiple domains generated by the step 530 of performing a plurality of NMS (Non-Maximum Suppression) through the stacked NMS performing unit to synthesize the data, the adjacent frame processing unit and comparing the detection results between adjacent frames through the step of outputting a final result (540).

단계(510), 광원에 의한 오검출 가능성을 감소시키기 위해 알베도 성분 추출부를 통해 검출하고자 하는 이미지의 알베도(Albedo) 성분을 추출한다. In step 510, an albedo component of an image to be detected is extracted through an albedo component extraction unit in order to reduce the possibility of erroneous detection by the light source.

알베도 성분 추출부는 U-Net을 이용한 알베도 성분 추출 방식을 이용하여 이미지의 음영을 제거한 알베도 이미지 추출하고, 추출된 알베도 이미지와 원본 이미지를 페어링된 데이터 셋으로 구성하여 알베도 네트워크를 학습시킨다. The albedo component extraction unit extracts the albedo image from which the shadows are removed using the albedo component extraction method using U-Net, and trains the albedo network by configuring the extracted albedo image and the original image as a paired data set.

단계(520)에서, 검출대상의 신뢰도 증가시키기 위해 이미지 추론부를 통해 알베도 성분 추출부에서 추출된 이미지에 대하여 소프트-드롭블록(Soft-Dropblock)을 수행하고, 반복하여 이미지를 추론한다. 검출 네트워크를 통해 이미지를 추론하되, 보다 효과적인 확률적 검출을 위해 소프트-드롭블록을 수행하며 이를 통해 검출대상의 신뢰도를 올릴 수 있다.In step 520, in order to increase the reliability of the detection target, soft-dropblock is performed on the image extracted by the albedo component extraction unit through the image inference unit, and the image is repeatedly inferred. The image is inferred through the detection network, but soft-drop block is performed for more effective probabilistic detection, thereby increasing the reliability of the detection target.

이미지 추론부는 특징 맵의 로컬 정보를 제거하고, 불연속적인 경계면에 의한 중요 정보 제거를 방지하기 위해 소프트-드롭블록(Soft-Dropblock)을 이용하여 정보를 제거하고, 샘플을 획득한다. The image inference unit removes local information of the feature map, removes information using a Soft-Dropblock to prevent removal of important information due to discontinuous boundary surfaces, and acquires samples.

단계(530)에서, 반복되는 추론으로 누적된 결과들을 종합하기 위해 적층형 NMS 수행부를 통해 복수의 NMS(Non-Maximum Suppression)를 수행한다. 본 발명의 실시예에 따르면, 여러 번의 추론을 통해 누적된 결과들을 효과적으로 종합하기 위해 두 번의 NMS를 수행한다. In step 530, a plurality of NMS (Non-Maximum Suppression) is performed through the stacked NMS performing unit to synthesize the results accumulated through repeated reasoning. According to an embodiment of the present invention, NMS is performed twice to effectively synthesize results accumulated through multiple inferences.

적층형 NMS 수행부는 반복되는 추론에 따라 검출된 사물을 합산하기 전에 예비 보정을 수행하고, 감지 빈도에 따라 검출된 사물을 추가로 제거하는 2단계 NMS를 수행하여 검출하고자 하는 사물을 재구성하고, 사물의 검출 빈도를 계산하여 결과로 출력할지 여부를 결정한다. The stacked NMS performing unit performs preliminary correction before adding up the detected objects according to repeated reasoning, and performs two-step NMS that additionally removes the detected objects according to the detection frequency to reconstruct the object to be detected, and Determines whether or not to output the result by calculating the detection frequency.

단계(540)에서, 복수의 NMS로 생성되는 다중 도메인 간의 시각적 격차로 인한 오검출 결과를 제거하기 위해 인접 프레임 처리부를 통해 인접 프레임 간의 검출 결과를 비교하여 최종 결과를 출력한다. 두 번의 NMS를 수행한 결과에 따른 두 도메인의 시각적 격차로 인한 오검출 결과들을 소거하기 위해 인접 프레임간의 검출 결과를 비교하여 확실한 결과들만을 남긴다. In step 540, in order to remove a false detection result due to a visual disparity between multiple domains generated by a plurality of NMSs, a final result is output by comparing detection results between adjacent frames through an adjacent frame processing unit. In order to eliminate erroneous detection results due to the visual disparity between the two domains according to the results of performing NMS twice, detection results between adjacent frames are compared and only reliable results are left.

인접 프레임 처리부는 인접한 프레임과 현재 프레임에서 사물이 연속해서 검출되지 않을 경우 해당 사물을 제거함으로써 다중 도메인을 통해 추가 TP(True Positive)를 확보하고, 다중 도메인 간의 시각적 차이에 의해 발생하는 FP(False Positive)를 인접 프레임 프로세싱을 통해 제거한다.If an object is not continuously detected in the adjacent frame and the current frame, the adjacent frame processing unit secures additional TP (True Positive) through multiple domains by removing the object, and FP (False Positive) caused by visual differences between multiple domains ) is removed through adjacent frame processing.

도 6은 본 발명의 일 실시예에 따른 다양한 샘플을 이용하여 개선한 확률기반 사물검출 기법의 적용 전과 후를 비교한 영상이다.6 is an image comparing before and after application of the improved probability-based object detection technique using various samples according to an embodiment of the present invention.

표 2는 알베도 추출, 인접 프레임 프로세싱, 소프트-드롭블록 및 적층형 NMS 적용 여부에 따른 성능 평가를 비교한 표이다. 알베도 추출, 인접 프레임 프로세싱, 소프트-드롭블록 및 적층형 NMS를 모두 적용한 본 발명의 경우 PDQ 스코어가 가장 높은 것을 표 1을 통해 확인할 수 있다. Table 2 is a table comparing the performance evaluation according to whether albedo extraction, adjacent frame processing, soft-drop block, and stacked NMS are applied. In the present invention to which albedo extraction, adjacent frame processing, soft-drop block, and stacked NMS are all applied, it can be seen from Table 1 that the PDQ score is the highest.

<표 2><Table 2>

Figure pat00003
Figure pat00003

도 6은 PrOD의 평가를 위해 제안된 PDQ 스코어를 통해 정량적 성능을 확인하기 위한 도면이다. 도 6(a)는 제안 기법의 적용 전 사물검출 결과를 나타낸 도면이고, 도 6(b)는 제안기법 적용 후의 사물검출 결과를 나타낸 도면이다. 6 is a PDQ proposed for evaluation of PrOD. It is a diagram for confirming quantitative performance through a score. FIG. 6(a) is a diagram showing the object detection result before applying the proposed technique, and FIG. 6(b) is a diagram showing the object detection result after applying the proposed technique.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다.  또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다.  이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다.  예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다.  또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The device described above may be implemented as a hardware component, a software component, and/or a combination of the hardware component and the software component. For example, devices and components described in the embodiments may include, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable array (FPA), It may be implemented using one or more general purpose or special purpose computers, such as a programmable logic unit (PLU), microprocessor, or any other device capable of executing and responding to instructions. The processing device may execute an operating system (OS) and one or more software applications running on the operating system. A processing device may also access, store, manipulate, process, and generate data in response to execution of the software. For convenience of understanding, although one processing device is sometimes described as being used, one of ordinary skill in the art will recognize that the processing device includes a plurality of processing elements and/or a plurality of types of processing elements. It can be seen that can include For example, the processing device may include a plurality of processors or one processor and one controller. Other processing configurations are also possible, such as parallel processors.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다.  소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다.  소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.Software may comprise a computer program, code, instructions, or a combination of one or more thereof, which configures a processing device to operate as desired or is independently or collectively processed You can command the device. The software and/or data may be any kind of machine, component, physical device, virtual equipment, computer storage medium or apparatus, to be interpreted by or to provide instructions or data to the processing device. may be embodied in The software may be distributed over networked computer systems and stored or executed in a distributed manner. Software and data may be stored in one or more computer-readable recording media.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다.  상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.  상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.  컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.  프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.  The method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded in a computer-readable medium. The computer-readable medium may include program instructions, data files, data structures, etc. alone or in combination. The program instructions recorded on the medium may be specially designed and configured for the embodiment, or may be known and available to those skilled in the art of computer software. Examples of the computer-readable recording medium include magnetic media such as hard disks, floppy disks and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic such as floppy disks. - includes magneto-optical media, and hardware devices specially configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like. Examples of program instructions include not only machine language codes such as those generated by a compiler, but also high-level language codes that can be executed by a computer using an interpreter or the like.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다.  예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.As described above, although the embodiments have been described with reference to the limited embodiments and drawings, various modifications and variations are possible from the above description by those skilled in the art. For example, the described techniques are performed in an order different from the described method, and/or the described components of the system, structure, apparatus, circuit, etc. are combined or combined in a different form than the described method, or other components Or substituted or substituted by equivalents may achieve an appropriate result.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents to the claims are also within the scope of the following claims.

<참고문헌><References>

[1] Hall, D., Dayoub, F., Skinner, J., Zhang, H., Miller, D., Corke, P., Carneiro, G., Angelova, A., Siunderhauf, N.: Probabilistic object detection: Denition and evaluation. In: The IEEE Winter Conference on Applications of Computer Vision. pp. 1031-1040 (2020)[1] Hall, D., Dayoub, F., Skinner, J., Zhang, H., Miller, D., Corke, P., Carneiro, G., Angelova, A., Siunderhauf, N.: Probabilistic object detection: Denition and evaluation. In: The IEEE Winter Conference on Applications of Computer Vision. pp. 1031-1040 (2020)

[2] Liu, S., Huang, D., Wang, Y.: Learning spatial fusion for single-shot object detection. arXiv preprint[2] Liu, S., Huang, D., and Wang, Y.: Learning spatial fusion for single-shot object detection. arXiv preprint

arXiv:1911.09516 (2019)arXiv: 911.09516 (2019)

[3] D. Miller, L. Nicholson, F. Dayoub, M. Milford, and N. S¨underhauf. Dropout Sampling for Robust Object Detection in Open-Set Conditions. In IEEE International Conference on Robotics and Automation (ICRA), 2018.[3] D. Miller, L. Nicholson, F. Dayoub, M. Milford, and N. S¨underhauf. Dropout Sampling for Robust Object Detection in Open-Set Conditions. In IEEE International Conference on Robotics and Automation (ICRA), 2018.

[4] Bell, S., Bala, K., Snavely, N.: Intrinsic images in the wild. ACM Transactions on Graphics (TOG) 33(4), 1{12 (2014)[4] Bell, S., Bala, K., Snavely, N.: Intrinsic images in the wild. ACM Transactions on Graphics (TOG) 33(4), 1{12 (2014)

[5] Ronneberger, O., Fischer, P., Brox, T.: U-net: Convolutional networks for biomedical image segmentation.[5] Ronneberger, O., Fischer, P., Brox, T.: U-net: Convolutional networks for biomedical image segmentation.

In: International Conference on Medical image computing and computer-assisted intervention. pp. 234{241. Springer (2015)In: International Conference on Medical image computing and computer-assisted intervention. pp. 234{241. Springer (2015)

[6] Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I., Salakhutdinov, R.: Dropout: a simple way to[6] Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I., Salakhutdinov, R.: Dropout: a simple way to

prevent neural networks from overtting. The journal of machine learning research 15(1), 1929{1958prevent neural networks from overtting. The journal of machine learning research 15(1), 1929{1958

(2014)(2014)

[7] Ghiasi, G., Lin, T.Y., Le, Q.V.: Dropblock: A regularization method for convolutional networks. In: Advances in Neural Information Processing Systems. pp. 10727{10737 (2018)[7] Ghiasi, G., Lin, T.Y., Le, Q.V.: Dropblock: A regularization method for convolutional networks. In: Advances in Neural Information Processing Systems. pp. 10727{10737 (2018)

Claims (10)

광원에 의한 오검출 가능성을 감소시키기 위해 검출하고자 하는 이미지의 알베도(Albedo) 성분을 추출하는 알베도 성분 추출부;
검출대상의 신뢰도 증가시키기 위해 알베도 성분 추출부에서 추출된 이미지에 대하여 소프트-드롭블록(Soft-Dropblock)을 수행하고, 반복하여 이미지를 추론하는 이미지 추론부;
반복되는 추론을 통해 누적된 결과들을 종합하기 위해 복수의 NMS(Non-Maximum Suppression)를 수행하는 적층형 NMS 수행부; 및
복수의 NMS를 통해 생성되는 다중 도메인 간의 시각적 격차로 인한 오검출 결과를 제거하기 위해 인접 프레임 간의 검출 결과를 비교하여 최종 결과를 출력하는 인접 프레임 처리부
를 포함하는 확률기반 사물검출 장치.
an albedo component extractor for extracting an albedo component of an image to be detected in order to reduce a possibility of false detection by a light source;
an image inference unit that performs soft-dropblock on the image extracted by the albedo component extraction unit in order to increase the reliability of the detection target, and repeatedly infers the image;
a stacked NMS performing unit that performs a plurality of NMS (Non-Maximum Suppression) to synthesize results accumulated through repeated reasoning; and
An adjacent frame processing unit that compares detection results between adjacent frames and outputs a final result in order to remove a false detection result due to a visual gap between multiple domains generated through a plurality of NMSs
Probability-based object detection device comprising a.
제1항에 있어서,
알베도 성분 추출부는,
U-Net을 이용한 알베도 성분 추출 방식을 이용하여 이미지의 음영을 제거한 알베도 이미지 추출하고, 추출된 알베도 이미지와 원본 이미지를 페어링된 데이터 셋으로 구성하여 알베도 네트워크를 학습시키는
확률기반 사물검출 장치.
According to claim 1,
The albedo component extraction unit,
It extracts the albedo image from which the shadows of the image are removed using the albedo component extraction method using U-Net, and trains the albedo network by composing the extracted albedo image and the original image as a paired data set.
Probability-based object detection device.
제1항에 있어서,
이미지 추론부는,
특징 맵의 로컬 정보를 제거하고, 불연속적인 경계면에 의한 중요 정보 제거를 방지하기 위해 소프트-드롭블록(Soft-Dropblock)을 이용하여 정보를 제거하고, 샘플을 획득하는
확률기반 사물검출 장치.
According to claim 1,
The image inference unit,
In order to remove the local information of the feature map and to prevent the removal of important information due to discontinuous boundary surfaces, information is removed using Soft-Dropblock and samples are acquired.
Probability-based object detection device.
제1항에 있어서,
적층형 NMS 수행부는,
반복되는 추론에 따라 검출된 사물을 합산하기 전에 예비 보정을 수행하고, 감지 빈도에 따라 검출된 사물을 추가로 제거하는 2단계 NMS를 수행하여 검출하고자 하는 사물을 재구성하고, 사물의 검출 빈도를 계산하여 결과로 출력할지 여부를 결정하는
확률기반 사물검출 장치.
According to claim 1,
The stacked NMS performing unit,
Preliminary correction is performed before summing up the detected objects according to repeated reasoning, and two-step NMS is performed to additionally remove the detected objects according to the detection frequency to reconstruct the object to be detected, and calculate the detection frequency of the object to decide whether to output the result
Probability-based object detection device.
제1항에 있어서,
인접 프레임 처리부는,
인접한 프레임과 현재 프레임에서 사물이 연속해서 검출되지 않을 경우 해당 사물을 제거함으로써 다중 도메인을 통해 추가 TP(True Positive)를 확보하고, 다중 도메인 간의 시각적 차이에 의해 발생하는 FP(False Positive)를 인접 프레임 프로세싱을 통해 제거하는
확률기반 사물검출 장치.
According to claim 1,
The adjacent frame processing unit,
If an object is not continuously detected in the adjacent frame and the current frame, additional TP (True Positive) is secured through multiple domains by removing the object, and FP (False Positive) caused by visual differences between multiple domains is removed from the adjacent frame removed through processing
Probability-based object detection device.
광원에 의한 오검출 가능성을 감소시키기 위해 알베도 성분 추출부를 통해 검출하고자 하는 이미지의 알베도(Albedo) 성분을 추출하는 단계;
검출대상의 신뢰도 증가시키기 위해 이미지 추론부를 통해 알베도 성분 추출부에서 추출된 이미지에 대하여 소프트-드롭블록(Soft-Dropblock)을 수행하고, 반복하여 이미지를 추론하는 단계;
반복되는 추론으로 누적된 결과들을 종합하기 위해 적층형 NMS 수행부를 통해 복수의 NMS(Non-Maximum Suppression)를 수행하는 단계; 및
복수의 NMS로 생성되는 다중 도메인 간의 시각적 격차로 인한 오검출 결과를 제거하기 위해 인접 프레임 처리부를 통해 인접 프레임 간의 검출 결과를 비교하여 최종 결과를 출력하는 단계
를 포함하는 확률기반 사물검출 방법.
extracting an albedo component of an image to be detected through an albedo component extraction unit in order to reduce a possibility of false detection by a light source;
performing soft-dropblock on the image extracted by the albedo component extraction unit through the image inference unit to increase the reliability of the detection target, and repeatedly inferring the image;
performing a plurality of NMS (Non-Maximum Suppression) through a stacked NMS performing unit to synthesize results accumulated through repeated reasoning; and
Comparing detection results between adjacent frames through an adjacent frame processing unit and outputting a final result in order to remove an erroneous detection result due to a visual gap between multiple domains generated by a plurality of NMSs
A probability-based object detection method comprising a.
제6항에 있어서,
광원에 의한 오검출 가능성을 감소시키기 위해 알베도 성분 추출부를 통해 검출하고자 하는 이미지의 알베도 성분을 추출하는 단계는,
U-Net을 이용한 알베도 성분 추출 방식을 이용하여 이미지의 음영을 제거한 알베도 이미지 추출하고, 추출된 알베도 이미지와 원본 이미지를 페어링된 데이터 셋으로 구성하여 알베도 네트워크를 학습시키는
확률기반 사물검출 방법.
7. The method of claim 6,
The step of extracting the albedo component of the image to be detected through the albedo component extraction unit in order to reduce the possibility of false detection by the light source includes:
It extracts the albedo image from which the shadows of the image are removed using the albedo component extraction method using U-Net, and trains the albedo network by composing the extracted albedo image and the original image as a paired data set.
Probability-based object detection method.
제6항에 있어서,
검출대상의 신뢰도 증가시키기 위해 이미지 추론부를 통해 알베도 성분 추출부에서 추출된 이미지에 대하여 소프트-드롭블록을 수행하고, 반복하여 이미지를 추론하는 단계는,
특징 맵의 로컬 정보를 제거하고, 불연속적인 경계면에 의한 중요 정보 제거를 방지하기 위해 소프트-드롭블록(Soft-Dropblock)을 이용하여 정보를 제거하고, 샘플을 획득하는
확률기반 사물검출 방법.
7. The method of claim 6,
In order to increase the reliability of the detection target, soft-drop block is performed on the image extracted from the albedo component extraction unit through the image inference unit, and the image is repeatedly inferred,
In order to remove the local information of the feature map and to prevent the removal of important information due to discontinuous boundary surfaces, information is removed using Soft-Dropblock and samples are acquired.
Probability-based object detection method.
제6항에 있어서,
반복되는 추론으로 누적된 결과들을 종합하기 위해 적층형 NMS 수행부를 통해 복수의 NMS를 수행하는 단계는,
반복되는 추론에 따라 검출된 사물을 합산하기 전에 예비 보정을 수행하고, 감지 빈도에 따라 검출된 사물을 추가로 제거하는 2단계 NMS를 수행하여 검출하고자 하는 사물을 재구성하고, 사물의 검출 빈도를 계산하여 결과로 출력할지 여부를 결정하는
확률기반 사물검출 방법.
7. The method of claim 6,
The step of performing a plurality of NMS through the stacked NMS performing unit to synthesize the results accumulated through repeated reasoning comprises:
Preliminary correction is performed before summing up the detected objects according to repeated reasoning, and two-step NMS is performed to additionally remove the detected objects according to the detection frequency to reconstruct the object to be detected, and calculate the detection frequency of the object to decide whether to output the result
Probability-based object detection method.
제6항에 있어서,
복수의 NMS로 생성되는 다중 도메인 간의 시각적 격차로 인한 오검출 결과를 제거하기 위해 인접 프레임 처리부를 통해 인접 프레임 간의 검출 결과를 비교하여 최종 결과를 출력하는 단계는,
인접한 프레임과 현재 프레임에서 사물이 연속해서 검출되지 않을 경우 해당 사물을 제거함으로써 다중 도메인을 통해 추가 TP(True Positive)를 확보하고, 다중 도메인 간의 시각적 차이에 의해 발생하는 FP(False Positive)를 인접 프레임 프로세싱을 통해 제거하는
확률기반 사물검출 방법.
7. The method of claim 6,
Comparing detection results between adjacent frames through an adjacent frame processing unit to remove a false detection result due to a visual gap between multiple domains generated by a plurality of NMSs and outputting a final result includes:
If an object is not continuously detected in the adjacent frame and the current frame, additional TP (True Positive) is secured through multiple domains by removing the object, and FP (False Positive) caused by visual differences between multiple domains is removed from the adjacent frame removed through processing
Probability-based object detection method.
KR1020200162673A 2020-11-27 2020-11-27 Probability-based object detector using various samples KR102435957B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200162673A KR102435957B1 (en) 2020-11-27 2020-11-27 Probability-based object detector using various samples

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200162673A KR102435957B1 (en) 2020-11-27 2020-11-27 Probability-based object detector using various samples

Publications (2)

Publication Number Publication Date
KR20220074319A true KR20220074319A (en) 2022-06-03
KR102435957B1 KR102435957B1 (en) 2022-08-24

Family

ID=81982935

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200162673A KR102435957B1 (en) 2020-11-27 2020-11-27 Probability-based object detector using various samples

Country Status (1)

Country Link
KR (1) KR102435957B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116468967A (en) * 2023-04-18 2023-07-21 北京百度网讯科技有限公司 Sample image screening method and device, electronic equipment and storage medium

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4082714B2 (en) * 2006-05-29 2008-04-30 松下電器産業株式会社 Image high resolution device, image high resolution method, image high resolution program, and image high resolution system
KR20180028442A (en) * 2015-07-09 2018-03-16 퀄컴 인코포레이티드 Context-based fryers for object detection in images

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4082714B2 (en) * 2006-05-29 2008-04-30 松下電器産業株式会社 Image high resolution device, image high resolution method, image high resolution program, and image high resolution system
KR20180028442A (en) * 2015-07-09 2018-03-16 퀄컴 인코포레이티드 Context-based fryers for object detection in images

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116468967A (en) * 2023-04-18 2023-07-21 北京百度网讯科技有限公司 Sample image screening method and device, electronic equipment and storage medium
CN116468967B (en) * 2023-04-18 2024-04-16 北京百度网讯科技有限公司 Sample image screening method and device, electronic equipment and storage medium

Also Published As

Publication number Publication date
KR102435957B1 (en) 2022-08-24

Similar Documents

Publication Publication Date Title
Xuan et al. Object tracking in satellite videos by improved correlation filters with motion estimations
KR102507941B1 (en) Target Acquisition Method and Device
JP6204659B2 (en) Video processing apparatus and video processing method
KR102374776B1 (en) System and method for re-identifying target object based on location information of cctv and movement information of object
KR101969623B1 (en) Face recognition with parallel detection and tracking, and/or grouped feature motion shift tracking
CN109859250B (en) Aviation infrared video multi-target detection and tracking method and device
EP3859606A1 (en) Training program, training method, and information processing apparatus
KR101942646B1 (en) Feature point-based real-time camera pose estimation method and apparatus therefor
KR102435957B1 (en) Probability-based object detector using various samples
KR101821242B1 (en) Method for counting vehicles based on image recognition and apparatus using the same
US12002218B2 (en) Method and apparatus with object tracking
Bober et al. A hough transform based hierarchical algorithm for motion segmentation
US20190325306A1 (en) Device and a method for processing data sequences using a convolutional neural network
KR101195978B1 (en) Method and apparatus of processing object included in video
Zhang et al. Tracking-assisted weakly supervised online visual object segmentation in unconstrained videos
KR20220064857A (en) Segmentation method and segmentation device
CN115937825B (en) Method and device for generating robust lane line under BEV of on-line pitch angle estimation
CN113869163B (en) Target tracking method and device, electronic equipment and storage medium
KR102120453B1 (en) Method and Apparatus for Generating Scene Situation Information of Video Using Differentiation of Image Feature and Supervised Learning
Yang et al. Edge-based moving object tracking algorithm for an embedded system
KR101853211B1 (en) Complexity Reduction of SIFT for Video based on Frame Difference in the Mobile GPU environment
KR102353837B1 (en) Method and apparatus for restoring high resolution facial image
KR101918159B1 (en) Method and Apparatus for Segmenting Background Motion Region From Image
KR20140123399A (en) Apparatus and Method of Body Parts Detection
Pei et al. Real-time text detection and recognition

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right