KR102540873B1 - Method and apparatus of filtering noise label - Google Patents

Method and apparatus of filtering noise label Download PDF

Info

Publication number
KR102540873B1
KR102540873B1 KR1020220175431A KR20220175431A KR102540873B1 KR 102540873 B1 KR102540873 B1 KR 102540873B1 KR 1020220175431 A KR1020220175431 A KR 1020220175431A KR 20220175431 A KR20220175431 A KR 20220175431A KR 102540873 B1 KR102540873 B1 KR 102540873B1
Authority
KR
South Korea
Prior art keywords
instances
label
inference
instance
accuracy
Prior art date
Application number
KR1020220175431A
Other languages
Korean (ko)
Inventor
김여정
Original Assignee
주식회사 에이모
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 에이모 filed Critical 주식회사 에이모
Priority to KR1020220175431A priority Critical patent/KR102540873B1/en
Application granted granted Critical
Publication of KR102540873B1 publication Critical patent/KR102540873B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 증발원에 관한 것이다. 본 발명의 일 실시예에 따른 노이즈 레이블을 필터링하는 방법은, 사전에 세그먼트(segment) 레이블링(labeling)된 복수의 레이블 인스턴스(instance)들을 포함하는, 적어도 하나의 학습 데이터를 준비하는, 학습 데이터 준비 단계, 학습 데이터를 이용하여 세그멘테이션(segmentation) 모델을 학습시키는, 모델 학습 단계, 세그멘테이션 모델을 이용하여 학습 데이터에 포함된 복수의 인스턴스들을 추론하는, 인스턴스 추론 단계, 세그멘테이션 모델에 의해 추론된 복수의 인스턴스들 각각에 대한 수치 및 추론된 복수의 인스턴스들 각각과 대응되는 복수의 레이블 인스턴스들 각각에 대한 수치로부터, 복수의 레이블 인스턴스들 각각에 대한 추론의 정확도를 산출하는, 추론 정확도 산출 단계, 및 복수의 레이블 인스턴스들 각각에 대한 추론의 정확도를 미리 설정된 임계값과 각각 비교하는, 노이즈 레이블 판단 단계를 포함한다.The present invention relates to an evaporation source. A method for filtering noise labels according to an embodiment of the present invention includes preparing at least one training data including a plurality of label instances labeled with segments in advance, preparing training data. Step, model learning step of learning a segmentation model using the training data, instance inference step of inferring a plurality of instances included in the training data using the segmentation model, a plurality of instances inferred by the segmentation model Inference accuracy calculating step of calculating the accuracy of inference for each of the plurality of label instances from the numerical value for each of the inferred plurality of instances and the numerical value for each of the plurality of label instances corresponding to each of the plurality of inferred instances; and and comparing the accuracy of inference for each of the label instances with a preset threshold, respectively, to determine the noise label.

Description

노이즈 레이블을 필터링하는 방법 및 장치{METHOD AND APPARATUS OF FILTERING NOISE LABEL}Method and apparatus for filtering noise labels {METHOD AND APPARATUS OF FILTERING NOISE LABEL}

본 발명은 노이즈 레이블을 필터링하는 방법 및 장치에 관한 것으로서, 구체적으로 세그멘테이션(segmentation) 모델로 학습 데이터를 추론한 결과를 이용하여 노이즈 레이블을 필터링하는 방법 및 장치에 관한 것이다.The present invention relates to a method and apparatus for filtering noise labels, and more particularly, to a method and apparatus for filtering noise labels using a result of inferring training data with a segmentation model.

컴퓨터 비전은 기계의 시각(vision)에 해당하는 부분을 연구하는 컴퓨터 과학의 최신 연구 분야 중 하나로써, 컴퓨터에게 시각 데이터 처리 능력을 부여하는 기술을 포함한다. 인스턴스를 인식 및 분류하는 기술 역시 컴퓨터 비전에 속하는 기술이다. 여기서 인스턴스(instance)란, 데이터에 포함된 적어도 하나의 객체를 의미한다. 구체적으로, 하나의 이미지 데이터는 다양한 종류의 사물들 각각에 대한 인스턴스들을 포함할 수 있다. 예를 들어, 카메라로 촬영된 이미지 데이터는 복수의 차량 인스턴스들, 복수의 건물 인스턴스들, 및 복수의 사람 인스턴스들을 포함할 수 있다.Computer vision is one of the latest research fields in computer science that studies a part corresponding to machine vision, and includes technology that gives computers visual data processing capabilities. The technology of recognizing and classifying instances is also a technology belonging to computer vision. Here, an instance means at least one object included in data. Specifically, one image data may include instances for each of various types of objects. For example, image data photographed by a camera may include a plurality of vehicle instances, a plurality of building instances, and a plurality of person instances.

인스턴스를 인식 및 분류하는 작업은 세그멘테이션(segmentation)이라고도 한다. 여기서, 세그멘테이션은 인스턴스가 차지하는 영역을 분할된 영역으로 표시하는 작업을 의미하고, 이 때 세그멘테이션으로 분할된 영역은 세그먼트(segment)라고도 한다. 또한, 세그멘테이션 모델은, 데이터에서 인스턴스의 세그먼트를 자동으로 인식하고 표시할 수 있도록 학습된 인공지능 모델이다.Recognizing and classifying instances is also called segmentation. Here, segmentation refers to an operation of displaying an area occupied by an instance as a divided area, and in this case, the area divided by the segmentation is also referred to as a segment. In addition, the segmentation model is an artificial intelligence model trained to automatically recognize and display segments of instances in data.

세그멘테이션 모델이 데이터에 포함된 복수의 인스턴스들을 세그먼트 레이블링(Labeling)하는 성능은, 인스턴스를 자동으로 인식 및 분류하기 위해 매우 중요한 요소로 평가받는다. 여기서 레이블링은 인공지능 모델이 학습할 수 있도록 데이터를 가공하는 작업이며, 데이터에 포함된 인스턴스를 세그멘테이션하는 것은 세그먼트 레이블링으로 이해될 수 있다. 또한, 레이블 인스턴스는 세그먼트 레이블링된 인스턴스로 이해될 수 있다.The ability of a segmentation model to segment-label multiple instances included in data is evaluated as a very important factor for automatically recognizing and classifying instances. Here, labeling is the task of processing data so that an artificial intelligence model can learn, and segmenting instances included in data can be understood as segment labeling. Also, a label instance can be understood as a segment labeled instance.

종래의 기술은, 작업자가 직접 세그멘테이션을 수행하여 세그멘테이션이나 레이블링 작업에 소요되는 비용 및 시간이 과도하다는 문제가 있었다. 또한, 세그멘테이션 모델을 학습시키는 데이터들이 선별되지 않고 작업자의 오류로 인해 학습 데이터들의 품질이 떨어짐에 따라, 세그멘테이션 모델의 추론 성능이 낮다는 문제가 있다. In the prior art, there is a problem in that costs and time required for segmentation or labeling work are excessive because an operator directly performs segmentation. In addition, there is a problem in that inference performance of the segmentation model is low as data for training the segmentation model is not selected and the quality of the training data is degraded due to an operator's error.

한편, 전술한 배경기술은 발명자가 본 발명의 도출을 위해 보유하고 있었거나, 본 발명의 도출 과정에서 습득한 기술 정보로서, 반드시 본 발명의 출원 전에 일반 공중에게 공개된 공지기술이라 할 수는 없다.On the other hand, the above-mentioned background art is technical information that the inventor possessed for derivation of the present invention or acquired in the process of derivation of the present invention, and cannot necessarily be said to be known art disclosed to the general public prior to filing the present invention. .

한국등록특허 제10- 1880628 호 (2018.07.16)Korea Patent Registration No. 10- 1880628 (2018.07.16)

본 발명이 해결하고자 하는 일 과제는, 세그멘테이션 모델의 추론 성능을 향상시키기 위해 양질의 학습 데이터를 제공하는, 노이즈 레이블링을 필터링하는 방법 및 장치를 제공하는 것이다.One problem to be solved by the present invention is to provide a method and apparatus for filtering noise labeling that provide good quality training data to improve inference performance of a segmentation model.

본 발명이 해결하고자 하는 다른 과제는, 레이블링 작업자가 인스턴스를 세그멘테이션하기 위해 필요한 클릭 수를 절감하여 레이블링 작업의 효율을 증대시키는, 노이즈 레이블링을 필터링하는 방법 및 장치를 제공하는 것이다.Another problem to be solved by the present invention is to provide a method and apparatus for filtering noise labeling, which increase the efficiency of labeling work by reducing the number of clicks required by a labeling operator to segment an instance.

본 발명이 해결하고자 하는 또 다른 과제는, 학습 데이터에 포함된 모든 노이즈 레이블을 자동으로 신속하게 제거하여, 노이즈 레이블이 제거된 높은 품질의 학습 데이터를 신속하게 확보할 수 있는, 노이즈 레이블링을 필터링하는 방법 및 장치를 제공하는 것이다.Another problem to be solved by the present invention is to filter noise labeling, which can quickly secure high-quality training data from which noise labels have been removed by automatically and quickly removing all noise labels included in training data. To provide a method and apparatus.

본 발명이 해결하고자 하는 또 다른 과제는, 노이즈 레이블이 제거된 높은 품질의 학습 데이터를 학습하여 뛰어난 추론 성능을 보유한 세그멘테이션 모델을 신속하게 학습시킬 수 있는, 노이즈 레이블링을 필터링하는 방법 및 장치를 제공하는 것이다.Another problem to be solved by the present invention is to provide a method and apparatus for filtering noise labeling, which can quickly learn a segmentation model with excellent inference performance by learning high-quality training data from which noise labels have been removed. will be.

본 발명의 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.The tasks of the present invention are not limited to the tasks mentioned above, and other tasks not mentioned will be clearly understood by those skilled in the art from the following description.

전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 노이즈 레이블을 필터링하는 방법은, 사전에 세그먼트(segment) 레이블링(labeling)된 복수의 레이블 인스턴스(instance)들을 포함하는, 적어도 하나의 학습 데이터를 준비하는, 학습 데이터 준비 단계, 학습 데이터를 이용하여 세그멘테이션(segmentation) 모델을 학습시키는, 모델 학습 단계, 세그멘테이션 모델을 이용하여 학습 데이터에 포함된 복수의 인스턴스들을 추론하는, 인스턴스 추론 단계, 세그멘테이션 모델에 의해 추론된 복수의 인스턴스들 각각에 대한 수치 및 추론된 복수의 인스턴스들 각각과 대응되는 복수의 레이블 인스턴스들 각각에 대한 수치로부터, 복수의 레이블 인스턴스들 각각에 대한 추론의 정확도를 산출하는, 추론 정확도 산출 단계, 및 복수의 레이블 인스턴스들 각각에 대한 추론의 정확도를 미리 설정된 임계값과 각각 비교하는, 노이즈 레이블 판단 단계를 포함한다.In order to solve the above problem, a method for filtering noise labels according to an embodiment of the present invention includes at least one label instance, which includes a plurality of label instances labeled in advance by segments. A training data preparation step of preparing training data, a model learning step of training a segmentation model using the training data, an instance inference step of inferring a plurality of instances included in the training data using the segmentation model, Calculating the accuracy of inference for each of the plurality of label instances from the numerical value for each of the plurality of instances inferred by the segmentation model and the numerical value for each of the plurality of label instances corresponding to each of the plurality of inferred instances , an inference accuracy calculating step, and a noise label determining step of comparing the inference accuracy of each of the plurality of label instances with a preset threshold.

본 발명의 다른 특징에 따르면, 세그멘테이션 모델은, 사용자가 클릭한 위치의 인스턴스를 실시간으로 추론하여 반환하는 모델일 수 있다.According to another feature of the present invention, the segmentation model may be a model that infers and returns an instance of a location clicked by a user in real time.

본 발명의 또 다른 특징에 따르면, 복수의 인스턴스들 각각에 대한 수치는 복수의 인스턴스들 각각이 차지하는 영역의 정보일 수 있다.According to another feature of the present invention, the numerical value of each of the plurality of instances may be information of an area occupied by each of the plurality of instances.

본 발명의 또 다른 특징에 따르면, 추론의 정확도는 추론된 복수의 인스턴스들 각각이 차지하는 영역 및 복수의 레이블 인스턴스들 각각이 차지하는 영역에 대한 IoU(Intersection over Union)일 수 있다.According to another feature of the present invention, the accuracy of inference may be Intersection over Union (IoU) for an area occupied by each of a plurality of inferred instances and an area occupied by each of a plurality of label instances.

본 발명의 또 다른 특징에 따르면, 임계값은 복수의 레이블 인스턴스들 각각에 대한 추론의 정확도를 변수로 하는 박스플롯(box-plot)을 이용하여 설정될 수 있다.According to another feature of the present invention, the threshold may be set using a box-plot in which the accuracy of inference for each of a plurality of label instances is a variable.

본 발명의 또 다른 특징에 따르면, 임계값은 제1 사분위수(Q1)에서 사분위수범위(IQR)의 1.5배를 뺀 값일 수 있다.According to another feature of the present invention, the threshold value may be a value obtained by subtracting 1.5 times the interquartile range (IQR) from the first quartile (Q1).

본 발명의 또 다른 특징에 따르면, 노이즈 레이블 판단 단계 이후, 복수의 레이블 인스턴스들 중 하나의 레이블 인스턴스에 대한 추론의 정확도가 임계값 미만인 경우, 하나의 레이블 인스턴스를 학습 데이터에서 제거하는, 노이즈 레이블 제거 단계를 더 포함할 수 있다.According to another feature of the present invention, after the noise label determination step, if the accuracy of inference for one label instance among the plurality of label instances is less than a threshold value, one label instance is removed from the training data, noise label removal Further steps may be included.

전술한 바와 같은 과제를 해결하기 위하여 본 발명의 다른 실시예에 따라, 메모리 및 메모리와 데이터를 송수신하도록 연결된 프로세서를 포함하는 노이즈 레이블을 필터링하는 장치에 있어서, 프로세서는, 사전에 세그먼트 레이블링된 복수의 레이블 인스턴스들을 포함하는, 적어도 하나의 학습 데이터를 준비하고, 학습 데이터를 이용하여 세그멘테이션 모델을 학습시키고, 세그멘테이션 모델을 이용하여 학습 데이터에 포함된 복수의 인스턴스들을 추론하고, 세그멘테이션 모델에 의해 추론된 복수의 인스턴스들 각각에 대한 수치 및 추론된 복수의 인스턴스들 각각과 대응되는 복수의 레이블 인스턴스들 각각에 대한 수치로부터, 복수의 레이블 인스턴스들 각각에 대한 추론의 정확도를 산출한다.According to another embodiment of the present invention to solve the above problem, in the apparatus for filtering noise labels including a memory and a processor connected to transmit and receive data with the memory, the processor includes a plurality of segments labeled in advance. Preparing at least one training data including label instances, training a segmentation model using the training data, inferring a plurality of instances included in the training data using the segmentation model, and inferring a plurality of instances included in the training data using the segmentation model. Accuracy of inference for each of the plurality of label instances is calculated from a numerical value for each of the instances of , and a numerical value for each of the plurality of label instances corresponding to each of the plurality of inferred instances.

본 발명의 또 다른 특징에 따르면, 복수의 인스턴스들 각각에 대한 수치는 복수의 인스턴스들 각각이 차지하는 영역의 정보일 수 있다.According to another feature of the present invention, the numerical value of each of the plurality of instances may be information of an area occupied by each of the plurality of instances.

본 발명의 또 다른 특징에 따르면, 임계값은 복수의 레이블 인스턴스들 각각에 대한 추론의 정확도를 변수로 하는 박스플롯을 이용하여 설정될 수 있다.According to another feature of the present invention, the threshold value may be set using a box plot having inference accuracy for each of a plurality of label instances as a variable.

본 발명의 과제 해결 수단 중 어느 하나에 의하면, 노이즈 레이블이 필터링 된 양질의 학습 데이터가 제공되므로, 세그멘테이션 모델의 추론 성능을 향상시킬 수 있다.According to any one of the problem solving means of the present invention, since high-quality training data from which noise labels are filtered is provided, it is possible to improve the inference performance of the segmentation model.

본 발명의 과제 해결 수단 중 어느 하나에 의하면, 레이블링 작업자가 인스턴스를 세그멘테이션하기 위해 필요한 클릭 수가 절감되므로, 레이블링 작업의 효율이 증대될 수 있다.According to any one of the problem solving means of the present invention, since the number of clicks required for a labeling worker to segment an instance is reduced, the efficiency of labeling work can be increased.

본 발명의 과제 해결 수단 중 어느 하나에 의하면, 학습 데이터에 포함된 모든 노이즈 레이블이 자동으로 신속하게 제거되므로, 노이즈 레이블이 제거된 높은 품질의 학습 데이터를 신속하게 확보할 수 있다.According to any one of the problem solving means of the present invention, since all noise labels included in training data are automatically and quickly removed, it is possible to quickly secure high-quality training data from which noise labels are removed.

본 발명의 과제 해결 수단 중 어느 하나에 의하면, 세그멘테이션 모델은 노이즈 레이블이 제거된 학습 데이터를 학습하므로, 뛰어난 추론 성능을 보유한 세그멘테이션 모델을 학습시킬 수 있다.According to one of the problem solving means of the present invention, since the segmentation model learns training data from which noise labels have been removed, it is possible to learn a segmentation model having excellent inference performance.

본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.The effects obtainable in the present invention are not limited to the effects mentioned above, and other effects not mentioned can be clearly understood by those skilled in the art from the description below. will be.

도 1은 본 발명의 일 실시예에 따른 노이즈 레이블을 필터링하는 방법을 설명하기 위한 순서도다.
도 2는 본 발명의 일 실시예에 따라 학습 데이터 및 세그먼트 레이블링된 인스턴스를 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따라 레이블 인스턴스 및 추론된 인스턴스를 예시적으로 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따라 박스플롯(box-plot)을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따라 학습 데이터 및 세그먼트 레이블링된 인스턴스를 설명하기 위한 도면이다.
도 6은 본 발명의 다른 실시예에 따라 노이즈 레이블 제거 단계를 설명하기 위한 순서도다.
도 7은 본 발명의 또 다른 실시예에 따라 노이즈 레이블 인스턴스를 정상적인 레이블 인스턴스와 비교하여 설명하기 위한 도면이다.
도 8은 본 발명의 또 다른 실시예에 따라 노이즈 레이블을 필터링하고 모델을 학습시킨 경우 작업자의 평균 클릭 수 변화량을 설명하기 위한 테이블이다.
도9는 본 발명의 일 실시예에 따른 노이즈 레이블을 필터링하는 장치를 설명하기 위한 도면이다.
1 is a flowchart illustrating a method of filtering noise labels according to an embodiment of the present invention.
2 is a diagram for explaining learning data and segment-labeled instances according to an embodiment of the present invention.
3 is a diagram for illustratively describing a label instance and an inferred instance according to an embodiment of the present invention.
4 is a diagram for explaining a box-plot according to an embodiment of the present invention.
5 is a diagram for explaining learning data and segment-labeled instances according to an embodiment of the present invention.
6 is a flowchart illustrating a noise label removal step according to another embodiment of the present invention.
7 is a diagram for describing a comparison of a noise label instance with a normal label instance according to another embodiment of the present invention.
8 is a table for explaining the amount of change in the average number of clicks of a worker when noise labels are filtered and a model is trained according to another embodiment of the present invention.
9 is a diagram for explaining an apparatus for filtering noise labels according to an embodiment of the present invention.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이다. 본 실시예들은 단지 본 발명의 개시가 완전하도록 하여서 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이다. 즉, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.Advantages and features of the present invention, and methods of achieving them, will become clear with reference to the detailed description of the following embodiments taken in conjunction with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below and will be implemented in various different forms. These embodiments are provided only to complete the disclosure of the present invention and to fully inform those skilled in the art of the scope of the invention to which the present invention belongs. That is, the present invention is only defined by the scope of the claims.

본 발명의 실시예를 설명하기 위한 도면에 개시된 형상, 크기, 비율, 각도, 개수 등은 예시적인 것이므로 본 발명이 도시된 사항에 한정되는 것은 아니다. 또한, 본 발명을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명은 생략한다. 본 명세서 상에서 언급된 '포함한다', '갖는다', '이루어진다' 등이 사용되는 경우 '~만'이 사용되지 않는 이상 다른 부분이 추가될 수 있다. 구성요소를 단수로 표현한 경우에 특별히 명시적인 기재 사항이 없는 한 복수를 포함하는 경우를 포함한다.The shapes, sizes, ratios, angles, numbers, etc. disclosed in the drawings for explaining the embodiments of the present invention are illustrative, so the present invention is not limited to the details shown. In addition, in describing the present invention, if it is determined that a detailed description of related known technologies may unnecessarily obscure the subject matter of the present invention, the detailed description will be omitted. When 'includes', 'has', 'consists of', etc. mentioned in this specification is used, other parts may be added unless 'only' is used. In the case where a component is expressed in the singular, the case including the plural is included unless otherwise explicitly stated.

구성요소를 해석함에 있어서, 별도의 명시적 기재가 없더라도 오차 범위를 포함하는 것으로 해석한다. 예를 들어, 별도의 명시적 기재가 없는 한, '동일함'의 의미는 완벽하게 동일하다는 의미가 아니라, 통상의 기술자가 발명을 실시함에 있어 충분히 겪을 수 있는 오차 범위가 적용된 '실질적으로 동일함'을 의미한다.In interpreting the components, even if there is no separate explicit description, it is interpreted as including the error range. For example, unless otherwise explicitly stated, the meaning of 'same' does not mean that it is perfectly the same, but 'substantially the same' to which an error range that can be sufficiently experienced by a person skilled in the art in practicing the invention is applied. ' means.

비록 제1, 제2 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않는다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있다.Although first, second, etc. are used to describe various components, these components are not limited by these terms. These terms are only used to distinguish one component from another. Therefore, the first component mentioned below may also be the second component within the technical spirit of the present invention.

별도로 명시하지 않는 한 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.Like reference numerals designate like elements throughout the specification unless otherwise specified.

본 발명의 여러 실시예들의 각각 특징들이 부분적으로 또는 전체적으로 서로 결합 또는 조합 가능하며, 당업자가 충분히 이해할 수 있듯이 기술적으로 다양한 연동 및 구동이 가능하며, 각 실시예들이 서로에 대하여 독립적으로 실시 가능할 수도 있고 연관 관계로 함께 실시 가능할 수도 있다.Each feature of the various embodiments of the present invention can be partially or entirely combined or combined with each other, and as those skilled in the art can fully understand, various interlocking and driving operations are possible, and each embodiment can be implemented independently of each other. It may be possible to implement together in an association relationship.

본 발명의 여러 실시예들을 설명하면서, 어떤 실시예의 일부 구성이 앞서 설명된 다른 실시예의 일부 구성과 실질적으로 동일하거나 대응된다면, 본 발명의 명확 간결한 설명을 위하여 그 구성에 대한 설명은 생략될 수 있다.While describing various embodiments of the present invention, if some configurations of an embodiment are substantially the same as or correspond to some configurations of other embodiments described above, the description of the configuration may be omitted for a clear and concise description of the present invention. .

이하, 첨부된 도면을 참조하여, 본 발명을 상세히 설명하기로 한다.Hereinafter, with reference to the accompanying drawings, the present invention will be described in detail.

도 1은 본 발명의 일 실시예에 따른 노이즈 레이블을 필터링하는 방법을 설명하기 위한 순서도다. 도 2는 본 발명의 일 실시예에 따라 학습 데이터 및 세그먼트 레이블링된 인스턴스를 설명하기 위한 도면이다. 도 3은 본 발명의 일 실시예에 따라 레이블 인스턴스 및 추론된 인스턴스를 예시적으로 설명하기 위한 도면이다. 도 4는 본 발명의 일 실시예에 따라 박스플롯(box-plot)을 설명하기 위한 도면이다. 도 5는 본 발명의 일 실시예에 따라 학습 데이터 및 세그먼트 레이블링된 인스턴스를 설명하기 위한 도면이다.1 is a flowchart illustrating a method of filtering noise labels according to an embodiment of the present invention. 2 is a diagram for explaining learning data and segment-labeled instances according to an embodiment of the present invention. 3 is a diagram for illustratively describing a label instance and an inferred instance according to an embodiment of the present invention. 4 is a diagram for explaining a box-plot according to an embodiment of the present invention. 5 is a diagram for explaining learning data and segment-labeled instances according to an embodiment of the present invention.

먼저 도 1을 참조하면, 노이즈 레이블을 필터링하는 방법은, 사전에 세그먼트 레이블링된 복수의 레이블 인스턴스들을 포함하는, 적어도 하나의 학습 데이터를 준비하는, 학습 데이터 준비 단계(S100), 학습 데이터를 이용하여 세그멘테이션 모델을 학습시키는, 모델 학습 단계(S110), 세그멘테이션 모델을 이용하여 학습 데이터에 포함된 복수의 인스턴스들을 추론하는, 인스턴스 추론 단계(S120), 세그멘테이션 모델에 의해 추론된 복수의 인스턴스들 각각에 대한 수치 및 추론된 복수의 인스턴스들 각각과 대응되는 복수의 레이블 인스턴스들 각각에 대한 수치로부터, 복수의 레이블 인스턴스들 각각에 대한 추론의 정확도를 산출하는, 추론 정확도 산출 단계(S130), 및 복수의 레이블 인스턴스들 각각에 대한 추론의 정확도를 미리 설정된 임계값과 각각 비교하는, 노이즈 레이블 판단 단계(S140)를 포함한다.First, referring to FIG. 1, a method for filtering noise labels includes a training data preparation step (S100) of preparing at least one training data including a plurality of label instances previously segment-labeled, using the training data. A model learning step (S110) of learning the segmentation model, an instance inference step (S120) of inferring a plurality of instances included in the training data using the segmentation model, and each of the plurality of instances inferred by the segmentation model. Inference accuracy calculating step (S130) of calculating the accuracy of inference for each of the plurality of label instances from the numerical value and the numerical value for each of the plurality of label instances corresponding to each of the plurality of inferred instances, and the plurality of labels A noise label determination step (S140) of comparing the accuracy of inference for each of the instances with a preset threshold, respectively.

도 1을 참조하면, 학습 데이터 준비 단계(S100)에서, 학습 데이터는 카메라로부터 촬영된 적어도 하나의 이미지로부터 가공될 수 있다. 다만, 학습 데이터의 획득 과정 또는 형태는 이에 한정되지 않는다. 또한, 학습 데이터는 하나의 프로젝트에서 사용되는 동일한 유형의 데이터 세트일 수 있으나, 학습 데이터를 구성하는 파일의 개수는 한정되지 않는다.Referring to FIG. 1 , in the training data preparation step ( S100 ), training data may be processed from at least one image captured by a camera. However, the acquisition process or form of learning data is not limited thereto. Also, the training data may be a data set of the same type used in one project, but the number of files constituting the training data is not limited.

도 1을 참조하면, 모델 학습 단계(S110)에서, 세그멘테이션 모델은 사용자가 클릭한 위치의 인스턴스를 실시간으로 추론하여, 추론된 인스턴스 또는 인스턴스의 세그먼트를 반환하는 모델일 수 있다. 이러한 세그멘테이션 모델은 인터렉티브(interactive) 세그멘테이션 모델일 수 있다.Referring to FIG. 1 , in the model learning step ( S110 ), the segmentation model may be a model that infers an instance of a location clicked by a user in real time and returns the inferred instance or a segment of the instance. This segmentation model may be an interactive segmentation model.

도 1을 참조하면, 인스턴스를 추론함은, 인스턴스에 대응하는 세그먼트를 추론하는 것을 포함한다. 이에, 인스턴스 추론 단계(S120)는 세그멘테이션 모델을 이용하여 학습 데이터에 포함된 복수의 객체들 각각의 분할된 영역을 추론하는 것을 포함한다.Referring to FIG. 1 , inferring an instance includes inferring a segment corresponding to the instance. Accordingly, the instance inference step ( S120 ) includes inferring a segmented area of each of a plurality of objects included in the training data by using a segmentation model.

도 1을 참조하면, 추론 정확도 산출 단계(S130)에서, 인스턴스에 대한 수치는 인스턴스에 대응하는 세그먼트의 좌표, 벡터, 엣지 또는 넓이값에 관한 수치일 수 있다. 또한, 추론 정확도는 학습 데이터에 포함된 복수의 인스턴스들 각각에 해당하는 별개의 수치일 수 있다.Referring to FIG. 1 , in the inference accuracy calculation step ( S130 ), a numerical value for an instance may be a numerical value related to a coordinate, vector, edge, or area value of a segment corresponding to the instance. In addition, the inference accuracy may be a separate numerical value corresponding to each of a plurality of instances included in the training data.

도 1을 참조하면, 인스턴스 추론 단계(S120), 추론 정확도 산출 단계(S130) 또는 노이즈 레이블 판단 단계(S140)는 학습 데이터에 포함된 모든 노이즈 레이블을 필터링할 때까지 반복될 수 있다. 이 때, 인스턴스 추론 단계(S120), 추론 정확도 산출 단계(S130) 또는 노이즈 레이블 판단 단계(S140)는 인스턴스별로 반복될 수 있다.Referring to FIG. 1 , the instance inference step (S120), the inference accuracy calculation step (S130), or the noise label determination step (S140) may be repeated until all noise labels included in training data are filtered. In this case, the instance inference step (S120), the inference accuracy calculation step (S130), or the noise label determination step (S140) may be repeated for each instance.

상술한 실시예에 따르면, 레이블링 작업자가 직접 인스턴스의 세그먼트를 레이블링하거나 노이즈 레이블을 판단하지 않고, 세그멘테이션 모델의 추론 정확도를 이용하여 노이즈 레이블이 식별될 수 있다. 이에, 본 발명의 실시예에 따르면 노이즈 레이블을 판단하기 위해 소모되는 시간 및 비용이 절감된다.According to the above-described embodiment, a noise label may be identified using inference accuracy of a segmentation model without a labeling operator directly labeling a segment of an instance or determining a noise label. Thus, according to an embodiment of the present invention, time and cost consumed for determining a noise label are reduced.

도 1 및 도 2를 참조하면, 제1 데이터(210), 제2 데이터(220) 및 제3 데이터(230)는 데이터 준비 단계(S100)에서 준비된 복수의 레이블 인스턴스들을 포함하는 학습 데이터일 수 있다. 예를 들어, 제1 데이터(210)는 도넛 가게를 촬영한 이미지 데이터를 세그먼트 레이블링한 학습 데이터이며, 복수의 도넛들 중 하나가 차지하는 분할된 영역은 세그멘테이션된 제1 레이블 인스턴스(211)일 수 있다. 제1 데이터(210)에는 도넛과 대응하는 제1 레이블 인스턴스(211) 뿐만 아니라 다양한 레이블 인스턴스에 대한 세그먼트가 포함될 수 있다. 이와 마찬가지로, 제2 데이터(220)는 복수의 파인애플들을 포함하는 이미지 데이터를 세그먼트 레이블링한 학습 데이터이며, 복수의 파인애플들 중 하나가 차지하는 분할된 영역은 세그멘테이션된 제2 레이블 인스턴스(221)일 수 있다. 또한, 제3 데이터(230)는 복수의 찻잔들을 포함하는 이미지 데이터를 세그먼트 레이블링한 학습 데이터이며, 복수의 찻잔들 중 하나가 차지하는 분할된 영역은 세그멘테이션된 제3 레이블 인스턴스(231)일 수 있다.1 and 2, the first data 210, the second data 220, and the third data 230 may be training data including a plurality of label instances prepared in the data preparation step (S100). . For example, the first data 210 is training data obtained by segment-labeling image data of a donut shop, and a segmented area occupied by one of a plurality of donuts may be the segmented first label instance 211. . The first data 210 may include segments for various label instances as well as the first label instance 211 corresponding to the donut. Similarly, the second data 220 is training data obtained by segment-labeling image data including a plurality of pineapples, and a segmented area occupied by one of the plurality of pineapples may be the segmented second label instance 221. . Also, the third data 230 is training data obtained by segment-labeling image data including a plurality of teacups, and a segmented area occupied by one of the plurality of teacups may be the segmented third label instance 231 .

도 1 및 도 2를 참조하면, 복수의 인스턴스들 각각에 대한 수치는, 복수의 인스턴스들 각각이 차지하는 영역의 정보일 수 있다. 이는, 인스턴스가 차지하는 세그먼트의 정보일 수 있다. 이 때, 세그먼트의 정보는 세그먼트의 좌표, 벡터, 엣지 또는 넓이값 중 적어도 하나로부터 도출된 정보일 수 있다.Referring to FIGS. 1 and 2 , a numerical value for each of a plurality of instances may be information of an area occupied by each of the plurality of instances. This may be information on a segment occupied by an instance. In this case, the segment information may be information derived from at least one of segment coordinates, vectors, edges, or area values.

도 2 및 도 3을 참조하면, 제2 레이블 인스턴스(221)에 해당하는 세그먼트는 파인애플의 엣지를 따라 정확하게 형성된 인스턴스이다. 즉, 제2 레이블 인스턴스(221)는 실제 파인애플 자체를 정확하게 세그멘테이션한 결과일 수 있다. 세그멘테이션 모델에 의해 추론된 제2 추론된 인스턴스(323)는 제2 레이블 인스턴스(211)에 해당하는 세그먼트와 정확히 일치하지 않을 수 있다.Referring to FIGS. 2 and 3 , a segment corresponding to the second label instance 221 is an instance accurately formed along the edge of the pineapple. That is, the second label instance 221 may be a result of accurately segmenting the actual pineapple itself. The second inferred instance 323 inferred by the segmentation model may not exactly match the segment corresponding to the second label instance 211 .

도 2 및 도 3을 참조하면, 추론의 정확도는 추론된 복수의 인스턴스들 각각이 차지하는 영역 및 복수의 레이블 인스턴스들 각각이 차지하는 영역에 대한 IoU(Intersection over Union)일 수 있다. IoU는 레이블 인스턴스가 차지하는 영역의 정보 및 추론된 인스턴스가 차지하는 영역에 대한 정보를 이용하여 산출될 수 있다. 예를 들어, 하나의 파인애플에 대한 추론의 정확도는 제2 레이블 인스턴스(221) 및 제2 추론된 인스턴스(323)가 겹쳐진 면적을, 제2 레이블 인스턴스(221) 또는 제2 추론된 인스턴스(323)를 포함하는 면적으로 나눈 값일 수 있다. 즉, 도 3에서 하나의 파인애플에 대한 추론의 정확도는 제2 레이블 인스턴스(221) 및 제2 추론된 인스턴스(323) 사이의 IoU일 수 있다.Referring to FIGS. 2 and 3 , the accuracy of inference may be Intersection over Union (IoU) for an area occupied by each of a plurality of inferred instances and an area occupied by each of a plurality of label instances. The IoU may be calculated using information on the area occupied by the label instance and information on the area occupied by the inferred instance. For example, the accuracy of inference for one pineapple is the area where the second label instance 221 and the second inferred instance 323 overlap, the second label instance 221 or the second inferred instance 323 It may be a value divided by an area including . That is, in FIG. 3 , the accuracy of inference for one pineapple may be the IoU between the second label instance 221 and the second inferred instance 323 .

도 2 및 도 3을 참조하면, 세그멘테이션 모델이 하나의 인스턴스에 대한 세그먼트를 완벽히 추론한 경우 추론의 정확도는 1로 산출될 수 있고, 세그멘테이션 모델이 하나의 인스턴스에 대하여 추론한 세그먼트가 레이블 인스턴스의 세그먼트와 전혀 겹치지 않는 경우 추론의 정확도는 0으로 산출될 수 있다. 이에, 추론 정확도는 세그멘테이션 모델이 하나의 인스턴스에 대하여 추론한 세그먼트 및 레이블 인스턴스의 세그먼트의 일치 정도를 IoU 값으로 산출하여 제공될 수 있다.2 and 3, when the segmentation model perfectly infers a segment for one instance, the inference accuracy can be calculated as 1, and the segment inferred for one instance by the segmentation model is a segment of a label instance. If it does not overlap at all, the accuracy of inference can be calculated as 0. Accordingly, the inference accuracy may be provided by calculating the degree of matching between the segment inferred by the segmentation model for one instance and the segment of the label instance as an IoU value.

도 4를 참조하면, 박스플롯은 단변량 자료에서 이상치를 탐색하는 통계적 방법을 위한 시각화 도구이다. 본 발명의 실시예에 따르면, 박스플롯(460)은 복수의 레이블 인스턴스들 각각에 대한 추론의 정확도를 변수로 할 수 있다. 박스플롯(460)의 전체 데이터에 포함된 수치를 내림차순으로 나열하였을 때, 제1 사분위수(Q1)(461)는 박스플롯(460)의 전체 데이터 중에서 하위 25%에 위치한 백분위수이고, 제2 사분위수(Q2)(462)는 박스플롯(460)의 전체 데이터 중에서 중앙값이고, 제3 사분위수(Q3)(463)는 박스플롯(460)의 전체 데이터 중에서 하위 75%에 위치한 백분위수이다. 즉, 제1 사분위수(Q1)(461)는 박스플롯(460)의 전체 데이터의 최솟값 및 중앙값을 2등분하는 값이고, 제2 사분위수(Q2)(462)는 박스플롯(460)의 전체 데이터의 중앙값이고, 제3 사분위수(Q3)(463)는 박스플롯(460)의 전체 데이터의 중앙값 및 최댓값을 2등분하는 값이다.Referring to FIG. 4, a box plot is a visualization tool for a statistical method for detecting outliers in univariate data. According to an embodiment of the present invention, the box plot 460 may use inference accuracy for each of a plurality of label instances as a variable. When the numbers included in the total data of the box plot 460 are arranged in descending order, the first quartile (Q1) 461 is the percentile located in the lower 25% of the total data of the box plot 460, and the second The quartile (Q2) 462 is the median value of the entire data of the box plot 460, and the third quartile (Q3) 463 is the lower 75% percentile of the entire data of the box plot 460. That is, the first quartile (Q1) 461 is a value that divides the minimum value and the median value of the entire data of the box plot 460 into two equal parts, and the second quartile (Q2) 462 is the value of the entire data of the box plot 460. It is the median value of the data, and the third quartile (Q3) 463 is a value that divides the median value and the maximum value of the entire data of the box plot 460 into two equal parts.

도 4를 참조하면, 사분위수범위(IQR; InterQuartile Range)(465)는 제3 사분위수(463)에서 제1 사분위수(461)를 뺀 값으로, 전체 데이터에서 중앙에 위치하는 50%의 수치에 대한 범위일 수 있다. 상위 경계(upper fence)(466)는 제3 사분위수(463)에서 사분위수범위(465)의 1.5배를 더한 값이다. 하위 경계(lower fence)(467)은 제1 사분위수(461)에서 사분위수범위(465)의 1.5배를 뺀 값이다. 데이터에서 하위 경계(467)보다 작은 수치는 이상치로 판단될 수 있다. 즉, 본 발명의 일 실시예에 따르면, 전체 학습 데이터에서 하위 경계(467)보다 작은 수치에 해당하는 인스턴스는 노이즈 인스턴스인 것으로 분류될 수 있다.Referring to FIG. 4, the InterQuartile Range (IQR) 465 is a value obtained by subtracting the first quartile 461 from the third quartile 463, and is a value of 50% in the center of the entire data. may be a range for The upper fence 466 is the third quartile 463 plus 1.5 times the interquartile range 465. The lower fence 467 is the first quartile 461 minus 1.5 times the interquartile range 465. A numerical value smaller than the lower boundary 467 in the data may be determined as an outlier. That is, according to an embodiment of the present invention, an instance corresponding to a value smaller than the lower boundary 467 in the entire training data may be classified as a noise instance.

도 4를 참조하면, 임계값은 복수의 추론의 정확도의 분포에 대한 박스플롯(460)을 이용하여 설정될 수 있다. 박스플롯(460)의 변수는 추론의 정확도로써 IoU이므로, 최대 수치는 1이다. 이러한 박스 플롯(460)의 수치가 낮은 이상치는 필터링이 필요한 노이즈 레이블일 수 있다. 복수의 레이블 인스턴스들 각각에 대한 추론의 정확도를 변수로 하는 박스플롯(460)에서, 노이즈 레이블 인스턴스로 분류하기 위한 임계값은 제1 사분위수(461)에서 사분위수범위(465)의 1.5배를 뺀 값일 수 있다.Referring to FIG. 4 , a threshold value may be set using a box plot 460 of a distribution of accuracies of a plurality of inferences. Since the variable of the box plot 460 is IoU as the accuracy of inference, the maximum value is 1. An outlier having a low numerical value in the box plot 460 may be a noise label requiring filtering. In the box plot 460 in which the accuracy of inference for each of the plurality of label instances is used as a variable, the threshold value for classifying as a noise label instance is 1.5 times the first quartile 461 to the interquartile range 465. may be subtracted.

도 5를 참조하면, 제4 학습 데이터(540)에 포함된 제4 레이블 인스턴스(541)는 스키 폴대일 수 있다. 제4 레이블 인스턴스(541)에 대해 세그멘테이션 모델이 인스턴스 세그먼트를 추론한 결과, IoU로써 산출된 추론의 정확도는 0.3일 수 있다. 이는, 스키 폴대의 레이블 세그먼트는 다른 인스턴스의 세그먼트와의 명확한 분별이 어려운 가늘고 긴 형상을 가지고 있기 때문일 수 있다. 제5 학습 데이터(550)에 포함된 제5 레이블 인스턴스(551)는 배경일 수 있다. 제5 레이블 인스턴스(551)에 대해, 세그멘테이션 모델이 인스턴스 세그먼트를 추론한 결과, IoU로써 산출된 추론의 정확도는 0.1일 수 있다. 이는, 배경의 레이블 세그먼트는 다른 인스턴스의 세그먼트와 비교하여 모호한 영역 및 색상을 가지고 있기 때문일 수 있다.Referring to FIG. 5 , a fourth label instance 541 included in the fourth training data 540 may be a ski pole. As a result of inferring the instance segment of the fourth label instance 541 by the segmentation model, the inference accuracy calculated as IoU may be 0.3. This may be because the label segment of the ski pole has an elongated shape that is difficult to clearly distinguish from segments of other instances. The fifth label instance 551 included in the fifth training data 550 may be a background. For the fifth label instance 551, as a result of inferring the instance segment by the segmentation model, inference accuracy calculated as IoU may be 0.1. This may be because the label segment of the background has an ambiguous area and color compared to segments of other instances.

이와 같이, 제1 사분위수(461)에서 사분위수범위(465)의 1.5배를 뺀 값 즉, 하위 경계(467)가 0.47인 경우, 추론의 정확도가 0.3인 제4 레이블 인스턴스(541) 및 추론의 정확도가 0.1인 제5 레이블 인스턴스(551)는 데이터의 일반적인 범주에서 벗어난 이상치일 수 있다. 즉, 제4 레이블 인스턴스(541) 및 제5 레이블 인스턴스(551)는 노이즈 레이블 인스턴스로 판단하고 분류될 수 있다.In this way, when the value obtained by subtracting 1.5 times the interquartile range 465 from the first quartile 461, that is, the lower boundary 467 is 0.47, the fourth label instance 541 having an inference accuracy of 0.3 and the inference The fifth label instance 551 with an accuracy of 0.1 may be an outlier out of the general range of data. That is, the fourth label instance 541 and the fifth label instance 551 may be determined and classified as noise label instances.

상술한 실시예에 따르면, 추론 정확도 산출 단계(S130)에서 세그멘테이션 모델의 추론 정확도를 이용하여 노이즈 레이블을 판단하므로, 레이블링 작업자가 노이즈 레이블을 판단하는 경우에 비하여, 작업에 소모되는 시간 및 비용이 절감된다.According to the above-described embodiment, since the noise label is determined using the inference accuracy of the segmentation model in the inference accuracy calculation step (S130), the time and cost consumed for the task are reduced compared to the case where the labeling operator determines the noise label. do.

상술한 실시예에 따르면, 노이즈 레이블 판단 단계(S140)에서, 학습 데이터에서 다른 세그먼트와 명확한 분별이 곤란한 세그먼트는, IoU계산값인 추론의 정확도와, 데이터 통계에 대한 도구인 박스플롯(460)에서의 하위 경계(467)를 이용하여 비교될 수 있다. 따라서, 학습 데이터에 포함된 노이즈 레이블은 신속하게 판단할 수 있다.According to the above-described embodiment, in the noise label determination step (S140), a segment that is difficult to clearly distinguish from other segments in the training data is selected from the box plot 460, which is a tool for data statistics, and the accuracy of inference, which is an IoU calculation value. can be compared using the lower boundary 467 of Therefore, the noise label included in the training data can be quickly determined.

도 6은 본 발명의 다른 실시예에 따라 노이즈 레이블 제거 단계를 설명하기 위한 순서도다. 도 7은 본 발명의 다른 실시예에 따라 노이즈 레이블 인스턴스를 정상적인 레이블 인스턴스와 비교하여 설명하기 위한 도면이다. 도 8은 본 발명의 다른 실시예에 따라 노이즈 레이블을 필터링하고 모델을 학습시킨 경우 작업자의 평균 클릭 수 변화량을 설명하기 위한 테이블이다.6 is a flowchart illustrating a noise label removal step according to another embodiment of the present invention. 7 is a diagram for describing a comparison of a noise label instance with a normal label instance according to another embodiment of the present invention. 8 is a table for explaining the amount of change in the average number of clicks of a worker when noise labels are filtered and a model is trained according to another embodiment of the present invention.

도 6을 참조하면, 노이즈 레이블 판단 단계(S640) 이후, 복수의 레이블 인스턴스들 중 하나의 레이블 인스턴스에 대한 추론의 정확도가 임계값 미만인 경우, 하나의 레이블 인스턴스를 학습 데이터에서 제거하는, 노이즈 레이블 제거 단계(S650)를 더 포함할 수 있다.Referring to FIG. 6, after the noise label determination step (S640), if the accuracy of inference for one label instance among a plurality of label instances is less than the threshold value, one label instance is removed from the training data, noise label removal A step S650 may be further included.

도 6을 참조하면, 추론된 인스턴스에 대한 수치 및 레이블 인스턴스에 대한 수치를 이용하여 획득된 추론의 정확도가 임계값보다 작을 경우, 노이즈 레이블로 판단되어 레이블 인스턴스가 학습 데이터에서 제거될 수 있다. 반면, 추론의 정확도가 임계값 이상인 경우, 인공지능 세그멘테이션 모델을 학습시키기 적합한 학습 데이터로 인정되어 레이블 인스턴스가 유지될 수 있다. 노이즈 레이블 제거 단계(S650)는 학습 데이터에 포함된 복수의 인스턴스들 각각에 대해 반복될 수도 있다.Referring to FIG. 6 , when the accuracy of inference obtained using the values for the inferred instance and the value for the label instance is less than a threshold value, it is determined as a noise label and the label instance may be removed from the training data. On the other hand, when the accuracy of inference is greater than or equal to the threshold value, it is recognized as training data suitable for training an artificial intelligence segmentation model, and the label instance may be maintained. The noise label removal step (S650) may be repeated for each of a plurality of instances included in the training data.

도 6을 참조하면, 학습 데이터에 포함된 모든 인스턴스들에 대하여 노이즈 레이블 판단 단계(S640) 및 노이즈 레이블 제거 단계(S650)가 진행된 경우, 노이즈 레이블이 제거된 학습 데이터(690)를 획득할 수 있다. 이후, 새로운 모델 학습 단계(S660)가 진행될 수 있다. 새로운 모델 학습 단계(S660)에서, 인스턴스의 세그먼트가 모호하여 정확한 레이블링이 이루어지지 않는 노이즈 레이블이 제거된 학습 데이터(690)를 이용하여 새로운 세그멘테이션 모델을 학습시킬 수 있다. Referring to FIG. 6 , when the noise label determination step (S640) and the noise label removal step (S650) are performed for all instances included in the training data, the training data 690 from which the noise labels have been removed can be obtained. . Thereafter, a new model learning step (S660) may proceed. In the new model learning step ( S660 ), a new segmentation model may be trained using the training data 690 from which noise labels, which are not correctly labeled because the segments of instances are ambiguous, have been removed.

도 6 및 도 7을 참조하면, 제7 데이터(770)에 포함된 제7 레이블 인스턴스(771)는 표지판일 수 있다. 제7 레이블 인스턴스(771)에 대해 세그멘테이션 모델이 추론한 제7 추론된 인스턴스(772) 및 제7 레이블 인스턴스(771)에 대한 IoU계산값은 0.93으로 제7 추론된 인스턴스(772)는 높은 일치율을 보인다. 이 경우, 노이즈 레이블 제거 단계(S650)에서, 두 영역에 대한 IoU 계산값인 추론의 정확도가 임계값인 0.47보다 높으므로 제7 레이블 인스턴스(771)는 학습 데이터로 유지된다. 한편, 제8 데이터(780)에 포함된 제8 레이블 인스턴스(781)는 꽃병일 수 있다. 제8 레이블 인스턴스(781)에 대해 세그멘테이션 모델이 추론한 제8 추론된 인스턴스(782) 및 제8 레이블 인스턴스(781)에 대한 IoU계산값은 0.33으로 제8 추론된 인스턴스(782)는 저조한 일치율을 보인다. 이 경우, 노이즈 레이블 제거 단계(S650)에서, 두 영역에 대한 IoU계산값인 추론의 정확도가 임계값인 0.47보다 작으므로 제8 레이블 인스턴스(781)는 학습 데이터에서 제거된다.Referring to FIGS. 6 and 7 , a seventh label instance 771 included in the seventh data 770 may be a sign. The seventh inferred instance 772 inferred by the segmentation model for the seventh label instance 771 and the IoU calculated value for the seventh label instance 771 is 0.93, and the seventh inferred instance 772 has a high match rate. see. In this case, in the noise label removal step (S650), the seventh label instance 771 is maintained as training data because the inference accuracy, which is the IoU calculation value for the two regions, is higher than the threshold value of 0.47. Meanwhile, the eighth label instance 781 included in the eighth data 780 may be a vase. The eighth inferred instance 782 inferred by the segmentation model for the eighth label instance 781 and the IoU calculated value for the eighth label instance 781 is 0.33, and the eighth inferred instance 782 has a poor match rate. see. In this case, in the noise label removal step (S650), the eighth label instance 781 is removed from the training data because the inference accuracy, which is the IoU calculation value for the two regions, is smaller than the threshold value of 0.47.

도 6 및 도 8을 참조하면, 테이블(895)에서 평가 지표는 세그멘테이션 레이블링 작업 대상 데이터에서 세그멘테이션 모델을 이용하여 작업자가 하나의 인스턴스를 클릭하여 추론하는 경우, 소정의 IoU가 충족될 때까지 클릭한 횟수(Number of Click; NoC)로 정의될 수 있다. 예를 들어 NoC@80%는, 작업자가 하나의 인스턴스를 클릭하여 추론할 때, IoU가 0.8이 될 때까지 클릭한 횟수를 의미한다.Referring to FIGS. 6 and 8 , the evaluation index in the table 895 is determined by clicking until a predetermined IoU is satisfied when an operator clicks and infers one instance by using a segmentation model in the segmentation labeling work target data. It can be defined as Number of Clicks (NoC). For example, NoC@80% means the number of clicks until the IoU reaches 0.8 when the worker clicks on one instance and infers it.

도 8을 참조하면, 노이즈 레이블을 필터링하고 모델을 학습시킨 경우, 그렇지 않은 경우보다, 하나의 인스턴스를 세그멘테이션하기 위해 IoU가 0.8될 때까지 클릭한 횟수가 평균적으로 63%감소하였다. 이 때, 노이즈 레이블을 필터링하고 모델을 학습시킨 경우는, 새로운 모델 학습 단계(S660)에서 모델을 학습시킨 경우이다. 마찬가지로, 본 발명의 실시예에 따르면, 노이즈 레이블을 필터링하고 세그멘테이션 모델을 학습시킨 경우, 하나의 인스턴스를 세그멘테이션하기 위해 IoU가 0.85될 때까지 클릭한 횟수는 노이즈 레이블링을 필터링하지 않고 세그멘테이션 모델을 학습시킨 경우보다 평균적으로 59%감소하였으며, 하나의 인스턴스를 세그멘테이션하기 위해 IoU가 0.9될 때까지 클릭한 횟수는 평균적으로 61%감소하였다.Referring to FIG. 8 , when the noise label is filtered and the model is trained, the number of clicks until the IoU reaches 0.8 to segment one instance is reduced by 63% on average compared to the case where the model is trained. In this case, when the noise label is filtered and the model is trained, the model is trained in the new model learning step (S660). Similarly, according to an embodiment of the present invention, when noise labels are filtered and the segmentation model is trained, the number of clicks until the IoU reaches 0.85 to segment one instance is the number of times the segmentation model is trained without filtering the noise labeling. On average, the number of clicks until IoU reached 0.9 to segment an instance decreased by 61% on average.

상술한 실시예에 따르면, 노이즈 레이블 제거 단계(S650)에서 학습 데이터에 포함된 모든 노이즈 레이블이 자동으로 신속하게 제거되고, 이렇게 노이즈 레이블이 제거된 학습 데이터를 이용하여, 새로운 모델 학습 단계(S660)에서 세그멘테이션 모델을 신속하게 생성할 수 있다.According to the above-described embodiment, in the noise label removal step (S650), all noise labels included in the training data are automatically and quickly removed, and a new model is trained using the training data from which the noise labels have been removed (S660). You can quickly create a segmentation model from

상술한 실시예에 따르면, 새로운 모델 학습 단계(S660)에서 생성된 세그멘테이션 모델은, 노이즈 레이블이 제거되지 않은 학습 데이터를 학습한 이전 모델에 비하여 매우 뛰어난 추론 성능을 보이므로, 작업자가 인스턴스를 세그멘테이션하기 위해 필요한 평균 클릭 수가 현격히 감소하여 작업의 효율성이 증대될 수 있다.According to the above-described embodiment, the segmentation model generated in the new model learning step (S660) shows very excellent inference performance compared to the previous model that learned the training data from which the noise label was not removed, so that the operator segmented the instance. The average number of clicks required for this can be significantly reduced, so work efficiency can be increased.

도9는 본 발명의 일 실시예에 따른 노이즈 레이블을 필터링하는 장치를 설명하기 위한 블록 다이어그램이다.9 is a block diagram for explaining an apparatus for filtering noise labels according to an embodiment of the present invention.

도 9를 참조하면, 메모리(901)에는 적어도 하나의 명령어 또는 다양한 데이터가 저장될 수 있다. 예를 들어, 메모리(901)에는 레이블 인스턴스에 대한 수치 또는 추론된 인스턴스에 대한 수치가 저장될 수 있고, 두 수치를 이용하여 프로세서(904)가 IoU계산을 수행하도록 하는 명령어가 저장될 수 있다. 또한, 메모리(901)는 복수로 구성될 수 있으며, 이러한 경우 각각의 메모리(901)는 다양한 데이터들을 유형, 획득 시간, 획득 환경, 활용 단계 또는 데이터 크기에 따라 분산하여 저장할 수 있다.Referring to FIG. 9 , at least one command or various data may be stored in the memory 901 . For example, a numerical value for a label instance or a numerical value for an inferred instance may be stored in the memory 901 , and an instruction for causing the processor 904 to perform IoU calculation using the two numerical values may be stored in the memory 901 . In addition, a plurality of memories 901 may be configured, and in this case, each memory 901 may distribute and store various data according to a type, acquisition time, acquisition environment, utilization stage, or data size.

도 9를 참조하면, 메모리(901)는 학습 데이터 저장부(902) 또는 인공 신경망 모델 저장부(903)를 더 포함할 수 있다. 학습 데이터 저장부(902)에는 레이블링된 데이터가 저장될 수 있다. 또한, 인공 신경망 모델 저장부(903)에는 세그멘테이션 모델이 저장될 수 있다.Referring to FIG. 9 , the memory 901 may further include a learning data storage unit 902 or an artificial neural network model storage unit 903 . Labeled data may be stored in the learning data storage unit 902 . Also, a segmentation model may be stored in the artificial neural network model storage unit 903 .

도 9를 참조하면, 프로세서(904)는 적어도 하나의 명령어를 실행할 수 있다. 즉, 프로세서(904)는 메모리(901)에 저장된 적어도 하나의 명령어에 대응하는 작업을 수행할 수 있다. 따라서, 프로세서(904)는 메모리(901)의 데이터를 검색, 수신 또는 활용할 수 있고, 적어도 하나의 명령어에 따라 장치(900)의 복수의 구성요소들을 제어할 수 있다.Referring to FIG. 9 , processor 904 may execute at least one instruction. That is, the processor 904 may perform a task corresponding to at least one command stored in the memory 901 . Accordingly, the processor 904 may retrieve, receive, or utilize data in the memory 901 and may control a plurality of components of the device 900 according to at least one command.

도 9를 참조하면, 프로세서(904)는 학습 프로세서(905)를 포함할 수 있다. 학습 프로세서(905)는 인공 신경망 모델 저장부(903)에 저장된 모델을 인공지능 학습시킬 수 있다. 예를 들어, 학습 프로세서(904)는 학습되지 않은 인공지능 모델을 수신하여, 학습 데이터 저장부(902)에 저장된 레이블링된 복수의 레이블 인스턴스들을 포함하는 학습 데이터를 이용하여 학습시킬 수 있다.Referring to FIG. 9 , processor 904 may include learning processor 905 . The learning processor 905 may perform artificial intelligence training on the model stored in the artificial neural network model storage unit 903 . For example, the learning processor 904 may receive an untrained artificial intelligence model and train it using training data including a plurality of labeled label instances stored in the training data storage 902 .

도 9를 참조하면, 프로세서(904)는 메모리(901), 입력부(906) 또는 출력부(907), 통신부(908)와 송수신 가능하도록 연결될 수 있다. Referring to FIG. 9 , a processor 904 may be connected to a memory 901 , an input unit 906 or an output unit 907 , and a communication unit 908 to transmit/receive.

도 9를 참조하면, 입력부(906)는 사용자의 입력을 프로세서(904)로 전달할 수 있다. 출력부(907)는 디스플레이를 포함할 수 있다. 디스플레이는 다양한 데이터 및 수치 등을 시각화하여 출력할 수 있다. 예를 들어, 디스플레이는 데이터에 포함된 레이블 인스턴스 세그먼트와 추론된 인스턴스 세그먼트를 출력할 수 있다. 통신부(908)는 노이즈 레이블을 필터링하는 장치(900)의 외부 신호와 유선 또는 무선으로 데이터를 송수신할 수 있다. 예를 들어, 통신부(908)는 외부의 메모리와 유선 또는 무선으로 연결되어, 프로세서(904)로 데이터를 송신하거나, 프로세서(904)가 처리한 데이터를 외부로 송신하도록 할 수 있다.Referring to FIG. 9 , the input unit 906 may transmit a user's input to the processor 904 . The output unit 907 may include a display. The display can visualize and output various data and figures. For example, the display may output a label instance segment included in the data and an inferred instance segment. The communication unit 908 may transmit/receive data with an external signal of the device 900 for filtering noise labels by wire or wirelessly. For example, the communication unit 908 may be connected to an external memory by wire or wirelessly to transmit data to the processor 904 or transmit data processed by the processor 904 to the outside.

도 9를 참조하면, 메모리(901) 및 메모리(901)와 데이터를 송수신하도록 연결된 프로세서(904)를 포함하는 노이즈 레이블을 필터링하는 장치(900)에 있어서, 프로세서(904)는, 사전에 세그먼트 레이블링된 복수의 레이블 인스턴스들을 포함하는, 적어도 하나의 학습 데이터를 준비하고, 학습 데이터를 이용하여 세그멘테이션 모델을 학습시키고 세그멘테이션 모델을 이용하여 학습 데이터에 포함된 복수의 인스턴스들을 추론하고, 세그멘테이션 모델에 의해 추론된 복수의 인스턴스들 각각에 대한 수치 및 추론된 복수의 인스턴스들 각각과 대응되는 복수의 레이블 인스턴스들 각각에 대한 수치로부터, 복수의 레이블 인스턴스들 각각에 대한 추론의 정확도를 산출하고, 복수의 레이블 인스턴스들 각각에 대한 추론의 정확도를 미리 설정된 임계값과 각각 비교한다. 복수의 인스턴스들 각각에 대한 수치는 복수의 인스턴스들 각각이 차지하는 영역의 정보일 수 있다. 임계값은 복수의 레이블 인스턴스들 각각에 대한 추론의 정확도를 변수로 하는 박스플롯을 이용하여 설정될 수 있다.Referring to FIG. 9 , in an apparatus 900 for filtering noise labels including a memory 901 and a processor 904 coupled to transmit and receive data to and from the memory 901, the processor 904 performs segment labeling in advance. Prepare at least one training data, including a plurality of labeled instances, learn a segmentation model using the training data, infer a plurality of instances included in the training data using the segmentation model, and infer by the segmentation model. Calculate the accuracy of inference for each of the plurality of label instances from the numerical value for each of the plurality of instances obtained and the numerical value for each of the plurality of label instances corresponding to each of the plurality of inferred instances, and The accuracy of inference for each of the s is compared with a preset threshold, respectively. The numerical value of each of the plurality of instances may be information of an area occupied by each of the plurality of instances. The threshold may be set using a box plot in which the accuracy of inference for each of the plurality of label instances is a variable.

본 명세서에 개시된 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계는 프로세서에 의해 실행되는 하드웨어, 소프트웨어 모듈 또는 그 2 개의 결합으로 직접 구현될 수도 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 착탈형 디스크, CD-ROM 또는 당업계에 알려진 임의의 다른 형태의 기록 매체 또는 저장 매체에 상주할 수도 있다. 예시적인 기록 매체 또는 저장 매체는 프로세서에 커플링되며, 그 프로세서는 기록 매체 또는 저장 매체로부터 정보를 판독할 수 있고 기록 매체 또는 저장 매체에 정보를 기입할 수 있다. 다른 방법으로, 기록 매체 또는 저장 매체는 프로세서와 일체형일 수도 있다. 프로세서 및 기록 매체 또는 저장 매체는 주문형 집적회로(ASIC) 내에 상주할 수도 있다. 주문형 집적회로는 사용자 단말기 내에 상주할 수도 있다. 다른 방법으로, 프로세서 및 저장 매체는 사용자 단말기 내에 개별 컴포넌트로서 상주할 수도 있다.The steps of a method or algorithm described in connection with the embodiments disclosed herein may be directly embodied as hardware executed by a processor, a software module, or a combination of the two. A software module may reside in RAM memory, flash memory, ROM memory, EPROM memory, EEPROM memory, registers, hard disk, a removable disk, a CD-ROM, or any other form of recording medium or storage medium known in the art. An exemplary recording medium or storage medium is coupled to the processor, and the processor can read information from and write information to the recording medium or storage medium. Alternatively, the recording medium or storage medium may be integral with the processor. The processor and recording medium or storage medium may reside within an application specific integrated circuit (ASIC). An application specific integrated circuit may reside within a user terminal. Alternatively, the processor and storage medium may reside as separate components within a user terminal.

이상 첨부된 도면을 참조하여 본 발명의 실시예들을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것은 아니고, 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형실시될 수 있다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.Although the embodiments of the present invention have been described in more detail with reference to the accompanying drawings, the present invention is not necessarily limited to these embodiments, and may be variously modified without departing from the technical spirit of the present invention. . Therefore, the embodiments disclosed in the present invention are not intended to limit the technical idea of the present invention, but to explain, and the scope of the technical idea of the present invention is not limited by these embodiments. Therefore, it should be understood that the embodiments described above are illustrative in all respects and not restrictive. The protection scope of the present invention should be construed according to the claims below, and all technical ideas within the equivalent range should be construed as being included in the scope of the present invention.

210 제1 학습 데이터
211 제1 레이블 인스턴스
220 제2 학습 데이터
221 제2 레이블 인스턴스
230 제3 학습 데이터
231 제3 레이블 인스턴스
220 제2 학습 데이터
221 제2 레이블 인스턴스
323 제2 추론된 인스턴스
460 박스플롯
461 제1 사분위수
462 제2 사분위수
463 제3 사분위수
465 사분위수범위
466 상위 경계
467 하위 경계
468 노이즈 구간
540 제4 학습 데이터
541 제4 레이블 인스턴스
550 제5 학습 데이터
551 제5 레이블 인스턴스
690 노이즈 레이블이 제거된 학습 데이터
770 제7 데이터
771 제7 레이블 인스턴스
772 제7 추론된 인스턴스
780 제8 데이터
781 제8 레이블 인스턴스
782 제8 추론된 인스턴스
895 테이블
900 노이즈 레이블을 필터링하는 장치
901 메모리
902 학습 데이터 저장부
903 인공 신경망 모델 저장부
904 프로세서
905 학습 프로세서
906 입력부
907 출력부
908 통신부
210 first learning data
211 first label instance
220 second learning data
221 second label instance
230 Third Learning Data
231 third label instance
220 second learning data
221 second label instance
323 second inferred instance
460 Boxplot
461 first quartile
462 second quartile
463 third quartile
465 interquartile range
466 upper boundary
467 sub-boundary
468 noise intervals
540 fourth learning data
541 fourth label instance
550 fifth learning data
551 fifth label instance
690 training data with noise labels removed
770 seventh data
771 seventh label instance
772 seventh inferred instance
780 eighth data
781 eighth label instance
782 Eighth Inferred Instance
895 table
Device to filter 900 noise labels
901 memory
902 learning data storage unit
903 artificial neural network model storage unit
904 processor
905 learning processor
906 input
907 output
908 communications department

Claims (10)

사전에 세그먼트(segment) 레이블링(labeling)된 복수의 레이블 인스턴스(instance)들을 포함하는, 적어도 하나의 학습 데이터를 준비하는, 학습 데이터 준비 단계;
상기 학습 데이터를 이용하여 세그멘테이션(segmentation) 모델을 학습시키는, 모델 학습 단계;
상기 세그멘테이션 모델을 이용하여 상기 학습 데이터에 포함된 복수의 인스턴스들을 추론하는, 인스턴스 추론 단계;
상기 세그멘테이션 모델에 의해 추론된 복수의 인스턴스들 각각에 대한 수치 및 상기 추론된 복수의 인스턴스들 각각과 대응되는 상기 복수의 레이블 인스턴스들 각각에 대한 수치로부터, 상기 복수의 레이블 인스턴스들 각각에 대한 추론의 정확도를 산출하는, 추론 정확도 산출 단계; 및
상기 복수의 레이블 인스턴스들 각각에 대한 상기 추론의 정확도를 미리 설정된 임계값과 각각 비교하는, 노이즈 레이블 판단 단계; 및
상기 복수의 레이블 인스턴스들 중 하나의 레이블 인스턴스에 대한 상기 추론의 정확도가 상기 임계값 미만인 경우, 상기 하나의 레이블 인스턴스를 상기 학습 데이터에서 제거하는, 노이즈 레이블 제거 단계를 포함하고,
상기 임계값은 상기 복수의 레이블 인스턴스들 각각에 대한 상기 추론의 정확도를 변수로 하는 박스플롯(box-plot)을 이용하여 설정되는,
노이즈 레이블을 필터링하는 방법.
A training data preparation step of preparing at least one training data including a plurality of label instances previously segment-labeled;
A model learning step of learning a segmentation model using the learning data;
an instance inference step of inferring a plurality of instances included in the training data by using the segmentation model;
From the numerical value of each of the plurality of instances inferred by the segmentation model and the numerical value of each of the plurality of label instances corresponding to each of the inferred plurality of instances, inference of each of the plurality of label instances an inference accuracy calculation step of calculating accuracy; and
a noise label determination step of comparing accuracy of the inference for each of the plurality of label instances with a preset threshold, respectively; and
A noise label removal step of removing the one label instance from the training data when the accuracy of the inference for one label instance among the plurality of label instances is less than the threshold value;
The threshold value is set using a box-plot in which the accuracy of the inference for each of the plurality of label instances is a variable.
How to filter noise labels.
제1항에 있어서,
상기 세그멘테이션 모델은,
사용자가 클릭한 위치의 인스턴스를 실시간으로 추론하여 반환하는 모델인,
노이즈 레이블을 필터링하는 방법.
According to claim 1,
The segmentation model,
A model that infers and returns an instance of the location where the user clicked in real time,
How to filter noise labels.
제1항에 있어서,
상기 복수의 인스턴스들 각각에 대한 수치는 상기 복수의 인스턴스들 각각이 차지하는 영역의 정보인,
노이즈 레이블을 필터링하는 방법.
According to claim 1,
The numerical value for each of the plurality of instances is information of an area occupied by each of the plurality of instances,
How to filter noise labels.
제3항에 있어서,
상기 추론의 정확도는 상기 추론된 복수의 인스턴스들 각각이 차지하는 영역 및 상기 복수의 레이블 인스턴스들 각각이 차지하는 영역에 대한 IoU(Intersection over Union)인,
노이즈 레이블을 필터링하는 방법.
According to claim 3,
The accuracy of the inference is IoU (Intersection over Union) for the area occupied by each of the plurality of inferred instances and the area occupied by each of the plurality of label instances,
How to filter noise labels.
삭제delete 제1항에 있어서,
상기 임계값은 제1 사분위수(Q1)에서 사분위수범위(IQR)의 1.5배를 뺀 값인,
노이즈 레이블을 필터링하는 방법.
According to claim 1,
The threshold is a value obtained by subtracting 1.5 times the interquartile range (IQR) from the first quartile (Q1),
How to filter noise labels.
삭제delete 메모리 및 상기 메모리와 데이터를 송수신하도록 연결된 프로세서를 포함하는 노이즈 레이블을 필터링하는 장치에 있어서,
상기 프로세서는,
사전에 세그먼트 레이블링된 복수의 레이블 인스턴스들을 포함하는, 적어도 하나의 학습 데이터를 준비하고,
상기 학습 데이터를 이용하여 세그멘테이션 모델을 학습시키고
상기 세그멘테이션 모델을 이용하여 상기 학습 데이터에 포함된 복수의 인스턴스들을 추론하고,
상기 세그멘테이션 모델에 의해 추론된 복수의 인스턴스들 각각에 대한 수치 및 상기 추론된 복수의 인스턴스들 각각과 대응되는 상기 복수의 레이블 인스턴스들 각각에 대한 수치로부터, 상기 복수의 레이블 인스턴스들 각각에 대한 추론의 정확도를 산출하고,
상기 복수의 레이블 인스턴스들 각각에 대한 상기 추론의 정확도를 미리 설정된 임계값과 각각 비교하고,
상기 복수의 레이블 인스턴스들 중 하나의 레이블 인스턴스에 대한 상기 추론의 정확도가 상기 임계값 미만인 경우, 상기 하나의 레이블 인스턴스를 상기 학습 데이터에서 제거하고,
상기 임계값은 상기 복수의 레이블 인스턴스들 각각에 대한 상기 추론의 정확도를 변수로 하는 박스플롯(box-plot)을 이용하여 설정되는,
노이즈 레이블을 필터링하는 장치.
An apparatus for filtering noise labels comprising a memory and a processor coupled to transmit and receive data to and from the memory,
the processor,
Preparing at least one training data comprising a plurality of label instances previously segment-labeled;
Learning a segmentation model using the learning data
Inferring a plurality of instances included in the training data using the segmentation model;
From the numerical value of each of the plurality of instances inferred by the segmentation model and the numerical value of each of the plurality of label instances corresponding to each of the inferred plurality of instances, inference of each of the plurality of label instances Calculate accuracy,
Comparing the accuracy of the inference for each of the plurality of label instances with a preset threshold, respectively;
When the accuracy of the inference for one label instance among the plurality of label instances is less than the threshold, removing the one label instance from the training data;
The threshold is set using a box-plot in which the accuracy of the inference for each of the plurality of label instances is a variable.
A device that filters noise labels.
제8항에 있어서,
상기 복수의 인스턴스들 각각에 대한 수치는 상기 복수의 인스턴스들 각각이 차지하는 영역의 정보인,
노이즈 레이블을 필터링하는 장치.
According to claim 8,
The numerical value for each of the plurality of instances is information of an area occupied by each of the plurality of instances,
A device that filters noise labels.
삭제delete
KR1020220175431A 2022-12-15 2022-12-15 Method and apparatus of filtering noise label KR102540873B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220175431A KR102540873B1 (en) 2022-12-15 2022-12-15 Method and apparatus of filtering noise label

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220175431A KR102540873B1 (en) 2022-12-15 2022-12-15 Method and apparatus of filtering noise label

Publications (1)

Publication Number Publication Date
KR102540873B1 true KR102540873B1 (en) 2023-06-07

Family

ID=86760746

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220175431A KR102540873B1 (en) 2022-12-15 2022-12-15 Method and apparatus of filtering noise label

Country Status (1)

Country Link
KR (1) KR102540873B1 (en)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180073424A (en) * 2016-12-22 2018-07-02 삼성전자주식회사 A method and an apparatus for deep learning networks training using soft-labelling
KR101880628B1 (en) 2017-11-27 2018-08-16 한국인터넷진흥원 Method for labeling machine-learning dataset and apparatus thereof
KR102107911B1 (en) * 2018-12-03 2020-05-07 엄성민 Automatic inspection system for label type data based on Artificial Intelligence Learning, and method thereof
KR20200124887A (en) * 2019-04-25 2020-11-04 에스케이텔레콤 주식회사 Method and Apparatus for Creating Labeling Model with Data Programming
KR20210006247A (en) * 2019-07-08 2021-01-18 네이버 주식회사 Method, apparatus and computer program for data labeling
KR102340998B1 (en) * 2021-07-06 2021-12-20 (주) 웨다 Auto labeling method and system

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180073424A (en) * 2016-12-22 2018-07-02 삼성전자주식회사 A method and an apparatus for deep learning networks training using soft-labelling
KR101880628B1 (en) 2017-11-27 2018-08-16 한국인터넷진흥원 Method for labeling machine-learning dataset and apparatus thereof
KR102107911B1 (en) * 2018-12-03 2020-05-07 엄성민 Automatic inspection system for label type data based on Artificial Intelligence Learning, and method thereof
KR20200124887A (en) * 2019-04-25 2020-11-04 에스케이텔레콤 주식회사 Method and Apparatus for Creating Labeling Model with Data Programming
KR20210006247A (en) * 2019-07-08 2021-01-18 네이버 주식회사 Method, apparatus and computer program for data labeling
KR102340998B1 (en) * 2021-07-06 2021-12-20 (주) 웨다 Auto labeling method and system

Similar Documents

Publication Publication Date Title
US9609307B1 (en) Method of converting 2D video to 3D video using machine learning
JP6435740B2 (en) Data processing system, data processing method, and data processing program
CN106204572B (en) Road target depth estimation method based on scene depth mapping
CN107633526B (en) Image tracking point acquisition method and device and storage medium
Li et al. An overlapping-free leaf segmentation method for plant point clouds
CN109034017B (en) Head pose estimation method and machine readable storage medium
CN108648194B (en) Three-dimensional target identification segmentation and pose measurement method and device based on CAD model
CN110084243B (en) File identification and positioning method based on two-dimensional code and monocular camera
CN109658454B (en) Pose information determination method, related device and storage medium
CN103035003B (en) A kind of method and device realizing augmented reality
CN114424250A (en) Structural modeling
Ückermann et al. Realtime 3D segmentation for human-robot interaction
CN112097732A (en) Binocular camera-based three-dimensional distance measurement method, system, equipment and readable storage medium
CN105912977B (en) Lane line detection method based on point clustering
WO2014030322A1 (en) Image processing device, method, and program
JP6932402B2 (en) Multi-gesture fine division method for smart home scenes
Nguyen et al. A weakly supervised amodal segmenter with boundary uncertainty estimation
EP3971829A1 (en) Cutting method, apparatus and system for point cloud model
CN114332214A (en) Object attitude estimation method and device, electronic equipment and storage medium
CN115512145A (en) Image segmentation method and device, vehicle and storage medium
CN108629782B (en) Road target depth estimation method based on ground clue propagation
CN111582410A (en) Image recognition model training method and device, computer equipment and storage medium
CN115205218A (en) Flexible flat cable assembly detection method and device, electronic equipment and storage medium
US9569661B2 (en) Apparatus and method for neck and shoulder landmark detection
KR102540873B1 (en) Method and apparatus of filtering noise label

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant