KR20240064222A - 바운딩 박스를 이용한 오토 세그멘테이션 방법 및 장치 - Google Patents

바운딩 박스를 이용한 오토 세그멘테이션 방법 및 장치 Download PDF

Info

Publication number
KR20240064222A
KR20240064222A KR1020220145994A KR20220145994A KR20240064222A KR 20240064222 A KR20240064222 A KR 20240064222A KR 1020220145994 A KR1020220145994 A KR 1020220145994A KR 20220145994 A KR20220145994 A KR 20220145994A KR 20240064222 A KR20240064222 A KR 20240064222A
Authority
KR
South Korea
Prior art keywords
bounding box
segmentation
auto
object image
mask
Prior art date
Application number
KR1020220145994A
Other languages
English (en)
Inventor
김대훈
류제윤
메데이로스 루카 피멘타
김홍엽
Original Assignee
주식회사 누비랩
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 누비랩 filed Critical 주식회사 누비랩
Priority to KR1020220145994A priority Critical patent/KR20240064222A/ko
Priority to US18/090,408 priority patent/US20240161303A1/en
Publication of KR20240064222A publication Critical patent/KR20240064222A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • G06V10/987Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns with the intervention of an operator
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 바운딩 박스를 이용한 오토 세그멘테이션 방법 및 장치에 관한 것으로, 본 발명의 일 실시예에 따른 바운딩 박스를 이용한 오토 세그멘테이션 방법은, 사전 학습 대상인 바운딩 박스(Bounding box)로 라벨링된 객체가 포함된 제1 객체 이미지를 수신하는 단계, 상기 수신된 제1 객체 이미지의 바운딩 박스에서 객체 및 배경을 분류하여 세그멘테이션 모델을 학습하는 단계, 및 상기 학습된 세그멘테이션 모델을 이용하여 식별 대상인 제2 객체 이미지에서 객체를 세그멘테이션하는 단계를 포함한다.

Description

바운딩 박스를 이용한 오토 세그멘테이션 방법 및 장치{METHODS AND APPARATUSES FOR AUTO SEGMENTATION USING BOUNDING BOX}
본 발명은 오토 세그멘테이션 방법 및 장치에 관한 것이다.
최근 들어, 웰빙(Well-Being), 다이어트(Diet) 등과 같이 건강한 식단을 유지하려는 사람들이 많아짐에 따라서 음식을 식별하고 음식량을 측정하는 기술의 수요가 증가하고 있다.
이를 이용하면, 학교, 기업, 군대, 관공서, 병원 등과 같이 복수의 사람들에게 배식을 하는 장소에서도 사람들에게 배식, 급식되는 음식의 종류 및 음식량을 측정하여 이를 통해 배식량과 잔반량을 측정함으로써, 수요량과 공급량을 예상하여 효율적인 배식관리를 진행하고, 배식을 받는 사람들의 칼로리를 관리해줄 수 있는 등 많은 장점이 있다.
하지만, 현재 공개된 대부분의 기술들은 카메라를 통해 촬영된 음식 이미지를 단순 이미지 검색하는데 그치고 있기 때문에 그 정확도가 현저하게 떨어진다. 또한, 이미지 검색에서 음식 종류 식별의 정확도가 떨어지다 보니 칼로리 계산 등과 같은 다음 단계들에서는 더 큰 오차가 발생한다는 문제점이 있다.
한편, 이러한 문제점을 해결하기 위해 딥 러닝이 이미지 식별 분야에 적용되고 있지만 현재 딥러닝 기술에는 주요 문제가 있다. 딥러닝 기술은 빅데이터 기술과 함께 떠오르기 시작했다. 그만큼 딥러닝 모델을 학습하기 위해서는 많은 양의 데이터가 중요하다는 것이다. 데이터를 구하는 가장 순진한(naive) 방법은 인적자원을 통한 매뉴얼한 방식의 라벨링 방법이다.
하지만 이 방법은 라벨러 각각이 가진 배경지식과 전문성의 차이로 인해 라벨 각각에 편향이 생길 우려가 있고, 시간 및 비용의 소모가 높다.
반면에 사람이 직접적으로 라벨링하지 않고, 많은 데이터로 학습된 딥러닝 모델로 해당 데이터를 추론하여 나온 예측(prediction) 결과를 활용하는 방향으로 전환한다면, 느리면 초당 수십에서 수백장까지의 결과를 단지 검수하고, 필요한 부분만 수정을 하면 되기 때문에 시간적 비용이 매우 감소하게 된다.
분명 많은 양의 데이터가 모델의 학습에 중요하지만, 어느 정도의 데이터가 쌓이게 된다면, 그 후로는 데이터의 양보다는 질적 요소가 더 중요하게 작용한다. 이미 모델이 잘 예측하고 있는 데이터를 계속적으로 추가하는 것보다는 제대로 예측하지 못하는 에지 케이스(edge-case)의 경우에는 추가적으로 모델에 학습을 해주는 것이 모델의 성능향상에 더욱 도움이 된다.
세그멘테이션(Segmentation)은 영상에서 픽셀단위의 분류를 하는 것이고, 바운딩 박스(bounding box)를 출력으로 내는 검출기(detector) 모델은 ROI(Region of Interest)와 해당 영역 내에서의 클래스가 무엇인지만 올바르게 맞춘다.
세그멘테이션(Segmentation) 모델을 학습하기 위해서는 일반적으로 영상의 픽셀 값 하나하나에 클래스를 매긴 데이터가 필요하다. 바운딩 박스를 예측하는 검출기 모델의 경우에는 영상에 존재하는 객체들의 갯수 만큼의 라벨만 존재하면 된다.
클릭 수로 비교하면, 세그멘테이션의 경우에는 폴리곤(polygon)을 그려야 하기 때문에, 좌상단 우하단의 좌표값만 있으면 되는 바운딩 박스를 만들기 위해서 들어가는 클릭 수보다 압도적으로 많이 필요하게 된다. 이런 연유로 라벨링을 위한 시간 및 비용이 더 많이 들어가게 된다.
본 발명의 실시예들은 약한 지도(Weakly-supervised) 학습을 통해 객체 이미지에서 바운딩 박스로 라벨링된 객체를 세그멘테이션하기 위한, 바운딩 박스를 이용한 오토 세그멘테이션 방법 및 장치를 제공하고자 한다.
다만, 본 발명의 해결하고자 하는 과제는 이에 한정되는 것이 아니며, 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위의 환경에서도 다양하게 확장될 수 있을 것이다.
본 발명의 일 실시예에 따르면, 객체 식별 장치에 의해 수행되는 객체 식별 방법에 있어서, 오토 세그멘테이션 장치에 의해 수행되는 오토 세그멘테이션 방법에 있어서, 사전 학습 대상인 바운딩 박스(Bounding box)로 라벨링된 객체가 포함된 제1 객체 이미지를 수신하는 단계; 상기 수신된 제1 객체 이미지의 바운딩 박스에서 객체 및 배경을 분류하여 세그멘테이션 모델을 학습하는 단계; 및 상기 학습된 세그멘테이션 모델을 이용하여 식별 대상인 제2 객체 이미지에서 객체를 세그멘테이션하는 단계를 포함하는, 바운딩 박스를 이용한 오토 세그멘테이션 방법이 제공될 수 있다.
상기 세그멘테이션 모델을 학습하는 단계는, 상기 수신된 제1 객체 이미지의 바운딩 박스에서 색상 유사도 맵(Color similarity map)를 이용하여 객체 및 배경을 분류하고, 객체 및 배경의 분류를 통해 상기 세그멘테이션 모델을 학습할 수 있다.
상기 세그멘테이션 모델을 학습하는 단계는, 상기 수신된 제1 객체 이미지의 바운딩 박스에 위치한 픽셀이 학습하고자 하는 객체들 중 어느 하나인지 또는 배경인지를 수행하여 상기 세그멘테이션 모델을 학습할 수 있다.
상기 세그멘테이션 모델을 학습하는 단계는, 상기 제1 객체 이미지에서 예측된 마스크 및 바운딩 박스를 이용하여 계산된 제1 손실과, 상기 제1 객체 이미지에서 예측된 마스크 및 바운딩 박스내 각 픽셀과 이웃 픽셀 간의 색상 유사도 맵을 이용하여 계산된 제1 손실을 합하여 마스크 손실을 계산하고, 상기 계산된 마스크 손실을 이용하여 상기 세그멘테이션 모델을 학습할 수 있다.
상기 세그멘테이션 모델을 학습하는 단계는, 상기 예측된 마스크가 상기 바운딩 박스를 벗어나지 못하도록 제약을 걸어주도록 제1 손실을 계산할 수 있다.
상기 세그멘테이션 모델을 학습하는 단계는, 상기 예측된 마스크가 차지하는 영역이 배경 영역에 대해 최소화되고 객체 영역에 대해 최대화되도록 제2 손실을 계산할 수 있다.
상기 방법은, 기설정된 예측 오류값을 초과하는 바운딩 박스에 대해 사용자 검수를 통해 재학습하는 방식으로 오토 라벨링(Auto-labeling)을 수행하는 단계를 더 포함할 수 있다.
상기 제2 객체 이미지의 객체를 식별하는 단계는, 상기 학습된 세그멘테이션 모델 및 기학습된 멀티모달(Multimodal) 모델을 이용하여 식별 대상인 상기 제2 객체 이미지에서 객체를 식별할 수 있다.
한편, 본 발명의 다른 실시예에 따르면, 사전 학습 대상인 바운딩 박스(Bounding box)로 라벨링된 객체가 포함된 제1 객체 이미지를 저장하는 데이터베이스; 하나 이상의 프로그램을 저장하는 메모리; 및 상기 저장된 하나 이상의 프로그램을 실행하는 프로세서를 포함하고, 상기 프로세서는, 사전 학습 대상인 바운딩 박스(Bounding box)로 라벨링된 객체가 포함된 제1 객체 이미지를 수신하고, 상기 수신된 제1 객체 이미지의 바운딩 박스에서 객체 및 배경을 분류하여 세그멘테이션 모델을 학습하고, 상기 학습된 세그멘테이션 모델을 이용하여 식별 대상인 제2 객체 이미지에서 객체를 세그멘테이션하는, 바운딩 박스를 이용한 오토 세그멘테이션 장치가 제공될 수 있다.
상기 프로세서는, 상기 수신된 제1 객체 이미지의 바운딩 박스에서 색상 유사도 맵(Color similarity map)를 이용하여 객체 및 배경을 분류하고, 객체 및 배경의 분류를 통해 상기 세그멘테이션 모델을 학습할 수 있다.
상기 프로세서는, 상기 수신된 제1 객체 이미지의 바운딩 박스에 위치한 픽셀이 학습하고자 하는 객체들 중 어느 하나인지 또는 배경인지를 수행하여 상기 세그멘테이션 모델을 학습할 수 있다.
상기 프로세서는, 상기 제1 객체 이미지에서 예측된 마스크 및 바운딩 박스를 이용하여 계산된 제1 손실과, 상기 제1 객체 이미지에서 예측된 마스크 및 바운딩 박스내 각 픽셀과 이웃 픽셀 간의 색상 유사도 맵을 이용하여 계산된 제1 손실을 합하여 마스크 손실을 계산하고, 상기 계산된 마스크 손실을 이용하여 상기 세그멘테이션 모델을 학습할 수 있다.
상기 프로세서는, 상기 예측된 마스크가 상기 바운딩 박스를 벗어나지 못하도록 제약을 걸어주도록 제1 손실을 계산할 수 있다.
상기 프로세서는, 상기 예측된 마스크가 차지하는 영역이 배경 영역에 대해 최소화되고 객체 영역에 대해 최대화되도록 제2 손실을 계산할 수 있다.
상기 프로세서는, 기설정된 예측 오류값을 초과하는 바운딩 박스에 대해 사용자 검수를 통해 재학습하는 방식으로 오토 라벨링(Auto-labeling)을 수행할 수 있다.
상기 프로세서는, 상기 학습된 세그멘테이션 모델 및 기학습된 멀티모달(Multimodal) 모델을 이용하여 식별 대상인 상기 제2 객체 이미지에서 객체를 식별할 수 있다.
개시된 기술은 다음의 효과를 가질 수 있다. 다만, 특정 실시예가 다음의 효과를 전부 포함하여야 한다거나 다음의 효과만을 포함하여야 한다는 의미는 아니므로, 개시된 기술의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.
본 발명의 실시예들은 약한 지도(Weakly-supervised) 학습을 통해 객체 이미지에서 바운딩 박스로 라벨링된 객체를 세그멘테이션할 수 있다.
본 발명의 실시예들은 색상 유사도를 이용하여 바운딩 박스 라벨만으로 세그멘테이션을 학습할 수 있다.
본 발명의 실시예들은 세그멘테이션 라벨을 하는 것이 아니라 검수를 통해 잘 예측하지 못하거나 취약한 케이스들을 다시 학습해주는 방식으로 오토 라벨링을 수행할 수 있다.
본 발명의 실시예들은 단지 해당 픽셀이 학습하고자 하는 객체들 중 어느 하나인지 또는 배경인지를 수행하여 수천 가지의 객체를 쉽게 분류할 수 있다.
도 1은 본 발명의 일 실시예에 따른 바운딩 박스를 이용한 오토 세그멘테이션 방법을 나타낸 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 세그멘테이션 모델의 학습 동작을 나타낸 흐름도이다.
도 3은 본 발명의 일 실시예에 적용되는 색상 유사도 계산 동작에 사용되는 LAB 공간을 나타낸 도면이다.
도 4 및 도 5은 본 발명의 일 실시예에 따른 제1 손실 및 제2 손실 계산 동작 예시를 나타낸 도면이다.
도 6 및 도 7은 본 발명의 일 실시예에 따른 오토 세그멘테이션 장치에서의 세그멘테이션 모델을 나타낸 도면이다.
도 8은 본 발명의 일 실시예에 따른 사용자 검수를 이용한 오토 라벨링 동작을 나타낸 도면이다.
도 9는 본 발명의 일 실시예에 따른 바운딩 박스를 이용한 오토 세그멘테이션 장치의 구성도이다.
본 발명은 다양한 변환을 가할 수 있고 여러가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 구체적으로 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 기술적 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해될 수 있다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들이 용어들에 의해 한정되는 것은 아니다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
본 발명에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 본 발명에서 사용한 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나 이는 당 분야에 종사하는 기술자의 의도, 판례, 또는 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 발명에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 발명의 실시예들에서 객체는 실세계에 존재하고 카메라로 촬영하여 인식 가능한 것을 나타낸다. 예를 들어, 객체에는 급식소 또는 식당에서의 음식, 카페테리아 또는 슈퍼마켓의 식품, 일반적인 물체, 이동수단 등이 포함될 수 있다.
이하, 본 발명의 실시예들을 첨부 도면을 참조하여 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성요소는 동일한 도면번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
도 1은 본 발명의 일 실시예에 따른 바운딩 박스를 이용한 오토 세그멘테이션 방법을 나타낸 흐름도이다.
도 1에 도시된 바와 같이, 단계 S101에서, 본 발명의 일 실시예에 따른 바운딩 박스를 이용한 오토 세그멘테이션 장치는 사전 학습 대상으로서 바운딩 박스(Bounding box)로 라벨링된 객체가 포함된 제1 객체 이미지를 수신한다.
단계 S102에서, 오토 세그멘테이션 장치는 수신된 제1 객체 이미지의 바운딩 박스에서 객체 및 배경의 분류를 통해 바운딩 박스의 객체를 세그멘테이션(Segmentation)하여 세그멘테이션 모델을 학습한다.
단계 S103에서, 오토 세그멘테이션 장치는 학습된 세그멘테이션 모델을 이용하여 식별 대상인 제2 객체 이미지에서 객체를 세그멘테이션한다.
이후, 오토 세그멘테이션 장치는 기설정된 예측 오류값을 초과하는 바운딩 박스에 대해 사용자 검수를 통해 재학습하는 방식으로 오토 라벨링(Auto-labeling)을 수행할 수 있다.
그리고 오토 세그멘테이션 장치는 학습된 세그먼테이션 모델을 이용하여 제2 객체 이미지의 객체를 식별할 수 있다. 여기서, 오토 세그멘테이션 장치는 학습된 세그먼테이션 모델 및 기학습된 멀티모달 모델을 이용하여 제2 객체 이미지의 객체를 식별할 수 있다.
한편, 본 발명의 일 실시예에 따른 바운딩 박스를 이용한 오토 세그멘테이션 장치는 제1 단계로 객체 세그멘테이션(object segmentation) 동작과 제2 단계로 멀티모달 분류(Multimodal classification) 동작을 수행한다.
우선, 객체 세그멘테이션 동작을 살펴보면, 오토 세그멘테이션 장치는 세그멘테이션 모델을 사용하여 제2 객체 이미지에서 객체를 세그멘테이션할 수 있다. 오토 세그멘테이션 장치에서 사용되는 세그멘테이션 모델은 바운딩 박스로 라벨링되어 있는 데이터(예컨대,제1 객체 이미지 등)를 통해 세그멘테이션을 수행하는 모델을 학습하는 약한 지도(weakly-supervised) 모델이다.
제1 객체 이미지에서 주어진 바운딩 박스의 안에 사전 학습 대상이거나 식별 대상인 객체(예컨대, 제1 객체 이미지에서의 객체 등)가 있을 때, 배경과 객체는 색상 레벨에서 유사도가 크게 다를 것이라고 가정하기로 한다. 이를 통해서, 오토 세그멘테이션 장치는 색상 유사도를 활용하여 바운딩 박스로 라벨링된 제1 객체 이미지에서 객체 세그멘테이션을 학습할 수 있다.
오토 세그멘테이션 장치는 이렇게 바운딩 박스만으로 라벨링된 제1 객체 이미지를 이용하여 학습된 세그멘테이션 모델을 활용해 새로운 데이터(예컨대, 식별 대상인 객체가 포함된 제2 객체 이미지)로부터 세그멘테이션 결과를 추출한다. 오토 세그멘테이션 장치는 사용자가 세그멘테이션 라벨링을 하는 것이 아니라 검수를 통해서 잘 예측하지 못하거나, 취약한 케이스들을 다시 학습해주는 방식으로 오토 라벨링(auto-labeling)을 수행할 수 있다.
오토 세그멘테이션 장치는 바운딩 박스로 객체의 세그멘테이션을 학습하게 하기 위해서, 다음과 같은 두 가지의 최적화 과정을 수행한다.
첫째, 오토 세그멘테이션 장치는 타겟으로 하는 객체는 항상 바운딩 박스 내부에만 존재하도록 한다. 세그멘테이션의 예측 값을 통해 구해낸 너비와 높이가 주어진 바운딩 박스보다 크지 못하게 제약시킨다.
둘째, 오토 세그멘테이션 장치는 타겟으로 하는 객체는 비슷한 색상을 가졌을 것이라는 가정하에, LAB 색상 레벨로 변환한 후에, 비슷한 색상을 가진 픽셀들은 같은 라벨로 세그멘테이션 모델을 학습시킨다.
여기서, 오토 세그멘테이션 장치는 잘 예측하지 못하거나, 취약한 케이스들 즉, 불확실성(Uncertainty)을 추정하여 검수 시간을 절약할 수 있다. 오토 세그멘테이션 장치는 단순히 객체 이미지에서 세그멘테이션 결과값만 제시하는 것이 아니라 세그멘테이션 결과의 정확도를 함께 예측할 수 있다. 세그멘테이션 결과의 정확도는 세그멘테이션 결과에 대해 얼마나 확신하는지 측정할 수 있다.
오토 세그멘테이션 장치는 수신된 제1 객체 이미지의 바운딩 박스에서 자동으로 세그멘테이션을 수행한다. 그리고 오토 세그멘테이션 장치는 세그멘테이션 작업의 난이도를 계산하여, 사용자 검수가 필요한 작업인지를 판단하여 사용자에게 검수를 요청할 수 있다. 이를 통해 세그멘테이션이 확실하지 않은 경우에만 오토 세그멘테이션 장치는 사용자에게 검수를 요청하고, 이는 결과적으로 검수에 소요되는 작업량을 줄일 수 있다.
오토 세그멘테이션 장치는 수신된 제1 객체 이미지의 바운딩 박스에서 객체 및 배경의 분류를 통해 상기 바운딩 박스의 객체를 세그먼테이션하되, 세그멘테이션 모델의 불확실성 추정 결과를 기반으로 확실 또는 불확실로 분류할 수 있다. 사용자는 확실로 분류된 제1 객체 이미지는 검수하지 않고, 불확실로 분류된 제2 객체 이미지만을 확인할 수 있다. 그 결과, 사용자가 확인해야 하는 데이터의 수가 적어지므로, 세그멘테이션 비용이 감소하게 된다.
또한, 오토 세그멘테이션 장치는 수천 가지의 객체 이미지에서 객체를 분류해야한다. 따라서 객체 이미지에서 세그멘테이션을 바로 수행하기는 어렵기 때문에, 오토 세그멘테이션 장치는 세그멘테이션 모델을 통해 단지 해당 픽셀이 학습하고자 하는 객체들 중 어느 하나인지 또는 배경인지를 수행할 수 있다. 변형 예로서, 오토 세그멘테이션 장치는 전체 객체 이미지가 아니라 객체 이미지에서 라벨링된 바운딩 박스에서 해당 픽셀이 학습하고자 하는 객체들 중 어느 하나인지 또는 배경인지를 수행할 수 있다. 또한, 오토 세그멘테이션 장치는 전체 객체 이미지가 아니라 일부가 크롭된 객체 이미지에서 해당 픽셀이 학습하고자 하는 객체들 중 어느 하나인지 또는 배경인지를 수행할 수 있다.
한편, 본 발명의 실시예는 각각의 객체에 대한 부피를 계산하는 서비스를 제공할 수 있다. 이때, 같은 객체임에도 다양한 이름을 가질 수 있기 때문에 정확하게 정해진 숫자의 객체를 분류한다면, 새로운 객체가 들어왔을 때 정확한 분류를 할 수 없다. 이런 객체를 픽셀 단위로 분류하도록 학습하는 것은 어렵다. 반면, 세그멘테이션 영역에 있는 객체 이미지를 잘라와 해당 객체 이미지의 종류를 분류하는 것은 훨씬 쉬운 작업이다.
이를 통해, 픽셀 단위에서 이미지 레벨로의 전환을 통해 훨씬 간단한 작업으로 만들었지만, 여전히 정해져 있는 클래스의 갯수가 없기 때문에 일반적인 분류 모델로는 새로운 클래스가 추가될 때마다 새로운 학습을 해줘야 한다. 이렇게 된다면, 새로운 이름이 매일 수 개에서 수십 개씩 추가되는 경우 해당 객체들은 추론을 할 수 없게 되고, 모델을 통한 오토 라벨링(auto-labeling)이 아닌 사람이 매뉴얼하게 라벨링 해줘야 한다.
본 발명의 실시예에 따른 오토 세그멘테이션 장치는 이런 부분을 해결할 수 있도록, 학습된 세그먼테이션 모델 및 기학습된 멀티모달 모델을 이용하여 제2 객체 이미지의 객체를 식별할 수 있다.
또는, 본 발명의 실시예에 따른 오토 세그멘테이션 장치는 학습된 세그먼테이션 모델 및 기학습된 멀티모달 모델과 기설정된 메뉴 목록을 통해 생성된 클래스 리스트를 이용하여 제2 객체 이미지의 객체를 식별할 수 있다.
일례로, 본 발명의 실시예에 따른 오토 세그멘테이션 장치는 매니저나 해당 식당에서 메뉴를 제공받아 해당 메뉴들 안에서만 객체 이미지에서의 객체를 분류할 수 있도록 하여 분류의 정확도를 올릴 수 있다. 이를 통해, 객체 이미지에서 수행하는 라벨링에 대한 검수 비용을 줄일 수 있다.
도 2는 본 발명의 일 실시예에 따른 세그멘테이션 모델의 학습 동작을 나타낸 흐름도이다.
도 2에 도시된 바와 같이, 단계 S201에서, 본 발명의 일 실시예에 따른 바운딩 박스를 이용한 오토 세그멘테이션 장치는 사전 학습 대상으로서 바운딩 박스(Bounding box)로 라벨링된 객체가 포함된 제1 객체 이미지를 입력받는다.
단계 S202에서, 오토 세그멘테이션 장치는 제1 객체 이미지를 LAB 색상 공간으로 변환한다.
단계 S203에서, 오토 세그멘테이션 장치는 제1 객체 이미지에 바운딩 박스를 설정한다.
단계 S204에서, 오토 세그멘테이션 장치는 바운딩 박스와 예측된 마스크를 이용하여 제1 손실을 계산한다.
단계 S205에서, 오토 세그멘테이션 장치는 바운딩 박스내 각 픽셀에 대해 각 픽셀과 8개의 이웃 픽셀 간의 색상 유사도 맵을 계산한다.
단계 S206에서, 오토 세그멘테이션 장치는 색상 유사도 맵과 예측된 마스크를 이용하여 제2 손실을 계산한다.
단계 S207에서, 오토 세그멘테이션 장치는 제1 손실과 제2 손실을 합하여 마스크 손실을 계산한다.
단계 S208에서, 오토 세그멘테이션 장치는 계산된 마스크 손실을 이용하여 세그멘테이션 모델을 학습한다.
도 3은 본 발명의 일 실시예에 적용되는 색상 유사도 계산 동작에 사용되는 LAB 공간을 나타낸 도면이다.
오토 세그멘테이션 장치는 색상 유사도 계산을 위해, 우선 객체 이미지를 LAB 색상 공간(color space)으로 변환한다. LAB 색상 공간은 RGB와 달리 더욱 많은 색상 공간을 표현할 수 있고, 촬영 장비에 무관(independent) 하기 때문에 일정한 색상 값을 제공한다.
색상 유사도(color similarity)는 단순히 픽셀 값의 차이를 활용한다.
이때 의 값은 하이퍼 파라미터(hyper-parameter)로서 특정 값(예컨대, 2 등)이 활용될 수 있다. 여기서 Se는 에지 e의 색상 유사도, ci,j 및 cl,k는 각각 2개의 픽셀 (i,j) 및 (l,k)의 색상 벡터를 나타낸다.
그리고, 오토 세그멘테이션 장치는 마스크 라벨링이 있는 세그멘테이션 모델이 어떻게 학습하는지 확인할 수 있다.
마스킹 되어 있는 각각의 픽셀에서 각각의 픽셀을 방향성이 없는 그래프의 노드라고 생각하고, 각각의 픽셀이 연결되어 있는 가상의 선을 E라고 가정한다면 G=(V, E)를 상상해 볼 수 있다.
이때, 가상의 픽셀인 a 와 b를 잇는 선 e를 생각할 때 a와 b가 같은 라벨(배경(background) 혹은 전경(foreground))을 가지고 있다면 해당 에지(edge)의 라벨을 1로 설정할 수 있고, 세그멘테이션 모델은 이 에지가 연결되어 있는지 여부를 학습하는 것이라고 볼 수 있다.
이때 바운딩 박스 라벨링만 있는 세그멘테이션 모델은 배워야할 에지가 없다고 볼 수 있는데, 이를 비슷한 컬러 레벨의 픽셀은 동일한 라벨 값을 가진다는 가정을 통해서 학습에 활용하게 된다.
픽셀(i, j)와 픽셀(l, k)가 있다고 할 때, 세그멘테이션 모델이 예측한 값 m(i, j)는 각각의 픽셀이 전경(foreground)일 확률을 나타낸다고 한다면, (i, j)와 (l, k)가 같은 라벨을 가질 확률은 다음과 같이 나타낼 수 있다.
여기서, ye는 에지 e의 라벨로 정의된다. 여기서, ye=1은 에지로 연결된 2개의 픽셀이 동일한 실측 라벨을 갖고 있음을 의미하고, ye=0은 에지로 연결된 2개의 픽셀이 다른 실측 라벨을 갖고 있음을 의미한다.
위의 색상유사도를 임계치(threshold)로 활용하여, 각각의 에지가 포지티브(positive)여야 하는지 네거티브(negative)여야 하는지를 학습하게 되는 것이다.
도 4 및 도 5은 본 발명의 일 실시예에 따른 제1 손실 및 제2 손실 계산 동작 예시를 나타낸 도면이다.
본 발명의 일 실시예에 따른 오토 세그멘테이션 장치는 바운딩 박스만을 통해 세그멘테이션 모델을 학습하는 과정에서 제1 손실 및 제2 손실을 이용한다. 여기서. 제1 손실은 프로젝션 손실(Projection loss)일 수 있고, 제2 손실은 픽셀 쌍별 손실(Pixel pairwise loss)일 수 있다.
프로젝션 손실과 관련하여, 도 4에는 학습 대상인 객체 이미지(201), 예측된 마스크가 투영된 이미지(202) 및 바운딩 박스가 투영된 이미지(203)가 도시되어 있다. 오토 세그멘테이션 장치는 예측한 세그멘테이션 마스크(segmentation mask)가 학습 시에 같이 주어진 바운딩 박스의 범위를 벗어나지 못하도록 제약을 걸어준다. 즉, 오토 세그멘테이션 장치는 세그멘테이션 모델의 예측이 객체가 있을 것이라고 예상되는 바운딩 박스 영역을 벗어나지 않도록 해준다.
픽셀 쌍별 손실과 관련하여, 도 5에는 각 픽셀과 이웃 픽셀에 대한 픽셀 쌍별 관계(301), 8개의 일관성(consistency) 맵(302, 302)이 도시되어 있다.
픽셀 쌍별 손실에 대해 살펴보면, 좌표(i, j)와 좌표(l, k)를 기준으로, 세그멘테이션 모델은 예측 값인 예측된 마스크(prediction masks)의 해당 좌표 값들에 대해 각각의 좌표의 픽셀이 전경일 확률을 예측할 수 있다. m(i, j), m(l, k)와 같은 해당 값들은 세그멘테이션 모델이 각각의 좌표의 픽셀이 전경(여기서 전경은 객체를 포함함)일 확률을 예측한 값이다. 좌표(i, j)와 좌표(l, k)가 같은 라벨을 가질 확률을 으로 다음과 같이 정의한다.
즉, 전경 확률의 곱과 배경 확률의 곱을 더한 것이다.
여기서, 두 개의 좌표가 같은 라벨이면 전경 혹은 배경의 확률이 높은 값으로 계산된다. 반대로, 두 개의 좌표가 서로 다른 라벨이면 배경 및 전경의 확률이 낮은 값으로 계산된다.
해당 식을 활용해 픽셀 쌍별 손실의 수식을 다음과 같이 정의한다.
여기서, 이 1에 가까울 수록 낮은 값을 가진다. 수식을 으로 식을 변형해서 생각한다면, 이 1에 가까울 수록 낮은 값을 가진다.
따라서, 오토 세그멘테이션 장치는 두 개의 합으로 표현되는 픽셀 쌍별 손실 를 낮게 하는 방향으로 학습함으로써, 같은 라벨(배경&전경)을 가지는 픽셀을 추출하는 세그멘테이션 모델을 학습할 수 있다.
여기서, 픽셀 쌍별 손실은 학습해야 할 확률 값이 높게 나오는 방향이 바운딩 박스의 내부에만 존재하도록 제한을 하기 때문에, 오토 세그멘테이션 장치는 결과적으로 같은 라벨(전경=객체)을 가지는 픽셀을 추출하는 세그멘테이션 모델을 최종적으로 학습할 수 있다.
도 6 및 도 7은 본 발명의 일 실시예에 따른 오토 세그멘테이션 장치에서의 세그멘테이션 모델을 나타낸 도면이다.
도 6 및 도 7에 도시된 바와 같이, 세그멘테이션 모델은 마스크 브랜치를 통한 세그멘테이션을 위해 백본 모듈(110), 특징맵 모듈(120), 검출 브랜치 모듈(130), 마스크 브랜치 모듈(140) 및 마스크 예측 모듈(150)을 포함한다. 실시예들에 따르면, 세그멘테이션 모델에 포함된 백본 모듈(110), 특징맵 모듈(120), 검출 브랜치 모듈(130), 마스크 브랜치 모듈(140) 및 마스크 예측 모듈(150)은 프로세서에 구현될 수 있다.
도 7은 도 6에 도시된 세그멘테이션 모델을 블록 구성도로 나타낸 도면이다.
이하, 도 6 및 도 7의 본 발명의 일 실시예에 따른 세그멘테이션 모델의 구체적인 동작을 설명한다.
우선, 세그멘테이션 모델 구조부터 설명하기로 한다. 세그멘테이션 모델은 객체 이미지에서 객체 영역을 추출하는 모델이다. 주변 픽셀의 값이 매우 중요하기 때문에, 세그멘테이션 모델은 단순한 세그먼테이션 모델이 아닌 주변 픽셀의 값을 이용하여 정확하게 객체 영역을 추출할 수 있다. 여기서, 객체 영역은 바운딩 박스(bounding box) 또는 세그멘테이션(Segmentation)을 포함할 수 있다.
오토 세그멘테이션 장치는 세그멘테이션 모델을 통해 객체 이미지에서 객체 영역의 안에 식별 대상인 객체가 있을 때, 객체와 객체 이외의 나머지 배경을 구분하여 세그멘테이션 동작을 수행한다. 여기서, 객체와 객체 이외의 나머지 배경은 색상 레벨에서 유사도가 크게 다를 것이라고 가정하기로 한다. 이를 통해, 오토 세그멘테이션 장치는 색상 유사도(Color similarity)를 활용하여 객체 영역 라벨 만으로 세그먼테이션을 학습한다. 해당 세그먼테이션을 구하는 부분은 도 4에서 마스크 브랜치를 통해 인스턴스 마스크를 출력하는 부분을 나타낸다.
이하, 마스크 브랜치를 통한 세그멘테이션 동작을 구체적으로 설명하기로 한다.
우선, 오토 세그멘테이션 장치는 객체가 포함된 제1 객체 이미지를 입력받는다.
백본 모듈(110)은 제1 객체 이미지를 입력 받아서 C3, C4, C5를 통해 입력된 제1 객체 이미지에 대한 시맨틱 정보를 추출한다.
그리고 특징맵 모듈(120)은 백본 모듈(110)에서 추출된 시맨틱 정보를 서로 상호 보완하고 시맨틱 정보 보다 더욱 많은 특징맵 정보를 뽑아내는 P3 내지 P7을 통해 특징맵을 추출한다. 여기서, 특징맵 모듈(120)에서 추출된 P3, P4, P5, P6, P7로부터 추출된 특징맵들은 모든 층에서 공유되는 검출(detection) 브랜치 모듈(130)을 통과하게 된다.
검출 브랜치 모듈(130)은 입력 이미지에서의 객체의 위치 및 객체의 종류를 판별하게 되고, 헤드(Head)를 통해 객체 영역을 추출하기 위한 컨트롤러(controller), 분류 정보 및 후보 박스들을 추출한다. 일례로, 객체의 종류는 classification Px, y로 추출되고, 컨트롤러는 controller(generating filters θx,y)로 추출될 수 있다.
여기서, 동일한 객체를 지시하고 있는 바운딩 박스들은 비최대 억제(NMS) 방식으로 제거될 수 있다. 비최대 억제(nms) 방식은 비최대 억제(non-mamximum suppression)로 예측한 객체 영역들이 서로 간에 얼마나 겹치는지를 나타내는 IoU(Intersection over Union) 수치와 세그먼테이션 모델에서 예측한 각 바운딩 박스의 객체일 확률을 통해서 하나의 객체에 하나의 바운딩 박스를 할당하게 하는 알고리즘이다.
마스크 브랜치 모듈(140)은 검출 브랜치 모듈(130)과 별개로 마스크 브랜치(mask branch)를 통과한 특징맵에 상대적인 좌표값을 더해준다.
다음, 마스크 예측 모듈(150)은 검출 브랜치 모듈(130)을 통해 계산한 각 객체 영역의 컨트롤러(controller)를 파라미터(parameter)로 활용하여 세그먼테이션을 수행하고 N개의 세그멘테이션 마스크를 예측한다. 마스크 예측 모듈(150)은 예측된 마스크를 출력한다. 예측된 마스크는 세그멘테이션 모델의 학습에 이용될 수 있다.
한편, 분류 하고자 하는 대상은 객체로 어떤 관점으로 바라보느냐에 따라서 수천 수만 가지의 이름을 붙일 수 있다. 따라서, 오토 세그멘테이션 장치는 객체 이미지에서 해당 부분을 객체는 1로 지정하고, 배경은 0으로 지정하여 객체 이미지에서의 전체 픽셀을 분류함으로써, 학습하고자 하는 객체들 중 어느 하나인지 또는 배경인지를 수행할 수 있다.
도 8은 본 발명의 일 실시예에 따른 사용자 검수를 이용한 오토 라벨링 동작을 나타낸 도면이다.
단계 S301에서, 오토 세그멘테이션 장치는 원본 데이터에 대해서 라벨링을 요청받는다.
단계 S302에서, 오토 세그멘테이션 장치는 라벨링 요청이 들어온 원본 데이터에 대해 기학습된 세그멘테이션 모델의 모델 예측을 통해 오토 라벨링을 수행한다. 이때, 세그멘테이션 모델은 객체 이미지 상에서 객체와 배경을 분류한다. 오토 세그멘테이션 장치는 객체와 배경 분리 동작 이후에 객체로 분류된 부분만을 추출하여 멀티모달 모델에 입력으로 넣어줄 수 있다. 오토 세그멘테이션 장치는 멀티모달 모델과 어떤 객체들이 대략적으로 존재하고 있을지에 대해서 메뉴 정보를 추가적으로 이용하여 더 좋은 라벨링 성능을 확보할 수 있다.
단계 S303에서, 오토 세그멘테이션 장치는 1차 라벨링된 데이터에 대해 사용자 검수를 요청한다.
단계 S304에서, 사용자는 검수 요청된 1차 라벨링된 데이터를 검수한다. 이때, 사용자 검수 결과에서 수정 사항이 없는 데이터는 라벨링 완료된 데이터로 출력된다.
단계 S305에서, 사용자는 사용자 검수 결과에서 수정 사항이 발생하면 수정한다.
단계 S306에서, 오토 세그멘테이션 장치는 수정 완료된 데이터를 기학습된 세그멘테이션 모델의 학습 과정에 추가하여 기학습된 세그멘테이션 모델의 성능을 올릴 수 있다. 이후, 단계 S302 내지 S306 동작이 반복적으로 이루어져서 세그멘테이션 모델의 성능이 증가될 수 있다.
이와 같이, 본 발명의 일 실시예에 따른 세그멘테이션 모델은 바운딩 박스로 라벨링된 객체 이미지만을 학습에 활용하는 것이 아니라, 세그멘테이션된 데이터와 함께 학습할 수 있기 때문에 점진적으로 성능이 좋아지게 될 수 있다. 시간의 흐름에 따라서 100% 모델만으로 라벨링을 할 수 없지만, 사용자 검수를 하는 것에 대한 비용(cost)이 줄게 된다.
도 9는 본 발명의 일 실시예에 따른 바운딩 박스를 이용한 오토 세그멘테이션 장치의 구성도이다.
도 9에 도시된 바와 같이, 본 발명의 일 실시예에 따른 바운딩 박스를 이용한 오토 세그멘테이션 장치(400)는 데이터베이스(410), 메모리(420) 및 프로세서(430)를 포함한다. 그러나 도시된 구성요소 모두가 필수 구성요소인 것은 아니다. 도시된 구성요소보다 많은 구성요소에 의해 본 발명의 일 실시예에 따른 바운딩 박스를 이용한 오토 세그멘테이션 장치(400)가 구현될 수도 있고, 그보다 적은 구성요소에 의해서도 본 발명의 일 실시예에 따른 바운딩 박스를 이용한 오토 세그멘테이션 장치(400)가 구현될 수 있다.
이하, 도 9의 본 발명의 일 실시예에 따른 바운딩 박스를 이용한 오토 세그멘테이션 장치(400)의 각 구성요소들의 구체적인 구성 및 동작을 설명한다.
데이터베이스(410)는 사전 학습 대상인 바운딩 박스(Bounding box)로 라벨링된 객체가 포함된 제1 객체 이미지를 저장한다.
메모리(420)는 바운딩 박스를 이용한 오토 세그멘테이션과 관련된 하나 이상의 프로그램을 저장한다.
프로세서(430)는 사전 학습 대상인 바운딩 박스(Bounding box)로 라벨링된 객체가 포함된 제1 객체 이미지를 수신하고, 수신된 제1 객체 이미지의 바운딩 박스에서 객체 및 배경을 분류하여 세그멘테이션 모델을 학습하고, 학습된 세그멘테이션 모델을 이용하여 식별 대상인 제2 객체 이미지에서 객체를 세그멘테이션할 수 있다.
실시예들에 따르면, 프로세서(430)는 수신된 제1 객체 이미지의 바운딩 박스에서 색상 유사도 맵(Color similarity map)를 이용하여 객체 및 배경을 분류하고, 객체 및 배경의 분류를 통해 상기 세그멘테이션 모델을 학습할 수 있다.
실시예들에 따르면, 프로세서(430)는 수신된 제1 객체 이미지의 바운딩 박스에 위치한 픽셀이 학습하고자 하는 객체들 중 어느 하나인지 또는 배경인지를 수행하여 세그멘테이션 모델을 학습할 수 있다.
실시예들에 따르면, 프로세서(430)는 제1 객체 이미지에서 예측된 마스크 및 바운딩 박스를 이용하여 계산된 제1 손실과, 제1 객체 이미지에서 예측된 마스크 및 바운딩 박스내 각 픽셀과 이웃 픽셀 간의 색상 유사도 맵을 이용하여 계산된 제2 손실을 합하여 마스크 손실을 계산하고, 계산된 마스크 손실을 이용하여 세그멘테이션 모델을 학습할 수 있다.
실시예들에 따르면, 프로세서(430)는 예측된 마스크가 바운딩 박스를 벗어나지 못하도록 제약을 걸어주도록 제1 손실을 계산할 수 있다.
실시예들에 따르면, 프로세서(430)는 예측된 마스크가 차지하는 영역이 배경 영역에 대해 최소화되고 객체 영역에 대해 최대화되도록 제2 손실을 계산할 수 있다.
실시예들에 따르면, 프로세서(430)는 기설정된 예측 오류값을 초과하는 바운딩 박스에 대해 사용자 검수를 통해 재학습하는 방식으로 오토 라벨링(Auto-labeling)을 수행할 수 있다.
실시예들에 따르면, 프로세서(430)는 학습된 세그멘테이션 모델 및 기학습된 멀티모달(Multimodal) 모델을 이용하여 식별 대상인 상기 제2 객체 이미지에서 객체를 식별할 수 있다.
한편, 프로세서에 의해 실행될 때, 상기 프로세서로 하여금 방법을 실행하게 하는 명령어들을 저장하기 위한 비일시적 컴퓨터 판독가능 저장 매체로서, 상기 방법은: 사전 학습 대상인 바운딩 박스(Bounding box)로 라벨링된 객체가 포함된 제1 객체 이미지를 수신하는 단계; 상기 수신된 제1 객체 이미지의 바운딩 박스에서 객체 및 배경을 분류하여 세그멘테이션 모델을 학습하는 단계; 및 상기 학습된 세그멘테이션 모델을 이용하여 식별 대상인 제2 객체 이미지에서 객체를 세그멘테이션하는 단계를 포함하는, 비일시적 컴퓨터 판독 가능한 저장 매체가 제공될 수 있다.
한편, 본 발명의 일 실시예에 따르면, 이상에서 설명된 다양한 실시예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media)에 저장된 명령어를 포함하는 소프트웨어로 구현될 수 있다. 기기는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시예들에 따른 전자 장치(예: 전자 장치(A))를 포함할 수 있다. 명령이 프로세서에 의해 실행될 경우, 프로세서가 직접, 또는 프로세서의 제어 하에 다른 구성요소들을 이용하여 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.
또한, 본 발명의 일 실시예에 따르면, 이상에서 설명된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 온라인으로 배포될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
또한, 본 발명의 일 실시예에 따르면, 이상에서 설명된 다양한 실시예들은 소프트웨어(software), 하드웨어(hardware) 또는 이들의 조합을 이용하여 컴퓨터(computer) 또는 이와 유사한 장치로 읽을 수 있는 기록 매체 내에서 구현될 수 있다. 일부 경우에 있어 본 명세서에서 설명되는 실시예들이 프로세서 자체로 구현될 수 있다. 소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 동작을 수행할 수 있다.
한편, 상술한 다양한 실시예들에 따른 기기의 프로세싱 동작을 수행하기 위한 컴퓨터 명령어(computer instructions)는 비일시적 컴퓨터 판독 가능 매체(non-transitory computer-readable medium)에 저장될 수 있다. 이러한 비일시적 컴퓨터 판독 가능 매체에 저장된 컴퓨터 명령어는 특정 기기의 프로세서에 의해 실행되었을 때 상술한 다양한 실시예에 따른 기기에서의 처리 동작을 특정 기기가 수행하도록 한다. 비일시적 컴퓨터 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 비일시적 컴퓨터 판독 가능 매체의 구체적인 예로는, CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등이 있을 수 있다.
또한, 상술한 다양한 실시예들에 따른 구성 요소(예: 모듈 또는 프로그램) 각각은 단수 또는 복수의 개체로 구성될 수 있으며, 전술한 해당 서브 구성 요소들 중 일부 서브 구성 요소가 생략되거나, 또는 다른 서브 구성 요소가 다양한 실시예에 더 포함될 수 있다. 대체적으로 또는 추가적으로, 일부 구성 요소들(예: 모듈 또는 프로그램)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성 요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다. 다양한 실시예들에 따른, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.
이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
100: 세그멘테이션 모델
110: 백본 모듈
120: 특징맵 모듈
130: 검출 브랜치 모듈
140: 마스크 브랜치 모듈
150: 마스크 예측 모듈
400: 오토 세그멘테이션 장치
410: 데이터베이스
420: 메모리
430: 프로세서

Claims (16)

  1. 오토 세그멘테이션 장치에 의해 수행되는 오토 세그멘테이션 방법에 있어서,
    사전 학습 대상인 바운딩 박스(Bounding box)로 라벨링된 객체가 포함된 제1 객체 이미지를 수신하는 단계;
    상기 수신된 제1 객체 이미지의 바운딩 박스에서 객체 및 배경을 분류하여 세그멘테이션 모델을 학습하는 단계; 및
    상기 학습된 세그멘테이션 모델을 이용하여 식별 대상인 제2 객체 이미지에서 객체를 세그멘테이션하는 단계를 포함하는, 바운딩 박스를 이용한 오토 세그멘테이션 방법.
  2. 제1항에 있어서,
    상기 세그멘테이션 모델을 학습하는 단계는,
    상기 수신된 제1 객체 이미지의 바운딩 박스에서 색상 유사도 맵(Color similarity map)를 이용하여 객체 및 배경을 분류하고, 객체 및 배경의 분류를 통해 상기 세그멘테이션 모델을 학습하는, 바운딩 박스를 이용한 오토 세그멘테이션 방법.
  3. 제1항에 있어서,
    상기 세그멘테이션 모델을 학습하는 단계는,
    상기 수신된 제1 객체 이미지의 바운딩 박스에 위치한 픽셀이 학습하고자 하는 객체들 중 어느 하나인지 또는 배경인지를 수행하여 상기 세그멘테이션 모델을 학습하는, 바운딩 박스를 이용한 오토 세그멘테이션 방법.
  4. 제1항에 있어서,
    상기 세그멘테이션 모델을 학습하는 단계는,
    상기 제1 객체 이미지에서 예측된 마스크 및 바운딩 박스를 이용하여 계산된 제1 손실과, 상기 제1 객체 이미지에서 예측된 마스크 및 바운딩 박스내 각 픽셀과 이웃 픽셀 간의 색상 유사도 맵을 이용하여 계산된 제2 손실을 합하여 마스크 손실을 계산하고, 상기 계산된 마스크 손실을 이용하여 상기 세그멘테이션 모델을 학습하는, 바운딩 박스를 이용한 오토 세그멘테이션 방법.
  5. 제4항에 있어서,
    상기 세그멘테이션 모델을 학습하는 단계는,
    상기 예측된 마스크가 상기 바운딩 박스를 벗어나지 못하도록 제약을 걸어주도록 제1 손실을 계산하는, 바운딩 박스를 이용한 오토 세그멘테이션 방법.
  6. 제4항에 있어서,
    상기 세그멘테이션 모델을 학습하는 단계는,
    상기 예측된 마스크가 차지하는 영역이 배경 영역에 대해 최소화되고 객체 영역에 대해 최대화되도록 제2 손실을 계산하는, 바운딩 박스를 이용한 오토 세그멘테이션 방법.
  7. 제1항에 있어서,
    기설정된 예측 오류값을 초과하는 바운딩 박스에 대해 사용자 검수를 통해 재학습하는 방식으로 오토 라벨링(Auto-labeling)을 수행하는 단계를 더 포함하는, 바운딩 박스를 이용한 오토 세그멘테이션 방법.
  8. 제1항에 있어서,
    상기 제2 객체 이미지의 객체를 식별하는 단계는,
    상기 학습된 세그멘테이션 모델 및 기학습된 멀티모달(Multimodal) 모델을 이용하여 식별 대상인 상기 제2 객체 이미지에서 객체를 식별하는, 바운딩 박스를 이용한 오토 세그멘테이션 방법.
  9. 사전 학습 대상인 바운딩 박스(Bounding box)로 라벨링된 객체가 포함된 제1 객체 이미지를 저장하는 데이터베이스;
    하나 이상의 프로그램을 저장하는 메모리; 및
    상기 저장된 하나 이상의 프로그램을 실행하는 프로세서를 포함하고,
    상기 프로세서는,
    사전 학습 대상인 바운딩 박스(Bounding box)로 라벨링된 객체가 포함된 제1 객체 이미지를 수신하고,
    상기 수신된 제1 객체 이미지의 바운딩 박스에서 객체 및 배경을 분류하여 세그멘테이션 모델을 학습하고,
    상기 학습된 세그멘테이션 모델을 이용하여 식별 대상인 제2 객체 이미지에서 객체를 세그멘테이션하는, 바운딩 박스를 이용한 오토 세그멘테이션 장치.
  10. 제9항에 있어서,
    상기 프로세서는,
    상기 수신된 제1 객체 이미지의 바운딩 박스에서 색상 유사도 맵(Color similarity map)를 이용하여 객체 및 배경을 분류하고, 객체 및 배경의 분류를 통해 상기 세그멘테이션 모델을 학습하는, 바운딩 박스를 이용한 오토 세그멘테이션 장치.
  11. 제9항에 있어서,
    상기 프로세서는,
    상기 수신된 제1 객체 이미지의 바운딩 박스에 위치한 픽셀이 학습하고자 하는 객체들 중 어느 하나인지 또는 배경인지를 수행하여 상기 세그멘테이션 모델을 학습하는, 바운딩 박스를 이용한 오토 세그멘테이션 장치.
  12. 제9항에 있어서,
    상기 프로세서는,
    상기 제1 객체 이미지에서 예측된 마스크 및 바운딩 박스를 이용하여 계산된 제1 손실과, 상기 제1 객체 이미지에서 예측된 마스크 및 바운딩 박스내 각 픽셀과 이웃 픽셀 간의 색상 유사도 맵을 이용하여 계산된 제1 손실을 합하여 마스크 손실을 계산하고, 상기 계산된 마스크 손실을 이용하여 상기 세그멘테이션 모델을 학습하는, 바운딩 박스를 이용한 오토 세그멘테이션 장치.
  13. 제12항에 있어서,
    상기 프로세서는,
    상기 예측된 마스크가 상기 바운딩 박스를 벗어나지 못하도록 제약을 걸어주도록 제1 손실을 계산하는, 바운딩 박스를 이용한 오토 세그멘테이션 장치.
  14. 제12항에 있어서,
    상기 프로세서는,
    상기 예측된 마스크가 차지하는 영역이 배경 영역에 대해 최소화되고 객체 영역에 대해 최대화되도록 제2 손실을 계산하는, 바운딩 박스를 이용한 오토 세그멘테이션 장치.
  15. 제9항에 있어서,
    상기 프로세서는,
    기설정된 예측 오류값을 초과하는 바운딩 박스에 대해 사용자 검수를 통해 재학습하는 방식으로 오토 라벨링(Auto-labeling)을 수행하는, 바운딩 박스를 이용한 오토 세그멘테이션 장치.
  16. 제9항에 있어서,
    상기 프로세서는,
    상기 학습된 세그멘테이션 모델 및 기학습된 멀티모달(Multimodal) 모델을 이용하여 식별 대상인 상기 제2 객체 이미지에서 객체를 식별하는, 바운딩 박스를 이용한 오토 세그멘테이션 장치.
KR1020220145994A 2022-11-04 2022-11-04 바운딩 박스를 이용한 오토 세그멘테이션 방법 및 장치 KR20240064222A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020220145994A KR20240064222A (ko) 2022-11-04 2022-11-04 바운딩 박스를 이용한 오토 세그멘테이션 방법 및 장치
US18/090,408 US20240161303A1 (en) 2022-11-04 2022-12-28 Methods and apparatuses for auto segmentation using bounding box

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220145994A KR20240064222A (ko) 2022-11-04 2022-11-04 바운딩 박스를 이용한 오토 세그멘테이션 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20240064222A true KR20240064222A (ko) 2024-05-13

Family

ID=91028289

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220145994A KR20240064222A (ko) 2022-11-04 2022-11-04 바운딩 박스를 이용한 오토 세그멘테이션 방법 및 장치

Country Status (2)

Country Link
US (1) US20240161303A1 (ko)
KR (1) KR20240064222A (ko)

Also Published As

Publication number Publication date
US20240161303A1 (en) 2024-05-16

Similar Documents

Publication Publication Date Title
Hoang et al. Metaheuristic optimized edge detection for recognition of concrete wall cracks: a comparative study on the performances of roberts, prewitt, canny, and sobel algorithms
EP3655923B1 (en) Weakly supervised anomaly detection and segmentation in images
CN110570389B (zh) 车辆损伤识别方法及装置
CN110264444B (zh) 基于弱分割的损伤检测方法及装置
JP5713790B2 (ja) 画像処理装置、画像処理方法、及びプログラム
US20190259493A1 (en) Segmentation, landmark detection and view classification using multi-task learning
US11308714B1 (en) Artificial intelligence system for identifying and assessing attributes of a property shown in aerial imagery
WO2020046960A1 (en) System and method for optimizing damage detection results
JP2000137804A (ja) デジタル画像の異常検出方法およびシステム、ならびにそのための記憶媒体
US20110299787A1 (en) Invariant visual scene and object recognition
CN107967480B (zh) 一种基于标签语义的显著对象提取方法
CN114937086B (zh) 多图像目标检测的训练方法、检测方法及相关产品
TWI701608B (zh) 用於圖片匹配定位的神經網路系統、方法及裝置
AU2020272936B2 (en) Methods and systems for crack detection using a fully convolutional network
KR102508067B1 (ko) 약지도 학습 기반 시멘틱 영상 분할 학습 데이터 생성 장치 및 방법
JP2013235581A (ja) 画像処理方法及び装置
JP2016206837A (ja) オブジェクト検出方法及び画像検索システム
JP7355299B2 (ja) 学習用データセット生成システム、学習サーバ、及び学習用データセット生成プログラム
CN112907575B (zh) 人脸质量评估方法、装置及电子设备
CN116682109B (zh) 一种病理显微图像的分析方法、装置、设备及存储介质
CN109934185B (zh) 数据处理方法及装置、介质和计算设备
KR20240064222A (ko) 바운딩 박스를 이용한 오토 세그멘테이션 방법 및 장치
CN114114457B (zh) 基于多模态测井数据的裂缝表征方法、装置及设备
CN112750124B (zh) 模型生成、图像分割方法、装置、电子设备及存储介质
CN114170625A (zh) 一种上下文感知、噪声鲁棒的行人搜索方法