KR20200129168A - 고해상도 이미지 세분화를 위한 종단간 네트워크 모델 - Google Patents

고해상도 이미지 세분화를 위한 종단간 네트워크 모델 Download PDF

Info

Publication number
KR20200129168A
KR20200129168A KR1020207031798A KR20207031798A KR20200129168A KR 20200129168 A KR20200129168 A KR 20200129168A KR 1020207031798 A KR1020207031798 A KR 1020207031798A KR 20207031798 A KR20207031798 A KR 20207031798A KR 20200129168 A KR20200129168 A KR 20200129168A
Authority
KR
South Korea
Prior art keywords
image
neural network
mask
semantic segmentation
resolution
Prior art date
Application number
KR1020207031798A
Other languages
English (en)
Inventor
노리츠구 가나자와
야엘 프리츠 케이난
Original Assignee
구글 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구글 엘엘씨 filed Critical 구글 엘엘씨
Publication of KR20200129168A publication Critical patent/KR20200129168A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61HPHYSICAL THERAPY APPARATUS, e.g. DEVICES FOR LOCATING OR STIMULATING REFLEX POINTS IN THE BODY; ARTIFICIAL RESPIRATION; MASSAGE; BATHING DEVICES FOR SPECIAL THERAPEUTIC OR HYGIENIC PURPOSES OR SPECIFIC PARTS OF THE BODY
    • A61H33/00Bathing devices for special therapeutic or hygienic purposes
    • A61H33/06Artificial hot-air or cold-air baths; Steam or gas baths or douches, e.g. sauna or Finnish baths
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61HPHYSICAL THERAPY APPARATUS, e.g. DEVICES FOR LOCATING OR STIMULATING REFLEX POINTS IN THE BODY; ARTIFICIAL RESPIRATION; MASSAGE; BATHING DEVICES FOR SPECIAL THERAPEUTIC OR HYGIENIC PURPOSES OR SPECIFIC PARTS OF THE BODY
    • A61H33/00Bathing devices for special therapeutic or hygienic purposes
    • A61H33/06Artificial hot-air or cold-air baths; Steam or gas baths or douches, e.g. sauna or Finnish baths
    • A61H33/063Heaters specifically designed therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G08SIGNALLING
    • G08CTRANSMISSION SYSTEMS FOR MEASURED VALUES, CONTROL OR SIMILAR SIGNALS
    • G08C19/00Electric signal transmission systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/40Bus networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/40Bus networks
    • H04L12/40006Architecture of a communication node
    • H04L12/40045Details regarding the feeding of energy to the node from the bus
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q9/00Arrangements in telecontrol or telemetry systems for selectively calling a substation from a main station, in which substation desired apparatus is selected for applying a control signal thereto or for obtaining measured values therefrom
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61HPHYSICAL THERAPY APPARATUS, e.g. DEVICES FOR LOCATING OR STIMULATING REFLEX POINTS IN THE BODY; ARTIFICIAL RESPIRATION; MASSAGE; BATHING DEVICES FOR SPECIAL THERAPEUTIC OR HYGIENIC PURPOSES OR SPECIFIC PARTS OF THE BODY
    • A61H2201/00Characteristics of apparatus not provided for in the preceding codes
    • A61H2201/01Constructive details
    • A61H2201/0173Means for preventing injuries
    • A61H2201/0176By stopping operation
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61HPHYSICAL THERAPY APPARATUS, e.g. DEVICES FOR LOCATING OR STIMULATING REFLEX POINTS IN THE BODY; ARTIFICIAL RESPIRATION; MASSAGE; BATHING DEVICES FOR SPECIAL THERAPEUTIC OR HYGIENIC PURPOSES OR SPECIFIC PARTS OF THE BODY
    • A61H2201/00Characteristics of apparatus not provided for in the preceding codes
    • A61H2201/02Characteristics of apparatus not provided for in the preceding codes heated or cooled
    • A61H2201/0207Characteristics of apparatus not provided for in the preceding codes heated or cooled heated
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61HPHYSICAL THERAPY APPARATUS, e.g. DEVICES FOR LOCATING OR STIMULATING REFLEX POINTS IN THE BODY; ARTIFICIAL RESPIRATION; MASSAGE; BATHING DEVICES FOR SPECIAL THERAPEUTIC OR HYGIENIC PURPOSES OR SPECIFIC PARTS OF THE BODY
    • A61H2201/00Characteristics of apparatus not provided for in the preceding codes
    • A61H2201/50Control means thereof
    • A61H2201/5007Control means thereof computer controlled
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61HPHYSICAL THERAPY APPARATUS, e.g. DEVICES FOR LOCATING OR STIMULATING REFLEX POINTS IN THE BODY; ARTIFICIAL RESPIRATION; MASSAGE; BATHING DEVICES FOR SPECIAL THERAPEUTIC OR HYGIENIC PURPOSES OR SPECIFIC PARTS OF THE BODY
    • A61H2201/00Characteristics of apparatus not provided for in the preceding codes
    • A61H2201/50Control means thereof
    • A61H2201/5007Control means thereof computer controlled
    • A61H2201/501Control means thereof computer controlled connected to external computer devices or networks
    • A61H2201/5012Control means thereof computer controlled connected to external computer devices or networks using the internet
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61HPHYSICAL THERAPY APPARATUS, e.g. DEVICES FOR LOCATING OR STIMULATING REFLEX POINTS IN THE BODY; ARTIFICIAL RESPIRATION; MASSAGE; BATHING DEVICES FOR SPECIAL THERAPEUTIC OR HYGIENIC PURPOSES OR SPECIFIC PARTS OF THE BODY
    • A61H2201/00Characteristics of apparatus not provided for in the preceding codes
    • A61H2201/50Control means thereof
    • A61H2201/5058Sensors or detectors
    • A61H2201/5071Pressure sensors
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61HPHYSICAL THERAPY APPARATUS, e.g. DEVICES FOR LOCATING OR STIMULATING REFLEX POINTS IN THE BODY; ARTIFICIAL RESPIRATION; MASSAGE; BATHING DEVICES FOR SPECIAL THERAPEUTIC OR HYGIENIC PURPOSES OR SPECIFIC PARTS OF THE BODY
    • A61H2201/00Characteristics of apparatus not provided for in the preceding codes
    • A61H2201/50Control means thereof
    • A61H2201/5058Sensors or detectors
    • A61H2201/5082Temperature sensors
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61HPHYSICAL THERAPY APPARATUS, e.g. DEVICES FOR LOCATING OR STIMULATING REFLEX POINTS IN THE BODY; ARTIFICIAL RESPIRATION; MASSAGE; BATHING DEVICES FOR SPECIAL THERAPEUTIC OR HYGIENIC PURPOSES OR SPECIFIC PARTS OF THE BODY
    • A61H2201/00Characteristics of apparatus not provided for in the preceding codes
    • A61H2201/50Control means thereof
    • A61H2201/5058Sensors or detectors
    • A61H2201/5089Gas sensors, e.g. for oxygen or CO2
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61HPHYSICAL THERAPY APPARATUS, e.g. DEVICES FOR LOCATING OR STIMULATING REFLEX POINTS IN THE BODY; ARTIFICIAL RESPIRATION; MASSAGE; BATHING DEVICES FOR SPECIAL THERAPEUTIC OR HYGIENIC PURPOSES OR SPECIFIC PARTS OF THE BODY
    • A61H2201/00Characteristics of apparatus not provided for in the preceding codes
    • A61H2201/50Control means thereof
    • A61H2201/5058Sensors or detectors
    • A61H2201/5092Optical sensor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Public Health (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Pain & Pain Management (AREA)
  • Epidemiology (AREA)
  • Physical Education & Sports Medicine (AREA)
  • Rehabilitation Therapy (AREA)
  • Animal Behavior & Ethology (AREA)
  • Veterinary Medicine (AREA)
  • Signal Processing (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 고해상도 이미지 세분화를 위해 신경망을 이용하는 시스템 및 방법을 제공한다. 컴퓨팅 시스템은 프로세서, 시맨틱 세분화 신경망 및 에지 개선 신경망을 포함하는 기계 학습 이미지 세분화 모델, 및 프로세서로 하여금 동작들을 수행하게 하는 명령들을 저장하는 적어도 하나의 유형의 비-일시적 컴퓨터 판독 가능 매체를 포함할 수 있다. 상기 동작들은 이미지를 획득하는 단계와, 이미지를 시맨틱 세분화 신경망에 입력하는 단계와, 시맨틱 세분화 신경망의 출력으로서, 시맨틱 세분화 마스크를 수신하는 단계와, 이미지의 적어도 일부 및 시맨틱 세분화의 적어도 일부를 에지 개선 신경망에 입력하는 단계와, 에지 개선 신경망의 출력으로서, 개선된 시맨틱 세분화 마스크를 수신하는 단계를 포함한다.

Description

고해상도 이미지 세분화를 위한 종단간 네트워크 모델{END TO END NETWORK MODEL FOR HIGH RESOLUTION IMAGE SEGMENTATION}
본 발명는 일반적으로 이미지 세분화(image segmentation)에 관한 것이다. 보다 구체적으로, 본 발명는 종단간에 트레이닝될 수 있는 고해상도 이미지 세분화를 위한 네트워크 모델에 관한 것이다.
이미지 세분화(예를 들어, 시맨틱 세분화)는 디지털 이미지를 다수의 세그먼트로 분할하는데 사용될 수 있다. 예를 들어, 이미지는 특정 경계(선, 곡선 등)가 있는 객체들로 세분화되거나 그 이미지의 전경 또는 배경 내의 요소들로 분할될 수 있다. 특히, 이미지의 각 픽셀은 동일한 라벨을 갖는 픽셀들이 특정 특성을 공유하도록 라벨링될 수 있다. 일단 세분화되면, 예를 들어 세그먼트들을 추출하거나 그 세그먼트들에 따라 이미지의 일부를 블러링함으로써 이미지가 조작될 수 있다.
컨볼루션 신경망(convolutional neural network)("CNN")과 같은 신경망은 이미지 세분화를 수행하는 능력을 보여 주었다. 그러나, 이미지 세분화를 수행하기 위해 필요한 계산 강도로 인하여, 이미지를 세분화하도록 구성된 CNN의 입력 및 출력 해상도는 일반적으로 256×256, 300×300 또는 400×400 픽셀과 같이 제한된다. 따라서, 이러한 CNN으로부터 출력된 세분화(된) 이미지는 그 이미지의 해상도가 낮아서 사용자에게 제한된 가치를 가질 수 있다.
출력 세분화 이미지의 해상도를 증가시키기 위한 하나의 기술은 양방향 필터 또는 조건부 랜덤 필드 프로세스를 사용하여 출력 세분화 이미지를 더 높은 해상도로 업-스케일링하는 것이다. 그러나, CNN 및 업-스케일링 방법은 이러한 구성에서 프로세스를 분리하기 때문에, CNN은 고해상도 세분화 이미지에 기초하여 출력 오류를 역 전파하는 것에 의해서와 같이 종단간에 트레이닝될 수 없다.
본 발명의 실시예들의 양태 및 이점은 다음의 설명에서 부분적으로 설명되거나, 설명으로부터 학습될 수 있거나, 실시예들의 실시를 통해 학습될 수 있다.
본 발명의 하나의 예시적인 양태은, 적어도 하나의 프로세서, 기계 학습(된) 이미지 세분화 모델, 및 적어도 하나의 프로세서에 의해 실행될 때 적어도 하나의 프로세서로 하여금 동작들을 수행하게 하는 명령들을 저장하는 적어도 하나의 유형의 비-일시적 컴퓨터 판독 가능 매체를 포함하는 컴퓨팅 시스템에 관한 것이다. 기계 학습 이미지 세분화 모델은 시맨틱 세분화 신경망 및 에지 개선 신경망을 포함할 수 있다. 시맨틱 세분화 신경망은 이미지를 수신하고 그 이미지의 수신에 응답하여 시맨틱 세분화 마스크를 출력하도록 트레이닝될 수 있다. 에지 개선 신경망은 이미지의 적어도 일부 및 시맨틱 세분화 마스크의 적어도 일부를 수신하고, 그 이미지의 적어도 일부 및 시맨틱 세분화 마스크의 적어도 일부의 수신에 응답하여, 개선된 시맨틱 세분화 마스크를 출력하도록 트레이닝될 수 있다. 상기 동작들은 이미지를 획득하는 단계와, 이미지를 시맨틱 세분화 신경망에 입력하는 단계와, 시맨틱 세분화 신경망의 출력으로서, 시맨틱 세분화 마스크를 수신하는 단계와, 상기 이미지의 적어도 일부 및 시맨틱 세분화의 적어도 일부를 에지 개선 신경망에 입력하는 단계와, 그리고 에지 개선 신경망의 출력으로서, 상기 개선된 시맨틱 세분화 마스크를 수신하는 단계를 포함할 수 있다.
본 발명의 다른 예시적인 양태는 이미지의 적어도 일부에 대한 세분화 마스크를 생성하는 컴퓨터 구현 방법에 관한 것이다. 상기 방법은 제 1 신경망에서, 이미지로부터 도출된 제 1 데이터를 수신하는 단계를 포함할 수 있다. 상기 방법은 제 1 신경망을 사용하여, 제 1 신경망의 출력을 생성하도록 제 1 데이터를 처리하는 단계를 더 포함하고, 상기 출력은 제 1 세분화 마스크와 관련된다. 상기 방법은 제 2 신경망에서, 이미지로부터 도출된 제 2 데이터 및 제 1 신경망의 출력으로부터 도출된 데이터를 수신하는 단계를 더 포함할 수 있다. 상기 방법은 제 2 세분화 마스크와 관련된 데이터를 생성하는 단계로서, 상기 제 2 세분화 마스크가 제 1 세분화 마스크에 대해 개선되도록 상기 제 2 신경망을 이용하여, 상기 이미지로부터 도출된 제 2 데이터 및 상기 제 1 신경망의 출력으로부터 도출된 데이터를 처리하는 단계를 포함한다.
본 발명의 다른 예시적인 양태는 이미지 세분화 모델을 종단간에 트레이닝시키는 컴퓨터 구현 방법에 관한 것이다. 이미지 세분화 모델은 시맨틱 세분화 신경망 및 에지 개선 신경망을 포함할 수 있다. 상기 방법은 트레이닝 이미지를 이미지 세분화 모델에 입력하는 단계를 포함할 수 있다. 상기 방법은 시맨틱 세분화 신경망에 대한 제 1 손실 함수를 결정하는 단계를 더 포함할 수 있다. 상기 방법은 에지 개선 신경망에 대한 제 2 손실 함수를 결정하는 단계를 더 포함할 수 있다. 상기 방법은 제 1 손실 함수 및 제 2 손실 함수에 적어도 부분적으로 기초하여 총 손실 함수를 결정하는 단계를 더 포함할 수 있다. 상기 방법은 총 손실 함수에 기초하여 이미지 세분화 모델을 트레이닝시키는 단계를 더 포함할 수 있다.
본 발명의 다른 양태는 다양한 시스템, 장치, 비-일시적 컴퓨터 판독 가능 매체, 사용자 인터페이스 및 전자 디바이스에 관한 것이다.
본 발명의 다양한 실시예의 이들 및 다른 특징, 양태 및 이점은 다음의 설명 및 첨부된 청구 범위를 참조하여 더 잘 이해될 것이다. 본 명세서에 포함되어 본 명세서의 일부를 구성하는 첨부 도면들은 본 발명의 예시적인 실시예를 예시하고, 상세한 설명과 함께 관련 원리를 설명하는 역할을 한다.
본 기술 분야의 통상의 기술자를 대상으로 하는 실시예들의 상세한 설명이 첨부 도면을 참조하여 본 명세서에서 제시된다.
도 1은 본 발명의 예시적인 양태에 따른 예시적인 컴퓨팅 시스템의 블록도를 도시한다.
도 2는 본 발명의 예시적인 양태들에 따른 예시적인 이미지 세분화 모델의 블록도를 도시한다.
도 3은 본 발명의 예시적인 양태들에 따른 예시적인 이미지 세분화 모델의 블록도를 도시한다.
도 4는 본 발명의 예시적인 양태들에 따른 예시적인 에지 개선 신경망의 블록도를 도시한다.
도 5는 본 발명의 예시적인 양태들에 따른 예시적인 에지 개선 신경망의 블록도를 도시한다.
도 6은 본 발명의 예시적인 양태들에 따른 예시적인 이미지 세분화 모델 트레이닝 프로세스의 블록도를 도시한다.
도 7은 본 발명의 예시적인 양태에 따른 개선된 시맨틱 세분화 마스크를 결정하는 예시적인 방법의 흐름도를 도시한다.
도 8은 본 발명의 예시적인 양태에 따른 개선된 시맨틱 세분화 마스크를 결정하기 위한 예시적인 방법의 흐름도를 도시한다.
도 9는 본 발명의 예시적인 양태에 따른 이미지 세분화 모델을 트레이닝시키기 위한 예시적인 방법의 흐름도를 도시한다.
본 발명의 예시적인 양태는 이미지의 개선된 시맨틱 세분화 마스크를 결정하기 위해 기계 학습을 이용하는 시스템 및 방법에 관한 것이다. 특히, 본 발명의 시스템 및 방법은 하나 이상의 신경망을 포함하는 기계-학습(된) 이미지 세분화 모델을 포함하고 사용할 수 있다. 일 예에서, 기계-학습 이미지 세분화 모델은 시맨틱 세분화 마스크를 제공하도록 구성된 제 1 신경망 및 그 시맨틱 세분화 마스크를 개선(refine)하도록 구성된 제 2 신경망을 포함할 수 있다. 이러한 예에서, 컴퓨팅 시스템은 이미지를 수신하고, 그 이미지를 제 1 신경망에 입력하여 시맨틱 세분화 마스크를 수신하고, 시맨틱 세분화 마스크의 적어도 일부 및 이미지의 적어도 일부를 제 2 신경망에 이미지으로 입력하고, 개선된 시맨틱 세분화 마스크를 제 2 신경망의 출력으로서 수신할 수 있다. 상기 개선된 시맨틱 세분화 마스크는 예를 들어, 원래의 시맨틱 세분화 마스크에 비해 개선된 경계 및/또는 더 높은 해상도를 갖는 그 이미지의 시맨틱 세분화 마스크일 수 있다. 예를 들어 일부 구현들에서, 개선된 시맨틱 세분화 마스크는 시맨틱 세분화 마스크에 비해 더 선명한(sharper) 에지를 가질 수 있고 및/또는 개선된 시맨틱 세분화 마스크는 시맨틱 세분화 마스크에 비해 이미지의 적어도 일부의 전경과 배경을 보다 정확하게 분리할 수 있다.
특히, 본 발명의 일 양태에 따르면, 제 1 신경망은 이미지를 수신하고 그 이미지의 시맨틱 세분화 마스크를 결정하도록 구성된 시맨틱 세분화 신경망(예를 들어, CNN)일 수 있다. 일 예에서, 사용자는 사용자 컴퓨팅 디바이스상의 이미지를 선택하여 이미지 세분화 모델로 제공할 수 있다. 컴퓨팅 디바이스는 이미지를 시맨틱 세분화 신경망에 입력하고 그 이미지의 시맨틱 세분화 마스크를 수신할 수 있다. 시맨틱 세분화 마스크는 이미지를 관련 세그먼트들(조각)(예를 들어, 이미지의 전경에 있는 사람 및 배경)로 분할(partition)할 수 있다. 예를 들어, 이미지가 분할된 세그먼트들은 별개의 시맨틱 개념에 각각 대응하는 시맨틱적으로 별개의 세그먼트일 수 있다.
컴퓨팅 디바이스는 시맨틱 세분화 마스크의 적어도 일부 및 이미지의 적어도 일부를 제 2 신경망에 제공할 수 있다. 예를 들어, 제 2 신경망은 시맨틱 세분화 마스크 및 이미지를 수신하여 개선된 시맨틱 세분화 마스크를 제 2 신경망의 출력으로서 제공하도록 구성된 에지 개선 신경망(예를 들어, CNN)일 수 있다. 상기 개선된 시맨틱 세분화 마스크는 이미지의 세분화된 영역들 사이에서 개선된 에지(예를 들어, 보다 뚜렷한/명확하게 정의된 경계)를 가질 수 있고 및/또는 시맨틱 세분화 마스크보다 더 높은 해상도일 수 있다.
이어서, 개선된 시맨틱 세분화 마스크는 컴퓨팅 디바이스에 의해 사용되어, 이미지의 배경에서와 같이 블러링(blurred) 효과를 갖는 이미지를 생성할 수 있다. 예를 들어, 이미지는 개선된 시맨틱 세분화 마스크에 기초하여 이미지의 배경 영역에서 블러링되어, 블러링된 배경 효과(예를 들어, "보케(bokeh)" 효과)를 생성할 수 있다. 이와 같이, 컴퓨팅 디바이스는 본 발명의 예시적인 양태들에 따라 단일 이미지 및 상기 이미지 세분화 모델을 사용하여 블러링된 배경 이미지를 생성할 수 있다.
또한, 본 명세서에서 더 상세히 논의될 바와 같이, 이미지 세분화 모델은 개선된 세분화 마스크를 결정하기 위해 종단간에(from end-to-end) 트레이닝될 수 있으며, 이에 의해 트레이닝을 통해 상기 개선된 시맨틱 세분화 마스크의 품질이 향상될 수 있다.
보다 구체적으로, 일부 구현들에서, 컴퓨팅 시스템은 적어도 하나의 프로세서 및 그 적어도 하나의 프로세서에 의해 실행될 때 적어도 하나의 프로세서로 하여금 동작들을 수행하게 하는 명령들을 저장하는 적어도 하나의 유형(有形)의 비-일시적 컴퓨터 판독 가능 매체를 포함할 수 있다. 컴퓨팅 시스템은 시맨틱 세분화 신경망 및 에지 개선 신경망을 포함할 수 있는 기계 학습(된) 이미지 세분화 모델을 더 포함할 수 있다.
시맨틱 세분화 신경망은 이미지를 수신하고, 그 이미지의 수신에 응답하여 시맨틱 세분화 마스크를 출력하도록 트레이닝될 수 있다. 예를 들어, 시맨틱 세분화 신경망은 하나 이상의 컨볼루션 계층를 포함하는 CNN일 수 있다. 시맨틱 세분화 마스크는 이미지를, 예를 들어 전경 및 배경 또는 다른 시맨틱 세그먼트들 및/또는 깊이 계층과 같은 복수의 세그먼트로 세분화하거나 분할할 수 있다. 일부 구현들에서, 시맨틱 세분화에 의해 결정된 시맨틱 세분화 마스크는 픽셀 당 16 개의 특징들(features)에 대한 값을 포함할 수 있거나 그렇지 않으면 16 개의 채널들에 따라 세분화될 수 있다. 따라서, 일 예로서, 시맨틱 세분화 신경망의 출력 계층의 깊이는 16일 수 있다. 복수의 특징을 사용하면 단일 특징 시맨틱 세분화 마스크보다 더 정확하게 개선된 시맨틱 세분화 마스크를 예측할 수 있다. 예를 들어, 모발, 피부, 의복, 신체 특징 등에 관한 정보가 시맨틱 세분화 네트워크로부터 에지 개선 네트워크로 전달될 수 있다. 다른 구현들에서, 시맨틱 세분화 마스크는 2 개 또는 3 개의 채널을 가질 수 있다.
에지 개선 신경망은 이미지의 적어도 일부 및 시맨틱 세분화 마스크의 적어도 일부를 수신하고, 이에 응답하여 개선된 시맨틱 세분화 마스크를 출력하도록 트레이닝될 수 있다. 예를 들어, 에지 개선 신경망은 하나 이상의 컨볼루션 계층을 포함하는 CNN일 수 있다. 상기 개선된 시맨틱 세분화 마스크는 예를 들어, 시맨틱 세분화 마스크와 비교하여 더 높은 해상도, 보다 명확하게 정의된 경계, 보다 정확한 경계, 또는 다른 개선을 가짐으로써 개선될 수 있다.
상기 명령들은 프로세서로 하여금 이미지를 획득하여, 그 이미지를 시맨틱 세분화 신경망에 입력하게 할 수 있다. 예를 들어, 사용자는 사용자 컴퓨팅 디바이스를 사용하여 이미지 세분화 모델에 제공할 이미지를 선택할 수 있다. 일부 구현들에서, 이미지 세분화 모델은 사용자 컴퓨팅 디바이스에 저장되거나 그렇지 않으면 사용자 컴퓨팅 디바이스에 포함될 수 있다. 일부 구현들에서, 이미지 세분화 모델은 원격 컴퓨팅 시스템에 저장될 수 있고, 이미지는 예를 들어 하나 이상의 유선 또는 무선 네트워크를 통해서와 같이 원격 컴퓨팅 시스템으로 제공될 수 있다.
일부 구현들에서, 이미지는 고해상도 이미지일 수 있다. 본 명세서에서 사용되는 바와 같이, 이미지와 관련하여 사용될 때 "고해상도"라는 용어는 제 2 해상도(예를 들어, 256×256)에서의 이미지 버전보다 더 높은 해상도의 이미지인 제 1 해상도(예를 들어, 2048×2048 픽셀)에서의 이미지 버전을 지칭한다. 유사하게, 이미지와 관련하여 사용될 때 "저해상도"라는 용어는 더 높은 해상도에서의 이미지 버전보다 낮은 해상도에서의 이미지 버전을 지칭한다. 위에 제공된 예시적인 해상도는 예시적인 것으로만 제공된다. 고해상도 및 저해상도 이미지에 다양한 해상도를 사용할 수 있다.
일부 구현들에서, 고해상도 이미지를 그 이미지의 저해상도 버전으로 다운-스케일링하고 저해상도 이미지를 시맨틱 세분화 신경망에 입력함으로써 고해상도 이미지가 시맨틱 세분화 신경망에 입력될 수 있다. 예를 들어, 고해상도 이미지를 다운-스케일링는데 최근접 이웃 보간법, 쌍선형 및 쌍입방 알고리즘, Sinc 및 Laszos 리샘플링, 푸리에 변환 방법, 에지-지향 보간법, 벡터화, 심층 컨볼루션 신경망 또는 기타 다운-스케일링 기술과 같은 여러 기술들이 적용될 수 있다.
일부 구현들에서, 시맨틱 세분화 신경망은 저해상도 이미지의 수신하는 것에 응답하여 저해상도 시맨틱 세분화 마스크를 출력할 수 있다. 예를 들어, 저해상도 이미지(예를 들어, 256×256 이미지)가 시맨틱 세분화 신경망에 입력될 수 있고, 대응하는 저해상도 시맨틱 세분화 마스크가 (예를 들어, 대응하는 256×256 픽셀에서) 시맨틱 세분화 신경망에 의해 출력될 수 있다.
본 발명의 추가의 양태들에 따르면, 시맨틱 세분화 신경망의 적어도 일부는 에지 개선 신경망에 입력될 수 있다. 예를 들어, 일부 구현들에서, 시맨틱 세분화 신경망으로부터 수신된 시맨틱 세분화 마스크는 저해상도 시맨틱 세분화 마스크일 수 있다. 저해상도 시맨틱 세분화 마스크는 고해상도 시맨틱 세분화 마스크로 업 스케일*될 수 있고, 이어서 고해상도 시맨틱 세분화 마스크는 에지 개선 신경망에 입력될 수 있다. 예를 들어, 일부 구현들에서, 저해상도 시맨틱 세분화 마스크는 시맨틱 세분화 신경망으로 제공된 저해상도 이미지를 획득하기 위해 다운-스케일링된 고해상도 이미지의 원래 해상도로 다시 업-스케일링(확대)될 수 있다.
부가적으로, 이미지의 적어도 일부는 에지 개선 신경망으로 입력될 수 있다. 예를 들어, 일부 구현들에서, 고해상도 이미지는 고해상도 시맨틱 세분화 마스크와 함께 에지 개선 신경망으로 입력될 수 있다.
일부 구현들에서, 고해상도 이미지는, 예를 들어 고해상도 이미지의 일부를 랜덤하게 절단(cropping)하여 그 절단된 부분을 에지 개선 신경망에 제공함으로써 샘플링될 수 있다. 유사하게, 일부 구현들에서, 고해상도 시맨틱 세분화 마스크의 대응 부분은 절단되어 에지 개선 신경망에 제공될 수 있다. 고해상도 시맨틱 세분화 마스크의 일부는 예를 들어, 고해상도 이미지에서 랜덤하게 절단된 것과 동일한 고해상도 시맨틱 세분화 마스크의 영역일 수 있다.
일부 구현들에서, 에지 개선 신경망은 입력을 개별적으로 수신하는 2 개의 인코더 네트워크를 포함할 수 있다. 특히 예를 들어, 이미지(또는 그의 일부)는 에지 개선 신경망의 제 1 인코더 네트워크로 입력될 수 있고, 시맨틱 세분화 마스크(또는 그의 일부)는 에지 개선 신경망의 제 2 인코더 네트워크로 입력될 수 있다. 따라서, 일부 구현들에서, 에지 개선 신경망은 제 1 헤드는 이미지 인코더 네트워크에 대응하고 제 2 헤드는 시맨틱 세분화 마스크 인코더 네트워크에 대응하는 2 개의 헤드를 포함하는 네트워크일 수 있다. 각각의 인코더 네트워크는 이미지 또는 시맨틱 세분화 마스크를 각각 인코딩하는 하나 이상의 컨볼루션 계층를 포함할 수 있다.
각각의 인코더 네트워크는 인코딩된 출력을 출력하도록 구성될 수 있다. 예를 들어, 제 1 인코더 네트워크(예를 들어, 이미지 인코더 네트워크)는 제 1 인코딩(된) 출력(예를 들어, 인코딩된 이미지)을 출력할 수 있고, 제 2 인코더 네트워크(예를 들어, 시맨틱 세분화 마스크 인코더 네트워크)는 제 2 인코딩 출력(예를 들어, 인코딩된 시맨틱 세분화 마스크)을 출력할 수 있다. 에지 개선 신경망은 제 1 인코딩 출력 및 제 2 인코딩 출력을 연결된(concatenated) 인코딩 출력으로 연결할 수 있다. 예를 들어, 각각의 인코더 네트워크는 이미지 또는 시맨틱 세분화 마스크의 해상도를 각각 감소시키도록 구성될 수 있고, 상기 2개의 인코더 네트워크의 인코딩 출력은 각각의 해상도가 감소되어 사전 결정된 최소 해상도가 될 때 연결될 수 있다.
그런 다음, 상기 연결된 인코딩된 출력은 에지 개선 신경망의 디코더 네트워크로 제공될 수 있다. 예를 들어, 디코더 네트워크는 상기 연결된 인코딩 출력의 해상도가 원래의 입력 해상도에 도달할 때까지 상기 연결된 인코딩 출력을 확장하도록 구성된 하나 이상의 컨볼루션 계층를 포함할 수 있다. 일부 구현들에서, 디코더 네트워크는 상기 개선된 시맨틱 세분화 마스크를 추출하도록 구성된 에지 추론 계층을 포함할 수 있다. 상기 개선된 시맨틱 세분화 마스크는 에지 개선 신경망의 디코더 네트워크의 출력으로서 수신될 수 있다. 개선된 시맨틱 세분화 마스크는 예를 들어 시맨틱 세분화 신경망으로부터 수신된 시맨틱 세분화 마스크보다 높은 해상도일 수 있다. 부가적으로, 일부 구현들에서, 에지 개선 신경망에 의해 생성된 상기 개선된 시맨틱 세분화 마스크는 16개의 특징 또는 채널을 포함할 수 있다.
일단 개선된 시맨틱 세분화 마스크가 이미지 세분화 모델에 의해 결정되면, 그 개선된 시맨틱 세분화 마스크에 적어도 부분적으로 기초하여 이미지의 적어도 일부가 블러링될 수 있다. 예를 들어, 개선된 시맨틱 세분화 마스크는 이미지의 배경으로부터 이미지의 전경내의 사람/객체를 세분화화할 수 있다. 일부 구현들에서, 이미지의 배경은 블러링 효과 (예를 들어, "보케" 효과)를 생성하기 위해 블러링될 수 있다. 다른 깊이 계층(예를 들어, 사용자-선택 깊이에 대응하는 계층)은 배경에 부가하여 또는 대안적으로 블러링될 수 있다.
본 발명의 예시적인 양태에 따른 시스템 및 방법에 의해 제공되는 이점은 이미지 세분화 모델이 종단간에 트레이닝될 수 있다는 점이다. 예를 들어, 하나 이상의 트레이닝 이미지와 같은 트레이닝 데이터를 사용하면, 전체 손실 함수가 개선된 시맨틱 세분화 마스크에 기초하여 결정될 수 있다. 이후 이미지 세분화 모델은 전체 손실 함수에 적어도 부분적으로 기초하여 트레이닝될 수 있다.
예를 들어, CNN과 같은 신경망 모델은 많은 어려운 이미징 문제를 해결할 수 있는 능력을 보여 주었지만, 대부분의 경우 입력 및 대응하는 출력 이미지는 전형적으로 256×256, 300×300 또는 400×400과 같이 저해상이다. 일반적으로, 입력 및 출력 이미지의 해상도는 신경망 모델에 필요한 계산량을 줄이기 위해 저해상도로 유지된다. 신경망 모델의 출력으로서 수신된 이미지의 해상도 품질을 향상시키는 한 가지 기술은 양자 필터 또는 조건부 랜덤 필드와 같은 하나 이상의 업-스케일링 기술을 사용하는 것이다. 그러나, 이러한 업 스케일링 기술의 사용은 신경망 모델을 통한 오류의 역 전파를 허용하지 않으므로, 역 전파에 의한 신경망 모델의 트레이닝을 방해한다.
그러나, 본 발명의 예시적인 양태에 따른 시스템 및 방법은 이미지 세분화 모델이 예를 들어 오류의 역 전파에 의해 종단간에 트레이닝될 수 있게 한다. 예를 들어, 본 발명의 추가 예시적인 양태에 따르면, 이미지 세분화 모델은 트레이닝 이미지를 이미지 세분화 모델에 입력함으로써 끝에서 끝까지 트레이닝될 수 있다. 트레이닝 이미지는 예를 들어 복수의 트레이닝 이미지를 포함하는 트레이닝 데이터 세트로부터의 이미지일 수 있다. 각각의 트레이닝 이미지는, 예를 들어, 각각의 시맨틱 세분화 및 에지 개선 신경망을 트레이닝하는데 사용되는 이미지에 대한 시맨틱 세분화 마스크의 대응하는 실측(ground-truth) 버전을 가질 수 있다.
예를 들어, 트레이닝 이미지는 이미지 세분화 모델에 입력되어, 시맨틱 세분화 신경망에 대한 제 1 손실 함수가 결정될 수 있다. 예를 들어, 트레이닝 이미지는 시맨틱 세분화 신경망에 입력될 수 있고, 트레이닝 이미지의 시맨틱 세분화 마스크는 시맨틱 세분화 신경망의 출력으로서 수신될 수 있다. 일부 구현들에서, 시맨틱 세분화 마스크의 단일 채널이 추출될 수 있다. 예를 들어, 일부 구현들에서, 시맨틱 세분화 신경망은 예를 들어 추론 계층을 사용하여, 복수의 채널들을 포함하는 시맨틱 세분화 마스크로부터 단일 채널을 추출할 수 있다. 추론 계층은 예를 들어 시맨틱 세분화 마스크(예를 들어, 흑 및 백 시맨틱 세분화 마스크)로부터 단일 채널을 추출하도록 구성된 계층일 수 있다.
제 1 손실 함수는 예를 들어 시맨틱 세분화 마스크와 실측 시맨틱 세분화 마스크 사이의 차이를 결정함으로써 결정될 수 있다. 예를 들어, 실측 시맨틱 세분화 마스크는 트레이닝 이미지에 대해 미리 결정된 시맨틱 세분화 마스크에 대응할 수 있다. 제 1 손실 함수는 시맨틱 세분화 마스크와 실측 시맨틱 세분화 마스크의 차이를 기술할 수 있다.
일부 구현들에서, 트레이닝 이미지는 고해상도 트레이닝 이미지일 수 있고, 이는 먼저 트레이닝 이미지의 저해상도 버전으로 다운-스케일링(축소)될 수 있고, 저해상도 트레이닝 이미지는 저해상도 시맨틱 세분화 마스크를 결정하기 위해 시맨틱 세분화 신경망에 입력될 수 있다. 저해상도 시맨틱 세분화 마스크(또는 이의 단일 채널)는 저해상도 실측 시맨틱 세분화 마스크와 비교되어 제 1 손실 함수를 결정할 수 있다.
일부 구현들에서, 시맨틱 세분화 신경망은 제 1 손실 함수에 적어도 부분적으로 기초하여 트레이닝될 수 있다. 예를 들어, 시맨틱 세분화 신경망은 실측 시맨틱 세분화 마스크에 비해 그 시맨틱 세분화 마스크로부터 오류를 역 전파함으로써 트레이닝될 수 있다.
상기 트레이닝 방법은 에지 개선 신경망에 대한 제 2 손실 함수를 결정하는 단계를 더 포함할 수 있다. 예를 들어, 시맨틱 세분화 마스크는 시맨틱 세분화 신경망로부터 수신될 수 있고, 시맨틱 세분화 신경망의 적어도 일부는 트레이닝 이미지의 적어도 일부와 함께 에지 개선 신경망으로 입력될 수 있다.
일부 구현들에서, 시맨틱 세분화 마스크는 저해상도 시맨틱 세분화 마스크일 수 있는 반면, 트레이닝 이미지는 고해상도 트레이닝 이미지일 수 있다. 고해상도 트레이닝 이미지의 적어도 일부가 에지 개선 신경망에 입력될 수 있다. 저해상도 시맨틱 세분화 마스크는 시맨틱 세분화 마스크의 고해상도 버전으로 업-스케일링될 수 있고, 고해상도 시맨틱 세분화 마스크의 적어도 일부는 에지 개선 신경망으로 입력될 수 있다. 예를 들어 일부 구현들에서, 트레이닝 이미지는 랜덤하게 절단될 수 있고, 상기 트레이닝 이미지의 절단된 부분(section) 및 에지 세분화 신경망에 입력된 고해상도 시맨틱 세분화 마스크의 대응하는 절단(crop)과 함께, 고해상도 시맨틱 세분화 마스크의 대응하는 절단이 절단될 수 있다.
개선된 시맨틱 세분화 마스크는 에지 개선 신경망의 출력으로서 수신될 수 있다. 제 2 손실 함수는 개선된 시맨틱 세분화 마스크 및 실측 개선된 시맨틱 세분화 마스크 사이의 차이에 적어도 부분적으로 기초하여 결정될 수 있다. 예를 들어, 실측 개선된 세분화 마스크는 트레이닝 이미지에 대해 미리 결정된 개선된 시맨틱 세분화 마스크에 해당할 수 있다. 제 2 손실 함수는 개선된 시맨틱 세분화 마스크 및 실측 개선된 시맨틱 세분화 마스크 사이의 차이를 기술할 수 있다.
일부 구현들에서, 에지 개선 신경망는 제 2 손실 함수에 적어도 부분적으로 기초하여 트레이닝될 수 있다. 예를 들어, 에지 개선 신경망은 실측 개선된 시맨틱 세분화 마스크와 비교하여 상기 개선된 시맨틱 세분화 마스크로부터 오류를 역 전파함으로써 트레이닝될 수 있다.
상기 트레이닝 방법은 제 1 손실 함수 및 제 2 손실 함수에 적어도 부분적으로 기초하여 이미지 세분화 모델에 대한 총 손실 함수를 결정하는 단계를 더 포함할 수 있다. 예를 들어, 일부 구현들에서, 총 손실 함수는 제 1 손실 함수와 제 2 손실 함수를 합산함으로써 결정될 수 있다. 그런 다음 그 총 손실 함수에 기초하여 이미지 세분화 모델이 트레이닝될 수 있다. 예를 들어, 이미지 세분화 모델은 이미지 세분화 모델을 통해 총 손실 함수의 오류를 역 전파함으로써 트레이닝될 수 있다.
일부 구현들에서, 시맨틱 세분화 신경망는 먼저 본 명세서에 기술된 바와 같이, 제 1 손실 함수를 사용하여 역 전파 오류에 의해 트레이닝될 수 있다. 일단 시맨틱 세분화 신경망이 허용 가능한 임계값 미만의 제 1 손실 함수를 달성하도록 트레이닝되면, 에지 개선 신경망은 본 명세서에 기술된 바와 같이 제 2 손실 기능을 이용하여 트레이닝될 수 있다. 일단 에지 개선 신경망이 허용 가능한 임계값 미만의 제 2 손실 함수를 달성하도록 트레이닝되면, 이미지 세분화 모델은 본 명세서에 기술된 바와 같이 전체 손실 함수에 적어도 부분적으로 기초하여 트레이닝될 수 있다.
따라서, 본 발명은 고해상도 이미지 세분화의 기술적 문제에 대한 기술적, 기계 학습 기반의 솔루션을 제공한다. 본 발명의 하나의 예시적인 이점은 개선된 이미지 세분화 정확도/품질이다. 특히, 다양한 구현들은 다른 방법들에 의해 생성된 세분화 마스크에 비해, 이미지의 세분화된 영역들사이에서 더 고해상도이고 및/또는 개선된 에지들(예를 들어, 보다 뚜렷한/명확하게 정의된 경계들)을 갖는 개선된 세분화 마스크를 제공할 수 있다. 또한, 본 명세서에 기술된 다중-특징 신경망은 단일 특징 신경망에 비해 훨씬 더 풍부한 이미지 세분화 예측 능력을 제공할 수 있다. 이와 같이, 본 발명의 이미지 세분화 모델은 우수한 이미지 세분화 정확도를 제공할 수 있다.
개선된 이미지 세분화 정확도/품질에 더하여, 본 발명의 예시적인 양태는 예를 들어, 이미지 세분화 모델을 종단간에 트레이닝시키는 능력을 포함하여 다수의 추가적인 기술적 이점을 야기할 수 있다. 예를 들어, 다양한 구현에서, 이미지 세분화 모델은 각각의 신경망으로부터 결정된 손실을 포함하는 총 손실 함수를 사용하여 트레이닝될 수 있으며, 양쪽 신경망을 통한 오류의 역 전파에 의해 종단간 트레이닝이 가능하다. 이것은 이미지 세분화 모델의 개선(refinement)을 추가로 허용할 수 있다. 또한, 일부 실시예에서, 본 명세서에 기술된 바와 같이 이미지 세분화 모델의 신경망을 개별적으로 트레이닝하는데 사용될 수 있는 이미지의 실측 버전을 포함하는 트레이닝 데이터 세트가 컴파일될 수 있다. 따라서, 각 신경망은 트레이닝 데이터의 서브 세트를 사용하여 개선될 수 있다.
본 발명의 다른 기술적 이점은 비교적 적은 메모리 사용/요구 사항이다. 특히, 본 명세서에 기술된 신경망은 트레이닝 데이터를 효과적으로 요약하고 이를 컴팩트 형태(예를 들어, 신경망 자체)로 압축한다. 이것은 이미지 세분화 알고리즘을 저장하고 구현하는데 필요한 메모리 양을 크게 줄인다. 또한, 본 명세서에 기술된 신경망는 개별 사용자의 스마트 폰과 같은 사용자 컴퓨팅 디바이스 또는 네트워크화된 아키텍처를 통해 구현될 수 있어, 사용자에 대한 유연성을 증가시킨다.
본 발명의 다른 예시적인 기술적 이점은 개선된 확장성이다. 특히, 신경망을 통해 이미지를 시맨틱적(의미적)으로 세분화하는 것은 수동으로 이미지 세분화 알고리즘을 개발하는 것에 비해 필요한 연구 시간을 대폭적으로 줄인다. 예를 들어, 수동으로 개발된 이미지 세분화 알고리즘은 다양한 시나리오를 설명하기 위해 수동으로 수정해야 할 수도 있다. 대조적으로, 본 명세서에 기술된 바와 같이 신경망을 사용하기 위해, 이미지 세분화 모델은 적절한 트레이닝 데이터에 대해 트레이닝될 수 있으며, 그 트레이닝 시스템이 허용하는 경우 대규모로 수행될 수 있다. 또한, 이미지 세분화 모델은 새로운 트레이닝 데이터가 사용될 수 있으므로 쉽게 수정될 수 있다.
이제 도면들을 참조하여, 본 발명의 예시적인 양태들이 더 상세하게 논의될 것이다. 도 1은 본 발명의 예시적인 양태에 따른 시맨틱 이미지 세분화를 수행하도록 구성된 예시적인 컴퓨팅 시스템(100)을 도시한다. 시스템(100)은 네트워크(180)를 통해 통신 가능하게 결합된 사용자 컴퓨팅 디바이스(102) 및 기계 학습 컴퓨팅 시스템(130)을 포함할 수 있다.
사용자 컴퓨팅 디바이스(102)는 예를 들어, 개인 컴퓨팅 디바이스(예를 들어, 랩탑 또는 데스크탑), 모바일 컴퓨팅 디바이스(예를 들어, 스마트 폰 또는 태블릿), 게임 콘솔 또는 컨트롤러, 웨어러블 컴퓨팅 디바이스, 내장형 컴퓨팅 디바이스, 또는 임의의 다른 유형의 컴퓨팅 디바이스와 같은 임의의 유형의 컴퓨팅 디바이스일 수 있다.
사용자 컴퓨팅 디바이스(102)는 하나 이상의 프로세서(112) 및 메모리(114)를 포함할 수 있다. 하나 이상의 프로세서(112)는 임의의 적합한 처리 디바이스(예를 들어, 프로세서 코어, 마이크로 프로세서, ASIC, FPGA, 컨트롤러, 마이크로 컨트롤러 등)일 수 있으며, 동작 가능하게 연결된 하나의 프로세서 또는 복수의 프로세서일 수 있다. 메모리(114)는 RAM, ROM, EEPROM, EPROM, 플래시 메모리 디바이스, 자기 디스크 등 및 이들의 조합과 같은 하나 이상의 비-일시적 컴퓨터 판독 가능 저장 매체를 포함할 수 있다. 메모리(114)는 프로세서(112)에 의해 실행되어 사용자 컴퓨팅 디바이스(102)로 하여금 동작들을 수행하게 하는 데이터(116) 및 명령들(118)을 저장할 수 있다.
사용자 컴퓨팅 디바이스(102)는 하나 이상의 이미지 세분화 모델(120)을 저장하거나 포함할 수 있다. 예를 들어, 하나 이상의 이미지 세분화 모델(120)은 네트워크(180)를 통해 기계 학습 컴퓨팅 시스템(130)으로부터 수신되고, 사용자 컴퓨팅 디바이스 메모리(114)에 저장되고, 하나 이상의 프로세서(112)에 의해 사용되거나 하나 이상의 프로세서(112)에 의해 구현될 수 있다. 일부 구현들에서, 사용자 컴퓨팅 디바이스(102)는 (예를 들어, 다수의 사용자 입력 이미지에 대한 병렬 이미지 세분화를 수행하기 위해) 이미지 세분화 모델(120)의 다수의 병렬 인스턴스를 구현할 수 있다.
사용자 컴퓨팅 디바이스(102)는 또한 사용자 상호 작용에 의해 사용자 입력을 수신하는 사용자 입력 컴포넌트(122)를 포함할 수 있다. 예를 들어, 사용자 입력 컴포넌트(122)는 사용자 입력 객체(예를 들어, 손가락 또는 스타일러스)의 터치에 민감한 터치 감지 컴포넌트(예를 들어, 터치 감지 디스플레이 스크린 또는 터치 패드)일 수 있다. 그러나, 사용자 입력 컴포넌트(122)는 사용자 입력을 수신할 수 있는 다른 컴포넌트들을 포함할 수 있다. 예를 들어, 사용자 입력 컴포넌트(122)는 키보드, 마우스, 키패드, 버튼, 또는 사용자 입력을 수신하도록 구성된 다른 컴포넌트를 포함할 수 있다. 사용자 입력 컴포넌트(122)는 예를 들어 하나 이상의 이미지 세분화 모델(120)로 입력될 이미지를 선택하는데 사용될 수 있다.
기계 학습 컴퓨팅 시스템(130)은 하나 이상의 프로세서(132) 및 메모리(134)를 포함할 수 있다. 하나 이상의 프로세서(132)는 임의의 적합한 처리 디바이스(예를 들어, 프로세서 코어, 마이크로 프로세서, ASIC, FPGA, 컨트롤러, 마이크로 컨트롤러 등)일 수 있고, 동작 가능하게 연결된 하나의 프로세서 또는 복수의 프로세서일 수 있다. 메모리(134)는 RAM, ROM, EEPROM, EPROM, 플래시 메모리 디바이스, 자기 디스크 등 및 이들의 조합과 같은 하나 이상의 비-일시적 컴퓨터 판독 가능 저장 매체를 포함할 수 있다. 메모리(134)는 기계 학습 컴퓨팅 시스템(130)으로 하여금 동작들을 수행하게 하는 프로세서(132)에 의해 실행되는 데이터(136) 및 명령들(138)을 저장할 수 있다.
일부 구현에서, 기계 학습 컴퓨팅 시스템(130)은 하나 이상의 서버 컴퓨팅 디바이스를 포함하거나 그에 의해 구현될 수 있다. 기계 학습 컴퓨팅 시스템(130)이 복수의 서버 컴퓨팅 디바이스를 포함하는 경우, 이러한 서버 컴퓨팅 디바이스들은 순차적 컴퓨팅 아키텍처, 병렬 컴퓨팅 아키텍처 또는 이들의 일부 조합에 따라 동작할 수 있다.
기계 학습 컴퓨팅 시스템(130)은 하나 이상의 기계-학습(된) 이미지 세분화 모델(140)을 저장하거나 포함할 수 있다. 예를 들어, 이미지 세분화 모델(140)은 신경망(예를 들어, 심층 순환 신경망) 또는 다른 다층 비선형 모델과 같은 다양한 기계 학습 모델일 수 있거나 이들을 포함할 수 있다. 예시적인 이미지 세분화 모델(140)은 도 2 내지 도 6을 참조하여 논의된다.
기계 학습 컴퓨팅 시스템(130)은 모델 트레이너(150) 및 트레이닝 데이터(152)를 통해 이미지 세분화 모델(140)을 트레이닝시킬 수 있다. 일부 구현들에서, 별도의 트레이닝 컴퓨팅 시스템은 기계 학습 컴퓨팅 시스템(130)으로부터 원격 일 수 있고, 네트워크(180)를 통해 기계 학습 컴퓨팅 시스템(130)에 통신 가능하게 연결될 수 있다. 따라서, 모델 트레이너(150)는 기계 학습 컴퓨팅 시스템(130)과 분리될 수 있거나 기계 학습 컴퓨팅 시스템(130)의 일부일 수 있다.
모델 트레이너(150)는 예를 들어, 후방 전파(예를 들어, 시간이 지남에 따라역전파가 잘린)와 같은 다양한 트레이닝 또는 학습 기술을 사용하여 기계 학습 컴퓨팅 시스템(130)에 저장된 기계 학습 모델(140)을 트레이닝시킬 수 있다. 모델 트레이너(150)는 트레이닝되는 모델들의 일반화 능력을 향상시키기 위해 다수의 일반화 기술(예를 들어, 가중치 감소법, 드롭 아웃 등)을 수행할 수 있다.
특히, 모델 트레이너(150)는 트레이닝 데이터(152) 세트에 기초하여 이미지 세분화 모델(140)을 트레이닝할 수 있다. 트레이닝 데이터(152)는 실측 이미지 데이터(예를 들어, 트레이닝 이미지에 대응하는 실측 시맨틱 세분화 마스크)를 포함할 수 있다. 일부 구현들에서, 모델 트레이너(150)는 사용자 컴퓨팅 디바이스(102) 상에 구현되거나 포함될 수 있다.
모델 트레이너(150)는 원하는 기능을 제공하기 위해 이용되는 컴퓨터 로직을 포함할 수 있다. 모델 트레이너(150)는 범용 프로세서를 제어하는 하드웨어, 펌웨어 및/또는 소프트웨어로 구현될 수 있다. 예를 들어, 일부 구현들에서, 모델 트레이너(150)는 저장 디바이스에 저장되고, 메모리에 로드되고 하나 이상의 프로세서에 의해 실행되는 프로그램 파일을 포함한다. 다른 구현들에서, 모델 트레이너(150)는 RAM 하드 디스크 또는 광학 또는 자기 미디어와 같은 유형의 컴퓨터-판독 가능 저장 매체에 저장된 하나 이상의 컴퓨터 실행 가능 명령 세트를 포함한다.
네트워크(180)는 근거리 통신망(예를 들어, 인트라넷), 광역 통신망(예를 들어, 인터넷) 또는 이들의 일부 조합과 같은 임의의 유형의 통신 네트워크 일 수 있으며, 임의의 수의 유선 또는 무선 링크를 포함할 수 있다. 일반적으로, 네트워크(180)를 통한 통신은 다양한 통신 프로토콜(예를 들어, TCP/IP, HTTP, SMTP, FTP), 인코딩 또는 포맷(예를 들어, HTML, XML) 및/또는 보호 체계(예를 들어, VPN, 보안 HTTP, SSL)를 사용하여, 임의의 유형의 유선 및/또는 보호 체계(예를 들어, VPN, 보안 HTTP, SSL)을 사용하여 임의의 유형의 유선 및/또는 무선 연결을 통해 전달될 수 있다
일부 구현들에서, 이미지는 사용자 컴퓨팅 디바이스(102)의 사용자 입력 컴포넌트(122)를 통해 사용자에 의해 선택될 수 있고, 그 후 이미지는 네트워크(180)를 통해 기계 학습 컴퓨팅 시스템(130)에 제공될 수 있다. 이러한 구현들에서, 하나 이상의 이미지 세분화 모델들(140)은 본 명세서에 기술된 바와 같이 이미지 세분화를 수행하기 위해 사용될 수 있고, 네트워크(180)를 통해 대응하는 세분화된 이미지를 사용자 컴퓨팅 디바이스(102)로 제공할 수 있다.
도 1은 본 발명을 구현하기 위해 사용될 수 있는 하나의 예시적인 컴퓨팅 시스템(100)을 도시한다. 다른 컴퓨팅 시스템도 사용될 수 있다. 예를 들어, 일부 구현에서, 사용자 컴퓨팅 디바이스는 모델 트레이너 및 트레이닝 데이터 세트를 포함할 수 있다. 이러한 구현들에서, 이미지 세분화 모델들은 사용자 컴퓨팅 디바이스에서 트레이닝되고 로컬로 사용될 수 있다.
이제 도 2를 참조하면, 본 발명의 예시적인 양태에 따른 예시적인 이미지 세분화 모델(200)의 블록도가 도시되어있다. 이미지 세분화 모델(200)은 서로 연결된 제 1 신경망(210) 및 제 2 신경망(220)을 포함할 수 있다. 제 1 신경망(210)은 이미지(230)를 수신하여 그 이미지(230)의 시맨틱 세분화 마스크(240)를 출력하도록 구성된 시맨틱 세분화 신경망(210)일 수 있다. 제 2 신경망(220)는 이미지(230)의 적어도 일부 및 시맨틱 세분화 마스크(240)의 적어도 일부를 수신하여 개선된 시맨틱 세분화 마스크(250)를 출력하도록 구성된 에지 개선 신경망(220)일 수 있다.
시맨틱 세분화 신경망(210)은 하나 이상의 컨볼루션 계층를 포함하는 CNN일 수 있다. 시맨틱 세분화 마스크(240)는 이미지(230)를 예를 들어 전경 및 배경 또는 다른 시맨틱 세그먼트들 및/또는 깊이 계층들과 같은 복수의 세그먼트로 세분화 화하거나 분할할 수 있다. 일부 구현들에서, 시맨틱 세분화에 의해 결정된 시맨틱 세분화 마스크(240)는 픽셀 당 16개의 특징들에 대한 값들을 포함할 수 있거나 16개의 채널에 따라 세분화될 수 있다. 따라서, 일 예로서, 시맨틱 세분화 신경망(220)의 출력 계층의 깊이는 16일 수 있다. 복수의 특징을 사용하면 단일 특징 시맨틱 세분화 마스크(240)보다 더 정확하게 개선된 시맨틱 세분화 마스크(250)를예측할 수 있다. 예를 들어, 모발, 피부, 의복, 신체 특징 등에 관한 정보는 시맨틱 세분화 신경망(210)로부터 에지 개선 신경망(220)으로 전달될 수 있다. 다른 구현에서, 시맨틱 세분화 마스크(240)는 2개 또는 3개의 채널을 가질 수 있다.
에지 개선 신경망(220)은 이미지(230)의 적어도 일부 및 시맨틱 세분화 마스크(240)의 적어도 일부를 수신하고, 이에 응답하여 개선된 시맨틱 세분화 마스크(250)를 출력하도록 트레이닝될 수 있다. 예를 들어, 에지 개선 신경망(220)은 하나 이상의 컨볼루션 계층를 포함하는 CNN일 수 있다. 개선된 시맨틱 세분화 마스크(250)는 예를 들어, 시맨틱 세분화 마스크(240)와 비교하여 더 높은 해상도, 보다 명확하게 정의된 경계, 보다 정확한 경계, 또는 다른 개선을 가짐으로써 개선될 수 있다.
이제 도 3을 참조하면, 본 발명의 추가의 양태에 따른 예시적인 이미지 세분화 모델(300)이 도시되어 있다. 도시된 바와 같이, 이미지(310)의 고해상도 버전은 이미지(330)의 저해상도 버전을 생성하기 위해 다운 스케일링 컴포넌트(320)로 입력될 수 있다. 예를 들어, 다운 스케일링 컴포넌트(320)는 최근접 이웃 보간, 쌍선형 및 쌍입방 큐빅 알고리즘, Sinc 및 Laszos 리샘플링, 푸리에 변환 방법, 에지 지향 보간, 벡터화, 심층 컨볼루션 신경망 또는 다른 다운 스케일링 기술과 같은 이미지(310)의 고해상도 버전을 다운-스케일링하는 임의의 수의 기술을 수행할 수 있다.
다운 스케일링 컴포넌트(320)는 시맨틱 세분화 신경망(340)에 제공될 수 있는 이미지(330)의 저해상도 버전을 제공할 수 있다. 예로서, 이미지(310)의 고해상도 버전은 제 1 해상도(예를 들어, 2048×2048 픽셀)의 이미지일 수 있는 반면, 이미지(330)의 저해상도 버전은 더 낮은 제 2 해상도(예를 들어, 256×256 픽셀)일 수 있다.
시맨틱 세분화 신경망은 예를 들어 도 2에 도시된 동일하거나 유사한 시맨틱 세분화 신경망(210)일 수 있다. 그런 다음 시맨틱 세분화 신경망(340)은 저해상도 시맨틱 세분화 마스크(350)를 출력할 수 있다. 저해상도 시맨틱 세분화 마스크(350)는 예를 들어 이미지(330)의 저해상도 버전과 동일한 해상도일 수 있다. 이미지(310)의 고해상도 버전을 이미지(330)의 저해상도 버전으로 먼저 다운-스케일링하고 이미지(330)의 저해상도 버전을 시맨틱 세분화 신경망(340)에 제공함으로써 제공되는 이점은, 저해상도 시맨틱 세분화 마스크(350)를 결정하는 계산 강도가 이미지(310)의 고해상도 버전을 시맨틱 세분화 신경망(340)에 직접 입력하는 것보다 상당히 작을 수 있다는 것이다.
그런 다음 저해상도 시맨틱 세분화 마스크(350)는 업 스케일링 컴포넌트(360)로 제공되어 고해상도 시맨틱 세분화 마스크(370)를 생성할 수 있다. 고해상도 시맨틱 세분화 마스크(370)는 예를 들어 이미지(310)의 고해상도 버전과 동일한 해상도일 수 있다. 업 스케일링 컴포넌트(360)는 다운 스케일링 컴포넌트(320)에 의해 이미지를 다운 스케일링하는데 사용된 임의의 기술의 역수(inverse)와 같이, 저해상도 시맨틱 세분화 마스크(350)를 고해상도 시맨틱 세분화 마스크(370)로 업 스케일링하기 위해 임의의 수의 기술을 수행할 수 있다.
이어서 고해상도 시맨틱 세분화 마스크(370)의 적어도 일부 및 이미지(310)의 고해상도 버전은 에지 개선 신경망(380)에 제공될 수 있다. 에지 개선 신경망(380)은 예를 들어, 도 2에 도시된 동일하거나 유사한 에지 개선 신경망(220)에 대응할 수 있다. 그런 다음 에지 개선 신경망(380)는 개선된 시맨틱 세분화 마스크(390)를 출력할 수 있다. 개선된 시맨틱 세분화 마스크(390)는 예를 들어, 고해상도 시맨틱 세분화 마스크(370) 및/또는 저해상도 시맨틱 세분화 마스크(350)에 비해 더 높은 해상도, 보다 명확하게 정의된 경계, 보다 정확한 경계, 또는 다른 개선을 가짐으로써 개선될 수 있다.
이제 도 4를 참조하면, 본 발명의 예시적인 양태들에 따른 에지 개선 신경망(400)의 블록도가 도시되어 있다. 에지 개선 신경망(400)은 예를 들어, 도 2에 도시된 에지 개선 신경망(220) 및/또는 도 3에 도시된 에지 개선 신경망(380)에 대응할 수 있다. 도시된 바와 같이, 이미지(410) 및 대응하는 시맨틱 세분화 마스크(420)는 에지 개선 신경망(400)에 입력될 수 있다. 에지 개선 신경망은 제 1 헤드는 이미지 인코더 네트워크(430)에 대응하고 제 2 헤드는 시맨틱 세분화 마스크 인코더 네트워크(440)에 대응하는 2개의 헤드를 포함할 수 있다. 예를 들어, 에지 개선 신경망은 제 1 인코더 네트워크(430) 및 제 2 인코더 네트워크(440)를 포함할 수 있다. 각각의 인코더 네트워크(430 및 440)는 예를 들어 이미지(410) 및 시맨틱 세분화 마스크(420)를 각각 인코딩하도록 구성된 하나 이상의 컨볼루션 계층를 포함할 수 있다. 이미지(410)(또는 그 일부)는 이미지를 제 1 인코딩된 출력으로 인코딩할 수 있는 제 1 인코더 네트워크(430)로 제공될 수 있다. 유사하게, 시맨틱 세분화 마스크(420)(또는 그 일부)는 제 2 인코더 네트워크(440)에 제공되어 시맨틱 세분화 마스크(420)를 제 2 인코딩된 출력으로 인코딩할 수 있다. 이어서, 제 1 인코딩된 출력 및 제 2 인코딩된 출력은 그 제 1 인코딩된 출력 및 제 2 인코딩된 출력을 연결하도록 구성된 연결(concatenation) 컴포넌트(450)로 제공될 수 있다. 연결 컴포넌트(450)는 제 1 인코딩된 출력 및 제 2 인코딩된 출력을 연결된 인코딩된 출력으로 연결할 수 있다. 예를 들어, 각각의 인코더 네트워크는 이미지(410) 또는 시맨틱 세분화 마스크(420)의 해상도를 각각 감소시키도록 구성될 수 있고, 2 개의 인코더 네트워크(430 및 440)의 인코딩된 출력은 각 해상도가 감소되어 사전 결정된 최소 해상도가 될 때 연결될 수 있다.
이어서, 연결된 인코딩된 출력은 에지 개선 신경망(400)의 디코더 네트워크(460)로 제공될 수 있다. 예를 들어, 디코더 네트워크(460)는 상기 연결된 인코딩된 출력의 해상도가 이미지(410) 및/또는 시맨틱 세분화 마스크(420)의 원래 입력 해상도에 도달할 때까지 상기 연결된 인코딩된 출력을 확장하도록 구성된 하나 이상의 컨볼루션 계층를 포함할 수 있다. 일부 구현들에서, 디코더 네트워크(460)는 개선된 시맨틱 세분화 마스크(470)를 추출하도록 구성된 에지 추론 계층을 포함할 수 있다. 개선된 시맨틱 세분화 마스크(470)는 에지 개선 신경망(400)의 디코더 네트워크(460)의 출력으로서 수신될 수 있다. 개선된 시맨틱 세분화 마스크(470)는 예를 들어 시맨틱 세분화 신경망으로부터 수신된 시맨틱 세분화 마스크(420)보다 더 높은 해상도일 수 있다. 부가적으로, 일부 구현들에서, 에지 개선 신경망에 의해 생성된 개선된 시맨틱 세분화 마스크(420)는 16개의 특징 또는 채널을 포함할 수 있다.
일부 구현들에서, 일단 개선된 시맨틱 세분화 마스크(470)가 에지 개선 신경망(400)에 의해 결정되면, 이미지의 적어도 일부는 개선된 시맨틱 세분화 마스크(470)에 적어도 부분적으로 기초하여 블러링될 수 있다. 예를 들어, 개선된 시맨틱 세분화 마스크(470)는 이미지(410)의 배경으로부터 이미지(410)의 전경 내의 사람/객체를 세분화할 수 있다. 일부 구현들에서, 이미지(410)의 배경은 블러링 효과(예를 들어, "보케" 효과)를 생성하기 위해 블러링될 수 있다. 다른 깊이 계층들(예를 들어, 사용자-선택 깊이에 대응하는 계층들)은 배경에 부가하여 또는 대안 적으로 블러링될 수 있다.
이제 도 5를 참조하면, 본 발명의 예시적인 양태들에 따른 예시적인 에지 개선 신경망(500)이 도시되어 있다. 도 5에 도시된 예시적인 에지 개선 신경망 (500)은 각각 도 2 내지 도 4에 도시된 에지 개선 신경망(220, 380 및 400)과 동일하거나 유사할 수 있다.
도시된 바와 같이, 이미지(510) 및 대응하는 시맨틱 세분화 마스크(520)는 각각의 제 1 인코더 네트워크(530) 및 제 2 인코더 네트워크(540)에 각각 입력될 수 있다. 각각의 인코더 네트워크(530, 540)는 이미지(510) 또는 시맨틱 세분화 마스크(520)를 각각 인코딩하도록 구성된 복수의 컨볼루션 계층을 포함할 수 있다.
인코딩된 이미지 및 인코딩된 시맨틱 세분화 마스크는 연결 컴포넌트(550)에 의해 연결될 수 있고, 연결 컴포넌트(550)의 연결(된) 출력은 디코더 네트워크(560)로 제공될 수 있다. 디코더 네트워크(560)는 연결 컴포넌트(550)로부터 수신된 연결 출력을 디코딩하도록 구성될 수 있다. 디코더 네트워크(560)는 에지 추론 계층(570)을 포함하는 복수의 컨볼루션 계층을 포함할 수 있다. 일부 구현들에서, 개선된 시맨틱 세분화 마스크(580)는 디코더 네트워크(560)의 출력, 보다 구체적으로는 에지 추론 계층(570)의 출력으로부터 수신될 수 있다.
이제 도 6을 참조하면, 예시적인 이미지 세분화 모델 트레이닝 구성(600)의 블록도가 도시되어 있다. 본 발명의 예시적인 양태에 따른 이미지 세분화 모델에 의해 제공되는 이점은, 오류의 역 전파에 의한 것과 같이 이미지 세분화 모델을 끝에서 끝까지 트레이닝시키는 능력이다.
도시된 바와 같이, 이미지(610)의 고해상도 버전과 같은 트레이닝 이미지가 이미지 세분화 모델을 트레이닝하는데 사용될 수 있다. 이미지(610)의 고해상도 버전은 트레이닝 데이터 세트의 일부인 트레이닝 이미지일 수 있으며, 이는 본 명세서에 더 자세하게 설명될 바와 같이, 실측 시맨틱 세분화 마스크(645) 및 실측 개선된 시맨틱 세분화 마스크(675)를 포함할 수 있다. 도시된 바와 같이, 트레이닝 이미지는 이미지(610)의 고해상도 버전일 수 있다. 일부 구현에서, 트레이닝 이미지는 이미지의 저해상도 버전일 수 있다.
이미지(610)의 고해상도 버전은 이미지(620)의 저해상도 버전을 생성하기 위해 다운 스케일링 컴포넌트(615)에 의해 다운 스케일링될 수 있다. 다운 스케일링 컴포넌트(615)는 예를 들어, 도 3에 도시된 동일하거나 유사한 다운 스케일링 컴포넌트(320)일 수 있다.
이미지(620)의 저해상도 버전은 시맨틱 세분화 신경망(625)으로 제공될 수 있다. 시맨틱 세분화 신경망(625)은 각각 도 2 및 도 3에 도시된 시맨틱 세분화 신경망(210 및 340)과 동일하거나 유사한 시맨틱 세분화 신경망일 수 있다. 시맨틱 세분화 신경망(625)은 저해상도 시맨틱 세분화 마스크(630)를 출력할 수 있다. 일부 구현들에서, 이미지의 고해상도 버전은 대응하는 고해상도 시맨틱 세분화 마스크를 출력할 수 있는 시맨틱 세분화 신경망(625)으로 입력될 수 있다. 일부 구현들에서, 저해상도 시맨틱 세분화 마스크(630)는 예를 들어 16개의 채널과 같은 복수의 채널을 포함할 수 있다.
일부 구현들에서, 저해상도 시맨틱 세분화 마스크(630)의 단일 채널이 추출될 수 있다. 예를 들어, 일부 구현들에서, 저해상도 시맨틱 세분화 마스크(630)는 16개의 채널과 같은 복수의 채널을 포함할 수 있다. 일부 구현들에서, 저해상도 시맨틱 세분화 마스크(630)의 단일 채널은 시맨틱 세분화 신경망(625)에 의해 추출될 수 있다. 예를 들어, 시맨틱 세분화 신경망(625)은 저해상도 시맨틱 세분화 마스크(630)로부터 단일 채널을 추출하도록 구성된 추론 계층을 포함할 수 있다.
일부 구현들에서, 저해상도 시맨틱 세분화 마스크(630)의 단일 채널은 실측 시맨틱 세분화 마스크(645)와 비교될 수 있다. 예를 들어, 실측 시맨틱 세분화 마스크(645)는 트레이닝 데이터 세트의 일부로서 컴파일된 이미지(610)의 고해상도 버전의 실측 시맨틱 세분화 마스크(645)에 대응할 수 있고, 저해상도 시맨틱 세분화 마스크와 동일한 해상도일 수 있다. 실측 시맨틱 세분화 마스크(645)는 이미지(610)에 기초하여 시맨틱 세분화 신경망의 원하는 출력일 수 있다. 제 1 손실 함수(650)는 저해상도 시맨틱 세분화 마스크(630)(또는 그의 단일 채널)와 실측 시맨틱 세분화 마스크(645) 사이의 차이에 적어도 부분적으로 기초하여 결정될 수 있다. 일부 구현들에서, 저해상도 시맨틱 세분화 마스크의 각 채널에 대한 단일 채널이 추출될 수 있고, 각 채널은 대응하는 실측 시맨틱 세분화 마스크와 비교되어 그 채널에 대한 제 1 손실 함수를 결정할 수 있다. 일부 구현들에서, 시맨틱 세분화 마스크(630)는 복수의 채널들을 포함할 수 있고, 시맨틱 세분화 마스크(630)는 대응하는 실측 시맨틱 세분화 마스크(645)와 비교되어 제 1 손실 함수를 결정할 수 있다.
일부 구현들에서, 제 1 손실 함수(650)는 시맨틱 세분화 신경망(625)를 트레이닝하는데 사용될 수 있다. 예를 들어, 시맨틱 세분화 신경망(625)은 실측 시맨틱 세분화 마스크(645)와 비교할 때 저해상도 시맨틱 세분화 마스크(630)(또는 그의 단일 채널)로부터의 오류를 역 전파함으로써 트레이닝될 수 있다.
저해상도 시맨틱 세분화 마스크(630)는 고해상도 시맨틱 세분화 마스크(660)를 결정하기 위해 업 스케일링 컴포넌트(655)로 입력될 수 있다. 업 스케일링 컴포넌트(655)는 예를 들어, 도 3에 도시된 바와 같이 업 스케일링 컴포넌트(360)에 대응할 수 있다. 일부 구현들에서, 업 스케일링 컴포넌트(655)는 이미지(610)의 고해상도 버전과 동일한 해상도에서 저해상도 시맨틱 세분화 마스크(630)를 고해상도 시맨틱 세분화 마스크(660)로 업 스케일링할 수 있다.
도시된 바와 같이, 이미지(610)의 고해상도 버전(또는 적어도 일부) 및 고해상도 시맨틱 세분화 마스크(660)(또는 적어도 일부)는 에지 개선 신경망(665)에 입력될 수 있다. 에지 개선 신경망(665)은 각각 도 2 내지 도 5에 도시된 바와 같이 에지 개선 신경망(220, 380, 400, 500)과 동일하거나 유사할 수 있다. 일부 구현들에서, 이미지(610)의 고해상도 버전은 랜덤하게 절단될 수 있고, 고해상도 시맨틱 세분화 마스크(660)의 대응하는 절단은 에지 개선 신경망(665)에 제공된 2개의 절단된 부분들로 유사하게 절단될 수 있다.
개선된 시맨틱 세분화 마스크(670)는 에지 개선 신경망(665)으로부터의 출력으로서 수신될 수 있다. 그런 다음 개선된 시맨틱 세분화 마스크(670)는 실측 개선된 시맨틱 세분화 마스크(675)와 비교될 수 있다. 예를 들어, 실측 개선된 시맨틱 세분화 마스크(675)는 트레이닝 데이터 세트의 일부로서 컴파일된 이미지(610)의 고해상도 버전의 실측 개선된 시맨틱 세분화 마스크(675)에 대응할 수 있다. 실측 개선된 시맨틱 세분화 마스크(675)는 이미지(610)의 고해상도 버전에 대응하는 에지 개선 신경망(665)의 원하는 출력일 수 있다.
일부 구현들에서, 제 2 손실 함수(680)는 개선된 시맨틱 세분화 마스크(670)와 실측 개선된 시맨틱 세분화 마스크(675) 사이의 차이에 적어도 부분적으로 기초하여 결정될 수 있다. 일부 구현들에서, 제 2 손실 함수(680)는 에지 개선 신경망(665)를 트레이닝시키기 위해 사용될 수 있다. 예를 들어, 에지 개선 신경망(665)은 실측 세분화된 시맨틱 세분화 마스크(675)와 비교하여 상기 개선된시맨틱 세분화 마스크(670)로부터 오류를 역 전파함으로써 트레이닝될 수 있다.
일부 구현들에서, 총 손실 함수(695)는 제 1 손실 함수(650) 및 제 2 손실 함수(680)에 적어도 부분적으로 기초하여 결정될 수 있다. 예를 들어, 일부 구현들에서, 총 손실 함수(695)는 제 1 손실 함수(650)와 제 2 손실 함수(680)를 합산함으로써 결정될 수 있다.
일부 구현들에서, 이미지 세분화 모델은 전체 손실 함수(685)에 적어도 부분적으로 기초하여 트레이닝될 수 있다. 예를 들어, 이미지 세분화 모델은 이미지 세분화 모델을 통한 총 손실 함수(685)에 기초하여 역 전파 오류에 의해 크레이닝될 수 있다. 이러한 방식으로, 이미지 세분화 모델은 끝에서 끝까지 트레이닝될 수 있다.
일부 구현들에서, 이미지 세분화 모델은 먼저 제 1 손실 함수(650)를 결정하고, 제 1 손실 함수(650)에 적어도 부분적으로 기초하여 시맨틱 세분화 신경망(630)을 트레이닝함으로써 트레이닝될 수 있다. 일단 시맨틱 세분화 신경망(630)이 허용 가능한 임계값 미만에서 제 1 손실 함수(650)를 달성하도록 트레이닝되면, 에지 개선 신경망(665)은 적어도 제 2 손실 기능(680)에 부분적으로 기초하여 트레이닝될 수 있다. 일단 에지 개선 신경망(665)이 허용 가능한 임계값 미만에서 제 2 손실 함수(680)를 달성하도록 트레이닝되면, 이미지 세분화 모델은 본 명세서에 기술된 바와 같이 전체 손실 함수(685)에 적어도 부분적으로 기초하여 트레이닝될 수 있다.
이제 도 7을 참조하면, 본 발명의 예시적인 양태들에 따라 개선된 시맨틱 세분화 마스크를 결정하기 위한 예시적인 방법(700)의 흐름도가 도시되어 있다. 도 7은 예시 및 논의의 목적으로 특정 순서로 수행되는 단계를 도시하지만, 본 발명의 방법들은 특히 예시된 순서 또는 배열로 제한되지 않는다. 방법(700)의 다양한 단계들은 본 발명의 범위를 벗어나지 않으면 서 다양한 방식으로 생략, 재배열, 결합 및/또는 적응될 수 있다.
단계(702)에서, 방법(700)은 이미지를 획득하는 단계를 포함할 수 있다. 예를 들어, 일부 구현들에서, 사용자는 사용자 컴퓨팅 디바이스(102)를 사용하여 이미지 세분화 모델(120)에 제공될 이미지를 선택할 수 있다. 일부 구현들에서, 이미지 세분화 모델(120)은 사용자 컴퓨팅 디바이스(102)상에 저장될 수 있고, 다른 구현들에서, 이미지 세분화 모델(140)은 사용자 컴퓨팅 디바이스(102)로부터 멀리 떨어진 컴퓨팅 시스템(130)상에 저장될 수 있다.
단계(704)에서, 방법(700)은 이미지를 시맨틱 세분화 신경망에 입력하는 단계를 포함할 수 있다. 예를 들어, 이미지 세분화 모델(200)은 제 1 신경망(210) 및 제 2 신경망(220)을 포함할 수 있다. 제 1 신경망(210)은 이미지(230)의 시맨틱 세분화 마스크(240)를 결정하도록 구성된 시맨틱 세분화 신경망(210) 일 수 있다. 이미지(230)는 시맨틱 세분화 신경망(210)에 입력될 수 있다.
단계(706)에서, 방법(700)은 시맨틱 세분화 신경망의 출력으로서, 시맨틱 세분화 마스크를 수신하는 단계를 포함할 수 있다. 예를 들어, 시맨틱 세분화 신경망(210)은 이미지(230)에 대한 시맨틱 세분화 마스크(240)를 출력하도록 구성될 수 있다.
단계(708)에서, 방법(700)은 이미지의 적어도 일부 및 시맨틱 세분화 마스크의 적어도 일부를 에지 개선 신경망에 입력하는 단계를 포함할 수 있다. 예를 들어, 이미지 세분화 모델(200)은 에지 개선 신경망(220)일 수 있는 제 2 신경망(220)을 포함할 수 있다. 이미지(230)(또는 그것의 적어도 일부) 및 시맨틱 세분화 마스크(240)(또는 그것의 적어도 일부)는 에지 개선 신경망(220)에 입력될 수 있다.
단계(710)에서, 방법(700)은 에지 개선 신경망의 출력으로서, 개선된 시맨틱 세분화 마스크를 수신하는 단계를 포함할 수 있다. 예를 들어, 에지 개선 신경망(220)은 이미지(230) 및 시맨틱 세분화 마스크(240)에 적어도 부분적으로 기초하여 개선된 시맨틱 세분화 마스크(250)를 출력하도록 구성될 수 있다. 개선된 시맨틱 세분화 마스크(250)는 에지 개선 신경망(220)의 출력으로서 수신될 수 있다. 개선된 시맨틱 세분화 마스크(250)는 예를 들어, 시맨틱 세분화 마스크(240)와 비교하여 더 높은 해상도, 보다 명확하게 정의된 경계, 보다 정확한 경계 또는 다른 개선을 가짐으로써 개선될 수 있다.
일부 구현들에서, 이미지의 적어도 일부는 개선된 시맨틱 세분화 마스크에 적어도 부분적으로 기초하여 블러링될 수 있다. 예를 들어, 개선된 시맨틱 세분화 마스크는 이미지의 전경에 있는 객체와 이미지의 배경 사이의 경계들을 묘사할 수 있다. 일부 구현들에서, 이미지의 배경 부분은 블러링될 수 있는 반면, 이미지의 전경 부분은 원본 이미지에서처럼 유지될 수 있다.
이러한 방식으로, 제 1 신경망 및 제 2 신경망을 포함하는 이미지 세분화 모델을 사용하여 이미지에 대해 개선된 시맨틱 세분화 마스크가 결정될 수 있다.
이제 도 8을 참조하면, 본 발명의 예시적인 양태에 따라 개선된 시맨틱 세분화 마스크를 결정하는 예시적인 방법(800)의 흐름도가 도시되어 있다. 도 8은 예시 및 논의의 목적으로 특정 순서로 수행되는 단계를 도시하지만, 본 발명의 방법은 특히 예시된 순서 또는 배열로 제한되지 않는다. 방법(800)의 다양한 단계는 본 발명의 범위를 벗어나지 않고 다양한 방식으로 생략, 재배열, 조합 및/또는 적응될 수 있다.
단계(802)에서, 방법(800)은 고해상도 이미지를 획득하는 단계를 포함할 수 있다. 예를 들어, 일부 구현들에서, 사용자는 사용자 컴퓨팅 디바이스(102)를 사용하여 이미지 세분화 모델(120)에 제공될 이미지를 선택할 수 있다. 일부 구현들에서, 이미지 세분화 모델(120)은 사용자 컴퓨팅 디바이스(102)상에 저장될 수 있고, 다른 구현들에서, 이미지 세분화 모델(140)은 사용자 컴퓨팅 디바이스(102)로부터 멀리떨어진 컴퓨팅 시스템(130)상에 저장될 수 있다. 이미지는 예를 들어, 제 2 해상도보다 높은 해상도인 제 1 해상도의 이미지일 수 있다.
단계(804)에서, 방법(800)은 고해상도 이미지를 저해상도 이미지로 다운 스케일링하는 단계를 포함할 수 있다. 예를 들어, 고해상도 이미지는 제 1 해상도에서 제 2 해상도로 다운 스케일링될 수 있으며, 여기서 제 2 해상도는 제 1 해상도보다 낮은 해상도이다.
단계(806)에서, 방법(800)은 저해상도 이미지를 시맨틱 세분화 신경망에 입력하는 단계를 포함할 수 있다. 예를 들어, 이미지 세분화 모델은 제 1 신경망 및 제 2 신경망을 포함할 수 있다. 제 1 신경망은 이미지를 수신하고 그 이미지에 기초하여 시맨틱 세분화 마스크를 출력하도록 구성된 시맨틱 세분화 신경망일 수 있다.
단계(808)에서, 방법(800)은 시맨틱 세분화 신경망의 출력으로서, 저해상도 시맨틱 세분화 마스크를 수신하는 단계를 포함할 수 있다. 예를 들어, 저해상도 시맨틱 세분화 마스크는 시맨틱 세분화 신경망에 제공된 이미지의 저해상도 버전과 동일한 해상도일 수 있다.
단계(810)에서, 방법(800)은 저해상도 시맨틱 세분화 마스크를 고해상도 시맨틱 세분화 마스크로 업 스케일링하는 단계를 포함할 수 있다. 예를 들어, 저해상도 시맨틱 세분화 마스크는 제 2 해상도에서 제 1 해상도로 업 스케일링될 수 있다.
단계(812)에서, 방법(800)은 고해상도 이미지(또는 그의 일부)를 제 1 인코더 네트워크로 입력하는 단계 및 고해상도 시맨틱 세분화 마스크(또는 그의 일부)를 제 2 인코더 네트워크에 입력하는 단계를 포함할 수 있다. 예를 들어, 이미지 세분화 모델은 또한 에지 개선 신경망일 수 있는 제 2 신경망을 포함할 수 있다. 에지 개선 신경망은 제 1 인코더 네트워크 및 제 2 인코더 네트워크를 포함할 수 있다. 이미지(또는 그의 일부)는 제 1 인코더 네트워크에 입력될 수 있고, 시맨틱 세분화 마스크(또는 그의 일부)는 제 2 인코더 네트워크에 입력될 수 있다. 각각의 인코더 네트워크는 하나 이상의 컨볼루션 계층를 사용하여 개별 입력을 인코딩하도록 구성될 수 있으며, 각 컨볼루션 계층는 인코딩 기능을 수행한다.
단계(814)에서, 방법(800)은 제 1 인코더 네트워크로부터 제 1 인코딩(된) 출력 및 제 2 인코더 네트워크로부터 제 2 인코딩 출력을 수신하는 단계를 포함할 수 있다. 예를 들어, 제 1 인코더 네트워크는 고해상도 이미지(또는 그의 일부)를 수신할 수 있고, 그 이미지를 제 1 인코딩 출력으로 인코딩할 수 있다. 유사하게, 제 2 인코더 네트워크는 시맨틱 세분화 마스크(또는 그의 일부)를 수신할 수 있고, 그 시맨틱 세분화 마스크를 제 2 인코딩 출력으로 인코딩할 수 있다.
단계(816)에서, 방법(800)은 제 1 인코딩 출력 및 제 2 인코딩 출력을 연결된 인코딩 출력으로 연결하는 단계를 포함할 수 있다. 예를 들어, 제 1 인코더 네트워크 및 제 2 인코더 네트워크 각각이 이미지 및 시맨틱 세분화 마스크를 각각 인코딩한 후에, 제 1 및 제 2 인코딩 출력이 연결될 수 있다. 일부 구현들에서, 각각의 인코더 네트워크는 각 컨볼루션 계층에서 개별 입력의 해상도를 감소시키도록 구성될 수 있다. 일부 구현들에서, 제 1 인코딩 출력 및 제 2 인코딩 출력은 그들의 각각의 해상도가 감소되어 사전 결정된 최소 해상도가 될 때 연결될 수 있다.
단계(818)에서, 방법(800)은 연결된 인코딩 출력을 디코더 네트워크에 제공하는 단계를 포함할 수 있다. 예를 들어, 에지 개선 신경망은 연결된 인코딩 출력을 디코딩하도록 구성된 디코더 네트워크를 포함할 수 있다. 연결된 인코딩 출력은 디코더 네트워크에 제공되어 디코더 네트워크가 그 연결된 인코딩 출력을 디코딩할 수 있다.
단계(820)에서, 방법(800)은 디코더 네트워크의 출력으로서 개선된 시맨틱 세분화 마스크를 수신하는 단계를 포함할 수 있다. 예를 들어, 디코더 네트워크는 하나 이상의 컨볼루션 계층를 사용하여 연결된 인코딩 출력을 디코딩하도록 구성될 수 있으며, 각 컨볼루션 계층는 디코딩 기능을 수행한다. 일부 구현들에서, 디코더 네트워크의 각 컨볼루션 계층은 연결된 인코딩 출력의 해상도를 각각 증가시킬 수 있다. 일부 구현들에서, 일단 연결된 인코딩 출력이 최대 및/또는 원래 해상도로 디코딩되면 개선된 시맨틱 세분화 마스크를 추출하는데 에지 추론 계층이 사용될 수 있다. 개선된 시맨틱 세분화 마스크는 에지 개선 신경망의 출력으로서 수신될 수 있다.
이제 도 9를 참조하면, 본 발명의 예시적인 양태들에 따라 이미지 세분화 모델을 트레이닝시키는 예시적인 방법(900)의 흐름도가 도시되어 있다. 도 9는 예시 및 논의의 목적으로 특정 순서로 수행되는 단계를 도시하지만, 본 발명의 방법은 특히 예시된 순서 또는 배열로 제한되지 않는다. 방법(900)의 다양한 단계는 본 발명의 범위를 벗어나지 않고 다양한 방식으로 생략, 재배열, 결합 및/또는 적응될 수 있다.
단계(902)에서, 방법(900)은 트레이닝 이미지를 획득하는 단계를 포함할 수 있다. 예를 들어, 트레이닝 이미지는 이미지 세분화 모델을 트레이닝하는데 사용되는 트레이닝 데이터 세트의 일부일 수 있다. 각 트레이닝 이미지는 하나 이상의 대응하는 실측 시맨틱 시맨틱 세분화 마스크 및/또는 하나 이상의 대응하는 실측 개선된 시맨틱 세분화 마스크를 가질 수 있다. 트레이닝 이미지는 예를 들어 트레이닝 데이터 세트에 액세스함으로써 획득될 수 있다.
단계(904)에서, 방법(900)은 트레이닝 이미지를 이미지 세분화 모델에 입력하는 단계를 포함할 수 있다. 예를 들어, 이미지 세분화 모델은 제 1 신경망 및 제 2 신경망을 포함할 수 있다. 제 1 신경망은 예를 들어 시맨틱 세분화 신경망일 수 있고, 제 2 신경망은 예를 들어 에지 개선 신경망일 수 있다. 시맨틱 세분화 마스크를 생성하기 위해 트레이닝 이미지가 시맨틱 세분화 신경망에 입력될 수 있다. 이미지(또는 그의 적어도 일부) 및 시맨틱 세분화 마스크(또는 그의 적어도 일부)는 에지 개선 신경망에 입력될 수 있다. 그 후, 에지 개선 신경망은 개선된 시맨틱 세분화 마스크를 제공할 수 있다.
일부 구현들에서, 트레이닝 이미지는 고해상도 트레이닝 이미지일 수 있다. 일부 구현들에서, 고해상도 트레이닝 이미지는 저해상도 트레이닝 이미지로 다운 스케일링될 수 있고, 저해상도 트레이닝 이미지는 시맨틱 세분화 신경망으로 입력될 수 있다.
단계(906)에서, 방법(900)은 시맨틱 세분화 신경망에 대한 제 1 손실 함수를 결정하는 단계를 포함할 수 있다. 예를 들어, 트레이닝 이미지는 시맨틱 세분화 신경망에 입력될 수 있고, 시맨틱 세분화 마스크는 시맨틱 세분화 신경망의 출력으로서 수신될 수 있다. 예를 들어, 일부 구현들에서, 시맨틱 세분화 마스크는 복수의 채널들을 포함할 수 있고, 시맨틱 세분화 마스크의 단일 채널이 추출될 수 있다. 예를 들어, 일부 구현들에서, 시맨틱 세분화 신경망의 추론 계층이 시맨틱 세분화 마스크의 단일 채널을 추출하기 위해 사용될 수 있다. 그런 다음, 제 1 손실 함수는 시맨틱 세분화 마스크(또는 그의 단일 채널) 및 실측 시맨틱 세분화 마스크 사이의 차이에 적어도 부분적으로 기초하여 결정될 수 있다. 예를 들어, 시맨틱 세분화 마스크는 실측 시맨틱 세분화 마스크와 비교될 수 있고, 그 시맨틱 세분화 마스크와 실측 시맨틱 세분화 마스크 사이의 차이를 기술하는 제 1 손실 함수가 결정될 수 있다.
일부 구현에서, 시맨틱 세분화 신경망은 제 1 손실 함수에 적어도 부분적으로 기초하여 트레이닝될 수 있다. 예를 들어, 시맨틱 세분화 신경망은 제 1 손실 함수에 기초하여 오류를 역 전파함으로써 트레이닝될 수 있다.
단계(908)에서, 방법(900)은 에지 개선 신경망에 대한 제 2 손실 함수를 결정하는 단계를 포함할 수 있다. 예를 들어, 트레이닝 이미지(또는 그의 적어도 일부, 및 시맨틱 세분화 마스크(또는 그의 적어도 일부))는 에지 시맨틱 신경망에 입력되어 개선된 시맨틱 세분화 마스크를 결정할 수 있다. 개선된 시맨틱 세분화 마스크는 에지 개선 신경망의 출력으로서 수신될 수 있다. 제 2 손실 함수는 개선된 시맨틱 세분화 마스크 및 실측 세분화 마스크 사이의 차이에 적어도 부분적으로 기초하여 결정될 수 있다. 예를 들어, 개선된 시맨틱 세분화 마스크는 실측 개선된 시맨틱 세분화 마스크와 비교될 수 있고, 그 개선된 시맨틱 세분화 마스크 및 실측 개선된 시맨틱 세분화 마스크 사이의 차이를 기술하는 제 2 손실 함수가 결정될 수 있다.
일부 구현들에서, 에지 개선 신경망는 제 2 손실 함수에 적어도 부분적으로 기초하여 트레이닝될 수 있다. 예를 들어, 에지 개선 신경망은 제 2 손실 함수에 기초하여 역 전파 오류에 의해 트레이닝될 수 있다.
일부 구현들에서, 시맨틱 세분화 신경망의 출력으로서 수신된 시맨틱 세분화 마스크는 저해상도 시맨틱 세분화 마스크일 수 있다. 일부 구현들에서, 고해상도 트레이닝 이미지의 적어도 일부가 에지 개선 신경망에 입력될 수 있고, 저해상도 시맨틱 세분화 마스크는 고해상도 시맨틱 세분화 마스크로 업 스케일링될 수 있고, 고해상도 시맨틱 세분화 마스크의 적어도 일부는 에지 개선 신경망으로 입력될 수 있다.
단계(910)에서, 방법(900)은 제 1 손실 함수 및 제 2 손실 함수에 적어도 부분적으로 기초하여 총 손실 함수를 결정하는 단계를 포함할 수 있다. 예를 들어, 일부 구현들에서, 총 손실 함수는 제 1 손실 함수와 제 2 손실 함수를 합산함으로써 결정될 수 있다. 총 손실 함수는 이미지 세분화 모델에 대한 총 손실을 기술할 수 있다.
단계(912)에서, 방법(900)은 총 손실 함수에 적어도 부분적으로 기초하여 이미지 세분화 모델을 트레이닝하는 단계를 포함할 수 있다. 예를 들어, 이미지 세분화 모델은 이미지 세분화 모델에 대한 총 손실 및/또는 오류를 기술하는 총 손실 함수에 기초하여 끝에서 끝까지 트레이닝될 수 있다. 일부 구현들에서, 이미지 세분화 모델은 총 손실 함수에 기초하여 이미지 세분화 모델을 통해 오류를 역 전파함으로써 트레이닝될 수 있다. 이러한 방식으로, 본 발명의 예시적인 양태에 따른 이미지 세분화 모델은 끝에서 끝까지 트레이닝될 수 있고, 이에 의해 새로운 트레이닝 데이터가 이미지 세분화 모델에 제공될 때 지속적인 개선이 가능하다.
본 명세서에서 논의된 기술은 서버, 데이터베이스, 소프트웨어 애플리케이션 및 다른 컴퓨터 기반 시스템뿐만 아니라 취해진 액션 및 그러한 시스템으로/로부터 전송된 정보를 참조한다. 컴퓨터 기반 시스템의 고유한 유연성 덕분에 컴포넌트들 사이 및 컴포넌트들에서 다양한 구성, 조합, 및 태스크 및 기능의 구분이 가능하다. 예를 들어, 본 명세서에서 논의된 프로세스는 단일 디바이스 또는 컴포넌트 또는 다수의 디바이스 또는 컴포넌트를 조합하여 사용하여 구현될 수 있다. 데이터베이스 및 애플리케이션은 단일 시스템에서 구현되거나 여러 시스템에 분산될 수 있다. 분산된 컴포넌트들은 순차적으로 또는 병렬로 작동할 수 있다.
본 발명의 다양한 특정 예시적인 실시예들에 대하여 본 주제가 상세히 설명되었지만, 각각의 예는 본 발명의 제한이 아니라 설명을 위해 제공된다. 당업자는 전술한 내용을 이해하면 그러한 실시예들에 대한 변경, 변형 및 등가물을 용이하게 생성할 수 있다. 따라서, 본 발명 내용은 당업자에게 명백한 바와 같이 본 주제에 대한 이러한 변경, 변형 및/또는 추가를 포함하는 것을 배제하지 않는다. 예를 들어, 일 실시예의 일부로서 도시되거나 설명된 특징은 다른 실시예와 함께 사용되어 또 다른 실시예를 생성할 수 있다. 따라서, 본 발명는 이러한 변경, 변형 및 등가물을 포함하는 것으로 의도된다.

Claims (20)

  1. 컴퓨팅 시스템으로서,
    적어도 하나의 프로세서와;
    이미지를 수신하도록 트레이닝되고 이미지 수신에 응답하여 이미지의 변경(altered) 마스크를 출력하는 제1 신경망; 및
    이미지의 적어도 일부 및 변경 마스크의 적어도 일부를 수신하도록 트레이닝되고 상기 이미지의 적어도 일부 및 변경 마스크의 적어도 일부의 수신에 응답하여 개선(refined) 마스크를 출력하는 제2 신경망을 포함하는 기계 학습 이미지 변경 모델과; 그리고
    적어도 하나의 프로세서에 의해 실행될 때 적어도 하나의 프로세서로 하여금 동작들을 수행하게 하는 명령들을 저장하는 적어도 하나의 유형의 비-일시적 컴퓨터 판독 가능 매체를 포함하고, 상기 동작들은:
    이미지를 획득하는 단계;
    이미지를 제1 신경망에 입력하는 단계;
    제1 신경망의 출력으로서, 이미지의 적어도 일부의 변경을 포함하는 상기 변경 마스크를 수신하는 단계;
    이미지의 적어도 일부 및 변경 마스크의 적어도 일부를 제2 신경망에 입력하는 단계; 및
    제2 신경망의 출력으로서, 상기 개선 마스크를 수신하는 단계를 포함하는 것을 특징으로 하는 컴퓨팅 시스템.
  2. 제1항에 있어서,
    상기 동작들은,
    개선 마스크에 적어도 부분적으로 기초하여 이미지의 적어도 일부를 블러링 (blur)하는 단계를 더 포함하는 것을 특징으로 하는 컴퓨팅 시스템.
  3. 제1항에 있어서,
    상기 이미지는 고해상도 이미지를 포함하고; 그리고
    상기 이미지를 제1 신경망에 입력하는 단계는,
    고해상도 이미지를 저해상도 이미지로 다운 스케일링하는 단계; 및
    저해상도 이미지를 제1 신경망에 입력하는 단계를 포함하는 것을 특징으로 하는 컴퓨팅 시스템.
  4. 제3항에 있어서,
    제1 신경망의 출력으로서, 변경 마스크를 수신하는 단계는,
    제1 신경망의 출력으로서, 저해상도 변경 마스크를 수신하는 단계를 포함하는 것을 특징으로 하는 컴퓨팅 시스템.
  5. 제4항에 있어서,
    상기 변경 마스크의 적어도 일부를 제2 신경망에 입력하는 단계는,
    저해상도 변경 마스크를 고해상도 변경 마스크로 업 스케일링하는 단계; 및
    고해상도 변경 마스크의 적어도 일부를 제2 신경망에 입력하는 단계를 더 포함하는 것을 특징으로 하는 컴퓨팅 시스템.
  6. 제3항에 있어서,
    상기 이미지의 적어도 일부를 제2 신경망에 입력하는 단계는,
    고해상도 이미지의 적어도 일부를 제2 신경망에 입력하는 단계를 포함하는 것을 특징으로 하는 컴퓨팅 시스템.
  7. 제1항에 있어서,
    상기 이미지의 적어도 일부를 제2 신경망에 입력하는 단계는 이미지의 적어도 일부를 제2 신경망의 제1 인코더 네트워크에 입력하는 단계를 포함하고; 그리고
    상기 변경 마스크의 적어도 일부를 제2 신경망에 입력하는 단계는 변경 마스크의 적어도 일부를 제2 신경망의 제2 인코더 네트워크에 입력하는 단계를 포함하는 것을 특징으로 하는 컴퓨팅 시스템.
  8. 제7항에 있어서,
    상기 이미지의 적어도 일부 및 변경 마스크의 적어도 일부를 제2 신경망에 입력하는 단계는,
    제1 인코더 네트워크로부터 제1 인코딩(encoded) 출력을 수신하는 단계;
    제2 인코더 네트워크로부터 제2 인코딩 출력을 수신하는 단계; 및
    제1 인코딩 출력 및 제2 인코딩 출력을 연결된(concatenated) 인코딩 출력으로 연결하는 단계를 더 포함하는 것을 특징으로 하는 컴퓨팅 시스템.
  9. 제8항에 있어서,
    상기 이미지의 적어도 일부 및 변경 마스크의 적어도 일부를 제2 신경망에 입력하는 단계는 상기 연결된 인코딩 출력을 제2 신경망의 디코더 네트워크에 제공하는 단계를 더 포함하고; 그리고
    상기 제2 신경망의 출력으로서, 개선된 변경 마스크를 수신하는 단계는 디코더 네트워크의 출력으로서 개선된 변경 마스크를 수신하는 단계를 포함하는 것을 특징으로 하는 컴퓨팅 시스템.
  10. 제1항에 있어서,
    상기 기계 학습 이미지 변경 모델은,
    기계 학습 이미지 변경 모델에 대한 전체 손실 함수에 적어도 부분적으로 기초하여 종단간(end to end) 트레이닝되는 것을 특징으로 하는 컴퓨팅 시스템.
  11. 이미지의 적어도 일부에 대한 변경 마스크를 생성하는 컴퓨터 구현 방법으로서,
    제1 신경망에서, 이미지로부터 도출된 제1 데이터를 수신하는 단계;
    제1 신경망을 사용하여, 제1 신경망의 출력을 생성하도록 제1 데이터를 처리하는 단계, 상기 출력은 제1 변경 마스크와 관련되고;
    제2 신경망에서, 이미지로부터 도출된 제2 데이터 및 제1 신경망의 출력으로부터 도출된 데이터를 수신하는 단계; 및
    제2 변경 마스크와 관련된 데이터를 생성하는 단계로서:
    제2 신경망을 사용하여, 제2 변경 마스크가 제1 변경 마스크에 대해 개성되도록 상기 이미지로부터 도출된 제2 데이터 및 제1 신경망의 출력으로부터 도출된 데이터를 처리하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
  12. 제11항에 있어서,
    상기 제1 데이터는 제1 해상도의 이미지 데이터를 포함하고,
    상기 제2 데이터는 제1 해상도보다 높은 제2 해상도의 이미지 데이터를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
  13. 제12항에 있어서,
    제1 데이터를 생성하는 단계를 더 포함하고,
    상기 제1 데이터를 생성하는 단계는 이미지의 적어도 한 영역의 해상도를 감소시키는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
  14. 제11항에 있어서,
    상기 제1 변경 마스크는 제1 해상도를 갖고,
    상기 제2 변경 마스크는 제1 해상도보다 높은 제2 해상도를 갖는 것을 특징으로 하는 컴퓨터 구현 방법.
  15. 제11항에 있어서,
    상기 제1 신경망 및/또는 제2 신경망은 하나 이상의 컨볼루션 계층을 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
  16. 제11항에 있어서,
    상기 제2신경망은,
    적어도 2개의 헤드와, 여기서 제1 헤드(head)는 이미지로부터 도출된 제2 데이터를 수신하도록 구성되고, 제2 헤드는 제1 신경망의 출력으로부터 도출된 데이터를 수신하도록 구성되고; 그리고
    제1 및 제2 헤드로부터 도출된 데이터를 연결하도록 구성된 연결 컴포넌트를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
  17. 제16항에 있어서,
    상기 제2 신경망은 연결 컴포넌트의 출력으로부터 도출된 데이터를 수신하도록 구성된 디코더 네트워크를 더 포함하고,
    상기 제1 헤드는 제1 인코더 네트워크를 포함하고 상기 제2 헤드는 제2 인코더 네트워크를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
  18. 이미지 변경 모델을 종단간 트레이닝하는 컴퓨터 구현 방법으로서, 상기 이미지 변경 모델은 제1 신경망 및 제2 신경망을 포함하고, 상기 방법은,
    트레이닝 이미지를 이미지 변경 모델에 입력하는 단계;
    제1 신경망에 대한 제1 손실 함수를 결정하는 단계;
    제2 신경망에 대한 제2 손실 함수를 결정하는 단계;
    제1 손실 함수 및 제2 손실 함수에 적어도 부분적으로 기초하여 총 손실 함수를 결정하는 단계; 및
    총 손실 함수에 기초하여 이미지 변경 모델을 트레이닝하는 단계를 포함하고,
    상기 제1 신경망은 이미지를 수신하고, 이미지의 수신에 응답하여 변경 마스크를 출력하도록 트레이닝되고; 그리고
    상기 제2 신경망은 이미지의 적어도 일부 및 변경 마스크의 적어도 일부를 수신하고, 이미지의 적어도 일부 및 변경 마스크의 적어도 일부의 수신에 응답하여 개선된 변경 마스크를 출력하도록 트레이닝되는 것을 특징으로 하는 컴퓨터 구현 방법.
  19. 제18항에있어서,
    상기 제1 손실 함수 및 제2 손실 함수에 적어도 부분적으로 기초하여 총 손실 함수를 결정하는 단계는,
    제1 손실 함수와 제2 손실 함수를 합산하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
  20. 제18항에 있어서,
    상기 총 손실 함수에 기초하여 이미지 변경 모델을 트레이닝하는 단계는,
    제1 손실 함수에 적어도 부분적으로 기초하여 제1 신경망을 트레이닝하는 단계; 및
    제2 손실 함수에 적어도 부분적으로 기초하여 제2 신경망을 트레이닝하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 구현 방법.
KR1020207031798A 2017-09-27 2017-09-27 고해상도 이미지 세분화를 위한 종단간 네트워크 모델 KR20200129168A (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2017/053627 WO2019066794A1 (en) 2017-09-27 2017-09-27 END-TO-END NETWORK MODEL FOR HIGH-RESOLUTION IMAGE SEGMENTATION

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020197037616A Division KR102177233B1 (ko) 2017-09-27 2017-09-27 고해상도 이미지 세분화를 위한 종단간 네트워크 모델

Publications (1)

Publication Number Publication Date
KR20200129168A true KR20200129168A (ko) 2020-11-17

Family

ID=60081292

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020207031798A KR20200129168A (ko) 2017-09-27 2017-09-27 고해상도 이미지 세분화를 위한 종단간 네트워크 모델
KR1020197037616A KR102177233B1 (ko) 2017-09-27 2017-09-27 고해상도 이미지 세분화를 위한 종단간 네트워크 모델

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020197037616A KR102177233B1 (ko) 2017-09-27 2017-09-27 고해상도 이미지 세분화를 위한 종단간 네트워크 모델

Country Status (6)

Country Link
US (2) US10860919B2 (ko)
EP (1) EP3625767B1 (ko)
JP (1) JP6865866B2 (ko)
KR (2) KR20200129168A (ko)
CN (1) CN110809784B (ko)
WO (1) WO2019066794A1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022211249A1 (ko) * 2021-04-02 2022-10-06 삼성전자 주식회사 기계 학습 기반 이미지 처리를 지원하기 위한 전자 장치
KR102483080B1 (ko) * 2022-01-07 2022-12-30 주식회사 이너턴스 인공지능을 활용한 항공기 소음 분류 및 추출 방법
US11954833B2 (en) 2021-04-02 2024-04-09 Samsung Electronics Co., Ltd Electronic device for supporting machine learning-based image processing
WO2024101891A1 (ko) * 2022-11-08 2024-05-16 삼성전자 주식회사 전자 장치 및 전자 장치의 이미지 처리 방법

Families Citing this family (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10678244B2 (en) 2017-03-23 2020-06-09 Tesla, Inc. Data synthesis for autonomous control systems
US10671349B2 (en) 2017-07-24 2020-06-02 Tesla, Inc. Accelerated mathematical engine
US11409692B2 (en) 2017-07-24 2022-08-09 Tesla, Inc. Vector computational unit
US11893393B2 (en) 2017-07-24 2024-02-06 Tesla, Inc. Computational array microprocessor system with hardware arbiter managing memory requests
US11157441B2 (en) 2017-07-24 2021-10-26 Tesla, Inc. Computational array microprocessor system using non-consecutive data formatting
US11074504B2 (en) * 2017-11-15 2021-07-27 Google Llc Instance segmentation
US11561791B2 (en) 2018-02-01 2023-01-24 Tesla, Inc. Vector computational unit receiving data elements in parallel from a last row of a computational array
CN108345890B (zh) * 2018-03-01 2022-10-28 腾讯科技(深圳)有限公司 图像处理方法、装置和相关设备
US11215999B2 (en) 2018-06-20 2022-01-04 Tesla, Inc. Data pipeline and deep learning system for autonomous driving
US11361457B2 (en) 2018-07-20 2022-06-14 Tesla, Inc. Annotation cross-labeling for autonomous control systems
US11636333B2 (en) 2018-07-26 2023-04-25 Tesla, Inc. Optimizing neural network structures for embedded systems
US11562231B2 (en) 2018-09-03 2023-01-24 Tesla, Inc. Neural networks for embedded devices
SG11202103493QA (en) 2018-10-11 2021-05-28 Tesla Inc Systems and methods for training machine models with augmented data
CN109961453B (zh) * 2018-10-15 2021-03-12 华为技术有限公司 一种图像处理方法、装置与设备
US11017307B2 (en) * 2018-10-17 2021-05-25 Fujitsu Limited Explanations generation with different cognitive values using generative adversarial networks
US11196678B2 (en) 2018-10-25 2021-12-07 Tesla, Inc. QOS manager for system on a chip communications
WO2020082382A1 (en) * 2018-10-26 2020-04-30 Intel Corporation Method and system of neural network object recognition for image processing
CN109685762A (zh) * 2018-11-09 2019-04-26 五邑大学 一种基于多尺度深度语义分割网络的天线下倾角测量方法
US11816585B2 (en) 2018-12-03 2023-11-14 Tesla, Inc. Machine learning models operating at different frequencies for autonomous vehicles
US11537811B2 (en) 2018-12-04 2022-12-27 Tesla, Inc. Enhanced object detection for autonomous vehicles based on field view
US11610117B2 (en) 2018-12-27 2023-03-21 Tesla, Inc. System and method for adapting a neural network model on a hardware platform
US11150664B2 (en) 2019-02-01 2021-10-19 Tesla, Inc. Predicting three-dimensional features for autonomous driving
US10997461B2 (en) 2019-02-01 2021-05-04 Tesla, Inc. Generating ground truth for machine learning from time series elements
US11567514B2 (en) 2019-02-11 2023-01-31 Tesla, Inc. Autonomous and user controlled vehicle summon to a target
US10956755B2 (en) 2019-02-19 2021-03-23 Tesla, Inc. Estimating object properties using visual image data
CN110059758B (zh) * 2019-04-24 2020-07-10 海南长光卫星信息技术有限公司 一种基于语义分割的遥感影像养殖塘检测方法
US10984558B2 (en) * 2019-05-09 2021-04-20 Disney Enterprises, Inc. Learning-based sampling for image matting
US11158055B2 (en) 2019-07-26 2021-10-26 Adobe Inc. Utilizing a neural network having a two-stream encoder architecture to generate composite digital images
US11410401B2 (en) 2019-08-28 2022-08-09 Snap Inc. Beautification techniques for 3D data in a messaging system
US11488359B2 (en) * 2019-08-28 2022-11-01 Snap Inc. Providing 3D data for messages in a messaging system
US11189104B2 (en) 2019-08-28 2021-11-30 Snap Inc. Generating 3D data in a messaging system
US11457196B2 (en) 2019-08-28 2022-09-27 Snap Inc. Effects for 3D data in a messaging system
KR20240060719A (ko) * 2019-09-09 2024-05-08 엔비디아 코포레이션 하나 이상의 신경망을 이용한 비디오 업샘플링
US11508092B2 (en) * 2019-12-16 2022-11-22 X Development Llc Edge-based crop yield prediction
RU2742701C1 (ru) * 2020-06-18 2021-02-09 Самсунг Электроникс Ко., Лтд. Способ интерактивной сегментации объекта на изображении и электронное вычислительное устройство для его реализации
CN111340813B (zh) * 2020-02-25 2023-09-01 北京字节跳动网络技术有限公司 图像实例分割方法、装置、电子设备及存储介质
KR20210108027A (ko) * 2020-02-25 2021-09-02 삼성전자주식회사 전자 장치 및 그 제어 방법
CN113362351A (zh) * 2020-03-05 2021-09-07 阿里巴巴集团控股有限公司 一种图像处理方法、装置、电子设备以及存储介质
CN111368843B (zh) * 2020-03-06 2022-06-10 电子科技大学 一种基于语义分割的冰上湖提取的方法
US11380023B2 (en) * 2020-03-18 2022-07-05 Adobe Inc. End-to-end relighting of a foreground object of an image
KR20210128838A (ko) * 2020-04-17 2021-10-27 엘지이노텍 주식회사 이미지 처리 장치 및 이미지 처리 방법
US11610314B2 (en) 2020-04-24 2023-03-21 Toyota Research Institute, Inc Panoptic generative adversarial network with explicit modeling of category and instance information
CN113570052B (zh) * 2020-04-28 2023-10-31 北京达佳互联信息技术有限公司 图像处理方法、装置、电子设备及存储介质
CN111583264B (zh) * 2020-05-06 2024-02-27 上海联影智能医疗科技有限公司 图像分割网络的训练方法、图像分割方法和存储介质
WO2021251659A1 (en) * 2020-06-11 2021-12-16 Samsung Electronics Co., Ltd. Method and apparatus for performing artificial intelligence encoding and artificial intelligence decoding
KR102421718B1 (ko) * 2020-06-11 2022-07-18 삼성전자주식회사 인공지능 부호화 및 인공지능 복호화를 수행하기 위한 방법 및 장치
US11436703B2 (en) * 2020-06-12 2022-09-06 Samsung Electronics Co., Ltd. Method and apparatus for adaptive artificial intelligence downscaling for upscaling during video telephone call
CN111709387B (zh) * 2020-06-22 2023-05-12 中国科学院空天信息创新研究院 一种高分辨率遥感影像的建筑物分割方法及***
US11688070B2 (en) * 2020-06-25 2023-06-27 Intel Corporation Video frame segmentation using reduced resolution neural network and masks from previous frames
US11790533B2 (en) 2020-07-02 2023-10-17 Sony Group Corporation Machine learning based image segmentation training with contour accuracy evaluation
CN111738268B (zh) * 2020-07-22 2023-11-14 浙江大学 一种基于随机块的高分遥感图像的语义分割方法及***
US11393100B2 (en) * 2020-08-07 2022-07-19 Adobe Inc. Automatically generating a trimap segmentation for a digital image by utilizing a trimap generation neural network
US11651477B2 (en) 2020-08-07 2023-05-16 Adobe Inc. Generating an image mask for a digital image by utilizing a multi-branch masking pipeline with neural networks
KR102528727B1 (ko) * 2020-10-22 2023-05-03 경북대학교 산학협력단 딥 뉴럴 네트워크 기반의 뇌출혈 진단 시스템
CN112837466B (zh) * 2020-12-18 2023-04-07 北京百度网讯科技有限公司 票据识别方法、装置、设备以及存储介质
CN112651893A (zh) * 2020-12-24 2021-04-13 北京达佳互联信息技术有限公司 图像处理方法、装置、电子设备及存储介质
WO2022137921A1 (ja) * 2020-12-25 2022-06-30 富士フイルム株式会社 画像処理装置、方法およびプログラム
CN112634257B (zh) * 2020-12-31 2023-10-27 常州奥创医疗科技有限公司 一种真菌荧光检测方法
CN113079391A (zh) * 2020-12-31 2021-07-06 无锡乐骐科技有限公司 一种人像图像混合处理方法、设备及计算机可读存储介质
WO2022153670A1 (ja) * 2021-01-18 2022-07-21 富士フイルム株式会社 画像処理装置、方法およびプログラム、並びに学習装置、方法およびプログラム
US11935217B2 (en) * 2021-03-12 2024-03-19 Adobe Inc. Generating deep harmonized digital images
US11893668B2 (en) 2021-03-31 2024-02-06 Leica Camera Ag Imaging system and method for generating a final digital image via applying a profile to image information
CN117280343A (zh) * 2021-05-06 2023-12-22 格兰斯电讯网络有限公司 在屏幕共享html元素的同时屏蔽敏感信息
CN113229842B (zh) * 2021-05-19 2022-10-14 苏州美糯爱医疗科技有限公司 一种基于复数深度神经网络的心肺音自动分离方法
US20240089537A1 (en) * 2021-06-02 2024-03-14 Google Llc Selective Content Masking for Collaborative Computing
CN113538258B (zh) * 2021-06-15 2023-10-13 福州大学 基于掩码的图像去模糊模型及方法
CN113723231A (zh) * 2021-08-17 2021-11-30 南京邮电大学 低光照语义分割模型训练方法、语义分割方法及装置
CN113763371B (zh) * 2021-09-15 2023-08-18 上海壁仞智能科技有限公司 病理图像的细胞核分割方法及装置
CN113781310A (zh) * 2021-09-17 2021-12-10 北京金山云网络技术有限公司 图像处理方法、图像处理模型的训练方法和装置
US20230129341A1 (en) * 2021-10-23 2023-04-27 Adobe Inc. Generating object mask previews and single input selection object masks
US12020400B2 (en) 2021-10-23 2024-06-25 Adobe Inc. Upsampling and refining segmentation masks
CN114283343B (zh) * 2021-12-20 2023-09-26 北京百度网讯科技有限公司 基于遥感卫星图像的地图更新方法、训练方法和设备
WO2024046142A1 (en) * 2022-08-30 2024-03-07 Subtle Medical, Inc. Systems and methods for image segmentation of pet/ct using cascaded and ensembled convolutional neural networks
DE102022209009A1 (de) * 2022-08-31 2024-02-29 Robert Bosch Gesellschaft mit beschränkter Haftung Segmentierung eines digitalen Bildes mittels kaskadierter neuronaler Netze

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9668699B2 (en) * 2013-10-17 2017-06-06 Siemens Healthcare Gmbh Method and system for anatomical object detection using marginal space deep neural networks
US10719939B2 (en) * 2014-10-31 2020-07-21 Fyusion, Inc. Real-time mobile device capture and generation of AR/VR content
US9892361B2 (en) * 2015-01-21 2018-02-13 Siemens Healthcare Gmbh Method and system for cross-domain synthesis of medical images using contextual deep network
US10019657B2 (en) * 2015-05-28 2018-07-10 Adobe Systems Incorporated Joint depth estimation and semantic segmentation from a single image
CN106296638A (zh) * 2015-06-04 2017-01-04 欧姆龙株式会社 显著性信息取得装置以及显著性信息取得方法
KR102338372B1 (ko) * 2015-09-30 2021-12-13 삼성전자주식회사 영상으로부터 객체를 분할하는 방법 및 장치
US10540768B2 (en) * 2015-09-30 2020-01-21 Samsung Electronics Co., Ltd. Apparatus and method to segment object from image
US11568627B2 (en) * 2015-11-18 2023-01-31 Adobe Inc. Utilizing interactive deep learning to select objects in digital visual media
WO2017100044A1 (en) 2015-12-08 2017-06-15 Carrier Corporation Mobile beacon for locating building occupants
US9904867B2 (en) 2016-01-29 2018-02-27 Pointivo, Inc. Systems and methods for extracting information about objects from scene information
US10198624B2 (en) 2016-02-18 2019-02-05 Pinscreen, Inc. Segmentation-guided real-time facial performance capture
US9916522B2 (en) * 2016-03-11 2018-03-13 Kabushiki Kaisha Toshiba Training constrained deconvolutional networks for road scene semantic segmentation
US9972092B2 (en) * 2016-03-31 2018-05-15 Adobe Systems Incorporated Utilizing deep learning for boundary-aware image segmentation
CN106097353B (zh) * 2016-06-15 2018-06-22 北京市商汤科技开发有限公司 基于多层次局部区域融合的物体分割方法及装置、计算设备
US20190228268A1 (en) * 2016-09-14 2019-07-25 Konica Minolta Laboratory U.S.A., Inc. Method and system for cell image segmentation using multi-stage convolutional neural networks
KR20180053108A (ko) * 2016-11-11 2018-05-21 삼성전자주식회사 홍채 영역 추출 방법 및 장치
US10957045B2 (en) * 2016-12-12 2021-03-23 University Of Notre Dame Du Lac Segmenting ultrasound images
JP2020510463A (ja) * 2017-01-27 2020-04-09 アーテリーズ インコーポレイテッド 全層畳み込みネットワークを利用する自動化されたセグメンテーション
US10635927B2 (en) * 2017-03-06 2020-04-28 Honda Motor Co., Ltd. Systems for performing semantic segmentation and methods thereof
US10366491B2 (en) * 2017-03-08 2019-07-30 Siemens Healthcare Gmbh Deep image-to-image recurrent network with shape basis for automatic vertebra labeling in large-scale 3D CT volumes
US10402689B1 (en) * 2017-04-04 2019-09-03 Snap Inc. Generating an image mask using machine learning
US10552977B1 (en) * 2017-04-18 2020-02-04 Twitter, Inc. Fast face-morphing using neural networks
US10262236B2 (en) * 2017-05-02 2019-04-16 General Electric Company Neural network training image generation system
US10032281B1 (en) * 2017-05-03 2018-07-24 Siemens Healthcare Gmbh Multi-scale deep reinforcement machine learning for N-dimensional segmentation in medical imaging
KR20200028330A (ko) * 2017-05-09 2020-03-16 뉴럴라 인코포레이티드 네트워크 연산 에지 전반에 걸쳐 연속적으로 애플리케이션을 작동하는 딥 러닝과 인공 지능에서 지속적인 메모리 기반 학습을 가능하게 하는 시스템 및 방법
US10410353B2 (en) * 2017-05-18 2019-09-10 Mitsubishi Electric Research Laboratories, Inc. Multi-label semantic boundary detection system
WO2018217828A1 (en) * 2017-05-23 2018-11-29 Intel Corporation Methods and apparatus for discriminative semantic transfer and physics-inspired optimization of features in deep learning
US10242292B2 (en) * 2017-06-13 2019-03-26 Digital Surgery Limited Surgical simulation for training detection and classification neural networks
US10679351B2 (en) * 2017-08-18 2020-06-09 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images
CN109426858B (zh) * 2017-08-29 2021-04-06 京东方科技集团股份有限公司 神经网络、训练方法、图像处理方法及图像处理装置
US10614574B2 (en) * 2017-10-16 2020-04-07 Adobe Inc. Generating image segmentation data using a multi-branch neural network

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022211249A1 (ko) * 2021-04-02 2022-10-06 삼성전자 주식회사 기계 학습 기반 이미지 처리를 지원하기 위한 전자 장치
US11954833B2 (en) 2021-04-02 2024-04-09 Samsung Electronics Co., Ltd Electronic device for supporting machine learning-based image processing
KR102483080B1 (ko) * 2022-01-07 2022-12-30 주식회사 이너턴스 인공지능을 활용한 항공기 소음 분류 및 추출 방법
WO2024101891A1 (ko) * 2022-11-08 2024-05-16 삼성전자 주식회사 전자 장치 및 전자 장치의 이미지 처리 방법

Also Published As

Publication number Publication date
EP3625767A1 (en) 2020-03-25
CN110809784A (zh) 2020-02-18
US11792553B2 (en) 2023-10-17
EP3625767B1 (en) 2021-03-31
KR20200004427A (ko) 2020-01-13
US20210067848A1 (en) 2021-03-04
CN110809784B (zh) 2021-04-20
JP6865866B2 (ja) 2021-04-28
JP2020528176A (ja) 2020-09-17
KR102177233B1 (ko) 2020-11-10
US10860919B2 (en) 2020-12-08
US20200218961A1 (en) 2020-07-09
WO2019066794A1 (en) 2019-04-04

Similar Documents

Publication Publication Date Title
KR102177233B1 (ko) 고해상도 이미지 세분화를 위한 종단간 네트워크 모델
Lugmayr et al. Srflow: Learning the super-resolution space with normalizing flow
Zeng et al. Coupled deep autoencoder for single image super-resolution
Sun et al. Learned image downscaling for upscaling using content adaptive resampler
CN111587447B (zh) 帧循环视频超分辨率
Liu et al. Robust single image super-resolution via deep networks with sparse prior
Yu et al. A unified learning framework for single image super-resolution
Liu et al. Image interpolation via graph-based Bayesian label propagation
KR20130001213A (ko) 입력 이미지로부터 증가된 픽셀 해상도의 출력 이미지를 생성하는 방법 및 시스템
Huang et al. Pyramid-structured depth map super-resolution based on deep dense-residual network
Shao et al. Simple, accurate, and robust nonparametric blind super-resolution
US11688100B1 (en) Systems and methods for multi-sensor image enhancement
Li et al. Lightweight single image super-resolution with dense connection distillation network
CN114494022B (zh) 模型训练方法、超分辨率重建方法、装置、设备及介质
Vella et al. Single image super-resolution via CNN architectures and TV-TV minimization
CN116664409B (zh) 图像超分辨率重建方法、装置、计算机设备及存储介质
Graba et al. An interval-valued inversion of the non-additive interval-valued F-transform: Use for upsampling a signal
CN113902617B (zh) 基于参考图像的超分辨率方法、装置、设备及介质
Haris et al. An efficient super resolution based on image dimensionality reduction using accumulative intensity gradient
Singh et al. A content adaptive method of de-blocking and super-resolution of compressed images
CN116912345B (zh) 一种人像动漫化处理方法、装置、设备和存储介质
Shao et al. A unified optimization perspective to single/multi-observation blur-kernel estimation with applications to camera-shake deblurring and nonparametric blind super-resolution
Basavaraju et al. Deep CNN for Single Image Super Resolution Using Skip Connections
Kiatpapan et al. Super-resolution based on back-projection of interpolated image
Ye et al. Learning multi-granularity semantic interactive representation for joint low-light image enhancement and super-resolution

Legal Events

Date Code Title Description
A107 Divisional application of patent
E902 Notification of reason for refusal
E601 Decision to refuse application