WO2021133001A1 - 시멘틱 이미지 추론 방법 및 장치 - Google Patents

시멘틱 이미지 추론 방법 및 장치 Download PDF

Info

Publication number
WO2021133001A1
WO2021133001A1 PCT/KR2020/018684 KR2020018684W WO2021133001A1 WO 2021133001 A1 WO2021133001 A1 WO 2021133001A1 KR 2020018684 W KR2020018684 W KR 2020018684W WO 2021133001 A1 WO2021133001 A1 WO 2021133001A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
generating
segmentation map
segmentation
blank area
Prior art date
Application number
PCT/KR2020/018684
Other languages
English (en)
French (fr)
Inventor
신재섭
류성걸
손세훈
김형덕
김효성
Original Assignee
주식회사 픽스트리
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 픽스트리 filed Critical 주식회사 픽스트리
Priority to US17/789,167 priority Critical patent/US20230051832A1/en
Publication of WO2021133001A1 publication Critical patent/WO2021133001A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/77Retouching; Inpainting; Scratch removal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Definitions

  • This embodiment relates to a semantic image inference method and apparatus.
  • image editing/synthesis technology for correcting or synthesizing image fragments has been developed in various ways.
  • video editing/compositing technology is being developed for the purpose of erasing unwanted video parts or separating desired parts and synthesizing them with new parts.
  • a technique developed for image resizing includes a seam carving/insertion algorithm.
  • the seam carving algorithm calculates the importance between each pixel in the original image, sets a seam that connects pixels of low importance, and removes or inserts the seam in the order of lower importance. (Insertion) to reduce or expand the size of the image.
  • the seam carving technology was originally designed for the purpose of displaying images without distortion in devices having various resolutions.
  • the present embodiment is a technique for generating a blank region to which an image is to be expanded by using a segmentation map in which the blank region is extended and an inpainting technique. Since there is no information in the blank region of the image to be expanded, , a semantic image that first creates a segmentation map in which an empty area is extended based on the segmentation map from the input image, and then fills in the blank area of the image to be expanded based on the segmentation map extending the empty area and input image
  • An object of the present invention is to provide an inference method and apparatus.
  • the process of receiving an input image (Input Image) (I);
  • Generating a padded image (Padded Image) (I P) which includes the area to be expanded based on the input image (I);
  • the process of generating an Extrapolated Image (I ⁇ E ) by combining the padded image (IP ) and the segmentation map (S ⁇ E ) extending the blank area using the artificial intelligence model It provides a semantic image inference method, characterized in that it includes;
  • the input unit for receiving an input image (Input Image) (I); a segmentation unit for generating a segmentation -map (S ⁇ ) using an artificial intelligence model learned in advance based on deep learning on the input image (I); a segmentation extension unit for generating an Extrapolated Segmentation-Map (S ⁇ E ) in which a blank area is expanded based on the segmentation map (S ⁇ ) using the artificial intelligence model; Image padding unit for generating an image (Padded Image) (I P) comprising padding the area to be expanded based on the input image (I); An image for generating an Extrapolated Image (I ⁇ E ) by combining the padded image (IP ) and the segmentation map (S ⁇ E ) extending the blank area using the artificial intelligence model It provides a semantic image inference device comprising; an extension.
  • the image to be expanded Since there is no information in the blank area of the input image, a segmentation map that extends the blank region based on the segmentation map is first generated from the input image, and the blank region of the image to be expanded based on the segmentation map and the input image It has the effect of filling the
  • FIG. 1 is a block diagram schematically showing a semantic image inference apparatus for inferring an image to be filled in a blank area according to the present embodiment.
  • FIG. 2 is a block diagram schematically showing an image inference program mounted in the semantic image inference apparatus according to the present embodiment.
  • FIG. 3 is a diagram illustrating a method of inferring a semantic image to be filled in a blank area according to the present embodiment.
  • FIG. 4 is a flowchart illustrating a method of inferring a semantic image to be filled in a blank area according to the present embodiment.
  • segmentation extension 240 image padding unit
  • FIG. 1 is a block diagram schematically showing a semantic image inference apparatus for inferring an image to be filled in a blank area according to the present embodiment.
  • the semantic image inference apparatus 110 uses the image inference program 120 to generate a blank region to which an image is to be expanded by using a segmentation map and an inpainting technique.
  • the semantic image inference apparatus 110 first generates a segmentation map from the input image using the image inference program 120 and then fills in the blank area of the image to be expanded based on the segmentation map and information on the input image.
  • the semantic image inference apparatus 110 may be a user terminal or an application server, a service server, or a server terminal on which the image inference program 120 is mounted.
  • Each of the semantic image inference device 110 includes (i) a communication device such as a communication modem for communicating with various devices or wired and wireless communication networks, (ii) a memory for storing various programs and data for inferring a semantic image, iii) It may refer to various devices including a microprocessor for executing and controlling the image reasoning program 120 .
  • the memory is a computer such as random access memory (RAM), read only memory (ROM), flash memory, optical disk, magnetic disk, solid state disk (SSD), etc. It may be a readable recording/storage medium.
  • a microprocessor may be programmed to selectively perform one or more of the operations and functions described herein.
  • the microprocessor may be implemented in whole or in part as hardware such as an Application Specific Integrated Circuit (ASIC) of a specific configuration.
  • ASIC Application Specific Integrated Circuit
  • the semantic image inference apparatus 110 does not increase the input image I by using the image inference program 120, but creates an image similar to the input image through deep learning.
  • the image inference program 120 is a technique for filling in a part without information in the image, and since it is generally very difficult to fill in a part without information in the image directly from the input image, first from the input image (I), segmentation Create a map (S ⁇ ). Then, the image inference program 120 is a segmentation map expand create a segmentation map (S ⁇ E), an extension of the blank area based on a segmentation map (S ⁇ ) by using an artificial intelligence model 130, and space area The information in (S ⁇ E ) and the information in the input image (I) are used together to fill in the blank information in the image.
  • the artificial intelligence model 130 may be implemented as an artificial intelligence network.
  • Image inference program 120 and fill the empty area to guide the image (I P) padding with AI eda blank area to be expanded to extend the input by using an artificial intelligence model 130, the image (I).
  • the image inference program 120 may calculate the total color distribution value by shifting the non-normalization average value of the input image I and dividing it by the variance value.
  • the image inference program 120 uses the input image I and the padded image I P as reference data as input.
  • the image inference program 120 may create a final image by combining the image with respect to the original image, the mask position, and the segment guide using the artificial intelligence model 130 .
  • the artificial intelligence model 130 generates a new learning model by receiving the blank area to be expanded, the expanded image, and the existing image information.
  • the image inference program 120 expands the segmentation map S ⁇ using the artificial intelligence model 130 to make the segmentation map S ⁇ E in which the blank area is expanded.
  • the image inference program 120 combines the input image (I) with the padded image (I P ) including the region to be extended to the segmentation map (S ⁇ E ) extending the blank region to expand the blank region (I ⁇ ). E ) is created.
  • the artificial intelligence model 130 Set the size of the blank area to be expanded in .
  • Image inference program 120 is to pad the time to create a segmentation map (S ⁇ E) extends on a blank area of the segmentation map (S ⁇ ) by using an artificial intelligence model 130, the information in the boundary to extend the Based on the information, a segmentation map (S ⁇ E ) that extends the blank area is created.
  • Image reasoning program 120 makes the original image (image before expansion) segmentation map (S ⁇ E) segmentation map (S ⁇ E) extended an empty area together.
  • the segmentation map (S ⁇ E ) extending the blank area includes information on where the image belongs. For example, the same region is expressed due to the expressed color of the segmentation map (S ⁇ E ) in which the blank region is extended according to the training dataset.
  • the image inference program 120 generates a blank region to which an image is to be expanded by using the segmentation map S ⁇ E in which the blank region is extended and an inpainting technique. Since there is no information in the blank region of the image to be expanded, the image inference program 120 first generates a segmentation map (S ⁇ E ) in which the blank region is expanded based on the segmentation map (S ⁇ ) from the input image (I). Then, information is filled in the blank area of the image to be expanded based on the segmentation map (S ⁇ E ) in which the empty area is extended and the input image (I).
  • FIG. 2 is a block diagram schematically showing an image inference program mounted in the semantic image inference apparatus according to the present embodiment.
  • the image inference program 120 includes an input unit 210 , a segmentation unit 220 , a segmentation extension unit 230 , an image padding unit 240 , and an image expansion unit 250 .
  • Components included in the image inference program 120 are not necessarily limited thereto.
  • the image inference program 120 is a program mounted and driven in the semantic image inference device 110, and each component included in the image inference program 120 is a communication path connecting a software module or a hardware module inside the device. connected to each other and can operate organically with each other. These components communicate using one or more communication buses or signal lines.
  • Each component of the image reasoning program 120 shown in FIG. 2 means a unit for processing at least one function or operation, and may be implemented as a software module, a hardware module, or a combination of software and hardware.
  • the input unit 210 receives an input image (I).
  • the segmentation unit 220 generates a segmentation-map (S ⁇ ) by using the artificial intelligence model 130 learned in advance based on deep learning on the input image I.
  • the segmentation unit 220 may use an inpainting technique, but is not limited thereto.
  • the segmentation unit 220 When the segmentation unit 220 generates a segmentation map (S ⁇ ) using the artificial intelligence model 130 , when the dataset learned based on deep learning is insufficient, weakly-supervised learning techniques may be used, but are not necessarily limited thereto.
  • the segmentation extension unit 230 uses the artificial intelligence model 130 to generate an Extrapolated Segmentation-Map (S ⁇ E ) in which a blank area is expanded based on the segmentation map (S ⁇ ).
  • the segmentation extension unit 230 generates a padded segmentation map (S ⁇ P ) filling the blank region by first performing interpolation, rather than maintaining the blank region in a mask state.
  • the segmentation extension unit 230 uses the artificial intelligence model 130 to generate a padded segmentation map (S ⁇ P ) as an extended segmentation map (S ⁇ E ).
  • the segmentation extension unit 230 When there is no information in the blank area at all, the segmentation extension unit 230 generates a padded segmentation map (S ⁇ P ) by copying an edge pixel value located at an edge boundary closest to the blank area.
  • the segmentation extension unit 230 allows an object or region to be expanded in an image in the extended segmentation map S ⁇ E to be expressed with the same color as the same object or region.
  • Image padding section 240 generates an image (Padded Image) (P I) comprising a padding region to scale based on the input image (I).
  • the image extension unit 250 combines the padded image ( IP ) and the blank region-extended segmentation map (S ⁇ E ) using the artificial intelligence model 130 to expand the blank region (Extrapolated Image) (I) ⁇ E ).
  • the image extension unit 250 When generating the image (I ⁇ E ) in which the blank area is expanded, the image extension unit 250 performs channel concatenation and conditional non-regularity to deliver information in the segmentation map (S ⁇ E) in which the blank area is expanded. At least one of Conditional Denormalization is used.
  • the image expansion unit 250 merges the segmented images to be input to the artificial intelligence model 130 .
  • the image extension unit 250 shifts the mean and standard deviation of each object to the mean and standard deviation of a specific object based on the statistical characteristics of classes in the image by using conditional denormalization.
  • An image expansion section 250 is able to generate an image (I P) and an image (I ⁇ E) extend the space area by combining the free area extends segmentation map (S ⁇ E) padding with a Gated Convolution but , but is not necessarily limited thereto.
  • FIG. 3 is a diagram illustrating a method of inferring a semantic image to be filled in a blank area according to the present embodiment.
  • the image inference program 120 predicts the segmentation map (S ⁇ ) using the artificial intelligence model 130 from the input image (I).
  • the image inference program 120 may use a weakly-supervised learning technique when a dataset suitable for a test environment for making the segmentation map S ⁇ is insufficient.
  • the image inference program 120 When predicting the segmentation map (S ⁇ ) from the input image (I), the image inference program 120 additionally uses a data set learned based on deep learning (eg, learning data with many people such as a concert hall).
  • the image inference program 120 converts one input image (I) itself into one segmentation map (S ⁇ ) when the input image (I) is an image consisting only of buildings and people without a space such as the sky like a performance hall. can make
  • the image inference program 120 may use the supervise learning technique when making one input image (I) itself into one segmentation map (S ⁇ ).
  • the image inference program 120 predicts the segmentation map (S ⁇ E ) in which the blank area is extended from the segmentation map (S ⁇ ) using the artificial intelligence model 130 .
  • the image inference program 120 may use the padded segmentation map (S ⁇ P ) instead of the segmentation map (S ⁇ ) in order to stabilize learning.
  • the image inference program 120 may use a method of copying edge pixel values when generating the padded segmentation map (S ⁇ P ).
  • Inference program image 120 is created when the segmentation map (S ⁇ ) is predicted, the segmentation map (S ⁇ ) a segmentation map expand the space area (S ⁇ E) based on a.
  • the image inference program 120 generates a segmentation map (S ⁇ E ) in which an empty area to be filled is expanded rather than only the edge of the image is expanded.
  • the image inference program 120 creates a padded segmentation map (S ⁇ P ) by first filling the empty area using interpolation, rather than maintaining the empty area in the form of a mask.
  • the artificial intelligence model 130 may use the padded segmentation map (S ⁇ P ) for learning. For example, when there is no information in the empty area, the image inference program 120 may generate a padded segmentation map (S ⁇ P ) to have similar information by copying information on an edge boundary adjacent to the empty area.
  • the image inference program 120 predicts the image (I ⁇ E ) in which the blank area is extended using the padded image (IP ) and the segmentation map (S ⁇ E ) in which the blank area is extended.
  • the image inference program 120 may use channel concatenation to deliver information on the segmentation map (S ⁇ E ) in which the blank area is extended.
  • the image inference program 120 may use conditional denormalization to transmit information on the segmentation map (S ⁇ E) in which the blank area is extended.
  • Image inference program 120 creates an image (I P) and an image (I ⁇ E) extend the space area by using the segmentation map (S ⁇ E), an extension of the padding blank area.
  • the image inference program 120 may use a method of channel concatenation of two channels as it is in order to combine the padded image I P with the segmentation map S ⁇ E that extends the blank area.
  • one image (I) has 3 channels.
  • 6 channel AI to be input to the model 130 . That is, when using channel concatenation, two pieces of channel information may be combined and input to the artificial intelligence model 130 .
  • the image inference program 120 may use conditional denormalization to combine the padded image I P with the segmentation map S ⁇ E extending the blank area.
  • the image inference program 120 shifts the mean and standard deviation of each object having different properties, which are statistical properties of classes, into the mean and standard deviation of a specific object in the image by using conditional denormalization.
  • the image inference program 120 normalizes features of an input image by subtracting the mean and dividing by the standard deviation using conditional denormalization.
  • a normalized input feature map is generated, which is multiplied by ⁇ to add ⁇ when denormalized.
  • ⁇ and ⁇ are not generated based on the original image, but are determined through deep learning convolution based on the map information that is delivered to the condition. For example, there are adaptive instance normalization and spatial adaptive normalization.
  • the image inference program 120 When generating the image inference program 120 is padded image (I P) and the free area by combining the expanded segmentation map (S ⁇ E), the image can expand the space area (Extrapolated Image) (I ⁇ E), Gated Convolution can be used.
  • the image inference program 120 sets the erased part using Gated Convolution, and sequentially changes it to a convolution kernel for CNN.
  • the image inference program 120 applies the same kernel to the image by using gated convolution, and fills the information with convolution to the area with information.
  • the image inference program 120 does not perform convolution on the mask (region without information) by using gated convolution, but fills in the boundary region between the region with information and the region without information little by little.
  • Image inference program 120 reflects a region (space) to extend an extension of the free area by expanding the first, segmentation map (S ⁇ ) in order to satisfy the area (space) to extend segmentation map (S ⁇ E).
  • the image inference program 120 may apply the gated convolution based on the segmentation map (S ⁇ E ) extending the blank area, but is not necessarily limited to the gated convolution, and various artificial intelligence techniques may be applied.
  • the image inference program 120 may use an inpainting technique.
  • FIG. 4 is a flowchart illustrating a method of inferring a semantic image to be filled in a blank area according to the present embodiment.
  • the image inference program 120 receives an input image (I) (S410).
  • the image inference program 120 generates a segmentation map (S ⁇ ) by using the artificial intelligence model 130 learned in advance based on deep learning on the input image I (S420).
  • the image inference program 120 may use an inpainting technique when generating the segmentation map S ⁇ , but is not limited thereto.
  • the image inference program 120 When the image inference program 120 generates a segmentation map (S ⁇ ) using the artificial intelligence model 130 , when the dataset learned based on deep learning is insufficient, weakly-supervised learning (Weakly-Supervised Learning) ) technique may be used, but is not necessarily limited thereto.
  • weakly-supervised learning Weakly-Supervised Learning
  • the image inference program 120 generates a segmentation map (S ⁇ E ) in which a blank area is expanded based on the segmentation map (S ⁇ ) using the artificial intelligence model 130 ( S430 ).
  • the image inference program 120 generates a padded segmentation map (S ⁇ P ) filling the blank region by first performing interpolation, rather than maintaining the blank region in a mask state.
  • the image inference program 120 generates a padded segmentation map (S ⁇ P ) as an extended segmentation map (S ⁇ E ) using the artificial intelligence model 130 .
  • the image inference program 120 When there is no information in the blank area at all, the image inference program 120 generates a padded segmentation map S ⁇ P by copying an edge pixel value located at an edge boundary closest to the blank area.
  • the image inference program 120 causes an object or region to be expanded in the image to be expressed in the same color as the same object or region in the extended segmentation map (S ⁇ E ).
  • Image inference program 120 creates an image (Padded Image) (P I) comprising a padding region to scale based on the input image (I) (S440).
  • the image inference program 120 uses the artificial intelligence model 130 to combine the padded image (IP ) and the blank region-extended segmentation map (S ⁇ E ) to obtain the blank region-extended image (I ⁇ E ). generated (S450).
  • step S450 when the image inference program 120 generates the image (I ⁇ E ) in which the blank area is expanded, channel concatenation (Channel Concatenation) is performed to transfer information in the segmentation map (S ⁇ E) in which the empty area is expanded. ), and at least one of conditional denormalization.
  • the image inference program 120 merges the segmented images together to be input to the artificial intelligence model 130 .
  • the image inference program 120 shifts the mean and standard deviation of each object to the mean and standard deviation of a specific object based on the statistical characteristics of classes in the image using conditional denormalization.
  • Image inference program 120 may generate an image (I P) and an image (I ⁇ E) extend the space area by combining the free area extends segmentation map (S ⁇ E) padding with a Gated Convolution but , but is not necessarily limited thereto.
  • steps S410 to S450 are sequentially executed in FIG. 4
  • the present invention is not limited thereto.
  • FIG. 4 is not limited to a time-series order.
  • the method for inferring the semantic image according to the present embodiment described in FIG. 4 may be implemented as a program and recorded in a computer-readable recording medium.
  • a computer-readable recording medium in which a program for implementing the method of inferring a semantic image according to the present embodiment is recorded and includes all types of recording devices in which data that can be read by a computer system is stored.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

시멘틱 이미지 추론 방법 및 장치를 개시한다. 빈영역을 확장한 세그멘테이션 맵(Segmentation Map)과 인페이팅(Inpainting) 기술을 이용하여 영상을 확장하고자 하는 빈영역을 생성하는 기술로서, 확장하고자 하는 영상의 빈영역 내에 정보가 없으므로, 입력 영상으로부터 세그멘테이션 맵을 기반으로 빈영역을 확장한 세그멘테이션 맵을 우선 생성한 후 빈영역을 확장한 세그멘테이션 맵과 입력 영상을 기반으로 확장하고자 하는 영상의 빈영역을 정보를 채워넣도록 하는 시멘틱 이미지 추론 방법 및 장치를 제공한다.

Description

시멘틱 이미지 추론 방법 및 장치
본 실시예는 시멘틱 이미지 추론 방법 및 장치에 관한 것이다.
이하에 기술되는 내용은 단순히 본 실시예와 관련되는 배경 정보만을 제공할 뿐 종래기술을 구성하는 것이 아니다.
사용자의 편의에 따라 새로운 영상을 형성하기 위해 영상의 단편을 수정하거나 합성하는 영상 편집/합성 기술은 다양한 방법으로 개발되어 왔다. 영상 편집/합성 기술은 일반적으로 원치 않는 영상 부분을 지우거나 원하는 부분을 분리하고 새로운 부분과 합성하는 목적을 가지고 개발되고 있다.
영상을 합성하기 위하여 이미지 내의 객체 추출이 요구되는데, 객체를 추출하는 영상 분할 기술(Image Segmentation)로는 워터쉐드(Watershed) 알고리즘과 그래프 컷(Graph Cut) 알고리즘 등의 기술들이 개발되어 다양한 방법으로 활용되고 있다.
영상 크기 조정을 위해 개발된 기술로는 심 카빙(seam carving/insertion) 알고리즘이 있다. 심 카빙 알고리즘은 원본 영상에서 각각의 화소(pixel)간 중요도를 계산하여, 중요도가 낮은 화소를 연결시킨 심(Seam)을 설정하고, 중요도가 낮은 순서로 심(Seam)을 제거(Removal)하거나 삽입(Insertion)하여 영상의 크기를 축소하거나 확장한다. 심 카빙 기술은 본래 다양한 해상도를 갖는 장치에서 이미지를 표시하는 데 있어서 왜곡 없이 나타내기 위한 목적으로 고안되었다.
종래기술들은 단순히 배경영상에 객체영상을 덮어씌워 합성하는 방식을 이용하였다. 영상의 확대 및 축소 과정에서도 객체영상과 배경영상의 비율 등에 상관없이 단순히 전체 영상을 확대하거나 축소하였기 때문에 영상 편집/합성에 한계가 있으며, 이에 따라 자연스러운 합성영상을 제공하기 어려운 문제점이 있다.
본 실시예는 빈영역을 확장한 세그멘테이션 맵(Segmentation Map)과 인페이팅(Inpainting) 기술을 이용하여 영상을 확장하고자 하는 빈영역을 생성하는 기술로서, 확장하고자 하는 영상의 빈영역 내에 정보가 없으므로, 입력 영상으로부터 세그멘테이션 맵을 기반으로 빈영역을 확장한 세그멘테이션 맵을 우선 생성한 후 빈영역을 확장한 세그멘테이션 맵과 입력 영상을 기반으로 확장하고자 하는 영상의 빈영역을 정보를 채워넣도록 하는 시멘틱 이미지 추론 방법 및 장치를 제공하는 데 목적이 있다.
본 실시예의 일 측면에 의하면, 입력 이미지(Input Image)(I)를 입력받는 과정; 상기 입력 이미지(I)를 미리 딥러닝 기반으로 학습된 인공지능 모델을 이용하여 세그멘테이션 맵(Segmentation-Map)(S^)을 생성하는 과정; 상기 인공지능 모델을 이용하여 상기 세그멘테이션 맵(S^)을 기반으로 빈영역을 확장한 세그멘테이션 맵(Extrapolated Segmentation-Map)(S^ E)를 생성하는 과정; 상기 입력 이미지(I)를 기반으로 확장할 영역을 포함하는 패딩된 이미지(Padded Image)(IP)를 생성하는 과정; 상기 인공지능 모델을 이용하여 상기 패딩된 이미지(IP)와 상기 빈영역 확장한 세그멘테이션 맵(S^ E)를 결합하여 빈영역을 확장한 이미지(Extrapolated Image)(I^ E)를 생성하는 과정;을 포함하는 것을 특징으로 하는 시멘틱 이미지 추론 방법을 제공한다.
본 실시예의 다른 측면에 의하면, 입력 이미지(Input Image)(I)를 입력받는 입력부; 상기 입력 이미지(I)를 미리 딥러닝 기반으로 학습된 인공지능 모델을 이용하여 세그멘테이션 맵(Segmentation-Map)(S^)을 생성하는 세그멘테이션부; 상기 인공지능 모델을 이용하여 상기 세그멘테이션 맵(S^)을 기반으로 빈영역을 확장한 세그멘테이션 맵(Extrapolated Segmentation-Map)(S^ E)를 생성하는 세그멘테이션 확장부; 상기 입력 이미지(I)를 기반으로 확장할 영역을 포함하는 패딩된 이미지(Padded Image)(IP)를 생성하는 이미지 패딩부; 상기 인공지능 모델을 이용하여 상기 패딩된 이미지(IP)와 상기 빈영역 확장한 세그멘테이션 맵(S^ E)를 결합하여 빈영역을 확장한 이미지(Extrapolated Image)(I^ E)를 생성하는 이미지 확장부;를 포함하는 것을 특징으로 하는 시멘틱 이미지 추론 장치를 제공한다.
이상에서 설명한 바와 같이 본 실시예에 의하면, 빈영역을 확장한 세그멘테이션 맵(Segmentation Map)과 인페이팅(Inpainting) 기술을 이용하여 영상을 확장하고자 하는 빈영역을 생성하는 기술로서, 확장하고자 하는 영상의 빈영역 내에 정보가 없으므로, 입력 영상으로부터 세그멘테이션 맵을 기반으로 빈영역을 확장한 세그멘테이션 맵을 우선 생성한 후 빈영역을 확장한 세그멘테이션 맵과 입력 영상을 기반으로 확장하고자 하는 영상의 빈영역을 정보를 채워넣을 수 있는 효과가 있다.
도 1은 본 실시예에 따른 빈영역에 채워질 이미지를 추론하는 시멘틱 이미지 추론 장치를 개략적으로 나타낸 블럭 구성도이다.
도 2는 본 실시예에 따른 시멘틱 이미지 추론 장치 내에 탑재되는 이미지 추론 프로그램을 개략적으로 나타낸 블럭 구성도이다.
도 3은 본 실시예에 따른 빈영역에 채워질 시멘틱 이미지를 추론하는 방식을 나타낸 도면이다.
도 4는 본 실시예에 따른 빈영역에 채워질 시멘틱 이미지를 추론 방법을 설명하기 위한 순서도이다.
<도면의 주요부분에 대한 부호의 설명>
110: 시멘틱 이미지 추론 장치
120: 이미지 추론 프로그램
130: 인공지능 모델
210: 입력부 220: 세그멘테이션부
230: 세그멘테이션 확장부 240: 이미지 패딩부
250: 이미지 확장부
I : 입력 이미지(Input Image)
IP : 패딩된 이미지(Padded Image)
I^ E: 빈영역을 확장한 이미지((Predicted) Extrapolated Image)
S^: 세그멘테이션 맵((Predicted) Segmentation-Map)
S^ P: 패딩된 세그멘테이션 맵(Padded (Predicted) Segmentation-Map)
S^ E: 빈영역을 확장한 세그멘테이션 맵(Extrapolated (Predicted) Segmentation-Map)
이하, 본 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 실시예에 따른 빈영역에 채워질 이미지를 추론하는 시멘틱 이미지 추론 장치를 개략적으로 나타낸 블럭 구성도이다.
본 실시예에 따른 시멘틱 이미지 추론 장치(110)가 이미지 추론 프로그램(120)을 이용하여 세그멘테이션 맵(Segmentation Map)과 인페이팅(Inpainting) 기술을 이용하여 영상을 확장하고자 하는 빈영역을 생성한다.
시멘틱 이미지 추론 장치(110)가 이미지 추론 프로그램(120)을 이용하여 입력 영상으로부터 세그멘테이션 맵을 우선 생성한 후 세그멘테이션 맵과 입력 영상의 정보를 기반으로 확장하고자 하는 영상의 빈영역을 정보를 채워넣는다.
시멘틱 이미지 추론 장치(110)는 이미지 추론 프로그램(120)을 탑재하는 사용자 단말기 또는 응용 서버, 서비스 서버, 서버 단말기일 수 있다.
시멘틱 이미지 추론 장치(110)는 각기 (i) 각종 기기 또는 유무선 통신망과 통신을 수행하기 위한 통신 모뎀 등의 통신 장치, (ii) 시멘틱 이미지를 추론하기 위한 각종 프로그램과 데이터를 저장하기 위한 메모리, (iii) 이미지 추론 프로그램(120)을 실행하여 연산 및 제어하기 위한 마이크로프로세서 등을 구비하는 다양한 장치를 의미할 수 있다. 적어도 일 실시예에 따르면, 메모리는 램(Random Access Memory: RAM), 롬(Read Only Memory: ROM), 플래시 메모리, 광 디스크, 자기 디스크, 솔리드 스테이트 디스크(Solid State Disk: SSD) 등의 컴퓨터로 판독 가능한 기록/저장매체일 수 있다. 적어도 일 실시예에 따르면, 마이크로프로세서는 명세서에 기재된 동작과 기능을 하나 이상 선택적으로 수행하도록 프로그램될 수 있다. 적어도 일 실시예에 따르면, 마이크로프로세서는 전체 또는 부분적으로 특정한 구성의 주문형반도체(Application Specific Integrated Circuit: ASIC) 등의 하드웨어로써 구현될 수 있다.
본 실시예에 따른 시멘틱 이미지 추론 장치(110)가 이미지 추론 프로그램(120)을 이용하여 입력 이미지(I)를 늘리는 것이 아니라 입력 영상과 유사한 영상을 딥러닝으로 만들어 낸다.
이미지 추론 프로그램(120)은 영상 내 정보가 없는 부분에 대해 채워 넣는 기술로서, 일반적으로 입력 영상으로부터 곧바로 영상 내 정보가 없는 부분을 채워 넣기가 매우 어렵기 때문에, 입력 이미지(I)로부터 먼저, 세그멘테이션 맵(S^)을 생성한다. 이후, 이미지 추론 프로그램(120)은 인공지능 모델(130)을 이용하여 세그멘테이션 맵(S^)을 기반으로 빈영역을 확장한 세그멘테이션 맵(S^ E)을 생성하고, 빈영역을 확장한 세그멘테이션 맵(S^ E) 내의 정보와 입력 영상(I)의 정보를 함께 활용해서 영상 내 정보가 비어있는 부분을 채워 넣는다. 여기서, 인공지능 모델(130)은 인공지능 네트워크로 구현될 수 있다.
이미지 추론 프로그램(120)은 인공지능 모델(130)을 이용하여 확장하고자 입력 이미지(I)를 확장하고자 하는 빈영역에다 인공지능으로 패딩된 이미지(IP)를 가이드해서 빈영역에 채워넣는다. 이미지 추론 프로그램(120)은 입력 이미지(I)의 비노말라이제이션 평균값을 시프트해서 분산값으로 나누면, 전체 칼라 분포값을 산출할 수 있다. 이미지 추론 프로그램(120)은 기준 데이터로서, 입력 이미지(I), 패딩된 이미지(IP)를 입력으로 이용한다. 이미지 추론 프로그램(120)은 인공지능 모델(130)을 이용하여 원본 영상에 대한 이미지, 마스크 위치, 세그먼트 가이드를 합쳐서 최종 영상을 만들 수 있다.
인공지능 모델(130)은 확장시킬 빈영역, 확장된 이미지, 기존 영상 정보를 입력받아 새로운 학습 모델을 생성한다.
이미지 추론 프로그램(120)은 인공지능 모델(130)을 이용하여 세그멘테이션 맵(S^)을 확장시켜서 빈영역을 확장한 세그멘테이션 맵(S^ E)으로 만든다. 이미지 추론 프로그램(120)은 입력 이미지(I)에 확장될 영역까지 포함된 패딩된 이미지(IP)를 빈영역을 확장한 세그멘테이션 맵(S^ E)를 합쳐서 빈영역을 확장한 이미지(I^ E)를 생성한다.
이미지 추론 프로그램(120)에서 입력 이미지(I)를 필요한 만큼 확장시켜서 패딩된 이미지(IP)를 생성하며, 빈영역을 확장한 세그멘테이션 맵(S^ E)를 만들 때, 인공지능 모델(130)에서 확장하고자 하는 빈영역의 크기를 설정한다.
이미지 추론 프로그램(120)은 인공지능 모델(130)을 이용하여 세그멘테이션 맵(S^)에서 빈영역을 확장한 세그멘테이션 맵(S^ E)를 만들 때, 확장하고자 하는 경계에 있는 정보를 패딩해서 그 정보를 기반으로 빈영역을 확장한 세그멘테이션 맵(S^ E)를 만든다.
이미지 추론 프로그램(120)은 원본 영상(확장전 영상) 세그멘테이션 맵(S^ E)을 합쳐서 빈영역을 확장한 세그멘테이션 맵(S^ E)를 만든다. 빈영역을 확장한 세그멘테이션 맵(S^ E)은 영상이 어디에 속하는지에 대한 정보를 포함한다. 예컨대, 학습 데이터셋에 따라서 빈영역을 확장한 세그멘테이션 맵(S^ E)의 표현된 색깔로 인해 동일한 영역을 표현한다.
이미지 추론 프로그램(120)은 빈영역을 확장한 세그멘테이션 맵(S^ E)과 인페이팅(Inpainting) 기술을 이용하여 영상을 확장하고자 하는 빈영역을 생성한다. 이미지 추론 프로그램(120)은 확장하고자 하는 영상의 빈영역 내에 정보가 없으므로, 입력 영상(I)으로부터 세그멘테이션 맵(S^)을 기반으로 빈영역을 확장한 세그멘테이션 맵(S^ E)을 우선 생성한 후 빈영역을 확장한 세그멘테이션 맵(S^ E)과 입력 영상(I)을 기반으로 확장하고자 하는 영상의 빈영역을 정보를 채워넣는다.
도 2는 본 실시예에 따른 시멘틱 이미지 추론 장치 내에 탑재되는 이미지 추론 프로그램을 개략적으로 나타낸 블럭 구성도이다.
본 실시예에 따른 이미지 추론 프로그램(120)은 입력부(210), 세그멘테이션부(220), 세그멘테이션 확장부(230), 이미지 패딩부(240), 이미지 확장부(250)를 포함한다. 이미지 추론 프로그램(120)에 포함된 구성요소는 반드시 이에 한정되는 것은 아니다.
이미지 추론 프로그램(120)은 시멘틱 이미지 추론 장치(110) 내에 탑재되어 구동되는 프로그램으로서, 이미지 추론 프로그램(120)에 포함된 각 구성요소는 장치 내부의 소프트웨어적인 모듈 또는 하드웨어적인 모듈을 연결하는 통신 경로에 연결되어 상호 간에 유기적으로 동작할 수 있다. 이러한 구성요소는 하나 이상의 통신 버스 또는 신호선을 이용하여 통신한다.
도 2에 도시된 이미지 추론 프로그램(120)의 각 구성요소는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 소프트웨어적인 모듈, 하드웨어적인 모듈 또는 소프트웨어와 하드웨어의 결합으로 구현될 수 있다.
입력부(210)는 입력 이미지(Input Image)(I)를 입력받는다.
세그멘테이션부(220)는 입력 이미지(I)를 미리 딥러닝 기반으로 학습된 인공지능 모델(130)을 이용하여 세그멘테이션 맵(Segmentation-Map)(S^)을 생성한다.
세그멘테이션부(220)는 세그멘테이션 맵(S^)을 생성할 때, 인페이팅(Inpainting) 기법을 이용할 수 있으나, 반드시 이에 한정되는 것은 아니다. 세그멘테이션부(220)는 인공지능 모델(130)을 이용하여 세그멘테이션 맵(S^)을 생성할 때, 딥 러닝 기반으로 학습한 데이터셋이 부족한 경우, 윅클리 슈퍼바이즈 러닝(Weakly-Supervised Learning) 기법을 이용할 수 있으나, 반드시 이에 한정되는 것은 아니다.
세그멘테이션 확장부(230)는 인공지능 모델(130)을 이용하여 세그멘테이션 맵(S^)을 기반으로 빈영역을 확장한 세그멘테이션 맵(Extrapolated Segmentation-Map)(S^ E)를 생성한다.
세그멘테이션 확장부(230)는 빈영역을 마스크 상태로 유지하는 것이 아니라 먼저 인터폴레이션(interpolation)을 수행하여 빈영역을 채운 패딩된 세그멘테이션 맵(S^ P)을 생성한다. 세그멘테이션 확장부(230)는 인공지능 모델(130)을 이용하여 패딩된 세그멘테이션 맵(S^ P)을 확장한 세그멘테이션 맵(S^ E)으로 생성한다.
세그멘테이션 확장부(230)는 빈영역 내에 정보가 전혀 존재하지 않는 경우, 빈영역과 가장 인접한 가장자리 경계에 위치한 가장자리 픽셀 값을 복사하여 패딩된 세그멘테이션 맵(S^ P)을 생성한다. 세그멘테이션 확장부(230)는 확장한 세그멘테이션 맵(S^ E) 내에 이미지 내의 확장할 객체 또는 영역이 동일한 객체 또는 영역과 동일한 색상으로 표현되도록 한다.
이미지 패딩부(240)는 입력 이미지(I)를 기반으로 확장할 영역을 포함하는 패딩된 이미지(Padded Image)(IP)를 생성한다. 이미지 확장부(250)는 인공지능 모델(130)을 이용하여 패딩된 이미지(IP)와 빈영역 확장한 세그멘테이션 맵(S^ E)를 결합하여 빈영역을 확장한 이미지(Extrapolated Image)(I^ E)를 생성한다.
이미지 확장부(250)는 빈영역을 확장한 이미지(I^ E)를 생성할 때, 빈영역을 확장한 세그멘테이션 맵(S^ E) 내의 정보를 전달하기 위해서 채널 연결(Channel Concatenation), 조건부 비정규화(Conditional Denormalization) 중 적어도 하나 이상의 방식을 이용한다.
이미지 확장부(250)는 채널 연결(channel concatenation)을 이용하여 하나의 이미지 별 채널정보가 인공지능 모델(130)로 입력될 때, 세그멘테이션 이미지를 같이 합쳐서 인공지능 모델(130)로 입력되도록 한다. 이미지 확장부(250)는 조건부 비정규화(conditional denormalization)를 이용하여 이미지 내에서 클래스들의 통계적 특성을 기반으로 각 객체의 평균과 표준편차가 특정 객체의 평균과 표준편차로 시프트 시킨다. 이미지 확장부(250)는 Gated Convolution을 이용하여 패딩된 이미지(IP)와 빈영역 확장한 세그멘테이션 맵(S^ E)를 결합하여 빈영역을 확장한 이미지(I^ E)를 생성할 수 있으나, 반드시 이에 한정되는 것은 아니다.
도 3은 본 실시예에 따른 빈영역에 채워질 시멘틱 이미지를 추론하는 방식을 나타낸 도면이다.
이미지 추론 프로그램(120)은 입력 이미지(I)로부터 인공지능 모델(130)을 이용하여 세그멘테이션 맵(S^)을 예측한다. 이때, 이미지 추론 프로그램(120)은 세그멘테이션 맵(S^)을 만들기 위한 테스트 환경에 적합한 데이터셋이 부족한 경우, weakly-supervised learning 기법을 이용할 수 있다.
이미지 추론 프로그램(120)은 입력 이미지(I)로부터 세그멘테이션 맵(S^)을 예측할 때, 부가적으로 딥 러닝 기반으로 학습한 데이터 셋(예컨대, 공연장과 같이 사람이 많은 학습 데이터)을 이용한다. 이미지 추론 프로그램(120)은 입력 이미지(I)가 공연장과 같이 하늘과 같은 공간이 없고 건물과 사람으로만 이루어진 영상인 경우, 하나의 입력 이미지(I) 자체를 하나의 세그멘테이션 맵(S^)으로 만들 수 있다. 이미지 추론 프로그램(120)은 하나의 입력 이미지(I) 자체를 하나의 세그멘테이션 맵(S^)으로 만들 때 슈퍼바이즈 러닝 기법을 이용할 수 있다.
이미지 추론 프로그램(120)은 인공지능 모델(130)을 이용하여 세그멘테이션 맵(S^)으로부터 빈영역을 확장한 세그멘테이션 맵(S^ E)를 예측한다. 이때, 이미지 추론 프로그램(120)은 학습을 안정화시키기 위해서 세그멘테이션 맵(S^) 대신 패딩된 세그멘테이션 맵(S^ P)을 이용할 수 있다. 이미지 추론 프로그램(120)은 패딩된 세그멘테이션 맵(S^ P)을 생성할 때, 가장자리 픽셀 값을 복사하는 방법을 이용할 수 있다.
이미지 추론 프로그램(120)은 세그멘테이션 맵(S^)이 예측되면, 세그멘테이션 맵(S^)을 기반으로 빈영역을 확장한 세그멘테이션 맵(S^ E)을 생성한다. 이미지 추론 프로그램(120)은 영상의 가장자리만을 확장하는 것이 아니라 채워져야 할 빈영역을 확장한 세그멘테이션 맵(S^ E)을 생성한다.
이미지 추론 프로그램(120)은 빈영역을 마스크 형태로 유지하는 것이 아니라 인터폴레이션(interpolation)을 이용하여 비워진 영역을 먼저 채워서 패딩된 세그멘테이션 맵(S^ P)를 만든다. 이때, 인공지능 모델(130)은 패딩된 세그멘테이션 맵(S^ P)을 학습에 이용할 수 있다. 예컨대, 이미지 추론 프로그램(120)은 비워진 영역 내에 정보가 전혀 없을 때, 비워진 영역과 인접한 가장자리 경계에 있는 정보를 복사하여 비슷한 정보를 가지도록 패딩된 세그멘테이션 맵(S^ P)을 생성할 수 있다.
이미지 추론 프로그램(120)은 패딩된 이미지(IP)와 빈영역 확장한 세그멘테이션 맵(S^ E)를 사용해서 빈영역을 확장한 이미지(I^ E)를 예측한다. 이때, 이미지 추론 프로그램(120)은 빈영역을 확장한 세그멘테이션 맵(S^ E)의 정보를 전달하기 위해서 채널 연결(Channel Concatenation)을 이용할 수 있다. 이미지 추론 프로그램(120)은 빈영역을 확장한 세그멘테이션 맵(S^ E)의 정보를 전달하기 위해서 조건부 비정규화(Conditional Denormalization)를 이용할 수 있다.
이미지 추론 프로그램(120)은 패딩된 이미지(IP)와 빈영역을 확장한 세그멘테이션 맵(S^ E)을 이용하여 빈영역을 확장한 이미지(I^ E)를 생성한다. 이미지 추론 프로그램(120)은 패딩된 이미지(IP)와 빈영역을 확장한 세그멘테이션 맵(S^ E)을 결합하기 위해서, 두 개의 채널을 그대로 채널 연결(channel concatenation)하는 방법을 사용할 수 있다. 채널 연결(channel concatenation)은 하나의 이미지(I)는 3채널을 가지고 있는데, 3채널 이미지가 인공지능 모델(130)의 컨볼루션 입력으로 들어올 때, 세그멘테이션 이미지를 같이 합치게 되면, 6채널 인공지능 모델(130)에 입력될 수 있도록 한다. 즉, 채널 연결(channel concatenation)을 이용하는 경우, 두 개의 채널 정보를 결합해서 인공지능 모델(130)에 입력할 수 있다.
이미지 추론 프로그램(120)은 패딩된 이미지(IP)와 빈영역을 확장한 세그멘테이션 맵(S^ E)을 결합하기 위해서, 조건부 비정규화(conditional denormalization)를 이용할 수 있다.
이미지 추론 프로그램(120)은 조건부 비정규화(conditional denormalization)를 이용하여 영상 내에서 클래스들의 통계적 특성인 서로 다른 특성을 갖는 각 객체의 평균과 표준편차를 특정 객체의 평균과 표준편차로 시프트 시킨다. 이미지 추론 프로그램(120)은 조건부 비정규화(conditional denormalization)를 이용하여 입력으로 들어오는 영상의 피쳐를 평균을 빼고 표준편차로 나눠서 정규화한다. 정규화된 입력 피쳐 맵이 생성되는데, 이를 비정규화할 때 γ를 곱해서 β를 더해준다. γ와 β는 원본 영상을 기반으로 생성하는 것이 아니라 컨디션으로 전달해주는 맵의 정보를 기반으로 딥러닝 컨볼루션을 통과해서 결정한다. 예컨대, 인스턴스 정규화(Adaptive Instance Normalization)과 공간 정규화(Spatial Adaptive Normalization)이 있다.
이미지 추론 프로그램(120)은 패딩된 이미지(IP)와 빈영역 확장한 세그멘테이션 맵(S^ E)를 결합하여 빈영역을 확장한 이미지(Extrapolated Image)(I^ E)를 생성할 때, Gated Convolution을 이용할 수 있다.
이미지 추론 프로그램(120)은 Gated Convolution을 이용하여 지워진 부분을 설정하고, CNN에 대해서 컨볼루션 커널로 순차적으로 변화시킨다. 이미지 추론 프로그램(120)은 Gated Convolution을 이용하여 영상에 대해서 동일한 커널을 적용하며, 정보가 있는 영역에 대해서는 컨볼루션으로 정보를 채운다. 이미지 추론 프로그램(120)은 Gated Convolution을 이용하여 마스크(정보가 없는 영역)에 대해서는 컨볼루션을 수행하지 않고, 정보가 있는 영역과 정보가 없는 영역의 경계 영역이 조금씩 채운다.
이미지 추론 프로그램(120)은 확장할 영역(공간)을 채우기 위해서 먼저, 세그먼테이션 맵(S^)을 확장시켜서 빈영역을 확장한 세그멘테이션 맵(S^ E)을 확장할 영역(공간)에 반영한다.
이미지 추론 프로그램(120)은 빈영역을 확장한 세그멘테이션 맵(S^ E)을 기초로 Gated Convolution을 적용할 수 있으나, 반드시 Gated Convolution으로 한정되는 것은 아니며, 다양한 인공지능 기법이 적용될 수 있다. 이미지 추론 프로그램(120)은 세그멘테이션 맵(S^)을 생성할 때, 인페이팅(Inpainting) 기법을 이용할 수 있다.
도 4는 본 실시예에 따른 빈영역에 채워질 시멘틱 이미지를 추론 방법을 설명하기 위한 순서도이다.
이미지 추론 프로그램(120)은 입력 이미지(Input Image)(I)를 입력받는다(S410).
이미지 추론 프로그램(120)은 입력 이미지(I)를 미리 딥러닝 기반으로 학습된 인공지능 모델(130)을 이용하여 세그멘테이션 맵(S^)을 생성한다(S420). 단계 S420에서, 이미지 추론 프로그램(120)은 세그멘테이션 맵(S^)을 생성할 때, 인페이팅(Inpainting) 기법을 이용할 수 있으나, 반드시 이에 한정되는 것은 아니다.
이미지 추론 프로그램(120)은 인공지능 모델(130)을 이용하여 세그멘테이션 맵(S^)을 생성할 때, 딥 러닝 기반으로 학습한 데이터셋이 부족한 경우, 윅클리 슈퍼바이즈 러닝(Weakly-Supervised Learning) 기법을 이용할 수 있으나, 반드시 이에 한정되는 것은 아니다.
이미지 추론 프로그램(120)은 인공지능 모델(130)을 이용하여 세그멘테이션 맵(S^)을 기반으로 빈영역을 확장한 세그멘테이션 맵(S^ E)를 생성한다(S430). 단계 S430에서, 이미지 추론 프로그램(120)은 빈영역을 마스크 상태로 유지하는 것이 아니라 먼저 인터폴레이션(interpolation)을 수행하여 빈영역을 채운 패딩된 세그멘테이션 맵(S^ P)를 생성한다. 이미지 추론 프로그램(120)은 인공지능 모델(130)을 이용하여 패딩된 세그멘테이션 맵(S^ P)을 확장한 세그멘테이션 맵(S^ E)으로 생성한다.
이미지 추론 프로그램(120)은 빈영역 내에 정보가 전혀 존재하지 않는 경우, 빈영역과 가장 인접한 가장자리 경계에 위치한 가장자리 픽셀 값을 복사하여 패딩된 세그멘테이션 맵(S^ P)을 생성한다. 이미지 추론 프로그램(120)은 확장한 세그멘테이션 맵(S^ E) 내에 이미지 내의 확장할 객체 또는 영역이 동일한 객체 또는 영역과 동일한 색상으로 표현되도록 한다.
이미지 추론 프로그램(120)은 입력 이미지(I)를 기반으로 확장할 영역을 포함하는 패딩된 이미지(Padded Image)(IP)를 생성한다(S440).
이미지 추론 프로그램(120)은 인공지능 모델(130)을 이용하여 패딩된 이미지(IP)와 빈영역 확장한 세그멘테이션 맵(S^ E)를 결합하여 빈영역을 확장한 이미지(I^ E)를 생성한다(S450). 단계 S450에서, 이미지 추론 프로그램(120)은 빈영역을 확장한 이미지(I^ E)를 생성할 때, 빈영역을 확장한 세그멘테이션 맵(S^ E) 내의 정보를 전달하기 위해서 채널 연결(Channel Concatenation), 조건부 비정규화(Conditional Denormalization) 중 적어도 하나 이상의 방식을 이용한다.
이미지 추론 프로그램(120)은 채널 연결(channel concatenation)을 이용하여 하나의 이미지 별 채널정보가 인공지능 모델(130)로 입력될 때, 세그멘테이션 이미지를 같이 합쳐서 인공지능 모델(130)로 입력되도록 한다.
이미지 추론 프로그램(120)은 조건부 비정규화(conditional denormalization)를 이용하여 이미지 내에서 클래스들의 통계적 특성을 기반으로 각 객체의 평균과 표준편차가 특정 객체의 평균과 표준편차로 시프트 시킨다.
이미지 추론 프로그램(120)은 Gated Convolution을 이용하여 패딩된 이미지(IP)와 빈영역 확장한 세그멘테이션 맵(S^ E)를 결합하여 빈영역을 확장한 이미지(I^ E)를 생성할 수 있으나, 반드시 이에 한정되는 것은 아니다.
도 4에서는 단계 S410 내지 단계 S450을 순차적으로 실행하는 것으로 기재하고 있으나, 반드시 이에 한정되는 것은 아니다. 다시 말해, 도 4에 기재된 단계를 변경하여 실행하거나 하나 이상의 단계를 병렬적으로 실행하는 것으로 적용 가능할 것이므로, 도 4는 시계열적인 순서로 한정되는 것은 아니다.
전술한 바와 같이 도 4에 기재된 본 실시예에 따른 시멘틱 이미지를 추론 방법은 프로그램으로 구현되고 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다. 본 실시예에 따른 시멘틱 이미지를 추론 방법을 구현하기 위한 프로그램이 기록되고 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다.
이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (11)

  1. 입력 이미지(Input Image)(I)를 입력받는 과정;
    상기 입력 이미지(I)를 미리 딥러닝 기반으로 학습된 인공지능 모델을 이용하여 세그멘테이션 맵(Segmentation-Map)(S^)으로 생성하는 과정;
    상기 인공지능 모델을 이용하여 상기 세그멘테이션 맵(S^)을 기반으로 빈영역을 확장한 세그멘테이션 맵(Extrapolated Segmentation-Map)(S^ E)를 생성하는 과정;
    상기 입력 이미지(I)를 기반으로 확장할 영역을 포함하는 패딩된 이미지(Padded Image)(IP)를 생성하는 과정;
    상기 인공지능 모델을 이용하여 상기 패딩된 이미지(IP)와 상기 빈영역 확장한 세그멘테이션 맵(S^ E)를 결합하여 빈영역을 확장한 이미지(Extrapolated Image)(I^ E)를 생성하는 과정;
    을 포함하는 것을 특징으로 하는 시멘틱 이미지 추론 방법.
  2. 제1항에 있어서,
    상기 세그멘테이션 맵(S^)을 생성하는 과정은
    상기 세그멘테이션 맵(S^)을 생성할 때, 인페이팅(Inpainting) 기법을 이용하는 것을 특징으로 하는 시멘틱 이미지 추론 방법.
  3. 제2항에 있어서,
    상기 세그멘테이션 맵(S^)을 생성하는 과정은
    상기 세그멘테이션 맵(S^)을 생성할 때, 딥 러닝 기반으로 학습한 데이터셋이 부족한 경우, 윅클리 슈퍼바이즈 러닝(Weakly-Supervised Learning) 기법을 이용하는 것을 특징으로 하는 시멘틱 이미지 추론 방법.
  4. 제1항에 있어서,
    상기 빈영역을 확장한 세그멘테이션 맵(S^ E)을 생성하는 과정은
    빈영역을 마스크 상태로 유지하는 것이 아니라 먼저 인터폴레이션(interpolation)을 수행하여 빈영역을 채운 패딩된 세그멘테이션 맵(S^ P)를 생성하고,
    상기 인공지능 모델을 이용하여 상기 패딩된 세그멘테이션 맵(S^ P)을 상기 확장한 세그멘테이션 맵(S^ E)으로 생성하는 것을 특징으로 하는 시멘틱 이미지 추론 방법.
  5. 제4항에 있어서,
    상기 빈영역을 확장한 세그멘테이션 맵(S^ E)을 생성하는 과정은
    빈영역 내에 정보가 전혀 존재하지 않는 경우, 빈영역과 가장 인접한 가장자리 경계에 위치한 가장자리 픽셀 값을 복사하여 상기 패딩된 세그멘테이션 맵(S^ P)을 생성하는 것을 특징으로 하는 시멘틱 이미지 추론 방법.
  6. 제5항에 있어서,
    상기 빈영역을 확장한 세그멘테이션 맵(S^ E)을 생성하는 과정은
    상기 확장한 세그멘테이션 맵(S^ E) 내에 이미지 내의 확장할 객체 또는 영역이 동일한 객체 또는 영역과 동일한 색상으로 표현되도록 하는 것을 특징으로 하는 시멘틱 이미지 추론 방법.
  7. 제1항에 있어서,
    상기 빈영역을 확장한 이미지(I^ E)를 생성하는 과정은
    상기 빈영역을 확장한 이미지(I^ E)를 생성할 때, 상기 빈영역을 확장한 세그멘테이션 맵(S^ E) 내의 정보를 전달하기 위해서 채널 연결(Channel Concatenation), 조건부 비정규화(Conditional Denormalization) 중 적어도 하나 이상의 방식을 이용하는 것을 특징으로 하는 시멘틱 이미지 추론 방법.
  8. 제7항에 있어서,
    상기 빈영역을 확장한 이미지(I^ E)를 생성하는 과정은
    상기 채널 연결(channel concatenation)을 이용하여 하나의 이미지 별 채널정보가 상기 인공지능 모델로 입력될 때, 세그멘테이션 이미지를 같이 합쳐서 상기 인공지능 모델로 입력되도록 하는 것을 특징으로 하는 시멘틱 이미지 추론 방법.
  9. 제7항에 있어서,
    상기 빈영역을 확장한 이미지(I^ E)를 생성하는 과정은
    상기 조건부 비정규화(conditional denormalization)를 이용하여 이미지 내에서 클래스들의 통계적 특성을 기반으로 각 객체의 평균과 표준편차가 특정 객체의 평균과 표준편차로 시프트 시키는 것을 특징으로 하는 시멘틱 이미지 추론 방법.
  10. 제1항에 있어서,
    상기 빈영역을 확장한 이미지(I^ E)를 생성하는 과정은
    Gated Convolution을 이용하여 상기 패딩된 이미지(IP)와 상기 빈영역 확장한 세그멘테이션 맵(S^ E)를 결합하여 상기 빈영역을 확장한 이미지(I^ E)를 생성하는 것을 특징으로 하는 시멘틱 이미지 추론 방법.
  11. 입력 이미지(Input Image)(I)를 입력받는 입력부;
    상기 입력 이미지(I)를 미리 딥러닝 기반으로 학습된 인공지능 모델을 이용하여 세그멘테이션 맵(Segmentation-Map)(S^)을 생성하는 세그멘테이션부;
    상기 인공지능 모델을 이용하여 상기 세그멘테이션 맵(S^)을 기반으로 빈영역을 확장한 세그멘테이션 맵(Extrapolated Segmentation-Map)(S^ E)를 생성하는 세그멘테이션 확장부;
    상기 입력 이미지(I)를 기반으로 확장할 영역을 포함하는 패딩된 이미지(Padded Image)(IP)를 생성하는 이미지 패딩부;
    상기 인공지능 모델을 이용하여 상기 패딩된 이미지(IP)와 상기 빈영역 확장한 세그멘테이션 맵(S^ E)를 결합하여 빈영역을 확장한 이미지(Extrapolated Image)(I^ E)를 생성하는 이미지 확장부;
    을 포함하는 것을 특징으로 하는 시멘틱 이미지 추론 장치.
PCT/KR2020/018684 2019-12-26 2020-12-18 시멘틱 이미지 추론 방법 및 장치 WO2021133001A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/789,167 US20230051832A1 (en) 2019-12-26 2020-12-18 Semantic image extrapolation method and apparatus

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020190174883A KR102349289B1 (ko) 2019-12-26 2019-12-26 시멘틱 이미지 추론 방법 및 장치
KR10-2019-0174883 2019-12-26

Publications (1)

Publication Number Publication Date
WO2021133001A1 true WO2021133001A1 (ko) 2021-07-01

Family

ID=76575642

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/018684 WO2021133001A1 (ko) 2019-12-26 2020-12-18 시멘틱 이미지 추론 방법 및 장치

Country Status (3)

Country Link
US (1) US20230051832A1 (ko)
KR (1) KR102349289B1 (ko)
WO (1) WO2021133001A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024051690A1 (zh) * 2022-09-06 2024-03-14 北京字跳网络技术有限公司 图像的修复方法、装置及电子设备

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12020403B2 (en) * 2021-11-08 2024-06-25 Adobe Inc. Semantically-aware image extrapolation
KR102562676B1 (ko) 2022-02-18 2023-08-02 광주과학기술원 에피폴라 평면 이미지를 이용한 시점 외삽 방법
KR102486300B1 (ko) * 2022-09-20 2023-01-10 한국전자기술연구원 영상 인페인팅 장치 및 방법
KR102563758B1 (ko) * 2022-12-30 2023-08-09 고려대학교 산학협력단 3차원 모델을 활용한 시멘틱 세그멘테이션 학습 데이터 생성 장치
KR102572423B1 (ko) * 2023-03-07 2023-08-30 주식회사 에이모 인스턴스 레이어를 생성하는 방법 및 장치
KR102546206B1 (ko) * 2023-03-09 2023-06-22 주식회사 인피닉 멀티 스케일 특징들의 상관관계 및 지역적 연관성을 활용한 시맨틱 세그멘테이션 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140169695A1 (en) * 2012-12-19 2014-06-19 Industrial Technology Research Institute Method for in-image periodic noise pixel inpainting
KR20150088656A (ko) * 2014-01-24 2015-08-03 에스케이플래닛 주식회사 참조 영역 분할을 이용한 인페인팅 장치 및 방법
KR101969864B1 (ko) * 2017-12-15 2019-04-18 동국대학교 산학협력단 객체영상과 배경영상의 상호 연동에 기반한 영상 합성 방법
WO2019098414A1 (ko) * 2017-11-16 2019-05-23 삼성전자 주식회사 약한 지도 학습에 기초한 뉴럴 네트워크의 계층적 학습 방법 및 장치

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10140544B1 (en) 2018-04-02 2018-11-27 12 Sigma Technologies Enhanced convolutional neural network for image segmentation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140169695A1 (en) * 2012-12-19 2014-06-19 Industrial Technology Research Institute Method for in-image periodic noise pixel inpainting
KR20150088656A (ko) * 2014-01-24 2015-08-03 에스케이플래닛 주식회사 참조 영역 분할을 이용한 인페인팅 장치 및 방법
WO2019098414A1 (ko) * 2017-11-16 2019-05-23 삼성전자 주식회사 약한 지도 학습에 기초한 뉴럴 네트워크의 계층적 학습 방법 및 장치
KR101969864B1 (ko) * 2017-12-15 2019-04-18 동국대학교 산학협력단 객체영상과 배경영상의 상호 연동에 기반한 영상 합성 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JIAHUI YU; ZHE LIN; JIMEI YANG; XIAOHUI SHEN; XIN LU; THOMAS S. HUANG: "Free-Form Image Inpainting with Gated Convolution", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 10 June 2018 (2018-06-10), 201 Olin Library Cornell University Ithaca, NY 14853, XP080888972 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024051690A1 (zh) * 2022-09-06 2024-03-14 北京字跳网络技术有限公司 图像的修复方法、装置及电子设备

Also Published As

Publication number Publication date
KR20210082691A (ko) 2021-07-06
KR102349289B1 (ko) 2022-01-11
US20230051832A1 (en) 2023-02-16

Similar Documents

Publication Publication Date Title
WO2021133001A1 (ko) 시멘틱 이미지 추론 방법 및 장치
WO2018217019A1 (ko) 신경망 학습 기반의 변종 악성 코드를 탐지하기 위한 장치, 이를 위한 방법 및 이 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체
WO2021085784A1 (ko) 객체 검출 모델의 학습 방법 및 객체 검출 모델이 실행되는 객체 검출 장치
US20120293537A1 (en) Data-generating device, data-generating method, data-generating program and recording medium
WO2011087289A2 (en) Method and system for rendering three dimensional views of a scene
WO2020149601A1 (ko) 3d cnn을 이용한 고속 영상 인식 방법 및 장치
WO2023277667A1 (ko) 웹툰 컨텐츠 다국어 번역 방법
WO2021133002A2 (ko) 영상 비율을 확장 또는 축소하기 위한 영상 리타겟팅 방법 및 장치
WO2024019337A1 (en) Video enhancement method and apparatus
WO2023210884A1 (ko) 비지역적 평균 기반의 노이즈 제거 장치 및 방법
WO2020050550A1 (en) Methods and systems for performing editing operations on media
JP6878718B2 (ja) ダイジェスト映像取得装置、ダイジェスト映像取得方法、およびプログラム
WO2021071258A1 (ko) 인공지능 기반의 휴대용 보안영상 학습장치 및 방법
WO2022131720A1 (ko) 건축물 이미지를 생성하는 장치 및 방법
WO2022114252A1 (ko) 복잡도 기반 특정 영역 연산 생략 방식을 이용한 딥러닝 기반 범시적 영역 분할 연산 가속처리 방법
WO2022255523A1 (ko) 멀티 스케일 객체 이미지 복원 방법 및 장치
WO2015083857A1 (ko) Surf 하드웨어 장치 및 적분 이미지 메모리 관리 방법
WO2019009579A1 (ko) 지원점 보간법을 이용한 스테레오 매칭 방법 및 장치
WO2011007970A1 (en) Method and apparatus for processing image
WO2023090596A1 (ko) 얼굴 합성 방법 및 시스템
WO2024150843A1 (ko) 캡처 이미지 디스플레이 제어장치
WO2020013663A1 (en) Method and apparatus for rendering contents for vision accessibility
WO2019208869A1 (ko) 학습을 이용한 얼굴 특징점 검출 방법 및 장치
WO2013065909A1 (ko) 자동화된 포토 모자이크 영상 생성 방법 및 시스템
KR20210062388A (ko) 영상의 객체 분할을 수행하는 영상 처리 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20905890

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20905890

Country of ref document: EP

Kind code of ref document: A1