KR102287407B1 - 이미지 생성을 위한 학습 장치 및 방법과 이미지 생성 장치 및 방법 - Google Patents

이미지 생성을 위한 학습 장치 및 방법과 이미지 생성 장치 및 방법 Download PDF

Info

Publication number
KR102287407B1
KR102287407B1 KR1020200178374A KR20200178374A KR102287407B1 KR 102287407 B1 KR102287407 B1 KR 102287407B1 KR 1020200178374 A KR1020200178374 A KR 1020200178374A KR 20200178374 A KR20200178374 A KR 20200178374A KR 102287407 B1 KR102287407 B1 KR 102287407B1
Authority
KR
South Korea
Prior art keywords
image
generated
feature vector
generating
key
Prior art date
Application number
KR1020200178374A
Other languages
English (en)
Inventor
최규상
한종호
신현광
Original Assignee
영남대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 영남대학교 산학협력단 filed Critical 영남대학교 산학협력단
Priority to KR1020200178374A priority Critical patent/KR102287407B1/ko
Application granted granted Critical
Publication of KR102287407B1 publication Critical patent/KR102287407B1/ko
Priority to PCT/KR2021/013316 priority patent/WO2022131497A1/ko
Priority to US18/027,326 priority patent/US11869129B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/40Analysis of texture
    • G06T7/49Analysis of texture based on structural texture description, e.g. using primitives or placement rules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06K9/481
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/469Contour-based spatial representations, e.g. vector-coding
    • G06K2209/01
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/61Scene description
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)

Abstract

이미지 생성을 위한 학습 장치 및 방법이 개시된다. 본 발명의 일 실시예에 따른 이미지 생성을 위한 학습 장치 및 방법은 이미지 생성을 위한 텍스트를 입력받고, 입력된 텍스트로부터 문장(sentence) 특징 벡터 및 단어(word) 특징 벡터를 생성하는 전처리 모듈; 상기 전처리 모듈로부터 상기 문장 특징 벡터를 입력받고, 상기 입력된 문장 특징 벡터를 기반으로 초기 이미지를 생성하는 제1 생성적 적대 신경망(GAN; Generative Adversarial Networks); 및 상기 전처리 모듈에서 생성된 단어 특징 벡터 및 상기 제1 생성적 적대 신경망에서 생성된 초기 이미지를 입력받고, 상기 단어 특징 벡터 및 초기 이미지를 기반으로 최종 이미지를 생성하는 제2 생성적 적대 신경망을 포함한다.

Description

이미지 생성을 위한 학습 장치 및 방법과 이미지 생성 장치 및 방법{LEARNING APPARATUS AND METHOD FOR CREATING IMAGE AND APPARATUS AND METHOD FOR IMAGE CREATION}
본 발명의 실시예들은 이미지 생성 기술과 관련된다.
생성 모델(generative model)이란 주어진 데이터의 분포(distribution)를 직간접적으로 얻어내고 이를 바탕으로 데이터를 생성해내기 위한 모델을 의미한다. 딥러닝 기반의 이미지 생성 모델로서 대표적으로 PixelCNN과 GAN(generative adversarial network)이 등장하였으며, 최근에는 특히 GAN이 이미지 생성 모델로서 활발히 연구되고 있다.
이러한 GAN은 생성하고자 하는 이미지가 비교적 간단하거나, 또는 데이터세트 내 분포가 유사한 경우 등에서는 매우 우수한 성능을 나타낸다. 예를 들어, 사람의 얼굴 이미지를 생성하는 경우에는 사람의 얼굴 스타일(눈, 코, 입, 머리 스타일)을 위주로 생성된 텍스트로부터 사람의 얼굴을 실제와 같이 생성할 수 있다.
그러나, 이러한 이미지 생성 모델은 생성하고자 하는 이미지의 텍스트가 복잡한 경우, 초기 이미지가 잘못 생성되어 텍스트에서 정확한 이미지가 생성되지 않는 문제가 있다.
대한민국 공개특허공보 제10-2019-0080415호 (2019.07.08.)
본 발명의 실시예들은 생성하고자 하는 이미지의 텍스트로부터 이미지 생성 품질을 높이기 위한 것이다.
개시되는 일 실시예에 따른 이미지 생성을 위한 학습 장치는 이미지 생성을 위한 텍스트를 입력받고, 입력된 텍스트로부터 문장(sentence) 특징 벡터 및 단어(word) 특징 벡터를 생성하는 전처리 모듈; 상기 전처리 모듈로부터 상기 문장 특징 벡터를 입력받고, 상기 입력된 문장 특징 벡터를 기반으로 초기 이미지를 생성하는 제1 생성적 적대 신경망(GAN; Generative Adversarial Networks); 및 상기 전처리 모듈에서 생성된 단어 특징 벡터 및 상기 제1 생성적 적대 신경망에서 생성된 초기 이미지를 입력받고, 상기 단어 특징 벡터 및 초기 이미지를 기반으로 최종 이미지를 생성하는 제2 생성적 적대 신경망을 포함한다.
상기 제1 생성적 적대 신경망은, 상기 입력된 문장 특징 벡터로부터 랜덤 노이즈(random noise) 벡터를 생성하고, 상기 입력된 문장 특징 벡터 및 상기 생성된 랜덤 노이즈 벡터를 기반으로 초기 이미지를 생성하는 제1 생성자; 및 상기 제1 생성자로부터 생성된 초기 이미지를 기 설정된 제1 비교 이미지와 비교하고, 상기 비교 결과에 따라 입력된 이미지가 제1 비교 이미지인지 또는 생성된 초기 이미지인지의 여부를 판단하며, 상기 판단 결과를 상기 제1 생성자로 피드백하는 제1 판별자를 포함할 수 있다.
상기 제2 생성적 적대 신경망은 상기 전처리 모듈에서 생성된 단어 특징 벡터 및 상기 제1 생성적 적대 신경망에서 생성된 초기 이미지를 입력받고, 동적 메모리(dynamic memory)를 기반으로 상기 단어 특징 벡터와 상기 초기 이미지의 특징맵으로부터 개선된 이미지를 생성하며, 비지역 블록(non local block)을 이용하여 상기 개선된 이미지로부터 개선된 이미지의 특징맵을 생성하고, 상기 동적 메모리를 기반으로 상기 단어 특징 벡터와 상기 개선된 이미지의 특징맵으로부터 최종 이미지를 생성하는 제2 생성자; 및 상기 제2 생성자로부터 생성된 최종 이미지를 기 설정된 제2 비교 이미지와 비교하고, 상기 비교 결과에 따라 입력된 이미지가 제2 비교 이미지인지 또는 생성된 최종 이미지인지의 여부를 판단하며, 상기 판단 결과를 상기 제2 생성자로 피드백하는 제2 판별자를 포함할 수 있다.
상기 제2 생성자는 상기 단어 특징 벡터와 상기 초기 이미지를 결합하여 상기 동적 메모리에 저장하기 위한 키와 값((key and value)을 생성하고, 상기 생성된 키와 상기 동적 메모리에 기 저장된 키 중 상기 생성된 키와 유사한 키를 추출하여 상기 생성된 키와 상기 추출한 키의 유사도를 산출하며, 상기 산출된 유사도를 기반으로 상기 값(value)의 가중 합계(weighted sum)를 출력하는 이미지 개선 모듈; 및 상기 출력된 가중 합계 및 상기 초기 이미지를 기반으로 개선된 이미지를 생성하는 이미지 특징 생성 모듈을 포함할 수 있다.
상기 제2 생성자는 상기 비지역 블록을 이용하여 상기 생성된 개선된 이미지로부터 개선된 이미지의 특징맵을 생성하는 비지역 블록 모듈(non local block)을 더 포함할 수 있다.
상기 제2 생성자는 상기 개선된 이미지의 특징맵이 생성된 경우, 상기 이미지 개선 모듈 및 상기 이미지 특징 생성 모듈을 통하여 상기 단어 특징 벡터 및 상기 개선된 이미지로부터 최종 이미지를 생성할 수 있다.
개시되는 다른 실시예에 따른 이미지 생성 장치는 이미지 생성을 위한 텍스트를 입력받고, 입력된 텍스트로부터 문장(sentence) 특징 벡터 및 단어(word) 특징 벡터를 생성하는 전처리 모듈; 상기 전처리 모듈로부터 상기 문장 특징 벡터를 입력받고, 상기 입력된 문장 특징 벡터를 기반으로 초기 이미지를 생성하는 제1 생성적 적대 신경망(GAN; Generative Adversarial Networks); 및 상기 전처리 모듈에서 생성된 단어 특징 벡터 및 상기 제1 생성적 적대 신경망에서 생성된 초기 이미지를 입력받고, 상기 단어 특징 벡터 및 초기 이미지를 기반으로 최종 이미지를 생성하는 제2 생성적 적대 신경망을 포함한다.
상기 제1 생성적 적대 신경망은 상기 입력된 문장 특징 벡터로부터 랜덤 노이즈(random noise) 벡터를 생성하고, 상기 입력된 문장 특징 벡터 및 상기 생성된 랜덤 노이즈 벡터를 기반으로 초기 이미지를 생성할 수 있다.
상기 제2 생성적 적대 신경망은 상기 전처리 모듈에서 생성된 단어 특징 벡터 및 상기 제1 생성적 적대 신경망에서 생성된 초기 이미지를 입력받고, 동적 메모리(dynamic memory)를 기반으로 상기 단어 특징 벡터와 상기 초기 이미지의 특징맵으로부터 개선된 이미지를 생성하며, 비지역 블록(non local block)을 이용하여 상기 개선된 이미지로부터 개선된 이미지의 특징맵을 생성하고, 상기 동적 메모리를 기반으로 상기 단어 특징 벡터와 상기 개선된 이미지의 특징맵으로부터 최종 이미지를 생성할 수 있다.
본 발명의 실시예들에 따르면, 생성하고자 하는 이미지의 텍스트로부터 초기 이미지가 잘못 생성되더라도 텍스트 의미와 일치하는 정확한 이미지를 생성할 수 있다.
도 1는 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도
도 2는 본 발명의 일 실시예에 따른 이미지 생성을 위한 학습 장치를 나타낸 블록도
도 3은 본 발명의 일 실시예에 따른 이미지 생성을 위한 학습 장치에서 제1 생성적 적대 신경망을 설명하기 위한 블록도
도 4는 본 발명의 일 실시예에 따른 이미지 생성을 위한 학습 장치에서 제2 생성적 적대 신경망을 설명하기 위한 블록도
도 5는 본 발명의 일 실시예에 따른 이미지 생성을 위한 학습장치에서 제2 생성적 적대 신경망의 제2 생성자를 설명하기 위한 블록도
도 6은 본 발명의 일 실시예에 따른 이미지 생성을 위한 학습 장치에서 제1 생성적 적대 신경망의 학습 방법을 설명하기 위한 흐름도
도 7은 본 발명의 일 실시예에 따른 이미지 생성을 위한 학습 장치에서 제2 생성적 적대 신경망의 학습 방법을 설명하기 위한 흐름도
도 8은 본 발명의 일 실시예에 따른 이미지 생성 장치를 나타낸 블록도
도 9는 본 발명의 일 실시예에 따른 이미지 생성 방법을 설명하기 위한 흐름도
이하, 도면을 참조하여 본 발명의 구체적인 실시형태를 설명하기로 한다. 이하의 상세한 설명은 본 명세서에서 기술된 방법, 장치 및/또는 시스템에 대한 포괄적인 이해를 돕기 위해 제공된다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.
본 발명의 실시예들을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 상세한 설명에서 사용되는 용어는 단지 본 발명의 실시예들을 기술하기 위한 것이며, 결코 제한적이어서는 안 된다. 명확하게 달리 사용되지 않는 한, 단수 형태의 표현은 복수 형태의 의미를 포함한다. 본 설명에서, "포함" 또는 "구비"와 같은 표현은 어떤 특성들, 숫자들, 단계들, 동작들, 요소들, 이들의 일부 또는 조합을 가리키기 위한 것이며, 기술된 것 이외에 하나 또는 그 이상의 다른 특성, 숫자, 단계, 동작, 요소, 이들의 일부 또는 조합의 존재 또는 가능성을 배제하도록 해석되어서는 안된다.
도 1는 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경(10)을 예시하여 설명하기 위한 블록도이다. 도시된 실시예에서, 각 컴포넌트들은 이하에 기술된 것 이외에 상이한 기능 및 능력을 가질 수 있고, 이하에 기술되는 것 이외에도 추가적인 컴포넌트를 포함할 수 있다.
도시된 컴퓨팅 환경(10)은 컴퓨팅 장치(12)를 포함한다. 일 실시예에서, 컴퓨팅 장치(12)는 이미지 생성을 위한 학습 장치(100)일 수 있다. 또한, 컴퓨팅 장치(12)는 이미지 생성 장치(800)일 수 있다.
컴퓨팅 장치(12)는 적어도 하나의 프로세서(14), 컴퓨터 판독 가능 저장 매체(16) 및 통신 버스(18)를 포함한다. 프로세서(14)는 컴퓨팅 장치(12)로 하여금 앞서 언급된 예시적인 실시예에 따라 동작하도록 할 수 있다. 예컨대, 프로세서(14)는 컴퓨터 판독 가능 저장 매체(16)에 저장된 하나 이상의 프로그램들을 실행할 수 있다. 상기 하나 이상의 프로그램들은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 상기 컴퓨터 실행 가능 명령어는 프로세서(14)에 의해 실행되는 경우 컴퓨팅 장치(12)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.
컴퓨터 판독 가능 저장 매체(16)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능 저장 매체(16)에 저장된 프로그램(20)은 프로세서(14)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독 가능 저장 매체(16)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 컴퓨팅 장치(12)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.
통신 버스(18)는 프로세서(14), 컴퓨터 판독 가능 저장 매체(16)를 포함하여 컴퓨팅 장치(12)의 다른 다양한 컴포넌트들을 상호 연결한다.
컴퓨팅 장치(12)는 또한 하나 이상의 입출력 장치(24)를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(22) 및 하나 이상의 네트워크 통신 인터페이스(26)를 포함할 수 있다. 입출력 인터페이스(22) 및 네트워크 통신 인터페이스(26)는 통신 버스(18)에 연결된다. 입출력 장치(24)는 입출력 인터페이스(22)를 통해 컴퓨팅 장치(12)의 다른 컴포넌트들에 연결될 수 있다. 예시적인 입출력 장치(24)는 포인팅 장치(마우스 또는 트랙패드 등), 키보드, 터치 입력 장치(터치패드 또는 터치스크린 등), 음성 또는 소리 입력 장치, 다양한 종류의 센서 장치 및/또는 촬영 장치와 같은 입력 장치, 및/또는 디스플레이 장치, 프린터, 스피커 및/또는 네트워크 카드와 같은 출력 장치를 포함할 수 있다. 예시적인 입출력 장치(24)는 컴퓨팅 장치(12)를 구성하는 일 컴포넌트로서 컴퓨팅 장치(12)의 내부에 포함될 수도 있고, 컴퓨팅 장치(12)와는 구별되는 별개의 장치로 컴퓨팅 장치(12)와 연결될 수도 있다.
도 2는 본 발명의 일 실시예에 따른 이미지 생성을 위한 학습 장치(100)를 나타낸 블록도이다.
도 2에 도시된 바와 같이, 본 발명의 일 실시예에 따른 이미지 생성을 위한 학습 장치(100)는 전처리 모듈(200), 제1 생성적 적대 신경망(GAN; Generative Adversarial Networks)(300, 이하 "제1 GAN") 및 제2 생성적 적대 신경망(400, 이하 "제2 GAN")을 포함할 수 있다.
한편, 본 발명의 일 실시예에 따른 생성적 적대 신경망(GAN)은 생성자(Generator)와 판별자(Discriminator)를 포함하는 두 개의 네트워크로 구성될 수 있다. 생성자는 생성 모델의 역할로서, 주어진 데이터를 학습하고 이로부터 유사한 데이터를 생성한다. 또한, 판별자는 생성자에 의해 생성된 데이터를 획득하여 데이터가 생성자로부터 생성된 데이터인지 실제 데이터인지를 구별하는 일종의 분별기(classifier)이다. 따라서, 생성자는 데이터와 유사한 데이터를 생성하는 것을 목적으로 하고, 판별자는 생성된 데이터와 실제 데이터를 분류하는 것을 목적으로 한다. 이에 두 네트워크를 minimax 관계라고 한다.
전처리 모듈(200)은 이미지 생성을 위한 텍스트를 입력받고, 입력된 텍스트로부터 문장(sentence) 정보 및 단어(word) 정보를 생성할 수 있다. 구체적으로, 전처리 모듈(200)은 이미지 생성을 위한 텍스트를 입력받고, 입력된 텍스트를 필터링할 수 있다. 예를 들어, 전처리 모듈(200)은 NLTK(Natural Language Toolkit)을 이용하여 입력된 텍스트에서 불필요한 단어 설명 및 불용어(不用語) 등을 제거할 수 있다. 여기서, NLTK(Natural Language Toolkit)는 언어 처리 기능을 제공하는 장치이다. 또한, 전처리 모듈(200)은 필터링된 텍스트에 대한 임베딩(Embedding)을 수행하여 벡터 정보를 추출하고, LSTM 텍스트 인코더(Long Short-Time Memory text encoder)를 이용하여 추출된 벡터 정보로부터 문장 정보 및 단어 정보를 생성할 수 있다. 여기서, LSTM 텍스트 인코더(Long Short-Time Memory text encoder)는 데이터의 압축된 표현을 학습할 수 있는 모델로서, 입력된 텍스트를 문장 특징 및 단어 특징으로 분류할 수 있다. 여기서, 문장(sentence) 정보는 문장 특징 벡터(sentence feature vector)를 포함할 수 있으며, 단어(word) 정보는 단어 특징 벡터(word feature vector)를 포함할 수 있다.
제1 GAN(300)은 전처리 모듈(200)로부터 문장 정보를 입력받고, 문장 정보로부터 랜덤 노이즈(random noise) 정보를 생성하며, 입력된 문장 정보 및 생성된 랜덤 노이즈 정보를 기반으로 초기 이미지를 생성할 수 있다. 여기서, 랜덤 노이즈(random noise) 정보는 데이터(이미지, 음성, 텍스트 등)와 유사한 노이즈를 추가하기 위한 것으로, 문장 특징 벡터의 정규 분포에서 샘플링된 벡터일 수 있다. 또한, 랜덤 노이즈(random noise) 정보는 랜덤 노이즈 벡터를 포함할 수 있다.
도 3은 본 발명의 일 실시예에 따른 이미지 생성을 위한 학습 장치에서 제1 생성적 적대 신경망을 설명하기 위한 블록도이다.
도 3에 도시된 바와 같이, 본 발명의 일 실시예에 따른 제1 GAN(300)은 제1 생성자(310, G1) 및 제1 판별자(320, D1)를 포함할 수 있다.
제1 생성자(310)는 전처리 모듈(200)로부터 문장 정보를 입력받고, 문장 정보로부터 랜덤 노이즈(random noise) 정보를 생성할 수 있다.
또한, 제1 생성자(310)는 입력된 문장 정보 및 생성된 랜덤 노이즈 정보를 기반으로 초기 이미지를 생성할 수 있다. 예를 들어, 제1 생성자(310)는 문장 특징 벡터 및 랜덤 노이즈 벡터를 기초로 완전 연결 레이어(fully connected layer), 최근접 이웃 업샘플링 레이어(nearest neighbor upsampling layer) 및 3X3 컨볼루션 레이어(convolution layer)를 이용하여 초기 이미지 특징맵을 생성할 수 있다. 또한, 제1 생성자(310)는 생성된 초기 이미지 특징맵에 3X3 컨볼루션 레이어를 이용하여 64X64 크기의 초기 이미지를 생성할 수 있다.
제1 판별자(320)는 제1 비교 이미지 및 제1 생성자로부터 생성된 초기 이미지를 학습하고, 학습 결과에 따라 입력된 이미지(초기 이미지)가 비교 이미지인지 생성 이미지인지의 여부를 판단할 수 있다. 여기서, 제1 비교 이미지란 카메라 등의 촬영장치에 의하여 촬영된 실제 이미지를 의미할 수 있으며, 예를 들어, 텍스트로부터 생성된 초기 이미지에 대한 실제 이미지일 수 있다. 제1 판별자(320)는 판단 결과를 제1 생성자(310)로 피드백함으로써 제1 생성자(310)에서 생성되는 이미지가 실제와 점점 유사해질 수 있다. 제1 판별자(320)는 입력된 이미지의 유사도에 따라 0~1사이의 값을 출력할 수 있으며, 제1 비교 이미지인 경우 1을 출력할 수 있다.
전술한 학습 과정을 통해 제1 생성자(310)에서 생성되는 초기 이미지가 제1 비교 이미지와 충분히 유사해질 경우, 제1 판별자(320)는 입력되는 초기 이미지가 제1 비교 이미지인지 또는 생성 이미지인지의 여부를 구별할 수 없게 된다. 제1 GAN(300)이 이와 같은 상태에 도달하면 학습 과정은 종료되며, 이후 제1 생성자(310)는 입력되는 텍스트에 따라 초기 이미지를 생성하게 된다.
다시 도 2를 참조하면, 제2 GAN(400)은 전처리 모듈(200)에서 생성된 단어 정보 및 제1 GAN(300)에서 출력된 초기 이미지를 입력받고, 이로부터 최종 이미지를 생성할 수 있다.
도 4는 본 발명의 일 실시예에 따른 이미지 생성을 위한 학습 장치에서 제2 생성적 적대 신경망을 설명하기 위한 블록도이다.
도 4에 도시된 바와 같이, 본 발명의 일 실시예에 따른 제2 GAN(400)은 제2 생성자(410, G2) 및 제2 판별자(420, D2)를 포함할 수 있다.
제2 생성자(410)는 전처리 모듈(200)에서 생성된 단어 정보 및 제1 GAN(300)에서 출력된 초기 이미지를 입력받고, 동적 메모리(dynamic memory)를 기반으로 단어 정보와 초기 이미지 특징맵으로부터 새로운 이미지(개선된 이미지)를 생성할 수 있다. 또한, 제2 생성자(410)는 비지역 블록을 이용하여 개선된 이미지로부터 개선된 이미지 특징맵을 생성하고, 동적 메모리를 기반으로 단어 정보와 개선된 이미지 특징맵으로부터 최종 이미지를 생성할 수 있다.
도 5는 본 발명의 일 실시예에 따른 이미지 생성을 위한 학습장치에서 제2 생성적 적대 신경망의 제2 생성자를 설명하기 위한 블록도이다.
도 5에 도시된 바와 같이, 제2 생성자(410)는 이미지 개선 모듈(411), 이미지 특징 생성 모듈(412) 및 비지역 블록 모듈(413)을 포함할 수 있다. 일 실시예에서, 이미지 개선 모듈(411) 및 이미지 특징 생성 모듈(412)은 동적 메모리(dynamic memory)에서 수행될 수 있다.
이미지 개선 모듈(411)은 전처리 모듈(200)에서 생성된 단어 정보 및 제1 GAN(300)에서 출력된 초기 이미지를 입력받고, 단어 정보와 초기 이미지를 결합하여 키와 값((key and value)을 생성하고 동적 메모리에 저장할 수 있다. 예를 들어, 이미지 개선 모듈(411)은 단어 특징(
Figure 112020137991400-pat00001
, 여기서 T는 단어의 수, Nw은 단어 특징 차원(dimension)))과 초기 이미지(
Figure 112020137991400-pat00002
, 여기서 N은 이미지의 픽셀 수, Nr은 이미지 특징 차원)로부터 하기 수학식 1을 통하여 단어 중요도(
Figure 112020137991400-pat00003
)를 산출할 수 있다.
Figure 112020137991400-pat00004
(여기서, σ는 시그모이드 함수(sigmoid function), A는
Figure 112020137991400-pat00005
행렬, B는
Figure 112020137991400-pat00006
행렬)
또한, 산출된 단어 중요도와 동적 메모리(dynamic memory)에 임베딩(embedding)된 단어 특징(Mw) 및 이미지 특징(Mr)을 결합하여 하기 수학식 2를 통하여 키와 값((key and value)으로 구조화하고 동적 메모리 슬롯(mi)에 저장할 수 있다.
Figure 112020137991400-pat00007
(여기서, mi는 i번째 동적 메모리 슬롯)
또한, 이미지 개선 모듈(411)은 생성된 키와 동적 메모리에 기 저장된 키와의 유사도를 산출하여 산출된 유사도에 따른 값(value)의 가중 합계(weighted sum)를 출력할 수 있다. 예를 들어, 이미지 개선 모듈(411)은 생성된 키와 연관된 동적 메모리 슬롯(유사한 동적 메모리 슬롯)을 추출하고, 하기 수학식 3을 통하여 추출된 각 동적 메모리 슬롯(m)과 이미지 특징 사이의 유사도(
Figure 112020137991400-pat00008
)을 산출할 수 있다.
Figure 112020137991400-pat00009
(여기서,
Figure 112020137991400-pat00010
는 i번째 동적 메모리 슬롯과 j 번째 이미지 특징 사이의 유사도,
Figure 112020137991400-pat00011
는 키 메모리 접근 프로세스)
이미지 개선 모듈(411)은 하기 수학식 4를 통하여 산출된 유사도에 따른 값(value)의 가중 합계(weighted sum)를 출력할 수 있다.
Figure 112020137991400-pat00012
(여기서,
Figure 112020137991400-pat00013
는 가중 합계,
Figure 112020137991400-pat00014
는 값 메모리 접근 프로세스)
이미지 특징 생성 모듈(412)은 출력된 가중 합계와 초기 이미지를 결합하고 업샘플링 블록(upsampling block) 및 잔여 블록(residual block)을 이용하여 새로운 이미지(개선된 이미지)를 생성할 수 있다. 여기서, 업샘플링 블록(upsampling block)은 이미지를 업스케일링(upscaling)하기 위한 것으로, 최근접 이웃 업 샘플링 레이어(nearest neighbor upsampling layer)와 3×3 컨볼루션(convolution)을 포함할 수 있으며, 잔여 블록은 연산량과 파라미터 수를 줄이기 위한 것이다.
비지역 블록(Non local block) 모듈(413)은 생성된 개선된 이미지로부터 개선된 이미지 특징맵을 생성할 수 있다. 구체적으로, 비지역 블록 모듈(413)은 생성된 개선된 이미지에서 모든 영역에 대한 유사한 픽셀들을 추출하고, 해당 픽섹을 유사한 픽셀들의 평균 값으로 재설정하여 개선된 이미지 특징맵을 생성할 수 있다.
한편, 이미지 개선 모듈(411) 및 이미지 특징 생성 모듈(412)은 개선된 이미지 특징맵이 생성되는 경우, 단어 정보와 개선된 이미지 특징맵으로부터 최종 이미지를 생성할 수 있다.
즉, 이미지 개선 모듈(411)은 단어 정보 및 개선된 이미지 특징맵을 입력받고, 단어 정보와 개선된 이미지 특징맵을 결합하여 키(key)와 값(value)을 생성할 수 있으며, 생성된 키와 동적 메모리에 기 저장된 키와의 유사도를 산출하여 산출된 유사도에 따른 값(value)의 가중 합계(weighted sum)를 출력할 수 있다. 또한, 이미지 특징 생성 모듈(412)은 출력된 가중 합계와 개선된 이미지 특징맵을 결합하고 업샘플링 블록(upsampling block) 및 잔여 블록(residual block)을 이용하여 최종 이미지를 생성할 수 있다.
제2 판별자(420)는 제2 비교 이미지 및 제2 생성자(410)로부터 생성된 최종 이미지를 학습하고, 학습 결과에 따라 입력된 이미지(최종 이미지)가 비교 이미지인지 생성이미지인지의 여부를 판단할 수 있다. 여기서, 제2 비교 이미지란 카메라 등의 촬영장치에 의하여 촬영된 실제 이미지를 의미할 수 있으며, 예를 들어, 텍스트로부터 생성된 최종 이미지에 대한 실제 이미지일 수 있다. 제2 판별자(420)는 판단 결과를 제2 생성자(410)로 피드백함으로써 제2 생성자(410)에서 생성되는 이미지가 실제와 점점 유사해질 수 있다. 제2 판별자(420)는 입력된 이미지의 유사도에 따라 0~1사이의 값을 출력할 수 있으며, 제2 비교 이미지인 경우 1을 출력할 수 있다.
전술한 학습 과정을 통해 제2 생성자(410)에서 생성되는 최종 이미지가 제2 비교 이미지와 충분히 유사해질 경우, 제2 판별자(420)는 입력되는 최종 이미지가 제2 비교 이미지인지 또는 생성 이미지인지의 여부를 구별할 수 없게 된다. 제2 GAN(400)이 이와 같은 상태에 도달하면 학습 과정은 종료되며, 이후 제2 생성자(410)는 입력되는 텍스트 및 초기 이미지에 따라 최종 이미지를 생성하게 된다.
도 6은 본 발명의 일 실시예에 따른 이미지 생성을 위한 학습 장치에서 제1 생성적 적대 신경망의 학습 방법을 설명하기 위한 흐름도이다. 전술한 바와 같이, 본 발명의 일 실시예에 따른 제1 생성적 적대 신경망은 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치(12)에서 수행될 수 있다. 이를 위하여, 상기 제1 생성적 적대 신경망은 하나 이상의 컴퓨터 실행 가능 명령어를 포함하는 프로그램 내지 소프트웨어의 형태로 구현되어 상기 메모리상에 저장될 수 있다.
또한, 도시된 흐름도에서는 상기 방법을 복수 개의 단계로 나누어 기재하였으나, 적어도 일부의 단계들은 순서를 바꾸어 수행되거나, 다른 단계와 결합되어 함께 수행되거나, 생략되거나, 세부 단계들로 나뉘어 수행되거나, 또는 도시되지 않은 하나 이상의 단계가 부가되어 수행될 수 있다.
단계 602에서, 컴퓨팅 장치(12)는 제1 생성자(310)를 통해, 전처리 모듈(200)로부터 문장 정보를 입력받고, 문장 정보로부터 랜덤 노이즈(random noise) 정보를 생성한다.
단계 604에서, 컴퓨팅 장치(12)는 제1 생성자(310)를 통해, 입력된 문장 정보 및 생성된 랜덤 노이즈 정보를 기반으로 초기 이미지를 생성한다.
단계 606에서, 컴퓨팅 장치(12)는 제1 판별자(320)를 통해, 제1 생성자(310)로부터 생성된 초기 이미지를 기 설정된 제1 비교 이미지와 비교한다.
단계 608에서, 컴퓨팅 장치(12)는 제1 판별자(320)를 통해, 비교 결과에 따라 입력된 이미지가 제1 비교 이미지인지 또는 생성된 초기 이미지인지의 여부를 판단하고, 판단 결과를 제1 생성자(310)로 피드백한다.
도 7은 본 발명의 일 실시예에 따른 이미지 생성을 위한 학습 장치에서 제2 생성적 적대 신경망의 학습 방법을 설명하기 위한 흐름도이다. 전술한 바와 같이, 본 발명의 일 실시예에 따른 제2 생성적 적대 신경망은 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치(12)에서 수행될 수 있다. 이를 위하여, 상기 제2 생성적 적대 신경망은 하나 이상의 컴퓨터 실행 가능 명령어를 포함하는 프로그램 내지 소프트웨어의 형태로 구현되어 상기 메모리상에 저장될 수 있다.
또한, 도시된 흐름도에서는 상기 방법을 복수 개의 단계로 나누어 기재하였으나, 적어도 일부의 단계들은 순서를 바꾸어 수행되거나, 다른 단계와 결합되어 함께 수행되거나, 생략되거나, 세부 단계들로 나뉘어 수행되거나, 또는 도시되지 않은 하나 이상의 단계가 부가되어 수행될 수 있다.
단계 702에서, 컴퓨팅 장치(12)는 제2 생성자(410)를 통해, 전처리 모듈(200)에서 생성된 단어 정보 및 제1 GAN(300)에서 출력된 초기 이미지를 입력받고, 동적 메모리(dynamic memory)를 기반으로 단어 정보와 초기 이미지 특징맵으로부터 새로운 이미지(개선된 이미지)를 생성한다.
단계 704에서, 컴퓨팅 장치(12)는 제2 생성자(410)를 통해, 비지역 블록을 이용하여 개선된 이미지로부터 개선된 이미지 특징맵을 생성하고, 동적 메모리를 기반으로 단어 정보와 개선된 이미지 특징맵으로부터 최종 이미지를 생성한다.
단계 706에서, 컴퓨팅 장치(12)는 제2 판별자(420)를 통해, 제2 생성자(410)로부터 생성된 최종 이미지를 기 설정된 제2 비교이미지와 비교한다.
단계 708에서, 컴퓨팅 장치(12)는 제2 판별자(420)를 통해, 비교 결과에 따라 입력된 이미지가 제2 비교 이미지인지 또는 생성된 최종 이미지인지의 여부를 판단하고, 판단 결과를 제2 생성자(410)로 피드백한다.
도 8은 본 발명의 일 실시예에 따른 이미지 생성 장치를 나타낸 블록도이다. 도 2 내지 도 5를 참조하여 설명하였던 본 발명의 실시예에서의 구성요소와 대응되는 구성요소는, 실시예에서 설명한 바와 동일 또는 유사한 기능을 수행하므로, 이에 대한 보다 구체적인 설명은 생략하도록 한다.
도 8에 도시된 바와 같이, 본 발명의 일 실시예에 따른 이미지 생성 장치(800)는 전처리 모듈(810), 제1 생성적 적대 신경망(820, 이하 "제1 GAN") 및 제2 생성적 적대 신경망(830, 이하 "제2 GAN")을 포함할 수 있다. 본 실시예에서, 제1 GAN(820) 및 제2 GAN(830)은 학습이 완료된 상태일 수 있다.
제1 GAN(820)은 전처리 모듈(810)로부터 문장 정보를 입력받고, 문장 정보로부터 랜덤 노이즈(random noise) 정보를 생성하며, 입력된 문장 정보 및 생성된 랜덤 노이즈 정보를 기반으로 초기 이미지를 생성할 수 있다. 여기서, 랜덤 노이즈(random noise) 정보는 데이터(이미지, 음성, 텍스트 등)와 유사한 노이즈를 추가하기 위한 것으로, 문장 특징 벡터의 정규 분포에서 샘플링된 벡터일 수 있다. 또한, 랜덤 노이즈(random noise) 정보는 랜덤 노이즈 벡터를 포함할 수 있다.
제2 GAN(830)은 전처리 모듈(810)에서 생성된 단어 정보 및 제1 GAN(820)에서 출력된 초기 이미지를 입력받고, 동적 메모리(dynamic memory)를 기반으로 단어 정보와 초기 이미지 특징맵으로부터 개선된 이미지를 생성할 수 있다. 또한, 제2 GAN(830)은 비지역 블록을 이용하여 개선된 이미지로부터 개선된 이미지 특징맵을 생성하고, 동적 메모리를 기반으로 단어 정보와 개선된 이미지 특징맵으로부터 최종 이미지를 생성할 수 있다.
따라서, 본 발명의 실시예들에 따르면, 생성하고자 하는 이미지의 텍스트로부터 초기 이미지가 잘못 생성되더라도 동적 메모리 및 비지역 블록을 이용하여 단어 특징 및 초기 이미지를 기반으로 텍스트 의미와 일치하는 정확한 최종 이미지를 생성할 수 있다.
도 9는 본 발명의 일 실시예에 따른 이미지 생성 방법을 설명하기 위한 흐름도이다. 전술한 바와 같이, 본 발명의 일 실시예에 따른 이미지 생성 방법은 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치(12)에서 수행될 수 있다. 이를 위하여, 상기 이미지 생성 방법은 하나 이상의 컴퓨터 실행 가능 명령어를 포함하는 프로그램 내지 소프트웨어의 형태로 구현되어 상기 메모리상에 저장될 수 있다.
또한, 도시된 흐름도에서는 상기 방법을 복수 개의 단계로 나누어 기재하였으나, 적어도 일부의 단계들은 순서를 바꾸어 수행되거나, 다른 단계와 결합되어 함께 수행되거나, 생략되거나, 세부 단계들로 나뉘어 수행되거나, 또는 도시되지 않은 하나 이상의 단계가 부가되어 수행될 수 있다.
단계 902에서, 컴퓨팅 장치(12)는 전처리 모듈(810)을 통해, 이미지 생성을 위한 텍스트를 입력받고, 입력된 텍스트로부터 문장(sentence) 정보 및 단어(word) 정보를 생성한다.
단계 904에서, 컴퓨팅 장치(12)는 제1 GAN(820)을 통해, 전처리 모듈(810)로부터 문장 정보를 입력받고, 문장 정보로부터 랜덤 노이즈(random noise) 정보를 생성하며, 입력된 문장 정보 및 생성된 랜덤 노이즈 정보를 기반으로 초기 이미지를 생성한다.
단계 906에서, 컴퓨팅 장치(12)는 제2 GAN(830)을 통해, 전처리 모듈(810)에서 생성된 단어 정보 및 제1 GAN(820)에서 출력된 초기 이미지를 입력받고, 동적 메모리(dynamic memory)를 기반으로 단어 정보와 초기 이미지 특징맵으로부터 개선된 이미지를 생성한다.
단계 908에서, 컴퓨팅 장치(12)는 제2 GAN(830)을 통해, 비지역 블록을 이용하여 개선된 이미지로부터 개선된 이미지 특징맵을 생성하고, 동적 메모리를 기반으로 단어 정보와 개선된 이미지 특징맵으로부터 최종 이미지를 생성한다.
이상에서 본 발명의 대표적인 실시예들을 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
10: 컴퓨팅 환경
12: 컴퓨팅 장치
14: 프로세서
16: 컴퓨터 판독 가능 저장 매체
18: 통신 버스
20: 프로그램
22: 입출력 인터페이스
24: 입출력 장치
26: 네트워크 통신 인터페이스

Claims (18)

  1. 이미지 생성을 위한 텍스트를 입력받고, 입력된 텍스트로부터 문장(sentence) 특징 벡터 및 단어(word) 특징 벡터를 생성하는 전처리 모듈;
    상기 전처리 모듈로부터 상기 문장 특징 벡터를 입력받고, 상기 입력된 문장 특징 벡터를 기반으로 초기 이미지를 생성하는 제1 생성적 적대 신경망(GAN; Generative Adversarial Networks); 및
    상기 전처리 모듈에서 생성된 단어 특징 벡터 및 상기 제1 생성적 적대 신경망에서 생성된 초기 이미지를 입력받고, 상기 단어 특징 벡터 및 초기 이미지를 기반으로 최종 이미지를 생성하는 제2 생성적 적대 신경망을 포함하며,
    상기 제2 생성적 적대 신경망은,
    상기 전처리 모듈에서 생성된 단어 특징 벡터 및 상기 제1 생성적 적대 신경망에서 생성된 초기 이미지를 입력받고, 동적 메모리(dynamic memory)를 기반으로 상기 단어 특징 벡터와 상기 초기 이미지의 특징맵으로부터 개선된 이미지를 생성하며, 비지역 블록(non-local block)을 이용하여 상기 개선된 이미지로부터 개선된 이미지의 특징맵을 생성하고, 상기 동적 메모리를 기반으로 상기 단어 특징 벡터와 상기 개선된 이미지의 특징맵으로부터 최종 이미지를 생성하는 제2 생성자; 및
    상기 제2 생성자로부터 생성된 최종 이미지를 기 설정된 제2 비교 이미지와 비교하고, 상기 비교 결과에 따라 입력된 이미지가 제2 비교 이미지인지 또는 생성된 최종 이미지인지의 여부를 판단하며, 상기 판단 결과를 상기 제2 생성자로 피드백하는 제2 판별자를 포함하며,
    상기 제2 생성자는,
    상기 단어 특징 벡터와 상기 초기 이미지를 결합하여 상기 동적 메모리에 저장하기 위한 키와 값((key and value)을 생성하고, 상기 생성된 키와 상기 동적 메모리에 기 저장된 키 중 상기 생성된 키와 유사한 키를 추출하여 상기 생성된 키와 상기 추출한 키의 유사도를 산출하며, 상기 산출된 유사도를 기반으로 상기 값(value)의 가중 합계(weighted sum)를 출력하는 이미지 개선 모듈;
    상기 출력된 가중 합계 및 상기 초기 이미지를 기반으로 개선된 이미지를 생성하는 이미지 특징 생성 모듈; 및
    상기 비지역 블록을 이용하여 상기 생성된 개선된 이미지에서 모든 영역의 각 픽셀에 대하여 유사한 픽셀들을 추출하고, 상기 각 픽셀을 상기 유사한 픽셀들의 평균 값으로 재설정하여 개선된 이미지 특징맵을 생성하는 비지역 블록(non-local block) 모듈을 포함하는, 이미지 생성을 위한 학습 장치.
  2. 청구항 1에 있어서,
    상기 제1 생성적 적대 신경망은,
    상기 입력된 문장 특징 벡터로부터 랜덤 노이즈(random noise) 벡터를 생성하고, 상기 입력된 문장 특징 벡터 및 상기 생성된 랜덤 노이즈 벡터를 기반으로 초기 이미지를 생성하는 제1 생성자; 및
    상기 제1 생성자로부터 생성된 초기 이미지를 기 설정된 제1 비교 이미지와 비교하고, 상기 비교 결과에 따라 입력된 이미지가 제1 비교 이미지인지 또는 생성된 초기 이미지인지의 여부를 판단하며, 상기 판단 결과를 상기 제1 생성자로 피드백하는 제1 판별자를 포함하는, 이미지 생성을 위한 학습 장치.
  3. 삭제
  4. 삭제
  5. 삭제
  6. 청구항 1에 있어서,
    상기 제2 생성자는,
    상기 개선된 이미지의 특징맵이 생성된 경우, 상기 이미지 개선 모듈 및 상기 이미지 특징 생성 모듈을 통하여 상기 단어 특징 벡터 및 상기 개선된 이미지로부터 최종 이미지를 생성하는, 이미지 생성을 위한 학습 장치.
  7. 하나 이상의 프로세서들, 및
    상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 이미지 생성을 위한 학습 방법으로서,
    전처리 모듈에서, 이미지 생성을 위한 텍스트를 입력받고, 입력된 텍스트로부터 문장(sentence) 특징 벡터 및 단어(word) 특징 벡터를 생성하는 단계;
    제1 생성적 적대 신경망(GAN; Generative Adversarial Networks)에서, 상기 전처리 모듈로부터 상기 문장 특징 벡터를 입력받고, 상기 입력된 문장 특징 벡터를 기반으로 초기 이미지를 생성하는 단계; 및
    제2 생성적 적대 신경망에서, 상기 전처리 모듈에서 생성된 단어 특징 벡터 및 상기 제1 생성적 적대 신경망에서 생성된 초기 이미지를 입력받고, 상기 단어 특징 벡터 및 초기 이미지를 기반으로 최종 이미지를 생성하는 단계를 포함하며,
    상기 최종 이미지를 생성하는 단계는,
    제2 생성자가, 상기 전처리 모듈에서 생성된 단어 특징 벡터 및 상기 제1 생성적 적대 신경망에서 생성된 초기 이미지를 입력받고, 동적 메모리(dynamic memory)를 기반으로 상기 단어 특징 벡터와 상기 초기 이미지의 특징맵으로부터 개선된 이미지를 생성하며, 비지역 블록(non local block)을 이용하여 상기 개선된 이미지로부터 개선된 이미지의 특징맵을 생성하고, 상기 동적 메모리를 기반으로 상기 단어 특징 벡터와 상기 개선된 이미지의 특징맵으로부터 최종 이미지를 생성하는 단계; 및
    제2 판별자가, 상기 제2 생성자로부터 생성된 최종 이미지를 기 설정된 제2 비교 이미지와 비교하고, 상기 비교 결과에 따라 입력된 이미지가 제2 비교 이미지인지 또는 생성된 최종 이미지인지의 여부를 판단하며, 상기 판단 결과를 상기 제2 생성자로 피드백하는 단계를 포함하며,
    상기 최종 이미지를 생성하는 단계는,
    이미지 개선 모듈이, 상기 단어 특징 벡터와 상기 초기 이미지를 결합하여 상기 동적 메모리에 저장하기 위한 키와 값((key and value)을 생성하고, 상기 생성된 키와 상기 동적 메모리에 기 저장된 키 중 상기 생성된 키와 유사한 키를 추출하여 상기 생성된 키와 상기 추출한 키의 유사도를 산출하며, 상기 산출된 유사도를 기반으로 상기 값(value)의 가중 합계(weighted sum)를 출력하는 단계;
    이미지 특징 생성 모듈이, 상기 출력된 가중 합계 및 상기 초기 이미지를 기반으로 개선된 이미지를 생성하는 단계; 및
    비지역 블록(non-local block) 모듈이, 상기 비지역 블록을 이용하여 상기 생성된 개선된 이미지에서 모든 영역의 각 픽셀에 대하여 유사한 픽셀들을 추출하고, 상기 각 픽셀을 상기 유사한 픽셀들의 평균 값으로 재설정하여 개선된 이미지 특징맵을 생성하는 단계를 포함하는, 이미지 생성을 위한 학습 방법.
  8. 청구항 7에 있어서,
    상기 초기 이미지를 생성하는 단계는,
    제1 생성자가, 상기 입력된 문장 특징 벡터로부터 랜덤 노이즈(random noise) 벡터를 생성하고, 상기 입력된 문장 특징 벡터 및 상기 생성된 랜덤 노이즈 벡터를 기반으로 초기 이미지를 생성하는 단계; 및
    제1 판별자가, 상기 제1 생성자로부터 생성된 초기 이미지를 기 설정된 제1 비교 이미지와 비교하고, 상기 비교 결과에 따라 입력된 이미지가 제1 비교 이미지인지 또는 생성된 초기 이미지인지의 여부를 판단하며, 상기 판단 결과를 상기 제1 생성자로 피드백하는 단계를 포함하는, 이미지 생성을 위한 학습 방법.
  9. 삭제
  10. 삭제
  11. 삭제
  12. 청구항 7에 있어서,
    상기 최종 이미지를 생성하는 단계는,
    상기 제2 생성자가, 상기 개선된 이미지의 특징맵이 생성된 경우, 상기 이미지 개선 모듈 및 상기 이미지 특징 생성 모듈을 통하여 상기 단어 특징 벡터 및 상기 개선된 이미지로부터 최종 이미지를 생성하는 단계를 더 포함하는, 이미지 생성을 위한 학습 방법.
  13. 이미지 생성을 위한 텍스트를 입력받고, 입력된 텍스트로부터 문장(sentence) 특징 벡터 및 단어(word) 특징 벡터를 생성하는 전처리 모듈;
    상기 전처리 모듈로부터 상기 문장 특징 벡터를 입력받고, 상기 입력된 문장 특징 벡터를 기반으로 초기 이미지를 생성하는 제1 생성적 적대 신경망(GAN; Generative Adversarial Networks); 및
    상기 전처리 모듈에서 생성된 단어 특징 벡터 및 상기 제1 생성적 적대 신경망에서 생성된 초기 이미지를 입력받고, 상기 단어 특징 벡터 및 초기 이미지를 기반으로 최종 이미지를 생성하는 제2 생성적 적대 신경망을 포함하며,
    상기 제2 생성적 적대 신경망은,
    상기 단어 특징 벡터와 상기 초기 이미지를 결합하여 동적 메모리(dynamic memory)에 저장하기 위한 키와 값((key and value)을 생성하고, 상기 생성된 키와 상기 동적 메모리에 기 저장된 키 중 상기 생성된 키와 유사한 키를 추출하여 상기 생성된 키와 상기 추출한 키의 유사도를 산출하며, 상기 산출된 유사도를 기반으로 상기 값(value)의 가중 합계(weighted sum)를 출력하는 이미지 개선 모듈;
    상기 출력된 가중 합계 및 상기 초기 이미지를 기반으로 개선된 이미지를 생성하는 이미지 특징 생성 모듈; 및
    비지역 블록을 이용하여 상기 생성된 개선된 이미지에서 모든 영역의 각 픽셀에 대하여 유사한 픽셀들을 추출하고, 상기 각 픽셀을 상기 유사한 픽셀들의 평균 값으로 재설정하여 개선된 이미지 특징맵을 생성하는 비지역 블록(non-local block) 모듈을 포함하는, 이미지 생성 장치.
  14. 청구항 13에 있어서,
    상기 제1 생성적 적대 신경망은,
    상기 입력된 문장 특징 벡터로부터 랜덤 노이즈(random noise) 벡터를 생성하고, 상기 입력된 문장 특징 벡터 및 상기 생성된 랜덤 노이즈 벡터를 기반으로 초기 이미지를 생성하는, 이미지 생성 장치.
  15. 삭제
  16. 하나 이상의 프로세서들, 및
    상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 이미지 생성 방법으로서,
    전처리 모듈에서, 이미지 생성을 위한 텍스트를 입력받고, 입력된 텍스트로부터 문장(sentence) 특징 벡터 및 단어(word) 특징 벡터를 생성하는 단계;
    제1 생성적 적대 신경망(GAN; Generative Adversarial Networks)에서, 상기 전처리 모듈로부터 상기 문장 특징 벡터를 입력받고, 상기 입력된 문장 특징 벡터를 기반으로 초기 이미지를 생성하는 단계; 및
    제2 생성적 적대 신경망에서, 상기 전처리 모듈에서 생성된 단어 특징 벡터 및 상기 제1 생성적 적대 신경망에서 생성된 초기 이미지를 입력받고, 상기 단어 특징 벡터 및 초기 이미지를 기반으로 최종 이미지를 생성하는 단계를 포함하며,
    상기 최종 이미지를 생성하는 단계는,
    이미지 개선 모듈이, 상기 단어 특징 벡터와 상기 초기 이미지를 결합하여 동적 메모리(dynamic memory)에 저장하기 위한 키와 값((key and value)을 생성하고, 상기 생성된 키와 상기 동적 메모리에 기 저장된 키 중 상기 생성된 키와 유사한 키를 추출하여 상기 생성된 키와 상기 추출한 키의 유사도를 산출하며, 상기 산출된 유사도를 기반으로 상기 값(value)의 가중 합계(weighted sum)를 출력하는 단계;
    이미지 특징 생성 모듈이, 상기 출력된 가중 합계 및 상기 초기 이미지를 기반으로 개선된 이미지를 생성하는 단계; 및
    비지역 블록(non-local block) 모듈이, 비지역 블록을 이용하여 상기 생성된 개선된 이미지에서 모든 영역의 각 픽셀에 대하여 유사한 픽셀들을 추출하고, 상기 각 픽셀을 상기 유사한 픽셀들의 평균 값으로 재설정하여 개선된 이미지 특징맵을 생성하는 단계를 포함하는, 이미지 생성 방법.
  17. 청구항 16에 있어서,
    상기 초기 이미지를 생성하는 단계는,
    상기 제1 생성적 적대 신경망에서, 상기 입력된 문장 특징 벡터로부터 랜덤 노이즈(random noise) 벡터를 생성하고, 상기 입력된 문장 특징 벡터 및 상기 생성된 랜덤 노이즈 벡터를 기반으로 초기 이미지를 생성하는 단계를 더 포함하는, 이미지 생성 방법.
  18. 삭제
KR1020200178374A 2020-12-18 2020-12-18 이미지 생성을 위한 학습 장치 및 방법과 이미지 생성 장치 및 방법 KR102287407B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020200178374A KR102287407B1 (ko) 2020-12-18 2020-12-18 이미지 생성을 위한 학습 장치 및 방법과 이미지 생성 장치 및 방법
PCT/KR2021/013316 WO2022131497A1 (ko) 2020-12-18 2021-09-29 이미지 생성을 위한 학습 장치 및 방법과 이미지 생성 장치 및 방법
US18/027,326 US11869129B2 (en) 2020-12-18 2021-09-29 Learning apparatus and method for creating image and apparatus and method for image creation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200178374A KR102287407B1 (ko) 2020-12-18 2020-12-18 이미지 생성을 위한 학습 장치 및 방법과 이미지 생성 장치 및 방법

Publications (1)

Publication Number Publication Date
KR102287407B1 true KR102287407B1 (ko) 2021-08-06

Family

ID=77315259

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200178374A KR102287407B1 (ko) 2020-12-18 2020-12-18 이미지 생성을 위한 학습 장치 및 방법과 이미지 생성 장치 및 방법

Country Status (3)

Country Link
US (1) US11869129B2 (ko)
KR (1) KR102287407B1 (ko)
WO (1) WO2022131497A1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114581334A (zh) * 2022-03-17 2022-06-03 湖南大学 一种基于生成对抗网络的自调节文本生成图像方法
WO2022131497A1 (ko) * 2020-12-18 2022-06-23 영남대학교 산학협력단 이미지 생성을 위한 학습 장치 및 방법과 이미지 생성 장치 및 방법
KR102608266B1 (ko) * 2023-04-04 2023-11-30 주식회사 크림 이미지 생성 장치 및 방법

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230081171A1 (en) * 2021-09-07 2023-03-16 Google Llc Cross-Modal Contrastive Learning for Text-to-Image Generation based on Machine Learning Models
US11954837B2 (en) * 2021-12-08 2024-04-09 Black Sesame Technologies Inc. Image enhancement system based on nonlocal features
CN116452906B (zh) * 2023-03-03 2024-01-30 哈尔滨市科佳通用机电股份有限公司 基于文本描述的铁路货车故障图片生成方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190080415A (ko) 2017-12-28 2019-07-08 주식회사 엔씨소프트 이미지 생성 시스템 및 방법
US10713821B1 (en) * 2019-06-27 2020-07-14 Amazon Technologies, Inc. Context aware text-to-image synthesis
KR20200092491A (ko) * 2019-01-11 2020-08-04 연세대학교 산학협력단 자연어 문장을 기반으로 하는 변환 이미지 생성 장치, 방법 및 이를 이용하는 변환 이미지 생성 시스템

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101661215B1 (ko) * 2010-08-16 2016-09-30 삼성전자주식회사 영상 처리 방법 및 영상 처리 장치
US9576346B2 (en) * 2015-03-24 2017-02-21 Intel Corporation Non-local means image denoising with an adaptive directional spatial filter
US10839535B2 (en) * 2016-07-19 2020-11-17 Fotonation Limited Systems and methods for providing depth map information
GB201709672D0 (en) * 2017-06-16 2017-08-02 Ucl Business Plc A system and computer-implemented method for segmenting an image
US10924755B2 (en) * 2017-10-19 2021-02-16 Arizona Board Of Regents On Behalf Of Arizona State University Real time end-to-end learning system for a high frame rate video compressive sensing network
KR20190118108A (ko) 2018-03-12 2019-10-17 삼성전자주식회사 전자 장치 및 그의 제어방법
KR102042168B1 (ko) 2018-04-27 2019-11-07 성균관대학교산학협력단 시계열 적대적인 신경망 기반의 텍스트-비디오 생성 방법 및 장치
KR102287407B1 (ko) 2020-12-18 2021-08-06 영남대학교 산학협력단 이미지 생성을 위한 학습 장치 및 방법과 이미지 생성 장치 및 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190080415A (ko) 2017-12-28 2019-07-08 주식회사 엔씨소프트 이미지 생성 시스템 및 방법
KR20200092491A (ko) * 2019-01-11 2020-08-04 연세대학교 산학협력단 자연어 문장을 기반으로 하는 변환 이미지 생성 장치, 방법 및 이를 이용하는 변환 이미지 생성 시스템
US10713821B1 (en) * 2019-06-27 2020-07-14 Amazon Technologies, Inc. Context aware text-to-image synthesis

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Han Zhang 등, StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks, arXiv:1612.03242v2.(2017.08.05.) *
Minfeng Zhu 등, DM-GAN: Dynamic Memory Generative Adversarial Networks for Text-to-Image Synthesis, arXiv:1904.01310v1.(2019.04.02.)* *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022131497A1 (ko) * 2020-12-18 2022-06-23 영남대학교 산학협력단 이미지 생성을 위한 학습 장치 및 방법과 이미지 생성 장치 및 방법
US11869129B2 (en) 2020-12-18 2024-01-09 Research Cooperation Foundation Of Yeungnam University Learning apparatus and method for creating image and apparatus and method for image creation
CN114581334A (zh) * 2022-03-17 2022-06-03 湖南大学 一种基于生成对抗网络的自调节文本生成图像方法
CN114581334B (zh) * 2022-03-17 2024-05-24 湖南大学 一种基于生成对抗网络的自调节文本生成图像方法
KR102608266B1 (ko) * 2023-04-04 2023-11-30 주식회사 크림 이미지 생성 장치 및 방법

Also Published As

Publication number Publication date
US11869129B2 (en) 2024-01-09
US20230274479A1 (en) 2023-08-31
WO2022131497A1 (ko) 2022-06-23

Similar Documents

Publication Publication Date Title
KR102287407B1 (ko) 이미지 생성을 위한 학습 장치 및 방법과 이미지 생성 장치 및 방법
WO2019237846A1 (zh) 图像处理方法、人脸识别方法、装置和计算机设备
US10713532B2 (en) Image recognition method and apparatus
KR20220053426A (ko) 이미지 클러스터링 장치 및 방법
KR20210149530A (ko) 이미지 분류 모델 학습 방법 및 이를 수행하기 위한 장치
EP4018411B1 (en) Multi-scale-factor image super resolution with micro-structured masks
KR20220011100A (ko) 얼굴 이미지 검색을 통한 가상 인물 생성 시스템 및 방법
KR102504722B1 (ko) 감정 표현 영상 생성을 위한 학습 장치 및 방법과 감정 표현 영상 생성 장치 및 방법
JP2023543964A (ja) 画像処理方法、画像処理装置、電子機器、記憶媒体およびコンピュータプログラム
CN114049290A (zh) 图像处理方法、装置、设备及存储介质
CN117252947A (zh) 图像处理方法、装置、计算机、存储介质及程序产品
KR20200134813A (ko) 기계 학습을 위한 이미지 처리 장치 및 방법
KR102372642B1 (ko) 자동 응답 생성 방법 및 장치
WO2022226744A1 (en) Texture completion
CN114926322A (zh) 图像生成方法、装置、电子设备和存储介质
CN114373215A (zh) 图像处理方法及装置、电子设备和存储介质
KR20220003389A (ko) 신경망 기반의 특징점 학습 장치 및 방법
KR20210155907A (ko) 미검출 이미지를 이용한 객체 검출기의 재학습 장치 및 방법
KR20210130529A (ko) 딥러닝 기반 일기 생성 방법 및 장치
KR102374069B1 (ko) Hdr 이미지 생성 장치 및 방법
CN116363261B (zh) 图像编辑模型的训练方法、图像编辑方法和装置
US20220121905A1 (en) Method and apparatus for anonymizing personal information
CN115984426B (zh) 发型演示图像的生成的方法、装置、终端及存储介质
KR102443200B1 (ko) 권리 확인된 이미지 융합을 통한 신규 이미지 생성 시스템 및 방법
US20240169701A1 (en) Affordance-based reposing of an object in a scene

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant