KR20200058297A

KR20200058297A - 설명 가능한 소수샷 영상 분류 방법 및 장치

Info

Publication number: KR20200058297A
Application number: KR1020190145029A
Authority: KR
Inventors: 석흥일; 윤지석
Original assignee: 고려대학교 산학협력단
Priority date: 2018-11-19
Filing date: 2019-11-13
Publication date: 2020-05-27
Also published as: KR102316678B1; KR102316678B9

Abstract

본 발명은 설명 가능한 소수샷 영상 분류 방법 및 장치를 개시한다. 본 발명에 따르면, 설명 가능한 소수샷 영상 분류 장치로서, 실제 영상을 입력으로 하여 상기 실제 영상에 대한 잠재 변수를 생성하는 잠재 공간 생성기 및 무작위 잠재 변수를 입력으로 하여 가상의 인공 영상을 생성하는 영상 생성기를 포함하는 생성기 및 상기 인공 영상이 상기 실제 영상에 속할 확률을 계산하여 출력하는 판별기로 구성되는 적대적 생성 신경망; 및 학습이 완료된 상기 잠재 공간 생성기를 이용하여 서로 다른 제1 영상 및 제2 영상이 동일한 개체를 갖는지 여부를 분류하고, 상기 제1 영상 및 제2 영상 각각에 대한 잠재 변수를 합성하여 소수샷 학습의 정성적 평가를 위한 영상을 생성하는 소수샷 학습부를 포함하는 설명 가능한 소수샷 영상 분류 장치가 제공된다.

Description

설명 가능한 소수샷 영상 분류 방법 및 장치{Method and device for explainable few-shot image classification}

본 발명은 설명 가능한 소수샷 영상 분류 방법 및 장치에 관한 것이다.

소수샷 학습(Few-shot Learning)이란 소수의 학습 데이터만 활용할 수 있는 환경에서 주어진 문제를 풀 수 있는 모델 학습 방법으로, 인공지능 분야에서 높은 난도를 지닌다.

소수샷 학습이 풀고자 하는 문제는 아주 다양하지만, 최근에는 영상을 분류하고자 하는 연구가 활발히 이루어지고 있다.

영상 분류(Image classification)란 사물, 동물, 인물, 의료 영상 등 영상의 개체(Class)를 분류하는 것으로서, 영상의 질과 양, 개체의 수에 따라 문제의 난이도가 바뀐다.

최근 기계학습을 이용한 영상 분류는 눈부신 성능 향상을 보여주었지만, 소수샷 학습은 소수의 학습 데이터만 활용할 수 있어서 성능 향상에 어려움을 가진다.

이에, 데이터의 특성 및 은닉 정보(Hidden information)를 투사한 잠재 공간(latent space)을 생성하고, 이를 소수샷 학습에 사용하는 방법을 고려할 수 있다.

하지만, 소수샷 학습 환경에서 잠재 공간을 생성하는 연구는 아직 미비한 실정이며, 적은 수의 데이터로 생성된 잠재 공간은 과다 적합(Overfit) 현상이 일어나기 쉽다.

최근 연구 중 적대적 생성 신경망(Generative Adversarial Networks; GAN)은 처음 본 데이터에 더욱 일반화된 잠재 공간을 생성할 수 있다.

이에 적대적 생성 신경망과 같은 방법을 이용하여 더욱 일반화된 잠재 공간을 생성하여 소수샷 학습 성능을 높이는 방법에 관한 연구가 필요한 실정이다.

소수샷 학습의 정의를 서술한 비특허문헌 1: [Li, F., Fergus, R., Perona, P.,“Few-shot learning of object categories,” IEEE Transactions on Pattern Analysis and Machine Intelligence, Volume 28, Issue 4, April 2006]에 따르면, 분류하려는 영상의 개체(Class)당 소수 개의 학습 데이터가 존재하는 환경에서의 학습을 소수샷 학습이라 정의한다. 다만, 분류하지 않을 개체의 데이터 개수는 제한하지 않는다. 예를 들어, 고양이 영상과 강아지 영상을 분류하는 원샷(One-shot) 학습에서는 고양이 영상 1장, 강아지 영상 1장, 그 외 영상 여러 장을 학습 데이터로 사용할 수 있다.

매우 극단적인 데이터 개수를 극복하기 위해 한국공개특허공보 10-2018-0120478은 적대적 생성 신경망(Generative Adversarial Networks; GAN)을 사용하여 데이터를 인공적으로 생성해내는 방법을 제안했다. 다만, 위 문헌은 데이터 생성 방법만을 제안하였고 영상 분류와 같은 문제 해결에는 부적합하다.

1. [Li, F., Fergus, R., & Perona, P.,"Few-shot learning of object categories," IEEE Transactions on Pattern Analysis and Machine Intelligence, Volume 28, Issue 4, April 2006] 2. [Dumoulin, V., Belghazi, I., Poole, B., Mastropietro, O., Lamb, A., Arjovsky, M., & Courville, A., "Adversarially learned inference," ICLR, 2017]

상기한 종래기술의 문제점을 해결하기 위해, 본 발명은 데이터의 은닉 정보(Hidden information)가 투사된 잠재 공간을 생성하고, 생성된 잠재 공간을 통해 소수샷 학습의 정량적인 성능을 향상하며, 잠재 공간을 복호화함으로써 소수샷 학습의 설명 및 정성적 평가를 가능하게 하는 설명 가능한 소수샷 영상 분류 방법 및 장치를 제안하고자 한다.

상기한 바와 같은 목적을 달성하기 위하여, 본 발명의 일 실시예에 따르면, 설명 가능한 소수샷 영상 분류 장치로서, 실제 영상을 입력으로 하여 상기 실제 영상에 대한 잠재 변수를 생성하는 잠재 공간 생성기 및 무작위 잠재 변수를 입력으로 하여 가상의 인공 영상을 생성하는 영상 생성기를 포함하는 생성기 및 상기 인공 영상이 상기 실제 영상에 속할 확률을 계산하여 출력하는 판별기로 구성되는 적대적 생성 신경망; 및 학습이 완료된 상기 잠재 공간 생성기를 이용하여 서로 다른 제1 영상 및 제2 영상이 동일한 개체를 갖는지 여부를 분류하고, 상기 제1 영상 및 제2 영상 각각에 대한 잠재 변수를 합성하여 소수샷 학습의 정성적 평가를 위한 영상을 생성하는 소수샷 학습부를 포함하는 설명 가능한 소수샷 영상 분류 장치가 제공된다.

상기 소수샷 학습부는, 상기 제1 영상을 입력으로 하여 상기 제1 잠재 변수를 생성하는 제1 잠재 공간 생성기; 상기 제2 영상을 입력으로 하여 상기 제2 잠재 변수를 생성하는 제2 잠재 공간 생성기; 및 상기 제1 잠재 변수 및 상기 제2 잠재 변수를 합성하여 벡터형 데이터로 출력하는 합성기를 포함할 수 있다.

상기 합성기는, 상기 벡터형 데이터는 일부 요소(element)는 개체의 분류에 사용되고, 나머지는 상기 제1 잠재 변수 및 상기 제2 잠재 변수를 합성하여 생성한 제3 잠재 변수일 수 있다.

상기 소수샷 합성부는, 상기 적대적 신경 생성망에서 학습이 완료되며, 상기 제3 잠재 변수를 입력으로 하여 영상을 생성하는 영상 생성기를 포함할 수 있다.

본 발명의 다른 측면에 따르면, 프로세서 및 메모리를 포함하는 장치의 설명 가능한 소수샷 영상 분류 방법으로서, 적대적 생성 신경망의 잠재적 공간 생성기가 실제 영상을 입력으로 하여 상기 실제 영상에 대한 잠재 변수를 생성하는 단계; 적대적 생성 신경망의 영상 생성기가 무작위 잠재 변수를 입력으로 하여 가상의 인공 영상을 생성하는 단계; 적대적 생성 신경망의 판별기가 상기 인공 영상이 상기 실제 영상에 속할 확률을 계산하는 단계; 학습이 완료된 상기 잠재 공간 생성기를 이용하여 서로 다른 제1 영상 및 제2 영상이 동일한 개체를 갖는지 여부를 분류하는 단계; 및 상기 제1 영상 및 제2 영상 각각에 대한 잠재 변수를 합성하여 소수샷 학습의 정성적 평가를 위한 영상을 생성하는 단계를 포함하는 설명 가능한 소수샷 영상 분류 방법이 제공된다.

본 발명에 따르면, 인공지능의 가장 큰 단점 중 하나인 설명 가능성에 소수샷 학습에 대한 접근 방법을 제시한다.

본 발명은 잠재 공간을 활용함으로써 일반적인 영상 분류에서 할 수 없는 정성적 평가를 할 수 있는 장점이 있다.

도 1은 본 발명의 바람직한 일 실시예에 따른 소수샷 영상 분류 시스템을 도시한 도면이다.
도 2는 본 발명의 적대적 생성 신경망의 상세 구성을 도시한 도면이다.
도 3은 본 실시예에 따른 생성기의 상세 구성을 도시한 도면이다.
도 4는 본 실시예에 따른 소수샷 학습부의 상세 구성을 도시한 도면이다.
도 5는 본 실시예에 따른 분류기의 상세 구성을 도시한 도면이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.

그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

본 발명은 데이터의 은닉 정보(Hidden information)가 투사된 잠재 공간을 생성하고, 이를 통해 영상 분류에서의 소수샷 학습을 진행한다.

구체적으로, 적대적 생성 신경망(Generative Adversarial Networks; GAN)으로 잠재 공간을 생성하고, 생성된 잠재 공간에서 개체 변수(Identity variable)와 은닉 변수(Hidden variable)를 각각 추출하며, 최종적으로 개체 변수로 소수샷 학습의 정량적 성능을 향상시키고, 은닉 변수로 모델의 설명 가능성 및 정성적 성능을 향상시킨다.

도 1은 본 발명의 바람직한 일 실시예에 따른 소수샷 영상 분류 시스템을 도시한 도면이다.

도 1을 참조하면, 본 실시예에 따른 시스템은 영상 X와 Y를 입력 받고 잠재 공간에서 각각의 잠재 변수(latent variable)

와

를 출력하는 적대적 생성 신경망(100) 및 학습이 완료된 적대적 생성 신경망(100)의 생성기를 이용하여 잠재 변수를 입력 받고 동일한 영상인지 분류하고 영상을 합성하는 소수샷 학습부(102)를 포함할 수 있다.

도 2는 본 발명의 적대적 생성 신경망의 상세 구성을 도시한 도면이고, 도 3은 본 실시예에 따른 생성기의 상세 구성을 도시한 도면이다.

도 2를 참조하면, 적대적 생성 신경망은 생성기(200) 및 판별기(202)를 포함할 수 있다.

도 3을 참조하면, 생성기(200)는 잠재 공간 생성기(300)와 영상 생성기(302)를 포함하며, 잠재 공간 생성기(300)는 실제 영상을 입력 받아 실제 영상에 상응하는 잠재 변수를 생성하고, 영상 생성기(302)는 무작위 잠재 변수를 입력 받아 가상의 인공 영상을 생성할 수 있다.

여기서, 잠재 공간 생성기(300)와 영상 생성기(302)는 동일한 잠재 공간을 공유한다. 이는 각 생성기(300,302)를 학습할 때 영상을 잠재 변수로 만들고, 해당 잠재 변수로 다시 영상을 만드는 방식을 사용함으로써 가능하다.

즉, 생성기(200)는 주기 일관성(Cycle consistency)이 있는 것이다.

판별기(202)는 생성기(200)가 생성한 가상의 인공 영상과 실제 영상을 입력 받고, 입력된 영상의 참/거짓을 판별한다.

이때, 생성기(200)는 잠재 공간을 통해 변수 또는 영상을 실제 영상에 가깝게 생성하도록 학습되고 판별기(202)는 실제 영상에 가깝게 생성된 인공 영상을 실제 영상과 잘 구별할 수 있도록 학습된다.

본 실시예에 따른 판별기(202)에는 인공 영상 및 이에 대응되는 무작위 잠재 변수가 쌍으로 이루어진 데이터와 실제 영상 및 잠재 공간 생성기(300)에 출력하는 실제 영상의 잠재 변수가 쌍으로 이루어진 데이터가 입력되어 인공 영상이 실제 영상에 속할 확률을 계산한다.

도 4는 본 실시예에 따른 소수샷 학습부의 상세 구성을 도시한 도면이다.

도 4에 도시된 바와 같이, 본 실시예에 따른 소수샷 학습부(102)는 제1 잠재 공간 생성기(400), 제2 잠재 공간 생성기(402) 및 분류기(404)를 포함할 수 있다.

여기서, 제1 잠재 공간 생성기(400) 및 제2 잠재 공간 생성기(402)는 적대적 생성 신경망(100)의 생성기(200)에 포함되며 학습이 완료된 신경망 네트워크이다.

제1 잠재 공간 생성기(400)는 영상 X를 입력으로 하여 잠재 변수

를 생성하고, 제2 잠재 공간 생성기(402)는 영상 Y를 입력으로 하여 잠재 변수

를 생성한다.

잠재 변수

및

는 분류기(404)로 입력된다.

분류기(404)는 입력된 2개의 잠재 변수들이 동일한 개체를 갖는지 분류하고, 잠재 변수를 합성하여 새로운 잠재 변수

를 생성한다.

도 5는 본 실시예에 따른 분류기의 상세 구성을 도시한 도면이다.

도 5를 참조하면, 분류기(404)는 합성기(500)를 포함하며, 구체적으로 합성기(500)는 잠재 변수

와

를 입력 받고, 벡터형 데이터를 출력한다.

여기서 벡터형 데이터의 일부 요소(element)는 개체의 분류(같음/다름)에 사용되고, 나머지는 합성된 잠재 변수

이다 .

새롭게 생성된 잠재 변수

를 적대적 생성 신경망(100)에서 학습이 완료된 영상 생성기(302)에 입력하면 새로운 영상 X'가 출력된다.

영상 X'는 영상 X와 영상 Y를 합성시킨 영상으로 정의되고, 영상 X와 Y가 동일한 개체를 갖는지를 시각적으로 확인할 수 있도록 하는 영상이다.

구체적으로 영상 X'의 질과 변화량에 따라 소수샷 학습의 정성적 평가가 가능하기 때문에 설명 가능성이 있다고 해석할 수 있다.

또한 소수샷 학습 중 적대적 생성 신경망에서 학습되는 잠재 공간 생성기(300)와 영상 생성기(302)의 가중치는 학습에 영향을 주지 않도록 고정값으로 유지된다.

본 실시예에 따른 설명 가능한 소수샷 영상 분류 장치는 프로세서 및 메모리를 포함할 수 있다. 프로세서는 컴퓨터 프로그램을 실행할 수 있는 CPU(central processing unit)나 그밖에 가상 머신 등을 포함할 수 있다.

메모리는 고정식 하드 드라이브나 착탈식 저장 장치와 같은 불휘발성 저장 장치를 포함할 수 있다. 착탈식 저장 장치는 컴팩트 플래시 유닛, USB 메모리 스틱 등을 포함할 수 있다. 메모리는 각종 랜덤 액세스 메모리와 같은 휘발성 메모리도 포함할 수 있다.

본 발명의 일 실시예에 따르면, 메모리에는 적대적 생성 신경망 모델을 통해 실제 영상을 입력으로 하여 상기 실제 영상에 대한 잠재 변수를 생성하고, 무작위 잠재 변수를 입력으로 하여 가상의 인공 영상을 생성하며, 상기 인공 영상이 상기 실제 영상에 속할 확률을 계산하고, 학습이 완료된 적대적 생성 신경망의 잠재 공간 생성기를 이용하여 서로 다른 제1 영상 및 제2 영상이 동일한 개체를 갖는지 여부를 분류하고, 제1 영상 및 제2 영상 각각에 대한 잠재 변수를 합성하여 소수샷 학습의 정성적 평가를 위한 영상을 생성하는 프로그램 명령어들이 저장될 수 있다.

상기한 본 발명의 실시예는 예시의 목적을 위해 개시된 것이고, 본 발명에 대한 통상의 지식을 가지는 당업자라면 본 발명의 사상과 범위 안에서 다양한 수정, 변경, 부가가 가능할 것이며, 이러한 수정, 변경 및 부가는 하기의 특허청구범위에 속하는 것으로 보아야 할 것이다.

Claims

설명 가능한 소수샷 영상 분류 장치로서,
실제 영상을 입력으로 하여 상기 실제 영상에 대한 잠재 변수를 생성하는 잠재 공간 생성기 및 무작위 잠재 변수를 입력으로 하여 가상의 인공 영상을 생성하는 영상 생성기를 포함하는 생성기 및 상기 인공 영상이 상기 실제 영상에 속할 확률을 계산하여 출력하는 판별기로 구성되는 적대적 생성 신경망; 및
학습이 완료된 상기 잠재 공간 생성기를 이용하여 서로 다른 제1 영상 및 제2 영상이 동일한 개체를 갖는지 여부를 분류하고, 상기 제1 영상 및 제2 영상 각각에 대한 잠재 변수를 합성하여 소수샷 학습의 정성적 평가를 위한 영상을 생성하는 소수샷 학습부를 포함하는 설명 가능한 소수샷 영상 분류 장치.
제1항에 있어서,
상기 소수샷 학습부는,
상기 제1 영상을 입력으로 하여 상기 제1 잠재 변수를 생성하는 제1 잠재 공간 생성기;
상기 제2 영상을 입력으로 하여 상기 제2 잠재 변수를 생성하는 제2 잠재 공간 생성기; 및
상기 제1 잠재 변수 및 상기 제2 잠재 변수를 합성하여 벡터형 데이터로 출력하는 합성기를 포함하는 설명 가능한 소수샷 영상 분류 장치.
제2항에 있어서,
상기 합성기는,
상기 벡터형 데이터는 일부 요소(element)는 개체의 분류에 사용되고, 나머지는 상기 제1 잠재 변수 및 상기 제2 잠재 변수를 합성하여 생성한 제3 잠재 변수인 설명 가능한 소수샷 영상 분류 장치.
제3항에 있어서,
상기 소수샷 합성부는,
상기 적대적 신경 생성망에서 학습이 완료되며, 상기 제3 잠재 변수를 입력으로 하여 영상을 생성하는 영상 생성기를 포함하는 설명 가능한 소수샷 영상 분류 장치.
프로세서 및 메모리를 포함하는 장치의 설명 가능한 소수샷 영상 분류 방법으로서,
적대적 생성 신경망의 잠재적 공간 생성기가 실제 영상을 입력으로 하여 상기 실제 영상에 대한 잠재 변수를 생성하는 단계;
적대적 생성 신경망의 영상 생성기가 무작위 잠재 변수를 입력으로 하여 가상의 인공 영상을 생성하는 단계;
적대적 생성 신경망의 판별기가 상기 인공 영상이 상기 실제 영상에 속할 확률을 계산하는 단계;
학습이 완료된 상기 잠재 공간 생성기를 이용하여 서로 다른 제1 영상 및 제2 영상이 동일한 개체를 갖는지 여부를 분류하는 단계; 및
상기 제1 영상 및 제2 영상 각각에 대한 잠재 변수를 합성하여 소수샷 학습의 정성적 평가를 위한 영상을 생성하는 단계를 포함하는 설명 가능한 소수샷 영상 분류 방법.