WO2019235821A1

WO2019235821A1 - 모바일 환경에서 실시간 추론이 가능한 dnn 구성을 위한 최적화 기법

Info

Publication number: WO2019235821A1
Application number: PCT/KR2019/006746
Authority: WO
Inventors: 조성택; 이영수; 이동주; 김성호; 장준기
Original assignee: 네이버 주식회사
Priority date: 2018-06-05
Filing date: 2019-06-04
Publication date: 2019-12-12
Also published as: US20210089914A1; KR20190138438A; KR102096388B1

Abstract

컴퓨터에서 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 학습하고자 하는 특정 스타일의 이미지를 이용하여 DNN(deep neural network) 기반 스타일 전이 모델(style transfer model)을 학습하는 학습부를 포함하고, 상기 스타일 전이 모델은 미리 학습된 결과를 이용한 전이 학습(transfer learning) 방식을 통해 딥 레이어의 개수가 축소된 구조의 DNN 모델인 것을 특징으로 하는 시스템을 제공한다.

Description

모바일 환경에서 실시간 추론이 가능한 DNN 구성을 위한 최적화 기법

아래의 설명은 DNN(deep neural network) 모델을 최적화하는 기술에 관한 것이다.

일반적으로 딥러닝(Deep learning)은 여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화를 시도하는 기계 학습 알고리즘의 집합으로 정의되며, 큰 틀에서 사람의 사고 방식을 컴퓨터에게 가르치는 기계학습의 한 분야이다.

어떠한 데이터가 있을 때 이를 컴퓨터가 알아 들을 수 있는 형태(예를 들어, 이미지의 경우 픽셀 정보를 열 벡터로 표현하는 툴)로 표현하고 이를 학습에 적용하기 위해 많은 연구가 진행되고 있다.

DNN(deep neural networks), CNN(convolutional neural network), RNN(recurrent neural network) 등과 같은 다양한 딥러닝 기법들이 음성 신호 처리, 자연 언어 처리, 비전 처리 등의 분야에 적용되어 우수한 성능의 응용 프로그램들이 개발되고 있다.

예컨대, 한국공개특허공보 제10-2015-0079064호(공개일 2015년 07월 08일)에는 사용자가 저장하고자 하는 정지 영상을 입력 받아 딥러닝을 통해 영상 콘텍스트를 이해하고 물리적인 정보, 의미론적인 정보, 메타 데이터를 추론하여 자동 태깅하는 기술이 개시되어 있다.

모바일 환경에서 실시간 추론(real-time inference)이 가능한 DNN(deep neural network) 최적화 모델을 제공한다.

컴퓨터로 구현되는 시스템에 있어서, 컴퓨터에서 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 학습하고자 하는 특정 스타일의 이미지를 이용하여 DNN(deep neural network) 기반 스타일 전이 모델(style transfer model)을 학습하는 학습부를 포함하고, 상기 스타일 전이 모델은 미리 학습된 결과를 이용한 전이 학습(transfer learning) 방식을 통해 딥 레이어의 개수가 축소된 구조의 DNN 모델인 것을 특징으로 하는 시스템을 제공한다.

일 측면에 따르면, 상기 스타일 전이 모델은 다른 DNN 모델에서의 전이 학습을 통해 학습을 진행하는 DNN 모델일 수 있다.

다른 측면에 따르면, 상기 스타일 전이 모델은 이미 학습된 이전 DNN 모델 중에서 상기 특정 스타일과 유사한 스타일의 이미지를 학습한 DNN 모델의 중간 학습 결과를 얻어와 전이 학습을 진행하는 DNN 모델일 수 있다.

또 다른 측면에 따르면, 상기 스타일 전이 모델은 이미 학습된 이전 DNN 모델 중에서 상기 특정 스타일과 유사한 스타일의 이미지를 학습한 DNN 모델의 일부 레이어로 구성되는 DNN 모델일 수 있다.

또 다른 측면에 따르면, 상기 적어도 하나의 프로세서는, DNN 모델의 일부 레이어에서 피처 맵을 추출하여 DNN 모델 간의 유사도를 측정할 수 있다.

또 다른 측면에 따르면, 상기 스타일 전이 모델은 적어도 하나의 레이어의 피처 사이즈(feature size)가 축소된 구조의 DNN 모델일 수 있다.

또 다른 측면에 따르면, 상기 스타일 전이 모델은 잔류층(residual layer)에 인스턴스 정규화(instance normalization) 연산자가 추가된 구조의 DNN 모델일 수 있다.

또 다른 측면에 따르면, 상기 잔류층이 컨볼루션 연산자, 인스턴스 정규화 연산자, 활성화 함수, 컨볼루션 연산자, 인스턴스 정규화 연산자의 순으로 구성될 수 있다.

또 다른 측면에 따르면, 상기 잔류층의 마지막 레이어에서 이전 레이어의 연산 결과 값을 축소 조정(scaling)하는 구조가 포함될 수 있다.

컴퓨터로 구현되는 방법에 있어서, 학습하고자 하는 특정 스타일의 이미지를 이용하여 DNN 기반 스타일 전이 모델을 학습하는 단계; 및 입력 이미지에 대해 상기 스타일 전이 모델을 통해 상기 특정 스타일이 적용된 결과 이미지를 제공하는 단계를 포함하고, 상기 스타일 전이 모델은 미리 학습된 결과를 이용한 전이 학습 방식을 통해 딥 레이어의 개수가 축소된 구조의 DNN 모델인 것을 특징으로 하는 방법을 제공한다.

컴퓨터와 결합되어 상기 방법을 컴퓨터에 실행시키기 위해 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램을 제공한다.

상기 방법을 컴퓨터에 실행시키기 위한 프로그램이 기록되어 있는 것을 특징으로 하는 컴퓨터에서 판독 가능한 기록매체를 제공한다.

본 발명의 실시예들에 따르면, 모바일 환경에서 실시간 추론이 가능한 DNN 최적화 모델을 제공할 수 있다.

도 1은 본 발명의 일 실시예에 있어서 컴퓨터 시스템의 내부 구성의 일례를 설명하기 위한 블록도이다.

도 2는 본 발명의 일 실시예에 따른 컴퓨터 시스템의 프로세서가 포함할 수 있는 구성요소의 예를 도시한 도면이다.

도 3은 본 발명의 일 실시예에 따른 컴퓨터 시스템이 수행할 수 있는 딥러닝 기반 실시간 추론 방법의 예를 도시한 순서도이다.

도 4는 본 발명의 일 실시예에 있어서 DNN 모델의 최적화 기법의 일례를 설명하기 위한 예시 도면이다.

도 5는 본 발명의 일 실시예에 있어서 전이 학습(transfer learning)을 통해 레이어 개수를 축소하는 예시를 설명하기 위한 도면이다.

도 6은 본 발명의 일 실시예에 있어서 전이 학습을 위해 이미지 유사도를 측정하는 예시를 설명하기 위한 도면이다.

도 7은 본 발명의 일 실시예에 있어서 DNN 모델의 최적화 기법의 다른 예를 설명하기 위한 예시 도면이다.

도 8은 본 발명의 일 실시예에 있어서 DNN 모델의 최적화 기법의 또 다른 예를 설명하기 위한 예시 도면이다.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

본 발명의 실시예들은 DNN 모델을 최적화하는 기술에 관한 것이다.

본 명세서에서 구체적으로 개시되는 것들을 포함하는 실시예들은 모바일 환경에서 실시간 추론이 가능한 DNN 최적화 모델을 제공할 수 있고 이를 통해 구성 축소, 연산 감량, 효율성, 정확성, 신속성, 비용 절감 등의 측면에 있어서 상당한 장점들을 달성한다.

도 1은 본 발명의 일 실시예에 있어서 컴퓨터 시스템의 내부 구성의 일례를 설명하기 위한 블록도이다. 예를 들어, 본 발명의 실시예들에 따른 딥러닝 시스템이 도 1의 컴퓨터 시스템(100)을 통해 구현될 수 있다. 도 1에 도시한 바와 같이, 컴퓨터 시스템(100)은 딥러닝 기반 실시간 추론 방법을 실행하기 위한 구성요소로서 프로세서(110), 메모리(120), 영구 저장 장치(130), 버스(140), 입출력 인터페이스(150) 및 네트워크 인터페이스(160)를 포함할 수 있다.

프로세서(110)는 딥러닝 기반의 실시간 추론을 위한 구성요소로서 명령어들의 시퀀스를 처리할 수 있는 임의의 장치를 포함하거나 그의 일부일 수 있다. 프로세서(110)는 예를 들어 컴퓨터 프로세서, 이동 장치 또는 다른 전자 장치 내의 프로세서 및/또는 디지털 프로세서를 포함할 수 있다. 프로세서(110)는 예를 들어, 서버 컴퓨팅 디바이스, 서버 컴퓨터, 일련의 서버 컴퓨터들, 서버 팜, 클라우드 컴퓨터, 컨텐츠 플랫폼 등에 포함될 수 있다. 프로세서(110)는 버스(140)를 통해 메모리(120)에 접속될 수 있다.

메모리(120)는 컴퓨터 시스템(100)에 의해 사용되거나 그에 의해 출력되는 정보를 저장하기 위한 휘발성 메모리, 영구, 가상 또는 기타 메모리를 포함할 수 있다. 메모리(120)는 예를 들어 랜덤 액세스 메모리(RAM: random access memory) 및/또는 다이내믹 RAM(DRAM: dynamic RAM)을 포함할 수 있다. 메모리(120)는 컴퓨터 시스템(100)의 상태 정보와 같은 임의의 정보를 저장하는 데 사용될 수 있다. 메모리(120)는 예를 들어 딥러닝 기반의 실시간 추론을 위한 명령어들을 포함하는 컴퓨터 시스템(100)의 명령어들을 저장하는 데에도 사용될 수 있다. 컴퓨터 시스템(100)은 필요에 따라 또는 적절한 경우에 하나 이상의 프로세서(110)를 포함할 수 있다.

버스(140)는 컴퓨터 시스템(100)의 다양한 컴포넌트들 사이의 상호작용을 가능하게 하는 통신 기반 구조를 포함할 수 있다. 버스(140)는 예를 들어 컴퓨터 시스템(100)의 컴포넌트들 사이에, 예를 들어 프로세서(110)와 메모리(120) 사이에 데이터를 운반할 수 있다. 버스(140)는 컴퓨터 시스템(100)의 컴포넌트들 간의 무선 및/또는 유선 통신 매체를 포함할 수 있으며, 병렬, 직렬 또는 다른 토폴로지 배열들을 포함할 수 있다.

영구 저장 장치(130)는 (예를 들어, 메모리(120)에 비해) 소정의 연장된 기간 동안 데이터를 저장하기 위해 컴퓨터 시스템(100)에 의해 사용되는 바와 같은 메모리 또는 다른 영구 저장 장치와 같은 컴포넌트들을 포함할 수 있다. 영구 저장 장치(130)는 컴퓨터 시스템(100) 내의 프로세서(110)에 의해 사용되는 바와 같은 비휘발성 메인 메모리를 포함할 수 있다. 영구 저장 장치(130)는 예를 들어 플래시 메모리, 하드 디스크, 광 디스크 또는 다른 컴퓨터 판독 가능 매체를 포함할 수 있다.

입출력 인터페이스(150)는 키보드, 마우스, 음성 명령 입력, 디스플레이 또는 다른 입력 또는 출력 장치에 대한 인터페이스들을 포함할 수 있다. 구성 명령들 및/또는 딥러닝 기반의 실시간 추론을 위한 입력이 입출력 인터페이스(150)를 통해 수신될 수 있다.

네트워크 인터페이스(160)는 근거리 네트워크 또는 인터넷과 같은 네트워크들에 대한 하나 이상의 인터페이스를 포함할 수 있다. 네트워크 인터페이스(160)는 유선 또는 무선 접속들에 대한 인터페이스들을 포함할 수 있다. 구성 명령들 및/또는 딥러닝 기반의 실시간 추론을 위한 입력이 네트워크 인터페이스(160)를 통해 수신될 수 있다.

또한, 다른 실시예들에서 컴퓨터 시스템(100)은 도 1의 구성요소들보다 더 많은 구성요소들을 포함할 수도 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다. 예를 들어, 컴퓨터 시스템(100)은 상술한 입출력 인터페이스(150)와 연결되는 입출력 장치들 중 적어도 일부를 포함하도록 구현되거나 또는 트랜시버(transceiver), GPS(Global Positioning System) 모듈, 카메라, 각종 센서, 데이터베이스 등과 같은 다른 구성요소들을 더 포함할 수도 있다.

본 발명은 모바일 환경에서 실시간 추론이 가능한 DNN 최적화 모델을 제공한다.

딥러닝은 음성 신호 처리, 자연 언어 처리, 비전 처리 등과 같은 다양한 기술 분야에 이용되고 있으며, 일례로 스타일 전이 필터(style transfer filter)는 딥러닝 기반의 이미지 필터로 이미지에 반고흐나 피카소 등 특정 화풍의 스타일을 입혀주는 효과를 제공할 수 있다.

도 2는 본 발명의 일 실시예에 따른 컴퓨터 시스템의 프로세서가 포함할 수 있는 구성요소의 예를 도시한 도면이고, 도 3은 본 발명의 일 실시예에 따른 컴퓨터 시스템이 수행할 수 있는 딥러닝 기반 실시간 추론 방법의 예를 도시한 순서도이다.

도 2에 도시된 바와 같이, 프로세서(110)는 학습부(210), 및 추론부(220)를 포함할 수 있다. 이러한 프로세서(110)의 구성요소들은 적어도 하나의 프로그램 코드에 의해 제공되는 제어 명령에 따라 프로세서(110)에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다. 예를 들어, 프로세서(110)가 이미지 학습을 수행하도록 컴퓨터 시스템(100)을 제어하기 위해 동작하는 기능적 표현으로서 학습부(210)가 사용될 수 있다. 프로세서(110) 및 프로세서(110)의 구성요소들은 도 3의 딥러닝 기반 실시간 추론 방법이 포함하는 단계들(S310 내지 S330)을 수행할 수 있다. 예를 들어, 프로세서(110) 및 프로세서(110)의 구성요소들은 메모리(120)가 포함하는 운영체제의 코드와 상술한 적어도 하나의 프로그램 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다. 여기서, 적어도 하나의 프로그램 코드는 딥러닝 기반 실시간 추론 방법을 처리하기 위해 구현된 프로그램의 코드에 대응될 수 있다.

딥러닝 기반 실시간 추론 방법은 도시된 순서대로 발생하지 않을 수 있으며, 단계들 중 일부가 생략되거나 추가의 과정이 더 포함될 수 있다.

단계(S310)에서 프로세서(110)는 딥러닝 기반 실시간 추론 방법을 위한 프로그램 파일에 저장된 프로그램 코드를 메모리(120)에 로딩할 수 있다. 예를 들어, 딥러닝 기반 실시간 추론 방법을 위한 프로그램 파일은 도 1을 통해 설명한 영구 저장 장치(130)에 저장되어 있을 수 있고, 프로세서(110)는 버스를 통해 영구 저장 장치(130)에 저장된 프로그램 파일로부터 프로그램 코드가 메모리(120)에 로딩되도록 컴퓨터 시스템(110)을 제어할 수 있다. 이때, 프로세서(110) 및 프로세서(110)가 포함하는 학습부(210), 및 추론부(220) 각각은 메모리(120)에 로딩된 프로그램 코드 중 대응하는 부분의 명령을 실행하여 이후 단계들(S320 내지 S330)을 실행하기 위한 프로세서(110)의 서로 다른 기능적 표현들일 수 있다. 단계들(S320 내지 S330)의 실행을 위해, 프로세서(110) 및 프로세서(110)의 구성요소들은 직접 제어 명령에 따른 연산을 처리하거나 또는 컴퓨터 시스템(100)을 제어할 수 있다.

단계(S320)에서 학습부(210)는 학습 이미지 데이터 셋을 학습하여 DNN 모델로서 이미지 변환 네트워크(image transform network)를 생성할 수 있다. 스타일 전이 서비스를 위해서는 스타일 이미지와 스타일 가중치를 입력 데이터로 사용하여 학습 모듈을 통해 학습을 진행할 수 있다. 다시 말해, 학습부(210)는 서비스하고자 하는 스타일의 이미지를 기반으로 스타일 전이 모델을 학습할 수 있으며, 이때 DNN 모델을 활용하여 해당 스타일의 이미지를 학습할 수 있다. 학습을 위한 이미지 데이터 셋은 서비스하고자 하는 전이 필터인 각 스타일 별로 해당 스타일의 정답 이미지들을 사용할 수 있다. 정답 이미지에 대한 학습을 진행함으로써 이미지 변환 네트워크를 생성할 수 있으며, 이러한 이미지 변환 네트워크에 입력 이미지 x를 적용하여 특정 스타일의 결과 이미지 y를 생성할 수 있다. 이때, 학습부(210)는 학습에 필요한 이미지의 특징을 추출하는데 많이 사용되는 DNN 모델을 적용하여 이미지 변환 네트워크를 생성할 수 있다.

단계(S330)에서 추론부(220)는 사용자가 스타일 전이를 원하는 이미지를 입력하고 원하는 스타일 모델을 선택하는 경우 입력 이미지에 대해 선택된 스타일 모델의 이미지 변환 네트워크를 통한 추론을 수행함으로써 해당 스타일이 적용된 결과 이미지를 획득할 수 있다. 추론부(220)는 입력 이미지를 학습부(210)의 학습 모델을 통해 생성된 이미지 변환 네트워크를 통과함으로써 사용자가 원하는 스타일이 적용된 새로운 이미지를 결과물로 제공할 수 있다.

현재 DNN 모델들의 태스크는 분류(classification), 탐지(detection), 분할(segmentation) 등으로 다양하며, 대부분의 태스크들은 고사양의 GPU 서버에서 DNN 모델 학습을 통해 이루어진다.

DNN 모델의 구조는 모바일 환경에서 추론(inference)가 어려울 정도로 복잡한 구조로 설계되어 있는 문제가 있다. 첫째, DNN 모델은 딥 레이어(deep layer)의 구성으로 이루어져 있고 많은 수의 레이어로 구성되어 있기 때문에 많은 연산을 필요로 한다. 둘째, DNN의 구조가 대부분 정확도를 올리기 위한 목적으로 설계되기 때문에 실제 추론이 진행될 때 필요하지 않은 레이어와 피처들(features)이 존재할 수 밖에 없으며, 이러한 복잡한 구조로 인하여 추론 시간(inference time) 또한 증가하게 된다. 셋째, GPU 서버와 같이 리소스가 충분한 환경에서는 Float32(single-precision type, double-precision type)를 사용하는 반면에, 모바일 환경에서는 한정된 리소스(예컨대, CPU, GPU, 메모리 등)를 효율적으로 사용하기 위해서 Float16 등과 같은 반-정밀도 타입(half-precision type)을 사용하고 있다. 이러한 리소스 차이로 인해서 모바일 환경에서 DNN 모델을 이용할 경우 쉽게 오버플로(overflow)가 발생할 가능성이 높아진다.

본 발명에서는 모바일 환경의 클라이언트에서 실시간 추론이 가능하고 이미지에 적용된 효과(스타일 전이 필터)를 실시간으로 프리뷰(preview)할 수 있는, 모바일 환경에 적합한 DNN 최적화 모델을 제공할 수 있다.

(1) DNN 모델을 최적화하는 방법 중 하나는 레이어의 개수를 축소하는 것이다.

일례로, 딥 레이어 구조에서 레이어의 개수를 축소할 수 있다. 도 4를 참조하면, 잔류층(residual layer)의 개수를 줄이는 방식으로 DNN 모델을 최적화할 수 있다. 예를 들어, 32개의 레이어로 구성된 복잡한 DNN 모델(즉, teacher network)을 14개의 레이어로 구성된 간단한 DNN 모델(student network)에게 전이 학습(transfer learning) 방식을 통해서 학습을 진행할 수 있다. 전이 학습 방식을 채택하여 간단한 모델에서도 복잡한 모델이 가진 성능을 얻을 수 있다.

다른 예로, 학습된 이전 DNN 모델들의 리스트 중에서 현재 학습하고자 하는 DNN 모델의 스타일 유사도를 판단하여 유사한 모델이 존재하는 경우 이전의 DNN 모델의 중간 학습 결과를 얻어와서 전이 학습을 진행하는 것이다. 스타일 전이를 위해 이미지의 스타일을 학습하는 DNN 모델의 경우 기존에 학습된 다른 스타일의 모델의 중간 학습 결과를 얻어와서 학습이 가능하다. 각 스타일 별로 동일한 구조의 DNN 모델이 존재하게 되는데, 학습하고자 하는 스타일과 유사한 스타일 이미지를 학습한 DNN 모델의 학습 결과를 얻어와서 전이 학습을 진행할 수 있다. 예를 들어, 도 5에 도시한 바와 같이 이전에 미리 학습된 태스크 A 모델(501)에서 앞 2개의 레이어를 얻어와서 새롭게 학습하는 태스크 B 모델(502)의 앞 2개의 레이어로 구성하여 학습할 수 있다. 전이 학습 방식을 적용하기 위해서는 태스크 A와 태스크 B 간의 유사도를 측정해야 하는데, 스타일 전이에서는 스타일 이미지를 학습할 때 도 6에 도시한 바와 같이 그램 매트릭스(gram matrix)를 사용하여 DNN 모델이 스타일 이미지의 화풍을 따라 학습하게 된다. 이러한 학습 방법을 이용하여 현재 학습된 모델들의 스타일 이미지 간에 유사도를 측정할 수 있다. 스타일 전이에서는 그램 매트릭스를 얻기 위해서 이미지 분류 태스크(image classification task)를 잘 수행하는 VGG-19 사전 학습 네트워크(pretrained network)를 사용한다. VGG-19에서 일부 레이어들의 연산 결과로 나온 피처 맵(feature map)을 활용하여 그램 매트릭스를 만들어서 사용하게 되는데, 해당 레이어에서의 피처 맵을 추출하여 두 모델 간의 유사도를 측정할 수 있다.

따라서, 본 발명에서는 다른 DNN 모델을 이용한 전이 학습 방식을 통해 새로 학습하고자 하는 딥 레이어의 개수를 줄임으로써 모바일 환경에 최적화된 스타일 전이 모델을 구현할 수 있다.

(2) DNN 모델을 최적화하는 방법 중 다른 하나는 각 레이어의 피처 사이즈(feature size)를 축소하는 것이다(도 7 참조).

본 발명에서는 태스크에 따라서 연산량을 줄이면서 정확도를 최대한 유지하는 방향으로 각 레이어에서의 피처 사이즈를 축소할 수 있다. 기존 모델에서 각 레이어의 피처 사이즈를 절반으로 줄이더라도 기존 모델과 대비하여 총 연산량(MACs)과 파라미터가 3배 가량 감소하는 것에 비해 정확도 손실은 극히 낮거나 모델에 따라 오히려 더 높아지는 것을 입증한 연구들이 존재한다.

따라서, 본 발명에서는 DNN 모델을 구성하는 각 레이어의 피처 사이즈를 줄임으로써 모바일 환경에 최적화된 스타일 전이 모델을 구현할 수 있다.

(3) DNN 모델을 최적화하는 방법 중 또 다른 하나는 잔류층을 오버플로 회피를 위한 구조로 구성하는 것이다.

도 8을 참조하면, 기존 모델의 잔류층은 두 번의 컨볼루션(convolution) 연산자(Conv)와 활성화 함수(ReLU, Rectified Linear Unit)로 구성되어 있다. 상기한 구조의 잔류층으로 모바일 환경에서 연산이 이루어질 경우에는 컨볼루션 연산이 두 번 이루어지는 동안 Float16의 제한적인 표현 범위로 인하여 오버플로가 일어날 여지가 많다. 이를 해결하기 위해, 도 8의 오른쪽 도면과 같이 각 컨볼루션 연산자(Conv) 다음에 인스턴스 정규화(instance normalization) 연산자(Instance Norm)를 추가하여 새로운 구조의 잔류층을 구성할 수 있다. 다시 말해, 컨볼루션 연산자(Conv), 인스턴스 정규화 연산자(Instance Norm), 활성화 함수(ReLU), 컨볼루션 연산자(Conv), 인스턴스 정규화 연산자(Instance Norm)의 순으로 잔류층을 구성할 수 있다. 인스턴스 정규화는 정규화 기법 중 하나로, 예를 들어 입력 이미지 x의 컨볼루션 연산에 따른 출력 이미지의 각 채널(RGB)에 대해 픽셀 값의 평균 값과 분산 값을 구한 후 각 픽셀 값에서 평균 값을 뺀 값을 분산 값으로 나누는 과정이다.

인스턴스 정규화 연산자를 추가함으로써 컨볼루션 연산을 통해 나온 결과를 0~1 사이의 값으로 정규화하는 효과를 얻을 수 있고, 이전 정규화 결과를 이후 다시 컨볼루션 연산을 하게 되면 기존 모델의 구조와 다르게 Float16의 표현 범위를 벗어나지 않는 특징을 갖게 된다.

그리고, 기존 모델의 경우 잔류층의 마지막 레이어에서 이전 레이어의 연산 결과 값(res)을 그대로 반영하는 것과 달리 본 발명에서는 잔류층의 마지막 레이어에서 결과 값을 축소 조정(scaling)하는 구조를 포함할 수 있다. 예를 들어, 잔류층의 마지막 레이어에서 결과 값에 0.5를 곱하여 스케일링해줄 수 있다. 이러한 스케일링을 통해 잔류층에서 발생할 수 있는 오버플로를 방지할 수 있고, 잔류층의 결과 값을 작게 가져감으로써 전체 레이어의 구조에서 볼 때 잔류층의 상대적인 영향력이 줄어들게 되므로 불안정한(unstable) 부분을 최소화할 수 있다.

따라서, 본 발명에서는 DNN 모델의 잔류층에 정규화 연산자를 추가하고 더 나아가 잔류층의 결과를 축소 조정하는 구조를 포함시킴으로써 모바일 환경에 최적화된 스타일 전이 모델을 구현할 수 있다.

이처럼 본 발명의 실시예들에 따르면, DNN 기반 스타일 전이 모델을 상기한 (1) 내지 (3)의 방법으로 축소함으로써 모바일 환경에서 실시간 추론이 가능하도록 최적화된 스타일 전이 모델을 구현할 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 이때, 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수 개의 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 어플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

컴퓨터로 구현되는 시스템에 있어서,

컴퓨터에서 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서

를 포함하고,

상기 적어도 하나의 프로세서는,

학습하고자 하는 특정 스타일의 이미지를 이용하여 DNN(deep neural network) 기반 스타일 전이 모델(style transfer model)을 학습하는 학습부

를 포함하고,

상기 스타일 전이 모델은 미리 학습된 결과를 이용한 전이 학습(transfer learning) 방식을 통해 딥 레이어의 개수가 축소된 구조의 DNN 모델인 것

을 특징으로 하는 시스템.
제1항에 있어서,

상기 스타일 전이 모델은 다른 DNN 모델에서의 전이 학습을 통해 학습을 진행하는 DNN 모델인 것

을 특징으로 하는 시스템.
제1항에 있어서,

상기 스타일 전이 모델은 이미 학습된 이전 DNN 모델 중에서 상기 특정 스타일과 유사한 스타일의 이미지를 학습한 DNN 모델의 중간 학습 결과를 얻어와 전이 학습을 진행하는 DNN 모델인 것

을 특징으로 하는 시스템.
제1항에 있어서,

상기 스타일 전이 모델은 이미 학습된 이전 DNN 모델 중에서 상기 특정 스타일과 유사한 스타일의 이미지를 학습한 DNN 모델의 일부 레이어로 구성되는 DNN 모델인 것

을 특징으로 하는 시스템.
제3항 또는 제4항에 있어서,

상기 적어도 하나의 프로세서는,

DNN 모델의 일부 레이어에서 피처 맵을 추출하여 DNN 모델 간의 유사도를 측정하는 것

을 특징으로 하는 시스템.
제1항에 있어서,

상기 스타일 전이 모델은 적어도 하나의 레이어의 피처 사이즈(feature size)가 축소된 구조의 DNN 모델인 것

을 특징으로 하는 시스템.
제1항에 있어서,

상기 스타일 전이 모델은 잔류층(residual layer)에 인스턴스 정규화(instance normalization) 연산자가 추가된 구조의 DNN 모델인 것

을 특징으로 하는 시스템.
제7항에 있어서,

상기 잔류층이 컨볼루션 연산자, 인스턴스 정규화 연산자, 활성화 함수, 컨볼루션 연산자, 인스턴스 정규화 연산자의 순으로 구성되는 것

을 특징으로 하는 시스템.
제7항에 있어서,

상기 잔류층의 마지막 레이어에서 이전 레이어의 연산 결과 값을 축소 조정(scaling)하는 구조가 포함되는 것

을 특징으로 하는 시스템.
컴퓨터로 구현되는 방법에 있어서,

학습하고자 하는 특정 스타일의 이미지를 이용하여 DNN 기반 스타일 전이 모델을 학습하는 단계; 및

입력 이미지에 대해 상기 스타일 전이 모델을 통해 상기 특정 스타일이 적용된 결과 이미지를 제공하는 단계

를 포함하고,

상기 스타일 전이 모델은 미리 학습된 결과를 이용한 전이 학습 방식을 통해 딥 레이어의 개수가 축소된 구조의 DNN 모델인 것

을 특징으로 하는 방법.
제10항에 있어서,

상기 스타일 전이 모델은 다른 DNN 모델에서의 전이 학습을 통해 학습을 진행하는 DNN 모델인 것

을 특징으로 하는 방법.
제10항에 있어서,

상기 스타일 전이 모델은 이미 학습된 이전 DNN 모델 중에서 상기 특정 스타일과 유사한 스타일의 이미지를 학습한 DNN 모델의 중간 학습 결과를 얻어와 전이 학습을 진행하는 DNN 모델인 것

을 특징으로 하는 방법.
제10항에 있어서,

상기 스타일 전이 모델은 이미 학습된 이전 DNN 모델 중에서 상기 특정 스타일과 유사한 스타일의 이미지를 학습한 DNN 모델의 일부 레이어로 구성되는 DNN 모델인 것

을 특징으로 하는 방법.
제12항 또는 제13항에 있어서,

상기 학습하는 단계는,

DNN 모델의 일부 레이어에서 피처 맵을 추출하여 DNN 모델 간의 유사도를 측정하는 단계

를 포함하는 방법.
제10항에 있어서,

상기 스타일 전이 모델은 적어도 하나의 레이어의 피처 사이즈가 축소된 구조의 DNN 모델인 것

을 특징으로 하는 방법.
제10항에 있어서,

상기 스타일 전이 모델은 잔류층에 인스턴스 정규화 연산자가 추가된 구조의 DNN 모델인 것

을 특징으로 하는 방법.
제16항에 있어서,

상기 잔류층이 컨볼루션 연산자, 인스턴스 정규화 연산자, 활성화 함수, 컨볼루션 연산자, 인스턴스 정규화 연산자의 순으로 구성되는 것

을 특징으로 하는 방법.
제16항에 있어서,

상기 잔류층의 마지막 레이어에서 이전 레이어의 연산 결과 값을 축소 조정하는 구조가 포함되는 것

을 특징으로 하는 방법.
컴퓨터와 결합되어 제10항 내지 제13항, 제15항 내지 제18항 중 어느 한 항의 방법을 컴퓨터에 실행시키기 위해 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램.
제10항 내지 제13항, 제15항 내지 제18항 중 어느 한 항의 방법을 컴퓨터에 실행시키기 위한 프로그램이 기록되어 있는 것을 특징으로 하는 컴퓨터에서 판독 가능한 기록매체.