KR20200066952A

KR20200066952A - 확장 컨벌루션 연산을 수행하는 장치 및 방법

Info

Publication number: KR20200066952A
Application number: KR1020180153723A
Authority: KR
Inventors: 장준우
Original assignee: 삼성전자주식회사
Priority date: 2018-12-03
Filing date: 2018-12-03
Publication date: 2020-06-11
Also published as: US20210248413A1; US11854241B2; US11017264B2; US20200175313A1

Abstract

확장 컨벌루션(dilated convolution) 연산을 수행하는 뉴럴 네트워크 장치는 분할 장치, 컨벌루션 연산기 및 병합 장치를 포함한다.
분할 장치는 확장률(dilation rate)에 기초하여 상기 입력 피처맵을 복수의 서브 피처맵들로 분할(split)하고, 컨벌루션 연산기는 복수의 서브 피처맵들과 기본 웨이트 간의 컨벌루션 연산을 수행함으로써 복수의 중간 피처맵들을 생성하며, 병합 장치는 확장률에 기초하여 상기 복수의 중간 피처맵들을 병합(merge)함으로써 출력 피처맵을 생성한다.

Description

확장 컨벌루션 연산을 수행하는 장치 및 방법 {METHOD AND APPARATUS FOR PERFORMING DILATED CONVOLUTION OPERATION IN NEURAL NETWORK}

본 개시는 확장 컨벌루션 연산을 수행하는 장치 및 방법에 관한다.

뉴럴 네트워크(neural network)는 생물학적 뇌를 모델링한 컴퓨터 과학적 아키텍쳐(computational architecture)를 참조한다. 뉴럴 네트워크(neural network) 기술이 발전함에 따라, 다양한 종류의 전자 시스템에서 뉴럴 네트워크를 활용하여 입력 데이터를 분석하고 유효한 정보를 추출하고 있다.

최근에는, 심층 신경망(Deep Neural Network, DNN)을 저전력으로 효율적으로 사용하기 위한 하드웨어 가속기에 대한 연구가 활발히 진행되고 있다. 뉴럴 네트워크를 처리하는 장치는 복잡한 입력 데이터에 대한 많은 양의 연산을 필요로 한다.

특히 저전력 및 저성능으로 구현되는 디바이스에서, 뉴럴 네트워크를 이용하여 대량의 입력 데이터를 실시간으로 분석하여 원하는 정보를 추출하기 위해서는 뉴럴 네트워크에 관한 연산을 효율적으로 처리할 수 있는 기술이 요구된다.

확장 컨벌루션 연산을 수행하는 장치 및 방법을 제공하는데 있다. 또한, 상기 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는 데 있다. 해결하려는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 개시의 제1 측면은, 확장 컨벌루션(dilated convolution) 연산을 수행하는 뉴럴 네트워크 장치에 있어서, 적어도 하나의 프로그램이 저장된 메모리; 및 상기 적어도 하나의 프로그램을 실행함으로써 뉴럴 네트워크를 구동하는 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 입력 피처맵(feature map) 및 기본 웨이트(weight)를 상기 메모리로부터 획득하고, 확장률(dilation rate)에 기초하여 상기 입력 피처맵을 복수의 서브 피처맵들로 분할(split)하고, 상기 복수의 서브 피처맵들과 상기 기본 웨이트 간의 컨벌루션 연산을 수행함으로써 복수의 중간 피처맵들을 생성하며, 상기 확장률에 기초하여 상기 복수의 중간 피처맵들을 병합(merge)함으로써 출력 피처맵을 생성하는 것인, 뉴럴 네트워크 장치를 제공할 수 있다.

또한, 상기 복수의 서브 피처맵들에서 서로 인접하는 픽셀들은, 상기 입력 피처맵에서 상기 확장률 - 1만큼 이격되어 위치하는 것인, 뉴럴 네트워크 장치를 제공할 수 있다.

또한, 상기 복수의 서브 피처맵들 각각의 크기를 기설정된 크기와 비교하며, 적어도 하나의 서브 피처맵의 크기가 상기 기설정된 크기 보다 작은 경우, 상기 기설정된 크기가 되도록 상기 적어도 하나의 서브 피처맵의 가장자리 중 적어도 일부를 소정의 값으로 패딩(padding)하는 것인, 뉴럴 네트워크 장치를 제공할 수 있다.

또한, 상기 복수의 중간 피처맵들 각각에서 서로 인접하는 픽셀들은, 상기 출력 피처맵에서 상기 확장률 - 1만큼 이격되어 위치하는 것인, 뉴럴 네트워크 장치를 제공할 수 있다.

또한, 상기 적어도 하나의 프로세서에는 분할 장치 및 병합 장치가 포함되고,

상기 분할 장치는 확장률에 기초하여 상기 입력 피처맵을 복수의 서브 피처맵들로 분할하며, 상기 병합 장치는 상기 확장률에 기초하여 상기 복수의 중간 피처맵들을 병합함으로써 출력 피처맵을 생성하는 것인, 뉴럴 네트워크 장치를 제공할 수 있다.

또한, 상기 확장률과 임계값을 비교하고, 상기 확장률이 임계값을 초과하는 경우, 상기 확장률을 소정의 값으로 나눔으로써 상기 확장률을 업데이트하고, 상기 소정의 값에 기초하여 상기 입력 피처맵을 복수의 서브 피처맵들로 분할하는 것인, 뉴럴 네트워크 장치를 제공할 수 있다.

또한, 상기 확장률과 임계값을 비교하고, 상기 확장률이 임계값을 초과하는 경우, 상기 확장률을 소정의 값으로 나눔으로써 상기 확장률을 업데이트하고, 상기 소정의 값에 기초하여 상기 복수의 중간 피처맵들을 병합함으로써 출력 피처맵을 생성하는 것인, 뉴럴 네트워크 장치를 제공할 수 있다.

또한, 상기 적어도 하나의 프로세서에는 컨벌루션 연산기가 포함되고, 상기 컨벌루션 연산기는 상기 복수의 서브 피처맵들과 상기 기본 웨이트 간의 컨벌루션 연산을 수행하는 것인, 뉴럴 네트워크 장치를 제공할 수 있다.

또한, 확장 웨이트(dilated weight)를 메모리로부터 획득하고, 상기 확장률에 기초하여 상기 확장 웨이트를 기본 웨이트로 복구하는 것인, 뉴럴 네트워크 장치를 제공할 수 있다.

또한, 본 개시의 제 2 측면은, 뉴럴 네트워크 장치에서 확장 컨벌루션 연산을 수행하는 방법에 있어서, 입력 피처맵 및 기본 웨이트를 획득하는 단계; 확장률에 기초하여 상기 입력 피처맵을 복수의 서브 피처맵들로 분할하는 단계; 상기 복수의 서브 피처맵들과 상기 기본 웨이트 간의 컨벌루션 연산을 수행함으로써 복수의 중간 피처맵들을 생성하는 단계; 및 상기 확장률에 기초하여 상기 복수의 중간 피처맵들을 병합함으로써 출력 피처맵을 생성하는 단계;를 포함하는, 방법을 제공할 수 있다.

또한, 본 개시의 제 3 측면은, 제 2 측면의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공할 수 있다.

본 발명에 따르면, 분할 장치, 컨벌루션 연산기 및 병합 장치를 포함하는 하드웨어를 이용하여 확장 컨벌루션(dilated convolution)을 수행함으로써 연산속도 및 전력 효율을 향상시킬 수 있다.

도 1은 일 실시예에 따른 뉴럴 네트워크의 아키텍처를 설명하기 위한 도면이다.
도 2는 일 실시예에 따른 뉴럴 네트워크에서 입력 피처맵 및 출력 피처맵의 관계를 설명하기 위한 도면이다.
도 3a 내지 도 3b는 일 실시예에 따른 확장 컨벌루션 연산을 설명하기 위한 예시적인 도면이다.
도 4는 일 실시예에 따른 분할 및 병합 방식을 이용하여 확장 컨벌루션 연산을 수행하는 예시를 설명하기 위한 도면이다.
도 5는 일 실시예에 따른 분할 장치 및 병합 장치를 이용하여 확장 컨벌루션 연산을 수행하는 예시를 설명하기 위한 도면이다.
도 6은 일 실시예에 따른 서브 피처맵을 패딩하는 방법을 설명하기 위한 도면이다.
도 7은 일 실시예에 따른 분할 장치 및 병합 장치의 연산 성능을 고려하여 확장 컨벌루션 연산을 수행하는 방법에 대한 흐름도이다.
도 8a 내지 도 8b는 일 실시예에 따른 분할 장치 및 병합 장치의 연산 성능을 고려하여 확장 컨벌루션 연산을 수행하는 방법을 설명하기 위한 도면이다.
도 9는 일 실시예에 따른 뉴럴 네트워크 장치의 하드웨어 구성을 도시한 블록도이다.
도 10은 일 실시예에 따른 뉴럴 네트워크 장치에서 확장 컨벌루션 연산을 수행하는 방법의 흐름도이다.

본 명세서에서 다양한 곳에 등장하는 "일부 실시예에서" 또는 "일 실시예에서" 등의 어구는 반드시 모두 동일한 실시예를 가리키는 것은 아니다.

본 개시의 일부 실시예는 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들의 일부 또는 전부는, 특정 기능들을 실행하는 다양한 개수의 하드웨어 및/또는 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 본 개시의 기능 블록들은 하나 이상의 마이크로프로세서들에 의해 구현되거나, 소정의 기능을 위한 회로 구성들에 의해 구현될 수 있다. 또한, 예를 들어, 본 개시의 기능 블록들은 다양한 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능 블록들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 본 개시는 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다. “매커니즘”, “요소”, “수단” 및 “구성”등과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다.

또한, 도면에 도시된 구성 요소들 간의 연결 선 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것일 뿐이다. 실제 장치에서는 대체 가능하거나 추가된 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들에 의해 구성 요소들 간의 연결이 나타내어질 수 있다.

이하 첨부된 도면을 참고하여 본 개시를 상세히 설명하기로 한다.

도 1은 일 실시예에 따른 뉴럴 네트워크의 아키텍처를 설명하기 위한 도면이다.

도 1을 참조하면, 뉴럴 네트워크(1)는 딥 뉴럴 네트워크(Deep Neural Network, DNN) 또는 n-계층 뉴럴 네트워크(n-layers neural networks)의 아키텍처일 수 있다. DNN 또는 n-계층 뉴럴 네트워크는 컨벌루션 뉴럴 네트워크(Convolutional Neural Networks, CNN), 리커런트 뉴럴 네트워크(Recurrent Neural Networks, RNN), Deep Belief Networks, Restricted Boltzman Machines 등에 해당될 수 있다. 예를 들어, 뉴럴 네트워크(1)는 컨벌루션 뉴럴 네트워크(CNN)로 구현될 수 있으나, 이에 제한되지 않는다. 도 1에서는 뉴럴 네트워크(1)의 예시에 해당하는 컨벌루션 뉴럴 네트워크에서는 컨벌루션 레이어 외에도, 서브샘플링 레이어(subsampling layer, 또는 풀링 레이어(pooling layer)), 풀리 커넥티드(fully connected) 레이어 등이 더 포함될 수 있다.

뉴럴 네트워크(1)는 입력 이미지, 피처맵들(feature maps) 및 출력을 포함하는 복수 레이어들을 갖는 아키텍처로 구현될 수 있다. 뉴럴 네트워크(1)에서 입력 이미지는 웨이트(weight)라 불리는 필터와의 컨벌루션 연산이 수행되고, 그 결과 피처맵들이 출력된다. 이때 생성된 출력 피처맵들은 입력 피처맵들로서 다시 웨이트와의 컨벌루션 연산이 수행되고, 새로운 피처맵들이 출력된다. 이와 같은 컨벌루션 연산이 반복적으로 수행된 결과, 최종적으로는 뉴럴 네트워크(1)를 통한 입력 이미지의 특징들에 대한 인식 결과가 출력될 수 있다.

예를 들어, 도 1의 뉴럴 네트워크(1)에 24x24 픽셀 크기의 이미지가 입력된 경우, 입력 이미지는 웨이트와의 컨벌루션 연산을 통해 20x20 크기를 갖는 4채널의 피처맵들로 출력될 수 있다. 또한, 서브샘플링 과정을 통해 20x20 크기를 갖는 4채널의 피처맵의 픽셀 값들 중 일부만이 이용되어 10x10 크기를 갖는 4채널의 피처맵들이 출력될 수 있다. 서브샘플링 방식으로는 최대-풀링(max-pooling), 평균-풀링(average-pooling) 등의 방식 등이 적용될 수 있다.

이후에도, 10x10 피처맵들은 웨이트와의 반복적인 컨벌루션 연산 및 서브샘플링 연산을 통해 크기가 줄어들면서, 최종적으로는 글로벌(global)한 특징들이 출력될 수 있다. 뉴럴 네트워크(1)는 여러 레이어들에서 컨벌루션 연산 및 서브샘플링(또는 풀링) 연산을 반복적으로 수행함으로써 입력 이미지로부터 이미지 전체를 대표할 수 있는 강인한 특징들을 필터링하여 출력하고, 출력된 글로벌한 특징들이 풀리 커넥티드 레이어에 입력됨으로써 최종적으로 입력 이미지에 대한 인식 결과를 도출할 수 있다.

도 2는 일 실시예에 따른 뉴럴 네트워크에서 입력 피처맵 및 출력 피처맵의 관계를 설명하기 위한 도면이다.

도 2를 참조하면, 뉴럴 네트워크의 어느 레이어(2)에서, 제 1 피처맵(FM1)은 입력 피처맵에 해당될 수 있고, 제 2 피처맵(FM2)은 출력 피처맵에 해당될 수 있다. 피처맵은 입력 데이터의 다양한 특징들이 표현된 데이터 세트를 의미할 수 있다. 피처맵들(FM1, FM2)은 2차원 매트릭스의 엘리먼트들을 갖거나 또는 3차원 매트릭스의 엘리먼트들을 가질 수 있고, 각각의 엘리먼트에는 픽셀 값이 정의될 수 있다. 피처맵들(FM1, FM2)은 너비(W)(또는 칼럼이라고 함), 높이(H)(또는 로우라고 함) 및 깊이(D)를 가진다. 이때, 깊이(D)는 채널들의 개수에 해당될 수 있다.

제 1 피처맵(FM1) 및 웨이트(weight)에 대한 컨벌루션 연산이 수행될 수 있고, 그 결과 제 2 피처맵(FM2)이 생성될 수 있다. 웨이트(weight)는 각 엘리먼트에 정의된 웨이트로 제 1 피처맵(FM1)과 컨벌루션 연산을 수행함으로써 제 1 피처맵(FM1)의 특징들을 필터링한다. 웨이트(weight)는 제 1 피처맵(FM1)을 슬라이딩 윈도우 방식으로 시프트하면서 제 1 피처맵(FM1)의 윈도우들(또는 타일이라고도 함)과 컨벌루션 연산을 수행한다. 각 시프트 동안, 웨이트(weight)에 포함된 픽셀 값들 각각은 제 1 피처맵(FM1) 내 중첩된 윈도우의 픽셀 값들 각각과 곱해지고 더해질 수 있다. 제 1 피처맵(FM1)과 웨이트(weight)가 컨벌루션됨에 따라, 제 2 피처맵(FM2)의 하나의 채널이 생성될 수 있다. 도 1에는 하나의 웨이트(weight)가 도시되었으나, 실제로는 복수의 웨이트들이 제 1 피처맵(FM1)과 각각 컨벌루션되어, 복수의 채널들의 제 2 피처맵(FM2)이 생성될 수 있다.

한편, 제 2 피처맵(FM2)은 다음 레이어의 입력 피처맵에 해당될 수 있다. 예를 들어, 제 2 피처맵(FM2)은 풀링(또는 서브샘플링) 레이어의 입력 피처맵이 될 수 있다.

도 1 및 도 2에서는 설명의 편의를 위하여 뉴럴 네트워크(1)의 개략적인 아키텍처에 대해서만 도시되어 있다. 하지만, 뉴럴 네트워크(1)는 도시된 바와 달리, 보다 많거나 적은 개수의 레이어들, 피처맵들, 웨이트들 등으로 구현될 수 있고, 그 크기들 또한 다양하게 변형될 수 있음을 당해 기술분야의 통상의 기술자라면 이해할 수 있다.

도 3a 내지 도 3b는 일 실시예에 따른 확장 컨벌루션 연산을 설명하기 위한 예시적인 도면이다.

도 3a를 참조하면, 기본 웨이트(310)와 확장된 웨이트(320)가 도시된다. 일반적인 컨벌루션 연산에서는 입력 피처맵과 기본 웨이트(310) 간의 컨벌루션 연산이 수행되는 반면, 확장 컨벌루션(dilated convolution) 연산에서는 입력 피처맵과 확장된 웨이트(320) 간의 컨벌루션 연산이 수행될 수 있다.

뉴럴 네트워크 장치는 확장 컨벌루션 연산을 수행함으로써, 해상도의 손실 없이 수용 영역(receptive field)의 크기를 확장시킬 수 있다. 일반적으로 수용 영역을 확장시키기 위해서는 파라미터(즉, 웨이트)의 개수를 증가시켜야 하나, 확장 컨벌루션 연산에서는 파라미터의 개수를 증가시키지 않고도 수용 영역의 크기를 확장시킬 수 있다는 이점이 존재한다. 즉, 뉴럴 네트워크 장치는 확장 컨벌루션 연산을 수행함으로써 연산량을 감소시킬 수 있다.

일 실시예에서 뉴럴 네트워크 장치는 확장률(dilation rate)에 기초하여 확장된 웨이트(320)의 크기를 결정할 수 있다. 일 실시예에서 뉴럴 네트워크 장치는 기본 웨이트(310)에 포함된 서로 인접한 픽셀들을, (확장률 - 1)만큼 이격시킴으로써 기본 웨이트(310)를 확장된 웨이트(320)로 확장시킬 수 있다.

도 3a를 참조하면, 확장률이 '2'인 경우, 뉴럴 네트워크 장치는 3x3 크기의 기본 웨이트(310)에 포함된 서로 인접한 픽셀들을 '1'만큼 이격시킴으로써, 3x3 크기의 기본 웨이트(310)를 5x5 크기의 확장된 웨이트(320)로 확장시킬 수 있다. 마찬가지 방식으로, 확장률이 '3'인 경우 뉴럴 네트워크 장치는 3x3 크기의 기본 웨이트(310)를 7x7 크기의 확장된 웨이트로 확장시킬 수 있다.

일 실시예에서 기본 웨이트(310)의 서로 인접한 픽셀들이 확장된 웨이트(320)에서 서로 이격됨에 따라, 그 사이에 새롭게 생성되는 픽셀들의 값은 기설정된 값으로 설정될 수 있다. 도 3a를 참조하면, 확장된 웨이트(320)는 제 1 픽셀(321) 및 제 2 픽셀(322)로 구성될 수 있다. 제 1 픽셀(321)은 기본 웨이트(310)를 구성하는 픽셀들로서, 입력 피처맵과의 컨벌루션 연산에 사용되는 실제 의미가 있는 픽셀이다. 제 2 픽셀(322)은 수용 영역의 크기를 확장시키기 위해 적용된 픽셀로서, 예를 들어 제 2 픽셀(322)의 값은 '0'으로 설정될 수 있다.

도 3b는 확장된 웨이트(320)와 입력 피처맵(330) 간의 컨벌루션 연산 즉, 확장 컨벌루션 연산이 수행되는 방식을 설명하는 도면이다.

5x5 크기의 확장된 웨이트(320)는 8x8 크기의 입력 피처맵(330)을 슬라이딩 윈도우 방식으로 시프트하면서 입력 피처맵(330)의 픽셀들과 컨벌루션 연산을 수행할 수 있다. 각 시프트 동안, 확장된 웨이트(320)에 포함된 픽셀들은 입력 피처맵(330) 내 중첩된 픽셀들과 곱해지고 더해짐으로써 컨벌루션 연산이 수행될 수 있다.

확장된 웨이트(320)는 5x5 크기를 가지므로 수용 영역의 크기 역시 5x5가 되나, 5x5 크기의 확장된 웨이트(320)에 포함된 픽셀들 중 제 2 픽셀들의 값은 모두 '0'으로 설정되므로, 실질적으로 확장 컨벌루션에서의 연산량은 제 1 픽셀들의 값과 이와 중첩되는 입력 피처맵(330)의 픽셀들 간의 연산량이 된다. 즉, 확장된 웨이트(320)의 크기가 5x5임에도 불구하고, 연산량은 3x3 크기의 웨이트를 처리하는 연산량과 동일하다.

도 4는 일 실시예에 따른 분할 및 병합 방식을 이용하여 확장 컨벌루션 연산을 수행하는 예시를 설명하기 위한 도면이다.

뉴럴 네트워크 장치는 확장률(dilation rate)에 기초하여 입력 피처맵(410)을 복수의 서브 피처맵들(420)로 분할(split)할 수 있다.

일 실시예에서 뉴럴 네트워크 장치는 확장률에 기초하여, 입력 피처맵(410)이 분할됨에 따라 생성되는 서브 피처맵들(420)의 개수를 결정할 수 있다. 뉴럴 네트워크 장치는 (확장률²)만큼의 서브 피처맵들(420)이 생성되도록 입력 피처맵(410)을 분할할 수 있다. 도 4를 참조하면, 확장률이 '2'인 경우, 뉴럴 네트워크 장치는 8x8 크기의 입력 피처맵(410)을 분할하여 4x4 크기를 갖는 4(=2²)개의 서브 피처맵들(420)을 생성할 수 있다.

또한, 뉴럴 네트워크 장치는 확장률에 기초하여 입력 피처맵(410)을 분할하는 방식을 결정할 수 있다. 뉴럴 네트워크 장치는 입력 피처맵(410) 내에서 (확장률 -1)만큼 이격되어 위치한 픽셀들이 하나의 서브 피처맵에 포함되도록 입력 피처맵(410)을 분할할 수 있다. 즉, 복수의 서브 피처맵들(420)에서 서로 인접하는 픽셀들은, 입력 피처맵(410)에서 (확장률 - 1)만큼 이격되어 위치하는 픽셀들일 수 있다.

도 4를 참조하면, 확장률이 '2'인 경우, 뉴럴 네트워크 장치는 입력 피처맵(410)에서 '1'만큼 이격되어 위치한 픽셀들이 하나의 서브 피처맵에 포함되도록 입력 피처맵(410)을 분할할 수 있다. 예를 들어, 8x8 크기의 입력 피처맵(410)을 구성하는 64개의 픽셀들 중에서, '1'만큼 이격되어 위치한 a1 내지 a16 픽셀들이 하나의 서브 피처맵을 구성할 수 있다. 마찬가지 방식으로, b1 내지 b16 픽셀들, c1 내지 c16의 픽셀들 및 d1 내지 d16의 픽셀들은 각각 하나의 서브 피처맵을 구성할 수 있다.

뉴럴 네트워크 장치는 복수의 서브 피처맵들(420)과 기본 웨이트(450) 간의 컨벌루션 연산을 수행함으로써 복수의 중간 피처맵들(430)을 생성할 수 있다.

일 실시예에서 뉴럴 네트워크 장치는 복수의 서브 피처맵들(420) 각각에 대해 기본 웨이트(450)를 슬라이딩 윈도우 방식으로 시프트하면서, 복수의 서브 피처맵들(420)의 픽셀들과 기본 웨이트(450) 간의 컨벌루션 연산을 수행할 수 있다. 각 시프트 동안, 기본 웨이트(450)에 포함된 픽셀들은 복수의 서브 피처맵들(420) 내 중첩된 픽셀들과 곱해지고 더해짐으로써 컨벌루션 연산이 수행될 수 있다.

복수의 서브 피처맵들(420)과 기본 웨이트(450) 간의 컨벌루션 연산이 수행된 결과, 뉴럴 네트워크 장치는 복수의 서브 피처맵들(420) 각각에 대응하는 복수의 중간 피처맵들(430)을 생성할 수 있다. 즉, 복수의 서브 피처맵들(420)의 개수와 복수의 중간 피처맵들(430)의 개수는 동일할 수 있다.

도 4를 참조하면, 뉴럴 네트워크 장치는 4x4 크기를 갖는 4개의 서브 피처맵들(420)과 3x3 크기를 갖는 기본 웨이트(450) 간의 컨벌루션 연산을 수행함으로써, 2x2 크기를 갖는 4개의 중간 피처맵들(430)을 생성할 수 있다.

뉴럴 네트워크 장치는 확장률에 기초하여 복수의 중간 피처맵들(430)을 병합(merge)함으로써 출력 피처맵(440)을 생성할 수 있다. 일 실시예에서 뉴럴 네트워크 장치는 확장률에 기초하여 복수의 중간 피처맵들(430)을 병합하는 방식을 결정할 수 있다. 뉴럴 네트워크 장치는 복수의 중간 피처맵들(430) 각각에서 서로 인접하는 픽셀들이 출력 피처맵(440)에서 (확장률 - 1)만큼 이격되어 위치하도록, 복수의 중간 피처맵들(430)을 병합할 수 있다.

도 4를 참조하면, 확장률이 '2'인 경우, 뉴럴 네트워크 장치는 복수의 중간 피처맵들(430) 각각에서 서로 인접하는 픽셀들이 출력 피처맵(440)에서 '1'만큼 이격되어 위치하도록, 복수의 중간 피처맵들(430)을 병합할 수 있다. 뉴럴 네트워크 장치는 2x2 크기를 갖는 4개의 중간 피처맵들(430)을 병합하여 4x4 크기의 출력 피처맵(440)을 생성할 수 있다.

도 3a 내지 도 3b에서 상술한 확장된 웨이트(320)를 이용하여 확장 컨벌루션 연산을 수행하는 방법은, 기본 웨이트(310)를 확장시킨 확장된 웨이트(320)를 사용해야 하며 컨벌루션 연산에 이용되지 않는 입력 피처맵의 픽셀들(즉, 제 2 픽셀들)까지 읽어와야 한다는 점에서 비효율적이다.

본 개시에서는 확장 컨벌루션 연산을 수행하는데 분할 및 병합 방식을 적용하여, 기본 웨이트(310, 450)를 확장된 웨이트(320)로 확장시킬 필요가 없고, 컨벌루션 연산에 실질적으로 이용되는 입력 피처맵의 픽셀들(즉, 복수의 서브 피처맵들(420) 각각의 픽셀들)만을 읽어와 확장 컨벌루션 연산을 수행할 수 있다는 점에서, 연산속도 및 전력 효율을 향상시킬 수 있다.

도 5는 일 실시예에 따른 분할 장치 및 병합 장치를 이용하여 확장 컨벌루션 연산을 수행하는 예시를 설명하기 위한 도면이다.

도 5를 참조하면, 뉴럴 네트워크 장치(500)는 분할 장치(510), 컨벌루션 연산기(520) 및 병합 장치(530)를 포함할 수 있다. 분할 장치(510), 컨벌루션 연산기(520) 및 병합 장치(530)는 뉴럴 네트워크 장치(500) 내에 구비된 CPU(central processing unit), GPU(graphics processing unit), AP(application processor) 등으로 구현될 수 있으나, 이에 제한되지 않는다.

뉴럴 네트워크 장치(500)는 입력 피처맵(501) 및 기본 웨이트(505)를 메모리로부터 획득할 수 있다.

분할 장치(510)에는 입력 피처맵(501)이 입력될 수 있다. 분할 장치(510)는 확장률에 기초하여 입력 피처맵(501)을 복수의 서브 피처맵들(502)로 분할할 수 있다. 일 실시예에서 분할 장치(510)는 (확장률²)만큼의 서브 피처맵들(502)이 생성되도록 입력 피처맵(501)을 분할할 수 있다. 또한, 분할 장치(510)는 입력 피처맵(501) 내에서 (확장률 -1)만큼 이격되어 위치한 픽셀들이 하나의 서브 피처맵에 포함되도록 입력 피처맵(501)을 분할할 수 있다.

컨벌루션 연산기(520)에는 분할 장치(510)로부터 생성된 복수의 서브 피처맵들(502)과 기본 웨이트(505)가 입력될 수 있다. 컨벌루션 연산기(520)는 복수의 서브 피처맵들(502)과 기본 웨이트(505) 간의 컨벌루션 연산을 수행할 수 있다. 컨벌루션 연산기(520)는 복수의 서브 피처맵들(502) 각각에 대해 기본 웨이트(505)를 슬라이딩 윈도우 방식으로 시프트하면서, 복수의 서브 피처맵들(502)의 픽셀들과 기본 웨이트(505) 간의 컨벌루션 연산을 수행할 수 있다. 컨벌루션 연산기(520)는 복수의 서브 피처맵들(502)과 기본 웨이트(505) 간의 컨벌루션 연산을 수행함으로써 복수의 서브 피처맵들(502) 각각에 대응하는 복수의 중간 피처맵들(503)을 생성할 수 있다.

병합 장치(530)에는 컨벌루션 연산기(520)로부터 생성된 복수의 중간 피처맵들(503)이 입력될 수 있다. 병합 장치(530)는 확장률에 기초하여 복수의 중간 피처맵들(503)을 병합(merge)함으로써 출력 피처맵(504)을 생성할 수 있다. 병합 장치(530)는 복수의 중간 피처맵들(503) 각각에서 서로 인접하는 픽셀들이 출력 피처맵(504)에서 (확장률 - 1)만큼 이격되어 위치하도록, 복수의 중간 피처맵들(503)을 병합할 수 있다.

한편, 뉴럴 네트워크 장치(500)는 기본 웨이트(505) 대신 확장된 웨이트를 메모리로부터 획득할 수 있다. 이 경우, 뉴럴 네트워크 장치(500)는 확장률에 기초하여 확장된 웨이트를 기본 웨이트(505)로 복구(restore)할 수 있다. 도 3a를 참조하여 설명하면, 뉴럴 네트워크 장치(500)는 확장된 웨이트(320)의 제 2 픽셀들을 제거함으로써, 확장된 웨이트(320)를 제 1 픽셀들만으로 구성된 기본 웨이트(310, 505)로 복구할 수 있다. 뉴럴 네트워크 장치(500)는 복구된 기본 웨이트(310, 505)와 분할 장치(510)로부터 생성된 복수의 서브 피처맵들(502)을 컨벌루션 연산기(520)에 입력할 수 있다.

확장 컨벌루션 연산을 수행하는데 있어서, 일반 컨벌루션 연산에 이용되는 하드웨어를 이용할 경우 기본 웨이트를 확장시킨 확장된 웨이트를 사용해야 하며 컨벌루션 연산에 이용되지 않는 입력 피처맵의 픽셀들(즉, 도 3a 내지 도 3b의 제 2 픽셀들)까지 읽어와야 한다는 점에서 비효율적이다.

본 개시에서는 분할 장치(510), 컨벌루션 연산기(520) 및 병합 장치(530)를 포함하는 하드웨어를 이용함으로써 기본 웨이트를 확장된 웨이트로 확장시킬 필요가 없으며, 컨벌루션 연산에 실질적으로 이용되는 입력 피처맵의 픽셀들(즉, 복수의 서브 피처맵들(502) 각각의 픽셀들)만을 읽어와 확장 컨벌루션 연산을 수행할 수 있다는 점에서, 연산속도 및 전력 효율을 향상시킬 수 있다.

도 6은 일 실시예에 따른 서브 피처맵을 패딩하는 방법을 설명하기 위한 도면이다.

뉴럴 네트워크 장치는 확장률에 기초하여 입력 피처맵(610)을 복수의 중간 서브 피처맵들(621 내지 624)로 분할할 수 있다. 일 실시예에서 뉴럴 네트워크 장치는 (확장률²)만큼의 중간 서브 피처맵들(621 내지 624)이 생성되도록 입력 피처맵(610)을 분할할 수 있다. 또한, 뉴럴 네트워크 장치는 입력 피처맵(610) 내에서 (확장률 -1)만큼 이격되어 위치한 픽셀들이 하나의 중간 서브 피처맵에 포함되도록 입력 피처맵(610)을 분할할 수 있다.

도 6을 참조하면, 입력 피처맵(610)이 5x5 크기를 갖고 확장률이 '2'인 경우, 입력 피처맵(610)은 3x3 크기의 제 1 중간 서브 피처맵(621), 3x2 크기의 제 2 중간 서브 피처맵(622), 2x3 크기의 제 3 중간 서브 피처맵(623) 및 2x2 크기의 제 4 중간 서브 피처맵(624)으로 분할될 수 있다.

뉴럴 네트워크 장치는 복수의 중간 서브 피처맵들(621 내지 624) 각각의 크기를 기설정된 크기와 비교하고, 기설정된 크기보다 작은 중간 서브 피처맵의 크기가 기설정된 크기가 되도록 중간 서브 피처맵의 가장자리 중 적어도 일부를 소정의 값으로 패딩(padding)할 수 있다. 일 실시예에서 기설정된 크기는 복수의 중간 서브 피처맵들 중 가장 큰 중간 서브 피처맵의 크기일 수 있으나, 이에 제한되지 않는다.

도 6을 참조하면, 뉴럴 네트워크 장치는 기설정된 크기를 3x3(즉, 제 1 중간 서브 피처맵(621)의 크기)으로 설정하고, 3x3 보다 작은 제 2 내지 제 4 중간 서브 피처맵들(622 내지 624)의 가장자리를 '0'으로 패딩함으로써 복수의 최종 서브 피처맵들(631 내지 634)을 생성할 수 있다.

복수의 최종 서브 피처맵들(631 내지 634) 중, 제 1 최종 서브 피처맵(631)은 제 1 중간 서브 피처맵(621)과 동일하다. 한편, 제 2 중간 서브 피처맵(622)의 세 번째 열이 '0'으로 패딩되어 제 2 최종 서브 피처맵(632)이 생성되고, 제 3 중간 서브 피처맵(623)의 세 번째 행이 '0'으로 패딩되어 제 3 최종 서브 피처맵(633)이 생성되며, 제 4 중간 서브 피처맵(624)의 세 번째 열 및 세 번째 행이 '0'으로 패딩되어 제 4 최종 서브 피처맵(634)이 생성될 수 있다.

복수의 최종 서브 피처맵들(631 내지 634)이 생성된 후, 뉴럴 네트워크 장치는 복수의 최종 서브 피처맵들(631 내지 634)과 기본 웨이트 간의 컨벌루션 연산을 수행할 수 있다. 이하의 과정은 도 4 내지 5에서 자세히 상술하였으므로 편의상 생략하기로 한다.

도 7은 일 실시예에 따른 분할 장치 및 병합 장치의 연산 성능을 고려하여 확장 컨벌루션 연산을 수행하는 방법에 대한 흐름도이다.

일 실시예에서 분할 장치 및 병합 장치는 기설정된 임계값 이하의 확장률만을 지원하도록 설계될 수 있다. 이 때, 뉴럴 네트워크 장치는 분할 장치 및 병합 장치를 반복적으로 사용하여 임계값을 초과하는 확장률에 대해서도 확장 컨벌루션을 수행할 수 있다.

이하에서는, 뉴럴 네트워크 장치 내 분할 장치 및 병합 장치가 '2' 또는 '3'의 확장률만을 지원하도록 설계된 경우, 뉴럴 네트워크 장치에서 확장률이 '6'인 확장 컨벌루션이 수행되는 방법에 대해 설명하기로 한다.

먼저, 뉴럴 네트워크 장치는 참조 값(이하, r)을 '6'으로 설정할 수 있다.

도 7을 참조하면, 단계 711에서 뉴럴 네트워크 장치는 확장 컨벌루션을 수행하기 위한 r이 '1'인지 여부를 결정할 수 있다. r이 '1'이 아닌 경우 단계 712로 진행한다.

단계 712에서 뉴럴 네트워크 장치는 r이 '2'의 배수인지 여부를 결정할 수 있다. r이 '2'의 배수인 경우 단계 713으로 진행한다.

단계 713에서 뉴럴 네트워크 장치는 확장률을 '2'로 설정한 후 입력 피처맵을 복수의 서브 피처맵들로 분할할 수 있다. 확장률이 '2'인 경우, 입력 피처맵은 4개의 서브 피처맵들로 분할될 수 있다. 또한, 뉴럴 네트워크 장치는 r을 r/2로 업데이트한 후, 단계 711로 돌아가 r이 '1'인지 여부를 결정할 수 있다.

단계 712에서 r이 '2'의 배수가 아닌 경우 단계 714로 진행한다.

단계 714에서 뉴럴 네트워크 장치는 r이 '3'의 배수인지 여부를 결정할 수 있다. r이 '3'의 배수인 경우 단계 715로 진행한다.

단계 715에서 뉴럴 네트워크 장치는 확장률을 '3'으로 설정한 후 입력 피처맵을 복수의 서브 피처맵들로 분할할 수 있다. 확장률이 '3'인 경우, 입력 피처맵은 9개의 서브 피처맵들로 분할될 수 있다. 또한, 뉴럴 네트워크 장치는 r을 r/3로 업데이트한 후, 단계 711로 돌아가 r이 '1'인지 여부를 결정할 수 있다.

한편, 확장률에 따라 단계 713 및/또는 단계 715가 여러 번 수행될 수 있다.

예를 들어, 확장률이 '4'인 경우, 단계 713이 두 번 수행된다. 이 경우, 뉴럴 네트워크 장치는 먼저 단계 713에서 입력 피처맵을 4개의 제 1 서브 피처맵들로 분할하고, r을 '2(=4/2)'로 업데이트할 수 있다. 이후, 뉴럴 네트워크 장치는 다시 단계 713에서 4개의 제 1 서브 피처맵들 각각을 4개의 제 2 서브 피처맵들로 분할하고, r을 '1(=2/2)'로 업데이트할 수 있다. 즉, 단계 713이 두 번 수행된 결과, 총 16개의 제 2 서브 피처맵들이 생성될 수 있다. 상술한 과정을 통해 생성된 16개의 제 2 서브 피처맵들은, 확장률이 '4'인 경우를 지원하는 분할 장치에서 생성된 16개의 서브 피처맵들과 동일하다.

또는, 확장률이 '6'인 경우, 단계 713이 수행된 후 단계 715가 수행된다. 이 경우, 뉴럴 네트워크 장치는 먼저 단계 713에서 입력 피처맵을 4개의 제 1 서브 피처맵들로 분할하고, r을 '3(=6/2)'으로 업데이트할 수 있다. 이후, 뉴럴 네트워크 장치는 단계 715에서 4개의 제 1 서브 피처맵들 각각을 9개의 제 2 서브 피처맵들로 분할하고, r을 '1(=3/3)'로 업데이트할 수 있다. 즉, 단계 713 및 단계 715가 순차적으로 수행된 결과, 총 36개의 제 2 서브 피처맵들이 생성될 수 있다. 상술한 과정을 통해 생성된 36개의 제 2 서브 피처맵들은, 확장률이 '6'인 경우를 지원하는 분할 장치에서 생성된 36개의 서브 피처맵들과 동일하다.

단계 711에서 r이 '1'인 경우, 뉴럴 네트워크 장치는 단계 720으로 진행한다. 단계 720이 진행되는 경우, r은 초기 값으로 리셋(reset)된다. 즉, r은 초기 값 '6'으로 리셋될 수 있다.

단계 720에서 뉴럴 네트워크 장치는 컨벌루션 연산기를 이용하여 복수의 서브 피처맵들과 기본 웨이트 간의 컨벌루션 연산을 수행하고, 그 결과 복수의 중간 피처맵들이 생성된다.

컨벌루션 연산이 수행된 후, 단계 731에서 뉴럴 네트워크 장치는 확장 컨벌루션을 수행하기 위한 r이 '1'인지 여부를 결정할 수 있다. r이 '1'이 아닌 경우 단계 732로 진행한다.

단계 732에서 뉴럴 네트워크 장치는 r이 '3'의 배수인지 여부를 결정할 수 있다. r이 '3'의 배수인 경우 단계 733으로 진행한다.

단계 733에서 뉴럴 네트워크 장치는 확장률을 '3'로 설정한 후 복수의 중간 피처맵들을 출력 피처맵으로 병합할 수 있다. 또한, 뉴럴 네트워크 장치는 r을 r/3로 업데이트한 후, 단계 731로 돌아가 r이 '1'인지 여부를 결정할 수 있다.

단계 732에서 r이 '3'의 배수가 아닌 경우 단계 734로 진행한다.

단계 734에서 뉴럴 네트워크 장치는 r이 '2'의 배수인지 여부를 결정할 수 있다. r이 '2'의 배수인 경우 단계 735로 진행한다.

단계 735에서 뉴럴 네트워크 장치는 확장률을 '2'로 설정한 후 복수의 중간 피처맵들을 출력 피처맵으로 병합할 수 있다. 또한, 뉴럴 네트워크 장치는 r을 r/2로 업데이트한 후, 단계 731로 돌아가 r이 '1'인지 여부를 결정할 수 있다.

한편, 확장률에 따라 단계 733 및/또는 단계 735가 복수 번 수행될 수 있다.

예를 들어, 확장률이 '4'인 경우, 단계 735가 두 번 수행된다. 이 경우, 뉴럴 네트워크 장치는 먼저 단계 735에서 16개의 제 1 중간 피처맵들을 병합하여 4개의 제 2 중간 피처맵들을 생성하고, r을 '2(=4/2)'로 업데이트할 수 있다. 이후, 뉴럴 네트워크 장치는 다시 단계 735에서 4개의 제 2 중간 피처맵들을 병합하여 1개의 출력 피처맵을 생성하고, r을 '1(=2/2)'로 업데이트할 수 있다. 즉, 단계 735가 두 번 수행된 결과, 16개의 제 1 중간 피처맵들이 병합되어 1개의 출력 피처맵이 생성될 수 있다. 상술한 과정을 통해 생성된 출력 피처맵은, 확장률이 '4'인 경우를 지원하는 병합 장치에서 생성된 출력 피처맵과 동일하다.

또는, 확장률이 '6'인 경우, 단계 733이 수행된 후 단계 735가 수행된다. 이 경우, 뉴럴 네트워크 장치는 먼저 단계 733에서 36개의 제 1 중간 피처맵들을 병합하여 4개의 제 2 중간 피처맵들을 생성하고, r을 '2(=6/3)'로 업데이트할 수 있다. 이후, 뉴럴 네트워크 장치는 단계 735에서 4개의 제 2 서브 피처맵들을 병합하여 1개의 출력 피처맵을 생성하고, r을 '1(=2/2)'로 업데이트할 수 있다. 즉, 단계 733 및 단계 735가 순차적으로 수행된 결과, 36개의 제 1 중간 피처맵들이 병합되어 1개의 출력 피처맵이 생성될 수 있다. 상술한 과정을 통해 생성된 출력 피처맵은, 확장률이 '6'인 경우를 지원하는 병합 장치에서 생성된 출력 피처맵과 동일하다.

단계 731에서 r이 '1'인 경우, 뉴럴 네트워크 장치는 병합 단계를 종료하고 출력 피처맵을 결과 값으로 출력할 수 있다.

한편, 도 7에는 분할 장치 및 병합 장치가 '2' 또는 '3'의 확장률만을 지원하는 경우를 도시하고 있으나, 분할 장치 및 병합 장치가 지원하는 확장률의 종류 및 개수는 이에 제한되지 않는다.

도 8a 내지 도 8b는 일 실시예에 따른 분할 장치 및 병합 장치의 연산 성능을 고려하여 확장 컨벌루션 연산을 수행하는 방법을 설명하기 위한 도면이다.

이하에서는, 뉴럴 네트워크 장치가 '2' 또는 '3'의 확장률만을 지원하도록 설계된 경우, 뉴럴 네트워크 장치에서 확장 컨벌루션이 수행되는 방법에 대해 설명하기로 한다.

도 8a를 참조하면, 확장률이 '6'인 경우 24x24 크기의 입력 피처맵(810)을 복수의 서브 피처맵들로 분할할 수 있다. 먼저, 뉴럴 네트워크 장치는 참조 값(이하, r)을 '6'으로 설정할 수 있다.

뉴럴 네트워크 장치는 r이 2의 배수이므로 확장률을 '2'로 설정하여 24x24 크기의 입력 피처맵(810)을 12x12 크기의 4(=2²)개의 제 1 서브 피처맵들(821)로 분할할 수 있다. 확장률이 '2'로 설정된 상태이므로, 뉴럴 네트워크 장치는 입력 피처맵(810)에서 '1'만큼 이격되어 위치한 픽셀들이 하나의 제 1 서브 피처맵에 포함되도록 입력 피처맵(810)을 분할할 수 있다. 뉴럴 네트워크 장치는 제 1 서브 피처맵들(821)을 생성한 후, r을 '3(=r/2)'으로 업데이트할 수 있다.

다음으로, 업데이트된 r이 3의 배수이므로, 뉴럴 네트워크 장치는 확장률을 '3'으로 설정하여 12x12 크기의 4개의 제 1 서브 피처맵들(821) 각각을 4x4 크기의 9개의 제 2 서브 피처맵들(822)로 분할할 수 있다. 확장률이 '3'으로 설정된 상태이므로, 뉴럴 네트워크 장치는 제 1 서브 피처맵들(821)에서 '2'만큼 이격되어 위치한 픽셀들이 하나의 제 2 서브 피처맵에 포함되도록 제 1 서브 피처맵들(821)을 분할할 수 있다. 뉴럴 네트워크 장치는 제 2 서브 피처맵들(822)을 생성한 후, r을 '1(=확장률/3)'로 업데이트할 수 있다.

상술한 과정을 통해 생성된 4x4 크기의 36개의 제 2 서브 피처맵들(822)은, 확장률이 '6'인 경우를 지원하는 뉴럴 네트워크 장치에서 생성된 4x4 크기의 36개의 서브 피처맵들과 동일하다.

도 8b를 참조하면, 뉴럴 네트워크 장치는 4x4 크기의 36개의 제 2 서브 피처맵들(822)과 3x3 크기의 기본 웨이트 간의 컨벌루션 연산을 수행함으로써, 2x2 크기의 36개의 제 1 중간 피처맵들(831)을 생성할 수 있다.

뉴럴 네트워크 장치는 r을 다시 '6'으로 리셋할 수 있다. 또한, 뉴럴 네트워크 장치는 상술한 분할 과정의 역순으로 병합 과정을 진행할 수 있다.

뉴럴 네트워크 장치는 r이 3의 배수이므로 확장률을 '3'으로 설정할 수 있다. 뉴럴 네트워크 장치는 2x2 크기의 36개의 제 1 중간 피처맵들(831)을 병합하여 6x6 크기의 4개의 제 2 중간 피처맵들(832)을 생성할 수 있다. 확장률이 '3'으로 설정된 상태이므로, 뉴럴 네트워크 장치는 제 1 중간 피처맵들(831) 각각에서 서로 인접하는 픽셀들이 제 2 중간 피처맵들(832)에서 '2'만큼 이격되어 위치하도록, 제 1 중간 피처맵들(831)을 병합할 수 있다. 뉴럴 네트워크 장치는 제 2 중간 피처맵들(832)을 생성한 후, r을 '2(=확장률/3)'로 업데이트할 수 있다.

다음으로, 업데이트된 r이 2의 배수이므로, 뉴럴 네트워크 장치는 확장률을 '2'로 설정하여 장치는 6x6 크기의 4개의 제 2 중간 피처맵들(832)을 병합하여 12x12 크기의 출력 피처맵(840)을 생성할 수 있다. 확장률이 '2'로 설정된 상태이므로, 뉴럴 네트워크 장치는 제 2 중간 피처맵들(832) 각각에서 서로 인접하는 픽셀들이 출력 피처맵(840)에서 '1'만큼 이격되어 위치하도록, 제 2 중간 피처맵들(832)을 병합할 수 있다. 뉴럴 네트워크 장치는 출력 피처맵(840)을 생성한 후, r을 '1(=확장률/2)'로 업데이트할 수 있다.

상술한 과정을 통해 생성된 12x12 크기의 출력 피처맵(840)은, r이 '6'인 경우를 지원하는 뉴럴 네트워크 장치에서 생성된 12x12 크기의 출력 피처맵과 동일하다.

도 9는 일 실시예에 따른 뉴럴 네트워크 장치의 하드웨어 구성을 도시한 블록도이다.

뉴럴 네트워크 장치(900)는 PC(personal computer), 서버 디바이스, 모바일 디바이스, 임베디드 디바이스 등의 다양한 종류의 디바이스들로 구현될 수 있고, 구체적인 예로서 뉴럴 네트워크를 이용한 음성 인식, 영상 인식, 영상 분류 등을 수행하는 스마트폰, 태블릿 디바이스, AR(Augmented Reality) 디바이스, IoT(Internet of Things) 디바이스, 자율주행 자동차, 로보틱스, 의료기기 등에 해당될 수 있으나, 이에 제한되지 않는다. 나아가서, 뉴럴 네트워크 장치(900)는 위와 같은 디바이스에 탑재되는 전용 하드웨어 가속기(HW accelerator)에 해당될 수 있고, 뉴럴 네트워크 장치(900)는 뉴럴 네트워크 구동을 위한 전용 모듈인 NPU(neural processing unit), TPU(Tensor Processing Unit), Neural Engine 등과 같은 하드웨어 가속기일 수 있으나, 이에 제한되지 않는다.

도 9를 참조하면, 뉴럴 네트워크 장치(900)는 프로세서(910) 및 메모리(920)를 포함한다. 도 9에 도시된 뉴럴 네트워크 장치(900)에는 본 실시예들와 관련된 구성요소들만이 도시되어 있다. 따라서, 뉴럴 네트워크 장치(900)에는 도 9에 도시된 구성요소들 외에 다른 범용적인 구성요소들이 더 포함될 수 있음은 당해 기술분야의 통상의 기술자에게 자명하다.

프로세서(910)는 뉴럴 네트워크 장치(900)를 실행하기 위한 전반적인 기능들을 제어하는 역할을 한다. 예를 들어, 프로세서(910)는 뉴럴 네트워크 장치(900) 내의 메모리(920)에 저장된 프로그램들을 실행함으로써, 뉴럴 네트워크 장치(900)를 전반적으로 제어한다. 프로세서(910)는 뉴럴 네트워크 장치(900) 내에 구비된 CPU(central processing unit), GPU(graphics processing unit), AP(application processor) 등으로 구현될 수 있으나, 이에 제한되지 않는다.

메모리(920)는 뉴럴 네트워크 장치(900) 내에서 처리되는 각종 데이터들을 저장하는 하드웨어로서, 예를 들어, 메모리(920)는 뉴럴 네트워크 장치(900)에서 처리된 데이터들 및 처리될 데이터들을 저장할 수 있다. 또한, 메모리(920)는 뉴럴 네트워크 장치(900)에 의해 구동될 애플리케이션들, 드라이버들 등을 저장할 수 있다. 메모리(920)는 DRAM(dynamic random access memory), SRAM(static random access memory) 등과 같은 RAM(random access memory), ROM(read-only memory), EEPROM(electrically erasable programmable read-only memory), CD-ROM, 블루레이 또는 다른 광학 디스크 스토리지, HDD(hard disk drive), SSD(solid state drive), 또는 플래시 메모리를 포함할 수 있다.

프로세서(910)는 메모리(920)로부터 뉴럴 네트워크 데이터, 예를 들어 이미지 데이터, 피처맵 데이터, 웨이트 데이터 등을 리드/라이트(read/write)하고, 리드/라이트된 데이터를 이용하여 뉴럴 네트워크를 실행한다. 뉴럴 네트워크가 실행될 때, 프로세서(910)는 출력 피처맵에 관한 데이터를 생성하기 위하여, 입력 피처맵과 웨이트 간의 컨벌루션 연산을 반복적으로 수행한다. 이때, 입력 피처맵의 채널 수, 웨이트의 채널 수, 입력 피처맵의 크기, 웨이트의 크기, 값의 정밀도(precision) 등의 다양한 팩터들에 의존하여 컨벌루션 연산의 연산량이 결정될 수 있다. 도 1에 도시된 뉴럴 네트워크(1)와 달리, 뉴럴 네트워크 장치(900)에서 구동되는 실제 뉴럴 네트워크는 보다 복잡한 아키텍처로 구현될 수 있다. 이에 따라 프로세서(910)는 수억에서 수백억에 다다를 정도로 매우 많은 연산량(operation count)의 컨벌루션 연산들을 수행하게 되고, 프로세서(910)가 컨벌루션 연산을 위해 메모리(920)에 액세스하는 빈도가 함께 비약적으로 증가될 수 밖에 없다. 이와 같은 연산량 부담으로 인하여 비교적 처리 성능이 낮은 스마트폰, 태블릿, 웨어러블 디바이스 등과 같은 모바일 디바이스, 임베디드(embedded) 디바이스 등에서는 뉴럴 네트워크의 처리가 원활하지 않을 수 있다.

한편, 뉴럴 네트워크에서 웨이트는 부동 소수점(floating point) 타입의 웨이트 또는 고정 소수점(fixed point) 타입의 웨이트를 갖거나, 바이너리(binary)-웨이트 웨이트 또는 터너리(ternary)-웨이트 웨이트에 해당될 수도 있다. 즉, 뉴럴 네트워크에서 웨이트는 뉴럴 네트워크의 활용 목적, 디바이스의 성능 등 다양한 요인들을 고려하여 다양하게 정의될 수 있다.

프로세서(910)는 확장 컨벌루션 네트워크를 구동할 수 있다. 프로세서(910)는 분할 장치, 컨벌루션 연산기 및 병합 장치를 포함할 수 있다. 분할 장치는 확장률에 기초하여 입력 피처맵을 복수의 서브 피처맵들로 분할(split)할 수 있다. 컨벌루션 연산기는 복수의 서브 피처맵들과 기본 웨이트 간의 컨벌루션 연산을 수행할 수 있다. 병합 장치는 확장률에 기초하여 복수의 중간 피처맵들을 병합(merge)함으로써 출력 피처맵을 생성할 수 있다.

도 10은 일 실시예에 따른 뉴럴 네트워크 장치에서 확장 컨벌루션 연산을 수행하는 방법의 흐름도이다.

도 10에 도시된, 뉴럴 네트워크 장치에서 확장 컨벌루션(dilated convolution) 연산을 수행하는 방법은, 앞서 설명된 도면들에서 설명된 실시예들에 관련되므로, 이하 생략된 내용이라 할지라도, 앞서 도면들에서 설명된 내용들은 도 10의 방법에도 적용될 수 있다.

도 10을 참조하면, 단계 1010에서 뉴럴 네트워크 장치는 입력 피처맵(feature map) 및 기본 웨이트(weight)를 획득할 수 있다.

뉴럴 네트워크 장치는 입력 피처맵 및 기본 웨이트를 메모리로부터 획득하거나, 외부로부터 할 수 있다.

일 실시예에서 뉴럴 네트워크 장치는 기본 웨이트 대신 확장된 웨이트를 획득할 수 있다. 이 경우, 뉴럴 네트워크 장치는 확장률에 기초하여 확장된 웨이트를 기본 웨이트로 복구(restore)할 수 있다.

단계 1020에서 뉴럴 네트워크 장치는 확장률(dilation rate)에 기초하여 입력 피처맵을 복수의 서브 피처맵들로 분할(split)할 수 있다.

복수의 서브 피처맵들에서 서로 인접하는 픽셀들은, 입력 피처맵에서 (확장률 - 1)만큼 이격되어 위치하는 픽셀들일 수 있다.

일 실시예에서 뉴럴 네트워크 장치는 복수의 서브 피처맵들 각각의 크기를 기설정된 크기와 비교할 수 있다. 비교 결과 적어도 하나의 서브 피처맵의 크기가 기설정된 크기 보다 작은 경우, 뉴럴 네트워크 장치는 적어도 하나의 서브 피처맵의 크기가 기설정된 크기가 되도록, 적어도 하나의 서브 피처맵의 가장자리 중 적어도 일부를 소정의 값으로 패딩(padding)할 수 있다.

한편, 단계 1020은 뉴럴 네트워크 장치에 포함된 분할 장치에 의해 수행될 수 있다.

단계 1030에서 뉴럴 네트워크 장치는 복수의 서브 피처맵들과 기본 웨이트 간의 컨벌루션 연산을 수행함으로써 복수의 중간 피처맵들을 생성할 수 있다.

단계 1040에서 뉴럴 네트워크 장치는 확장률에 기초하여 복수의 중간 피처맵들을 병합(merge)함으로써 출력 피처맵을 생성할 수 있다.

복수의 중간 피처맵들 각각에서 서로 인접하는 픽셀들은, 출력 피처맵에서 (확장률 - 1)만큼 이격되어 위치하는 픽셀들일 수 있다.

한편, 단계 1040은 뉴럴 네트워크 장치에 포함된 병합 장치에 의해 수행될 수 있다.

본 실시예들은 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈과 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.

또한, 본 명세서에서, "부"는 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.

전술한 본 명세서의 설명은 예시를 위한 것이며, 본 명세서의 내용이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 실시예의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 포함되는 것으로 해석되어야 한다.

Claims

확장 컨벌루션(dilated convolution) 연산을 수행하는 뉴럴 네트워크 장치에 있어서,
적어도 하나의 프로그램이 저장된 메모리; 및
상기 적어도 하나의 프로그램을 실행함으로써 뉴럴 네트워크를 구동하는 적어도 하나의 프로세서를 포함하고,
상기 적어도 하나의 프로세서는,
입력 피처맵(feature map) 및 기본 웨이트(weight)를 상기 메모리로부터 획득하고,
확장률(dilation rate)에 기초하여 상기 입력 피처맵을 복수의 서브 피처맵들로 분할(split)하고,
상기 복수의 서브 피처맵들과 상기 기본 웨이트 간의 컨벌루션 연산을 수행함으로써 복수의 중간 피처맵들을 생성하며,
상기 확장률에 기초하여 상기 복수의 중간 피처맵들을 병합(merge)함으로써 출력 피처맵을 생성하는 것인, 뉴럴 네트워크 장치.
제 1 항에 있어서,
상기 복수의 서브 피처맵들에서 서로 인접하는 픽셀들은, 상기 입력 피처맵에서 상기 확장률 - 1만큼 이격되어 위치하는 것인, 뉴럴 네트워크 장치.
제 1 항에 있어서,
상기 적어도 하나의 프로세서는,
상기 복수의 서브 피처맵들 각각의 크기를 기설정된 크기와 비교하며,
적어도 하나의 서브 피처맵의 크기가 상기 기설정된 크기 보다 작은 경우, 상기 기설정된 크기가 되도록 상기 적어도 하나의 서브 피처맵의 가장자리 중 적어도 일부를 소정의 값으로 패딩(padding)하는 것인, 뉴럴 네트워크 장치.
제 1 항에 있어서,
상기 복수의 중간 피처맵들 각각에서 서로 인접하는 픽셀들은, 상기 출력 피처맵에서 상기 확장률 - 1만큼 이격되어 위치하는 것인, 뉴럴 네트워크 장치.
제 1 항에 있어서,
상기 적어도 하나의 프로세서에는 분할 장치 및 병합 장치가 포함되고,
상기 분할 장치는 확장률에 기초하여 상기 입력 피처맵을 복수의 서브 피처맵들로 분할하며, 상기 병합 장치는 상기 확장률에 기초하여 상기 복수의 중간 피처맵들을 병합함으로써 출력 피처맵을 생성하는 것인, 뉴럴 네트워크 장치.
제 5 항에 있어서,
상기 적어도 하나의 프로세서는,
상기 확장률과 임계값을 비교하고,
상기 확장률이 임계값을 초과하는 경우, 상기 확장률을 소정의 값으로 나눔으로써 상기 확장률을 업데이트하고, 상기 소정의 값에 기초하여 상기 입력 피처맵을 복수의 서브 피처맵들로 분할하는 것인, 뉴럴 네트워크 장치.
제 5 항에 있어서,
상기 적어도 하나의 프로세서는,
상기 확장률과 임계값을 비교하고,
상기 확장률이 임계값을 초과하는 경우, 상기 확장률을 소정의 값으로 나눔으로써 상기 확장률을 업데이트하고, 상기 소정의 값에 기초하여 상기 복수의 중간 피처맵들을 병합함으로써 출력 피처맵을 생성하는 것인, 뉴럴 네트워크 장치.
제 1 항에 있어서,
상기 적어도 하나의 프로세서에는 컨벌루션 연산기가 포함되고,
상기 컨벌루션 연산기는 상기 복수의 서브 피처맵들과 상기 기본 웨이트 간의 컨벌루션 연산을 수행하는 것인, 뉴럴 네트워크 장치.
제 1 항에 있어서,
상기 적어도 하나의 프로세서는,
확장 웨이트(dilated weight)를 메모리로부터 획득하고,
상기 확장률에 기초하여 상기 확장 웨이트를 기본 웨이트로 복구하는 것인, 뉴럴 네트워크 장치.
뉴럴 네트워크 장치에서 확장 컨벌루션 연산을 수행하는 방법에 있어서,
입력 피처맵 및 기본 웨이트를 획득하는 단계;
확장률에 기초하여 상기 입력 피처맵을 복수의 서브 피처맵들로 분할하는 단계;
상기 복수의 서브 피처맵들과 상기 기본 웨이트 간의 컨벌루션 연산을 수행함으로써 복수의 중간 피처맵들을 생성하는 단계; 및
상기 확장률에 기초하여 상기 복수의 중간 피처맵들을 병합함으로써 출력 피처맵을 생성하는 단계;
를 포함하는, 방법.
제 10 항에 있어서,
상기 복수의 서브 피처맵들에서 서로 인접하는 픽셀들은, 상기 입력 피처맵에서 상기 확장률 - 1만큼 이격되어 위치하는 것인, 방법.
제 10 항에 있어서,
상기 분할하는 단계는,
상기 복수의 서브 피처맵들 각각의 크기를 기설정된 크기와 비교하는 단계; 및
적어도 하나의 서브 피처맵의 크기가 상기 기설정된 크기 보다 작은 경우, 상기 기설정된 크기가 되도록 상기 적어도 하나의 서브 피처맵의 가장자리 중 적어도 일부를 소정의 값으로 패딩하는 단계;
를 더 포함하는, 방법.
제 10 항에 있어서,
상기 복수의 중간 피처맵들 각각에서 서로 인접하는 픽셀들은, 상기 출력 피처맵에서 상기 확장률 - 1만큼 이격되어 위치하는 것인, 방법.
제 10 항에 있어서,
상기 분할하는 단계는,
상기 확장률과 임계값을 비교하는 단계; 및
상기 확장률이 임계값을 초과하는 경우, 상기 확장률을 소정의 값으로 나눔으로써 상기 확장률을 업데이트하고, 상기 소정의 값에 기초하여 상기 입력 피처맵을 복수의 서브 피처맵들로 분할하는 단계;
를 포함하는, 방법.
제 10 항에 있어서,
상기 분할하는 단계는,
상기 확장률과 임계값을 비교하는 단계; 및
상기 확장률이 임계값을 초과하는 경우, 상기 확장률을 소정의 값으로 나눔으로써 상기 확장률을 업데이트하고, 상기 소정의 값에 기초하여 상기 복수의 중간 피처맵들을 병합함으로써 출력 피처맵을 생성하는 단계;
를 포함하는, 방법.
제 13 항에 있어서,
상기 획득하는 단계는,
상기 입력 피처맵 및 확장 웨이트를 메모리로부터 획득하는 단계; 및
상기 확장률에 기초하여 상기 확장 웨이트를 기본 웨이트로 복구하는 단계;
를 포함하는, 방법.
제 10 항의 방법을 컴퓨터에서 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.