WO2023080292A1

WO2023080292A1 - 딥러닝 가속장치를 위한 적응적 파라미터 생성 장치 및 방법

Info

Publication number: WO2023080292A1
Application number: PCT/KR2021/016094
Authority: WO
Inventors: 이상설; 박종희; 장성준; 성민용
Original assignee: 한국전자기술연구원
Priority date: 2021-11-08
Filing date: 2021-11-08
Publication date: 2023-05-11
Also published as: KR20230066700A

Abstract

딥러닝 가속장치를 위한 적응적 파라미터 생성 장치 및 방법이 제공된다. 본 발명의 실시예에 따른 딥러닝 모델 처리 방법은, 데이터들의 푸아송 분포를 산출하고, 산출된 푸아송 분포를 기초로 양자화 파라미터를 계산하며, 계산된 양자화 파라미터로 데이터들과 딥러닝 모델 파라미터들을 양자화하고, 양자화된 데이터들과 딥러닝 모델 파라미터들을 이용하여 딥러닝 모델을 학습시킨다. 이에 의해, 딥러닝 모델에 이용할 데이터들과 딥러닝 모델 파라미터에 대한 양자화 파라미터를 푸아송 분포를 기초로 산출함으로써, 학습 데이터들을 배제하고 테스트 데이터들만을 이용하여 재학습하는 경우에도 최소 손실을 갖는 성능을 확보할 수 있게 된다.

Description

딥러닝 가속장치를 위한 적응적 파라미터 생성 장치 및 방법

본 발명은 딥러닝 가속장치에 관한 것으로, 더욱 상세하게는 서버에서 학습이 완료된 딥러닝 모델을 딥러닝 가속장치에 사용하기 위해 최적화하는 기술에 관한 것이다.

서버에서 학습이 완료된 모델을 신규 디바이스에 동작시키기 위해서는 학습에 사용된 모든 데이터 및 테스트에 사용된 모든 데이터를 이용하여 딥러닝 파라미터 재생성을 위한 재학습을 수행하여야 한다.

즉 신규 디바이스의 딥러닝 모델에 대해 재학습을 수행하여 최소한의 성능 손실을 갖는 딥러닝 파라미터를 생성한 후 최종 어플리케이션에 업데이트하는 형태로 개발하고 있다.

신규 디바이스가 학습에 이용하였던 데이터들과 학습 결과로 생성된 딥러닝 모델 파라미터의 데이터 표현형을 지원하지 않는 경우를 위해 양자화가 필요할 수 있다.

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 신규 디바이스가 학습에 이용할 데이터들과 학습 결과로 생성된 딥러닝 모델 파라미터를 신규 디바이스에서 지원하는 데이터로 경량화하기 위한 방법을 제공함에 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 딥러닝 모델 처리 방법은, 데이터들의 푸아송 분포를 산출하는 단계; 산출된 푸아송 분포를 기초로, 양자화 파라미터를 계산하는 단계; 계산된 양자화 파라미터로 데이터들과 딥러닝 모델 파라미터들을 양자화하는 단계; 및 양자화된 데이터들과 딥러닝 모델 파라미터들을 이용하여, 딥러닝 모델을 학습시키는 단계;를 포함한다.

딥러닝 모델은, 서버에서 학습 데이터들로 학습되고 테스트 데이터들로 테스트된 후에 디바이스의 프로세서에서 구동될 수 있다.

그리고 양자화 파라미터는, 프로세서의 데이터 표현형을 기초로 결정 될 수 있다.

양자화 파라미터는, 데이터들과 딥러닝 모델 파라미터들의 비트수를 프로세서에서 지원하는 연산 비트수로 양자화하기 위한 파라미터일 수 있다.

또한 데이터들은, 학습 데이터들을 제외한 테스트 데이터들만을 포함할 수 있다.

계산 단계는, 산출된 푸아송 분포에서 데이터들의 유효 범위를 설정하는 단계; 유효 범위를 다수의 구간들로 분할하는 단계; 분할된 구간들에 양자화 파라미터를 부여하는 단계;를 포함할 수 있다.

양자화 파라미터는, 스케일과 바이어스를 포함할 수 있다.

한편, 본 발명의 다른 실시예에 따른, 딥러닝 가속장치는, 데이터들의 푸아송 분포를 산출하는 산출부; 산출된 푸아송 분포를 기초로, 양자화 파라미터를 계산하고, 계산된 양자화 파라미터로 데이터들과 딥러닝 모델 파라미터들을 양자화하는 양자화부; 및 양자화된 데이터들과 딥러닝 모델 파라미터들을 이용하여, 딥러닝 모델을 학습시키는 프로세서;를 포함한다.

이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, 신규 디바이스가 딥러닝 모델의 재학습에 이용할 데이터들로 학습 데이터들을 배제하고 테스트 데이터들만을 이용함으로써, 신규 디바이스에서 처리할 데이터를 경량화하는 것이 가능해진다.

또한, 본 발명의 실시예들에 따르면, 딥러닝 모델에 이용할 데이터들과 딥러닝 모델 파라미터에 대한 양자화 파라미터를 푸아송 분포를 기초로 산출함으로써, 학습 데이터들을 배제하고 테스트 데이터들만을 이용하여 재학습하는 경우에도 최소 손실을 갖는 성능을 확보할 수 있게 된다.

도 1은 NPU를 이용한 딥러닝 모델 구동 방법의 설명에 제공되는 도면,

도 2는 학습 모델 데이터에 대한 파라미터 분포도,

도 3은 본 발명의 일 실시예에 따른 딥러닝 가속장치의 구조를 도시한 도면,

도 4는 본 발명의 다른 실시예에 따른 딥러닝 모델 재학습 방법의 설명에 제공되는 흐름도이다.

이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.

디바이스에서 딥러닝 모델은 NPU(Neural Processing Unit)라고 하는 프로세서에서 학습되고 구동된다. 고성능 GPU와 많은 양의 메모리를 보유하고 있는 서버 와 달리 리소스와 파워가 제한적인 소형 디바이스의 경우 필요한 연산량과 메모리 사용량을 줄이는 방법으로 하드웨어가 개발되고 있다.

도 1은 NPU를 이용한 딥러닝 모델 구동 방법의 설명에 제공되는 도면이다. 도시된 바와 같이, 추론(Inference) 과정에서는 Weight와 NPU를 동작시키기 위한 파라미터를 필요로 한다. NPU는 FP32 외에 극도로 정제된 비트(INT8, INT4, FP8, FP16 등)로의 동작이 대부분이어서, 서버에서의 학습 데이터와 학습 결과를 그대로 이용할 수는 없다.

이를 위하여 대부분 양자화(Quantization) 과정을 거치게 되는데 양자화를 거치게 되면, 데이터들은 모델이 필요로 하는 데이터 포맷 외에 스케일(Scale)과 제로 포인트(Zero point) 생성을 위한 바이어스(Bias)를 포함하는 데이터로 변화하게 된다.

데이터 양자화는 딥러닝 모델에서 주로 시용되는 ONNX(Open Neural Network Exchange) 모델로 수행할 수 있다. 특히, ONNX 모델의 경우 Fixed point 처리를 위한 모델 변환에도 유용하게 사용할 수 있어, 현재 많은 개발 환경의 다른 함수들을 변환할 수 있는 거의 유일한 방법이기도 하다. 그러나, ONNX 변환만으로는 모든 환경에서 구동할 수는 없다. 구동하는 시스템에 맞는 함수, 데이터 표현형 변환을 필요로 한다.

ONNX 모델은 NPU-Aware 한 파라미터 생성을 위하여 보통은 Min-Max 값을 이용하여 양자화를 수행하거나, Non-uniform한 구간에서는 파라미터를 서로 다른 스케일로 변환하여 양자화를 수행한다.

그러나, 실제로 성능을 확인하기 위한 공개된 데이터셋 외에 일반적인 카메라로부터 입력된 연속된 데이터셋을 이용하는 객체 분류/객체 인식 등을 위한 NPU에서 시간에 따라 유효한 파라미터 분포도를 보면, 도 2에 도시된 바와 같이 시간이 증가함에 따라 단위 시간 안에 유사한 위치에서 유효한 데이터가 발생하는 확률이 푸아송 분포(Poisson Distribution)을 보임을 실험적으로 확인할 수 있었다.

즉, 기존 학습된 데이터 셋 없이 테스트 데이터 셋 만을 이용하여 데이터 분포에서 원하는 수준의 값만을 유지(data-free self-quantization)하는 결과를 얻을 수 있음을 알아 내었다.

위 식은 아래 식(이항분포)에서 n이 무한대로 갔을 때의 극한을 이용하여 유도하면 위와 같이 간단한 수식으로 변경된다.

λ = n × p (평균 적용되는 value), x : 실제 적용된 값

이에 따라, 적용할 환경이 외부에서 모든 데이터 셋을 제공받지 못하는 환경으로, 최적의 추론기 성능을 보장하기 위하여 NPU에서 지원하는 연산 비트수 및 스케일 정보를 입력받아 근사시킬 데이터를 판단하면 최적의 데이터 표현형 및 0으로 없애는 포인트를 결정할 수 있다.

실험을 통하여 확인한 결과 특정 비트로 양자화 시 확률분포에서 n이 15보다 크고 p가 0.04보다 작으면, 근사화 했을 때 큰 열화 없이 데이터 표현이 가능하며, 성능 열화가 적음을 확인하였다.

이는 n과 p에 따른 확률 분포의 그래프가 보통의 푸아송 분포를 가지지 못할 경우 성능의 열화가 크게 나타나게 되므로, 푸아송 분포와 이항 분포의 확률 질량함수가 유사한 경우가 최적의 파라미터 생성 조건이 된다. 푸아송 분포는 이항 분포를 근사화 시킨 형태로, 이항 분포에 가까울수록 높은 성능이 기대된다. 두 개의 분포사이의 distance는 간단히 L1-norm/L2-norm 등의 간단한 연산만을 이용하여 구할 수 있다.

그러므로, 푸아송 분포를 기반으로 NPU에 맞는 양자화를 수행하고, PE(Processing Element)에 맞게 데이터를 적절히 나눠서 파라미터를 분리해 주면 다양한 NPU에서도 이용가능한(NPU-aware) 적응적 파라미터 생성이 가능하게 될 것이다.

도 3은 본 발명의 일 실시예에 따른 딥러닝 가속장치의 구조를 도시한 도면이다. 본 발명의 실시예에 따른 딥러닝 가속장치는, 도시된 바와 같이, 푸아송 분포 산출부(110), 양자화부(120) 및 NPU(130)를 포함하여 구성된다.

NPU(130)는 딥러닝 모델을 학습시키고, 학습된 딥러닝 모델로 추론을 수행하기 위한 프로세서이다. 딥러닝 모델 학습시, NPU(130)는 딥러닝 모델을 학습시킨 학습 서버에서 이용한 데이터들과 학습 결과를 활용한다.

푸아송 분포 산출부(110)는 학습 서버가 딥러닝 모델을 학습시키는데 이용한 데이터들에 대한 푸아송 분포를 산출한다.

양자화부(120)는 푸아송 분포 산출부(110)에서 산출된 푸아송 분포를 기초로 양자화 파라미터를 계산하고, 계산한 양자화 파라미터로 딥러닝 모델 학습에 이용할 데이터들과 딥러닝 모델 파라미터들을 양자화한다.

양자화부(120)에 의해 계산되는 양자화 파라미터는 NPU의 데이터 표현형을 기초로 결정된다. 즉, 양자화 파라미터는 딥러닝 모델로 입력할 데이터들과 딥러닝 모델 파라미터들의 비트수를 NPU에서 지원하는 연산 비트수로 양자화하기 위한 파라미터로 결정된다.

도 3에 도시된 딥러닝 가속장치의 NPU(130)에서 추론 모델로 기능할 딥러닝 모델의 파라미터들을 NPU(130)에 맞게 업데이트 하는 과정에 대해, 이하에서 도 4를 참조하여 상세히 설명한다.

도시된 바와 같이, 먼저 딥러닝 모델을 학습 서버에서 학습시키고 테스트한다(S210). S210단계의 학습과 테스트에 의해 딥러닝 모델 파라미터가 최적으로 설정된다.

S210단계에서 딥러닝 모델을 학습시키는 학습 서버는 딥러닝 가속장치(100)에 비해 고성능의 컴퓨팅 파워와 풍부한 리소스를 보유하고 있다. 학습은 학습 데이터를 이용하여, 테스트는 테스트 데이터를 이용하여 수행되며, 테스트 데이터는 학습 데이터에 비해 소량이다.

이후, 딥러닝 모델을 딥러닝 가속장치에 탑재한다(S220). S210단계에서 학습 서버에 의해 학습된 딥러닝 모델과 동일한 구조의 모델이지만 학습이 되지 않은 상태이다.

푸아송 분포 산출부(110)는 S210단계에서 이용된 테스트 데이터들에 대한 푸아송 분포를 산출한다(S230). S230단계에서 푸아송 분포 산출에 이용되는 데이터들은 학습 데이터들을 제외하고 테스트 데이터들만을 포함한다. 방대한 양인 학습 데이터들이 배제되고 소량의 테스트 데이터들만 연산 대상이 되므로, 딥러닝 가속장치에 부담이 없다.

다음, 양자화부(120)는 S230단계에서 산출된 푸아송 분포를 기초로 양자화 파라미터를 계산한다(S240). S240단계에서 계산되는 양자화 파라미터에는 스케일과 바이어스를 포함한다.

S240단계에서는 S230단계에서 산출된 푸아송 분포에서 데이터들의 유효 범위를 설정하고, 설정한 유효 범위를 다수의 구간들로 분할하여, 분할된 구간들에 양자화 파라미터를 각각 부여하는 방식으로 수행된다.

이후, 양자화부(120)는 S240단계에서 계산된 양자화 파라미터를 이용하여, S210단계에서 이용된 테스트 데이터들과 S210단계에서의 학습으로 생성된 딥러닝 모델 파라미터들을 양자화한다(S250).

그러면, NPU(130)는 S250단계에서 양자화된 테스트 데이터들과 딥러닝 모델 파라미터들을 이용하여, S220단계에서 탑재된 딥러닝 모델을 학습시킨다(S260). 구체적으로, 양자화된 모델 파라미터들을 딥러닝 모델에 전이시키고, 양자화된 테스트 데이터들로 학습시키게 된다. 이에 의해, 탑재된 딥러닝 모델은 딥러닝 가속장치의 NPU(130)에 맞게 최적화 된다.

지금까지, 딥러닝 가속장치의 딥러닝 모델을 최적화 하는 방법에 대해 바람직한 실시예를 들어 상세히 설명하였다.

본 발명의 실시예들에서는, 신규 디바이스가 딥러닝 모델의 재학습에 이용할 데이터들로 학습 데이터들을 배제하고 테스트 데이터들만을 이용함으로써, 신규 디바이스에서 처리할 데이터를 경량화하고, 딥러닝 모델에 이용할 데이터들과 딥러닝 모델 파라미터에 대한 양자화 파라미터를 푸아송 분포를 기초로 산출함으로써, 학습 데이터들을 배제하고 테스트 데이터들만을 이용하여 재학습하는 경우에도 최소 손실을 갖는 성능을 확보할 수 있도록 하였다.

한편, 본 실시예에 따른 장치와 방법의 기능을 수행하게 하는 컴퓨터 프로그램을 수록한 컴퓨터로 읽을 수 있는 기록매체에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다. 또한, 본 발명의 다양한 실시예에 따른 기술적 사상은 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터로 읽을 수 있는 코드 형태로 구현될 수도 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터에 의해 읽을 수 있고 데이터를 저장할 수 있는 어떤 데이터 저장 장치이더라도 가능하다. 예를 들어, 컴퓨터로 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광디스크, 하드 디스크 드라이브, 등이 될 수 있음은 물론이다. 또한, 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터로 읽을 수 있는 코드 또는 프로그램은 컴퓨터간에 연결된 네트워크를 통해 전송될 수도 있다.

또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

Claims

데이터들의 푸아송 분포를 산출하는 단계;

산출된 푸아송 분포를 기초로, 양자화 파라미터를 계산하는 단계;

계산된 양자화 파라미터로 데이터들과 딥러닝 모델 파라미터들을 양자화하는 단계; 및

양자화된 데이터들과 딥러닝 모델 파라미터들을 이용하여, 딥러닝 모델을 학습시키는 단계;를 포함하는 것을 특징으로 하는 딥러닝 모델 처리 방법.
청구항 1에 있어서,

딥러닝 모델은,

서버에서 학습 데이터들로 학습되고 테스트 데이터들로 테스트된 후에 디바이스의 프로세서에서 구동되는 것을 특징으로 하는 딥러닝 모델 처리 방법.
청구항 2에 있어서,

양자화 파라미터는,

프로세서의 데이터 표현형을 기초로 결정되는 것을 특징으로 하는 딥러닝 모델 처리 방법.
청구항 3에 있어서,

양자화 파라미터는,

데이터들과 딥러닝 모델 파라미터들의 비트수를 프로세서에서 지원하는 연산 비트수로 양자화하기 위한 파라미터인 것을 특징으로 하는 딥러닝 모델 처리 방법.
청구항 2에 있어서,

데이터들은,

학습 데이터들을 제외한 테스트 데이터들만을 포함하는 것을 특징으로 하는 딥러닝 모델 처리 방법.
청구항 1에 있어서,

계산 단계는,

산출된 푸아송 분포에서 데이터들의 유효 범위를 설정하는 단계;

유효 범위를 다수의 구간들로 분할하는 단계;

분할된 구간들에 양자화 파라미터를 부여하는 단계;를 포함하는 것을 특징으로 하는 딥러닝 모델 처리 방법.
청구항 6에 있어서,

양자화 파라미터는,

스케일과 바이어스를 포함하는 것을 특징으로 하는 딥러닝 모델 처리 방법.
데이터들의 푸아송 분포를 산출하는 산출부;

산출된 푸아송 분포를 기초로, 양자화 파라미터를 계산하고, 계산된 양자화 파라미터로 데이터들과 딥러닝 모델 파라미터들을 양자화하는 양자화부; 및

양자화된 데이터들과 딥러닝 모델 파라미터들을 이용하여, 딥러닝 모델을 학습시키는 프로세서;를 포함하는 것을 특징으로 하는 딥러닝 가속장치.