WO2023080292A1 - 딥러닝 가속장치를 위한 적응적 파라미터 생성 장치 및 방법 - Google Patents

딥러닝 가속장치를 위한 적응적 파라미터 생성 장치 및 방법 Download PDF

Info

Publication number
WO2023080292A1
WO2023080292A1 PCT/KR2021/016094 KR2021016094W WO2023080292A1 WO 2023080292 A1 WO2023080292 A1 WO 2023080292A1 KR 2021016094 W KR2021016094 W KR 2021016094W WO 2023080292 A1 WO2023080292 A1 WO 2023080292A1
Authority
WO
WIPO (PCT)
Prior art keywords
deep learning
data
learning model
quantization parameter
poisson distribution
Prior art date
Application number
PCT/KR2021/016094
Other languages
English (en)
French (fr)
Inventor
이상설
박종희
장성준
성민용
Original Assignee
한국전자기술연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자기술연구원 filed Critical 한국전자기술연구원
Publication of WO2023080292A1 publication Critical patent/WO2023080292A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Definitions

  • the present invention relates to a deep learning accelerator, and more particularly, to a technique for optimizing a deep learning model trained on a server for use in a deep learning accelerator.
  • Quantization may be required for a case where the new device does not support the data representation of the data used for learning and the deep learning model parameters generated as a result of learning.
  • the present invention has been made to solve the above problems, and an object of the present invention is to lighten the data to be used for learning by a new device and the deep learning model parameters generated as a result of learning into data supported by the new device. in providing a way.
  • a deep learning model processing method includes calculating a Poisson distribution of data; calculating a quantization parameter based on the calculated Poisson distribution; quantizing data and deep learning model parameters with the calculated quantization parameter; and training a deep learning model using the quantized data and the deep learning model parameters.
  • the deep learning model may be run in a processor of a device after being learned with training data in a server and tested with test data.
  • the quantization parameter may be determined based on the data representation of the processor.
  • the quantization parameter may be a parameter for quantizing the number of bits of data and deep learning model parameters to the number of operation bits supported by the processor.
  • the data may include only test data excluding training data.
  • the calculation step may include setting an effective range of data in the calculated Poisson distribution; Dividing the effective range into multiple intervals; It may include; assigning a quantization parameter to the divided sections.
  • Quantization parameters may include scale and bias.
  • the deep learning accelerator includes a calculation unit for calculating a Poisson distribution of data; a quantization unit that calculates a quantization parameter based on the calculated Poisson distribution and quantizes data and deep learning model parameters with the calculated quantization parameter; and a processor for training a deep learning model using the quantized data and deep learning model parameters.
  • the new device As described above, according to the embodiments of the present invention, it is to reduce the data to be processed by the new device by excluding the training data and using only the test data as the data to be used for re-learning the deep learning model by the new device. it becomes possible
  • quantization parameters for the data to be used for the deep learning model and the deep learning model parameters are calculated based on the Poisson distribution, thereby excluding the training data and re-learning using only the test data. Even in this case, performance with minimum loss can be secured.
  • 1 is a diagram provided to explain a deep learning model driving method using an NPU
  • 2 is a parameter distribution diagram for learning model data
  • FIG. 3 is a diagram showing the structure of a deep learning accelerator according to an embodiment of the present invention.
  • FIG. 4 is a flowchart provided to explain a deep learning model retraining method according to another embodiment of the present invention.
  • NPU Neural Processing Unit
  • 1 is a diagram provided to explain a deep learning model driving method using an NPU. As shown, the inference process requires weights and parameters for operating the NPU. Since most NPUs operate with extremely refined bits (INT8, INT4, FP8, FP16, etc.) other than FP32, learning data and learning results from the server cannot be used as they are.
  • ONNX Open Neural Network Exchange
  • ONNX Open Neural Network Exchange
  • the ONNX model usually performs quantization using Min-Max values, or performs quantization by converting parameters to different scales in non-uniform sections.
  • the environment to be applied is an environment in which all data sets are not provided from the outside, and in order to guarantee optimal performance of the inferencer, if the data to be approximated is determined by receiving the operation bit number and scale information supported by the NPU, the Phenotypes and zeroing points can be determined.
  • the deep learning accelerator according to an embodiment of the present invention includes a Poisson distribution calculation unit 110, a quantization unit 120, and an NPU 130.
  • the NPU 130 is a processor for training a deep learning model and performing inference with the learned deep learning model.
  • the NPU 130 utilizes data and learning results used in the learning server that trained the deep learning model.
  • the Poisson distribution calculator 110 calculates a Poisson distribution for data used by the learning server to train the deep learning model.
  • the quantization unit 120 calculates a quantization parameter based on the Poisson distribution calculated by the Poisson distribution calculation unit 110, and quantizes data to be used for deep learning model learning and deep learning model parameters with the calculated quantization parameter. .
  • the quantization parameter calculated by the quantization unit 120 is determined based on the data representation of the NPU. That is, the quantization parameter is determined as a parameter for quantizing the number of bits of data to be input to the deep learning model and the parameters of the deep learning model to the number of operation bits supported by the NPU.
  • a process of updating parameters of a deep learning model to be used as an inference model in the NPU 130 of the deep learning accelerator shown in FIG. 3 according to the NPU 130 will be described in detail with reference to FIG. 4 below.
  • FIG. 4 is a flowchart provided to explain a deep learning model retraining method according to another embodiment of the present invention.
  • the deep learning model is trained and tested in the learning server (S210). Deep learning model parameters are optimally set by learning and testing in step S210.
  • the learning server that trains the deep learning model in step S210 has high-performance computing power and abundant resources compared to the deep learning accelerator 100. Learning is performed using training data, and testing is performed using test data, and the test data is smaller than the training data.
  • the deep learning model is loaded into the deep learning accelerator (S220).
  • the model has the same structure as the deep learning model learned by the learning server in step S210, it is in a non-learning state.
  • the Poisson distribution calculator 110 calculates a Poisson distribution for the test data used in step S210 (S230).
  • Data used for calculating the Poisson distribution in step S230 includes only test data excluding training data. Since a large amount of training data is excluded and only a small amount of test data is subject to calculation, there is no burden on the deep learning accelerator.
  • the quantization unit 120 calculates a quantization parameter based on the Poisson distribution calculated in step S230 (S240).
  • the quantization parameters calculated in step S240 include scale and bias.
  • step S240 an effective range of data is set in the Poisson distribution calculated in step S230, the set effective range is divided into a plurality of sections, and a quantization parameter is assigned to each of the divided sections.
  • the quantization unit 120 quantizes the test data used in step S210 and the deep learning model parameters generated by learning in step S210 using the quantization parameter calculated in step S240 (S250).
  • the NPU 130 uses the quantized test data and deep learning model parameters in step S250 to train the deep learning model loaded in step S220 (S260). Specifically, quantized model parameters are transferred to a deep learning model and trained with quantized test data. As a result, the loaded deep learning model is optimized for the NPU 130 of the deep learning accelerator.
  • data to be processed in the new device is lightened and data to be used in the deep learning model is reduced by excluding training data and using only test data as data to be used by the new device for re-learning the deep learning model.
  • the technical spirit of the present invention can also be applied to a computer-readable recording medium containing a computer program for performing the functions of the apparatus and method according to the present embodiment.
  • technical ideas according to various embodiments of the present invention may be implemented in the form of computer readable codes recorded on a computer readable recording medium.
  • the computer-readable recording medium may be any data storage device that can be read by a computer and store data.
  • the computer-readable recording medium may be ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical disk, hard disk drive, and the like.
  • computer readable codes or programs stored on a computer readable recording medium may be transmitted through a network connected between computers.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Neurology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

딥러닝 가속장치를 위한 적응적 파라미터 생성 장치 및 방법이 제공된다. 본 발명의 실시예에 따른 딥러닝 모델 처리 방법은, 데이터들의 푸아송 분포를 산출하고, 산출된 푸아송 분포를 기초로 양자화 파라미터를 계산하며, 계산된 양자화 파라미터로 데이터들과 딥러닝 모델 파라미터들을 양자화하고, 양자화된 데이터들과 딥러닝 모델 파라미터들을 이용하여 딥러닝 모델을 학습시킨다. 이에 의해, 딥러닝 모델에 이용할 데이터들과 딥러닝 모델 파라미터에 대한 양자화 파라미터를 푸아송 분포를 기초로 산출함으로써, 학습 데이터들을 배제하고 테스트 데이터들만을 이용하여 재학습하는 경우에도 최소 손실을 갖는 성능을 확보할 수 있게 된다.

Description

딥러닝 가속장치를 위한 적응적 파라미터 생성 장치 및 방법
본 발명은 딥러닝 가속장치에 관한 것으로, 더욱 상세하게는 서버에서 학습이 완료된 딥러닝 모델을 딥러닝 가속장치에 사용하기 위해 최적화하는 기술에 관한 것이다.
서버에서 학습이 완료된 모델을 신규 디바이스에 동작시키기 위해서는 학습에 사용된 모든 데이터 및 테스트에 사용된 모든 데이터를 이용하여 딥러닝 파라미터 재생성을 위한 재학습을 수행하여야 한다.
즉 신규 디바이스의 딥러닝 모델에 대해 재학습을 수행하여 최소한의 성능 손실을 갖는 딥러닝 파라미터를 생성한 후 최종 어플리케이션에 업데이트하는 형태로 개발하고 있다.
신규 디바이스가 학습에 이용하였던 데이터들과 학습 결과로 생성된 딥러닝 모델 파라미터의 데이터 표현형을 지원하지 않는 경우를 위해 양자화가 필요할 수 있다.
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 신규 디바이스가 학습에 이용할 데이터들과 학습 결과로 생성된 딥러닝 모델 파라미터를 신규 디바이스에서 지원하는 데이터로 경량화하기 위한 방법을 제공함에 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 딥러닝 모델 처리 방법은, 데이터들의 푸아송 분포를 산출하는 단계; 산출된 푸아송 분포를 기초로, 양자화 파라미터를 계산하는 단계; 계산된 양자화 파라미터로 데이터들과 딥러닝 모델 파라미터들을 양자화하는 단계; 및 양자화된 데이터들과 딥러닝 모델 파라미터들을 이용하여, 딥러닝 모델을 학습시키는 단계;를 포함한다.
딥러닝 모델은, 서버에서 학습 데이터들로 학습되고 테스트 데이터들로 테스트된 후에 디바이스의 프로세서에서 구동될 수 있다.
그리고 양자화 파라미터는, 프로세서의 데이터 표현형을 기초로 결정 될 수 있다.
양자화 파라미터는, 데이터들과 딥러닝 모델 파라미터들의 비트수를 프로세서에서 지원하는 연산 비트수로 양자화하기 위한 파라미터일 수 있다.
또한 데이터들은, 학습 데이터들을 제외한 테스트 데이터들만을 포함할 수 있다.
계산 단계는, 산출된 푸아송 분포에서 데이터들의 유효 범위를 설정하는 단계; 유효 범위를 다수의 구간들로 분할하는 단계; 분할된 구간들에 양자화 파라미터를 부여하는 단계;를 포함할 수 있다.
양자화 파라미터는, 스케일과 바이어스를 포함할 수 있다.
한편, 본 발명의 다른 실시예에 따른, 딥러닝 가속장치는, 데이터들의 푸아송 분포를 산출하는 산출부; 산출된 푸아송 분포를 기초로, 양자화 파라미터를 계산하고, 계산된 양자화 파라미터로 데이터들과 딥러닝 모델 파라미터들을 양자화하는 양자화부; 및 양자화된 데이터들과 딥러닝 모델 파라미터들을 이용하여, 딥러닝 모델을 학습시키는 프로세서;를 포함한다.
이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, 신규 디바이스가 딥러닝 모델의 재학습에 이용할 데이터들로 학습 데이터들을 배제하고 테스트 데이터들만을 이용함으로써, 신규 디바이스에서 처리할 데이터를 경량화하는 것이 가능해진다.
또한, 본 발명의 실시예들에 따르면, 딥러닝 모델에 이용할 데이터들과 딥러닝 모델 파라미터에 대한 양자화 파라미터를 푸아송 분포를 기초로 산출함으로써, 학습 데이터들을 배제하고 테스트 데이터들만을 이용하여 재학습하는 경우에도 최소 손실을 갖는 성능을 확보할 수 있게 된다.
도 1은 NPU를 이용한 딥러닝 모델 구동 방법의 설명에 제공되는 도면,
도 2는 학습 모델 데이터에 대한 파라미터 분포도,
도 3은 본 발명의 일 실시예에 따른 딥러닝 가속장치의 구조를 도시한 도면,
도 4는 본 발명의 다른 실시예에 따른 딥러닝 모델 재학습 방법의 설명에 제공되는 흐름도이다.
이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.
디바이스에서 딥러닝 모델은 NPU(Neural Processing Unit)라고 하는 프로세서에서 학습되고 구동된다. 고성능 GPU와 많은 양의 메모리를 보유하고 있는 서버 와 달리 리소스와 파워가 제한적인 소형 디바이스의 경우 필요한 연산량과 메모리 사용량을 줄이는 방법으로 하드웨어가 개발되고 있다.
도 1은 NPU를 이용한 딥러닝 모델 구동 방법의 설명에 제공되는 도면이다. 도시된 바와 같이, 추론(Inference) 과정에서는 Weight와 NPU를 동작시키기 위한 파라미터를 필요로 한다. NPU는 FP32 외에 극도로 정제된 비트(INT8, INT4, FP8, FP16 등)로의 동작이 대부분이어서, 서버에서의 학습 데이터와 학습 결과를 그대로 이용할 수는 없다.
이를 위하여 대부분 양자화(Quantization) 과정을 거치게 되는데 양자화를 거치게 되면, 데이터들은 모델이 필요로 하는 데이터 포맷 외에 스케일(Scale)과 제로 포인트(Zero point) 생성을 위한 바이어스(Bias)를 포함하는 데이터로 변화하게 된다.
데이터 양자화는 딥러닝 모델에서 주로 시용되는 ONNX(Open Neural Network Exchange) 모델로 수행할 수 있다. 특히, ONNX 모델의 경우 Fixed point 처리를 위한 모델 변환에도 유용하게 사용할 수 있어, 현재 많은 개발 환경의 다른 함수들을 변환할 수 있는 거의 유일한 방법이기도 하다. 그러나, ONNX 변환만으로는 모든 환경에서 구동할 수는 없다. 구동하는 시스템에 맞는 함수, 데이터 표현형 변환을 필요로 한다.
ONNX 모델은 NPU-Aware 한 파라미터 생성을 위하여 보통은 Min-Max 값을 이용하여 양자화를 수행하거나, Non-uniform한 구간에서는 파라미터를 서로 다른 스케일로 변환하여 양자화를 수행한다.
그러나, 실제로 성능을 확인하기 위한 공개된 데이터셋 외에 일반적인 카메라로부터 입력된 연속된 데이터셋을 이용하는 객체 분류/객체 인식 등을 위한 NPU에서 시간에 따라 유효한 파라미터 분포도를 보면, 도 2에 도시된 바와 같이 시간이 증가함에 따라 단위 시간 안에 유사한 위치에서 유효한 데이터가 발생하는 확률이 푸아송 분포(Poisson Distribution)을 보임을 실험적으로 확인할 수 있었다.
즉, 기존 학습된 데이터 셋 없이 테스트 데이터 셋 만을 이용하여 데이터 분포에서 원하는 수준의 값만을 유지(data-free self-quantization)하는 결과를 얻을 수 있음을 알아 내었다.
Figure PCTKR2021016094-appb-img-000001
위 식은 아래 식(이항분포)에서 n이 무한대로 갔을 때의 극한을 이용하여 유도하면 위와 같이 간단한 수식으로 변경된다.
Figure PCTKR2021016094-appb-img-000002
λ = n × p (평균 적용되는 value), x : 실제 적용된 값
이에 따라, 적용할 환경이 외부에서 모든 데이터 셋을 제공받지 못하는 환경으로, 최적의 추론기 성능을 보장하기 위하여 NPU에서 지원하는 연산 비트수 및 스케일 정보를 입력받아 근사시킬 데이터를 판단하면 최적의 데이터 표현형 및 0으로 없애는 포인트를 결정할 수 있다.
실험을 통하여 확인한 결과 특정 비트로 양자화 시 확률분포에서 n이 15보다 크고 p가 0.04보다 작으면, 근사화 했을 때 큰 열화 없이 데이터 표현이 가능하며, 성능 열화가 적음을 확인하였다.
이는 n과 p에 따른 확률 분포의 그래프가 보통의 푸아송 분포를 가지지 못할 경우 성능의 열화가 크게 나타나게 되므로, 푸아송 분포와 이항 분포의 확률 질량함수가 유사한 경우가 최적의 파라미터 생성 조건이 된다. 푸아송 분포는 이항 분포를 근사화 시킨 형태로, 이항 분포에 가까울수록 높은 성능이 기대된다. 두 개의 분포사이의 distance는 간단히 L1-norm/L2-norm 등의 간단한 연산만을 이용하여 구할 수 있다.
그러므로, 푸아송 분포를 기반으로 NPU에 맞는 양자화를 수행하고, PE(Processing Element)에 맞게 데이터를 적절히 나눠서 파라미터를 분리해 주면 다양한 NPU에서도 이용가능한(NPU-aware) 적응적 파라미터 생성이 가능하게 될 것이다.
도 3은 본 발명의 일 실시예에 따른 딥러닝 가속장치의 구조를 도시한 도면이다. 본 발명의 실시예에 따른 딥러닝 가속장치는, 도시된 바와 같이, 푸아송 분포 산출부(110), 양자화부(120) 및 NPU(130)를 포함하여 구성된다.
NPU(130)는 딥러닝 모델을 학습시키고, 학습된 딥러닝 모델로 추론을 수행하기 위한 프로세서이다. 딥러닝 모델 학습시, NPU(130)는 딥러닝 모델을 학습시킨 학습 서버에서 이용한 데이터들과 학습 결과를 활용한다.
푸아송 분포 산출부(110)는 학습 서버가 딥러닝 모델을 학습시키는데 이용한 데이터들에 대한 푸아송 분포를 산출한다.
양자화부(120)는 푸아송 분포 산출부(110)에서 산출된 푸아송 분포를 기초로 양자화 파라미터를 계산하고, 계산한 양자화 파라미터로 딥러닝 모델 학습에 이용할 데이터들과 딥러닝 모델 파라미터들을 양자화한다.
양자화부(120)에 의해 계산되는 양자화 파라미터는 NPU의 데이터 표현형을 기초로 결정된다. 즉, 양자화 파라미터는 딥러닝 모델로 입력할 데이터들과 딥러닝 모델 파라미터들의 비트수를 NPU에서 지원하는 연산 비트수로 양자화하기 위한 파라미터로 결정된다.
도 3에 도시된 딥러닝 가속장치의 NPU(130)에서 추론 모델로 기능할 딥러닝 모델의 파라미터들을 NPU(130)에 맞게 업데이트 하는 과정에 대해, 이하에서 도 4를 참조하여 상세히 설명한다.
도 4는 본 발명의 다른 실시예에 따른 딥러닝 모델 재학습 방법의 설명에 제공되는 흐름도이다.
도시된 바와 같이, 먼저 딥러닝 모델을 학습 서버에서 학습시키고 테스트한다(S210). S210단계의 학습과 테스트에 의해 딥러닝 모델 파라미터가 최적으로 설정된다.
S210단계에서 딥러닝 모델을 학습시키는 학습 서버는 딥러닝 가속장치(100)에 비해 고성능의 컴퓨팅 파워와 풍부한 리소스를 보유하고 있다. 학습은 학습 데이터를 이용하여, 테스트는 테스트 데이터를 이용하여 수행되며, 테스트 데이터는 학습 데이터에 비해 소량이다.
이후, 딥러닝 모델을 딥러닝 가속장치에 탑재한다(S220). S210단계에서 학습 서버에 의해 학습된 딥러닝 모델과 동일한 구조의 모델이지만 학습이 되지 않은 상태이다.
푸아송 분포 산출부(110)는 S210단계에서 이용된 테스트 데이터들에 대한 푸아송 분포를 산출한다(S230). S230단계에서 푸아송 분포 산출에 이용되는 데이터들은 학습 데이터들을 제외하고 테스트 데이터들만을 포함한다. 방대한 양인 학습 데이터들이 배제되고 소량의 테스트 데이터들만 연산 대상이 되므로, 딥러닝 가속장치에 부담이 없다.
다음, 양자화부(120)는 S230단계에서 산출된 푸아송 분포를 기초로 양자화 파라미터를 계산한다(S240). S240단계에서 계산되는 양자화 파라미터에는 스케일과 바이어스를 포함한다.
S240단계에서는 S230단계에서 산출된 푸아송 분포에서 데이터들의 유효 범위를 설정하고, 설정한 유효 범위를 다수의 구간들로 분할하여, 분할된 구간들에 양자화 파라미터를 각각 부여하는 방식으로 수행된다.
이후, 양자화부(120)는 S240단계에서 계산된 양자화 파라미터를 이용하여, S210단계에서 이용된 테스트 데이터들과 S210단계에서의 학습으로 생성된 딥러닝 모델 파라미터들을 양자화한다(S250).
그러면, NPU(130)는 S250단계에서 양자화된 테스트 데이터들과 딥러닝 모델 파라미터들을 이용하여, S220단계에서 탑재된 딥러닝 모델을 학습시킨다(S260). 구체적으로, 양자화된 모델 파라미터들을 딥러닝 모델에 전이시키고, 양자화된 테스트 데이터들로 학습시키게 된다. 이에 의해, 탑재된 딥러닝 모델은 딥러닝 가속장치의 NPU(130)에 맞게 최적화 된다.
지금까지, 딥러닝 가속장치의 딥러닝 모델을 최적화 하는 방법에 대해 바람직한 실시예를 들어 상세히 설명하였다.
본 발명의 실시예들에서는, 신규 디바이스가 딥러닝 모델의 재학습에 이용할 데이터들로 학습 데이터들을 배제하고 테스트 데이터들만을 이용함으로써, 신규 디바이스에서 처리할 데이터를 경량화하고, 딥러닝 모델에 이용할 데이터들과 딥러닝 모델 파라미터에 대한 양자화 파라미터를 푸아송 분포를 기초로 산출함으로써, 학습 데이터들을 배제하고 테스트 데이터들만을 이용하여 재학습하는 경우에도 최소 손실을 갖는 성능을 확보할 수 있도록 하였다.
한편, 본 실시예에 따른 장치와 방법의 기능을 수행하게 하는 컴퓨터 프로그램을 수록한 컴퓨터로 읽을 수 있는 기록매체에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다. 또한, 본 발명의 다양한 실시예에 따른 기술적 사상은 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터로 읽을 수 있는 코드 형태로 구현될 수도 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터에 의해 읽을 수 있고 데이터를 저장할 수 있는 어떤 데이터 저장 장치이더라도 가능하다. 예를 들어, 컴퓨터로 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광디스크, 하드 디스크 드라이브, 등이 될 수 있음은 물론이다. 또한, 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터로 읽을 수 있는 코드 또는 프로그램은 컴퓨터간에 연결된 네트워크를 통해 전송될 수도 있다.
또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

Claims (8)

  1. 데이터들의 푸아송 분포를 산출하는 단계;
    산출된 푸아송 분포를 기초로, 양자화 파라미터를 계산하는 단계;
    계산된 양자화 파라미터로 데이터들과 딥러닝 모델 파라미터들을 양자화하는 단계; 및
    양자화된 데이터들과 딥러닝 모델 파라미터들을 이용하여, 딥러닝 모델을 학습시키는 단계;를 포함하는 것을 특징으로 하는 딥러닝 모델 처리 방법.
  2. 청구항 1에 있어서,
    딥러닝 모델은,
    서버에서 학습 데이터들로 학습되고 테스트 데이터들로 테스트된 후에 디바이스의 프로세서에서 구동되는 것을 특징으로 하는 딥러닝 모델 처리 방법.
  3. 청구항 2에 있어서,
    양자화 파라미터는,
    프로세서의 데이터 표현형을 기초로 결정되는 것을 특징으로 하는 딥러닝 모델 처리 방법.
  4. 청구항 3에 있어서,
    양자화 파라미터는,
    데이터들과 딥러닝 모델 파라미터들의 비트수를 프로세서에서 지원하는 연산 비트수로 양자화하기 위한 파라미터인 것을 특징으로 하는 딥러닝 모델 처리 방법.
  5. 청구항 2에 있어서,
    데이터들은,
    학습 데이터들을 제외한 테스트 데이터들만을 포함하는 것을 특징으로 하는 딥러닝 모델 처리 방법.
  6. 청구항 1에 있어서,
    계산 단계는,
    산출된 푸아송 분포에서 데이터들의 유효 범위를 설정하는 단계;
    유효 범위를 다수의 구간들로 분할하는 단계;
    분할된 구간들에 양자화 파라미터를 부여하는 단계;를 포함하는 것을 특징으로 하는 딥러닝 모델 처리 방법.
  7. 청구항 6에 있어서,
    양자화 파라미터는,
    스케일과 바이어스를 포함하는 것을 특징으로 하는 딥러닝 모델 처리 방법.
  8. 데이터들의 푸아송 분포를 산출하는 산출부;
    산출된 푸아송 분포를 기초로, 양자화 파라미터를 계산하고, 계산된 양자화 파라미터로 데이터들과 딥러닝 모델 파라미터들을 양자화하는 양자화부; 및
    양자화된 데이터들과 딥러닝 모델 파라미터들을 이용하여, 딥러닝 모델을 학습시키는 프로세서;를 포함하는 것을 특징으로 하는 딥러닝 가속장치.
PCT/KR2021/016094 2021-11-08 2021-11-08 딥러닝 가속장치를 위한 적응적 파라미터 생성 장치 및 방법 WO2023080292A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210151957A KR20230066700A (ko) 2021-11-08 2021-11-08 딥러닝 가속장치를 위한 적응적 파라미터 생성 장치 및 방법
KR10-2021-0151957 2021-11-08

Publications (1)

Publication Number Publication Date
WO2023080292A1 true WO2023080292A1 (ko) 2023-05-11

Family

ID=86241697

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/016094 WO2023080292A1 (ko) 2021-11-08 2021-11-08 딥러닝 가속장치를 위한 적응적 파라미터 생성 장치 및 방법

Country Status (2)

Country Link
KR (1) KR20230066700A (ko)
WO (1) WO2023080292A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008547327A (ja) * 2005-06-22 2008-12-25 クゥアルコム・インコーポレイテッド Edge無線システムにおけるビット誤り確率(bep)の推定
KR20190014900A (ko) * 2017-08-04 2019-02-13 삼성전자주식회사 뉴럴 네트워크의 파라미터들을 양자화하는 방법 및 장치
CN109635938A (zh) * 2018-12-29 2019-04-16 电子科技大学 一种自主学习脉冲神经网络权值量化方法
KR20190076916A (ko) * 2017-12-22 2019-07-02 서울대학교산학협력단 이상치를 고려한 뉴럴네트워크 가속 방법 및 장치
KR20210004306A (ko) * 2019-07-04 2021-01-13 삼성전자주식회사 뉴럴 네트워크 장치 및 뉴럴 네트워크의 파라미터 양자화 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008547327A (ja) * 2005-06-22 2008-12-25 クゥアルコム・インコーポレイテッド Edge無線システムにおけるビット誤り確率(bep)の推定
KR20190014900A (ko) * 2017-08-04 2019-02-13 삼성전자주식회사 뉴럴 네트워크의 파라미터들을 양자화하는 방법 및 장치
KR20190076916A (ko) * 2017-12-22 2019-07-02 서울대학교산학협력단 이상치를 고려한 뉴럴네트워크 가속 방법 및 장치
CN109635938A (zh) * 2018-12-29 2019-04-16 电子科技大学 一种自主学习脉冲神经网络权值量化方法
KR20210004306A (ko) * 2019-07-04 2021-01-13 삼성전자주식회사 뉴럴 네트워크 장치 및 뉴럴 네트워크의 파라미터 양자화 방법

Also Published As

Publication number Publication date
KR20230066700A (ko) 2023-05-16

Similar Documents

Publication Publication Date Title
US20190205094A1 (en) Mixed-precision processing elements, systems, and methods for computational models
CN109344893B (zh) 一种基于移动终端的图像分类方法
CN112465138A (zh) 模型蒸馏方法、装置、存储介质及设备
CN110969251A (zh) 基于无标签数据的神经网络模型量化方法及装置
WO2022146080A1 (ko) 딥러닝 네트워크의 동적 양자화 정밀도 가변 알고리즘 및 방법
US11625583B2 (en) Quality monitoring and hidden quantization in artificial neural network computations
CN112596697A (zh) 使用分解的分量数字的浮点乘法硬件
CN112860402A (zh) 一种深度学习推理服务的动态批处理任务调度方法及***
CN113971733A (zh) 一种基于超图结构的模型训练方法、分类方法及装置
CN114036051A (zh) 测试方法、装置、设备以及存储介质
WO2020165629A1 (en) Quality monitoring and hidden quantization in artificial neural network computations
Huai et al. Latency-constrained DNN architecture learning for edge systems using zerorized batch normalization
CN114444476A (zh) 信息处理方法、装置和计算机可读存储介质
WO2023080292A1 (ko) 딥러닝 가속장치를 위한 적응적 파라미터 생성 장치 및 방법
WO2022124449A1 (ko) 유전자 알고리즘을 이용한 경량 인공지능 알고리즘의 하이퍼 파라미터 최적화 방법
US20200242445A1 (en) Generic quantization of artificial neural networks
WO2020153597A1 (ko) 다단계 분류모델 생성 방법 및 그 장치
EP4227850A1 (en) Program, learning method, and information processing apparatus
WO2020091139A1 (ko) 시뮬레이션-가이드된 반복적 프루닝을 사용하는 효율적인 네트워크 압축
WO2022107910A1 (ko) 재학습 가능한 모바일 딥러닝 하드웨어 장치
US20200242473A1 (en) Generic quantization of artificial neural networks
WO2023033194A1 (ko) 가지치기 기반 심층 신경망 경량화에 특화된 지식 증류 방법 및 시스템
CN115346072A (zh) 图像分类模型的训练方法及装置、电子设备和存储介质
WO2023085457A1 (ko) 효율적인 딥러닝 학습을 위한 메모리 구조 및 제어 방법
CN110852361B (zh) 基于改进深度神经网络的图像分类方法、装置与电子设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21963392

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE