KR20190129422A - Method and device for variational interference using neural network - Google Patents

Method and device for variational interference using neural network Download PDF

Info

Publication number
KR20190129422A
KR20190129422A KR1020180054047A KR20180054047A KR20190129422A KR 20190129422 A KR20190129422 A KR 20190129422A KR 1020180054047 A KR1020180054047 A KR 1020180054047A KR 20180054047 A KR20180054047 A KR 20180054047A KR 20190129422 A KR20190129422 A KR 20190129422A
Authority
KR
South Korea
Prior art keywords
neural network
function
variable
inference
value
Prior art date
Application number
KR1020180054047A
Other languages
Korean (ko)
Other versions
KR102110316B1 (en
Inventor
백명희조
권용찬
Original Assignee
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단 filed Critical 서울대학교산학협력단
Priority to KR1020180054047A priority Critical patent/KR102110316B1/en
Publication of KR20190129422A publication Critical patent/KR20190129422A/en
Application granted granted Critical
Publication of KR102110316B1 publication Critical patent/KR102110316B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

Disclosed are a variational inference method using a neural network and a device thereof. The method includes the following steps of: calculating uncertainty quantification in regard to a probability estimate value of an inference output value, while an epistemic uncertainty term and an aleatory uncertainty term with a plurality of distribution values of inference output; and calculating the uncertainty quantification based on the sum of the epistemic uncertainty term and the aleatory uncertainty term, while calculating the uncertainty quantification through an equation (here, t indicates T sampling indexes from 1 to T). Therefore, the present invention is capable of making learning less difficult by removing unnecessary parameters.

Description

뉴럴 네트워크를 이용한 변분 추론 방법 및 장치{METHOD AND DEVICE FOR VARIATIONAL INTERFERENCE USING NEURAL NETWORK}METHOD AND DEVICE FOR VARIATIONAL INTERFERENCE USING NEURAL NETWORK}

본 발명은 뉴럴 네트워크를 이용한 변분 추론 방법 및 추론 장치에 관한 것이다. 보다 상세하게는, 뉴럴 네트워크의 입력 변수(input variable) 집합에 속한 각 원소 값들에 대해 웨이트 및 바이어스를 포함하는 소정의 변분 모수를 이용하여 소정의 연산을 수행하여 생성된 하나 이상의 은닉층을 거쳐 상기 뉴럴 네트워크의 추론 출력 값을 산출하는,

Figure pat00001
: X -> Y로 정의(여기서
Figure pat00002
는 입력 변수 집합 X의 원소인 x에 대하여 W를 모수로 가지는 뉴럴 네트워크의 출력 값이고, 상기 함수
Figure pat00003
는 입력 변수 집합 X를 정의역으로 목표 변수 집합 Y를 공역으로 가진다)되는 뉴럴 네트워크를 이용한 변분 추론 방법에 있어서, (a) 학습용 입력 변수 및 목표 변수를 입력받고, 소정의 학습용 출력
Figure pat00004
를 산출한 후, 상기 입력 변수와 상기 학습용 출력 값을 참조로 하여 로스를 최소화하도록 상기 변분 모수를 최적화하는 학습 단계를 거친 상태에서, 서버가, 테스트용 입력 변수 x 에 상기 뉴럴 네트워크의 함수
Figure pat00005
를 적용하여 상기 추론 출력
Figure pat00006
를 산출하되, 상기 테스트용 입력 변수에 상기 변분 모수의 구성의 변경에 따라 상기 뉴럴 네트워크의 상기 추론 출력
Figure pat00007
산출 과정을 다수 회 반복 수행하여, 다수의 출력 출력의 분포 값들을 산출하는 단계; 및 (b) 상기 서버가, 상기 추론 출력값의 확률 추정치에 대한 불확정성 수량화를 산출하되, 상기 산출된 다수의 추론 출력
Figure pat00008
의 분포 값들을 이용하여 epistemic 불확정성 항과 aleatory 불확정성 항을 각각 산출하고, 산출된 상기 epistemic 불확정성 항과 상기 aleatory 불확정성 항의 합으로 상기 불확정성 수량화를 산출하는 단계; 를 포함하며, 여기서, 상기 Aleatory 불확정성 항은 샘플 사이즈가 커져도 기설정된 수치 이하로 줄어들지 않은 항으로, EVPV(expected value of the process variance) 항인 E(Var(Y|X))을 추정하기 위한 항이고, 상기 Epistemic 불확정성 항은 샘플 사이즈가 커지면 상기 기설정된 수치 이하로 줄어드는 항으로 VHM(variance of the hypothetical means) 항인 Var(E(Y|X))을 추정하기 위한 항인 것을 특징으로 하는 뉴럴 네트워크를 이용한 변분 추론 방법 및 장치에 관한 것이다. The present invention relates to a variable reasoning method and a reasoning apparatus using a neural network. More specifically, the neural network is passed through one or more hidden layers generated by performing a predetermined operation using predetermined variable parameters including weights and biases for respective element values belonging to a set of input variables of a neural network. To calculate the inference output of the network,
Figure pat00001
: Defined as X-> Y, where
Figure pat00002
Is an output value of a neural network having W as a parameter for x, which is an element of the input variable set X, and the function
Figure pat00003
In the variational reasoning method using a neural network, which has an input variable set X as a domain and a target variable set Y as an airspace), (a) receiving a learning input variable and a target variable, and outputting a predetermined learning output.
Figure pat00004
After calculating, the server performs a learning step of optimizing the variation parameter so as to minimize the loss by referring to the input variable and the learning output value, and the server performs a function of the neural network on the test input variable x.
Figure pat00005
Output the inference by applying
Figure pat00006
Calculates the output of the inference of the neural network according to a change in the configuration of the variation parameter in the test input variable.
Figure pat00007
Repeating the calculation process a plurality of times to calculate distribution values of the plurality of outputs; And (b) the server calculates an uncertainty quantification of the probability estimate of the inference output, wherein the calculated plurality of inference outputs
Figure pat00008
Calculating an epistemic uncertainty term and an aleatory uncertainty term using distribution values of, and calculating the uncertainty quantification by the sum of the calculated epistemic uncertainty term and the aleatory uncertainty term; Wherein the Aleatory uncertainty term is a term for estimating E (Var (Y | X)), which is an EVPV (expected value of the process variance) term and does not decrease below a predetermined value even when the sample size increases. The epistemic uncertainty term is a term for estimating the VHM (variance of the hypothetical means) term Var (E (Y | X)) as a term that decreases below the predetermined value as the sample size increases. The present invention relates to a variation reasoning method and apparatus.

뉴럴 네트워크(neural network; 인공신경망) 모형을 사용하는 딥러닝(deep learning) 기술은 자료의 주변성(locality)을 직접적으로 모형화하여 종래기술인 기계학습(machine learning)의 한계점을 극복하며 영상인식 분야에서 최첨단 성능을 보이고 있다. 딥러닝 기술이 이토록 발전할 수 있었던 배경에는 모형의 구조(model architecture)와 최적화 방법론(optimization method) 분야의 수 많은 연구가 있었기에 가능했다.Deep learning technology using neural network model overcomes the limitations of conventional machine learning by modeling the locality of data directly and is cutting edge in the field of image recognition. It is showing performance. Deep learning technology has been able to evolve so much that there has been much research in the field of model architecture and optimization methodology.

그러나 일반적인 딥러닝 기술로는 좋은 최적화 방법과 모형 구조로 신경망 모형이 학습되었다 하더라도 미리 정해진 범주(class)에 속할 확률에 대한 점추정치(point estimate)를 계산할 뿐, 그 추정치가 얼마나 정확한가에 대한 신뢰도에 대한 정보는 수량화가 불가하여 예측치에 대한 확률적 해석(probabilistic interpretation)과 통계적 추론(statistical inference)이 불가능하다.However, a common deep learning technique uses a good optimization method and model structure to calculate a point estimate of the probability of belonging to a predetermined class, even if the neural network model is trained, and to determine how accurate the estimate is. Information cannot be quantified, so probabilistic interpretation and statistical inference of predictions are not possible.

한편, 모형의 통계적 추론 분야 연구는 상대적으로 매우 부족한 상황인데, 이는 매우 심각한 문제를 초래할 수 있다. 일 예로, 2016년 5월 미국에서 자율주행 자동차가 "하얀 색 배경의 트레일러"를 하늘의 밝은 빛에 의하여 잘못 인식하여 속도를 줄이지 않고 충돌하여 운전자가 사망하는 사고가 있었다.On the other hand, research in the field of statistical reasoning of models is relatively poor, which can lead to very serious problems. For example, in May 2016, an autonomous car accidentally recognized a "white background trailer" by the bright light of the sky and crashed without slowing down, causing the driver to die.

예측지를 확률적으로 해석하기 위해서는 베이지안 신경망(Bayesian neural network)을 이용하여 사용할 수 있다. 여기서 베이지안 신경망은 임의의 깊은 인공 신경망(deep artificial neural network)의 모수를 사전 분포(prior distribution)의 확률 변수로 가정하는 모형이다. 베이지안 신경망은 일반 깊은 인공 신경망과 같이 임의의 수의 은닉층(hidden layer)를 가질 수 있으며, 은닉층은 컨벌루션 레이어(convolutional layer), 액티베이션 레이어(activation layer), 풀리 커넥티드 레이어(fully connected layer)들 중 적어도 하나를 포함한다.To probabilistically interpret predictors, Bayesian neural networks can be used. The Bayesian neural network is a model that assumes a parameter of an arbitrary deep artificial neural network as a random variable of a prior distribution. Bayesian neural networks can have any number of hidden layers, like ordinary deep artificial neural networks, which may be one of a convolutional layer, an activation layer, and a fully connected layer. At least one.

한편, Gal and Ghahramani 는 2015년에 발표한 "Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning"의 논문에서 임의의 신경망의 모든 은닉층(hidden layer)에 dropout을 사용한 모형을 학습하는 방법은 이산분포(Bernoulli distribution)의 곱으로 나타낼 수 있는 변분분포를 사용한 변분 추론 방법임을 보였다. Gal and Ghahramani, on the other hand, published a paper in "Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning" published in 2015.The method of learning a model using dropout for all hidden layers of a neural network is discrete. We have shown that it is a variation inference method using the variation distribution that can be expressed as the product of the Bernoulli distribution.

또한 종래의 연구(Gal and Ghaharamini (2015) 및 Kendall and Gal, 2017 (What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision))에서는 뉴럴 네트워크의 출력 값을 이용하여 불확정성 수량화(uncertainty quantification) 방법을 제시하면서 신경망에 대한 확률적 해석을 가능하게 하였다. In addition, previous studies (Gal and Ghaharamini (2015) and Kendall and Gal, 2017 (What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision)) present the method of uncertainty quantification using the output values of neural networks. Probabilistic analysis of neural networks was made possible.

그러나, 이와 같은 종래의 기술 또는 종래 연구에서는, 다음과 같은 이론적 및 실제적인 단점들이 존재한다. However, in this conventional technique or conventional research, the following theoretical and practical disadvantages exist.

이론적인 단점은 이산형 자료의 분포적 특성인 분산과 평균의 연관성을 무시한다는 점이다. 즉, 종속 변수가 이산형 자료인 경우 분류 문제에는 확률 추정치가 0 또는 1에 가까울수록 분산에 해당하는 값이 0으로 수렴하는 현상을 반영하지 못한다는 단점이다. 또한 실질적인 단점은 자료의 불균형이 심한 경우 학습이 불안정하여 발산하기 쉽다는 점이다. 이는 의료 영상 세그멘테이션(segmentation)에서 3차원 입력 값은 메모리를 많이 차지하기 때문에, 반드시 패치 러닝(patch learning)을 수행하는 데, 이때 자주 발생하는 문제이다.The theoretical drawback is that it ignores the association between the variance and the mean, which is the distributional characteristic of discrete data. In other words, when the dependent variable is discrete data, the classification problem does not reflect the phenomenon that the value of the variance converges to 0 as the probability estimate approaches 0 or 1. In addition, the real disadvantage is that the learning is unstable and easy to diverge when the data imbalance is severe. Since the 3D input value occupies a lot of memory in medical image segmentation, patch learning is necessarily performed, which is a problem that frequently occurs.

본 발명은 상술한 문제점을 해결하는 것을 목적으로 한다.The present invention aims to solve the above problems.

또한 본 발명은 뉴럴 네트워크에 대한 이론적, 실제적 문제점들이 없는 새로운 확률적 해석을 가능하게 하는 불확정성 수량화 방법을 제공하는 것을 목적으로 한다.It is also an object of the present invention to provide an uncertainty quantification method that enables a new probabilistic analysis without theoretical and practical problems with neural networks.

또한 본 발명은 출력 자료의 분산과 평균의 연관성을 유지한 새로운 뉴럴 네트워크에 대한 확률적 해석 방법을 제공하는 것을 목적으로 한다.It is also an object of the present invention to provide a probabilistic analysis method for a neural network that maintains a correlation between variance of output data and an average.

또한 본 발명은 출력 자료의 불균형이 심한 경우에도 불안정하지 않고, 발산하지 않는 새로운 확률적 해석 방법을 이용한 불확정성 수량화 방법을 제공하는 것을 목적으로 한다. In addition, an object of the present invention is to provide an uncertainty quantification method using a new probabilistic analysis method that is not unstable and does not diverge even when the imbalance of output data is severe.

본 발명의 일 태양에 따르면, 뉴럴 네트워크의 입력 변수(input variable) 집합에 속한 각 원소 값들에 대해 웨이트 및 바이어스를 포함하는 소정의 변분 모수를 이용하여 소정의 연산을 수행하여 생성된 하나 이상의 은닉층을 거쳐 상기 뉴럴 네트워크의 추론 출력 값을 산출하는,

Figure pat00009
: X -> Y로 정의(여기서
Figure pat00010
는 입력 변수 집합 X의 원소인 x에 대하여 W를 모수로 가지는 뉴럴 네트워크의 출력 값이고, 상기 함수
Figure pat00011
는 입력 변수 집합 X를 정의역으로 목표 변수 집합 Y를 공역으로 가진다)되는 뉴럴 네트워크를 이용한 변분 추론 방법은, (a) 학습용 입력 변수 및 목표 변수를 입력받고, 소정의 학습용 출력
Figure pat00012
를 산출한 후, 상기 입력 변수와 상기 학습용 출력 값을 참조로 하여 로스를 최소화하도록 상기 변분 모수를 최적화하는 학습 단계를 거친 상태에서, 서버가, 테스트용 입력 변수 x 에 상기 뉴럴 네트워크의 함수
Figure pat00013
를 적용하여 상기 추론 출력
Figure pat00014
를 산출하되, 상기 테스트용 입력 변수에 상기 변분 모수의 구성의 변경에 따라 상기 뉴럴 네트워크의 상기 추론 출력
Figure pat00015
산출 과정을 다수 회 반복 수행하여, 다수의 출력 출력의 분포 값들을 산출하는 단계; 및 (b) 상기 서버가, 상기 추론 출력값의 확률 추정치에 대한 불확정성 수량화를 산출하되, 상기 산출된 다수의 추론 출력
Figure pat00016
의 분포 값들을 이용하여 epistemic 불확정성 항과 aleatory 불확정성 항을 각각 산출하고, 산출된 상기 epistemic 불확정성 항과 상기 aleatory 불확정성 항의 합으로 상기 불확정성 수량화를 산출하는 단계; 를 포함하며, 여기서, 상기 Aleatory 불확정성 항은 샘플 사이즈가 커져도 기설정된 수치 이하로 줄어들지 않은 항으로, EVPV(expected value of the process variance) 항인 E(Var(Y|X))을 추정하기 위한 항이고, 상기 Epistemic 불확정성 항은 샘플 사이즈가 커지면 상기 기설정된 수치 이하로 줄어드는 항으로 VHM(variance of the hypothetical means) 항인 Var(E(Y|X))을 추정하기 위한 항이다.According to an aspect of the present invention, one or more hidden layers generated by performing a predetermined operation using predetermined variable parameters including weights and biases for respective element values belonging to a set of input variables of a neural network are generated. To calculate the inference output value of the neural network,
Figure pat00009
: Defined as X-> Y, where
Figure pat00010
Is an output value of a neural network having W as a parameter for x, which is an element of the input variable set X, and the function
Figure pat00011
Is a variable inference method using a neural network in which an input variable set X is defined as a domain and a target variable set Y as an airspace), (a) a learning input variable and a target variable are input, and a predetermined output for learning
Figure pat00012
After calculating, the server performs a learning step of optimizing the variation parameter so as to minimize the loss by referring to the input variable and the learning output value, and the server performs a function of the neural network on the test input variable x.
Figure pat00013
Output the inference by applying
Figure pat00014
Calculates the output of the inference of the neural network according to a change in the configuration of the variation parameter in the test input variable.
Figure pat00015
Repeating the calculation process a plurality of times to calculate distribution values of the plurality of outputs; And (b) the server calculates an uncertainty quantification of the probability estimate of the inference output, wherein the calculated plurality of inference outputs
Figure pat00016
Calculating an epistemic uncertainty term and an aleatory uncertainty term using distribution values of, and calculating the uncertainty quantification by the sum of the calculated epistemic uncertainty term and the aleatory uncertainty term; Wherein the Aleatory uncertainty term is a term for estimating E (Var (Y | X)), which is an EVPV (expected value of the process variance) term and does not decrease below a predetermined value even when the sample size increases. The Epistemic uncertainty term is a term for decreasing Var (E (Y | X)), which is a term of variation of the hypothetical means (VHM) term, which decreases below the predetermined value as the sample size increases.

일 실시예에서, 상기 (b) 단계는, 아래 수학식을 통해 In one embodiment, the step (b) is, through the following equation

Figure pat00017
Figure pat00017

- 여기서

Figure pat00018
이고, t는 1내지 T까지의 T개의 표집 Index를 나타냄 -- here
Figure pat00018
T represents T sampling indexes from 1 to T −

상기 불확정성 수량화를 산출하며, 여기서, 상기 aleatory 불확정성 항은

Figure pat00019
이며, 상기 epistemic 불확정성 항은
Figure pat00020
이다.Calculate the uncertainty quantification, wherein the aleatory uncertainty term is
Figure pat00019
Wherein the epistemic uncertainty term is
Figure pat00020
to be.

일 실시예에서, 상기 (a) 단계는, 상기 뉴럴 네트워크의 소정의 층들 사이의 노드 간의 각 웨이트(w)가 변분 분포

Figure pat00021
를 따르는 랜덤 변수(random variable) 베이지안 모수가 되도록 한다.In an embodiment, the step (a) may include a variance distribution of each weight w between nodes between predetermined layers of the neural network.
Figure pat00021
Let random variables follow the Bayesian parameters.

일 실시예에서, 상기 (a) 단계는, 상기 각 웨이트(w)가 소정의 함수 w=S(e, θ)로 정해지도록 하고, 상기 변분 분포

Figure pat00022
가 샘플 사이즈가 커질수록 한점으로 수렴하는 성질을 가질 수 있도록 에러(e)와 상기 함수 (S) - 상기 에러(e)는 상기 변분 분포
Figure pat00023
에 따라 무작위로 생성되는 값이며, 상기 θ는 상기 변분 모수임 - 를 설정하여 상기 추론 출력
Figure pat00024
를 산출한다.In one embodiment, the step (a) is such that each weight w is determined by a predetermined function w = S (e, θ), and the variance distribution
Figure pat00022
Error (e) and the function (S)-the error (e) are the distribution of the variance so that
Figure pat00023
Is a randomly generated value, and θ is the variation parameter-to set the inference output.
Figure pat00024
Calculate

일 실시예에서, 상기 학습 단계는, (i) 상기 학습용 입력 변수 x 및 목표 변수 y 를 입력 받는 프로세스; (ii) 상기 학습용 입력 변수 x에 상기 뉴럴 네트워크의 함수

Figure pat00025
를 이용하여 상기 학습용 출력
Figure pat00026
를 산출하되, 상기 뉴럴 네트워크의 소정의 층들 사이의 노드 간의 각 웨이트(w)가 소정의 함수 w=S(e, θ)로 정해지도록 하고, 상기 w 가 변분 분포
Figure pat00027
를 따르는 랜덤 변수(random variable) 베이지안 모수가 되도록 하며, 상기 변분 분포
Figure pat00028
가 샘플 사이즈가 커질수록 한점으로 수렴하는 성질을 가질 수 있도록 에러(e)와 상기 함수 (S) - 상기 에러(e)는 상기 변분 분포
Figure pat00029
에 따라 무작위로 생성되는 값이며, 상기 θ는 변분 모수 임 - 를 설정하여 상기 학습용 출력
Figure pat00030
를 산출하는 프로세스; (iii) 상기 입력 변수와 상기 학습용 출력 값을 참조로 하여 로스를 산출하는 프로세스; 및 (iv) 상기 로스를 최소화하도록 백프로퍼게이션 알고리즘을 수행하여, 상기 변분 모수(θ)를 최적화하는 프로세스; 를 통해 상기 최적화된 변분 모수(θ)를 획득한다.In one embodiment, the learning step may include: (i) a process of receiving the learning input variable x and the target variable y; (ii) a function of the neural network on the learning input variable x
Figure pat00025
The learning output using
Figure pat00026
Is calculated so that each weight w between nodes between predetermined layers of the neural network is defined by a predetermined function w = S (e, θ), and w is the variation distribution.
Figure pat00027
Random variable Bayesian parameter to follow the distribution of the variance
Figure pat00028
Error (e) and the function (S)-the error (e) are the distribution of the variance so that
Figure pat00029
Is a randomly generated value, and θ is a variation parameter-to set the learning output.
Figure pat00030
Calculating a process; (iii) calculating a loss with reference to the input variable and the learning output value; And (iv) performing a backpropagation algorithm to minimize the loss, thereby optimizing the variation parameter θ; The optimized variation parameter θ is obtained by using.

일 실시예에서, 상기 학습 단계 및 상기 (a) 단계는, 상기 에러(e)와 상기 변분 모수를 참조하여 생성된 웨이트로 형성된 교란층을 이용하여 각각의 은닉층을 생성하고, 상기 에러 (e) 는 소정의 평균 값과 소정의 분산 함수 (g(n)) 값으로 이루어진 분포를 갖되, 상기 분산 함수는 n 이 커질수록 0으로 수렴한다.In one embodiment, the learning step and the step (a), each of the hidden layer is formed by using a disturbance layer formed of the weight generated by referring to the error (e) and the variation parameter, the error (e) Has a distribution consisting of a predetermined mean value and a predetermined variance function (g (n)) value, which converges to zero as n increases.

일 실시예에서, 상기 함수 S는 뉴럴 네트워크의 소정의 층들 사이의 노드 간의 기본 웨이트(M)들에 대응되는 변분 모수와 상기 에러(e)를 곱하여, 상기 기본 웨이트(M)들 및 이에 대응하는 노드를 교란하기 위한 교란 함수이며, 상기 교란층은 상기 교란 함수를 통해, 입력 또는 이전 은닉층의 노드들의 값에 상기 교란 함수를 이용하여 도출된 웨이트(w)를 곱하여 다음 은닉층 또는 출력을 생성한다.In one embodiment, the function S multiplies the error parameter e by a variation parameter corresponding to basic weights M between nodes between predetermined layers of a neural network, so that the basic weights M and correspondingly. A disturbance function for disturbing a node, wherein the disturbance layer multiplies the value of nodes of an input or previous hidden layer by the weight w derived using the disturbance function to generate the next hidden layer or output through the disturbance function.

일 실시예에서, 상기 웨이트(w)가 상기 변분 모수(θ)와 상기 에러(e) 사이의 element-wise 곱을 포함하는 함수로 형성되는 경우, 상기 에러(e)는 평균이 1이고, 분산이 g(n)인 분포를 이루고, 이때, 상기 g(n) 은 n 이 커질수록 0으로 수렴하는 함수이다.In one embodiment, when the weight w is formed as a function comprising an element-wise product between the variation parameter θ and the error e , the error e has a mean of 1 and the variance The distribution is g (n), where g (n) is a function that converges to 0 as n becomes larger.

다른 실시예에서, 상기 웨이트(w)가 상기 변분 모수(θ)와 상기 에러(e) 사이의 element-wise 합을 포함하는 함수로 형성되는 경우, 상기 에러(e)는 평균이 0이고, 분산이 g(n)인 분포를 이루고, 이때, 상기 g(n) 은 n 이 커질수록 0으로 수렴하는 함수이다.In another embodiment, when the weight w is formed as a function comprising an element-wise sum between the variation parameter θ and the error e , the error e has a mean of 0 and a variance This distribution is g (n), where g (n) is a function that converges to 0 as n becomes larger.

본 발명의 다른 태양에 따르면, 뉴럴 네트워크의 입력 변수(input variable) 집합에 속한 각 원소 값들에 대해 웨이트 및 바이어스를 포함하는 소정의 변분 모수를 이용하여 소정의 연산을 수행하여 생성된 하나 이상의 은닉층을 거쳐 상기 뉴럴 네트워크의 추론 출력 값을 산출하는,

Figure pat00031
: X -> Y로 정의(여기서
Figure pat00032
는 입력 변수 집합 X의 원소인 x에 대하여 W를 모수로 가지는 뉴럴 네트워크의 출력 값이고, 상기 함수
Figure pat00033
는 입력 변수 집합 X를 정의역으로 목표 변수 집합 Y를 공역으로 가진다)되는 뉴럴 네트워크를 이용한 변분 추론 장치는, 상기 입력 변수를 수신하는 통신부; 및 (1) 학습용 입력 변수 및 목표 변수를 입력받고, 소정의 학습용 출력
Figure pat00034
를 산출한 후, 상기 입력 변수와 상기 학습용 출력 값을 참조로 하여 로스를 최소화하도록 상기 변분 모수를 최적화하는 학습 단계를 거친 상태에서, 테스트용 입력 변수 x 에 상기 뉴럴 네트워크의 함수
Figure pat00035
를 적용하여 상기 추론 출력
Figure pat00036
를 산출하되, 상기 테스트용 입력 변수에 상기 변분 모수의 구성의 변경에 따라 상기 뉴럴 네트워크의 상기 추론 출력
Figure pat00037
산출 과정을 다수 회 반복 수행하여, 다수의 출력 출력의 분포 값들을 산출하는 프로세스; 및 (2) 상기 추론 출력값의 확률 추정치에 대한 불확정성 수량화를 산출하되, 상기 산출된 다수의 추론 출력
Figure pat00038
의 분포 값들을 이용하여 epistemic 불확정성 항과 aleatory 불확정성 항을 각각 산출하고, 산출된 상기 epistemic 불확정성 항과 상기 aleatory 불확정성 항의 합으로 상기 불확정성 수량화를 산출하는 프로세스;를 수행하는 프로세서를 포함하며, 여기서, 상기 Aleatory 불확정성 항은 샘플 사이즈가 커져도 기설정된 수치 이하로 줄어들지 않은 항으로, EVPV(expected value of the process variance) 항인 E(Var(Y|X))을 추정하기 위한 항이고, 상기 Epistemic 불확정성 항은 샘플 사이즈가 커지면 상기 기설정된 수치 이하로 줄어드는 항으로 VHM(variance of the hypothetical means) 항인 Var(E(Y|X))을 추정하기 위한 항이다.According to another aspect of the present invention, one or more hidden layers generated by performing a predetermined operation using predetermined variable parameters including weights and biases for respective element values belonging to a set of input variables of a neural network are generated. To calculate the inference output value of the neural network,
Figure pat00031
: Defined as X-> Y, where
Figure pat00032
Is an output value of a neural network having W as a parameter for x, which is an element of the input variable set X, and the function
Figure pat00033
The variable inference apparatus using the neural network, wherein the input variable set X has the target variable set Y as the domain), the communication unit for receiving the input variable; And (1) receiving a learning input variable and a target variable, and outputting the predetermined learning.
Figure pat00034
After calculating the, after the learning step of optimizing the variation parameter to minimize the loss by referring to the input variable and the learning output value, the function of the neural network to the test input variable x
Figure pat00035
Output the inference by applying
Figure pat00036
Calculates the output of the inference of the neural network according to a change in the configuration of the variation parameter in the test input variable.
Figure pat00037
Repeating the calculating process a plurality of times to calculate distribution values of the plurality of outputs; And (2) calculating an uncertainty quantification of the probability estimate of the inference output, wherein the calculated plurality of inference outputs
Figure pat00038
Calculating an epistemic uncertainty term and an aleatory uncertainty term using distribution values of and calculating the uncertainty quantification by the sum of the calculated epistemic uncertainty term and the aleatory uncertainty term, wherein the processor comprises: The Aleatory uncertainty term is a term for estimating the value of the process variance (EVPV), E (Var (Y | X)), which is not reduced to a predetermined value even when the sample size increases, and the epistemic uncertainty term is a sample. The term for estimating VHM (variance of the hypothetical means) term Var (E (Y | X)) is a term that decreases below the predetermined value as the size increases.

본 발명에 따르면, According to the invention,

본 발명은 불확성 수량화 시 이항 종속 변수의 평균과 분산관계를 고려할 수 있으며, 불필요한 모수를 제거함으로 학습의 어려움을 덜 수 있는 효과가 있다.The present invention can consider the mean and variance of the binomial dependent variable when quantifying uncertainty, and has an effect of reducing the difficulty of learning by eliminating unnecessary parameters.

또한 본 발명은, 뉴럴 네트워크에 대한 이론적, 실제적 문제점들이 없는 새로운 확률적 해석을 가능하게 하는 불확정성 수량화 방법을 제공할 수 있다.The present invention can also provide an uncertainty quantification method that enables a new probabilistic analysis without theoretical and practical problems with neural networks.

또한 본 발명은 출력 자료의 불균형이 심한 경우에도 불안정하지 않고, 발산하지 않는 불확정성 수량화 방법을 제공할 수 있다. In addition, the present invention can provide an uncertainty quantification method that is not unstable and does not diverge even when the imbalance of output data is severe.

도 1은 뉴럴 네트워크에서의 드랍 아웃을 설명하는 도면이다.
도 2는 본 발명에 따른 변분 추론 방법에서 은닉층에서의 각 노드의 산출 과정을 모형화하여 나타낸 도면이다.
도 3은 본 발명에 따른 변분 추론 학습 과정에서의 교란층의 기능을 설명하기 위한 뉴럴 네트워크의 예를 나타낸다.
도 4는 본 발명에 따른 변분 추론 방법 시 불확정성 수량화(uncertainty quantification)를 위한 출력 분포 값을 산출하는 예를 도시한다.
1 is a diagram illustrating drop out in a neural network.
2 is a diagram illustrating a modeling process of each node in the hidden layer in the variable inference method according to the present invention.
3 shows an example of a neural network for explaining the function of the disturbing layer in the variable inference learning process according to the present invention.
4 illustrates an example of calculating an output distribution value for uncertainty quantification in the variable inference method according to the present invention.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.DETAILED DESCRIPTION The following detailed description of the invention refers to the accompanying drawings that show, by way of illustration, specific embodiments in which the invention may be practiced. These embodiments are described in sufficient detail to enable those skilled in the art to practice the invention. It should be understood that the various embodiments of the present invention are different but need not be mutually exclusive. For example, certain shapes, structures, and characteristics described herein may be embodied in other embodiments without departing from the spirit and scope of the invention with respect to one embodiment. In addition, it is to be understood that the location or arrangement of individual components within each disclosed embodiment may be changed without departing from the spirit and scope of the invention. The following detailed description, therefore, is not to be taken in a limiting sense, and the scope of the present invention, if properly described, is defined only by the appended claims, along with the full range of equivalents to which such claims are entitled. Like reference numerals in the drawings refer to the same or similar functions throughout the several aspects.

이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art can easily implement the present invention.

베이지안 신경망을 이용한 베이지안 추론(Bayesian inference)은 모수(parameter)에 대한 사후분포(posterior distribution)를 계산해야 하는데, 이는 수 많은 컴퓨터 계산이 필요하여 깊은인공신경망 모형에 대한 실질적인 구현은 불가능하다. 최근에서야 변분추론(variational inference) 방법을 이용하여 상용 컴퓨터로도 베이지안 신경망을 학습하는 방법이 연구되었다. Bayesian inference using Bayesian neural networks requires the calculation of the posterior distribution of parameters, which requires a lot of computational calculations, making practical implementation of deep artificial neural network models impossible. Recently, a method of learning Bayesian neural networks using a commercial computer using variational inference has been studied.

변분추론 방법이란 복잡한 사후분포를 비교적 계산하기 쉬운 분포족의 원소로 근사하는 방법으로, 주로 쿨벡-라이블러 발산(Kullback-Leibler divergence)를 변분 모수(variational parameter)에 대하여 최소화 한다. 다음은 쿨벡-라이블러 발산의 정의이다. Variance reasoning is a method of approximating complex posterior distributions with relatively easy-to-calculate elements, mainly minimizing the Kullback-Leibler divergence with respect to the variational parameters. The following is the definition of Cullbeck-Ribler divergence.

Figure pat00039
Figure pat00039

여기서 data는 학습 자료집합(training set), w는 베이지안 모수,

Figure pat00040
는 변분 모수(
Figure pat00041
)로 매개화된 변분 분포(variational distribution),
Figure pat00042
는 모수에 대한 사후분포이다. 쿨벡-라이블러 발산을 최소화 하는 변분모수를 변분분포에 입력하여 베이지안 추론을 할 수 있다.Where data is the training set, w is the Bayesian parameter,
Figure pat00040
Is the variation parameter (
Figure pat00041
Parameterized distribution,
Figure pat00042
Is the posterior distribution of the parameter. Bayesian inference can be made by inputting a variation parameter that minimizes the Culbeck-Richler divergence into the variation distribution.

본 발명은 크게 학습 과정과 예측 과정(즉, 추론 과정 또는 테스트 과정) 두 단계로 구성된다. 본 발명에 따른 변분 추론 알고리즘은 모든 임의의 깊은 뉴럴 네트워크(인공신경망) 모형에 적용될 수 있다. 따라서 임의의 Convolutional neural network(CNN)에도 모두 적용될 수 있다.The present invention is largely composed of two steps: a learning process and a prediction process (that is, an inference process or a test process). The variable inference algorithm according to the invention can be applied to any arbitrary deep neural network (artificial neural network) model. Therefore, it can be applied to any convolutional neural network (CNN).

우선 학습과정에서 사용하는 뉴럴 네트워크의 입력 변수를 x, 모수를 w, 마지막 은닉층의 출력 값을

Figure pat00043
라 할 수 있다. 이는 출력 값에 대한 조건부 기대 값으로 볼 수 있다. 상기
Figure pat00044
는 임의의 뉴럴 네트워크 구조를 가질 수 있으며, convolutional layer, pooling layer, activation layer, fully connected layer등으로 구성되어 있다. First, we input the input variable of the neural network used in the learning process by x, the parameter w , and the output value of the last hidden layer.
Figure pat00043
It can be said. This can be seen as a conditional expected value for the output value. remind
Figure pat00044
Can have any neural network structure and is composed of convolutional layer, pooling layer, activation layer, fully connected layer, etc.

우선 본 발명에 따른 학습 과정을 살펴보면, 우선, 입력 변수 및 학습에 필요한 목표 변수(y)를 입력 받는다. First, referring to the learning process according to the present invention, first, input variables and target variables (y) required for learning are received.

그런 다음, 입력 변수의 각 원소 값들에 대해 소정의 웨이트를 곱하여 하나 이상의 은닉층들을 순차적으로 생성하고, 마지막 은닉층의 출력 값

Figure pat00045
을 생성한다.Then, one or more hidden layers are sequentially generated by multiplying a predetermined weight for each element value of the input variable, and the output value of the last hidden layer.
Figure pat00045
Create

도 1은 뉴럴 네트워크에서의 드랍 아웃을 설명하는 도면이다.1 is a diagram illustrating drop out in a neural network.

도 1의 (a)는 2개의 은닉층(hidden layer)를 갖는 표준형태의 뉴럴 네트워크의 구조를 나타낸다. 도 1의 (a)에서는 다음 은닉층의 모든 노드는 이전 은닉층의 노드 또는 입력 값의 각 원소 값들에 소정의 웨이트를 적용하여 산출된다.FIG. 1A shows a structure of a neural network of a standard type having two hidden layers. In FIG. 1A, all nodes of the next hidden layer are calculated by applying a predetermined weight to respective element values of nodes or input values of the previous hidden layer.

도 1의 (b)는 dropout이 적용되는 뉴럴 네트워크 구조를 나타내며, 각 학습 단계마다 뉴럴 네트워크 은닉층의 노드들 중에서 임의의 노드를 삭제하여 계산을 수행한다. 도 1의 (b)에서 'X' 표시된 노드가 임의로 삭제된 노드이다. FIG. 1 (b) shows a neural network structure to which dropout is applied, and a computation is performed by deleting an arbitrary node from nodes of a neural network hidden layer in each learning step. In FIG. 1B, the node marked 'X' is a node that is arbitrarily deleted.

한편, 앞에서 설명한 바와 같이, Gal and Ghahramani 는 2015년에 발표한 "Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning"의 논문에서 임의의 신경망의 모든 은닉층(hidden layer)에 dropout을 사용한 모형을 학습하는 방법은 이산분포(Bernoulli distribution)의 곱으로 나타낼 수 있는 변분분포를 사용한 변분 추론 방법임을 보였다.On the other hand, as explained earlier, Gal and Ghahramani, in a paper published in 2015, published "Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning", trained models using dropout for all hidden layers of arbitrary neural networks. We have shown that the method of variation is the method of variation inference using the variation distribution that can be expressed as the product of the Bernoulli distribution.

즉, 일정 확률(예를 들어 0.5의 확률)의 0 또는 1 값을, 은닉층 사이의 노드 간 각 웨이트 값이나 이전 은닉층의 각 노드 값에 곱하여 계산하는 것과 동일한 것으로 볼 수 있는 것이다. That is, the value of 0 or 1 of a certain probability (for example, a probability of 0.5) can be regarded as the same as that of multiplying each weight value between nodes between hidden layers or each node value of a previous hidden layer.

본 발명에서의 상기 은닉층 산출 및 출력 값

Figure pat00046
산출 과정은 다음과 같다. The hidden layer calculation and output value in the present invention
Figure pat00046
The calculation process is as follows.

본 발명에 따른 변분 추론 학습 장치는, 상기 입력 변수 x 에 상기 뉴럴 네트워크의 함수

Figure pat00047
를 적용하여 상기 출력
Figure pat00048
를 산출하되, 상기 뉴럴 네트워크의 소정의 층들 사이의 노드 간의 각 웨이트(w)가 소정의 함수 w =S(e, θ)로 정해지도록 하고, 상기 w 가 변분 분포
Figure pat00049
를 따르는 랜덤 변수(random variable) 베이지안 모수가 되도록 하며, 상기 변분 분포
Figure pat00050
가 샘플 사이즈가 커질수록 한점으로 수렴하는 성질을 가질 수 있도록 에러(e)와 상기 함수 (S) (여기서, 상기 에러(e)는 상기 변분 분포
Figure pat00051
에 따라 무작위로 생성되는 값이며, 상기 θ는 상기 변분 모수이다) 를 설정하여 상기 출력
Figure pat00052
를 산출한다.In accordance with an aspect of the present invention, a variable inference learning apparatus includes a function of the neural network to the input variable x .
Figure pat00047
Apply the above output
Figure pat00048
Is calculated so that each weight w between nodes between predetermined layers of the neural network is defined by a predetermined function w = S (e, θ), and w is the variation distribution.
Figure pat00049
Random variable Bayesian parameter to follow the distribution of the variance
Figure pat00050
Error (e) and the function (S) (wherein the error (e) is the variation distribution so that
Figure pat00051
Is a randomly generated value, and θ is the variation parameter).
Figure pat00052
Calculate

도 2는 본 발명에 따른 변분 추론 방법에서 은닉층에서의 각 노드의 산출 과정을 모형화하여 나타낸 도면이다.2 is a diagram illustrating a modeling process of each node in the hidden layer in the variable inference method according to the present invention.

도 2를 참조하여, 본 발명에 다른 은닉층에서의 각 웨이트(w)를 이용한 연산 과정을 설명하면 다음과 같다. 도 2를 참조하면,

Figure pat00053
은 뉴럴 네트워크의 l번째 은닉층의 pre-activated 벡터를 나타내며,
Figure pat00054
은 뉴럴 네트워크의 l번째 은닉층의 출력 벡터이자 (l+1)번째 은닉층의 입력 벡터를 지칭한다. 따라서,
Figure pat00055
은 입력 변수 x가 된다. 그리고
Figure pat00056
(미도시),
Figure pat00057
Figure pat00058
은 뉴럴 네트워크의 l번째 은닉층의 각 노드의 웨이트, 기본 웨이트(변분 모수(θ)) 및 바이어스 값을 나타낸다. 그리고 f는 임의의 액티베이션 함수를 나타낸다. 예를 들어, f(x) = 1/(1 + exp(-x)) 또는 시그모이드(sigmoid) 함수 일 수 있을 것이다. 여기서, θ는 상기 전체 은닉층의 변분 모수(M)의 집합을 나타낸다.Referring to FIG. 2, a calculation process using the respective weights w in the hidden layer according to the present invention will be described. 2,
Figure pat00053
Represents the pre-activated vector of the lth hidden layer of the neural network,
Figure pat00054
Denotes an output vector of the l th hidden layer of the neural network and an input vector of the ( l +1) th hidden layer. therefore,
Figure pat00055
Becomes the input variable x. And
Figure pat00056
(Not shown),
Figure pat00057
and
Figure pat00058
Denotes the weight, basic weight (variable parameter θ) and bias value of each node of the l- th hidden layer of the neural network. And f represents an arbitrary activation function. For example, it may be f (x) = 1 / (1 + exp (-x)) or sigmoid function. Is the set of variation parameters M of the entire hidden layer.

그리고, 도 2에서,

Figure pat00059
,
Figure pat00060
,
Figure pat00061
l번째 은닉층의 1번째 내지 3번째 노드의 값, 즉, l번째 은닉층의 출력 벡터(
Figure pat00062
)의 각 원소 값이다. And in FIG. 2,
Figure pat00059
,
Figure pat00060
,
Figure pat00061
Is the l-th value of the first to the third node in the hidden layer, that is, the output of the l-th hidden layer vector (
Figure pat00062
) Is the value of each element.

Figure pat00063
,
Figure pat00064
,
Figure pat00065
l번째 은닉층의 각 노드들(1번째 내지 3번째 노드)과 l+1번째 은닉층의 i번째 노드 사이의 변분 모수(기본 웨이트)이며,
Figure pat00066
,
Figure pat00067
,
Figure pat00068
l번째 은닉층의 각 노드들(1번째 내지 3번째 노드)과 l+1번째 은닉층의 i번째 노드 사이의 변분 모수(기본 웨이트)를 교란하기 위한 에러 값이다.
Figure pat00063
,
Figure pat00064
,
Figure pat00065
Is the variation parameter (basic weight) between each node of the lth hidden layer (first to third nodes) and the ith node of the l +1 hidden layer,
Figure pat00066
,
Figure pat00067
,
Figure pat00068
Is the error value for disturbing the variational parameter (basic weight) l between each node in the second hidden layer (the first to the third node) and l i +1 of the second hidden layer second node.

또한,

Figure pat00069
은 뉴럴 네트워크의 l+1번째 은닉층의 i번째 노드의 pre-activated 값(즉, l+1번째 은닉층의 pre-activated 벡터 중 i번째 노드에 해당하는 원소 값)을 나타내며,
Figure pat00070
은 뉴럴 네트워크의 l+1번째 은닉층의 i 번째 노드의 출력 값(즉, l+1번째 은닉층의 출력 벡터 중 i번째 노드에 해당하는 원소 값)을 지칭한다.In addition,
Figure pat00069
Denotes the pre-activated value of the i-th node of the l +1 hidden layer of the neural network (that is, the element value corresponding to the i-th node of the pre-activated vector of the l +1 hidden layer).
Figure pat00070
Denotes an output value of the i th node of the l +1 th hidden layer of the neural network (ie, an element value corresponding to the i th node of the output vectors of the l +1 th hidden layer).

도 2를 참조하면, 상기 뉴럴 네트워크의 소정의 층들 사이의 노드 간의 각 웨이트(w)가 변분 모수(기본 웨이트; M)와 에러(e)를 입력으로 하는 소정의 함수 S에 의해 구해지되, 상기 웨이트(w)가 변분 분포

Figure pat00071
를 따르는 랜덤 변수(random variable) 베이지안 모수가 되도록 하며, 상기 변분 분포
Figure pat00072
가 샘플 사이즈가 커질수록 한점으로 수렴하는 성질을 가질 수 있도록 에러(e)와 상기 함수 (S)를 설정하게 된다.Referring to FIG. 2, each weight w between nodes between predetermined layers of the neural network is obtained by a predetermined function S that takes as input the variation parameter (basic weight M ) and the error (e) , The weight w is variable distribution
Figure pat00071
Random variable Bayesian parameter to follow the distribution of the variance
Figure pat00072
As the sample size increases, the error (e) and the function (S) are set to have the property of converging to one point.

예를 들어, 도 2에서와 같이 l+1 번째 은닉층의 i 번째 노드 값을 구하기 위한, 웨이트

Figure pat00073
,
Figure pat00074
,
Figure pat00075
(미도시)는 소정의 함수 S에 의해 정해 지며, 상기 함수는
Figure pat00076
,
Figure pat00077
,
Figure pat00078
Figure pat00079
,
Figure pat00080
,
Figure pat00081
를 입력 값으로 하고, 웨이트
Figure pat00082
,
Figure pat00083
,
Figure pat00084
(미도시)가 변분 분포
Figure pat00085
를 따르는 랜덤 변수(random variable) 베이지안 모수가 되도록 하며, 상기 변분 분포
Figure pat00086
는 샘플 사이즈가 커질수록 한점으로 수렴하는 성질을 갖도록 설정한다. For example, to obtain the value of the i-th node of the l + 1 th hidden layer, as shown in FIG.
Figure pat00073
,
Figure pat00074
,
Figure pat00075
(Not shown) is determined by a predetermined function S, which is
Figure pat00076
,
Figure pat00077
,
Figure pat00078
Wow
Figure pat00079
,
Figure pat00080
,
Figure pat00081
Is the input value, and the weight
Figure pat00082
,
Figure pat00083
,
Figure pat00084
(Not shown) Variance distribution
Figure pat00085
Random variable Bayesian parameter to follow the distribution of the variance
Figure pat00086
Is set to have a property that converges to one point as the sample size increases.

따라서, 도 2의 뉴럴 네트워크의 l+1번째 은닉층의 각 출력 벡터(노드 값)을 구하는 식은 아래의 수학식들을 통해 산출될 수 있다.Accordingly, an equation for obtaining each output vector (node value) of the l + 1th hidden layer of the neural network of FIG. 2 may be calculated through the following equations.

Figure pat00087
Figure pat00087

Figure pat00088
Figure pat00088

Figure pat00089
Figure pat00089

예를 들어, 상기 수학식 1에서

Figure pat00090
가 단순히
Figure pat00091
가 될 수 있을 것이다. 다른 예에서는,
Figure pat00092
Figure pat00093
가 될 수도 있을 것이다. 여기서,
Figure pat00094
는 element-wise 곱을 나타내며,
Figure pat00095
는 element-wise 합을 나타낸다.For example, in Equation 1
Figure pat00090
Simply
Figure pat00091
Could be. In another example,
Figure pat00092
Is
Figure pat00093
Could be here,
Figure pat00094
Represents an element-wise product,
Figure pat00095
Denotes an element-wise sum.

즉, 일 실시예에서는, 상기 웨이트(w)가 상기 뉴럴 네트워크의 이웃하는 각 은닉층들 사이의 노드 간의 웨이트일 때, 상기 웨이트(w)가 상기 변분 모수(θ)와 상기 에러(e) 사이의 element-wise 곱을 포함하는 함수로 형성되는 경우, 상기 에러(e)는 평균이 1이고, 분산이 g(n)인 분포를 이루고, 이때, 상기 g(n) 은 n 이 커질수록 0으로 수렴하는 함수이다. 예를 들어, 상기 분산 g(n) 이 자료의 수 n이 무한대로 갈수록 0에 접근하는

Figure pat00096
또는
Figure pat00097
와 같은 자료의 수 n의 함수가 될 수 있을 것이다.That is, in one embodiment, when the weight w is a weight between nodes between neighboring hidden layers of the neural network, the weight w is between the variation parameter θ and the error e. When formed as a function containing an element-wise product, the error (e) has a distribution with mean 1 and variance g (n), where g (n) converges to 0 as n becomes larger. It is a function. For example, the variance g (n) approaches zero as the number n of data goes to infinity.
Figure pat00096
or
Figure pat00097
It can be a function of the number n of data such as

다른 실시예에서는, 상기 웨이트(w)는 상기 뉴럴 네트워크의 이웃하는 각 은닉층들의 노드 사이의 웨이트일 때, 상기 웨이트(w)가 상기 변분 모수(θ)와 상기 에러(e) 사이의 element-wise 합을 포함하는 함수로 형성되는 경우, 상기 에러(e)는 평균이 0이고, 분산이 g(n)인 분포를 이루고, 이때, 상기 g(n) 은 n 이 커질수록 0으로 수렴하는 함수이다. 이 경우에도, 상기 분산 g(n)의 함수의 일 예로, 이 자료의 수 n이 무한대로 갈수록 0에 접근하는

Figure pat00098
또는
Figure pat00099
와 같은 자료의 수 n의 함수가 될 수 있다.In another embodiment, when the weight w is a weight between nodes of neighboring hidden layers of the neural network, the weight w is element-wise between the variation parameter θ and the error e. When formed as a function containing a sum, the error (e) has a distribution with mean zero and variance g (n), where g (n) is a function that converges to zero as n becomes larger. . Even in this case, as an example of the function of the variance g (n), the number n of this data approaches zero as infinity goes
Figure pat00098
or
Figure pat00099
It can be a function of the number n of data such as

다시, 도 2를 참조하면, 본 발명에 따른 변분 추론 방법은 학습 과정에서, 에러(e)와 상기 변분 모수(θ)를 참조하여 생성된 웨이트(w)로 형성된 교란층을 이용하여 각각의 은닉층을 생성하게 된다. 이때 상기 은닉층에서, 에러 (e) 는 소정의 평균 값과 소정의 분산 함수 (g(n)) 값으로 이루어진 분포를 갖고, 상기 분산 함수는 자료의 수(n)가 커질수록 0으로 수렴하는 성질을 갖도록 설정된다. Referring back to FIG. 2, in the variation process according to the present invention, each hidden layer is formed by using a disturbance layer formed of an error (e) and a weight w generated by referring to the variation parameter θ. Will generate At this time, in the hidden layer, error (e) has a distribution consisting of a predetermined mean value and a predetermined variance function (g (n)) value, and the variance function converges to zero as the number of data (n) increases. It is set to have.

상술한 바와 같이, 상기 함수 S는, 일 예로, 뉴럴 네트워크의 소정의 층들 사이의 노드 간의 기본 웨이트(M)들에 대응되는 변분 모수(θ)와 상기 에러(e)를 곱하여, 상기 기본 웨이트(M)들 및 이에 대응하는 노드를 교란하기 위한 교란 함수가 될 수 있고, 이 경우, 상기 교란층은 상기 교란 함수를 통해, 입력 또는 이전 은닉층의 노드들의 값에 상기 교란 함수를 이용하여 도출된 웨이트(w)를 곱하여 다음 은닉층 또는 출력을 생성한다.As described above, the function S, for example, multiplies the error parameter (e) by the variation parameter (θ) corresponding to the basic weights ( M ) between nodes between predetermined layers of the neural network, and thus, the basic weight ( M ) and a disturbance function for disturbing the corresponding nodes, in which case the disturbance layer is a weight derived through the disturbance function using the disturbance function at values of nodes of an input or previous hidden layer. Multiply by ( w ) to produce the next hidden layer or output.

도 3은 본 발명에 따른 변분 추론 학습 과정에서의 교란층의 기능을 설명하기 위한 뉴럴 네트워크의 예를 나타낸다.3 shows an example of a neural network for explaining the function of the disturbing layer in the variable inference learning process according to the present invention.

도 3의 좌측 도면은 일반적인 뉴럴 네트워크로 은닉층이 2개인 계산 예시를 나타낸다. 일반적인 뉴럴 네트워크에서는 입력 변수 (예를 들어 x

Figure pat00100
인 입력 변수 x)가 입력되면, 제1 은닉층에서는 입력 변수와 제1 은닉층 사이의 변분 모수(
Figure pat00101
,
Figure pat00102
Figure pat00103
)을 상기 입력 변수 x 와 연산하고 소정의 액티베이션 함수(
Figure pat00104
)를 연산하여
Figure pat00105
이 생성된다. 즉, 제1 은닉층의 연산 결과는
Figure pat00106
로 나타낼 수 있다. 제2 은닉층에서는 제1 은닉층과 제2 은닉층 사이의 변분 모수(
Figure pat00107
,
Figure pat00108
Figure pat00109
)을 상기 제1 은닉층의 출력
Figure pat00110
와 연산하고 소정의 액티베이션 함수(
Figure pat00111
)를 연산하여
Figure pat00112
이 생성된다. 즉, 제2 은닉층의 연산 결과는
Figure pat00113
또는
Figure pat00114
로 나타낼 수 있다. 뉴럴 네트워크의 출력에서는 제2 은닉층과 출력 사이의 변분 모수(
Figure pat00115
,
Figure pat00116
Figure pat00117
)을 상기 제2 은닉층의 출력
Figure pat00118
와 연산하고 소정의 액티베이션 함수(
Figure pat00119
)를 연산하여 뉴럴 네트워크의 출력
Figure pat00120
이 생성된다. 즉, 뉴럴 네트워크의 연산 결과는
Figure pat00121
또는
Figure pat00122
로 나타낼 수 있다. 여기서 괄호 안의 아래 첨자 t는 1부터 미리 정해진 자연수 G 사이의 값을 갖는 학습 iteration을 나타내는 숫자이다.3 shows an example of calculation with two hidden layers in a general neural network. In normal neural networks, input variables (for example, x
Figure pat00100
When the input variable x ) is input, the first hidden layer has a variation parameter between the input variable and the first hidden layer (
Figure pat00101
,
Figure pat00102
Figure pat00103
) Is calculated from the input variable x and a predetermined activation function (
Figure pat00104
)
Figure pat00105
Is generated. That is, the operation result of the first hidden layer is
Figure pat00106
It can be represented by. In the second hidden layer, the variation parameter between the first hidden layer and the second hidden layer (
Figure pat00107
,
Figure pat00108
Figure pat00109
) Output of the first hidden layer
Figure pat00110
And an activation function (
Figure pat00111
)
Figure pat00112
Is generated. That is, the operation result of the second hidden layer is
Figure pat00113
or
Figure pat00114
It can be represented as. In the output of the neural network, the variation parameter between the second hidden layer and the output (
Figure pat00115
,
Figure pat00116
Figure pat00117
) Output of the second hidden layer
Figure pat00118
And an activation function (
Figure pat00119
) Output of the neural network
Figure pat00120
Is generated. In other words, the computational result of the neural network
Figure pat00121
or
Figure pat00122
It can be represented by. Here, the subscript t in parentheses is a number representing a learning iteration with a value between 1 and a predetermined natural number G.

한편, 도 3의 우측 도면은 본 발명에 따라 은닉층 사이에 교란층을 구비한 뉴럴 네트워크로 은닉층이 2개 교란층이 3개인 계산 예시를 나타낸다.On the other hand, the right side of Figure 3 is a neural network having a disturbing layer between the hidden layer in accordance with the present invention shows an example of the calculation of the two hidden layers three disturbance layer.

도 3의 우측 도면을 참조하면, 입력 변수와 제1 은닉층 사이에 제1 교란층을 구비하고, 제1은닉층과 제2 은닉층 사이에 제2 교란층을 구비하며, 제2 은닉층과 출력 사이에 제3 교란층을 구비한다.Referring to the right figure of FIG. 3, a first disturbance layer is provided between the input variable and the first hidden layer, a second disturbance layer is provided between the first hidden layer and the second hidden layer, and is formed between the second hidden layer and the output. Three disturbance layers are provided.

상기 제1 교란층은 입력 변수와 제1 은닉층 사이의 변분 모수 (

Figure pat00123
,
Figure pat00124
Figure pat00125
)를 제1 에러(
Figure pat00126
)으로 교란하여 제1 웨이트(
Figure pat00127
)을 생성하고, 입력 변수의 각 원소 값에 상기 웨이트를 가하여 제1 은닉층을 생성한다. 상기 제2 교란층은 제1 은닉층과 제2 은닉층 사이의 변분 모수 (
Figure pat00128
,
Figure pat00129
Figure pat00130
)를 제2 에러(
Figure pat00131
)으로 교란하여 제2 웨이트(
Figure pat00132
)을 생성하고, 제1 은닉층의 각 노드 값에 상기 웨이트를 가하여 제2 은닉층을 생성한다. 상기 제3 교란층은 제2 은닉층과 출력 사이의 변분 모수 (
Figure pat00133
,
Figure pat00134
Figure pat00135
)를 제3 에러(
Figure pat00136
)으로 교란하여 제3 웨이트(
Figure pat00137
)을 생성하고, 제2 은닉층의 각 노드 값에 상기 웨이트를 가하여 뉴럴 네트워크의 출력 값을 생성한다. 여기에서도 괄호 안의 아래 첨자 t는 1부터 미리 정해진 자연수 G 사이의 값을 갖는 학습 iteration을 나타내는 숫자이다. 즉, 상기 t는 학습 과정에서 t번째 반복(iteration)을 나타낸다.The first disturbing layer is a variation parameter between the input variable and the first hidden layer (
Figure pat00123
,
Figure pat00124
Figure pat00125
) To the first error (
Figure pat00126
) To disturb the first weight (
Figure pat00127
), And the weight is applied to each element value of the input variable to generate a first hidden layer. The second disturbing layer is a variation parameter between the first and second hidden layers (
Figure pat00128
,
Figure pat00129
Figure pat00130
) To the second error (
Figure pat00131
) To disturb the second weight (
Figure pat00132
), And the weight is applied to each node value of the first hidden layer to generate a second hidden layer. The third disturbing layer is a variation parameter between the second hidden layer and the output (
Figure pat00133
,
Figure pat00134
Figure pat00135
) To the third error (
Figure pat00136
) To disturb the third weight (
Figure pat00137
) And apply the weight to each node value of the second hidden layer to generate an output value of the neural network. Here, the subscript t in parentheses is a number representing a learning iteration with a value between 1 and the predetermined natural number G. That is, the t represents the t th iteration in the learning process.

즉, 본 발명에 따른 뉴럴 네트워크에서는 입력 변수 (예를 들어

Figure pat00138
인 입력 변수 x)가 입력되면, 제1 은닉층에서는 제1 교란층에서 생성된 웨이트 (
Figure pat00139
,
Figure pat00140
Figure pat00141
)을 상기 입력 변수 x 와 연산하고 소정의 액티베이션 함수(
Figure pat00142
)를 연산하여
Figure pat00143
이 생성된다. 즉, 제1 은닉층의 연산 결과는
Figure pat00144
로 나타낼 수 있다. 제2 은닉층에서는 제2 교란층에서 생성된 웨이트 (
Figure pat00145
,
Figure pat00146
Figure pat00147
)을 상기 제1 은닉층의 출력
Figure pat00148
와 연산하고 소정의 액티베이션 함수(
Figure pat00149
)를 연산하여
Figure pat00150
이 생성된다. 즉, 제2 은닉층의 연산 결과는
Figure pat00151
또는
Figure pat00152
로 나타낼 수 있다. 뉴럴 네트워크의 출력에서는 제2 교란층에서 생성된 웨이트(
Figure pat00153
,
Figure pat00154
Figure pat00155
)을 상기 제2 은닉층의 출력
Figure pat00156
와 연산하고 소정의 액티베이션 함수(
Figure pat00157
)를 연산하여 뉴럴 네트워크의 출력
Figure pat00158
이 생성된다. 즉, 뉴럴 네트워크의 연산 결과는
Figure pat00159
또는
Figure pat00160
로 나타낼 수 있다.That is, in the neural network according to the present invention, an input variable (for example,
Figure pat00138
When the input variable x ) is input, the first hidden layer generates the weight (generated in the first disturbing layer).
Figure pat00139
,
Figure pat00140
Figure pat00141
) Is calculated from the input variable x and a predetermined activation function (
Figure pat00142
)
Figure pat00143
Is generated. That is, the operation result of the first hidden layer is
Figure pat00144
It can be represented by. In the second hidden layer, the weight generated in the second disturbing layer (
Figure pat00145
,
Figure pat00146
Figure pat00147
) Output of the first hidden layer
Figure pat00148
And an activation function (
Figure pat00149
)
Figure pat00150
Is generated. That is, the operation result of the second hidden layer is
Figure pat00151
or
Figure pat00152
It can be represented by. In the output of the neural network, the weight generated in the second disturbance layer (
Figure pat00153
,
Figure pat00154
Figure pat00155
) Output of the second hidden layer
Figure pat00156
And an activation function (
Figure pat00157
) Output of the neural network
Figure pat00158
Is generated. In other words, the computational result of the neural network
Figure pat00159
or
Figure pat00160
It can be represented by.

한편, 제1 은닉층의 연산 결과는

Figure pat00161
으로도 나타낼 수 있고, 제2 은닉층의 연산 결과는
Figure pat00162
으로도 나타낼 수 있으며, 출력 값은
Figure pat00163
으로도 나타낼 수 있을 것이다.On the other hand, the calculation result of the first hidden layer is
Figure pat00161
It can also be represented as, the operation result of the second hidden layer
Figure pat00162
It can also be represented as
Figure pat00163
It can also be represented as

아울러, 전제 웨이트(

Figure pat00164
) ={
Figure pat00165
,
Figure pat00166
,
Figure pat00167
} ={
Figure pat00168
,
Figure pat00169
,
Figure pat00170
}이고, 변분 모수는 θ={
Figure pat00171
} 로 표시될 수 있다.In addition, premise weight (
Figure pat00164
) = {
Figure pat00165
,
Figure pat00166
,
Figure pat00167
} = {
Figure pat00168
,
Figure pat00169
,
Figure pat00170
} And the variation parameter is θ = {
Figure pat00171
}.

한편, 상기 t는 학습 과정의 반복 횟수를 나타낸다. 즉, 변분 모수(θ)의 최적화를 위해 소정 회수 반복하며 도 3에서는 학습 과정에서 t번째 학습 반복 과정으로 뉴럴 네트워크의 출력

Figure pat00172
을 생성하기 위한 과정을 예시적으로 나타낸 것이다.Meanwhile, t represents the number of repetitions of the learning process. That is, a predetermined number of iterations are repeated to optimize the variation parameter θ. In FIG.
Figure pat00172
Illustrates the process for generating a.

상기 교란층은 기본 웨이트 즉, 변분 모수를 소정 범위에서 흔들기 위한 기능을 한다. 예를 들어, 에러 값이 평균 1을 갖고, 상기 1 주변에서 좁게 분포하는 변분 분포함수에 따른다면, 상기 에러를 변분 모수에 곱함으로써, 변분 모수의 값을 조금씩 앞 뒤로 흔들어 변화시켜가며 학습을 수행할 수 있게 된다. 예를 들어,

Figure pat00173
값이 에러 값으로 인해, 노드 사이의 웨이트로서 정확히
Figure pat00174
값은 아니지만,
Figure pat00175
값 근처에서 변화하는, 예를 들어, 0.9*
Figure pat00176
내지 1.1*
Figure pat00177
사이에서 변하는 값이 되는 것이다. The disturbing layer functions to shake the basic weight, that is, the variation parameter in a predetermined range. For example, if the error value has an average of 1 and depends on the variation distribution function that is narrowly distributed around the 1, the error is multiplied by the error parameter to perform the learning by shaking the variation parameter value back and forth little by little. You can do it. For example,
Figure pat00173
Exactly as the weight between nodes, due to the error value
Figure pat00174
Not a value,
Figure pat00175
Changing near a value, for example, 0.9 *
Figure pat00176
To 1.1 *
Figure pat00177
It will be a value that changes between.

도 3에 도시된 바와 같이, 본 방법은 도 3의 좌측 도면과 같이, 기존의 뉴럴 네트워크의 컨벌루션 레이어 구성요소를 사용하되 여기에 교란층(perturbation layer)을 추가하는 것이 특징이다. 이때, 교란층은 변분 모수(

Figure pat00178
)와 무작위로 생성된 에러 (e) 를 교란 함수(perturbation function) s의 입력으로 사용한다. 표집된 웨이트 모수는
Figure pat00179
가 된다. 여기서 일 예로, e가 평균 1, 분산 g(n)을 갖는 분포를 가질 수 있다. 분산 g(n)이 자료의 수 n이 무한대로 갈수록 0에 접근하는
Figure pat00180
또는
Figure pat00181
와 같은 자료의 수 n의 함수인 경우를 생각하면 w에 대한 변분 분포가
Figure pat00182
가 자료의 수가 커질수록 한 점으로 확률 수렴하게 만들 수 있게 된다.As shown in FIG. 3, the method is characterized by using a convolutional layer component of an existing neural network, but adding a perturbation layer, as shown in the left figure of FIG. 3. At this time, the disturbance layer is a variation parameter (
Figure pat00178
) And the randomly generated error (e) are used as inputs to the perturbation function s. The sampled weight parameters
Figure pat00179
Becomes Here, as an example, e may have a distribution having an average of 1 and a variance g (n). The variance g (n) approaches zero as the number of data n goes to infinity.
Figure pat00180
or
Figure pat00181
Consider the case of a function of the number n of data such as
Figure pat00182
As the number of data increases, it is possible to make the probability converge to one point.

이러한 본 발명의 특징을 dropout 방식의 뉴럴 네트워크와 비교한다면, dropout 방식을 사용하는 뉴럴 네트워크는 임의로 노드를 선택하여 어떤 것은 학습 과정에서 생략하는 것이며, 이렇게 어떤 노드를 넣을지 뺄지 정기 위해 베르누이(Bernoulli) 원재료를 곱하는 방식인 반면, 본원 발명에서는 노말 분포(distribution) 를 갖는 임의의 값(에러 값)을 기본 변분 모수에 곱하는 차이가 있다. When comparing the characteristics of the present invention with the dropout neural network, the neural network using the dropout method arbitrarily selects nodes and omits some things from the learning process. On the other hand, in the present invention, there is a difference in multiplying a basic variable parameter by an arbitrary value (error value) having a normal distribution.

본 발명에서는, 변분 모수(θ)에 에러(e1, e2, e3) (특정 은닉층에서 노드가 3개인 경우)를 곱하는데, 이 에러가 예시적으로 평균 1, 분산 g(n)이 되는 값이고, g(n)이 n 이 커질수록 0으로 수렴하게 된다면, 사실상 1에 가까운 에러 값을 곱하는 것이다. 만일 에러 값(e1, e2, e3)이 모두 (1, 1, 1)이라면 일반적인 뉴럴 네트워크와 동일하겠지만, (e1, e2, e3)이 (1.1, 0.9, 1.01) 등으로 한점으로 수렴하는 변분 분포를 따르게 하면, 자료의 수가 커질 때 분산이 줄어들게 되는 효과, 즉 수렴하게 되는 효과를 갖게 된다. In the present invention, the variation parameter θ is multiplied by an error (e 1 , e 2 , e 3 ) (when there are 3 nodes in a particular hidden layer), which error is exemplified by an average of 1 and the variance g (n). If g (n) converges to 0 as n increases, then it is actually multiplying by an error value close to one. If the error values (e 1 , e 2 , e 3 ) are all (1, 1, 1), then it is the same as a normal neural network, but (e 1 , e 2 , e 3 ) equals (1.1, 0.9, 1.01) Following a convergence distribution with a single point has the effect of reducing the variance, ie convergence, as the number of data increases.

그런 다음 본 발명에 따른 변분 추론 학습 과정은, 입력 변수와 출력 값

Figure pat00183
을 참조로 하여, 로스를 계산하고, 그런 다음, 상기 로스를 최소화하도록 백프로퍼게이션 알고리즘을 수행하여, 상기 변분 모수(θ)를 최적화하는 단계를 반복하여 최적의 변분 모수를 찾게 된다.Then, the variable inference learning process according to the present invention, the input variable and the output value
Figure pat00183
Referring to, the loss is calculated, and then a backpropagation algorithm is performed to minimize the loss, thereby optimizing the variation parameter θ, thereby finding an optimal variation parameter.

예를 들어, 상기 로스를 구하는 단계는, 쿨벡-라이블러 발산의 정의를 통해 산출할 수 있다. 쿨벡 라이블러 발산은 아래 수학식으로 표현된다.For example, the step of obtaining the loss can be calculated through the definition of the Culbeck-Richler divergence. The Culbeck Rifler divergence is expressed by the following equation.

Figure pat00184
Figure pat00184

여기서 data는 학습 자료집합(training set), w는 베이지안 모수,

Figure pat00185
는 변분 모수(θ)로 매개화된 변분 분포(variational distribution),
Figure pat00186
는 모수에 대한 사후분포이다.Where data is the training set, w is the Bayesian parameter,
Figure pat00185
Is a variational distribution mediated by the variation parameter (θ),
Figure pat00186
Is the posterior distribution of the parameter.

그리고 상기 쿨벡 라이블러 발산을 최소화하는 로스를 계산하는 것은 적분항 때문에 계산이 어렵고 근사항을 이용하여 아래와 같은 수학식으로 변경하여 로스를 산출할 수 있다. And it is difficult to calculate the loss that minimizes the Culbeck Ribbler divergence due to the integral term, it is possible to calculate the loss by changing to the following equation using the root.

Figure pat00187
Figure pat00187

여기서 T는 근사를 위한 샘플링 횟수를 나타내고, 여기서

Figure pat00188
는 표집 index인 s가 1부터 T까지에 대해 변분분포
Figure pat00189
에서 임의 표집된 값(realized value)이며,
Figure pat00190
는 미리 정한 모수에 대한 사전분포이다.Where T represents the number of sampling for approximation, where
Figure pat00188
Variance distribution for sampling index s from 1 to T
Figure pat00189
Is a randomized value from,
Figure pat00190
Is a pre-distribution of a predetermined parameter.

그리고 학습 과정은 백프로퍼게이션 과정을 거쳐 변분 모수를 업데이트 하는데, 변분 모수(θ)를 업데이트 하는 계산식은 아래 수학식으로 표현될 수 있다.The learning process updates the variation parameter through a backpropagation process, and a calculation equation for updating the variation parameter θ may be expressed by the following equation.

Figure pat00191
Figure pat00191

여기서, t는 1부터 미리 정해진 자연수 G 사이의 값을 갖는 학습 iteration을 나타내는 숫자이며,

Figure pat00192
는 t시점에서의 변분 모수,
Figure pat00193
는 t+1 시점에서의 변분 모수이고,
Figure pat00194
은 미리 정한 분포에서 임의 생성된 초기 값이며, α는 학습 레이트(learning rate), L은 로스를 나타낸다.Here, t is a number representing a learning iteration having a value between 1 and a predetermined natural number G,
Figure pat00192
Is the variation parameter at time t,
Figure pat00193
Is the variation parameter at time t + 1,
Figure pat00194
Is an initial value randomly generated from a predetermined distribution, α represents a learning rate, and L represents a loss.

한편, 본 발명에서의 교란과정은 과추정(overfitting)을 피하기 위한 효과가 있으며 더 중요하게는 학습 과정이 완료된 후 실제 예측 과정(테스트 과정)에서 불확실성 수량을 추정할 수 있는 장치를 마련해준다. 매 학습 (training) 단위인 반복 학습(iteration)을 기준으로 각 은닉층의 계산 단위인 노드(node)를 임의로 교란하며 백프로퍼게이션(역전파) 과정을 통해서 변분 모수(θ)를 갱신한다. 교란하기 위해 생성된 임의의 에러는 매 반복 학습(iteration) 과정 마다 변경된다. On the other hand, the disturbance process in the present invention has the effect of avoiding overfitting and more importantly provides a device for estimating the amount of uncertainty in the actual prediction process (test process) after the learning process is completed. Based on iteration, which is a training unit, randomly disturbs a node, which is a calculation unit of each hidden layer, and updates a variation parameter θ through a backpropagation process. Any error generated for disturbances changes with every iteration.

본 발명에 따른 변분 추론 방법은, 위에서 설명한 학습 과정을 거처 최적의 변분 모수(θ)를 산출한 다음, 아래와 같은 예측 과정을 수행한다. In the variation inference method according to the present invention, after calculating the optimal variation parameter θ through the learning process described above, the following prediction process is performed.

상기 예측 과정은 최적화된 변분 모수(θ)를 획득한 상태에서, 추론을 위한 테스트용 입력 변수를 입력 받고, 상기 테스트용 입력 변수 x 에 상기 뉴럴 네트워크의 함수

Figure pat00195
를 적용하여 상기 추론 출력
Figure pat00196
를 산출하되, 상기 뉴럴 네트워크의 소정의 층들 사이의 노드 간의 각 웨이트(w)가 소정의 함수 w = S(e, θ)로 정해지도록 하고, 상기 w 가 변분 분포
Figure pat00197
를 따르는 랜덤 변수(random variable) 베이지안 모수가 되도록 하며, 상기 변분 분포
Figure pat00198
가 샘플 사이즈가 커질수록 한점으로 수렴하는 성질을 가질 수 있도록 에러(e)와 상기 함수 (S) - 상기 에러(e)는 상기 변분 분포
Figure pat00199
에 따라 무작위로 생성되는 값이며, 상기 θ는 상기 변분 모수임 - 를 설정하여 상기 추론 출력
Figure pat00200
를 산출한다.The prediction process receives a test input variable for inference in a state of obtaining an optimized variation parameter θ, and a function of the neural network to the test input variable x.
Figure pat00195
Output the inference by applying
Figure pat00196
Is calculated so that each weight w between nodes between predetermined layers of the neural network is determined by a predetermined function w = S (e, θ), and w is the variation distribution.
Figure pat00197
Random variable Bayesian parameter to follow the distribution of the variance
Figure pat00198
The error (e) and the function (S)-the error (e) are the distribution of the variance so that C can have the property of converging to one point as the sample size increases.
Figure pat00199
Is a randomly generated value, and θ is the variation parameter-to set the inference output.
Figure pat00200
Calculate

예를 들어, 학습된 뉴럴 네트워크에서의 최적 모수를 교란하기 위해 학습 과정에서 사용했던 변분 분포에서 T개의 에러를 임의로 생성한다. 이렇게 표집된 에러를

Figure pat00201
라고 한다. 그런 다음, 표집된 에러에 의해 변분 모수 (θ)를 교란을 적용한 웨이트 값으로 계산한다. 그리고 학습 과정과 동일한 방법으로 추론을 위한 테스트용 입력 변수를 이용하여 추론 출력 값을 산출한다.For example, T errors are randomly generated from the variation distribution used in the learning process to disturb the optimal parameters in the learned neural network. This error collected
Figure pat00201
It is called. Then, by the sampled error, the variation parameter θ is calculated as the weight value to which the disturbance is applied. In the same manner as in the learning process, the inference output value is calculated using the test input variable for inference.

도 4는 본 발명에 따른 변분 추론 방법 시 불확정성 수량화(uncertainty quantification)를 위한 출력 분포 값을 산출하는 예를 도시한다. 4 illustrates an example of calculating an output distribution value for uncertainty quantification in the variable inference method according to the present invention.

도 4를 참조하면, 입력 변수 x에 대해 임으로 변분 분포 함수

Figure pat00202
를 따르는 w 1, w 2, w 3, …., w T가 생성되고, 이를 바탕으로 예측 과정(추론 과정)을 T회 반복하면, 소정의 추론 출력
Figure pat00203
,
Figure pat00204
,
Figure pat00205
,….
Figure pat00206
가 생성된다. 즉, 출력에 대한 예측 값(추론 값)이 T가 생성되고, 이 T개의 예측 값(추론 값)들을 이용하여 아래 와 같은 수학식을 사용해서 불확정성을 수량화(uncertainty quantification) 할 수 있다. 즉, 이렇게 T개 산출한 추정 값의 분산 계산을 통해 얼마나 추정 값이 신뢰(confidence)할 만한지를 계산할 수 있다. 아래 첨자 1 내지 T는 T개의 표집 index를 나타낸다.Referring to FIG. 4, an arbitrary distribution function for an input variable x
Figure pat00202
W 1 , w 2 , w 3 ,. ., w T is generated, and based on this, if the prediction process (inference process) is repeated T times, a predetermined reasoning output is performed.
Figure pat00203
,
Figure pat00204
,
Figure pat00205
,… .
Figure pat00206
Is generated. That is, the predicted value (inference value) for the output is generated T, and the uncertainty can be quantified using the following equation using the T predicted values (inference value). That is, it is possible to calculate how reliable the estimated values are through the variance calculation of the T estimated values. Subscripts 1 through T represent T sampling indexes.

한편, Kendall and Gal, 2017 (What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision))에서는 제시한 뉴럴 네트워크의 출력 값을 이용한 불확정성 수량화(uncertainty quantification) 방법은, 분류 문제에서 마지막 은닉층의 출력 값을

Figure pat00207
두 부분으로 구성하며 각각 조건부 기대값과 분산을 추정하였다. Meanwhile, in Kendall and Gal, 2017 (What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision), the method of uncertainty quantification using the output value of the neural network shows the output value of the last hidden layer in the classification problem.
Figure pat00207
Consists of two parts and estimated conditional expectation and variance respectively.

이러한 기존의 방법에서는 마지막 은닉층의 출력 값에 대한 불확정성 값으로 다음의 수학식과 같이 구현하였다.In this conventional method, the uncertainty value of the output value of the last hidden layer is implemented as the following equation.

Figure pat00208
Figure pat00208

여기서

Figure pat00209
이며, t는 1내지 T까지의 근사를 위한 샘플링 횟수인 T개의 표집 Index를 나타낸다.here
Figure pat00209
T denotes T sampling indexes, which are the number of sampling for approximation from 1 to T.

Kendall and Gal이 2017년 제시한 불확정성 수량화 방법은, 확률 추정치에 대한 불확실성 수량이 아니고 마지막 은닉층의 출력 값에 대한 불확실성 수량이므로 해석이 모호하며 실제 자료를 이용할 때 발산되는 경우가 많다. 이는 이항 종속 변수의 평균과 분산관계를 고려하지 않은 채 분산을 별도로 추정함으로 모수를 불필요하게 늘려 학습을 어렵게 하는 문제도 있다.The uncertainty quantification method proposed by Kendall and Gal in 2017 is not an uncertainty quantity for probability estimates but an uncertainty quantity for the output value of the last hidden layer, so the interpretation is ambiguous and often diverges when using real data. This makes it difficult to learn by increasing the parameters unnecessarily by estimating variance separately without considering the mean and variance relation of the binomial dependent variables.

한편, 본 발명에 따른 불확정성 수량화는 다음의 2 부분으로 구성되는데, 그 중 첫 번째 구성은 aleatory variation(무작위 불확정성)으로 자료나 추정으로 줄일 수 없는 inherent variation(근원적 불확정성)이며, 두 번째 구성은 자료의 수가 무한대가 아니기에 추정으로 인해 얻어지는 epistemic variation(인식론적 불확정성)이다.On the other hand, the uncertainty quantification according to the present invention consists of the following two parts, the first of which is aleatory variation (random uncertainty) is inherent variation (source uncertainty) that can not be reduced by data or estimation, and the second configuration is data Since the number of is not infinite, it is the epistemic variation obtained by estimation.

즉, 본 발명에서 제시하는 불확정 수량화 방법은, 산출된 다수의 추론 출력

Figure pat00210
의 분포 값들을 이용하여 epistemic 불확정성 항과 aleatory 불확정성 항을 각각 산출하고, 산출된 epistemic 불확정성 항과 aleatory 불확정성 항의 합으로 불확정성 수량화를 산출하는 방법을 제시한다. 이때, 상기 Aleatory 불확정성 항은 샘플 사이즈가 커져도 기설정된 수치 이하로 줄어들지 않은 항으로, EVPV(expected value of the process variance) 항인 E(Var(Y|X))을 추정하기 위한 항이고, 상기 Epistemic 불확정성 항은 샘플 사이즈가 커지면 상기 기설정된 수치 이하로 줄어드는 항으로 VHM(variance of the hypothetical means) 항인 Var(E(Y|X))을 추정하기 위한 항이다. That is, the indeterminate quantification method proposed in the present invention, the calculated multiple inference output
Figure pat00210
The epistemic uncertainty term and the aleatory uncertainty term are computed using the distribution values of, and the uncertainty quantification is presented by the sum of the calculated epistemic uncertainty term and the aleatory uncertainty term. In this case, the Aleatory uncertainty term is a term for estimating E (Var (Y | X)), which is an EVPV (expected value of the process variance) term, which is not reduced to a predetermined value even when the sample size increases, and the epistemic uncertainty The term is a term for decreasing Var (E (Y | X)), which is a term of variation of the hypothetical means (VHM).

본 발명에서는 불확정성 수량화 단계 또는 그 이전 단계에서 불확정 수량화를 위한 불필요한 모수를 제거함으로 학습의 어려움을 덜 수 있다.In the present invention, it is possible to reduce the difficulty of learning by eliminating unnecessary parameters for indeterminate quantization in the indeterminate quantification step or earlier.

구체적으로, 마지막 은닉층의 출력 값 (확률 추정치)를

Figure pat00211
라고 할 때, 본 발명에서 제시하는 불확정성 수량화 방법은, 아래와 같은 수학식으로 표현될 수 있다.Specifically, the output value (probability estimate) of the last hidden layer
Figure pat00211
In this case, the uncertainty quantification method proposed in the present invention may be expressed by the following equation.

Figure pat00212
Figure pat00212

여기서

Figure pat00213
이며, t는 1내지 T까지의 근사를 위한 샘플링 횟수인 T개의 표집 Index를 나타낸다. 그리고,
Figure pat00214
은, 상기 aleatory 불확정성 항이고,
Figure pat00215
은, 상기 epistemic 불확정성 항을 나타낸다.here
Figure pat00213
T denotes T sampling indexes, which are the number of sampling for approximation from 1 to T. And,
Figure pat00214
Is the aleatory uncertainty term,
Figure pat00215
Represents the epistemic uncertainty term.

종래의 Kendall and Gal에서 제시한 불확정성 수량화 방법은 마지막 은닉층의 출력 값의 분포를 다룬데 비해, 본 발명에 따른 불확정성 수량화 방법은 종속변수의 분포를 직접 다룬다는 차이가 있다.The uncertainty quantification method presented by the conventional Kendall and Gal deals with the distribution of the output value of the last hidden layer, whereas the uncertainty quantification method according to the present invention directly deals with the distribution of the dependent variable.

이를 구체적으로 설명하면, 종래의 Kendall and Gal의 제시 방법은, regression 등에서는 문제가 없지만, classification 등에서는 문제가 발생된다. 예를 들어, classification 에서는 σ와 f 둘다 필요로 하지 않고, 이러한 모수들은 linear predictor에 대한 계산 값일 뿐, 확률에 대한 계산 값이 아니어서, 확률을 추정하는 데 sigmoid 등과 같은 함수에 입력되는 값들이 아닌 문제점이 있다.Specifically, the conventional Kendall and Gal presentation method has no problem in regression and the like, but a problem occurs in classification and the like. For example, classification does not require both σ and f, and these parameters are only calculations for the linear predictor, not calculations for probabilities, and are not values entered into functions such as sigmoid to estimate probabilities. There is a problem.

또한, 기존 방법에서는, 불확정성 수량화만을 위한 모수를 더 구해야 하는 과정을 거쳐야 하며, 이론적으로 자연스럽지 못한 방법이라는 문제가 있었다. In addition, the existing method has to go through the process of obtaining more parameters only for the uncertainty quantification, and there is a problem that the method is theoretically unnatural.

이에 비해 본 발명에 따른 변분 추론 방법은, 불확정성 수량화 시에 산출하는 항목을 분할하는 것은 기존과 동일하지만, 이산형 자료의 분포적 특성인 분산과 평균의 연관성을 무시하지 않고, 분산과 평균의 연관성을 살려 더 자연스럽게 표현되며, 종속 변수가 이산형 자료인 경우에, classification 응용 시 확률 추정치가 0 또는 1에 가까울수록 분산에 해당하는 값이 0으로 수렴하는 현상을 반영할 수 있다는 장점이 존재한다. On the other hand, in the variational reasoning method according to the present invention, although it is the same to divide the items calculated at the time of uncertainty quantification, the correlation between the variance and the mean without ignoring the correlation between the variance and the mean, which is a distribution characteristic of the discrete data. If the dependent variable is discrete data, the advantage that the probability estimate is close to 0 or 1 in the classification application may reflect the convergence of zero.

또한 본 발명에 따른 변분 추론 방법은, 자료의 불균형이 심한 경우에도 학습이 불안정함으로써 발산하기 쉽다는 점, 즉, 불균형이 심한 자료에서 한 범주의 자료만을 이용하여 loss를 계산하면 numerical stability 가 낮아지는 점도 해결할 수 있는 장점이 존재한다. In addition, the variable inference method according to the present invention is easy to diverge because learning is unstable even when the data are severely unbalanced, that is, numerical stability is lowered when the loss is calculated using only one category of data in the severely unbalanced data. There is an advantage to solve the viscosity.

한편, 본 발명에 따른 변분 추론 방법은, 학습 과정이나 추론 과정에서 위에서 설명한 교란층을 사용하지 않고 기존의 dropout layer를 사용하는 경우에도 수학식 6의 불확정성 수량화 방법을 그대로 적용할 수 있는 장점이 있다.On the other hand, the variable inference method according to the present invention has the advantage that the uncertainty quantification method of Equation 6 can be applied as it is even when the existing dropout layer is used without using the disturbance layer described above in the learning process or the inference process. .

본 발명 기술분야의 통상의 기술자에게 이해될 수 있는 바로서, 위에서 설명된 입력 변수, 목표 변수의 송수신이 학습 장치 및 추론 장치의 통신부들에 의하여 이루어질 수 있으며, 특징 맵과 연산을 수행하기 위한 데이터가 학습 장치 및 추론 장치의 프로세서(및/또는 메모리)에 의하여 보유/유지될 수 있고, 컨벌루션 연산, 디컨벌루션 연산, 로스 값 연산 과정이 주로 학습 장치 및 추론 장치의 프로세서에 의하여 수행될 수 있으나, 이에 한정되지는 않을 것이다. As will be understood by those skilled in the art, the transmission and reception of the input variable and the target variable described above may be performed by the communication units of the learning apparatus and the inference apparatus, and the data for performing the feature map and the calculation. May be held / maintained by the processor (and / or memory) of the learning apparatus and the inference apparatus, and the convolutional operation, the deconvolution operation, and the loss value calculation process may be mainly performed by the processor of the learning apparatus and the inference apparatus. It will not be limited to this.

이상 설명된 본 발명에 따른 실시예들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다. Embodiments according to the present invention described above may be implemented in the form of program instructions that may be executed by various computer components, and may be recorded in a computer-readable recording medium. The computer-readable recording medium may include program instructions, data files, data structures, etc. alone or in combination. Program instructions recorded on the computer-readable recording medium may be those specially designed and configured for the present invention, or may be known and available to those skilled in the computer software arts. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks and magnetic tape, optical recording media such as CD-ROMs, DVDs, and magneto-optical media such as floptical disks. media) and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like. Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like. The hardware device may be configured to operate as one or more software modules to perform the process according to the invention, and vice versa.

이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.Although the present invention has been described by specific embodiments such as specific components and the like, but the embodiments and the drawings are provided to assist in a more general understanding of the present invention, the present invention is not limited to the above embodiments. For those skilled in the art, various modifications and variations can be made from these descriptions.

따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다. Accordingly, the spirit of the present invention should not be limited to the above-described embodiments, and all of the equivalents or equivalents of the claims, as well as the appended claims, fall within the scope of the spirit of the present invention. I will say.

Claims (18)

뉴럴 네트워크의 입력 변수(input variable) 집합에 속한 각 원소 값들에 대해 웨이트 및 바이어스를 포함하는 소정의 변분 모수를 이용하여 소정의 연산을 수행하여 생성된 하나 이상의 은닉층을 거쳐 상기 뉴럴 네트워크의 추론 출력 값을 산출하는,
Figure pat00216
: X -> Y로 정의(여기서
Figure pat00217
는 입력 변수 집합 X의 원소인 x에 대하여 W를 모수로 가지는 뉴럴 네트워크의 출력 값이고, 상기 함수
Figure pat00218
는 입력 변수 집합 X를 정의역으로 목표 변수 집합 Y를 공역으로 가진다)되는 뉴럴 네트워크를 이용한 변분 추론 방법에 있어서,
(a) 학습용 입력 변수 및 목표 변수를 입력받고, 소정의 학습용 출력
Figure pat00219
를 산출한 후, 상기 입력 변수와 상기 학습용 출력 값을 참조로 하여 로스를 최소화하도록 상기 변분 모수를 최적화하는 학습 단계를 거친 상태에서, 서버가, 테스트용 입력 변수 x에 상기 뉴럴 네트워크의 함수
Figure pat00220
를 적용하여 상기 추론 출력
Figure pat00221
를 산출하되, 상기 테스트용 입력 변수에 상기 변분 모수의 구성의 변경에 따라 상기 뉴럴 네트워크의 상기 추론 출력
Figure pat00222
산출 과정을 다수 회 반복 수행하여, 다수의 출력 출력의 분포 값들을 산출하는 단계; 및
(b) 상기 서버가, 상기 추론 출력값의 확률 추정치에 대한 불확정성 수량화를 산출하되, 상기 산출된 다수의 추론 출력
Figure pat00223
의 분포 값들을 이용하여 epistemic 불확정성 항과 aleatory 불확정성 항을 각각 산출하고, 산출된 상기 epistemic 불확정성 항과 상기 aleatory 불확정성 항의 합으로 상기 불확정성 수량화를 산출하는 단계;
를 포함하며,
여기서, 상기 Aleatory 불확정성 항은 샘플 사이즈가 커져도 기설정된 수치 이하로 줄어들지 않은 항으로, EVPV(expected value of the process variance) 항인 E(Var(Y|X))을 추정하기 위한 항이고, 상기 Epistemic 불확정성 항은 샘플 사이즈가 커지면 상기 기설정된 수치 이하로 줄어드는 항으로 VHM(variance of the hypothetical means) 항인 Var(E(Y|X))을 추정하기 위한 항인 것을 특징으로 하는 뉴럴 네트워크를 이용한 변분 추론 방법.
Inference output value of the neural network through one or more hidden layers generated by performing a predetermined operation using predetermined variable parameters including weight and bias for each element value belonging to the set of input variables of the neural network To calculate,
Figure pat00216
: Defined as X-> Y, where
Figure pat00217
Is an output value of a neural network having W as a parameter for x, which is an element of the input variable set X, and the function
Figure pat00218
In the method of variable inference using a neural network in which an input variable set X is defined as a domain and a target variable set Y is conjugated),
(a) receiving a learning input variable and a target variable and outputting predetermined learning;
Figure pat00219
After calculating the, after the learning step of optimizing the variation parameters to minimize the loss by referring to the input variable and the learning output value, the server, the function of the neural network to the test input variable x
Figure pat00220
Output the inference by applying
Figure pat00221
Calculates the output of the inference of the neural network according to a change in the configuration of the variation parameter in the test input variable.
Figure pat00222
Repeating the calculation process a plurality of times to calculate distribution values of the plurality of outputs; And
(b) the server calculates an uncertainty quantification of the probability estimate of the inference output, wherein the calculated plurality of inference outputs
Figure pat00223
Calculating an epistemic uncertainty term and an aleatory uncertainty term using distribution values of, and calculating the uncertainty quantification by the sum of the calculated epistemic uncertainty term and the aleatory uncertainty term;
Including;
Here, the Aleatory uncertainty term is a term for estimating E (Var (Y | X)), which is an EVPV (expected value of the process variance) term, which is not reduced to a predetermined value even when the sample size increases, and the epistemic uncertainty And a term for estimating VHM (variance of the hypothetical means) term Var (E (Y | X)), wherein the term decreases below the predetermined value as the sample size increases.
제 1 항에 있어서,
상기 (b) 단계는, 아래 수학식을 통해
Figure pat00224

- 여기서
Figure pat00225
이고, t는 1내지 T까지의 T개의 표집 Index를 나타냄 -
상기 불확정성 수량화를 산출하며,
여기서, 상기 aleatory 불확정성 항은
Figure pat00226
이며,
상기 epistemic 불확정성 항은
Figure pat00227
인 것을 특징으로 하는 뉴럴 네트워크를 이용한 변분 추론 방법.
The method of claim 1,
Step (b) is through the following equation
Figure pat00224

- here
Figure pat00225
T represents T sampling indexes from 1 to T −
Calculating the uncertainty quantification,
Wherein the aleatory uncertainty term is
Figure pat00226
Is,
The epistemic uncertainty term is
Figure pat00227
Variable inference method using a neural network, characterized in that.
제 2 항에 있어서,
상기 (a) 단계는, 상기 뉴럴 네트워크의 소정의 층들 사이의 노드 간의 각 웨이트(w)가 변분 분포
Figure pat00228
를 따르는 랜덤 변수(random variable) 베이지안 모수가 되도록 하는 것을 특징으로 하는 뉴럴 네트워크를 이용한 변분 추론 방법.
The method of claim 2,
In the step (a), each weight w between nodes between predetermined layers of the neural network is distributed by variation.
Figure pat00228
A variable inference method using a neural network, characterized in that the random variable follows a Bayesian parameter.
제 3 항에 있어서,
상기 (a) 단계는, 상기 각 웨이트(w)가 소정의 함수 w =S(e, θ)로 정해지도록 하고, 상기 변분 분포
Figure pat00229
가 샘플 사이즈가 커질수록 한점으로 수렴하는 성질을 가질 수 있도록 에러(e)와 상기 함수 (S) - 상기 에러(e)는 상기 변분 분포
Figure pat00230
에 따라 무작위로 생성되는 값이며, 상기 θ는 상기 변분 모수임 - 를 설정하여 상기 추론 출력
Figure pat00231
를 산출하는 것을 특징으로 하는 뉴럴 네트워크를 이용한 변분 추론 방법.
The method of claim 3, wherein
In the step (a), the respective weights w are defined by a predetermined function w = S (e, θ), and the variation distribution
Figure pat00229
Error (e) and the function (S)-the error (e) are the distribution of the variance so that
Figure pat00230
Is a randomly generated value, and θ is the variation parameter-to set the inference output.
Figure pat00231
Variable inference method using a neural network, characterized in that for calculating the.
제 1 항에 있어서,
상기 학습 단계는, (i) 상기 학습용 입력 변수 x 및 목표 변수 y 를 입력 받는 프로세스; (ii) 상기 학습용 입력 변수 x에 상기 뉴럴 네트워크의 함수
Figure pat00232
를 이용하여 상기 학습용 출력
Figure pat00233
를 산출하되, 상기 뉴럴 네트워크의 소정의 층들 사이의 노드 간의 각 웨이트(w)가 소정의 함수 w =S(e, θ)로 정해지도록 하고, 상기 w 가 변분 분포
Figure pat00234
를 따르는 랜덤 변수(random variable) 베이지안 모수가 되도록 하며, 상기 변분 분포
Figure pat00235
가 샘플 사이즈가 커질수록 한점으로 수렴하는 성질을 가질 수 있도록 에러(e)와 상기 함수 (S) - 상기 에러(e)는 상기 변분 분포
Figure pat00236
에 따라 무작위로 생성되는 값이며, 상기 θ는 변분 모수 임 - 를 설정하여 상기 학습용 출력
Figure pat00237
를 산출하는 프로세스; (iii) 상기 입력 변수와 상기 학습용 출력 값을 참조로 하여 로스를 산출하는 프로세스; 및 (iv) 상기 로스를 최소화하도록 백프로퍼게이션 알고리즘을 수행하여, 상기 변분 모수(θ)를 최적화하는 프로세스; 를 통해 상기 최적화된 변분 모수(θ)를 획득하는 것을 특징으로 하는 뉴럴 네트워크를 이용한 변분 추론 방법.
The method of claim 1,
The learning step may include: (i) a process of receiving the learning input variable x and the target variable y; (ii) a function of the neural network on the learning input variable x
Figure pat00232
The learning output using
Figure pat00233
Is calculated so that each weight w between nodes between predetermined layers of the neural network is defined by a predetermined function w = S (e, θ), and w is the variation distribution.
Figure pat00234
Random variable Bayesian parameter to follow the distribution of the variance
Figure pat00235
The error (e) and the function (S)-the error (e) are the distribution of the variance so that C can have the property of converging to one point as the sample size increases.
Figure pat00236
Is a randomly generated value, and θ is a variation parameter-to set the learning output.
Figure pat00237
Calculating a process; (iii) calculating a loss with reference to the input variable and the learning output value; And (iv) performing a backpropagation algorithm to minimize the loss, thereby optimizing the variation parameter θ; Variable inference method using a neural network, characterized in that to obtain the optimized variation parameter (θ) through.
제 5 항에 있어서,
상기 학습 단계 및 상기 (a) 단계는, 상기 에러(e)와 상기 변분 모수를 참조하여 생성된 웨이트로 형성된 교란층을 이용하여 각각의 은닉층을 생성하고,
상기 에러 (e) 는 소정의 평균 값과 소정의 분산 함수 (g(n)) 값으로 이루어진 분포를 갖되, 상기 분산 함수는 n 이 커질수록 0으로 수렴하는 것을 특징으로 하는 뉴럴 네트워크를 이용한 변분 추론 방법.
The method of claim 5,
In the learning step and the step (a), each hidden layer is generated by using a disturbance layer formed of weights generated by referring to the error (e) and the variation parameter,
The error (e) has a distribution consisting of a predetermined mean value and a predetermined variance function (g (n)) value, and the variance function converges to zero as n becomes larger. Way.
제 5 항에 있어서,
상기 함수 S는 뉴럴 네트워크의 소정의 층들 사이의 노드 간의 기본 웨이트(M)들에 대응되는 변분 모수와 상기 에러(e)를 곱하여, 상기 기본 웨이트(M)들 및 이에 대응하는 노드를 교란하기 위한 교란 함수이며,
상기 교란층은 상기 교란 함수를 통해, 입력 또는 이전 은닉층의 노드들의 값에 상기 교란 함수를 이용하여 도출된 웨이트(w)를 곱하여 다음 은닉층 또는 출력을 생성하는 것을 특징으로 하는 뉴럴 네트워크를 이용한 변분 추론 방법.
The method of claim 5,
The function S multiplies the error parameter e by a variation parameter corresponding to basic weights M between nodes between predetermined layers of a neural network, so as to disturb the basic weights M and corresponding nodes. Is a disturbing function,
The disturbance layer generates a next hidden layer or output by multiplying a value of nodes of an input or previous hidden layer by the weight w through the disturbance function to generate a next hidden layer or output. Way.
제 5 항에 있어서,
상기 웨이트(w)가 상기 변분 모수(θ)와 상기 에러(e) 사이의 element-wise 곱을 포함하는 함수로 형성되는 경우, 상기 에러(e)는 평균이 1이고, 분산이 g(n)인 분포를 이루고, 이때, 상기 g(n) 은 n 이 커질수록 0으로 수렴하는 함수인 것을 특징으로 하는 뉴럴 네트워크를 이용한 변분 추론 방법.
The method of claim 5,
When the weight w is formed as a function comprising an element-wise product between the variation parameter θ and the error e , the error e has an average of 1 and a variance of g (n). In this case, g (n) is a function of converging to 0 as n becomes larger.
제 5 항에 있어서,
상기 웨이트(w)가 상기 변분 모수(θ)와 상기 에러(e) 사이의 element-wise 합을 포함하는 함수로 형성되는 경우, 상기 에러(e)는 평균이 0이고, 분산이 g(n)인 분포를 이루고, 이때, 상기 g(n) 은 n 이 커질수록 0으로 수렴하는 함수인 것을 특징으로 하는 뉴럴 네트워크를 이용한 변분 추론 방법.
The method of claim 5,
When the weight w is formed as a function comprising an element-wise sum between the variation parameter θ and the error e , the error e has an average of 0 and the variance is g (n). And a distribution of phosphorus, wherein g (n) is a function of converging to 0 as n becomes larger.
뉴럴 네트워크의 입력 변수(input variable) 집합에 속한 각 원소 값들에 대해 웨이트 및 바이어스를 포함하는 소정의 변분 모수를 이용하여 소정의 연산을 수행하여 생성된 하나 이상의 은닉층을 거쳐 상기 뉴럴 네트워크의 추론 출력 값을 산출하는,
Figure pat00238
: X -> Y로 정의(여기서
Figure pat00239
는 입력 변수 집합 X의 원소인 x에 대하여 W를 모수로 가지는 뉴럴 네트워크의 출력 값이고, 상기 함수
Figure pat00240
는 입력 변수 집합 X를 정의역으로 목표 변수 집합 Y를 공역으로 가진다)되는 뉴럴 네트워크를 이용한 변분 추론 장치에 있어서,
상기 입력 변수를 수신하는 통신부; 및
(1) 학습용 입력 변수 및 목표 변수를 입력받고, 소정의 학습용 출력
Figure pat00241
를 산출한 후, 상기 입력 변수와 상기 학습용 출력 값을 참조로 하여 로스를 최소화하도록 상기 변분 모수를 최적화하는 학습 단계를 거친 상태에서, 테스트용 입력 변수 x 에 상기 뉴럴 네트워크의 함수
Figure pat00242
를 적용하여 상기 추론 출력
Figure pat00243
를 산출하되, 상기 테스트용 입력 변수에 상기 변분 모수의 구성의 변경에 따라 상기 뉴럴 네트워크의 상기 추론 출력
Figure pat00244
산출 과정을 다수 회 반복 수행하여, 다수의 출력 출력의 분포 값들을 산출하는 프로세스; 및 (2) 상기 추론 출력값의 확률 추정치에 대한 불확정성 수량화를 산출하되, 상기 산출된 다수의 추론 출력
Figure pat00245
의 분포 값들을 이용하여 epistemic 불확정성 항과 aleatory 불확정성 항을 각각 산출하고, 산출된 상기 epistemic 불확정성 항과 상기 aleatory 불확정성 항의 합으로 상기 불확정성 수량화를 산출하는 프로세스;를 수행하는 프로세서를 포함하며,
여기서, 상기 Aleatory 불확정성 항은 샘플 사이즈가 커져도 기설정된 수치 이하로 줄어들지 않은 항으로, EVPV(expected value of the process variance) 항인 E(Var(Y|X))을 추정하기 위한 항이고, 상기 Epistemic 불확정성 항은 샘플 사이즈가 커지면 상기 기설정된 수치 이하로 줄어드는 항으로 VHM(variance of the hypothetical means) 항인 Var(E(Y|X))을 추정하기 위한 항인 것을 특징으로 하는 뉴럴 네트워크를 이용한 변분 추론 장치.
Inference output value of the neural network through one or more hidden layers generated by performing a predetermined operation using predetermined variable parameters including weights and biases for each element value belonging to a set of input variables of the neural network. To calculate,
Figure pat00238
: Defined as X-> Y, where
Figure pat00239
Is an output value of a neural network having W as a parameter for x, which is an element of the input variable set X, and the function
Figure pat00240
In the variable inference apparatus using a neural network, wherein input variable set X is defined as domain and target variable set Y is conjugated).
A communication unit for receiving the input variable; And
(1) Receive input of learning input variable and target variable, and output predetermined learning
Figure pat00241
After calculating the, after the learning step of optimizing the variation parameter to minimize the loss by referring to the input variable and the learning output value, the function of the neural network to the test input variable x
Figure pat00242
Output the inference by applying
Figure pat00243
Calculates the output of the inference of the neural network according to a change in the configuration of the variation parameter in the test input variable.
Figure pat00244
Repeating the calculating process a plurality of times to calculate distribution values of the plurality of outputs; And (2) calculating an uncertainty quantification of the probability estimate of the inference output, wherein the calculated plurality of inference outputs
Figure pat00245
A process of calculating an epistemic uncertainty term and an aleatory uncertainty term using distribution values of and calculating the uncertainty quantification by the sum of the calculated epistemic uncertainty term and the aleatory uncertainty term;
Here, the Aleatory uncertainty term is a term for estimating E (Var (Y | X)), which is an EVPV (expected value of the process variance) term, which is not reduced to a predetermined value even when the sample size increases, and the epistemic uncertainty And a term for estimating a variation of the hypothetical means (VHM) term Var (E (Y | X)), wherein the term decreases below the predetermined value when the sample size increases.
제 10 항에 있어서,
상기 (2) 프로세스는, 아래 수학식을 통해
Figure pat00246

- 여기서
Figure pat00247
이고, t는 1내지 T까지의 T개의 표집 Index를 나타냄 -
상기 불확정성 수량화를 산출하며,
여기서, 상기 aleatory 불확정성 항은
Figure pat00248
이며,
상기 epistemic 불확정성 항은
Figure pat00249
인 것을 특징으로 하는 뉴럴 네트워크를 이용한 변분 추론 장치.
The method of claim 10,
The process (2) is through the following equation
Figure pat00246

- here
Figure pat00247
T represents T sampling indexes from 1 to T −
Calculating the uncertainty quantification,
Wherein the aleatory uncertainty term is
Figure pat00248
Is,
The epistemic uncertainty term is
Figure pat00249
Variable inference device using a neural network, characterized in that.
제 11 항에 있어서,
상기 (1) 프로세스는, 상기 뉴럴 네트워크의 소정의 층들 사이의 노드 간의 각 웨이트(w)가 변분 분포
Figure pat00250
를 따르는 랜덤 변수(random variable) 베이지안 모수가 되도록 하는 것을 특징으로 하는 뉴럴 네트워크를 이용한 변분 추론 장치.
The method of claim 11,
In the process (1), each weight w between nodes between predetermined layers of the neural network is distributed by variation.
Figure pat00250
Random variable (random variable) according to the variable inference apparatus using a neural network, characterized in that to be.
제 12 항에 있어서,
상기 (1) 프로세스는, 상기 각 웨이트(w)가 소정의 함수 w =S(e, θ)로 정해지도록 하고, 상기 변분 분포
Figure pat00251
가 샘플 사이즈가 커질수록 한점으로 수렴하는 성질을 가질 수 있도록 에러(e)와 상기 함수 (S) - 상기 에러(e)는 상기 변분 분포
Figure pat00252
에 따라 무작위로 생성되는 값이며, 상기 θ는 상기 변분 모수임 - 를 설정하여 상기 추론 출력
Figure pat00253
를 산출하는 것을 특징으로 하는 뉴럴 네트워크를 이용한 변분 추론 장치.
The method of claim 12,
The process (1) allows each weight w to be determined by a predetermined function w = S (e, θ), and the variation distribution
Figure pat00251
Error (e) and the function (S)-the error (e) are the distribution of the variance so that
Figure pat00252
Is a randomly generated value, and θ is the variation parameter-to set the inference output.
Figure pat00253
Variable inference apparatus using a neural network, characterized in that for calculating the.
제 10 항에 있어서,
상기 학습 단계는, (i) 상기 학습용 입력 변수 x 및 목표 변수 y 를 입력 받는 프로세스; (ii) 상기 학습용 입력 변수 x에 상기 뉴럴 네트워크의 함수
Figure pat00254
를 이용하여 상기 학습용 출력
Figure pat00255
를 산출하되, 상기 뉴럴 네트워크의 소정의 층들 사이의 노드 간의 각 웨이트(w)가 소정의 함수 w =S(e, θ)로 정해지도록 하고, 상기 w 가 변분 분포
Figure pat00256
를 따르는 랜덤 변수(random variable) 베이지안 모수가 되도록 하며, 상기 변분 분포
Figure pat00257
가 샘플 사이즈가 커질수록 한점으로 수렴하는 성질을 가질 수 있도록 에러(e)와 상기 함수 (S) - 상기 에러(e)는 상기 변분 분포
Figure pat00258
에 따라 무작위로 생성되는 값이며, 상기 θ는 변분 모수 임 - 를 설정하여 상기 학습용 출력
Figure pat00259
를 산출하는 프로세스; (iii) 상기 입력 변수와 상기 학습용 출력 값을 참조로 하여 로스를 산출하는 프로세스; 및 (iv) 상기 로스를 최소화하도록 백프로퍼게이션 알고리즘을 수행하여, 상기 변분 모수(θ)를 최적화하는 프로세스; 를 통해 상기 최적화된 변분 모수(θ)를 획득하는 것을 특징으로 하는 뉴럴 네트워크를 이용한 변분 추론 장치.
The method of claim 10,
The learning step may include: (i) a process of receiving the learning input variable x and the target variable y; (ii) a function of the neural network on the learning input variable x
Figure pat00254
The learning output using
Figure pat00255
Is calculated so that each weight w between nodes between predetermined layers of the neural network is defined by a predetermined function w = S (e, θ), and w is the variation distribution.
Figure pat00256
Random variable Bayesian parameter to follow the distribution of the variance
Figure pat00257
Error (e) and the function (S)-the error (e) are the distribution of the variance so that
Figure pat00258
Is a randomly generated value, and θ is a variation parameter-to set the learning output.
Figure pat00259
Calculating a process; (iii) calculating a loss with reference to the input variable and the learning output value; And (iv) performing a backpropagation algorithm to minimize the loss, thereby optimizing the variation parameter θ; Variable inference apparatus using a neural network, characterized in that to obtain the optimized variation parameter (θ) through.
제 14 항에 있어서,
상기 학습 단계 및 상기 (1) 프로세스는, 상기 에러(e)와 상기 변분 모수를 참조하여 생성된 웨이트로 형성된 교란층을 이용하여 각각의 은닉층을 생성하고,
상기 에러 (e) 는 소정의 평균 값과 소정의 분산 함수 (g(n)) 값으로 이루어진 분포를 갖되, 상기 분산 함수는 n 이 커질수록 0으로 수렴하는 것을 특징으로 하는 뉴럴 네트워크를 이용한 변분 추론 장치.
The method of claim 14,
The learning step and the process (1) generate each hidden layer using a disturbing layer formed of weights generated by referring to the error (e) and the variation parameter,
The error (e) has a distribution consisting of a predetermined mean value and a predetermined variance function (g (n)) value, and the variance function converges to zero as n becomes larger. Device.
제 14 항에 있어서,
상기 함수 S는 뉴럴 네트워크의 소정의 층들 사이의 노드 간의 기본 웨이트(M)들에 대응되는 변분 모수와 상기 에러(e)를 곱하여, 상기 기본 웨이트(M)들 및 이에 대응하는 노드를 교란하기 위한 교란 함수이며,
상기 교란층은 상기 교란 함수를 통해, 입력 또는 이전 은닉층의 노드들의 값에 상기 교란 함수를 이용하여 도출된 웨이트(w)를 곱하여 다음 은닉층 또는 출력을 생성하는 것을 특징으로 하는 뉴럴 네트워크를 이용한 변분 추론 장치.
The method of claim 14,
The function S multiplies the error parameter e by a variation parameter corresponding to basic weights M between nodes between predetermined layers of a neural network, so as to disturb the basic weights M and corresponding nodes. Is a disturbing function,
The disturbance layer generates a next hidden layer or output by multiplying a value of nodes of an input or previous hidden layer by the weight w through the disturbance function to generate a next hidden layer or output. Device.
제 14 항에 있어서,
상기 웨이트(w)가 상기 변분 모수(θ)와 상기 에러(e) 사이의 element-wise 곱을 포함하는 함수로 형성되는 경우, 상기 에러(e)는 평균이 1이고, 분산이 g(n)인 분포를 이루고, 이때, 상기 g(n) 은 n 이 커질수록 0으로 수렴하는 함수인 것을 특징으로 하는 뉴럴 네트워크를 이용한 변분 추론 장치.
The method of claim 14,
When the weight w is formed as a function comprising an element-wise product between the variation parameter θ and the error e , the error e has an average of 1 and a variance of g (n). Wherein, g (n) is a function that converges to 0 as n becomes larger.
제 14 항에 있어서,
상기 웨이트(w)가 상기 변분 모수(θ)와 상기 에러(e) 사이의 element-wise 합을 포함하는 함수로 형성되는 경우, 상기 에러(e)는 평균이 0이고, 분산이 g(n)인 분포를 이루고, 이때, 상기 g(n) 은 n 이 커질수록 0으로 수렴하는 함수인 것을 특징으로 하는 뉴럴 네트워크를 이용한 변분 추론 장치.
The method of claim 14,
When the weight w is formed as a function comprising an element-wise sum between the variation parameter θ and the error e , the error e has an average of 0 and the variance is g (n). And a distribution of phosphorus, wherein g (n) is a function of converging to 0 as n becomes larger.
KR1020180054047A 2018-05-11 2018-05-11 Method and device for variational interference using neural network KR102110316B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180054047A KR102110316B1 (en) 2018-05-11 2018-05-11 Method and device for variational interference using neural network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180054047A KR102110316B1 (en) 2018-05-11 2018-05-11 Method and device for variational interference using neural network

Publications (2)

Publication Number Publication Date
KR20190129422A true KR20190129422A (en) 2019-11-20
KR102110316B1 KR102110316B1 (en) 2020-05-13

Family

ID=68729271

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180054047A KR102110316B1 (en) 2018-05-11 2018-05-11 Method and device for variational interference using neural network

Country Status (1)

Country Link
KR (1) KR102110316B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401518A (en) * 2020-03-04 2020-07-10 杭州嘉楠耘智信息科技有限公司 Neural network quantization method and device and computer readable storage medium
CN115512172A (en) * 2022-09-30 2022-12-23 赵营鸽 Uncertainty quantification method for multi-dimensional parameters in electrical impedance imaging technology

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Adji Bousso Dieng, Dustin Tran, Rajesh Ranganath, John Paisley, and David Blei. Variational inference via x upper bound minimization. In Advances in Neural Information Processing Systems. 2017. *
Alex Kendall and Yarin Gal. What uncertainties do we need in bayesian deep learning for computer vision? In Advances in Neural Information Processing Systems. 2017. *
Charles Blundell, et al. Weight uncertainty in neural networks. arXiv preprint arXiv:1505.05424. 2015.5.21. *
Kendall, Alex, and Yarin Gal. What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision?. arXiv preprint arXiv:1703.04977. 2017.10.5.* *
Kwon, Yongchan, et al. Uncertainty quantification using bayesian neural networks in classification: Application to ischemic stroke lesion segmentation. OpenReview.net. 2018.4.13.* *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401518A (en) * 2020-03-04 2020-07-10 杭州嘉楠耘智信息科技有限公司 Neural network quantization method and device and computer readable storage medium
CN111401518B (en) * 2020-03-04 2024-06-04 北京硅升科技有限公司 Neural network quantization method, device and computer readable storage medium
CN115512172A (en) * 2022-09-30 2022-12-23 赵营鸽 Uncertainty quantification method for multi-dimensional parameters in electrical impedance imaging technology
CN115512172B (en) * 2022-09-30 2023-09-15 赵营鸽 Uncertainty quantification method for multidimensional parameters in electrical impedance imaging technology

Also Published As

Publication number Publication date
KR102110316B1 (en) 2020-05-13

Similar Documents

Publication Publication Date Title
US10762426B2 (en) Multi-iteration compression for deep neural networks
JP6625785B1 (en) Data discriminator training method, data discriminator training apparatus, program, and training method
Labach et al. Survey of dropout methods for deep neural networks
CN110503192A (en) The effective neural framework of resource
CN111079931A (en) State space probabilistic multi-time-series prediction method based on graph neural network
CN110995487B (en) Multi-service quality prediction method and device, computer equipment and readable storage medium
CN113852432B (en) Spectrum Prediction Sensing Method Based on RCS-GRU Model
CN113313947A (en) Road condition evaluation method of short-term traffic prediction graph convolution network
CN111104595A (en) Deep reinforcement learning interactive recommendation method and system based on text information
JP2023535227A (en) Method, Apparatus, and Computing Device for Updating AI Models, and Storage Medium
CN111260124A (en) Chaos time sequence prediction method based on attention mechanism deep learning
Azzouz et al. Steady state IBEA assisted by MLP neural networks for expensive multi-objective optimization problems
Mesquita et al. Embarrassingly parallel MCMC using deep invertible transformations
CN113591988B (en) Knowledge cognitive structure analysis method, system, computer equipment, medium and terminal
CN115018193A (en) Time series wind energy data prediction method based on LSTM-GA model
CN114169645A (en) Short-term load prediction method for smart power grid
CN111260056B (en) Network model distillation method and device
CN110232151B (en) Construction method of QoS (quality of service) prediction model for mixed probability distribution detection
KR20190129422A (en) Method and device for variational interference using neural network
Regazzoni et al. A physics-informed multi-fidelity approach for the estimation of differential equations parameters in low-data or large-noise regimes
CN117313160B (en) Privacy-enhanced structured data simulation generation method and system
KR102120150B1 (en) Learning method and learning device for variational interference using neural network and test method and test device for variational interference using the same
WO2019234156A1 (en) Training spectral inference neural networks using bilevel optimization
Tembine Mean field stochastic games: Convergence, Q/H-learning and optimality
CN117636183A (en) Small sample remote sensing image classification method based on self-supervision pre-training

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant