JPH07160659A - Learning system - Google Patents

Learning system

Info

Publication number
JPH07160659A
JPH07160659A JP5329735A JP32973593A JPH07160659A JP H07160659 A JPH07160659 A JP H07160659A JP 5329735 A JP5329735 A JP 5329735A JP 32973593 A JP32973593 A JP 32973593A JP H07160659 A JPH07160659 A JP H07160659A
Authority
JP
Japan
Prior art keywords
parameter
learning
time
learning method
probability density
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5329735A
Other languages
Japanese (ja)
Inventor
Sumio Watanabe
澄夫 渡辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP5329735A priority Critical patent/JPH07160659A/en
Publication of JPH07160659A publication Critical patent/JPH07160659A/en
Pending legal-status Critical Current

Links

Landscapes

  • Feedback Control In General (AREA)

Abstract

PURPOSE:To efficiently perform learning (optimization) with less computation amount and computation time compared to a conventional practice in the learning (optimization) of the system or the like of a neural network or the like. CONSTITUTION:This system is provided with a learning part 1 for performing the learning (optimization) of the system SYS of the neural network or the like so as to optimize the structure of the system SYS, the learning part 1 uses a function provided with learning time as a variable and capable of continuous differentiation for a prescribed parameter to be optimized for converging to a prescribed information amount standard when the learning time becomes infinity and obtains the optimum parameter of the system SYS.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、文字認識,画像認識,
音声認識,ロボット制御,株価予測等の種々の分野に利
用される学習方式に関する。
BACKGROUND OF THE INVENTION The present invention relates to character recognition, image recognition,
The present invention relates to learning methods used in various fields such as voice recognition, robot control, and stock price prediction.

【0002】[0002]

【従来の技術】従来、例えば、自由度FのパラメータW
をもつニューラルネットワークP(W;x,y)の学習
において、S個の学習データ{(xi,yi);i=1,
2,…,S}が与えられた場合を考えると、ニューラル
ネットワークの学習は、通常、次式によって与えられる
対数尤度関数l(W)を最大にするパラメータWを最尤推
定量として求めることによって行なわれる。
2. Description of the Related Art Conventionally, for example, a parameter W having a degree of freedom F is used.
In learning of a neural network P (W; x, y) having S, there are S pieces of learning data {(x i , y i ); i = 1,
2, ..., S} is given, the learning of the neural network is usually to find the parameter W that maximizes the log-likelihood function l (W) given by the following equation as the maximum likelihood estimator. Done by.

【0003】[0003]

【数1】 [Equation 1]

【0004】しかしながら、ニューラルネットワークの
自由度が大き過ぎる場合には、未知の入力に対する出力
を保証しうる最尤推定量を得ることができない場合があ
る。
However, if the degree of freedom of the neural network is too large, it may not be possible to obtain the maximum likelihood estimator that can guarantee the output with respect to the unknown input.

【0005】そこで、従来では、著者“赤池”らによる
文献「“情報量基準AICとは何か”、数理科学,NO.1
53,PP.955〜965,1991」などに示されているように、情
報量基準として、次式のような、予測誤差を最小にする
基準AICや、データとモデルの記述長を最小にする基
準MDLなどを用いる方法が提案されている。
[0005] Therefore, conventionally, the author "Akaike" et al., "What is the information standard AIC?", Mathematical Science, No. 1
53, PP.955 ~ 965,1991 ", etc., as the information amount standard, the reference AIC that minimizes the prediction error and the description length of the data and the model are minimized as shown in the following equation. A method using a standard MDL or the like has been proposed.

【0006】[0006]

【数2】AIC=−2l(W*)+2F MDL=−2l(W*)+FlogS[Formula 2] AIC = -2l (W * ) + 2F MDL = -2l (W * ) + FlogS

【0007】なお、上式において、W*は対数尤度関数
を最小にするパラメータ(最尤推定量)である。
In the above equation, W * is a parameter (maximum likelihood estimator) that minimizes the log-likelihood function.

【0008】[0008]

【発明が解決しようとする課題】しかしながら、上記の
ような情報量基準を最適化するパラメータ(最尤推定
量)を求めるのに、従来では、パラメータの取りうる自
由度の全ての場合に対して、最尤推定量を算出し、しか
る後に、情報量基準の値を最小とするパラメータを決定
していたので、多大な演算量と演算時間が必要になると
いう欠点があった。
However, in order to obtain a parameter (maximum likelihood estimator) for optimizing the information amount criterion as described above, conventionally, in all cases of the degree of freedom that the parameter can take. The maximum likelihood estimator is calculated, and after that, the parameter that minimizes the value of the information amount standard is determined, so that there is a disadvantage that a large amount of calculation and a large amount of calculation time are required.

【0009】本発明は、ニューラルネットワークなどの
システム等の学習(最適化)において、従来に比べて、
少ない演算量と演算時間で学習(最適化)を効率良く行
なうことの可能な学習方式を提供することを目的として
いる。
In the learning (optimization) of a system such as a neural network, the present invention is
It is an object of the present invention to provide a learning method capable of efficiently performing learning (optimization) with a small calculation amount and calculation time.

【0010】[0010]

【課題を解決するための手段および作用】上記目的を達
成するために、本発明は、学習時間を変数として持ち、
最適化のなされるべき所定のパラメータに対して連続微
分可能であって、学習時間が無限大となるとき所定の情
報量基準に収束する関数を用いて、最適なパラメータを
求めるようになっている。これにより、システム等の学
習を、従来に比べて少ない演算量と演算時間で効率良く
行なうことができる。
To achieve the above object, the present invention has a learning time as a variable,
It is possible to continuously differentiate with respect to the specified parameters to be optimized, and when the learning time becomes infinite, the function that converges to the specified information criterion is used to find the optimum parameters. . As a result, the learning of the system and the like can be efficiently performed with a smaller calculation amount and calculation time compared to the conventional case.

【0011】[0011]

【実施例】以下、本発明の実施例を図面に基づいて説明
する。図1は本発明に係る学習方式を適用した学習機械
の概略構成図である。図1を参照すると、この学習機械
は、ニューラルネットワークなどのシステムSYSの学
習(最適化)を行なうための学習部1を有しており、こ
の学習部1は、システムSYSの構造の最適化を行なう
ために、先ずシステムSYSの構造を入出力空間上の所
定の確率密度関数Pで規定し(すなわち、モデル化し)、
このモデルに対して、所定の情報量基準ICを用いて、
システムの最適なパラメータ(システムの最適な構造)を
求めるようになっている。
Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a schematic configuration diagram of a learning machine to which a learning method according to the present invention is applied. Referring to FIG. 1, the learning machine has a learning unit 1 for performing learning (optimization) of a system SYS such as a neural network. The learning unit 1 optimizes the structure of the system SYS. To do so, first define the structure of the system SYS with a predetermined probability density function P in the input / output space (ie, model),
For this model, using a predetermined information amount reference IC,
It is designed to find the optimal system parameters (the optimal system structure).

【0012】いま、RM(+)RNを入出力の直和空間と
し、{(xi,yi)}S i=1を入出力空間上のS個のサンプ
ル(学習データ)とし、上記確率密度関数として、次式の
ものを考える。
Now, let R M (+) R N be the direct sum space of input and output, and {(x i , y i )} S i = 1 be S samples (learning data) on the input and output space, Consider the following equation as the above probability density function.

【0013】[0013]

【数3】 [Equation 3]

【0014】なお、上記式は、システムSYSが関数近
似型ニューラルネットワークであるとした場合に、この
関数近似型ニューラルネットワークの作る確率密度関数
となっている。この確率密度関数によって入出力間の関
係,すなわちシステムの構造が規定されるモデルに対
し、情報量基準ICとして、次式のものを考える。
The above equation is a probability density function created by the function approximation type neural network when the system SYS is a function approximation type neural network. For the model in which the relationship between input and output, that is, the structure of the system is defined by this probability density function, consider the following formula as the information amount reference IC.

【0015】[0015]

【数4】IC=−2l(W)+AF[Equation 4] IC = −2 l (W) + AF

【0016】ここで、Wはパラメータ(w,σ),Fはパ
ラメータの連続変数自由度,l(W)は数1によって表わ
される対数尤度関数である。また、Aが2の場合、情報
量基準ICはAICとなり、AがlogSの場合、情報量
基準ICはMDLとなる。
Here, W is a parameter (w, σ), F is a continuous variable degree of freedom of the parameter, and l (W) is a log-likelihood function represented by the equation 1. When A is 2, the information amount reference IC is AIC, and when A is logS, the information amount reference IC is MDL.

【0017】システムSYSとしてこのような関数近似
型のニューラルネットワークを考えると、システムの構
造(パラメータ)を最適化するという問題は、情報量基準
ICを最小にするという問題,すなわち次式の関数IC
(W:w,σ)を最小にするという問題に帰着する。
Considering such a function approximation type neural network as the system SYS, the problem of optimizing the structure (parameters) of the system is the problem of minimizing the information amount reference IC, that is, the function IC of the following equation.
We come to the problem of minimizing (W: w, σ).

【0018】[0018]

【数5】 [Equation 5]

【0019】なお、上式において、推定と関係のない項
は省略している。また上式において、F0(w)は、パラ
メータwの自由度(0でないwの個数)である。システム
SYSが図2に示すような3層パーセプトロンである場
合、自由度F0(w)は、次式によって与えられる。
In the above equation, terms not related to the estimation are omitted. In the above equation, F 0 (w) is the degree of freedom of the parameter w (the number of w that is not 0). If the system SYS is a three-layer perceptron as shown in FIG. 2, then the degree of freedom F 0 (w) is given by

【0020】[0020]

【数6】 [Equation 6]

【0021】ここで、3層パーセプトロンが、N個のユ
ニットiからなる入力層11と、H個のユニットjから
なる中間層12と、M個のユニットkからなる出力層1
3とにより構成されているとしており、上式において、
ijは、入力層11のユニットiから中間層12のユニ
ットjへの重みを表わし、また、wjkは、中間層12の
ユニットjから出力層13のユニットkへの重みを表わ
している。
Here, the three-layer perceptron has an input layer 11 composed of N units i, an intermediate layer 12 composed of H units j, and an output layer 1 composed of M units k.
3 and, in the above equation,
w ij represents the weight from the unit i of the input layer 11 to the unit j of the intermediate layer 12, and w jk represents the weight from the unit j of the intermediate layer 12 to the unit k of the output layer 13.

【0022】ところで、上記数6において、f
0(wij),f0(wjk)はそれぞれ、wij=0,wjk=0の
ときに“0”,wij≠0,wjk≠0のときに“1”とな
る関数である。情報量基準ICの最小化を行なうために
は、情報量基準に微分演算を施す必要があるが、この情
報量基準ICに含まれる関数f0(wij),f0(wjk)が微
分可能ではないため、情報量基準ICから最適なパラメ
ータ(自由度)を直接求めることは一般に非常に難かし
く、実際、従来では、このために、最適なパラメータを
得るのに、多大な演算量と演算時間とを必要としてい
た。すなわち、このような情報量基準ICから最適なパ
ラメータ(自由度)を求めようとするとき、一般には、w
ij,wjkが0である場合と0でない場合とについて場合
分けし、これらの全ての場合についてそれぞれ最急降下
法を行なわなければならず、最適化を少ない演算量と演
算時間で効率良く行なうことはできなかった。
By the way, in the above equation 6, f
0 (w ij ), f 0 (w jk ) are functions that become “0” when w ij = 0 and w jk = 0, and “1” when w ij ≠ 0 and w jk ≠ 0, respectively. is there. In order to minimize the information amount reference IC, it is necessary to perform a differential operation on the information amount reference, but the functions f 0 (w ij ), f 0 (w jk ) included in this information amount reference IC are differentiated. Since it is not possible, it is generally very difficult to directly obtain the optimum parameter (degree of freedom) from the information amount reference IC. In fact, conventionally, for this reason, a large amount of calculation is required to obtain the optimum parameter. It required calculation time and. That is, when an optimum parameter (degree of freedom) is to be obtained from such an information amount reference IC, generally, w
Cases in which ij and w jk are 0 and cases in which they are not 0 must be divided, and the steepest descent method must be performed in each of these cases, and optimization should be performed efficiently with a small amount of computation and computation time. I couldn't.

【0023】本発明では、このような問題を克服するた
め、上記関数f0(x)のかわりに、次式の関数f
α(t)(x)を導入する。
In the present invention, in order to overcome such a problem, instead of the function f 0 (x), the function f of the following equation
Introduce α (t) (x).

【0024】[0024]

【数7】 [Equation 7]

【0025】ここで、tは時間であり、α(t)は時間t
によって変化する変数である。具体的には、α(t)は、
時刻t=0のときには初期値α0(≠0)をもち、時間t
が進むにつれて連続的に小さくなり、時間tが無限大の
ときに“0”となるものである。すなわち、tが無限大
のとき、次式のように、fα(t)(x)はf0(x)となる。
Where t is time and α (t) is time t
Is a variable that changes depending on. Specifically, α (t) is
At time t = 0, it has an initial value α 0 (≠ 0) and time t
Becomes smaller as time advances, and becomes "0" when the time t is infinite. That is, when t is infinite, f α (t) (x) becomes f 0 (x) as in the following equation.

【0026】[0026]

【数8】 [Equation 8]

【0027】そこで、数6のF0(w)において、f0(w
ij),f0(wjk)をfα(t)(wij),fα(t)(wjk)に置き
換え、これをFα(t)(w)とし、数5の情報量基準IC
(w,σ)を次式(数9)のように拡張すると、fα(t)(w
ij),fα(t)(wjk)がパラメータwij,wjkに関して連
続微分可能であって、Fα(t)(w)は学習時間が無限大
になるときに(t→∞)、F0(w)に収束するので(すなわ
ち、ICα(t)(w,σ)は数5のIC(w,σ)に収束す
るので)、IC(w,σ)を最小にする問題は、ICα(t)
(w,σ)を最小にするw,σを、学習時間tの経過とと
もに求めれば良いことになる。
Therefore, in F 0 (w) of the equation 6, f 0 (w
ij ), f 0 (w jk ) is replaced with f α (t) (w ij ), f α (t) (w jk ), and this is F α (t) (w) IC
When (w, σ) is expanded as in the following equation (Equation 9), f α (t) (w
ij ), f α (t) (w jk ) is continuously differentiable with respect to the parameters w ij , w jk , and F α (t) (w) becomes (t → ∞) when the learning time becomes infinite. , F 0 (w) (ie, IC α (t) (w, σ) converges to IC (w, σ) of Equation 5), the problem of minimizing IC (w, σ) Is IC α (t)
It is only necessary to find w and σ that minimize (w, σ) as the learning time t elapses.

【0028】[0028]

【数9】 [Equation 9]

【0029】すなわち、次式のように最小降下法により
求めることができる。
That is, it can be obtained by the minimum descent method as in the following equation.

【0030】[0030]

【数10】 [Equation 10]

【0031】なお、上式では、パラメータwとσとを連
立させて求めるようにしている。これに対し、パラメー
タwに関する更新則をパターン毎に行なう場合には、次
式のようにすれば良い。
In the above equation, the parameters w and σ are simultaneously calculated. On the other hand, when the update rule regarding the parameter w is performed for each pattern, the following equation may be used.

【0032】[0032]

【数11】 [Equation 11]

【0033】このように、数10あるいは数11によ
り、時間tが経過する都度(△tが増加する都度)、α
(t)を△αづつ減少させながら、最終的に、パラメータ
w,σの最適値(すなわち、システムの最適な構造)を得
ることができる。
As described above, according to the equations 10 and 11, each time time t elapses (each time Δt increases), α
Finally, the optimum values of the parameters w and σ (that is, the optimum structure of the system) can be obtained while decreasing (t) by Δα.

【0034】換言すれば、本発明では、数7により定義
された関数fα(t)(wij),fα(t)(wjk)により、情報
量基準を数9のようにICα(t)(w,σ)に拡張し、こ
の拡張された(連続微分可能な)情報量基準IC
α(t)(w,σ)をt→∞にしながら最小化することによ
り、システムの最適化を行なうことができるので、前述
したようにwij,wjkが0である場合と0でない場合と
について場合分けし各場合についてそれぞれ処理を行な
う必要はなく、場合分けなどをせずに、基本的に1回の
処理により、少ない演算量と少ない演算時間で効率良く
最適化を行なうことができる。
In other words, in the present invention, the information amount reference is expressed by IC α as shown in equation 9 by the functions f α (t) (w ij ), f α (t) (w jk ) defined by equation 7. (t) is extended to (w, σ), and this extended (continuously differentiable) information amount reference IC
Since the system can be optimized by minimizing α (t) (w, σ) while t → ∞, as described above, when w ij and w jk are 0 and when they are not 0. It is not necessary to carry out processing for each case separately for each case, and it is possible to efficiently perform optimization with a small amount of calculation and a small calculation time by basically performing the processing once, without performing processing for each case. .

【0035】図3には、本発明による処理の具体例が示
されている。図3を参照すると、学習部1は、先ず、シ
ステムSYSのパラメータwを初期設定する(ステップ
S1)。システムSYSが例えば図2に示すような3層
パーセプトロンである場合、システムSYSのパラメー
タwとして、wij,wjkを乱数により発生し、これを初
期設定する。
FIG. 3 shows a concrete example of the processing according to the present invention. Referring to FIG. 3, the learning unit 1 first initializes the parameter w of the system SYS (step S1). When the system SYS is, for example, a three-layer perceptron as shown in FIG. 2, as parameters w of the system SYS, w ij and w jk are generated by random numbers and are initialized.

【0036】また、システムSYSの他のパラメータσ
の初期値を、数10により,すなわち次式(数12)によ
り計算する(ステップS2)。
Further, another parameter σ of the system SYS
The initial value of is calculated by Equation 10, that is, by the following equation (Equation 12) (step S2).

【0037】[0037]

【数12】 [Equation 12]

【0038】さらに、変数α(t)の時刻t=0における
初期値α(0)を適当な値に決定する(ステップS3)。
Further, the initial value α (0) of the variable α (t) at time t = 0 is determined to be an appropriate value (step S3).

【0039】このようにして、パラメータ等の初期設定
を行なった後、数11に従って、パラメータwの学習を
行なう(ステップS4)。すなわち、次式により、パラメ
ータwの変化量△wを求めて、パラメータwの学習を行
なう。
After initializing the parameters and the like in this manner, the parameter w is learned according to the equation 11 (step S4). That is, the amount of change Δw of the parameter w is obtained by the following equation, and the parameter w is learned.

【0040】[0040]

【数13】 [Equation 13]

【0041】しかる後、αが初期値εよりも小さくなっ
たか否か、すなわちαが十分小さくなったか否かを判別
する(ステップS5)。この結果、αがεよりも小さくな
い場合には、αを△αだけ小さくして(ステップS6)、
再びステップS4に戻る。
Thereafter, it is judged whether or not α has become smaller than the initial value ε, that is, whether or not α has become sufficiently small (step S5). As a result, when α is not smaller than ε, α is reduced by Δα (step S6),
It returns to step S4 again.

【0042】このようにして、αが十分に小さくなるま
で、αを△αづつ段階的に順次に小さくし、すなわち時
間tが無限大になるときにα(t)が“0”となるように
して、各段階で数13の演算を行ない、パラメータwの
学習を行なう。そして、αがεよりも小さくなったとき
に、αが実質的に“0”になったとみなし、学習処理を
終了する。
In this way, α is gradually decreased in steps of Δα until α becomes sufficiently small, that is, α (t) becomes “0” when the time t becomes infinite. Then, the equation (13) is calculated at each stage to learn the parameter w. Then, when α becomes smaller than ε, it is considered that α becomes substantially “0”, and the learning process ends.

【0043】このように、この具体例では、αを△αづ
つ段階的に小さくしていくことにより、少ない演算量と
少ない演算時間でパラメータwの学習,すなわちシステ
ムSYSの最適化を行なうことができる。
As described above, in this specific example, the parameter w is learned with a small amount of calculation and a small amount of calculation time, that is, the system SYS is optimized by decreasing α stepwise by Δα. it can.

【0044】上述の実施例では、本発明の学習方式をシ
ステムSYSの構造の学習(最適化)に適用した場合を
述べたが、本発明の方式は、実際のシステムSYSの構
造の最適化のみならず、統計的推定処理にも適用するこ
とができる。
In the above embodiment, the case where the learning method of the present invention is applied to the learning (optimization) of the structure of the system SYS has been described, but the method of the present invention only optimizes the structure of the actual system SYS. Instead, it can be applied to the statistical estimation process.

【0045】例えば、与えられたサンプルxiからその
サンプルの従う確率密度を、パラメータwをもつ確率密
度P(w;x)で近似する問題に適用可能であって、この
場合、上記関数Fα(t)(w)を用い、各時刻毎にパラメ
ータに対する最急降下法を利用して最適なパラメータw
を求めることができる。
For example, it can be applied to the problem of approximating the probability density of a given sample x i according to the sample with the probability density P (w; x) having the parameter w, and in this case, the above function F α Using (t) and (w), the optimum parameter w is obtained by using the steepest descent method for the parameter at each time.
Can be asked.

【0046】また、与えられた入出力サンプル(xi,
i)からそのサンプルを発生している条件つき確率密度
を、パラメータwをもつ確率密度P(w;y|x)で近似す
る問題にも適用可能であって、この場合、上記関数F
α(t)(w)を用い、各時刻毎にパラメータに対する最急
降下法を利用して最適なパラメータwを求めることがで
きる。
Further, given input / output samples (x i ,
It is also applicable to the problem of approximating the conditional probability density generating the sample from y i ) by the probability density P (w; y | x) having the parameter w. In this case, the function F
By using α (t) (w), the optimum parameter w can be obtained at each time using the steepest descent method for the parameter.

【0047】また、与えられた入出力サンプル(xi,
i)からそのサンプルを発生している条件つき確率密度
を、パラメータwを持つ人工的ニューラルネットワーク
P(w;y|x)で近似する問題に適用可能であって、この
場合、上記関数Fα(t)(w)を用い、各時刻毎にパラメ
ータに対する最急降下法を利用して最適なパラメータw
を求めることができる。
Further, given input / output samples (x i ,
It is applicable to the problem of approximating the conditional probability density generating the sample from y i ) with the artificial neural network P (w; y | x) having the parameter w, in which case the function F Using α (t) (w), the optimum parameter w is obtained at each time using the steepest descent method for the parameter.
Can be asked.

【0048】また、与えられた入出力サンプル(xi,
i)からそのサンプルを発生している条件つき確率密度
をパラメータwを持つ多層パーセプトロンで近似する問
題に適用可能であって、この場合、上記関数F
α(t)(w)を用い、各時刻毎にパラメータに対する最急
降下法を利用して最適なパラメータwを求めることがで
きる。
Further, given input / output samples (x i ,
y i ) is applicable to the problem of approximating the conditional probability density generating the sample from y i ) by a multi-layer perceptron with parameter w, in which case the function F
By using α (t) (w), the optimum parameter w can be obtained at each time using the steepest descent method for the parameter.

【0049】[0049]

【発明の効果】以上に説明したように、本発明によれ
ば、学習時間を変数として持ち、最適化のなされるべき
所定のパラメータに対して連続微分可能であって、学習
時間が無限大となるとき所定の情報量基準に収束する関
数を用いて、最適なパラメータを求めるようになってい
る。学習(最適化)を、従来に比べて少ない演算量と演算
時間で効率良く行なうことができる。
As described above, according to the present invention, the learning time is used as a variable, continuously differentiable with respect to a predetermined parameter to be optimized, and the learning time is infinite. In such a case, a function that converges to a predetermined information amount criterion is used to find the optimum parameter. Learning (optimization) can be efficiently performed with a smaller amount of calculation and a shorter calculation time than in the past.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明に係る学習方式が適用される学習機械の
概略構成図である。
FIG. 1 is a schematic configuration diagram of a learning machine to which a learning method according to the present invention is applied.

【図2】3層パーセプトロンを示す図である。FIG. 2 is a diagram showing a three-layer perceptron.

【図3】本発明に係る学習方式の処理例を示すフローチ
ャートである。
FIG. 3 is a flowchart showing a processing example of a learning method according to the present invention.

【符号の説明】[Explanation of symbols]

1 学習部 11 入力層 12 中間層 13 出力層 SYS システム w,σ パラメータ 1 Learning Unit 11 Input Layer 12 Intermediate Layer 13 Output Layer SYS System w, σ Parameter

Claims (6)

【特許請求の範囲】[Claims] 【請求項1】 学習時間を変数として持ち、最適化のな
されるべき所定のパラメータに対して連続微分可能であ
って、学習時間が無限大となるとき所定の情報量基準に
収束する関数を用いて、最適なパラメータを求めること
を特徴とする学習方式。
1. A function having a learning time as a variable, continuously differentiable with respect to a predetermined parameter to be optimized, and converging to a predetermined information amount criterion when the learning time becomes infinite is used. A learning method characterized by finding optimal parameters.
【請求項2】 請求項1記載の学習方式は、所定のシス
テムのパラメータを最適化し、システムの構造を最適化
するのに用いられることを特徴とする学習方式。
2. A learning method according to claim 1, wherein the learning method is used for optimizing a predetermined system parameter and optimizing a system structure.
【請求項3】 請求項1記載の学習方式は、与えられた
サンプルxiからそのサンプルの従う確率密度を、パラ
メータwをもつ確率密度P(w;x)で近似する問題に適
用可能であって、この場合、前記関数を用い、各時刻毎
にパラメータに対する最急降下法を利用して最適なパラ
メータwを求めることを特徴とする学習方式。
3. The learning method according to claim 1 can be applied to a problem in which a probability density P (w; x) having a parameter w approximates a probability density that a given sample x i follows. Then, in this case, the learning method is characterized in that the optimum parameter w is obtained by using the steepest descent method for the parameter at each time using the function.
【請求項4】 請求項1記載の学習方式は、与えられた
入出力サンプル(xi,yi)からそのサンプルを発生して
いる条件つき確率密度を、パラメータwをもつ確率密度
P(w;y|x)で近似する問題に適用可能であって、この
場合、前記関数を用い、各時刻毎にパラメータに対する
最急降下法を利用して最適なパラメータwを求めること
を特徴とする学習方式。
4. The learning method according to claim 1, wherein the conditional probability density of generating a sample from a given input / output sample (x i , y i ) is a probability density P (w with a parameter w. a learning method characterized in that it is applicable to a problem approximated by; y | x), and in this case, the above-mentioned function is used to obtain the optimum parameter w by using the steepest descent method for the parameter at each time. .
【請求項5】 請求項1記載の学習方式は、与えられた
入出力サンプル(xi,yi)からそのサンプルを発生して
いる条件つき確率密度を、パラメータwを持つ人工的ニ
ューラルネットワークP(w;y|x)で近似する問題に適
用可能であって、この場合、前記関数を用い、各時刻毎
にパラメータに対する最急降下法を利用して最適なパラ
メータwを求めることを特徴とする学習方式。
5. The learning method according to claim 1, wherein the conditional probability density of generating a sample from a given input / output sample (x i , y i ) is an artificial neural network P having a parameter w. It is applicable to a problem approximated by (w; y | x), and in this case, the function is used to find the optimum parameter w by using the steepest descent method for the parameter at each time. Learning method.
【請求項6】 請求項1記載の学習方式は、与えられた
入出力サンプル(xi,yi)からそのサンプルを発生して
いる条件つき確率密度をパラメータwを持つ多層パーセ
プトロンで近似する問題に適用可能であって、この場
合、前記関数を用い、各時刻毎にパラメータに対する最
急降下法を利用して最適なパラメータwを求めることを
特徴とする学習方式。
6. The learning method according to claim 1, wherein the conditional probability density of generating a given input / output sample (x i , y i ) is approximated by a multilayer perceptron having a parameter w. In this case, the learning method is characterized in that the optimum parameter w is obtained by using the function and using the steepest descent method for the parameter at each time.
JP5329735A 1993-12-01 1993-12-01 Learning system Pending JPH07160659A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5329735A JPH07160659A (en) 1993-12-01 1993-12-01 Learning system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5329735A JPH07160659A (en) 1993-12-01 1993-12-01 Learning system

Publications (1)

Publication Number Publication Date
JPH07160659A true JPH07160659A (en) 1995-06-23

Family

ID=18224693

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5329735A Pending JPH07160659A (en) 1993-12-01 1993-12-01 Learning system

Country Status (1)

Country Link
JP (1) JPH07160659A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000048277A (en) * 1998-03-16 2000-02-18 Kdd Corp Fault place estimating method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000048277A (en) * 1998-03-16 2000-02-18 Kdd Corp Fault place estimating method

Similar Documents

Publication Publication Date Title
US4852173A (en) Design and construction of a binary-tree system for language modelling
US10580432B2 (en) Speech recognition using connectionist temporal classification
JP2021022367A (en) Image processing method and information processor
US6697769B1 (en) Method and apparatus for fast machine training
Palit et al. Efficient training algorithm for Takagi-Sugeno type Neuro-Fuzzy network
JPH07160659A (en) Learning system
JP2907486B2 (en) Neural network device
JPH056347A (en) Artificial neural network processor and kana/kanji converter
JPH0535710A (en) Learning method/device for neural network
US20200380355A1 (en) Classification apparatus and method for optimizing throughput of classification models
JPH05128284A (en) Neuro-processor
JP2545982B2 (en) Pattern recognition method and standard pattern learning method
JP2021081930A (en) Learning device, information classification device, and program
JPH10187649A (en) Neural network
JP2022032876A (en) Learning device, information classification device, and program
JP6712540B2 (en) Model parameter generation device, model parameter generation method, speech recognition device generation method, program
TW202328983A (en) Hybrid neural network-based object tracking learning method and system
Ganchev Enhanced training for the locally recurrent probabilistic neural networks
CN114416985A (en) Customer intention analysis method, system, device and storage medium
JPH0981535A (en) Learning method for neural network
JPH09138786A (en) Learning device for neural network
JPH08221378A (en) Learning machine
Tsoi et al. Building MLP networks by construction
Takanashi et al. Image Classification Using l 1-fidelity Multi-layer Convolutional Sparse Representation
JPH07120349B2 (en) Neural network learning method and apparatus using the same