JPH0561845A - Self-learning processing system for adaptive data processor - Google Patents

Self-learning processing system for adaptive data processor

Info

Publication number
JPH0561845A
JPH0561845A JP3197546A JP19754691A JPH0561845A JP H0561845 A JPH0561845 A JP H0561845A JP 3197546 A JP3197546 A JP 3197546A JP 19754691 A JP19754691 A JP 19754691A JP H0561845 A JPH0561845 A JP H0561845A
Authority
JP
Japan
Prior art keywords
learning
processing device
data processing
data
adaptive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP3197546A
Other languages
Japanese (ja)
Inventor
Atsuko Asakawa
敦子 浅川
Kazushige Saga
一繁 佐賀
Minoru Sekiguchi
実 関口
Tamami Sugasaka
玉美 菅坂
Shigemi Osada
茂美 長田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP3197546A priority Critical patent/JPH0561845A/en
Publication of JPH0561845A publication Critical patent/JPH0561845A/en
Withdrawn legal-status Critical Current

Links

Landscapes

  • Feedback Control In General (AREA)

Abstract

PURPOSE:To realize an efficient self learning processing on the self-learning processing system of an adaptive data processor for self-learning the data conversion function of the adaptive data processor to that fitted to a data processing purpose in accordance with a trial operation. CONSTITUTION:The adaptive data processor 11 for learning, which has the same data conversion function as the adaptive data processor 10, and a learning processor 19 learning the data conversion function of the adaptive data processor 10 in accordance with teaching data by using the learning adaptive data processor 11 are prepared. The data conversion function obtained in the middle of learning is set in the adaptive data processor 10, and the learning adaptive data processor 11 is constituted to operate instead of the adaptive data processor 10 in the middle of the setting. Then, teaching data is added whenever teaching data is obtained, and teaching data whose learning is settled is eliminated from teaching data.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、設定変更可能なデータ
変換機能に従ってデータ処理を実行する構成を採る適応
型データ処理装置のデータ変換機能を、データ処理目的
に適合するものに自己学習していくための適応型データ
処理装置の自己学習処理方式に関し、特に、データ変換
機能を効率的に自己学習できるようにする適応型データ
処理装置の自己学習処理方式に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention self-learns the data conversion function of an adaptive data processing device having a configuration for executing data processing according to a data conversion function whose setting can be changed. The present invention relates to a self-learning processing method of an adaptive data processing device for moving, and more particularly to a self-learning processing method of an adaptive data processing device that enables efficient self-learning of a data conversion function.

【0002】例えばニューラルネットワークのように、
設定変更可能なデータ変換機能に従ってデータ処理を実
行する適応型データ処理装置がある。このような適応型
データ処理装置では、データ処理目的を実現する入出力
信号関係の教師データを得て、この教師データの入出力
信号関係が実現されるようにとデータ変換機能を学習し
設定していくことが要求される。このデータ変換機能の
学習処理は、効率的に実行できるようにしていく必要が
ある。
For example, like a neural network,
There is an adaptive data processing device that executes data processing according to a configurable data conversion function. In such an adaptive data processing device, the teacher data related to the input / output signals that realize the data processing purpose is obtained, and the data conversion function is learned and set so that the input / output signal relationships of the teacher data are realized. It is required to continue. The learning process of the data conversion function needs to be executed efficiently.

【0003】[0003]

【従来の技術】適応型データ処理装置のデータ変換機能
の学習処理に必要となる教師データを入手することは、
例えば入力値の論理積値を算出するといったようにデー
タ処理目的の入出力信号関係が明示的である場合や、明
示的ではなくてもモデル化できる場合には比較的容易に
可能となるものの、データ処理目的が複雑となってくる
と極めて困難なものとなっている。これから、適応型デ
ータ処理装置の利用範囲が限られてしまっているという
のが実情である。
2. Description of the Related Art Obtaining teacher data required for learning processing of a data conversion function of an adaptive data processing device is
For example, if the input / output signal relationship for data processing is explicit, such as calculating the logical product of the input values, or if it can be modeled without being explicit, it is relatively easy. When the purpose of data processing becomes complicated, it becomes extremely difficult. From now on, the practical use of the adaptive data processing device is limited.

【0004】[0004]

【発明が解決しようとする課題】このような現実に鑑み
て、本出願人は、平成元年12月20日出願の特願昭1-328
401 号(発明の名称「外部評価基準の学習方式」)等に
おいて、ノイズ発生を考慮した試行錯誤的動作を行うこ
とで、適応型データ処理装置の入出力信号関係を入手
し、その入出力信号関係の内でデータ処理目的に適合す
るものを外部評価基準に従って選択することで教師デー
タを得て、この教師データに従ってデータ変換機能を設
定し直していく構成を採用して、この一連の処理を繰り
返していくことで、適応型データ処理装置のデータ変換
機能をデータ処理目的に適合するものに設定していくと
いう自己学習処理方式を開示した。
In view of such a reality, the applicant of the present invention filed a Japanese Patent Application No. 1-328 filed on Dec. 20, 1989.
In 401 (Invention title "External evaluation standard learning method"), etc., the input / output signal relationship of the adaptive data processing device is obtained by performing trial and error operation in consideration of noise generation, and the input / output signal is acquired. By adopting a configuration in which teacher data is obtained by selecting one of the relationships that suits the data processing purpose according to the external evaluation criteria, and the data conversion function is reset according to this teacher data, this series of processing is performed. A self-learning processing method has been disclosed in which the data conversion function of the adaptive data processing device is set to one that is suitable for the data processing purpose by repeating the processing.

【0005】すなわち、図8に示すように、データ処理
対象(環境)から得られる入力信号に対応して出力され
る適応型データ処理装置1の出力信号にノイズを重畳し
てデータ処理対象に出力する構成を採って、この一連の
処理により得られる入出力信号対の良否をシステムの外
からの評価基準(外部評価基準)に従って判断すること
で教師データを得て、この教師データの入出力信号関係
が実現されるようにと適応型データ処理装置1のデータ
変換機能を設定していく処理を繰り返していくことで、
適応型データ処理装置1のデータ変換機能を自己学習し
ていく発明を開示したのである。
That is, as shown in FIG. 8, noise is superimposed on the output signal of the adaptive data processing device 1 which is output corresponding to the input signal obtained from the data processing target (environment) and is output to the data processing target. The teacher data is obtained by judging the quality of the input / output signal pair obtained by this series of processing according to the evaluation standard (external evaluation standard) from outside the system, and the input / output signal of this teacher data is adopted. By repeating the process of setting the data conversion function of the adaptive data processing device 1 so that the relationship is realized,
The invention has been disclosed in which the data conversion function of the adaptive data processing device 1 is self-learned.

【0006】ここで、適応型データ処理装置1の出力信
号にノイズを重畳するのは、適応型データ処理装置1が
ニューラルネットワークで構成される例で説明するなら
ば、ノイズを重畳しないとニューラルネットワーク自身
の入出力信号を学習することになり、ニューラルネット
ワークのデータ変換機能を規定する重み値がいつまでも
初期状態と同じままとなって、目的のデータ変換機能を
実行するように成長していかないからであって、ノイズ
を重畳することで試行錯誤的動作を起こして、データ処
理目的にかなう教師データを得るようにしたためであ
る。また、外部評価基準は、特願昭1-328401 号で開示
したように、適応型データ処理装置等を用いてシステム
内部で自己生成していく構成を採ることも可能である。
なお、図中、2は適応型データ処理装置1に入力信号を
与える入力機構、3はノイズを生成するノイズ発生器、
4はノイズ発生器3の発生するノイズを適応型データ処
理装置1の出力信号に重畳するノイズ重畳器、5はノイ
ズの重畳された適応型データ処理装置1の出力信号をデ
ータ処理対象に与える出力機構、6は試行錯誤的動作に
より収集される入出力信号対を格納する短期記憶装置、
7は外部評価基準に従って短期記憶装置6の記憶する入
出力信号対の内から教師データを選択することで、短期
記憶装置6が教師データを格納することになるよう制御
するとともに、この選択した教師データを用いて適応型
データ処理装置1のデータ変換機能の学習処理を実行す
る学習制御装置である。
Here, the reason why the noise is superimposed on the output signal of the adaptive data processing device 1 will be explained by taking an example in which the adaptive data processing device 1 is composed of a neural network. Because it learns its own input / output signal, the weight value that defines the data conversion function of the neural network remains the same as the initial state forever, and it does not grow to execute the target data conversion function. This is because, by superimposing noise, a trial-and-error operation is caused to obtain teacher data that meets the purpose of data processing. Further, as the external evaluation standard, as disclosed in Japanese Patent Application No. 1-328401, it is possible to adopt a configuration in which it is self-generated within the system by using an adaptive data processing device or the like.
In the figure, 2 is an input mechanism for supplying an input signal to the adaptive data processing device 1, 3 is a noise generator for generating noise,
4 is a noise superimposing device that superimposes the noise generated by the noise generator 3 on the output signal of the adaptive data processing device 1, and 5 is an output that gives the output signal of the adaptive data processing device 1 on which noise is superposed to the data processing target. Mechanism, 6 is a short-term memory device for storing input / output signal pairs collected by trial and error operation,
7 selects teacher data from the input / output signal pairs stored in the short-term memory device 6 according to an external evaluation standard, controls the short-term memory device 6 to store teacher data, and selects the teacher data. The learning control device executes a learning process of a data conversion function of the adaptive data processing device 1 using data.

【0007】更に、本出願人は、この発明の改良を図る
ために、平成2年1月31日出願の特願平2-19228号(発
明の名称「自己学習システムの安定化方式」)におい
て、適応型データ処理装置1の入出力信号対の良否レベ
ル値を算出して、この良否レベル値に応じてその入出力
信号対がデータ処理目的にかなうものであるときには、
出力信号に重畳するノイズのレベル値を抑えていくこと
でシステムの動作の安定を図って、迅速に所望のデータ
変換機能を得られるようにとする発明を開示したのであ
る。
Further, in order to improve the present invention, the present applicant has filed in Japanese Patent Application No. 2-19228 filed on January 31, 1990 (the title of the invention "stabilization method of self-learning system"). , A quality level value of an input / output signal pair of the adaptive data processing device 1 is calculated, and when the input / output signal pair serves a data processing purpose according to the quality level value,
The invention has been disclosed in which the operation of the system is stabilized by suppressing the level value of noise superimposed on the output signal so that a desired data conversion function can be quickly obtained.

【0008】確かに、これらの本出願人の開示した発明
は、適応型データ処理装置1をロボットの駆動制御のた
めの制御装置として利用可能にするといったように、適
応型データ処理装置1を複雑なデータ処理目的を実現す
るためのデータ処理装置とし構築できるようになる。
Certainly, the inventions disclosed by the applicant of the present application make the adaptive data processing device 1 complicated as the adaptive data processing device 1 can be used as a control device for driving control of a robot. Can be constructed as a data processing device for realizing various data processing purposes.

【0009】しかしながら、これらの発明では、実行フ
ェーズ/評価フェーズ/学習フェーズという3つのフェ
ーズを繰り返すことで、適応型データ処理装置1のデー
タ変換機能の学習を実行する構成を採ることから、デー
タ変換機能の学習が効率的に実行できないという問題点
があった。すなわち、先ず最初に、実行フェーズで、デ
ータ処理対象から得られる入力信号を適応型データ処理
装置1に与え、それに応じて出力される適応型データ処
理装置1からの出力信号にノイズを重畳してデータ処理
対象に与えていくことで入出力信号対を得て、次に、評
価フェーズで、規定の評価基準に従ってこれらの入出力
信号対の良否を判断することで教師データを選択し、続
いて、学習フェーズで、この選択された教師データを用
いて適応型データ処理装置1のデータ変換機能の学習を
実行してデータ変換機能をグレードアップしていくこと
を繰り返していくことで、適応型データ処理装置1のデ
ータ変換機能の学習を遂行していく構成を採ることか
ら、実行フェーズと学習フェーズとを同時に進行させる
ことができず、これがために、適応型データ処理装置1
の試行錯誤的動作を停止させる必要があることで、その
データ変換機能の学習を効率的に実行できないという問
題点があったのである。これから、常にシステムを実行
状態にしておく必要のあるデータ処理対象には、これら
の発明を使用できないという問題点があったのである。
However, in these inventions, the three phases of the execution phase / evaluation phase / learning phase are repeated to perform learning of the data conversion function of the adaptive data processing device 1, so that data conversion is performed. There was a problem that learning of functions could not be performed efficiently. That is, first, in the execution phase, an input signal obtained from the data processing target is given to the adaptive data processing device 1, and noise is superimposed on the output signal from the adaptive data processing device 1 output in response to the input signal. Input / output signal pairs are obtained by giving them to the data processing target, and then, in the evaluation phase, the teacher data is selected by judging the quality of these input / output signal pairs according to the prescribed evaluation criteria, and subsequently, In the learning phase, by repeating learning of the data conversion function of the adaptive data processing device 1 using this selected teacher data and upgrading the data conversion function, the adaptive data Since the configuration is such that the learning of the data conversion function of the processing device 1 is performed, the execution phase and the learning phase cannot proceed at the same time, which is why応型 data processing apparatus 1
Since it is necessary to stop the trial-and-error operation of, there is a problem that the learning of the data conversion function cannot be executed efficiently. Therefore, there is a problem in that these inventions cannot be used for data processing targets that need to keep the system in the running state at all times.

【0010】本発明はかかる事情に鑑みてなされたもの
であって、適応型データ処理装置のデータ変換機能の自
己学習処理を効率的に実行できるようにする新たな適応
型データ処理装置の自己学習処理方式の提供を目的とす
るものである。
The present invention has been made in view of the above circumstances, and is a self-learning of a new adaptive data processing device that enables the self-learning process of the data conversion function of the adaptive data processing device to be efficiently executed. The purpose is to provide a processing method.

【0011】[0011]

【課題を解決するための手段】図1に本発明の原理構成
を図示する。図中、10は設定変更可能なデータ変換機
能に従って入力信号に対応する出力信号を算出して出力
する適応型データ処理装置であって、データ処理目的に
適合すべく設定されるデータ変換機能に従ってデータ処
理目的のデータ処理を実行するもの、11は学習用適応
型データ処理装置であって、適応型データ処理装置10
と同一のデータ変換機能を持つものである。この適応型
データ処理装置10のデータ変換機能は、1つ又は複数
の入力とこの入力に対して乗算されるべき内部状態値と
を受け取って積和値を得るとともに、この積和値を所定
の関数によって変換して出力値を得る基本ユニットのネ
ットワーク構造により構成されることがある。
FIG. 1 illustrates the principle configuration of the present invention. In the figure, 10 is an adaptive data processing device that calculates and outputs an output signal corresponding to an input signal according to a data conversion function whose setting can be changed. A reference numeral 11 denotes an adaptive data processing device for learning, which executes data processing for processing purposes.
It has the same data conversion function as. The data conversion function of the adaptive data processing device 10 receives one or a plurality of inputs and an internal state value to be multiplied with respect to the inputs to obtain a sum of products value, and the predetermined sum of products value. It may consist of a network structure of basic units that are converted by a function to obtain an output value.

【0012】12は第1の切替器であって、データ処理
対象から得られる入力信号を適応型データ処理装置10
か学習用適応型データ処理装置11のいずれか一方に選
択入力するもの、13は第2の切替器であって、適応型
データ処理装置10か学習用適応型データ処理装置11
のいずれか一方の出力信号を選択出力するもの、14は
入力機構であって、データ処理対象から得られる入力信
号を第1の切替器12に入力するもの、15はノイズ発
生器であって、ノイズを発生するもの、16はノイズ重
畳器であって、ノイズ発生器15の発生するノイズを第
2の切替器13の出力信号に重畳するもの、17は出力
機構であって、ノイズ重畳器16の出力信号をデータ処
理対象に与えるものである。
Reference numeral 12 is a first switch, which receives an input signal from a data processing target and outputs the input signal to the adaptive data processing apparatus 10.
Or a learning adaptive data processing device 11, which is selectively input to either one of the learning adaptive data processing device 11 and the second switching device 13, which is either the adaptive data processing device 10 or the learning adaptive data processing device 11
Which selectively outputs one of the output signals, 14 is an input mechanism, which inputs the input signal obtained from the data processing target to the first switching device 12, and 15 is a noise generator, A device that generates noise, 16 is a noise superimposing device, which superimposes the noise generated by the noise generator 15 on the output signal of the second switching device 13, and 17 is an output mechanism, which is the noise superimposing device 16 The output signal of is given to the data processing target.

【0013】18は記憶装置であって、適応型データ処
理装置10の試行錯誤的動作により収集される入出力信
号対の内、データ処理目的にかなう高い評価値を持つ入
出力信号対を教師データとして選択して格納するもの、
19は学習処理装置であって、記憶装置18の格納する
教師データの入力信号を学習用適応型データ処理装置1
1に入力するときに、学習用適応型データ処理装置11
の出力信号が教師データの対となる出力信号と一致する
ようになるべく、学習用適応型データ処理装置11のデ
ータ変換機能を学習するとともに、この学習処理に同期
させて第1及び第2の切替器12,13の選択モードを
制御するものである。
Reference numeral 18 denotes a storage device, which is a pair of input / output signal pairs collected by trial and error operation of the adaptive data processing device 10 and having a high evaluation value for the purpose of data processing as teacher data. What to select and store as,
Reference numeral 19 denotes a learning processing device, which inputs an input signal of teacher data stored in the storage device 18 to the learning adaptive data processing device 1
When inputting to 1, the learning adaptive data processing device 11
So as to match the output signal of the learning data with the output signal forming the pair of the teacher data, the data conversion function of the learning adaptive data processing device 11 is learned, and the first and second switching is performed in synchronization with this learning process. The selection mode of the containers 12 and 13 is controlled.

【0014】[0014]

【作用】本発明では、学習処理装置19は、学習用適応
型データ処理装置11のデータ変換機能の学習処理に入
るときには、第1の切替器12がデータ処理対象から得
られる入力信号を適応型データ処理装置10に入力する
よう制御するとともに、第2の切替器13が適応型デー
タ処理装置10の出力信号をノイズ重畳器16に出力す
るよう制御する。この第1及び第2の切替器12,13
の選択処理を受けて、データ処理目的の遂行状態を表示
する入力信号が適応型データ処理装置10に与えられ、
この入力信号を受けて、適応型データ処理装置10は、
設定されているデータ変換機能に応じた出力信号を算出
して出力し、ノイズ重畳器16は、この出力信号にノイ
ズ発生器15の発生するノイズを重畳し、このノイズの
重畳された出力信号を受けて、データ処理目的が遂行さ
れて、その遂行に応じて適応型データ処理装置10に次
の入力信号が入力されていくことが繰り返されていく。
この試行錯誤的動作が実行されていくときに、記憶装置
18は、適応型データ処理装置10の入力信号とノイズ
重畳器16の出力信号との入出力信号対の内、データ処
理目的にかなう高い評価値を持つ入出力信号対を教師デ
ータとして選択して格納していく。
According to the present invention, when the learning processing device 19 enters the learning process of the data conversion function of the learning adaptive data processing device 11, the first switching device 12 adaptively inputs the input signal obtained from the data processing target. The second switching device 13 controls the data processing device 10 so that the second switching device 13 outputs the output signal of the adaptive data processing device 10 to the noise superimposing device 16. The first and second switches 12, 13
In response to the selection process of, the input signal indicating the performance state of the data processing purpose is given to the adaptive data processing device 10,
Upon receiving this input signal, the adaptive data processing device 10
The output signal according to the set data conversion function is calculated and output, and the noise superimposing unit 16 superimposes the noise generated by the noise generator 15 on this output signal and outputs the output signal on which this noise is superimposed. In response, the data processing purpose is performed, and the next input signal is input to the adaptive data processing device 10 in accordance with the execution.
When this trial-and-error operation is executed, the storage device 18 is one of the input / output signal pair of the input signal of the adaptive data processing device 10 and the output signal of the noise superimposing device 16 which is high in value for the purpose of data processing. An input / output signal pair having an evaluation value is selected and stored as teacher data.

【0015】このようにして、記憶装置18に教師デー
タが格納されていくときに、学習処理装置19は、記憶
装置18から教師データを読み出して、その教師データ
の入力信号を学習用適応型データ処理装置11に入力す
るときに、学習用適応型データ処理装置11の出力信号
が教師データの対となる出力信号と一致するようにと学
習用適応型データ処理装置11のデータ変換機能を学習
していく。この学習処理は、ニューラルネットワークの
データ変換機能の学習処理に用いられるバックプロパゲ
ーション法等のように、学習回数を重ねていくことで実
行されるものであり、学習処理装置19は、この学習回
数の区切りのよい時点で、その時点までの学習処理によ
り求められたデータ変換機能を適応型データ処理装置1
0に順次設定していくことで、学習用適応型データ処理
装置11のデータ変換機能と適応型データ処理装置10
のデータ変換機能とが同じデータ変換機能を持つように
制御していく。そして、学習処理装置19は、この学習
用適応型データ処理装置11のデータ変換機能を適応型
データ処理装置10に設定していくときには、適応型デ
ータ処理装置10のデータ変換機能が確定しないことで
試行錯誤的動作を実行することができない状態になるこ
とに対応させて、第1の切替器12がデータ処理対象か
ら得られる入力信号を学習用適応型データ処理装置11
に入力するよう制御するとともに、第2の切替器13が
学習用適応型データ処理装置11の出力信号をノイズ重
畳器16に出力するよう制御することで、同一のデータ
変換機能を持つ学習用適応型データ処理装置11が適応
型データ処理装置10の代わりに試行錯誤的動作を実行
していくように制御する。
In this way, when the teacher data is stored in the storage device 18, the learning processing device 19 reads the teacher data from the storage device 18 and uses the input signal of the teacher data as the learning adaptive data. When inputting to the processing device 11, the data conversion function of the learning adaptive data processing device 11 is learned so that the output signal of the learning adaptive data processing device 11 matches the output signal of the pair of teacher data. To go. This learning processing is executed by stacking the number of times of learning, such as the backpropagation method used for the learning processing of the data conversion function of the neural network. At the time when the break is good, the data conversion function obtained by the learning processing up to that time is applied to the adaptive data processing device 1.
By sequentially setting to 0, the data conversion function of the learning adaptive data processing device 11 and the adaptive data processing device 10
Control to have the same data conversion function as the data conversion function of. Then, when the learning processing device 19 sets the data conversion function of the learning adaptive data processing device 11 in the adaptive data processing device 10, the data conversion function of the adaptive data processing device 10 is not determined. In response to the situation in which the trial and error operation cannot be executed, the first switching device 12 converts the input signal obtained from the data processing target into the learning adaptive data processing device 11.
To the noise superimposing unit 16 by controlling the second switching unit 13 to output the output signal of the learning adaptive data processing device 11 to the noise superimposing unit 16, and thereby the learning adaptive unit having the same data conversion function. The type data processing device 11 is controlled so as to execute a trial and error operation instead of the adaptive data processing device 10.

【0016】このようにして、試行錯誤的動作が停止さ
れることなく実行されることで、教師データが次から次
へと収集されて記憶装置18に格納されていくことにな
るので、学習処理装置19は、記憶装置18に格納され
る教師データの内の学習の収束したものについては順次
記憶装置18から消去していくことを実行しつつ、学習
用適応型データ処理装置11のデータ変換機能の学習処
理を実行していくことで、適応型データ処理装置10の
データ変換機能をデータ処理目的を実現するものに設定
していくよう処理するのである。
In this way, the trial-and-error operation is executed without being stopped, so that the teacher data is collected one after another and stored in the storage device 18. The device 19 executes sequentially erasing, from the storage device 18, those of the teacher data stored in the storage device 18 for which learning has converged, and the data conversion function of the learning adaptive data processing device 11. By performing the learning process of, the data conversion function of the adaptive data processing device 10 is set so as to realize the data processing purpose.

【0017】このように、本発明を用いると、適応型デ
ータ処理装置10は、データ変換機能の学習のために実
行する試行錯誤的動作を実質的に停止する必要がなくな
り、これにより、適応型データ処理装置10のデータ変
換機能の自己学習処理を効率的に実行できるようになる
のである。
As described above, the use of the present invention eliminates the need for the adaptive data processing apparatus 10 to substantially stop the trial-and-error operation executed for learning the data conversion function, whereby the adaptive data processing apparatus 10 can be operated. The self-learning process of the data conversion function of the data processing device 10 can be efficiently executed.

【0018】[0018]

【実施例】以下、実施例に従って本発明を詳細に説明す
る。図2に、適応型データ処理装置10を実装するのに
好適なニューラルネットワーク20を図示する。このニ
ューラルネットワーク20は、この図に示すように、デ
ータ処理目的を遂行する上で必要となる入力信号を受け
取って分配する入力ユニット21の複数により構成され
る入力層と、この入力層の後段に位置して、入力層から
の1つ又は複数の入力と、この入力に対して乗算される
べき重み値とを受け取って積和を得るとともに、この積
和値を所定の規定関数によって変換することで最終出力
を得る基本ユニット22の複数により構成される中間層
と、この中間層の後段に位置して、中間層からの複数の
入力と、この入力に対して乗算されるべき重み値とを受
け取って積和を得るとともに、この積和値を所定の規定
関数によって変換することで最終出力を得る基本ユニッ
ト22により構成される出力層とから構成される。
The present invention will be described in detail below with reference to examples. FIG. 2 illustrates a neural network 20 suitable for implementing the adaptive data processing device 10. As shown in this figure, the neural network 20 includes an input layer composed of a plurality of input units 21 for receiving and distributing an input signal necessary for performing a data processing purpose, and a subsequent stage of this input layer. Is located and receives one or more inputs from the input layer and a weight value to be multiplied with respect to this input to obtain a product sum, and transforms the product sum value by a predetermined prescribed function. , An intermediate layer composed of a plurality of basic units 22 for obtaining the final output, a plurality of inputs from the intermediate layer, which are located in the subsequent stage of the intermediate layer, and a weight value to be multiplied with respect to the input. The output layer is composed of a basic unit 22 which receives the sum of products and obtains the final output by converting the sum of products value by a predetermined defining function.

【0019】後述するように、以下に説明する実施例で
は、適応型データ処理装置10が、ロボットの備える複
数の視覚センサの検出値を入力として、その検出値に従
ってロボットの備える1台のモータの回転角度を決定す
る制御装置として構築されることを想定していることか
ら、図2のニューラルネットワーク20では、出力層の
基本ユニット22の個数を1つでもって示してあるが、
データ処理目的によっては、この出力層の基本ユニット
22が複数備えられることがある。また、中間層は、こ
の図2のように、複数の基本ユニット22の1段でもっ
て構成される必要はなく、1つ又は複数の基本ユニット
22を1段として、1段又は複数段でもって構成される
こともある。
As will be described later, in the embodiments described below, the adaptive data processing device 10 receives the detection values of a plurality of visual sensors of the robot as input, and according to the detection values, one motor of the robot is equipped. Since the neural network 20 of FIG. 2 is assumed to be constructed as a control device for determining the rotation angle, the number of the basic units 22 of the output layer is shown as one.
Depending on the data processing purpose, a plurality of basic units 22 of this output layer may be provided. Further, the intermediate layer does not have to be configured by one stage of the plurality of basic units 22 as shown in FIG. 2, and one or more basic units 22 may be one stage and may be formed by one or more stages. It may be composed.

【0020】このニューラルネットワーク20は、各ユ
ニット間に割り付けられる重み値に従ってそのデータ変
換機能を変化するものである。このデータ変換機能をデ
ータ処理目的のものに設定するためには、そのデータ処
理目的を実現するためにニューラルネットワーク20が
実行しなければならない入出力信号の変換関係を教師デ
ータとして多数入手して、この入手した教師データの入
出力信号関係が得られるようにとバックプロパゲーショ
ン法等によって重み値を学習していくことで行われるこ
とになる。
The neural network 20 changes its data conversion function according to the weight value assigned to each unit. In order to set this data conversion function to a data processing purpose, a large number of input / output signal conversion relationships that the neural network 20 must execute to achieve the data processing purpose are acquired as teacher data, In order to obtain the input / output signal relationship of the acquired teacher data, the weight value is learned by the back propagation method or the like.

【0021】次に、適応型データ処理装置10を実装す
るニューラルネットワーク20のデータ変換機能の自己
学習処理に従って、本発明を詳細に説明する。以下、こ
の実施例では、適応型データ処理装置10をロボットの
制御装置として用いて、図3に示すように、制御対象の
ロボットがスタート位置から1秒毎でもって移動して、
100秒以内に壁にぶつかることなくターゲット位置に
移動できるようにすることを想定するものであり、この
制御処理を実行するために、適応型データ処理装置10
は、ロボットの備える複数の視覚センサの検出値を入力
として、その検出値に従ってロボットの備える1台のモ
ータの回転角度を決定することを想定するものである。
Next, the present invention will be described in detail according to the self-learning process of the data conversion function of the neural network 20 in which the adaptive data processing device 10 is mounted. Hereinafter, in this embodiment, the adaptive data processing device 10 is used as a control device for a robot, and as shown in FIG. 3, the robot to be controlled moves from the start position every second,
It is assumed that the target data can be moved to the target position within 100 seconds without hitting the wall. In order to execute this control processing, the adaptive data processing device 10
Assumes that the detection values of a plurality of visual sensors included in the robot are input and the rotation angle of one motor included in the robot is determined according to the detected values.

【0022】図1でも説明したように、本発明では、適
応型データ処理装置10か学習用適応型データ処理装置
11のいずれか一方を必ず動作させる構成を採って、ロ
ボットの試行錯誤的動作を停止することなく実行する構
成を採るものであることから、適応型データ処理装置1
0のニューラルネットワーク20の重み値の学習に用い
る教師データが絶えることなく収集されていくことにな
る。記憶装置18は、この教師データを格納していくも
のであり、限られたメモリ容量でもってこの教師データ
の格納処理を実行するために、以下に説明する構成を採
っている。
As described with reference to FIG. 1, the present invention employs a configuration in which either the adaptive data processing device 10 or the learning adaptive data processing device 11 is operated without fail to perform trial and error operation of the robot. Since the configuration is such that it is executed without stopping, the adaptive data processing device 1
The teacher data used for learning the weight value of the neural network 20 of 0 will be continuously collected. The storage device 18 stores the teacher data, and has a configuration described below in order to execute the teacher data storage processing with a limited memory capacity.

【0023】すなわち、記憶装置18は、図4に示すよ
うに、メモリ部30と、書込制御部31と、評価値判定
部32と、読出書込制御部33とを備える。このメモリ
部30は、教師データを格納する教師データ格納部34
と、教師データ格納部34に格納される教師データが学
習対象となるべきものか否かを表示する学習フラグを管
理する学習フラグ格納部35とから構成される。書込制
御部31は、教師データとなる入出力信号対(適応型デ
ータ処理装置10/学習用適応型データ処理装置11の
入力信号と、ノイズ重畳器16の出力信号との入出力信
号対)を教師データ格納部34に書き込む。評価値判定
部32は、記憶装置18外から与えられる評価値に従っ
て書込制御部31をイネーブル状態/ディスイネーブル
状態に設定する。読出書込制御部33は、教師データ格
納部34に格納される教師データを学習処理装置19に
転送するとともに、学習処理装置19からの指示に従っ
て学習フラグ格納部35の学習フラグをOFFに設定す
る。
That is, as shown in FIG. 4, the storage device 18 includes a memory section 30, a write control section 31, an evaluation value determination section 32, and a read / write control section 33. The memory unit 30 includes a teacher data storage unit 34 for storing teacher data.
And a learning flag storage unit 35 that manages a learning flag that indicates whether or not the teacher data stored in the teacher data storage unit 34 should be a learning target. The write control unit 31 is a pair of input / output signals serving as teacher data (an input / output signal pair of the input signal of the adaptive data processing device 10 / learning adaptive data processing device 11 and the output signal of the noise superimposing device 16). Is written in the teacher data storage unit 34. The evaluation value determination unit 32 sets the write control unit 31 to the enable state / disable state according to the evaluation value given from the outside of the storage device 18. The read / write control unit 33 transfers the teacher data stored in the teacher data storage unit 34 to the learning processing device 19 and sets the learning flag of the learning flag storage unit 35 to OFF according to an instruction from the learning processing device 19. ..

【0024】記憶装置18は、このような構成を採っ
て、適応型データ処理装置10/学習用適応型データ処
理装置11の入力信号と、ノイズ重畳器16の出力信号
との入出力信号対が与えられると、その入出力信号対に
対しての評価値がデータ処理目的にかなう「良」を表示
するときには、評価値判定部32が書込制御部31をイ
ネーブル状態に設定し、このイネーブル状態の設定を受
けて、書込制御部31がその入出力信号対を教師データ
として教師データ格納部34に格納する。このとき、書
込制御部31は、後述するポインタの指す格納領域に教
師データを格納していく。逆に、その入出力信号対に対
しての評価値がデータ処理目的にかなわない「否」を表
示するときには、評価値判定部32が書込制御部31を
ディスイネーブル状態に設定し、このディスイネーブル
状態の設定を受けて、書込制御部31がその入出力信号
対をそのまま廃棄する。
The storage device 18 adopts such a configuration, and the input / output signal pair of the input signal of the adaptive data processing device 10 / the learning adaptive data processing device 11 and the output signal of the noise superimposing device 16 is provided. When given, when the evaluation value for the input / output signal pair displays "good" that meets the data processing purpose, the evaluation value determination unit 32 sets the write control unit 31 in the enabled state, In response to this setting, the write control unit 31 stores the input / output signal pair in the teacher data storage unit 34 as teacher data. At this time, the write control unit 31 stores the teacher data in a storage area pointed to by a pointer described later. On the contrary, when the evaluation value for the input / output signal pair indicates “No” which does not meet the purpose of data processing, the evaluation value determination unit 32 sets the write control unit 31 to the disable state, and Upon receiving the setting of the enable state, the write control unit 31 discards the input / output signal pair as it is.

【0025】一方、記憶装置18は、このような構成を
採って、学習処理装置19から教師データの要求がある
と、読出書込制御部33が、ONを表示する学習フラグ
を持つ教師データを教師データ格納部34から読み出し
て学習処理装置19に転送していく。学習処理装置19
は、この読み出された教師データを用いて、バックプロ
パゲーション法に従って、学習用適応型データ処理装置
11のニューラルネットワーク20の重み値の学習を実
行していくことになるが、学習誤差が規定量よりも小さ
なものになった教師データについては、読出書込制御部
33を介して、その教師データの学習フラグをOFFに
設定していく。そして、読出書込制御部33を介して、
最も学習誤差の小さな教師データの格納領域にポインタ
を設定していくことで、新たに収集される教師データの
格納領域を指示していくよう処理する。ここで、学習の
開始時点のように、教師データ格納部34に空きがある
場合には、ポインタは、その空きの格納領域のいずれか
に設定されていく構成が採られ、そのポインタの指す空
きの格納領域に教師データが格納されると、学習フラグ
はONに初期設定される構成が採られる。
On the other hand, the storage device 18 adopts such a configuration, and when the learning processing device 19 requests the teacher data, the read / write control unit 33 stores the teacher data having the learning flag indicating ON. The data is read from the teacher data storage unit 34 and transferred to the learning processing device 19. Learning processing device 19
Uses the read teacher data to learn the weight value of the neural network 20 of the learning adaptive data processing device 11 according to the backpropagation method, but the learning error is defined. For the teacher data that has become smaller than the amount, the learning flag of the teacher data is set to OFF via the read / write control unit 33. Then, via the read / write control unit 33,
By setting a pointer in the storage area of the teacher data with the smallest learning error, processing is performed so as to indicate the storage area of the newly collected teacher data. Here, when there is a free space in the teacher data storage unit 34 as at the start of learning, the pointer is set to one of the free storage areas. When the teacher data is stored in the storage area of, the learning flag is initially set to ON.

【0026】このようにして、記憶装置18は、次から
次へと収集されていく教師データを限られたメモリ容量
に従いつつ効率的に格納していくのである。なお、記憶
装置18に与えられる評価値は、オペレータから与えら
れる外部評価値が用いられることもあるし、ニューラル
ネットワーク20により構成されて、教師データの候補
となる入出力信号対を入力側教師データ、その入出力信
号対に対しての外部評価値を出力側教師データとして学
習された重み値を持つものにより構成される自己評価値
算出装置を備えて、その自己評価値算出装置の算出する
自己評価値が用いられることもある。このような自己評
価値算出装置を備えると、外部評価値が与えられないと
きにも、教師データの選択処理が可能になり学習用適応
型データ処理装置11のニューラルネットワーク20の
重み値の学習を実行できることになるのである。
In this way, the storage device 18 efficiently stores the teacher data collected one after another according to the limited memory capacity. An external evaluation value given by an operator may be used as the evaluation value given to the storage device 18, and an input / output signal pair, which is a candidate of the teacher data and is constituted by the neural network 20, is inputted to the input side teacher data. , A self-evaluation value calculation device configured by a device having a weight value learned as an output-side teacher data using an external evaluation value for the input / output signal pair, and the self-evaluation value calculation device calculates The evaluation value may be used. If such a self-evaluation value calculation device is provided, it becomes possible to perform a process of selecting teacher data even when an external evaluation value is not given, and the learning of the weight value of the neural network 20 of the learning adaptive data processing device 11 can be performed. It can be done.

【0027】次に、図5に示す学習処理装置19の実行
する処理フローの一実施例に従って、本発明の自己学習
処理について詳細に説明する。学習処理装置19は、図
5の処理フローに示すように、先ず最初に、ステップ1
で、初期化処理を実行する。すなわち、適応型データ処
理装置10のニューラルネットワーク20の各ユニット
間に例えばランダムな初期値をセットするとともに、学
習用適応型データ処理装置11のニューラルネットワー
ク20の各ユニット間に、適応型データ処理装置10の
ニューラルネットワーク20にセットしたものと同じ重
み値をセットするのである。次に、ステップ2で、第1
の切替器12がデータ処理対象から得られる入力信号を
適応型データ処理装置10のニューラルネットワーク2
0に入力するよう制御するとともに、第2の切替器13
が適応型データ処理装置10のニューラルネットワーク
20の出力信号をノイズ重畳器16に出力するよう制御
することで、適応型データ処理装置10のニューラルネ
ットワーク20による試行錯誤的動作が実行されるよう
制御する。
Next, the self-learning process of the present invention will be described in detail according to an embodiment of the process flow executed by the learning processing device 19 shown in FIG. As shown in the processing flow of FIG. 5, the learning processing device 19 firstly executes step 1
Then, the initialization process is executed. That is, for example, a random initial value is set between the units of the neural network 20 of the adaptive data processing device 10, and the adaptive data processing device is connected between the units of the neural network 20 of the learning adaptive data processing device 11. The same weight value as that set in the neural network 20 of 10 is set. Then, in step 2, the first
The input signal obtained from the data processing target by the switching device 12 of the neural network 2 of the adaptive data processing device 10.
The second switching unit 13 is controlled while inputting to 0.
Controls the output signal of the neural network 20 of the adaptive data processing device 10 to output to the noise superimposing device 16 so that the neural network 20 of the adaptive data processing device 10 performs the trial and error operation. ..

【0028】この適応型データ処理装置10による試行
動作モードの設定により、データ処理目的の遂行状態を
表示する入力信号が適応型データ処理装置10のニュー
ラルネットワーク20に与えられ、この入力信号を受け
て、適応型データ処理装置10のニューラルネットワー
ク20は、設定されている重み値に応じた出力信号を算
出して出力し、ノイズ重畳器16は、この出力信号にノ
イズ発生器15の発生するノイズを重畳し、このノイズ
の重畳された出力信号を受けて、データ処理目的が遂行
されて、その遂行に応じて適応型データ処理装置10の
ニューラルネットワーク20に次の入力信号が入力され
ていくことが繰り返されていくことで、ロボットが試行
錯誤的動作を実行していく。この試行錯誤的動作が実行
されていくときに、記憶装置18は、上述したように、
適応型データ処理装置10のニューラルネットワーク2
0の入力信号とノイズ重畳器16の出力信号との入出力
信号対の内、データ処理目的にかなう高い評価値を持つ
入出力信号対を教師データとして選択して格納していく
処理を実行する。
By setting the trial operation mode by the adaptive data processing device 10, an input signal indicating the performance state of the data processing purpose is given to the neural network 20 of the adaptive data processing device 10, and the input signal is received. The neural network 20 of the adaptive data processing device 10 calculates and outputs an output signal according to the set weight value, and the noise superimposing unit 16 adds the noise generated by the noise generator 15 to this output signal. When the output signal on which the noise is superimposed is received, the data processing purpose is performed, and the next input signal is input to the neural network 20 of the adaptive data processing device 10 according to the execution. By being repeated, the robot executes trial and error motion. When this trial-and-error operation is executed, the storage device 18, as described above,
Neural network 2 of adaptive data processing device 10
Of the input / output signal pairs of the input signal of 0 and the output signal of the noise superimposing device 16, the input / output signal pair having a high evaluation value for the purpose of data processing is selected and stored as teacher data. ..

【0029】学習処理装置19は、適応型データ処理装
置10による試行動作モードに設定すると、続いて、ス
テップ3で、記憶装置18からONを表示する学習フラ
グを持つ教師データを読み出して、この読み出した教師
データの入力信号を学習用適応型データ処理装置11の
ニューラルネットワーク20に入力するときに、このニ
ーラルネットワーク20からの出力信号が教師データの
対となる出力信号と一致するようにと、学習用適応型デ
ータ処理装置11のニューラルネットワーク20の重み
値をバックプロパゲーション法に従って学習する。この
バックプロパゲーション法による学習処理は、学習回数
を重ねていくことで実行されるものであるので、学習処
理装置19は、続くステップ4で、この学習回数が前回
判断した学習回数よりも規定の学習回数分多い学習回数
に達したか否かを判断する。すなわち、前回判断した学
習回数よりも例えば100回多い学習回数に達したか否
かを判断するのである。このステップ4の判断で、未だ
達していないと判断するときには、ステップ3に戻って
学習回数を重ねていくことになる。ここで、この学習処
理のときに、記憶装置18に新たな教師データが格納さ
れていくときには、学習処理装置19は、その新たに追
加された教師データについても学習対象としていくよう
処理する。
When the learning processing device 19 sets the trial operation mode by the adaptive data processing device 10, subsequently, in step 3, the teacher data having a learning flag indicating ON is read from the storage device 18, and this reading is performed. When the input signal of the teacher data is input to the neural network 20 of the learning adaptive data processing device 11, the output signal from the neural network 20 matches the output signal forming the pair of the teacher data. The weight value of the neural network 20 of the learning adaptive data processing device 11 is learned according to the backpropagation method. Since the learning process by the back propagation method is executed by stacking the number of times of learning, the learning processing device 19 determines that the number of times of learning is greater than the number of times of learning previously determined in the subsequent step 4. It is determined whether or not the number of times of learning is increased by the number of times of learning. That is, it is determined whether or not the number of times of learning, which is 100 times more than the number of times of learning previously determined, has been reached. If it is determined in step 4 that the number has not been reached yet, the process returns to step 3 and the number of times of learning is repeated. Here, during the learning process, when new teacher data is stored in the storage device 18, the learning processing device 19 processes the newly added teacher data as a learning target.

【0030】一方、ステップ4の判断で、学習回数が前
回判断した学習回数よりも規定の学習回数分多いものに
なったことを判断するときには、ステップ5に進んで、
第1の切替器12がデータ処理対象から得られる入力信
号を学習用適応型データ処理装置11のニューラルネッ
トワーク20に入力するよう制御するとともに、第2の
切替器13が学習用適応型データ処理装置11のニュー
ラルネットワーク20の出力信号をノイズ重畳器16に
出力するよう制御する。この制御処理に従って、その時
点までの学習処理により求められた重み値を持つ学習用
適応型データ処理装置11のニューラルネットワーク2
0による試行錯誤的動作が実行されることになり、記憶
装置18は、今度は、学習用適応型データ処理装置11
のニューラルネットワーク20の入力信号とノイズ重畳
器16の出力信号との入出力信号対の内、データ処理目
的にかなう高い評価値を持つ入出力信号対を教師データ
として選択して格納していくことになる。
On the other hand, when it is determined in step 4 that the number of learning times is larger than the previously determined number of learning times by the specified number of learning times, the process proceeds to step 5,
The first switch 12 controls the input signal obtained from the data processing target to be input to the neural network 20 of the learning adaptive data processing device 11, and the second switch 13 controls the learning adaptive data processing device. The output signal of the neural network 20 of No. 11 is controlled to be output to the noise superimposing unit 16. According to this control processing, the neural network 2 of the learning adaptive data processing device 11 having the weight value obtained by the learning processing up to that point
The trial-and-error operation by 0 will be executed, and the storage device 18 in turn will learn the adaptive data processing device 11 for learning.
Of the input / output signal pair of the input signal of the neural network 20 and the output signal of the noise superimposing device 16, the input / output signal pair having a high evaluation value that meets the data processing purpose is selected and stored as the teacher data. become.

【0031】続いて、学習処理装置19は、ステップ6
で、ステップ3の学習処理に従って、学習誤差が規定量
よりも小さなものになった教師データ、すなわち、学習
された重み値により教師データの入出力信号関係がほと
んど実現されることになった教師データがあるときに
は、その教師データに対応付けられる記憶装置18の学
習フラグ格納部35の学習フラグにOFFを設定し、更
に、最も学習誤差の小さな教師データを格納する記憶装
置18の教師データ格納部34の格納領域にポインタ
(上述したように、次の教師データの格納先を指示する
ものである)を設定していく。ここで、上述したよう
に、教師データ格納部34に空きがあるときには、この
ポインタは、その空きの格納領域のいずれかに設定され
ていくことになる。この学習フラグのOFF設定処理に
より、学習の収束した教師データについては教師データ
から消去されることなり、また、このポインタの設定処
理により、限られたメモリ容量の記憶装置18でも次か
ら次に収集されていく教師データを有効に格納していけ
るようになるのである。
Subsequently, the learning processing device 19 performs step 6
Then, according to the learning processing of step 3, the learning data whose learning error is smaller than the specified amount, that is, the learning data in which the input / output signal relationship of the teacher data is almost realized by the learned weight value. If there is, the learning flag storage unit 35 of the storage device 18 associated with the teacher data is set to OFF, and further, the teacher data storage unit 34 of the storage device 18 for storing the teacher data with the smallest learning error. A pointer (which indicates the storage destination of the next teacher data, as described above) is set in the storage area of. Here, as described above, when the teacher data storage unit 34 has a free space, this pointer is set to any of the free storage areas. By this learning flag OFF setting processing, the teacher data on which learning has converged is erased from the teacher data, and by this pointer setting processing, even the storage device 18 with a limited memory capacity collects from next to next. The teacher data that will be played can be stored effectively.

【0032】続いて、学習処理装置19は、ステップ7
で、ステップ3の学習処理により求められた重み値を適
応型データ処理装置10のニューラルネットワーク20
の重み値として設定していく。この設定処理の間、適応
型データ処理装置10のニューラルネットワーク20は
データ変換機能を実行できない状態になるが、ステップ
5の処理に従って、学習用適応型データ処理装置11の
ニューラルネットワーク20が適応型データ処理装置1
0のニューラルネットワーク20に代わってロボットの
試行錯誤的動作を実行していくことになる。そして、学
習処理装置19は、続くステップ8で、ステップ3の学
習処理で用いた教師データのすべての学習が収束したか
否かを判断して、全教師データの学習の収束を判断する
ときには、学習処理を終了し、一方、未だ全教師データ
の学習が収束していないと判断するときには、ステップ
3に戻って、データ処理目的を実現する適応型データ処
理装置10のニューラルネットワーク20の重み値の学
習を実行していくよう処理することになる。
Subsequently, the learning processing device 19 proceeds to step 7
Then, the weight value obtained by the learning process of step 3 is applied to the neural network 20 of the adaptive data processing device 10.
Set as the weight value of. During this setting process, the neural network 20 of the adaptive data processing device 10 cannot execute the data conversion function, but according to the process of step 5, the neural network 20 of the learning adaptive data processing device 11 changes the adaptive data Processor 1
The trial and error operation of the robot will be executed in place of the neural network 20 of 0. Then, in the subsequent step 8, the learning processing device 19 determines whether or not all learning of the teacher data used in the learning processing of step 3 has converged, and when determining the convergence of learning of all teacher data, When the learning process is completed and it is determined that the learning of all the teacher data has not yet converged, the process returns to step 3 and the weight value of the neural network 20 of the adaptive data processing device 10 for realizing the data processing purpose is set. It will be processed so that learning is executed.

【0033】このように、本発明では、図6に示すよう
に、学習用適応型データ処理装置11のニューラルネッ
トワーク20を用いて重み値の学習を実行しつつ、その
学習途中で求まるグレードアップした重み値を適応型デ
ータ処理装置10のニューラルネットワーク20に順次
設定していくことで、適応型データ処理装置10のニュ
ーラルネットワーク20と学習用適応型データ処理装置
11のニューラルネットワーク20とが同一のデータ変
換機能を持つように制御するとともに、適応型データ処
理装置10のニューラルネットワーク20にグレードア
ップした重み値を設定している間は、学習用適応型デー
タ処理装置11のニューラルネットワーク20が試行錯
誤的動作を実行していくよう制御することで、ロボット
が試行錯誤的動作を停止することのない構成を採るもの
である。そして、この停止することない試行錯誤的動作
により次から次にと収集される教師データを用いて学習
を実行していくときに、学習の収束したものについては
教師データから消去していくことで、データ処理目的を
実現する重み値を学習していく構成を採るものである。
As described above, in the present invention, as shown in FIG. 6, while the learning of the weight value is executed by using the neural network 20 of the learning adaptive data processing device 11, the upgrade obtained during the learning is upgraded. By sequentially setting the weight values in the neural network 20 of the adaptive data processing device 10, the neural network 20 of the adaptive data processing device 10 and the neural network 20 of the learning adaptive data processing device 11 have the same data. The neural network 20 of the learning adaptive data processing device 11 performs trial-and-error while controlling to have the conversion function and setting the upgraded weight value in the neural network 20 of the adaptive data processing device 10. By controlling the motions to execute, the robot performs trial and error motions. It is intended to adopt a configuration without stopping. Then, when learning is executed using the teacher data collected one after another by this trial-and-error operation that does not stop, when the learning has converged, it is deleted from the teacher data. , A configuration for learning a weight value for realizing a data processing purpose is adopted.

【0034】確かに、学習用適応型データ処理装置11
に肩代わりさせずに適応型データ処理装置10のみによ
って試行錯誤的動作を実行する構成を採ることも可能で
ある。しかるに、この構成を採ると、適応型データ処理
装置10のニューラルネットワーク20の重み値を更新
していくために、一時的に適応型データ処理装置10の
試行錯誤的動作を停止させる必要がでてきて、重み値の
学習を一定の試行動作単位でもって打ち切っていかなく
てはならない。これから、この構成を採ると、図7に示
すように、教師データによっては収束しないまま学習が
打ち切られたり、不必要に長い間学習が続行されたりす
ることになる。これに対して、本発明では、上記の構成
を採っているので、このような不都合が起こらないので
ある。
Certainly, the learning adaptive data processing device 11
It is also possible to adopt a configuration in which the trial-and-error operation is executed only by the adaptive data processing device 10 without shifting to the above. However, with this configuration, in order to update the weight value of the neural network 20 of the adaptive data processing device 10, it is necessary to temporarily stop the trial and error operation of the adaptive data processing device 10. Therefore, the learning of the weight value must be terminated with a certain trial motion unit. From this, if this configuration is adopted, as shown in FIG. 7, learning may be terminated without being converged depending on the teacher data, or learning may be continued for an unnecessarily long time. On the other hand, in the present invention, since the above configuration is adopted, such inconvenience does not occur.

【0035】図示実施例について説明したが、本発明は
これに限定されるものではない。例えば、実施例では、
適応型データ処理装置10としてニューラルネットワー
ク20を用いるもので開示したが、本発明はこれに限ら
れることなく、如何なる適応型データ処理装置10であ
ってもよいのである。
Although the illustrated embodiment has been described, the present invention is not limited to this. For example, in the example,
Although the one in which the neural network 20 is used as the adaptive data processing device 10 is disclosed, the present invention is not limited to this, and any adaptive data processing device 10 may be used.

【0036】[0036]

【発明の効果】以上説明したように、本発明によれば、
試行錯誤的動作を実行していくことで、設定変更可能な
データ変換機能に従ってデータ処理を実行する構成を採
る適応型データ処理装置のデータ変換機能をデータ処理
目的に適合するものに自己学習していくときにあって、
その試行錯誤的動作を停止せずに済むようになることか
ら、適応型データ処理装置のデータ変換機能を効率的に
自己学習できるようになるのである。
As described above, according to the present invention,
By performing trial-and-error operation, the data conversion function of the adaptive data processing device is configured to execute data processing according to the data conversion function whose setting can be changed. When I go,
Since the trial-and-error operation does not have to be stopped, the data conversion function of the adaptive data processing device can be efficiently self-learned.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の原理構成図である。FIG. 1 is a principle configuration diagram of the present invention.

【図2】ニューラルネットワークの説明図である。FIG. 2 is an explanatory diagram of a neural network.

【図3】ロボット制御の説明図である。FIG. 3 is an explanatory diagram of robot control.

【図4】記憶装置の一実施例である。FIG. 4 is an example of a storage device.

【図5】学習処理装置の実行する処理フローの一実施例
である。
FIG. 5 is an example of a processing flow executed by the learning processing apparatus.

【図6】本発明の処理の説明図である。FIG. 6 is an explanatory diagram of processing of the present invention.

【図7】本発明の有効性を説明するための説明図であ
る。
FIG. 7 is an explanatory diagram for explaining the effectiveness of the present invention.

【図8】先に出願した発明の説明図である。FIG. 8 is an explanatory diagram of the invention previously filed.

【符号の説明】[Explanation of symbols]

10 適応型データ処理装置 11 学習用適応型データ処理装置 12 第1の切替器 13 第2の切替器 14 入力機構 15 ノイズ発生器 16 ノイズ重畳器 17 出力機構 18 記憶装置 19 学習処理装置 10 Adaptive Data Processing Device 11 Adaptive Data Processing Device for Learning 12 First Switching Device 13 Second Switching Device 14 Input Mechanism 15 Noise Generator 16 Noise Superimposing Device 17 Output Mechanism 18 Storage Device 19 Learning Processing Device

───────────────────────────────────────────────────── フロントページの続き (72)発明者 菅坂 玉美 神奈川県川崎市中原区上小田中1015番地 富士通株式会社内 (72)発明者 長田 茂美 神奈川県川崎市中原区上小田中1015番地 富士通株式会社内 ─────────────────────────────────────────────────── ─── Continuation of the front page (72) Inventor Tamami Sugaka 1015 Kamiodanaka, Nakahara-ku, Kawasaki City, Kanagawa Prefecture, Fujitsu Limited (72) Inventor Shigemi Nagata 1015, Kamedotachu, Nakahara-ku, Kawasaki City, Kanagawa Prefecture, Fujitsu Limited

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】 設定変更可能なデータ変換機能に従っ
て、入力信号に対応する出力信号を算出して出力する適
応型データ処理装置(10)と、該適応型データ処理装置(1
0)の出力信号にノイズを重畳するノイズ重畳器(16)とを
備え、該適応型データ処理装置(10)の入力信号と該ノイ
ズ重畳器(16)の出力信号との入出力信号対の内で、該適
応型データ処理装置(10)のデータ処理目的に適合する入
出力信号対を教師データとして選択して、この選択した
教師データの入出力信号関係が実現されるべく該適応型
データ処理装置(10)のデータ変換機能を学習していく適
応型データ処理装置の自己学習処理方式であって、 上記適応型データ処理装置(10)と同一のデータ変換機能
を持つ学習用適応型データ処理装置(11)と、 上記学習用適応型データ処理装置(11)を用いて、教師デ
ータの入出力信号関係が実現されることになる上記適応
型データ処理装置(10)のデータ変換機能を学習する学習
処理装置(19)とを備え、 上記学習処理装置(19)の学習途中に求まるデータ変換機
能を上記適応型データ処理装置(10)に設定していくとと
もに、この設定中において、上記学習用適応型データ処
理装置(11)が上記適応型データ処理装置(10)の代わりに
動作するよう構成し、かつ、教師データが得られる度毎
に該教師データを追加していくとともに、教師データの
内の学習の収束したものについては教師データから消去
していくことで、上記適応型データ処理装置(10)が上記
データ処理目的を実現するデータ変換機能を備えること
になるよう処理していくことを、 特徴とする適応型データ処理装置の自己学習処理方式。
1. An adaptive data processing device (10) for calculating and outputting an output signal corresponding to an input signal according to a data conversion function whose setting can be changed, and the adaptive data processing device (1).
A noise superimposing device (16) that superimposes noise on the output signal of (0), and an input / output signal pair of the input signal of the adaptive data processing device (10) and the output signal of the noise superimposing device (16). Of the adaptive data processing device (10), the input / output signal pair suitable for the data processing purpose is selected as teacher data, and the adaptive data is selected so that the input / output signal relationship of the selected teacher data is realized. It is a self-learning processing method of an adaptive data processing device that learns the data conversion function of the processing device (10), and has the same data conversion function as the adaptive data processing device (10). By using the processing device (11) and the learning adaptive data processing device (11), the data conversion function of the adaptive data processing device (10) that realizes the input / output signal relation of the teacher data is realized. The learning processing device (19) for learning is provided, and the learning processing device (19) While setting the data conversion function obtained during learning to the adaptive data processing device (10), during this setting, the learning adaptive data processing device (11) causes the adaptive data processing device (10) to The teaching data is added every time the teaching data is obtained, and the learning data of the learning data that has converged is deleted from the teaching data. A self-learning processing method for an adaptive data processing device, characterized in that the adaptive data processing device (10) performs processing so as to have a data conversion function for realizing the data processing purpose.
【請求項2】 請求項1記載の適応型データ処理装置の
自己学習処理方式において、 適応型データ処理装置(10)のデータ変換機能は、1つ又
は複数の入力と該入力に対して乗算されるべき内部状態
値とを受け取って積和値を得るとともに、該積和値を所
定の関数によって変換して出力値を得る基本ユニットの
ネットワーク構造により構成されることを、 特徴とする適応型データ処理装置の自己学習処理方式。
2. The self-learning processing method for an adaptive data processing device according to claim 1, wherein the data conversion function of the adaptive data processing device (10) is multiplied by one or a plurality of inputs and the inputs. An adaptive data comprising a basic unit network structure that receives an internal state value to be obtained, obtains a product sum value, and converts the product sum value by a predetermined function to obtain an output value. Self-learning processing method of processing device.
JP3197546A 1991-08-07 1991-08-07 Self-learning processing system for adaptive data processor Withdrawn JPH0561845A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3197546A JPH0561845A (en) 1991-08-07 1991-08-07 Self-learning processing system for adaptive data processor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3197546A JPH0561845A (en) 1991-08-07 1991-08-07 Self-learning processing system for adaptive data processor

Publications (1)

Publication Number Publication Date
JPH0561845A true JPH0561845A (en) 1993-03-12

Family

ID=16376283

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3197546A Withdrawn JPH0561845A (en) 1991-08-07 1991-08-07 Self-learning processing system for adaptive data processor

Country Status (1)

Country Link
JP (1) JPH0561845A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0744516A (en) * 1993-07-30 1995-02-14 Tech Res & Dev Inst Of Japan Def Agency Single discrimination method under noise background
JP2000148724A (en) * 1998-11-09 2000-05-30 Sony Corp Processor and method for data processing
JP2000151434A (en) * 1998-11-09 2000-05-30 Sony Corp Data processing unit and data processing method
WO2015125452A1 (en) * 2014-02-18 2015-08-27 日本電気株式会社 Data management device, data analysis device, data analysis system, and analysis method
JP2021018816A (en) * 2019-07-19 2021-02-15 ユーアイパス, インコーポレイテッドUiPath, Inc. Retraining computer vision model for robotic process automation

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0744516A (en) * 1993-07-30 1995-02-14 Tech Res & Dev Inst Of Japan Def Agency Single discrimination method under noise background
JP2000148724A (en) * 1998-11-09 2000-05-30 Sony Corp Processor and method for data processing
JP2000151434A (en) * 1998-11-09 2000-05-30 Sony Corp Data processing unit and data processing method
JP4517409B2 (en) * 1998-11-09 2010-08-04 ソニー株式会社 Data processing apparatus and data processing method
WO2015125452A1 (en) * 2014-02-18 2015-08-27 日本電気株式会社 Data management device, data analysis device, data analysis system, and analysis method
JPWO2015125452A1 (en) * 2014-02-18 2017-03-30 日本電気株式会社 Data management device, data analysis device, data analysis system, and analysis method
JP2021018816A (en) * 2019-07-19 2021-02-15 ユーアイパス, インコーポレイテッドUiPath, Inc. Retraining computer vision model for robotic process automation

Similar Documents

Publication Publication Date Title
Smart et al. Practical reinforcement learning in continuous spaces
JP4761170B2 (en) Signal processing apparatus and program
JPH10154140A (en) Matrix transposition device
CN108255060A (en) Dynamic positioning of vessels Auto-disturbance-rejection Control based on extreme learning machine
EP4048421A1 (en) Providing automated user input to an application during a disruption
Mahadevan Enhancing transfer in reinforcement learning by building stochastic models of robot actions
CN114839884B (en) Underwater vehicle bottom layer control method and system based on deep reinforcement learning
JPH0561845A (en) Self-learning processing system for adaptive data processor
CA3167197A1 (en) Learning environment representations for agent control using predictions of bootstrapped latents
Anderson et al. Reinforcement learning with modular neural networks for control
Ng et al. Neural integrated fuzzy controller (nif-t) and real-time implementation of a ball balancing beam (bbb)
JP2003252298A (en) Attitude change controller and attitude change control method for spacecraft
Zamstein et al. Koolio: Path planning using reinforcement learning on a real robot platform
JPH0561844A (en) Self-learning processing system for adaptive data processor
JP3167343B2 (en) Self-learning processing method of adaptive data processor
JPH056348A (en) Self-learning processing system for adaptive data processor
US20020089507A1 (en) Animation generation method and apparatus
JP3879193B2 (en) Robot apparatus and control method thereof
CN110503228B (en) Power prediction method and equipment for wind generating set at low wind speed
Jouila et al. Stabilization of neuro-control structure using Lyapunov functional based approach
JP2966076B2 (en) Learning device self-learning method
CN116560241B (en) Explicit circulation model predictive control track tracking method and device for articulated vehicle
JP3236361B2 (en) Motion control device
JPH0512238A (en) Self learning processing system for adaptive data processor
Lee Decentralized learning and repetitive control

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 19981112