JP4441296B2 - オンライン入出力関係学習方法 - Google Patents

オンライン入出力関係学習方法 Download PDF

Info

Publication number
JP4441296B2
JP4441296B2 JP2004074204A JP2004074204A JP4441296B2 JP 4441296 B2 JP4441296 B2 JP 4441296B2 JP 2004074204 A JP2004074204 A JP 2004074204A JP 2004074204 A JP2004074204 A JP 2004074204A JP 4441296 B2 JP4441296 B2 JP 4441296B2
Authority
JP
Japan
Prior art keywords
input
learning
output
model
resolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004074204A
Other languages
English (en)
Other versions
JP2005265918A (ja
Inventor
洋 川野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004074204A priority Critical patent/JP4441296B2/ja
Publication of JP2005265918A publication Critical patent/JP2005265918A/ja
Application granted granted Critical
Publication of JP4441296B2 publication Critical patent/JP4441296B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)
  • Feedback Control In General (AREA)

Description

本発明は、オンライン入出力関係学習方法に関する。
制御対象の力学特性が非線形性を持っている場合や、制御に対する追従時間差、追従誤差に対する要求が強い場合においては、フィードフォワード制御の手法がよく用いられる。
フィードフォワード制御においては、制御対象の入出力関係を精度よく記述したモデルが必要不可欠であるが、制御対象の力学特性を、数学的な方程式によって記述することが難しい場合が多々ある。例えば、超音波モータ、流体中の航行体、などはその代表例であるといえる。
そのような場合においては、機械学習の手法を利用して、制御対象の運動モデルを獲得し、フィードフォワード制御に利用する手法が有効であるとされている。例えば、制御を行いながら同時にオンラインで運動モデルの獲得を行うことが可能なフィードバック誤差学習の手法が有効である(非特許文献1 参照)。
ところが、実際に学習によって獲得される運動モデルをどのような状態空間を利用して構成するかについては問題が多い。特に問題なのは、運動モデルによって記述可能な入力値に対する出力値の変化の仕方の複雑さ(ここでは、便宜的に解像度と呼ぶ)は運動モデルを記述するために選択した数学的な手法に左右されるということである。
例えば、放射状基底関数(Radial Basis Function:中心点から距離が離れるにつれて、値が単調に減少(増加)し、その等高線が超球(2次元の場合:円又は楕円)になる関数)を利用して運動モデルを記述した場合、基底とする特徴点の数によって、前述の解像度は直接左右される。ニューラルネットワークを利用した場合でも、パーセプトロンの数によって解像度は決定される。
すなわち、放射状基底関数の場合には特徴点、ニューラルネットッワークの場合にはパーセプトロン数を十分大きくすれば、解像度も上がり、精度の高い運動モデルの構築が可能となる。しかし、一般に、学習に要する時間は、解像度が上がるにつれて急激に長くなるという問題がある。これが機械学習の研究において一般に言われる「状態空間の爆発問題」である(非特許文献2 参照)。
これまでの研究として、学習対象プラントの入出力特性を忠実に再現するための必要最小限の解像度を知るためのいくつかの手法が提案されているが(非特許文献3 参照)、そうして求められた解像度の運動モデルが、オンラインで実用的な学習時間内に獲得される事が可能であるという補償はない。
また、制御を行いながらの運動モデルのオンラインでの学習においては、精度のよい運度モデルを学習する上で十分な状態空間内の探索を行える補償はない。例えば、急激に目標起動の形態がこれまでとは異なる形に変化した場合においては、事実上運動モデルの学習しなおしが必要となるため、制御性能の悪化が著しくなる。これに対する対策として、オフラインで運動モデルを学習する手法も考えられるが、オフラインの場合においても、運動モデルの学習必要な状態空間の探索が十分に行えるという補償はない。すなわち、限られた学習経験を元に、あらゆる制御目標の要求にこたえられる運度モデルが構築可能であることが必要である。
これらの問題に着目した研究事例としては、低速なプラントを扱った離散値を元にした強化学習に関するものがあるだけであり、連続値の扱いを必要とする高速制御の問題には向いていない(非特許文献2 参照)。
Shibata T., Shaal S."Biomimetic Smooth Pursuite Based on Fast Learning of the Target Dynamics", Proceedings of IEEE/RSJ International Conference on Intelligent Robots and Systems,(pp.278-285), Hawaii 2001. Kawano, H. & Ura. T.,"Dynamics Control Algorithm of Autonomous Underwater Vehicle by Reinforcement Learning and Teaching Method Considering Thruster Failure under Severe Disturbance. "Proseeding of 2001 IEEE/RSJ International Conference on Intelligent Robots and Systems(pp.974-979). Hawaii, 2001. 上田 修功,「最良モデル探索のための変分ベイズ学習」,人工知能学会論文誌,Vol. 16, No.2, pp. 299-308,2001.
従来の技術においては、制御対象とするプラントの入出力関係を連続値によって記述する高精度なモデルを、プラントの制御と同時に、少ない時間で獲得する事が可能であるという補償はなかった。
本発明は、異なる解像度の状態空間を併用することで、これらの課題を解決し、精度の良い運動モデルを構築するに十分な解像度を保持しつつも、学習に要する時間を大幅に短縮することを可能とするものである。また、制御を同時に行いながらのオンライン学習において、限られた学習経験を元に、未経験な目標起動を指示された場合における迅速な学習機能を実現するものである。
本発明の第一の特徴は、対象とするプラントの入出力関係を連続値で記述する入出力モデルを、機械学習によって獲得する入出力関係学習装置において、入出力モデルを構成するデータ領域を複数同時に保持し、それぞれのデータ領域で扱うことが可能な入出力パラメータ値の変化の複雑さ(便宜的に解像度と呼ぶ)が異なることである。
本発明の第二の特徴は、前記本発明の第一の特徴における入出力関係学習装置において、入出力モデルを構成する複数のデータ領域を、放射状基底関数を利用して構成し、放射状基底関数の特徴点の数を変えることで、各データ領域の解像度を変えることである。
本発明の第三の特徴は、前記本発明の第一の特徴における入出力関係学習装置において、入出力モデルを構成する最も解像度の低いデータ領域を、n次関数(n:自然数)を利用して構成することである。
本発明の第四の特徴は、前記本発明の第一の特徴における入出力関係学習装置において、入出力モデルを構成する複数のデータ領域を、人工ニューラルネットワークを利用して構成し、人工ニューラルネットワークのパーセプトロンの数を変えることで、各データ領域の解像度を変えることである。
本発明の第五の特徴は、前記本発明の第一乃至四の特徴における入出力関係学習装置において、学習によって獲得された入出力モデルを利用する際には、入出力モデルに対する入力値を、入出力モデルを構成する各解像度データ領域のデータを利用した各モデルに入力し、各モデルの出力値の総和をとって、それを入出力モデルの出力値として利用することである。
本発明の第六の特徴は、前記本発明の第五の特徴における入出力関係学習装置において、学習が開始されていないデータ領域のデータを利用したモデルの出力値は、0であることである。
本発明の第七の特徴は、前記本発明の第一乃至六の特徴における入出力関係学習装置において、入出力モデルを構成する複数のデータ領域のうち、解像度が低いデータ領域に保持されるデータの学習から始め、以後、解像度が増す順序で、各データ領域に保持されるデータの学習を行っていくことである。
本発明の第八の特徴は、前記本発明の第七の特徴における入出力関係学習装置において、入出力モデルを構成する複数のデータ領域の学習が終了した後に学習によって獲得された入出力モデルを利用する際、入出力モデルを構成する最も解像度の高いデータ領域のデータの学習をオンラインで継続することである。
本発明の第九の特徴は、前記本発明の第七又は八の特徴における入出力関係学習装置において、入出力モデルを構成する各解像度データ領域の学習則として、入出力モデルが出力する値が適切な出力値に比べて高いか低いかを判定し、高い場合は、入出力モデルの出力値を下げ、低い場合は、入出力モデルの値を上げる機能を持つ教師あり学習を利用することである。
本発明の第十の特徴は、前記本発明の第七乃至九の特徴における入出力関係学習装置において、入出力モデルを構成する複数の各データ領域の学習時間もしくは、学習回数を、最も解像度の低いデータ領域の学習時間もしくは回数で等配分することである。
本発明の第十一の特徴は、前記本発明の第九の特徴における入出力関係学習装置において、入出力モデルの入力値を制御目標値とし、出力値を制御対象に入力したフィードフォワード制御の結果として観測される制御対象の動作の目標値からのずれ量を利用して、入出力モデルの出力が大きすぎるか小さ過ぎるか判定する教師あり学習手法により、入出力モデルの各データ領域の学習を行うことである。
本発明の第十二の特徴は、前記本発明の第十一の特徴において、入出力関係モデルの入力値を制御目標値、出力値を制御対象への入力値として利用するフィードフォワード制御と、フィードバック制御を併用する手法によって、制御対象を制御する機能を備えることである。
本発明の第十三の特徴は、前記本発明の第七乃至一二の特徴における入出力関係学習装置における、入出力モデルを構成するデータ領域の学習プロセスにおいて、同時に2つ以上のデータ領域が同時に学習されることはないことである。
(作用)
本発明は、高い精度を持つが学習に要する時間が長い高解像度の状態空間によって構成された入出力モデルと、低い精度を持つが学習に要する時間も大幅に短く、学習時における探索にて状態空間内を網羅することが容易である低解像度の状態空間によって構成された入出力モデルを併用し、かつ低解像度の運動モデルの学習を先に行うことで、両者の利点を生かすことが可能であることを、本発明の提案者が実験により見出したことを利用したものである。
本発明のオンライン入出力関係学習装置によって、高い精度を持った制御対象の入出力モデルの学習所要時間が大幅に短縮し、入出力モデルを利用したフィードフォワード制御を行いながらのオンラインでの入出力モデルの獲得が可能となった。また、制御目標軌道の急激な変化に対する頑健性も大幅に向上する。
以下、図面に基づいて本発明の実施例を説明する。
図1に本発明によって獲得される入出力モデルの構成を示す。図1において、入出力モデルは、例えば3層からなっている。それぞれの層は、入出力モデルデータ領域最上層1、入出力モデルデータ領域中間層2、入出力モデルデータ領域最下層3である。このモデルをフィードフォワード制御に利用する場合は、入力は制御目標値、出力は制御対象プラント4への入力値となる。例えば、モータ制御に適用した場合には、入力は、モータへの指示速度値で、出力はモータへの制御電圧となる。つまり、制御対象をある回転速度にしたい場合の適切な制御電圧値をこのモデルによって計算する形となる。
図1において、各データ領域1,2,3は、扱うことが可能な入出力パラメータ値の変化の複雑さ(離散系で言うところの解像度に当たる)が異なっている。上の層ほど、扱える複雑さは高く、下の層に行くにしたがって低くなる。入出力モデルへの入力は、各データ領域1,2,3に入力され、各データ領域1,2,3に保持されているデータを利用して計算された出力値の総和が、入出力モデルの出力値となる。
図1において、各層のデータ領域1,2,3は、例えば、放射状基底関数を利用して構築すればよい。その場合、基底関数の数(特徴点の数)によって、それぞれのデータ領域1,2,3の解像度が決まるが、その場合は、入出力モデルデータ領域最上層1が最も多くの特徴点を持ち、入出力モデルデータ領域最下層3は、特徴点の数が最も少ない。
各層の学習のための学習則としては、入出力モデルが出力する値が、適切な出力値に比べて高いか低いかを判定し、高い場合は、入出力モデルの出力値を下げ、低い場合は、入出力モデルの値を上げる機能を持つ教師あり学習(幾つかの学習例と各学習例に対する目標出力を与え、目標出力と実際の出力が一致するように重みを調整する方法)を利用するとよい。
本件では、単純にそれぞれの層に一定の学習時間を割り当てている。すなわち、最下層の学習にて、所定の時間が過ぎたら、最下層の学習を切り上げ、次の中間層の学習に移る。
図1に示す入出力モデルの学習のプロセスにおいては、最下層の学習が始めに行われる。学習プロセスにおいて、同時に学習が行われるデータ領域は、一つである。なお、学習の済んでいない層は0(すなわち、制御対象プラント4に対して何の影響も与えない入力値)を出力する。本入出力モデルを、フィードフォワード制御に利用する場合には、学習則としては、例えば、制御対象プラント4から観測される追従誤差量を利用して学習を行う教師あり学習手法の一つであるフィードバック誤差学習による更新方法を採用すればよい。その様子を図3に示す。
図1に示す入出力モデルの各データ領域1,2,3の学習時間は、本実施例のように、各データ領域を放射状基底関数で構築した場合には、各データ領域が含む特徴点の数に比例する。その総和は、最上層を単体で利用した場合の学習時間に比べて長くなるという見方が起こりうるがそうではない。以下それについて説明する。
図2において学習段階が進んでいくにつれて入出力モデルの出力値が、どのように変化していくかを示している。始めの最下層3の学習において、学習対象の入出力関係の大まかな形は、すでに学習されており、この段階にかかる時間は全層の中で最も短い。しかし、最下層3は解像度が低いため、出力値にはある程度の誤差が含まれたままである。次の中間層2の学習段階では、教師あり学習によって、この最下層3の出力値が含む誤差を修正するように学習が行われていく。本発明での中間層2の学習は、このようにすでに学習されている最下層3に上乗りして学習を行うため、単体で中間層2の学習を行う場合に比べて大幅に学習時間が短縮される。なお、この場合、最下層3の学習が終わった段階で、中間層2にとって未経験な領域があったとしても、その部分は、低解像度の最下層3の学習結果によって補完されているので、学習中における大きな制御精度の低下はない。これは、例えば目標軌道が急激に変化したような場合における本モデルの頑健性を保つことにも役立っている。学習の最終段階である最上層1の学習においても同様である。上乗り学習は、図1に示したとおり、各層の出力の和が全体のモデルの出力として扱われる。最下層の学習が済んだあとは、学習済みの最下層は与えられた入力値に対する出力を出すことになるが、この最下層の出力と、中間層の出力の和が制御対象に与えられ、その結果によって、中間層の学習が行われる。すなわち、最下層の出力値が持つ誤差の部分を中間層の学習によって補正しているような図式となる。
従って、上層の学習段階において、全状態空間の探索が必須にはならないため、学習に要する時間は、単体で最上層1を利用した場合に比べて短い。逆に、単体で学習を行った場合には、未経験な状態の領域がなくなるまでに膨大な時間を要する。例えば、解像度を最上層を4、中間層を2、最下層を1として、それぞれのデータ領域の次元数を2とした場合、単体でそれぞれの層に要する学習時間は16,4,1である。しかし、本発明によれば、せいぜい最下層学習所要時間の数倍しか学習時間がかからないので、所要時間は1+1+1=3となり、大幅に短いことがわかる。すなわち、本発明によって、最上層のみを使って学習を行った場合の5倍以上(16/3)の学習速度で、最上層と同様の解像度を持つ入出力モデルの学習が可能である。
図1において、最下層1のデータ領域をn次関数(n:自然数)で構築すると、制御に本発明を適用したときに有効なことが多い。
また、本発明で獲得された入出力モデルを利用したフィードフォワード制御に加えて、フィードバック制御を行えば、制御性能は大幅に向上する。
本発明の実施例によって獲得される入出力モデル例の階層図。 本発明による入出力モデルの学習の進み方の模式図。 本発明のオンライン入出力関係学習装置におけるフィードフォワード制御を利用した場合の学習のプロセス図。
符号の説明
1・・・入出力モデルデータ領域最上層
2・・・入出力モデルデータ領域中間層
3・・・入出力モデルデータ領域最下層
4・・・プラント(制御対象)

Claims (3)

  1. 御対象の入出力関係を記述する関数である入出力モデルを、機械学習によって獲得する入出力関係学習方法であって、
    前記入出力モデルは、入力値に対する出力値の変化の仕方の複雑さ(便宜的に解像度と呼ぶ)が異なる複数のデータ領域と、
    入出力モデルの出力値を前記制御対象への制御入力値とし、観測される前記制御対象の動作の目標値からのずれ量を学習を行うデータ領域にフィードバックする手順を有し、
    前記入出力モデルを構成する複数のデータ領域のうち解像度が最も低いデータ領域から前記ずれ量を修正するように学習を始め、以後、解像度が増す順序で前記ずれ量を修正するように学習を行っていくものであり、前記各解像度のデータ領域における学習は、該解像度のデータ領域への入力値を前記入出力モデルの制御目標値とし、学習済みの解像度のデータ領域からの出力値と該解像度のデータ領域からの出力値との総和を前記入出力モデルの出力値とし、前記ずれ量を小さくするような学習であることを特徴とするオンライン入出力関係学習方法。
  2. 請求項1に記載のオンライン入出力関係学習方法であって、
    入出力モデルを構成する複数の各データ領域の学習時間もしくは、学習回数を、最も解像度の低いデータ領域の学習時間もしくは回数で等配分することを特徴とするオンライン入出力関係学習方法。
  3. 請求項1又は2に記載のオンライン入出力関係学習方法であって、
    入出力モデルを構成するデータ領域の学習プロセスにおいて、同時に2つ以上のデータ領域が同時に学習されることはないことを特徴とするオンライン入出力関係学習方法。
JP2004074204A 2004-03-16 2004-03-16 オンライン入出力関係学習方法 Expired - Fee Related JP4441296B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004074204A JP4441296B2 (ja) 2004-03-16 2004-03-16 オンライン入出力関係学習方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004074204A JP4441296B2 (ja) 2004-03-16 2004-03-16 オンライン入出力関係学習方法

Publications (2)

Publication Number Publication Date
JP2005265918A JP2005265918A (ja) 2005-09-29
JP4441296B2 true JP4441296B2 (ja) 2010-03-31

Family

ID=35090579

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004074204A Expired - Fee Related JP4441296B2 (ja) 2004-03-16 2004-03-16 オンライン入出力関係学習方法

Country Status (1)

Country Link
JP (1) JP4441296B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8107735B2 (en) 2007-04-10 2012-01-31 Denso Corporation Three dimensional shape reconstitution device and estimation device
JP6608010B1 (ja) * 2018-07-25 2019-11-20 積水化学工業株式会社 制御装置、サーバ、管理システム、コンピュータプログラム、学習モデル及び制御方法
JP2020063429A (ja) * 2019-09-10 2020-04-23 積水化学工業株式会社 制御装置、サーバ、管理サーバ、コンピュータプログラム、学習モデル及び制御方法
CN110807964A (zh) * 2019-10-30 2020-02-18 张华平 一种工商管理专业模拟实训跟踪管理***及方法

Also Published As

Publication number Publication date
JP2005265918A (ja) 2005-09-29

Similar Documents

Publication Publication Date Title
Xiang et al. Robust fuzzy 3D path following for autonomous underwater vehicle subject to uncertainties
Carlucho et al. Double Q-PID algorithm for mobile robot control
Larrazabal et al. Intelligent rudder control of an unmanned surface vessel
Soylu et al. A chattering-free sliding-mode controller for underwater vehicles with fault-tolerant infinity-norm thrust allocation
CN108008628B (zh) 一种不确定欠驱动无人艇***的预设性能控制方法
Garimella et al. Neural network modeling for steering control of an autonomous vehicle
Perera et al. Lyapunov and Hurwitz based controls for input–output linearisation applied to nonlinear vessel steering
Carvajal et al. Optimization of membership function parameters for fuzzy controllers of an autonomous mobile robot using the flower pollination algorithm
Liu et al. Robust adaptive self-organizing neuro-fuzzy tracking control of UUV with system uncertainties and unknown dead-zone nonlinearity
Matin et al. Design Intelligent PID like Fuzzy Sliding Mode Controller for Spherical Motor
Hernandez et al. Optimization of fuzzy controllers for autonomous mobile robots using the grey wolf optimizer
Blekas et al. RL-based path planning for an over-actuated floating vehicle under disturbances
JP4441296B2 (ja) オンライン入出力関係学習方法
De Carolis et al. Energy-aware fault-mitigation architecture for underwater vehicles
Majid et al. A fuzzy self-adaptive PID tracking control of autonomous surface vehicle
Vianna et al. Neural Network Based Model Predictive Control for an Autonomous Vehicle
Huang et al. Learning Koopman Operators with Control Using Bi-Level Optimization
Das et al. UDE based backstepping design for ship autopilot
WO2023053400A1 (ja) 数値制御装置、加工システム、数値制御方法および加工方法
US11531890B2 (en) Padding method for a convolutional neural network
Koslosky et al. On using fuzzy logic to control a simulated hexacopter carrying an attached pendulum
Glushchenko et al. Adaptive neural network based control of balancing robot in real time mode
JP2019217867A (ja) 車両用操舵装置
Dideková et al. Intelligent hybrid control based on adaptive switching
Abdallaoui et al. Dynamic and Static Obstacles Avoidance Strategies Using Parallel Elliptic Limit-Cycle Approach for Autonomous Robots

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060414

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060414

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081021

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090825

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091006

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091222

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100108

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130115

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4441296

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees