JP4441296B2

JP4441296B2 - オンライン入出力関係学習方法

Info

Publication number: JP4441296B2
Application number: JP2004074204A
Authority: JP
Inventors: 洋川野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2004-03-16
Filing date: 2004-03-16
Publication date: 2010-03-31
Anticipated expiration: 2024-03-16
Also published as: JP2005265918A

Description

本発明は、オンライン入出力関係学習方法に関する。

制御対象の力学特性が非線形性を持っている場合や、制御に対する追従時間差、追従誤差に対する要求が強い場合においては、フィードフォワード制御の手法がよく用いられる。
フィードフォワード制御においては、制御対象の入出力関係を精度よく記述したモデルが必要不可欠であるが、制御対象の力学特性を、数学的な方程式によって記述することが難しい場合が多々ある。例えば、超音波モータ、流体中の航行体、などはその代表例であるといえる。
そのような場合においては、機械学習の手法を利用して、制御対象の運動モデルを獲得し、フィードフォワード制御に利用する手法が有効であるとされている。例えば、制御を行いながら同時にオンラインで運動モデルの獲得を行うことが可能なフィードバック誤差学習の手法が有効である（非特許文献１参照）。

ところが、実際に学習によって獲得される運動モデルをどのような状態空間を利用して構成するかについては問題が多い。特に問題なのは、運動モデルによって記述可能な入力値に対する出力値の変化の仕方の複雑さ（ここでは、便宜的に解像度と呼ぶ）は運動モデルを記述するために選択した数学的な手法に左右されるということである。
例えば、放射状基底関数(Radial Basis Function：中心点から距離が離れるにつれて、値が単調に減少（増加)し、その等高線が超球（２次元の場合：円又は楕円）になる関数）を利用して運動モデルを記述した場合、基底とする特徴点の数によって、前述の解像度は直接左右される。ニューラルネットワークを利用した場合でも、パーセプトロンの数によって解像度は決定される。
すなわち、放射状基底関数の場合には特徴点、ニューラルネットッワークの場合にはパーセプトロン数を十分大きくすれば、解像度も上がり、精度の高い運動モデルの構築が可能となる。しかし、一般に、学習に要する時間は、解像度が上がるにつれて急激に長くなるという問題がある。これが機械学習の研究において一般に言われる「状態空間の爆発問題」である（非特許文献２参照）。

これまでの研究として、学習対象プラントの入出力特性を忠実に再現するための必要最小限の解像度を知るためのいくつかの手法が提案されているが（非特許文献３参照）、そうして求められた解像度の運動モデルが、オンラインで実用的な学習時間内に獲得される事が可能であるという補償はない。
また、制御を行いながらの運動モデルのオンラインでの学習においては、精度のよい運度モデルを学習する上で十分な状態空間内の探索を行える補償はない。例えば、急激に目標起動の形態がこれまでとは異なる形に変化した場合においては、事実上運動モデルの学習しなおしが必要となるため、制御性能の悪化が著しくなる。これに対する対策として、オフラインで運動モデルを学習する手法も考えられるが、オフラインの場合においても、運動モデルの学習必要な状態空間の探索が十分に行えるという補償はない。すなわち、限られた学習経験を元に、あらゆる制御目標の要求にこたえられる運度モデルが構築可能であることが必要である。
これらの問題に着目した研究事例としては、低速なプラントを扱った離散値を元にした強化学習に関するものがあるだけであり、連続値の扱いを必要とする高速制御の問題には向いていない（非特許文献２参照）。
Shibata T., Shaal S."Biomimetic Smooth Pursuite Based on Fast Learning of the Target Dynamics", Proceedings of IEEE/RSJ International Conference on Intelligent Robots and Systems,(pp.278-285), Hawaii 2001. Kawano, H. & Ura. T.,"Dynamics Control Algorithm of Autonomous Underwater Vehicle by Reinforcement Learning and Teaching Method Considering Thruster Failure under Severe Disturbance. "Proseeding of 2001 IEEE/RSJ International Conference on Intelligent Robots and Systems(pp.974-979). Hawaii, 2001. 上田修功，「最良モデル探索のための変分ベイズ学習」，人工知能学会論文誌，Vol. 16, No.2, pp. 299-308,2001.

従来の技術においては、制御対象とするプラントの入出力関係を連続値によって記述する高精度なモデルを、プラントの制御と同時に、少ない時間で獲得する事が可能であるという補償はなかった。
本発明は、異なる解像度の状態空間を併用することで、これらの課題を解決し、精度の良い運動モデルを構築するに十分な解像度を保持しつつも、学習に要する時間を大幅に短縮することを可能とするものである。また、制御を同時に行いながらのオンライン学習において、限られた学習経験を元に、未経験な目標起動を指示された場合における迅速な学習機能を実現するものである。

本発明の第一の特徴は、対象とするプラントの入出力関係を連続値で記述する入出力モデルを、機械学習によって獲得する入出力関係学習装置において、入出力モデルを構成するデータ領域を複数同時に保持し、それぞれのデータ領域で扱うことが可能な入出力パラメータ値の変化の複雑さ（便宜的に解像度と呼ぶ）が異なることである。

本発明の第二の特徴は、前記本発明の第一の特徴における入出力関係学習装置において、入出力モデルを構成する複数のデータ領域を、放射状基底関数を利用して構成し、放射状基底関数の特徴点の数を変えることで、各データ領域の解像度を変えることである。

本発明の第三の特徴は、前記本発明の第一の特徴における入出力関係学習装置において、入出力モデルを構成する最も解像度の低いデータ領域を、ｎ次関数（ｎ：自然数）を利用して構成することである。

本発明の第四の特徴は、前記本発明の第一の特徴における入出力関係学習装置において、入出力モデルを構成する複数のデータ領域を、人工ニューラルネットワークを利用して構成し、人工ニューラルネットワークのパーセプトロンの数を変えることで、各データ領域の解像度を変えることである。

本発明の第五の特徴は、前記本発明の第一乃至四の特徴における入出力関係学習装置において、学習によって獲得された入出力モデルを利用する際には、入出力モデルに対する入力値を、入出力モデルを構成する各解像度データ領域のデータを利用した各モデルに入力し、各モデルの出力値の総和をとって、それを入出力モデルの出力値として利用することである。

本発明の第六の特徴は、前記本発明の第五の特徴における入出力関係学習装置において、学習が開始されていないデータ領域のデータを利用したモデルの出力値は、０であることである。

本発明の第七の特徴は、前記本発明の第一乃至六の特徴における入出力関係学習装置において、入出力モデルを構成する複数のデータ領域のうち、解像度が低いデータ領域に保持されるデータの学習から始め、以後、解像度が増す順序で、各データ領域に保持されるデータの学習を行っていくことである。

本発明の第八の特徴は、前記本発明の第七の特徴における入出力関係学習装置において、入出力モデルを構成する複数のデータ領域の学習が終了した後に学習によって獲得された入出力モデルを利用する際、入出力モデルを構成する最も解像度の高いデータ領域のデータの学習をオンラインで継続することである。

本発明の第九の特徴は、前記本発明の第七又は八の特徴における入出力関係学習装置において、入出力モデルを構成する各解像度データ領域の学習則として、入出力モデルが出力する値が適切な出力値に比べて高いか低いかを判定し、高い場合は、入出力モデルの出力値を下げ、低い場合は、入出力モデルの値を上げる機能を持つ教師あり学習を利用することである。

本発明の第十の特徴は、前記本発明の第七乃至九の特徴における入出力関係学習装置において、入出力モデルを構成する複数の各データ領域の学習時間もしくは、学習回数を、最も解像度の低いデータ領域の学習時間もしくは回数で等配分することである。

本発明の第十一の特徴は、前記本発明の第九の特徴における入出力関係学習装置において、入出力モデルの入力値を制御目標値とし、出力値を制御対象に入力したフィードフォワード制御の結果として観測される制御対象の動作の目標値からのずれ量を利用して、入出力モデルの出力が大きすぎるか小さ過ぎるか判定する教師あり学習手法により、入出力モデルの各データ領域の学習を行うことである。

本発明の第十二の特徴は、前記本発明の第十一の特徴において、入出力関係モデルの入力値を制御目標値、出力値を制御対象への入力値として利用するフィードフォワード制御と、フィードバック制御を併用する手法によって、制御対象を制御する機能を備えることである。

本発明の第十三の特徴は、前記本発明の第七乃至一二の特徴における入出力関係学習装置における、入出力モデルを構成するデータ領域の学習プロセスにおいて、同時に２つ以上のデータ領域が同時に学習されることはないことである。

（作用）
本発明は、高い精度を持つが学習に要する時間が長い高解像度の状態空間によって構成された入出力モデルと、低い精度を持つが学習に要する時間も大幅に短く、学習時における探索にて状態空間内を網羅することが容易である低解像度の状態空間によって構成された入出力モデルを併用し、かつ低解像度の運動モデルの学習を先に行うことで、両者の利点を生かすことが可能であることを、本発明の提案者が実験により見出したことを利用したものである。

本発明のオンライン入出力関係学習装置によって、高い精度を持った制御対象の入出力モデルの学習所要時間が大幅に短縮し、入出力モデルを利用したフィードフォワード制御を行いながらのオンラインでの入出力モデルの獲得が可能となった。また、制御目標軌道の急激な変化に対する頑健性も大幅に向上する。

以下、図面に基づいて本発明の実施例を説明する。
図１に本発明によって獲得される入出力モデルの構成を示す。図１において、入出力モデルは、例えば３層からなっている。それぞれの層は、入出力モデルデータ領域最上層１、入出力モデルデータ領域中間層２、入出力モデルデータ領域最下層３である。このモデルをフィードフォワード制御に利用する場合は、入力は制御目標値、出力は制御対象プラント４への入力値となる。例えば、モータ制御に適用した場合には、入力は、モータへの指示速度値で、出力はモータへの制御電圧となる。つまり、制御対象をある回転速度にしたい場合の適切な制御電圧値をこのモデルによって計算する形となる。
図１において、各データ領域１，２，３は、扱うことが可能な入出力パラメータ値の変化の複雑さ（離散系で言うところの解像度に当たる）が異なっている。上の層ほど、扱える複雑さは高く、下の層に行くにしたがって低くなる。入出力モデルへの入力は、各データ領域１，２，３に入力され、各データ領域１，２，３に保持されているデータを利用して計算された出力値の総和が、入出力モデルの出力値となる。
図１において、各層のデータ領域１，２，３は、例えば、放射状基底関数を利用して構築すればよい。その場合、基底関数の数（特徴点の数）によって、それぞれのデータ領域１，２，３の解像度が決まるが、その場合は、入出力モデルデータ領域最上層１が最も多くの特徴点を持ち、入出力モデルデータ領域最下層３は、特徴点の数が最も少ない。
各層の学習のための学習則としては、入出力モデルが出力する値が、適切な出力値に比べて高いか低いかを判定し、高い場合は、入出力モデルの出力値を下げ、低い場合は、入出力モデルの値を上げる機能を持つ教師あり学習（幾つかの学習例と各学習例に対する目標出力を与え、目標出力と実際の出力が一致するように重みを調整する方法）を利用するとよい。

本件では、単純にそれぞれの層に一定の学習時間を割り当てている。すなわち、最下層の学習にて、所定の時間が過ぎたら、最下層の学習を切り上げ、次の中間層の学習に移る。
図１に示す入出力モデルの学習のプロセスにおいては、最下層の学習が始めに行われる。学習プロセスにおいて、同時に学習が行われるデータ領域は、一つである。なお、学習の済んでいない層は０（すなわち、制御対象プラント４に対して何の影響も与えない入力値）を出力する。本入出力モデルを、フィードフォワード制御に利用する場合には、学習則としては、例えば、制御対象プラント４から観測される追従誤差量を利用して学習を行う教師あり学習手法の一つであるフィードバック誤差学習による更新方法を採用すればよい。その様子を図３に示す。
図１に示す入出力モデルの各データ領域１，２，３の学習時間は、本実施例のように、各データ領域を放射状基底関数で構築した場合には、各データ領域が含む特徴点の数に比例する。その総和は、最上層を単体で利用した場合の学習時間に比べて長くなるという見方が起こりうるがそうではない。以下それについて説明する。

図２において学習段階が進んでいくにつれて入出力モデルの出力値が、どのように変化していくかを示している。始めの最下層３の学習において、学習対象の入出力関係の大まかな形は、すでに学習されており、この段階にかかる時間は全層の中で最も短い。しかし、最下層３は解像度が低いため、出力値にはある程度の誤差が含まれたままである。次の中間層２の学習段階では、教師あり学習によって、この最下層３の出力値が含む誤差を修正するように学習が行われていく。本発明での中間層２の学習は、このようにすでに学習されている最下層３に上乗りして学習を行うため、単体で中間層２の学習を行う場合に比べて大幅に学習時間が短縮される。なお、この場合、最下層３の学習が終わった段階で、中間層２にとって未経験な領域があったとしても、その部分は、低解像度の最下層３の学習結果によって補完されているので、学習中における大きな制御精度の低下はない。これは、例えば目標軌道が急激に変化したような場合における本モデルの頑健性を保つことにも役立っている。学習の最終段階である最上層１の学習においても同様である。上乗り学習は、図１に示したとおり、各層の出力の和が全体のモデルの出力として扱われる。最下層の学習が済んだあとは、学習済みの最下層は与えられた入力値に対する出力を出すことになるが、この最下層の出力と、中間層の出力の和が制御対象に与えられ、その結果によって、中間層の学習が行われる。すなわち、最下層の出力値が持つ誤差の部分を中間層の学習によって補正しているような図式となる。

従って、上層の学習段階において、全状態空間の探索が必須にはならないため、学習に要する時間は、単体で最上層１を利用した場合に比べて短い。逆に、単体で学習を行った場合には、未経験な状態の領域がなくなるまでに膨大な時間を要する。例えば、解像度を最上層を４、中間層を２、最下層を１として、それぞれのデータ領域の次元数を２とした場合、単体でそれぞれの層に要する学習時間は１６，４，１である。しかし、本発明によれば、せいぜい最下層学習所要時間の数倍しか学習時間がかからないので、所要時間は１＋１＋１＝３となり、大幅に短いことがわかる。すなわち、本発明によって、最上層のみを使って学習を行った場合の５倍以上（１６／３）の学習速度で、最上層と同様の解像度を持つ入出力モデルの学習が可能である。
図１において、最下層１のデータ領域をｎ次関数（ｎ：自然数）で構築すると、制御に本発明を適用したときに有効なことが多い。
また、本発明で獲得された入出力モデルを利用したフィードフォワード制御に加えて、フィードバック制御を行えば、制御性能は大幅に向上する。

本発明の実施例によって獲得される入出力モデル例の階層図。本発明による入出力モデルの学習の進み方の模式図。本発明のオンライン入出力関係学習装置におけるフィードフォワード制御を利用した場合の学習のプロセス図。

符号の説明

１・・・入出力モデルデータ領域最上層
２・・・入出力モデルデータ領域中間層
３・・・入出力モデルデータ領域最下層
４・・・プラント（制御対象）

Claims

制御対象への入出力関係を記述する関数である入出力モデルを、機械学習によって獲得する入出力関係学習方法であって、
前記入出力モデルは、入力値に対する出力値の変化の仕方の複雑さ（便宜的に解像度と呼ぶ）が異なる複数のデータ領域と、
該入出力モデルの出力値を前記制御対象への制御入力値とし、観測される前記制御対象の動作の目標値からのずれ量を学習を行うデータ領域にフィードバックする手順とを有し、
前記入出力モデルを構成する複数のデータ領域のうち解像度が最も低いデータ領域から前記ずれ量を修正するように学習を始め、以後、解像度が増す順序で前記ずれ量を修正するように学習を行っていくものであり、前記各解像度のデータ領域における学習は、該解像度のデータ領域への入力値を前記入出力モデルの制御目標値とし、学習済みの解像度のデータ領域からの出力値と該解像度のデータ領域からの出力値との総和を前記入出力モデルの出力値とし、前記ずれ量を小さくするような学習であることを特徴とするオンライン入出力関係学習方法。
請求項１に記載のオンライン入出力関係学習方法であって、
入出力モデルを構成する複数の各データ領域の学習時間もしくは、学習回数を、最も解像度の低いデータ領域の学習時間もしくは回数で等配分することを特徴とするオンライン入出力関係学習方法。
請求項１又は２に記載のオンライン入出力関係学習方法であって、
入出力モデルを構成するデータ領域の学習プロセスにおいて、同時に２つ以上のデータ領域が同時に学習されることはないことを特徴とするオンライン入出力関係学習方法。