JP6474456B2 - 機械学習装置、サーボ制御システム及び機械学習方法 - Google Patents

機械学習装置、サーボ制御システム及び機械学習方法 Download PDF

Info

Publication number
JP6474456B2
JP6474456B2 JP2017097527A JP2017097527A JP6474456B2 JP 6474456 B2 JP6474456 B2 JP 6474456B2 JP 2017097527 A JP2017097527 A JP 2017097527A JP 2017097527 A JP2017097527 A JP 2017097527A JP 6474456 B2 JP6474456 B2 JP 6474456B2
Authority
JP
Japan
Prior art keywords
controller
value
machine learning
learning
motor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017097527A
Other languages
English (en)
Other versions
JP2018195018A (ja
Inventor
翔吾 篠田
翔吾 篠田
聡史 猪飼
聡史 猪飼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
FANUC Corp
Original Assignee
FANUC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by FANUC Corp filed Critical FANUC Corp
Priority to JP2017097527A priority Critical patent/JP6474456B2/ja
Priority to DE102018003769.0A priority patent/DE102018003769B4/de
Priority to US15/976,427 priority patent/US11009837B2/en
Priority to CN201810444852.8A priority patent/CN108880399B/zh
Publication of JP2018195018A publication Critical patent/JP2018195018A/ja
Application granted granted Critical
Publication of JP6474456B2 publication Critical patent/JP6474456B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02PCONTROL OR REGULATION OF ELECTRIC MOTORS, ELECTRIC GENERATORS OR DYNAMO-ELECTRIC CONVERTERS; CONTROLLING TRANSFORMERS, REACTORS OR CHOKE COILS
    • H02P29/00Arrangements for regulating or controlling electric motors, appropriate for both AC and DC motors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Power Engineering (AREA)
  • Feedback Control In General (AREA)
  • Control Of Electric Motors In General (AREA)

Description

本発明は、サーボ制御に関する機械学習を行うための、機械学習装置、サーボ制御システム及び機械学習方法に関する。
従来、サーボ制御に関する機械学習を行うことによって、サーボ制御の対象とする工作機械等を適切に制御する技術が知られている。
例えば、特許文献1に開示の技術では、主軸についての負荷、温度及び振動を状態として観測する。そして、この観測した状態に基づいた強化学習によって、動作指令を補正するための価値関数を学習する。学習終了後、このようにして学習した価値関数を用いることにより、オペレータによる補正操作を要することなく、状況に応じて動作指令を補正することが可能となる。
特開平7−210207号公報
ところで、サーボモータ等のモータを駆動させると、モータの位相に応じてモータのインダクタンスが変化する。そのため、モータの駆動を制御するための制御器ゲインが一定のままであると、インダクタンスの変化に伴ってモータの回転ムラが生じる。この回転ムラを抑制するためには、モータの位相に応じて、制御器ゲインを調整する必要がある。
しかしながら、一般的な技術では、モータの位相に応じて制御器ゲインを調整するようなことは行われていない。例えば、上述した特許文献1に開示の技術では、負荷、温度及び振動に応じて工作機械に与える動作指令を補正することは記載されているが、モータの位相を考慮することや、制御器ゲインを調整することは記載されていない。
また、仮に一般的な技術で制御器ゲインの調整を行うとしても、モータのインダクタンスは、モータの位相に応じて非常に短い時間に瞬間的に変化するので、その調整は容易なものではない。
本発明はこのような状況に鑑みてなされたものであり、モータの位相に応じて適切に制御器ゲインを調整することが可能な、機械学習装置、サーボ制御システム及び機械学習方法を提供することを目的とする。
(1) 本発明の機械学習装置(例えば、後述の機械学習装置100)は、モータ(例えば、後述のモータ32)を備える制御対象装置(例えば、後述の制御対象装置300)の動作を制御するサーボ制御装置(例えば、後述のサーボ制御装置200)に対して、強化学習を行う機械学習装置であって、制御器ゲインの伝達関数における係数の調整情報を含む行動情報を、前記サーボ制御装置が備える制御器(例えば、後述の位置制御器23、速度制御器25及び電流制御器27)に対して出力する行動情報出力手段(例えば、後述の行動情報出力部13)と、前記行動情報に基づいて前記制御器が前記制御対象装置を動作させた場合における、前記制御器に入力される指令と前記制御対象装置の実際の動作との偏差と、前記モータの位相と、前記制御器ゲインの伝達関数における係数と、を含む状態情報を、前記サーボ制御装置から取得する状態情報取得手段(例えば、後述の状態情報取得部11)と、前記状態情報に含まれる前記偏差に基づいて、強化学習における報酬の値を出力する報酬出力手段(例えば、後述の報酬出力121)と、前記報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新手段(例えば、後述の価値関数更新部122)と、を備える。
(2) 上記(1)に記載の機械学習装置を、前記サーボ制御装置は前記制御器に入力される指令を補正するためのフィードバック制御を行うサーボ制御装置であり、前記状態情報取得手段は、前記偏差として、前記制御器に入力される指令と前記フィードバック制御におけるフィードバック値との差分を取得するようにしてもよい。
(3) 上記(1)又は(2)に記載の機械学習装置を、前記制御器は、位置制御、速度制御、及び電流制御の何れかを行う制御器の組合せであり、当該機械学習装置は、前記制御器の何れか1つを対象として前記強化学習を行った後に他の制御器の1つを対象として前記強化学習を行う場合に、電流制御を行う制御器、速度制御を行う制御器、位置制御を行う制御器の順に前記強化学習の対象とするようにしてもよい。
(4) 上記(1)から(3)までの何れか1に記載の機械学習装置を、前記モータの位相は、前記制御対象装置の動作を制御するための位置指令に基づいて算出されるようにしてもよい。
(5) 上記(1)から(4)までの何れか1に記載の機械学習装置を、前記制御器ゲインの伝達関数は、変数として前記モータの位相を含むようにしてもよい。
(6) 本発明のサーボ制御システムは、上記(1)から(5)までの何れか1に記載の機械学習装置と、前記サーボ制御装置とを備えたサーボ制御システムであって、前記サーボ制御装置が、前記制御対象装置の動作を制御するための位置指令に基づいて前記モータの位相を算出し、算出したモータの位相を前記状態情報取得手段及び前記制御器に対して出力する位相算出手段(位相算出部21)を備える。
(7) 本発明の機械学習方法は、モータ(例えば、後述のモータ32)を備える制御対象装置(例えば、後述の制御対象装置300)の動作を制御するサーボ制御装置(例えば、後述のサーボ制御装置200)に対して、強化学習を行う機械学習装置(例えば、後述の機械学習装置100)の機械学習方法であって、制御器ゲインの伝達関数における係数の調整情報を含む行動情報を、前記サーボ制御装置が備える制御器(例えば、後述の位置制御器23、速度制御器25、及び電流制御器27)に対して出力する行動情報出力ステップと、前記行動情報に基づいて前記制御器が前記制御対象装置を動作させた場合における、前記制御器に入力される指令と前記制御対象装置の実際の動作との偏差と、前記モータの位相と、前記制御器ゲインの伝達関数における係数と、を含む状態情報を、前記サーボ制御装置から取得する状態情報取得ステップと、前記状態情報に含まれる前記偏差に基づいて、強化学習における報酬の値を出力する報酬出力ステップと、前記報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新ステップと、を備える。
本発明によれば、モータの位相に応じて適切に制御器ゲインを調整することが可能となる。
本発明の実施形態全体の基本的構成を示す機能ブロック図である。 本発明の実施形態におけるサーボ制御装置の構成要素及び制御対象装置の構成要素並びに信号の流れについて示す機能ブロック図である。 本発明の実施形態におけるモータの位相の算出について説明するための模式図である。 本発明の実施形態における機械学習装置の構成を示す機能ブロック図である。 本発明の実施形態における機械学習装置の、機械学習時の動作について説明するためのフローチャートである。 本発明の実施形態における機械学習装置の、最適化行動情報の出力時の動作について説明するためのフローチャートである。 本発明の実施形態が奏する効果について説明するための模式図である。
以下、本発明の実施形態について図面を用いて詳細に説明する。
<実施形態の全体構成>
図1は本実施形態であるサーボ制御システム1の全体構成を示す機能ブロック図である。図1に示すようにサーボ制御システム1は、機械学習装置100、サーボ制御装置200及び制御対象装置300を含んで構成される。
機械学習装置100は、サーボ制御装置200の制御器ゲインを調整するために機械学習を行う装置である。機械学習装置100は、機械学習により、制御器ゲインの伝達関数における最適な係数を求める。機械学習装置100は、パーソナルコンピュータやサーバ装置あるいは数値制御装置(CNC:Computerized Numerical Control)等により実現できる。
サーボ制御装置200は、フィードバック制御を行うことにより、制御対象装置300の駆動を制御する装置である。また、サーボ制御装置200の制御器ゲインの伝達関数における係数は、機械学習装置100により調整される。
制御対象装置300は、サーボ制御装置200の制御により駆動するサーボモータを備えた装置である。制御対象装置300は、例えば、工作機械、ロボット、産業機械等により実現できる。上記サーボ制御装置200は、単独の装置として実現してもよいが、これら工作機械、ロボット、産業機械等の一部として実現してもよい。
機械学習装置100及びサーボ制御装置200は通信可能に接続される。また、サーボ制御装置200及び制御対象装置300も通信可能に接続される。これら通信は、例えば、工場内に構築されたLAN(Local Area Network)により実現できる。また、これら通信は、有線通信及び無線通信の何れか又はその組み合わせであってもよく、その通信規格等に特に制限はない。更に、これら通信は、インターネットや公衆電話網等のネットワーク(図示を省略する)を介したものでよく、この場合、各装置はそれぞれ近傍(例えば、同じ工場内)に設置されてもよいが、遠方の場所に別々に設置されてもよい。
なお、図中では、これら装置を1台ずつ図示するが、これら装置の台数に制限はなく、その接続も1対1のみならず、1対多や、多対多の接続であってよい。
<フィードバック制御>
次に、サーボ制御装置200及び制御対象装置300の詳細な構成及びフィードバック信号の流れについて図2を参照して説明をする。
図2に示すように、本実施形態は、機械学習装置100と、サーボ制御装置200の構成要素である位相算出部21、減算器22、位置制御器23、減算器24、速度制御器25、減算器26、電流制御器27、積分器28と、制御対象装置300の構成要素である駆動用アンプ31、モータ32、及び機械33とを備える。なお、機械学習装置100の詳細な構成については、図4を参照して後述する。
本実施形態では、フィードバック制御として、位置制御器23、減算器24及び電流制御器27にて、比例演算、積分演算及び微分演算を行うことによりPID制御を行う。なお、フィードバック制御及びPID制御を行うサーボ制御装置の基本的な動作自体は、当業者にとってよく知られているので、この点についての詳細な説明は省略する。
次に、機械学習時の信号の流れについて、引き続き図2を参照して説明をする。以下では、先にフィードバック制御に関する信号の流れについて説明してから、機械学習に関する信号の流れについて説明をする。
まず、サーボ制御装置200に対して、図示を省略した上位装置(例えば数値制御装置)又は図示を省略した位置指令作成部から制御対象装置300の駆動を制御するための位置指令が入力される。この位置指令は、制御対象装置300を動作させるプログラムに基づいて作成されたものである。ここで、本実施形態では、モータ32の回転子が、一定速度で正方向及び/又は負方向に一回転以上回転する動作を対象として機械学習を行う。そのため、機械学習時の位置指令は、モータ32の回転子が、一定速度で正方向及び/又は負方向に一回転以上回転するような動作を行わせる位置指令であるとする。
入力された位置指令は分岐して、位相算出部21と減算器22に対して出力される。減算器22に対して出力された位置指令は、減算器22にて位置フィードバック値により減算されて、位置指令と位置フィードバック値との偏差である位置偏差が位置制御器23に入力される。また、位置偏差は分岐して機械学習装置100にも入力される。
位置制御器23では、比例ゲインをK3P(Θ)、積分ゲインをK3I(Θ)、微分ゲインをK3D(Θ)とした場合に「K3P(Θ)+K3I(Θ)/s+K3D(Θ)s」と表される制御器ゲインの伝達関数K(s,Θ)にて、入力された位置偏差から速度指令を生成し、生成した速度指令を速度制御器25に対して出力する。なお、各制御器ゲインの伝達関数の変数であるΘは、モータ32の位相である。モータ32の位相は、位相算出部21により算出され、位置制御器23、速度制御器25、及び電流制御器27の各制御器に対して出力される。位相算出部21による位相の算出方法については図3を参照して後述する。
位置制御器23が出力した速度指令は、減算器24にて速度フィードバック値により減算されて、速度指令と速度フィードバック値との偏差である速度偏差が速度制御器25に入力される。また、速度偏差は分岐して機械学習装置100にも入力される。
速度制御器25では、比例ゲインをK2P(Θ)、積分ゲインをK2I(Θ)、微分ゲインをK2D(Θ)とした場合に「K2P(Θ)+K2I(Θ)/s+K2D(Θ)s」と表される制御器ゲインの伝達関数K(s,Θ)にて、入力された速度偏差から電流指令を生成し、生成した電流指令を電流制御器27に対して出力する。
速度制御器25が出力した電流指令は、減算器26にて電流フィードバック値により減算されて、速度指令と電流フィードバック値との偏差である電流偏差が電流制御器27に入力される。また、電流偏差は分岐して機械学習装置100にも入力される。
電流制御器27では、比例ゲインをK1P(Θ)、積分ゲインをK1I(Θ)、微分ゲインをK1D(Θ)とした場合に「K1P(Θ)+K1I(Θ)/s+K1D(Θ)s」と表される制御器ゲインの伝達関数K(s,Θ)にて、入力された電流偏差から電圧指令を生成し、生成した電圧指令を駆動用アンプ31に対して出力する。
駆動用アンプ31は、この電圧指令に基づいて、サーボモータであるモータ32を駆動するための駆動電流を生成し、生成した駆動電流をモータ32に対して出力する。また、この駆動電流は分岐し、電流フィードバック値として減算器26に対して入力される。減算器26では、上述したように電流フィードバック値による減算を行う。
モータ32は入力された駆動電流に基づいて回転をする。これにより、モータ32に接続された機械33が動作する。機械33は、例えば、被加工物(ワーク)を搭載したテーブルである。この場合、機械33は、図示を省略したボールねじ等の連結機構でモータ32と接続される。
そして、このボールねじにより、モータ32の回転運動は、直線運動に変換される。これにより、機械33は被加工物(ワーク)を、位置指令に応じた所定の位置に移動させる。
ここで、モータ32には、速度検出器(図示省略)が取り付けられている。この速度検出器が検出した速度フィードバック値は分岐して減算器24と積分器28のそれぞれに対して出力される。減算器24では、上述したように速度フィードバック値による減算を行う。
また、積分器28では、速度フィードバック値を積分することにより、位置フィードバック値を生成する。そして、積分器28は、生成した位置フィードバック値を減算器22に対して出力する。モータ32では、上述したように位置フィードバック値による減算を行う。
ここで、制御対象装置300を駆動させるための負荷や外乱等の影響があることから、目標値である位置指令と、出力値である位置フィードバック値との間には位置偏差が生じる。この位置偏差が減少することを目的として、上述のフィードバック制御が繰り返される。
以上が、フィードバック制御の流れである。
<モータ32の位相の算出>
本実施形態では、モータ32の位相に応じて適切に制御器ゲインを調整するために、上述したように、制御器ゲインの伝達関数の変数として、モータ32の位相に相当するΘを含んでいる。次に、位相算出部21による、このモータ32の位相の算出について図3を参照して説明をする。
本実施形態では、位相算出部21が、入力された位置指令に基づいて、モータ32の位相を算出して出力する。この算出の前提として、位相算出部21は、モータの回転位置についての絶対位置を記憶する。ここで、絶対位置を、例えば図3に示すようにZ相とする。
他方、通常、モータ32には回転位置を検出するための検出器が備え付けられている。この検出器は、検出結果である回転位置等を記憶している。具体的には、モータ32の回転数を示すデータや、一回転内の何れの位置にあるのかを示すデータとして記憶している。本実施形態では、これらのデータを、例えば電源投入時に検出器から位相算出部21に対して通知する。
通知を受けた位相算出部21は、記憶している絶対位置(例えば、Z相)と、通知された一回転内の何れの位置にあるのかを示すデータに基づいて特定される位置との差分(すなわち、絶対位置とのズレ)を計算することにより、絶対位置を基準(原点)とした初期位置を特定することができる。
そして、電源投入後、位置指令に基づいてモータ32の回転が開始されると、位相算出部21は、位置指令に基づいて現在位置の位相を算出する。そのために、位相算出部21は、機械33の駆動部分の先端とモータ32間のギア比(すなわち、モータ1回転当たりの駆動部分の先端の移動量)を記憶しておく。そして、このギア比から、機械33の駆動部の先端に与える位置指令に対してモータ32の位相がどれだけ変化するのかを、下記の数式(式1)により算出する。
モータの位相[deg]=位置指令[mm]÷ギア比[mm/rev]×360
(式1)
そして、位相算出部21は、絶対位置を基準(原点)とした初期位置の位相に、上記の式によって位置指令から算出した位相を加算し、加算後の位相を現在位置の位相として、位置制御器23、速度制御器25及び電流制御器27のそれぞれに対して出力する。位置制御器23、速度制御器25及び電流制御器27は、現在位置の位相の値を、制御器ゲインの伝達関数の変数であるΘに代入する。なお、位相算出部21と、位置制御器23、速度制御器25及び電流制御器27のそれぞれをつなげる信号線については図示を省略する。
<機械学習>
上述したフィードバック制御と並行して、機械学習装置100による機械学習が行われる。この機械学習のために、位相算出部21は、現在位置の位相を、機械学習装置100に対しても出力する。
また、機械学習装置100には機械学習のために、位置制御器23、速度制御器25及び電流制御器27から、現在の制御器ゲインの伝達関数の係数が入力される。
更に、上述したように、機械学習装置100には機械学習のために、位置偏差、速度偏差、及び電流偏差も入力される。
更に、機械学習装置100は、機械学習のために、位置制御器23、速度制御器25及び電流制御器27のそれぞれに対して、制御器ゲインの伝達関数の係数を出力する。位置制御器23、速度制御器25及び電流制御器27は、機械学習装置100から入力された制御器ゲインの伝達関数の係数と、位相算出部21から入力された制御器ゲインの伝達関数の変数(すなわち、モータ32の位相)に応じて、指令を出力する。
機械学習装置100は、これらの入力及び出力に基づいて機械学習を行う。具体的には、機械学習装置100は機械学習の1つである強化学習を行う。
次に、機械学習装置100に含まれる各機能ブロックの説明に先立って、まず強化学習の基本的な仕組みについて説明する。
強化学習において、エージェント(本実施形態における機械学習装置100に相当)は、環境の状態を観測し、ある行動を選択し、当該行動に基づいて環境が変化する。環境の変化に伴って、何らかの報酬が与えられ、エージェントはより良い行動の選択(意思決定)を学習する。
教師あり学習が、完全な正解を示すのに対して、強化学習における報酬は、環境の一部の変化に基づく断片的な値であることが多い。このため、エージェントは、将来にわたっての報酬の合計を最大にするように行動を選択するように学習する。
このように、強化学習では、行動を学習することにより、環境に行動が与える相互作用を踏まえて適切な行動を学習、すなわち将来的に得られる報酬を最大にするための学習する方法を学ぶ。これは、本実施形態において、位相の変化に応じてモータのインダクタンスが変化することに起因する位置偏差、速度偏差、及び電流偏差を低減するための行動情報を選択するという、未来に影響をおよぼすような行動を獲得できることを表している。
ここで、強化学習としては、任意の学習方法を用いることができるが、以下の説明では、或る環境の状態sの下で、行動aを選択する価値Q(s,a)を学習する方法であるQ学習(Q−learning)を用いる場合を例にとって説明をする。
Q学習では、或る状態sのとき、取り得る行動aのなかから、価値Q(s,a)の最も高い行動aを最適な行動として選択することを目的とする。
しかしながら、Q学習を最初に開始する時点では、状態sと行動aとの組合せについて、価値Q(s,a)の正しい値は全く分かっていない。そこで、エージェントは、或る状態sの下で様々な行動aを選択し、その時の行動aに対して、与えられる報酬に基づいて、より良い行動の選択をすることにより、正しい価値Q(s,a)を学習していく。
また、将来にわたって得られる報酬の合計を最大化したいので、最終的にQ(s,a)=E[Σ(γ)r]となるようにすることを目指す。ここでE[]は期待値を表し、tは時刻、γは後述する割引率と呼ばれるパラメータ、rは時刻tにおける報酬、Σは時刻tによる合計である。この式における期待値は、最適な行動に従って状態変化した場合の期待値である。しかしQ学習の過程において最適な行動が何であるのかは不明であるので、様々な行動を行うことにより、探索しながら強化学習をする。このような価値Q(s,a)の更新式は、例えば、次の数式(式2)により表すことができる。
Figure 0006474456
上記の数式(式2)において、sは、時刻tにおける環境の状態を表し、aは、時刻tにおける行動を表す。行動aにより、状態はst+1に変化する。rt+1は、その状態の変化により得られる報酬を表している。また、maxの付いた項は、状態st+1の下で、その時に分かっている最もQ値の高い行動aを選択した場合のQ値にγを乗じたものになる。ここで、γは、0<γ≦1のパラメータで、割引率と呼ばれる。また、αは、学習係数で、0<α≦1の範囲とする。
上述した数式(式2)は、試行aの結果、返ってきた報酬rt+1を元に、状態sにおける行動aの価値Q(s,a)を更新する方法を表している。
この更新式は、状態sにおける行動aの価値Q(s,a)よりも、行動aによる次の状態st+1における最良の行動の価値max Q(st+1,a)の方が大きければ、Q(s,a)を大きくし、逆に小さければ、Q(s,a)を小さくすることを示している。つまり、或る状態における或る行動の価値を、それによる次の状態における最良の行動の価値に近づける。ただし、その差は、割引率γと報酬rt+1のあり方により変わってくるが、基本的には、ある状態における最良の行動の価値が、それに至る一つ前の状態における行動の価値に伝播していく仕組みになっている。
ここで、Q学習では、すべての状態行動ペア(s,a)についてのQ(s,a)のテーブルを作成して、学習を行う方法がある。しかし、すべての状態行動ペアのQ(s,a)の値を求めるには状態数が多すぎて、Q学習が収束するのに多くの時間を要してしまう場合がある。
そこで、公知のDQN(Deep Q−Network)と呼ばれる技術を利用するようにしてもよい。具体的には、価値関数Qを適当なニューラルネットワークを用いて構成し、ニューラルネットワークのパラメータを調整することにより、価値関数Qを適当なニューラルネットワークで近似することにより価値Q(s,a)の値を算出するようにしてもよい。DQNを利用することにより、Q学習が収束するのに要する時間を短くすることが可能となる。なお、DQNについては、例えば、以下の非特許文献に詳細な記載がある。
<非特許文献>
「Human-level control through deep reinforcement learning」、Volodymyr Mnih1著[online]、[平成29年5月8日検索]、インターネット〈URL:http://files.davidqiu.com/research/nature14位置制御器236.pdf〉
以上説明をしたQ学習を機械学習装置100が行う。
具体的には、機械学習装置100は、サーボ制御装置200における位置制御器23、速度制御器25及び電流制御器27の内の学習対象としている制御器の制御器ゲインの伝達関数の係数の値、並びに学習時の位置指令に応じた制御を実行することで取得されるサーボ制御装置200の各偏差情報やモータ32の位相を含むサーボ状態を状態sとして、当該状態sに係る制御器の制御器ゲインの伝達関数の各係数の調整を行動aとして選択する価値Qを学習する。
ここで、制御器ゲインの伝達関数の係数は、例えば電流制御器27の制御器ゲインの伝達関数K(s,Θ)(=K1P(Θ)+K1I(Θ)/s+K1D(Θ)s)、速度制御器25の制御器ゲインの伝達関数K(s,Θ)(=K2P(Θ)+K2I(Θ)/s+K2D(Θ)s)、及び位置制御器23の制御器ゲインの伝達関数K(s,Θ)(=K3P(Θ)+K3I(Θ)/s+K3D(Θ)s)をそれぞれΘの1次元の関数とする場合以下の数式(式3)のように定められる。
iP(Θ)=aiP・sin(Θ+biP)+ciP
iI(Θ)=aiI・sin(Θ+biI)+ciI
iD(Θ)=aiD・sin(Θ+biD)+ciD
ここで、iは、1≦i≦3の整数である。
(式3)
機械学習装置100は、各制御器ゲインの伝達関数の各係数aiP、biP、ciP、aiI、biI、ciI、aiD、biD、ciD(1≦i≦3)に基づいて、学習時の位置指令に応じた制御を実行することで得られるサーボ制御装置200の各偏差情報(電流偏差、速度偏差、及び位置偏差)及びモータ32の位相と、各制御器ゲインの伝達関数の各係数aiP、biP、ciP、aiI、biI、ciI、aiD、biD、ciD(1≦i≦3)とを含む情報である状態情報sを観測して、行動aを決定する。
機械学習装置100は、行動aをするたびに報酬が返ってくる。機械学習装置100は、例えば、将来にわたっての報酬の合計が最大になるように最適な行動aを試行錯誤的に探索する。そうすることで、機械学習装置100は、制御器ゲインの伝達関数の各係数aiP、biP、ciP、aiI、biI、ciI、aiD、biD、ciD(1≦i≦3)に基づいて、学習時の位置指令に応じた制御を実行することで得られるサーボ制御装置200の各偏差情報を含むサーボ状態を含む状態情報sに対して、最適な行動a(すなわち、位置制御器23、速度制御器25及び電流制御器27の内の学習対象としている制御器の最適な係数aiP、biP、ciP、aiI、biI、ciI、aiD、biD、ciD(1≦i≦3)を選択することが可能となる。
これにより、機械学習装置100により学習された価値関数Qに基づいて、或る状態sに係る制御器ゲインの伝達関数の各係数aiP、biP、ciP、aiI、biI、ciI、aiD、biD、ciD(1≦i≦3)に対して適用される行動aのうち、Qの値が最大となるような行動aを選択することで、各偏差が最小になるような行動a(すなわち、位置制御器23、速度制御器25及び電流制御器27の最適な係数aiP、biP、ciP、aiI、biI、ciI、aiD、biD、ciD(1≦i≦3))を選択することが可能となる。
また、本実施形態では、位置制御器23、速度制御器25及び電流制御器27の3つの制御器について同時に学習するのではなく、これら制御器内の1つを対象として、順番に学習を行う。これは、位置制御器23、速度制御器25及び電流制御器27の3つの制御器について同時に学習すると、学習が収束するまで時間を要するおそれがあるからである。
具体的には、まず電流制御器27を対象として、電流制御器27の最適な係数a1P、b1P、c1P、a1I、b1I、c1I、a1D、b1D、c1Dを選択するための学習を行う。この際、位置制御器23及び速度制御器25についての係数aiP、biP、ciP、aiI、biI、ciI、aiD、biD、ciD(2≦i≦3)については、未だ学習を行っていないため最適な係数を選択することはできない。そこで、位置制御器23及び速度制御器25についての各係数については、モータ32を発振させずに問題なく動作させることができる制御器ゲインとなるように任意に設定する(例えば、従来のように、位相に依存しない固定値とする)。モータ32を発振させずに問題なく動作させることができる制御器ゲインとした場合、位置や速度の追従性が低くなることもあるが、電流制御器27についての学習する際に位置偏差や速度偏差が大きくなっていても、それぞれの偏差によって生成された電流指令に対する電流偏差のみを評価するため、電流制御器27の学習には問題は発生しない。
また、電流制御器27についての学習が終了した場合には、速度制御器25を対象として、速度制御器25の最適な係数a2P、b2P、c2P、a2I、b2I、c2I、a2D、b2D、c2Dを選択するための学習を行う。この際、電流制御器27の係数については、既に学習を行っているので、学習結果に基づいて最適な係数a1P、b1P、c1P、a1I、b1I、c1I、a1D、b1D、c1Dを選択する。位置制御器23の係数については、モータ32を発振させずに問題なく動作させることができる制御器ゲインとなるように任意に設定する(例えば、従来のように、位相に依存しない固定値とする)。
更に、速度制御器25についての学習が終了した場合には、位置制御器23を対象として、位置制御器23の最適な係数a3P、b3P、c3P、a3I、b3I、c3I、a3D、b3D、c3Dを選択するための学習を行う。この際、電流制御器27及び速度制御器25の各係数については、既に学習を行っているので、学習結果に基づいて最適な係数aiP、biP、ciP、aiI、biI、ciI、aiD、biD、ciD(1≦i≦2)を選択する。
以上のようにすることにより、位置制御器23、速度制御器25及び電流制御器27のそれぞれについての学習を行うことができ、各制御器について最適な係数を選択することが可能となる。
<機械学習装置100の機能ブロック>
次に、図4を参照して、上述した強化学習を行う機械学習装置100の機能ブロックについて説明をする。
図4に示すように、機械学習装置100は、電流制御器27、速度制御器25、及び位置制御器23の制御器ゲインを調整するために、状態情報取得部11、学習部12、行動情報出力部13、価値関数記憶部14、及び最適化行動情報出力部15を備える。また、学習部12は報酬出力部121、価値関数更新部122、及び行動情報生成部123を備える。以下、電流制御器27、速度制御器25、及び位置制御器23の順番に説明する。
まず、電流制御器27の制御器ゲインの学習について説明する。前述したように、位置制御器23及び速度制御器25についての各係数については、モータ32を発振させずに問題なく動作させることができる制御器ゲインとなるように任意に設定する(例えば、従来のように、位相に依存しない固定値とする)。
状態情報取得部11は、サーボ制御装置200における電流制御器27の制御器ゲインの伝達関数の各係数a1P、b1P、c1P、a1I、b1I、c1I、a1D、b1D、c1Dに基づいて、学習時の位置指令に応じた制御を実行することで得られるサーボ制御装置200の電流偏差情報を含む状態である状態情報sを、サーボ制御装置200から取得する。この状態情報sは、Q学習における、環境状態sに相当する。また、状態情報sには、制御器ゲインの伝達関数の各係数の値も含まれる。この値は、位置制御器23、速度制御器25及び電流制御器27から取得してもよいが、この値を調整情報として出力した行動情報生成部123から取得してもよい。
状態情報取得部11は、取得した状態情報sを学習部12に対して出力する。
なお、最初にQ学習を開始する時点での電流制御器27の制御器ゲインの伝達関数の係数は、予めユーザが生成するようにする。つまり、本実施形態では、ユーザが作成した制御器ゲインの伝達関数の係数の初期設定値を、強化学習により最適なものに調整する。
学習部12は、或る環境状態sの下で、ある行動aを選択する場合の価値Q(s,a)を学習する部分である。具体的には、学習部12は、報酬出力部121、価値関数更新部122及び行動情報生成部123を備える。
報酬出力部121は、或る状態sの下で、行動aを選択した場合の報酬を算出する部分である。ここで、状態sにおける状態変数である電流偏差の集合(電流偏差集合)をPD(s)、行動情報a(制御器ゲインの伝達関数の各係数)の修正により状態sから変化した状態情報s´に係る状態変数である電流偏差集合をPD(s´)で示す。また、状態sにおける電流偏差の値を、予め設定された評価関数f(PD(s))に基づいて算出される値とする。
評価関数fとしては、例えば、
電流偏差の絶対値の積算値を算出する関数
∫|e|dt (式4)
電流偏差の絶対値の2n(nは自然数)乗の積算値を算出する関数、
∫e2ndt(nは自然数) (式5)
電流偏差の絶対値の最大値を算出する関数
Max{|e|} (式6)
等を適用することができる。
このとき、行動情報aにより修正された状態情報s´に係る修正後の電流制御器27の制御器ゲインの伝達関数の係数に基づいて動作したサーボ制御装置200の電流偏差の値f(PD(s´))が、行動情報aにより修正される前の状態情報sに係る修正前の電流制御器27の制御器ゲインの伝達関数の係数に基づいて動作したサーボ制御装置200の電流偏差の値f(PD(s))よりも大きくなった場合に、報酬出力部121は、報酬の値を負の値とする。
一方で、行動情報aにより修正された状態情報s´に係る修正後の電流制御器27の制御器ゲインの伝達関数の係数に基づいて動作したサーボ制御装置200の電流偏差の値f(PD(s´))が、行動情報aにより修正される前の状態情報sに係る修正前の電流制御器27の制御器ゲインの伝達関数の係数に基づいて動作したサーボ制御装置200の電流偏差の値f(PD(s))よりも小さくなった場合に、報酬の値を正の値とする。
また、行動情報aにより修正された状態情報s´に係る修正後の電流制御器27の制御器ゲインの伝達関数の係数に基づいて動作したサーボ制御装置200の電流偏差の値f(PD(s´))が、行動情報aにより修正される前の状態情報sに係る修正前の電流制御器27の制御器ゲインの伝達関数の係数に基づいて動作したサーボ制御装置200の電流偏差の値f(PD(s))と等しい場合は、報酬出力部121は、報酬の値をゼロとする。
更に、行動aを実行後の状態s´の電流偏差の値f(PD(s´))が、前の状態sにおける電流偏差の値f(PD(s))より大きくなった場合の負の値としては、比率に応じて負の値を大きくするようにしてもよい。つまり電流偏差の値が大きくなった度合いに応じて負の値が大きくなるようにするとよい。逆に、行動aを実行後の状態s´の電流偏差の値f(PD(s´))が、前の状態sにおける電流偏差の値f(PD(s))より小さくなった場合の正の値としては、比率に応じて正の値を大きくするようにしてもよい。つまり電流偏差の値が小さくなった度合いに応じて正の値が大きくなるようにするとよい。
価値関数更新部122は、状態sと、行動aと、行動aを状態sに適用した場合の状態s´と、上記のようにして算出された報酬の値と、に基づいて電流制御器27の制御器ゲインの伝達関数の係数についてQ学習を行うことにより、価値関数記憶部14が記憶する価値関数Qを更新する。
価値関数Qの更新は、オンライン学習で行ってもよく、バッチ学習で行ってもよく、ミニバッチ学習で行ってもよい。
オンライン学習とは、或る行動aを現在の状態sに適用することにより、状態sが新たな状態s´に遷移する都度、即座に価値関数Qの更新を行うという学習方法である。また、バッチ学習とは、或る行動aを現在の状態sに適用することにより、状態sが新たな状態s´に遷移することを繰り返すことにより、学習用のデータを収集し、収集した全ての学習用データを用いて、価値関数Qの更新を行うという学習方法である。更に、ミニバッチ学習とは、オンライン学習と、バッチ学習の中間的な、ある程度学習用データが溜まるたびに価値関数Qの更新を行うという学習方法である。
行動情報生成部123は、現在の状態sに対して、Q学習の過程における行動aを選択する。行動情報生成部123は、Q学習の過程において、サーボ制御装置200の電流制御器27の制御器ゲインの伝達関数の各係数を修正する動作(Q学習における行動aに相当)を行わせるために、行動情報aを生成して、生成した行動情報aを行動情報出力部13に対して出力する。より具体的には、行動情報生成部123は、例えば、状態sに含まれる電流制御器27の制御器ゲインの伝達関数の各係数に対して行動aに含まれる、制御器ゲインの伝達関数の各係数a1P、b1P、c1P、a1I、b1I、c1I、a1D、b1D、c1Dをインクレメンタル(例えば0.01程度)に加算又は減算させる。
そして、行動情報生成部123は、電流制御器27の制御器ゲインの伝達関数の各係数の増加又は減少を適用して、状態s´に遷移して、プラスの報酬(正の値の報酬)が返った場合、次の行動a´としては、電流制御器27の制御器ゲインの伝達関数の各係数に対して、前回のアクションと同様にインクレメンタルに加算又は減算させる等、電流偏差の値がより小さくなるような行動a´を選択する方策を取るようにしてもよい。
また、逆に、マイナスの報酬(負の値の報酬)が返った場合、行動情報生成部123は、次の行動a´としては、例えば、電流制御器27の制御器ゲインの伝達関数の各係数に対して、前回のアクションとは逆にインクレメンタルに減算又は加算させる等、電流偏差が前回の値よりも小さくなるような行動a´を選択する方策を取るようにしてもよい。
また、行動情報生成部123は、現在の推定される行動aの価値の中で、最も価値Q(s,a)の高い行動a´を選択するグリーディ法や、ある小さな確率εでランダムに行動a´選択し、それ以外では最も価値Q(s,a)の高い行動a´を選択するεグリーディ法といった公知の方法により、行動a´を選択する方策を取るようにしてもよい。
行動情報出力部13は、学習部12から出力される行動情報aをサーボ制御装置200の学習対象としている制御器(電流制御器27)に対して送信する部分である。学習対象としている制御器は上述したように、この行動情報に基づいて、現在の状態s、すなわち現在設定されている電流制御器27の制御器ゲインの伝達関数の各係数を微修正することで、次の状態s´(すなわち修正された、制御器ゲインの伝達関数の各係数)に遷移する。
価値関数記憶部14は、価値関数Qを記憶する記憶装置である。価値関数Qは、例えば状態s、行動a毎にテーブル(以下、行動価値テーブルと呼ぶ)として格納してもよい。価値関数記憶部14に記憶された価値関数Qは、価値関数更新部122により更新される。また、価値関数記憶部14に記憶された価値関数Qは、他の機械学習装置100との間で共有されるようにしてもよい。価値関数Qを複数の機械学習装置100で共有するようにすれば、各機械学習装置100にて分散して強化学習を行うことが可能となるので、強化学習の効率を向上させることが可能となる。
最適化行動情報出力部15は、価値関数更新部122が電流制御器27の制御器ゲインの伝達関数の係数についてQ学習を行うことにより更新した価値関数Qに基づいて、価値Q(s,a)が最大となる動作を電流制御器27の制御器ゲインの伝達関数に行わせるための行動情報a(以下、「最適化行動情報」と呼ぶ)を生成する。
より具体的には、最適化行動情報出力部15は、価値関数記憶部14が記憶している価値関数Qを取得する。この価値関数Qは、上述したように価値関数更新部122が電流制御器27の制御器ゲインの伝達関数の係数についてQ学習を行うことにより更新したものである。そして、最適化行動情報出力部15は、価値関数Qに基づいて、行動情報を生成し、生成した行動情報をサーボ制御装置200の学習済みの電流制御器27に対して出力する。この最適化行動情報には、行動情報出力部13がQ学習の過程において出力する行動情報と同様に、電流制御器27の制御器ゲインの伝達関数の各係数を修正する情報が含まれる。
以上のようにして、機械学習装置100は、電流制御器27についての制御器ゲインの伝達関数の係数a、b、cの調整のための、適切な価値関数を得ることができ、係数a1P、b1P、c1P、a1I、b1I、c1I、a1D、b1D、c1Dの最適化を簡易化することができる。
次に、電流制御器27の制御器ゲインの学習終了に引き続き、速度制御器25の制御器ゲインの係数a2P、b2P、c2P、a2I、b2I、c2I、a2D、b2D、c2DのQ学習を行う場合について簡単に説明する。
前述したように、速度制御器25の制御器ゲインのQ学習に際して、電流制御器27の係数については、電流制御器27の学習結果に基づいて最適な係数を選択する。なお、位置制御器23の係数については、モータ32を発振させずに問題なく動作させることができる制御器ゲインとなるように任意に設定する(例えば、従来のように、位相に依存しない固定値とする)。
速度制御器25の制御器ゲインのQ学習における、状態情報取得部11、学習部12(報酬出力部121、価値関数更新部122、及び行動情報生成部123)、行動情報出力部13、価値関数記憶部14、及び最適化行動情報出力部15の処理は、前述した電流制御器27の制御器ゲインの学習時とそれぞれ同等の処理を行う。すなわち、機械学習装置100は、電流制御器27の制御器ゲインの機械学習についての前述の説明において、電流制御器27を速度制御器25に読み替え、電流制御器27の制御器ゲインの係数a1P、b1P、c1P、a1I、b1I、c1I、a1D、b1D、c1Dを速度制御器25の制御器ゲインの係数a2P、b2P、c2P、a2I、b2I、c2I、a2D、b2D、c2Dに読み替え、電流偏差を速度偏差に読み替えた機械学習を行う。
次に、電流制御器27及び速度制御器25の制御器ゲインの学習終了に引き続き、位置制御器23の制御器ゲインの係数a3P、b3P、c3P、a3I、b3I、c3I、a3D、b3D、c3DのQ学習を行う場合について簡単に説明する。
前述したように、位置制御器23の制御器ゲインのQ学習に際して、電流制御器27及び速度制御器25の係数については、電流制御器27及び速度制御器25の学習結果に基づいて最適な係数を選択する。
位置制御器23の制御器ゲインのQ学習における、状態情報取得部11、学習部12(報酬出力部121、価値関数更新部122、及び行動情報生成部123)、行動情報出力部13、価値関数記憶部14、及び最適化行動情報出力部15は、前述した電流制御器27の制御器ゲインの学習時とそれぞれ同等の処理を行う。すなわち、機械学習装置100は、電流制御器27の制御器ゲインの機械学習についての前述の説明において、電流制御器27を位置制御器23に読み替え、電流制御器27の制御器ゲインの係数a1P、b1P、c1P、a1I、b1I、c1I、a1D、b1D、c1Dを位置制御器23の制御器ゲインの係数a3P、b3P、c3P、a3I、b3I、c3I、a3D、b3D、c3Dに読み替え、電流偏差を位置偏差に読み替えた機械学習を行う。
以上のように、電流制御器27、速度制御器25、及び位置制御部23の機械学習を順番に行うことで、サーボ制御装置200は、機械学習に基づいて制御器ゲインの伝達関数の各係数の最適な値を選択することが可能となり、そうすることで、モータの位相に応じて位置制御器23のインダクタンスが変化する場合であってもモータの回転ムラを低減するように動作することができる。
以上のように、本発明に係る機械学習装置100を利用することで、モータの位相に応じて適切に制御器ゲインを調整することが可能となる。
以上、サーボ制御装置200、機械学習装置100に含まれる機能ブロックについて説明した。
これらの機能ブロックを実現するために、サーボ制御装置200、及び機械学習装置100のそれぞれは、CPU(Central Processing Unit)等の演算処理装置を備える。また、サーボ制御装置200、及び機械学習装置100のそれぞれは、アプリケーションソフトウェアやOS(Operating System)等の各種の制御用プログラムを格納したHDD(Hard Disk Drive)等の補助記憶装置や、演算処理装置がプログラムを実行する上で一時的に必要とされるデータを格納するためのRAM(Random Access Memory)といった主記憶装置も備える。
そして、サーボ制御装置200、及び機械学習装置100のそれぞれにおいて、演算処理装置が補助記憶装置からアプリケーションソフトウェアやOSを読み込み、読み込んだアプリケーションソフトウェアやOSを主記憶装置に展開させながら、これらのアプリケーションソフトウェアやOSに基づいた演算処理を行なう。また、この演算結果に基づいて、各装置が備える各種のハードウェアを制御する。これにより、本実施形態の機能ブロックは実現される。つまり、本実施形態は、ハードウェアとソフトウェアが協働することにより実現することができる。
機械学習装置100については機械学習に伴う演算量が多いため、例えば、パーソナルコンピュータにGPU(Graphics Processing Units)を搭載し、GPGPU(General−Purpose computing on Graphics Processing Units)と呼ばれる技術により、GPUを機械学習に伴う演算処理に利用するようにすると高速処理できるようになるのでよい。更には、より高速な処理を行うために、このようなGPUを搭載したコンピュータを複数台用いてコンピュータ・クラスターを構築し、このコンピュータ・クラスターに含まれる複数のコンピュータにて並列処理を行うようにしてもよい。
<本実施形態の動作>
次に、図5のフローチャートを参照して本実施形態におけるQ学習時の機械学習装置100の動作について説明をする。なお、図5のフローチャートの説明においては、簡単のため、位置制御器23、速度制御器25及び電流制御器27を単に制御器と称し、位置偏差、速度偏差、及び電流偏差を単に偏差と称している。
ステップS11において、状態情報取得部11がサーボ制御装置200から状態情報sを取得する。取得した状態情報は、価値関数更新部122や行動情報生成部123に対して出力される。上述したように、この状態情報sは、Q学習における環境状態sに相当する情報であり、ステップS11時点での、偏差の集合PD(s)と、モータ32の位相と、制御器ゲインの伝達関数の係数が含まれる。例えば、学習対象としているのが電流制御器27である場合には、減算器26が電流指令から電流フィードバックを減算することで得られる電流偏差が、偏差PD(s)として含まれる。また、位相算出部21が算出したモータ32の位相が含まれる。更に、電流制御器27の制御器ゲインの伝達関数の係数a1P、b1P、c1P、a1I、b1I、c1I、a1D、b1D、c1Dが含まれる。
ステップS12において、行動情報生成部123は新たな行動情報aを生成し、生成した新たな行動情報aを、行動情報出力部13を介して学習対象としている制御器に対して出力する。行動情報生成部123は前述した方策に基づいて、新たな行動情報aを出力する。なお、行動情報aを受信した制御器は、受信した行動情報に基づいて現在の状態sに係る制御器ゲインの伝達関数の各係数を修正した状態s´により、モータ32を含む制御対象装置300を駆動させる。上述したように、この行動情報は、Q学習における行動aに相当するものである。
ステップS13において、状態情報取得部11は、学習対象としている制御器の入力に対応する減算器(例えば、学習対象としているのが電流制御器27である場合には、減算器26)から新たな状態s´における偏差PD(s´)を取得する。こうして、状態情報取得部11は、状態s´における偏差の集合PD(s´)を取得する。取得した状態情報は、報酬出力部121に対して出力される。
ステップS14において、報酬出力部121は、状態s´における偏差の値f(PD(s´))と状態sにおける偏差の値f(PD(s))との大小関係を判断する。そして、判断の結果、f(PD(s´))>f(PD(s))の場合には、ステップS15において、報酬を負の値とする。f(PD(s´))<f(PD(s))の場合には、ステップS16において、報酬を正の値とする。f(PD(s´))=f(PD(s))の場合には、ステップS17において、報酬をゼロとする。なお、報酬の負の値、正の値について重みづけを行うようにしてもよい。
ステップS15、ステップS16及びステップS17の何れかが終了すると、処理はステップS18に進む。
ステップS18において、この何れかのステップにて算出された報酬の値に基づいて、価値関数更新部122が、価値関数記憶部14に記憶している価値関数Qを更新する。なお、ステップS18はオンライン更新を例示しているが、オンライン更新に替えてバッチ更新又はミニバッチ更新に置き換えてもよい。
ステップS19において、学習部12は、強化学習を終了する条件が満たされたか否かを判定する。強化学習を終了する条件は、例えば上述した処理を、所定回数繰り返したことや、所定時間繰り返したこととする。未だ強化学習を終了する条件が満たされていない場合には、ステップS19においてNoと判定され、処理は再度ステップS11に戻る。そして、上述した処理を繰り返すことにより、価値関数Qは適切な値に収束していく。
一方で、強化学習を終了する条件が満たされた場合には、ステップS19においてYesと判定され、処理は終了する。
上述したように、本実施形態では、位置制御器23、速度制御器25及び電流制御器27の3つの制御器について同時に学習するのではなく、これら制御器内の1つを対象として、順番に学習を行う。つまり、ステップS11〜ステップS19の処理を、各制御器に対して順番に行う。そして、全ての制御器に対してステップS11〜ステップS19の処理を行った場合に、Q学習時の機械学習装置100の動作は終了となる。
以上、図5を参照して説明した動作により、本実施形態では、機械学習装置100を利用することで、各制御器についての制御器ゲインの伝達関数の係数の調整のための、適切な価値関数を得ることができ、各係数の最適化を簡易化することができる。
次に、図6のフローチャートを参照して、最適化行動情報出力部15による最適化行動情報の生成時の動作について説明をする。
まず、ステップS21において、最適化行動情報出力部15は、価値関数記憶部14に記憶している価値関数Qを取得する。価値関数Qは、上述したように価値関数更新部122がQ学習を行うことにより更新したものである。
ステップS22において、最適化行動情報出力部15は、この価値関数Qに基づいて、最適化行動情報を生成し、生成した最適化行動情報をサーボ制御装置200の各制御器に対して出力する。この最適化行動情報は、各制御器についての制御器ゲインの伝達関数の係数を適切に調整するための情報である。
サーボ制御装置200では、この最適化行動情報に基づいて制御器ゲインの伝達関数の各係数が最適化され、位相に応じて位置制御器23のインダクタンスが変化する場合であっても回転ムラを軽減し、位置偏差の値を低減するように動作することができる。
以上のように、本発明に係る機械学習装置100を利用することで、モータの位相に応じて適切に制御器ゲインを調整することが可能となる。
この効果について、図7を参照して説明をする。図7には、モータ32が一定速度で回転している場合の、各制御ループにおける偏差を図示している。
まず、図中左の<伝達関数の係数の調整前>には、モータ32の回転子の回転に伴いモータ32の位相が変化すると、この位相の変化に応じてモータのインダクタンスも変化するため、ゲインが一定であると回転ムラが生じる様子を図示する。上述したように、一般的な技術では、伝達関数の係数の調整を行っていないので、このように回転ムラが生じてしまう。これにより、例えば、制御対象装置300が工作機械である場合に、ワークの送りムラが発生してしまうので、ワークの加工面に対して均一に加工を行うことができない。
これに対して、図中右の<伝達関数の係数の調整後>には、上述した本実施形態の処理によって、モータ32の位相の変化に応じて伝達関数の係数の調整を行うことから、ゲインが適切に調整され、回転ムラが改善される様子を図示する。これにより、本実施形態によれば、例えば、制御対象装置300が工作機械である場合に、ワークの送りムラの発生を防止できるので、ワークの加工面に対して均一に加工を行うことが可能となる。
つまり、本実施形態は、モータの位相に応じて適切に制御器ゲインを調整することから、一般的な技術に比べて有利な効果を奏する。
上記のサーボ制御システムに含まれる各構成部は、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。また、上記のサーボ制御システムに含まれる各構成部のそれぞれの協働により行なわれるサーボ制御方法も、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。ここで、ソフトウェアによって実現されるとは、コンピュータがプログラムを読み込んで実行することにより実現されることを意味する。
プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non−transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えば、フレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば、光磁気ディスク)、CD−ROM(Read Only Memory)、CD−R、CD−R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
上述した実施形態は、本発明の好適な実施形態ではあるが、上記実施形態のみに本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において種々の変更を施した形態での実施が可能である。以下に、変更を施した形態の例を記載する。
<サーボ制御装置が機械学習装置を備える変形例>
上述した実施形態では、機械学習装置100を、サーボ制御装置200とは別体の装置により構成したが、機械学習装置100の機能の一部又は全部をサーボ制御装置200により実現するようにしてもよい。
<システム構成の自由度>
上述した実施形態では、機械学習装置100とサーボ制御装置200とが1対1の組として通信可能に接続されているが、例えば1台の機械学習装置100が複数のサーボ制御装置200とがネットワーク介して通信可能に接続され、各サーボ制御装置200の機械学習を実施するようにしてもよい。
その際、機械学習装置100の各機能を、適宜複数のサーバに分散する、分散処理システムとしてもよい。また、クラウド上で仮想サーバ機能等を利用して、機械学習装置100の各機能を実現してもよい。
<モータ32の変形>
上述した実施形態では、モータ32が回転モータであることを想定していた。そして、モータ32の回転子が、一定速度で正方向及び/又は負方向に一回転以上回転する動作を対象として機械学習を行っていた。
これを変形して、モータ32を、回転モータではなく、リニアモータに置き換えるようにしてもよい。この場合は、リニアモータの可動子が、固定子上の動作領域一端から他端までを何れかの方向に移動する動作を対象として機械学習を行うようにすればよい。
<制御器の制御方法の変形>
上述した実施形態では、3つの制御器である、位置制御器23、速度制御器25及び電流制御器27のそれぞれにおいてPID制御を行うことを想定していた。これを変形して、一部又は全部の制御器において、PI制御を行ったり、比例制御のみを行ったりするようにしてもよい。
例えば、速度制御器25及び電流制御器27についてはPI制御を行い、位置制御器23については比例制御を行うようにした場合には、上述した各制御器の制御器ゲインの伝達関数を以下の数式(式7)のようにすればよい。
電流制御器27の伝達関数K(s,Θ)=K1P(Θ)+K1I(Θ)/s
速度制御器25の伝達関数K(s,Θ)=K2P(Θ)+K2I(Θ)/s
位置制御器23の伝達関数K(s,Θ)=K3P(Θ)
(式7)
<制御器の伝達関数の係数の変形>
上述した実施形態では、制御器ゲインの伝達関数の係数を、例えば電流制御器27の制御器ゲインの伝達関数K(s,Θ)、速度制御器25の制御器ゲインの伝達関数K(s,Θ)、及び位置制御器23の制御器ゲインの伝達関数K(s,Θ)をそれぞれ、数式(式3)のように、Θの1次元の関数としたが、これに限定されない。
例えば、同様に電流制御器27の制御器ゲインの伝達関数K(s,Θ)(=K1P(Θ)+K1I(Θ)/s+K1D(Θ)s)を例に取った場合に、以下のようにΘの多次元の関数としてもよい。
1P(Θ)=Σ1≦i≦L{a1P(i)・sin(iΘ+b1P(i))}+c1P
1I(Θ)=Σ1≦j≦M{a1I(j)・sin(jΘ+b1I(j))}+c1I
1D(Θ)=Σ1≦k≦N{a1D(k)・sin(kΘ+b1D(k))}+c1D
ここで、L、M、Nはそれぞれ1以上の整数とする。
(式8)
速度制御器25の制御器ゲインの伝達関数K(s,Θ)、及び位置制御器23の制御器ゲインの伝達関数K(s,Θ)についても同様に、Θの多次元の関数としてもよい。
また、本実施形態においては、関数sinを適用したが、これに限定されない。例えば、sinに替えてcosを適用してもよい。更にこのような数式で係数の値を算出するのではなく、制御器ゲインの伝達関数の係数の値と、位相Θの値とを対応付けたパラメータテーブルを機械学習により作成するようにしてもよい。
<学習の対象とする制御器の選択>
上述の実施形態では、位置制御器23、速度制御器25及び電流制御器27の3つの制御器について、これら制御器内の1つを対象として順番に学習を行い、最終的に3つの制御器の全てに対しての学習を行ったがこれに限定されない。
例えば、3つの学習器の内の何れかの学習機についてのみ学習を行うようにしてもよい。例えば、電流制御器27についてのみ学習を行ったり、速度制御器25及び電流制御器27についてのみ学習を行ったりするようにしてもよい。
<電流指令値>
電流指令値には上限値が存在する。そこで、許容値CCmaxを例えば、上限値又は上限値以下の値に設定し、この許容値CCmaxを超えないようにすることが好ましい。そこで、偏差PD(s)による報酬の計算の他に、電流指令値が許容値CCmaxまで達しているか否かにより報酬を計算する。
具体的には、状態情報取得部11が、状態sにおいて、加算器107の出力となる位置フォワード制御された電流指令値CC(s)を観測する。状態情報取得部11は、状態sにおいて観測される電流指令値が一つでも許容値CCmaxを超えたことを観測した場合、報酬出力部121は、偏差PD(s)による報酬の計算結果や前の状態における電流指令値の如何に関わらず、報酬を負の値とする。
なお、状態sにおいて観測される電流指令値が許容値CCmaxを超えない場合、電流指令値CC(s)の評価関数qを予め設定し、電流指令値CC(s)の評価値q(CC(s))に基づき、偏差PD(s)と同様に、電流指令値CC(s)に基づく報酬を算出するようにしてもよい。
その場合、報酬出力部121は、偏差PD(s)による報酬と電流指令値CC(s)に基づく報酬との間で重み付けを行って加算するようにしてもよい。
また、偏差PD(s)に関する評価関数と電流指令値CC(s)の評価関数qとの間で重み付けをし、重み付けされた評価関数を加算し、重み付けされた評価関数を用いて報酬を決定してもよい。
1 サーボ制御システム
100 機械学習装置
11 状態情報取得部
12 学習部
121 報酬出力部
122 価値関数更新部
123 行動情報生成部
13 行動情報出力部
14 価値関数記憶部
15 最適化行動情報出力部
200 サーボ制御装置
21 位相算出部
22、24、26 減算器
23 位置制御器
25 速度制御器
27 電流制御器
28 積分器
300 制御対象装置
31 駆動用アンプ
32 モータ
33 機械

Claims (7)

  1. モータを備える制御対象装置の動作を制御するサーボ制御装置に対して、強化学習を行う機械学習装置であって、
    制御器ゲインの伝達関数における係数の調整情報を含む行動情報を、前記サーボ制御装置が備える制御器に対して出力する行動情報出力手段と、
    前記行動情報に基づいて前記制御器が前記制御対象装置を動作させた場合における、前記制御器に入力される指令と前記制御対象装置の実際の動作との偏差と、前記モータの位相と、前記制御器ゲインの伝達関数における係数と、を含む状態情報を、前記サーボ制御装置から取得する状態情報取得手段と、
    前記状態情報に含まれる前記偏差に基づいて、強化学習における報酬の値を出力する報酬出力手段と、
    前記報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新手段と、
    を備える機械学習装置。
  2. 前記サーボ制御装置は前記制御器に入力される指令を補正するためのフィードバック制御を行うサーボ制御装置であり、
    前記状態情報取得手段は、前記偏差として、前記制御器に入力される指令と前記フィードバック制御におけるフィードバック値との差分を取得する請求項1に記載の機械学習装置。
  3. 前記制御器は、位置制御、速度制御、及び電流制御の何れかを行う制御器の組合せであり、
    当該機械学習装置は、前記制御器の何れか1つを対象として前記強化学習を行った後に他の制御器の1つを対象として前記強化学習を行う場合に、電流制御を行う制御器、速度制御を行う制御器、位置制御を行う制御器の順に前記強化学習の対象とする請求項1又は請求項2に記載の機械学習装置。
  4. 前記モータの位相は、前記制御対象装置の動作を制御するための位置指令に基づいて算出される請求項1から請求項3までの何れか1項に記載の機械学習装置。
  5. 前記制御器ゲインの伝達関数は、変数として前記モータの位相を含む請求項1から請求項4までの何れか1項に記載の機械学習装置。
  6. 請求項1から請求項5の何れか1項に記載の機械学習装置と、前記サーボ制御装置とを備えたサーボ制御システムであって、
    前記サーボ制御装置が、
    前記制御対象装置の動作を制御するための位置指令に基づいて前記モータの位相を算出し、算出したモータの位相を前記状態情報取得手段及び前記制御器に対して出力する位相算出手段を備えるサーボ制御システム。
  7. モータを備える制御対象装置の動作を制御するサーボ制御装置に対して、強化学習を行う機械学習装置の機械学習方法であって、
    制御器ゲインの伝達関数における係数の調整情報を含む行動情報を、前記サーボ制御装置が備える制御器に対して出力する行動情報出力ステップと、
    前記行動情報に基づいて前記制御器が前記制御対象装置を動作させた場合における、前記制御器に入力される指令と前記制御対象装置の実際の動作との偏差と、前記モータの位相と、前記制御器ゲインの伝達関数における係数と、を含む状態情報を、前記サーボ制御装置から取得する状態情報取得ステップと、
    前記状態情報に含まれる前記偏差に基づいて、強化学習における報酬の値を出力する報酬出力ステップと、
    前記報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新ステップと、
    を備える機械学習方法。
JP2017097527A 2017-05-16 2017-05-16 機械学習装置、サーボ制御システム及び機械学習方法 Active JP6474456B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2017097527A JP6474456B2 (ja) 2017-05-16 2017-05-16 機械学習装置、サーボ制御システム及び機械学習方法
DE102018003769.0A DE102018003769B4 (de) 2017-05-16 2018-05-09 Vorrichtung für maschinelles Lernen, Servosteuersystem und Verfahren zum maschinellen Lernen
US15/976,427 US11009837B2 (en) 2017-05-16 2018-05-10 Machine learning device that adjusts controller gain in a servo control apparatus
CN201810444852.8A CN108880399B (zh) 2017-05-16 2018-05-10 机器学习装置、伺服控制***以及机器学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017097527A JP6474456B2 (ja) 2017-05-16 2017-05-16 機械学習装置、サーボ制御システム及び機械学習方法

Publications (2)

Publication Number Publication Date
JP2018195018A JP2018195018A (ja) 2018-12-06
JP6474456B2 true JP6474456B2 (ja) 2019-02-27

Family

ID=64271615

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017097527A Active JP6474456B2 (ja) 2017-05-16 2017-05-16 機械学習装置、サーボ制御システム及び機械学習方法

Country Status (4)

Country Link
US (1) US11009837B2 (ja)
JP (1) JP6474456B2 (ja)
CN (1) CN108880399B (ja)
DE (1) DE102018003769B4 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6544219B2 (ja) * 2015-11-30 2019-07-17 オムロン株式会社 制御装置
KR102215752B1 (ko) * 2018-12-27 2021-02-17 서울대학교산학협력단 Ai 기반 노치 필터의 파라미터 설정 장치 및 방법
DE112019006825T5 (de) * 2019-03-07 2021-10-28 Mitsubishi Electric Corporation Vorrichtung für maschinelles Lernen, numerische Steuerungseinheit, Störungsvorhersagevorrichtung und Steuerungssystem für Werkzeugmaschinen
JP7022096B2 (ja) * 2019-03-28 2022-02-17 ファナック株式会社 サーボ制御装置
CN112631120B (zh) * 2019-10-09 2022-05-17 Oppo广东移动通信有限公司 Pid控制方法、装置和视频编解码***
JP7331660B2 (ja) * 2019-11-26 2023-08-23 横河電機株式会社 装置、方法およびプログラム
JP7374790B2 (ja) * 2020-01-30 2023-11-07 株式会社Screenホールディングス 搬送装置および搬送方法
JP7484382B2 (ja) 2020-04-24 2024-05-16 横河電機株式会社 制御装置、制御方法および制御プログラム
CN114609976A (zh) * 2022-04-12 2022-06-10 天津航天机电设备研究所 一种基于单应性和q学习的无标定视觉伺服控制方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01298977A (ja) 1988-05-27 1989-12-01 Sanyo Denki Co Ltd モータの制御方法及び装置
JPH07210207A (ja) 1994-01-17 1995-08-11 Hitachi Ltd 適応制御装置
JP2000054862A (ja) * 1998-08-07 2000-02-22 Yamaha Motor Co Ltd 動力源付き乗物における出力制御方法
JP2006238663A (ja) * 2005-02-28 2006-09-07 Toshiba Corp 電動機の制御装置
US20150018632A1 (en) 2012-09-14 2015-01-15 Mohammad Khair System and Method For Monitoring Cardiac Blood Flow Balance Between The Right and Left Heart Chambers
JP6154435B2 (ja) 2015-07-09 2017-06-28 ファナック株式会社 制御系のオンライン自動調整状況を表示する機能を有するサーボ制御装置
JP6177842B2 (ja) 2015-07-31 2017-08-09 ファナック株式会社 アース線又はシールド線の接続箇所を学習する機械学習方法及び機械学習装置並びに該機械学習装置を備えた電動機制御装置及び電動機装置
JP6106226B2 (ja) 2015-07-31 2017-03-29 ファナック株式会社 ゲインの最適化を学習する機械学習装置及び機械学習装置を備えた電動機制御装置並びに機械学習方法
JP6243385B2 (ja) * 2015-10-19 2017-12-06 ファナック株式会社 モータ電流制御における補正値を学習する機械学習装置および方法ならびに該機械学習装置を備えた補正値計算装置およびモータ駆動装置

Also Published As

Publication number Publication date
US20180335758A1 (en) 2018-11-22
CN108880399B (zh) 2019-12-06
DE102018003769A1 (de) 2018-11-22
CN108880399A (zh) 2018-11-23
JP2018195018A (ja) 2018-12-06
DE102018003769B4 (de) 2021-09-23
US11009837B2 (en) 2021-05-18

Similar Documents

Publication Publication Date Title
JP6474456B2 (ja) 機械学習装置、サーボ制御システム及び機械学習方法
CN109274314B (zh) 机器学习装置、伺服电动机控制装置、伺服电动机控制***以及机器学习方法
JP6499720B2 (ja) 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法
US10824121B2 (en) Machine learning device, servo motor controller, servo motor control system, and machine learning method
JP2018152012A (ja) 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法
JP6474449B2 (ja) 調整装置及び調整方法
JP6748135B2 (ja) 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法
JP6453919B2 (ja) 行動情報学習装置、行動情報最適化システム及び行動情報学習プログラム
JP6740277B2 (ja) 機械学習装置、制御装置、及び機械学習方法
US10901396B2 (en) Machine learning device, control device, and machine learning method
JP6740279B2 (ja) 調整装置及び調整方法
JP2018169695A (ja) 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法
JP6453921B2 (ja) 学習モデル構築装置、及び制御情報最適化装置
JP6784722B2 (ja) 出力装置、制御装置、及び評価関数値の出力方法
JP6841801B2 (ja) 機械学習装置、制御システム及び機械学習方法
US20210072710A1 (en) Machine learning device, servo control device, servo control system, and machine learning method
JP6978452B2 (ja) 機械学習装置、制御装置、及び機械学習の探索範囲の設定方法
JP6806746B2 (ja) モータ制御装置
JP6740263B2 (ja) 機械学習装置、サーボモータ制御装置、サーボモータ制御システム、及び機械学習方法
JP6740290B2 (ja) 機械学習装置、制御装置、及び機械学習方法

Legal Events

Date Code Title Description
A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20180829

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20180913

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190129

R150 Certificate of patent or registration of utility model

Ref document number: 6474456

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150