JP2019021024A - 機械学習装置、サーボモータ制御装置、サーボモータ制御システム、及び機械学習方法 - Google Patents

機械学習装置、サーボモータ制御装置、サーボモータ制御システム、及び機械学習方法 Download PDF

Info

Publication number
JP2019021024A
JP2019021024A JP2017138949A JP2017138949A JP2019021024A JP 2019021024 A JP2019021024 A JP 2019021024A JP 2017138949 A JP2017138949 A JP 2017138949A JP 2017138949 A JP2017138949 A JP 2017138949A JP 2019021024 A JP2019021024 A JP 2019021024A
Authority
JP
Japan
Prior art keywords
servo motor
motor control
value
machine learning
control device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017138949A
Other languages
English (en)
Other versions
JP6538766B2 (ja
Inventor
勇作 於保
Yusaku Obo
勇作 於保
直人 園田
Naoto Sonoda
直人 園田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fanuc Corp
Original Assignee
Fanuc Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fanuc Corp filed Critical Fanuc Corp
Priority to JP2017138949A priority Critical patent/JP6538766B2/ja
Priority to US16/021,447 priority patent/US10418921B2/en
Priority to DE102018211148.0A priority patent/DE102018211148A1/de
Priority to CN201810771452.8A priority patent/CN109274314B/zh
Publication of JP2019021024A publication Critical patent/JP2019021024A/ja
Application granted granted Critical
Publication of JP6538766B2 publication Critical patent/JP6538766B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02PCONTROL OR REGULATION OF ELECTRIC MOTORS, ELECTRIC GENERATORS OR DYNAMO-ELECTRIC CONVERTERS; CONTROLLING TRANSFORMERS, REACTORS OR CHOKE COILS
    • H02P29/00Arrangements for regulating or controlling electric motors, appropriate for both AC and DC motors
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02PCONTROL OR REGULATION OF ELECTRIC MOTORS, ELECTRIC GENERATORS OR DYNAMO-ELECTRIC CONVERTERS; CONTROLLING TRANSFORMERS, REACTORS OR CHOKE COILS
    • H02P6/00Arrangements for controlling synchronous motors or other dynamo-electric motors using electronic commutation dependent on the rotor position; Electronic commutators therefor
    • H02P6/08Arrangements for controlling the speed or torque of a single motor
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B1/00Comparing elements, i.e. elements for effecting comparison directly or indirectly between a desired value and existing or anticipated values
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02PCONTROL OR REGULATION OF ELECTRIC MOTORS, ELECTRIC GENERATORS OR DYNAMO-ELECTRIC CONVERTERS; CONTROLLING TRANSFORMERS, REACTORS OR CHOKE COILS
    • H02P21/00Arrangements or methods for the control of electric machines by vector control, e.g. by control of field orientation
    • H02P21/06Rotor flux based control involving the use of rotor position or rotor speed sensors
    • H02P21/08Indirect field-oriented control; Rotor flux feed-forward control
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02PCONTROL OR REGULATION OF ELECTRIC MOTORS, ELECTRIC GENERATORS OR DYNAMO-ELECTRIC CONVERTERS; CONTROLLING TRANSFORMERS, REACTORS OR CHOKE COILS
    • H02P23/00Arrangements or methods for the control of AC motors characterised by a control method other than vector control
    • H02P23/0004Control strategies in general, e.g. linear type, e.g. P, PI, PID, using robust control
    • H02P23/0031Control strategies in general, e.g. linear type, e.g. P, PI, PID, using robust control implementing a off line learning phase to determine and store useful data for on-line control
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02PCONTROL OR REGULATION OF ELECTRIC MOTORS, ELECTRIC GENERATORS OR DYNAMO-ELECTRIC CONVERTERS; CONTROLLING TRANSFORMERS, REACTORS OR CHOKE COILS
    • H02P23/00Arrangements or methods for the control of AC motors characterised by a control method other than vector control
    • H02P23/0077Characterised by the use of a particular software algorithm
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02PCONTROL OR REGULATION OF ELECTRIC MOTORS, ELECTRIC GENERATORS OR DYNAMO-ELECTRIC CONVERTERS; CONTROLLING TRANSFORMERS, REACTORS OR CHOKE COILS
    • H02P23/00Arrangements or methods for the control of AC motors characterised by a control method other than vector control
    • H02P23/24Controlling the direction, e.g. clockwise or counterclockwise
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02PCONTROL OR REGULATION OF ELECTRIC MOTORS, ELECTRIC GENERATORS OR DYNAMO-ELECTRIC CONVERTERS; CONTROLLING TRANSFORMERS, REACTORS OR CHOKE COILS
    • H02P6/00Arrangements for controlling synchronous motors or other dynamo-electric motors using electronic commutation dependent on the rotor position; Electronic commutators therefor
    • H02P6/14Electronic commutators
    • H02P6/16Circuit arrangements for detecting position
    • H02P6/17Circuit arrangements for detecting position and for generating speed information

Landscapes

  • Engineering & Computer Science (AREA)
  • Power Engineering (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Automation & Control Theory (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Feedback Control In General (AREA)
  • Numerical Control (AREA)
  • Control Of Position Or Direction (AREA)
  • Control Of Electric Motors In General (AREA)

Abstract

【課題】反転動作時のサーボ系の応答性を改善する。【解決手段】位置指令に基づいて非線形摩擦に対する補正値を作成する非線形摩擦補償器111を備える、サーボモータ制御装置100に対して、機械学習を行う機械学習装置200であって、所定のプログラムをサーボモータ制御装置に実行させることにより、少なくとも位置偏差を含むサーボ状態と、非線形摩擦補償手段の補正係数の組み合わせと、を含む状態情報を、サーボモータ制御装置から取得する状態情報取得部201と、状態情報に含まれる補正係数の組み合わせの調整情報を含む行動情報をサーボモータ制御装置に出力する行動情報出力部203と、状態情報に含まれる位置偏差に基づく、強化学習における報酬の値を出力する報酬出力部2021と、報酬出力部により出力される報酬の値と、状態情報と、行動情報とに基づいて行動価値関数を更新する価値関数更新部2022と、を備える。【選択図】図10

Description

本発明は、非線形摩擦に対する補正を行うサーボモータ制御装置に対して、非線形摩擦の補正における補正係数に関する学習を行う機械学習装置、この機械学習装置を含むサーボモータ制御装置とサーボモータ制御システム、及び機械学習方法に関する。
従来のサーボモータ制御装置は、例えば、特許文献1に記載されたモータ制御装置、特許文献2に記載されたサーボ制御装置及び特許文献3に記載されたモータ制御装置が知られている。
特許文献1に記載されたモータ制御装置は、位置指令に基づいて位置偏差を少なくするための速度フィードフォワード指令を生成する速度フィードフォワード制御部と、位置指令に基づいて位置偏差を少なくするためのトルクフィードフォワード指令を生成するトルクフィードフォワード制御部とを有している。
特許文献2に記載されたサーボ制御装置は、位置指令に基づいてフィードフォワード指令を生成するフィードフォワード補償器を有している。また、特許文献2に記載されたサーボ制御装置は、工作機械における摩擦の影響による制御誤差を補償するための摩擦補償装置を有している。
特許文献3に記載されたモータ制御装置は、外乱オブザーバにより推定された摩擦トルクとトルク指令とに基づいてスティックモーションを補償し、速度指令に基づいてロストモーションを補償するための補償算出部を有している。
特開2016−101017号公報 特開2015−018496号公報 特開2004−280565号公報
サーボモータ制御装置における、サーボモータの反転動作時の制御偏差の要因は、サーボ系の応答遅れ、機械系の弾性変形、及び摩擦の影響が考えられる。摩擦のうち、特に非線形摩擦の影響は大きく、これを補正することはサーボ性能向上において重要である。
本発明は、非線形摩擦の補償を行い、サーボモータの反転動作時のサーボ系の応答性を改善する、機械学習装置、サーボモータ制御装置、サーボモータ制御システム、及び機械学習方法を提供することを目的とする。
(1) 本発明に係る機械学習装置(例えば、後述の機械学習装置200)は、位置指令に基づいて非線形摩擦に対する補正値を作成する非線形摩擦補償手段(例えば、後述の非線形摩擦補償器111)を備える、サーボモータ制御装置(例えば、後述のサーボモータ制御装置100)に対して、機械学習を行う機械学習装置であって、
所定のプログラムを前記サーボモータ制御装置に実行させることにより、少なくとも位置偏差を含むサーボ状態と、前記非線形摩擦補償手段の補正係数の組み合わせと、を含む状態情報を、前記サーボモータ制御装置から取得する状態情報取得手段(例えば、後述の状態情報取得部201)と、
前記状態情報に含まれる前記補正係数の組み合わせの調整情報を含む行動情報を前記サーボモータ制御装置に出力する行動情報出力手段(例えば、後述の行動情報出力部203)と、
前記状態情報に含まれる前記位置偏差に基づく、強化学習における報酬の値を出力する報酬出力手段(例えば、後述の報酬出力部2021)と、
前記報酬出力手段により出力される報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新手段(例えば、後述の価値関数更新部2022)と、
を備える機械学習装置である。
(2) 上記(1)のサーボモータ制御装置において、前記報酬出力手段は、前記位置偏差の絶対値に基づいて前記報酬の値を出力してもよい。
(3) 上記(1)又は(2)のサーボモータ制御装置において、前記サーボモータ制御装置は、前記位置指令に基づいて速度フィードフォワード値を作成する速度フィードフォワード計算手段(例えば、後述の速度フィードフォワード計算部110)をさらに有し、前記非線形摩擦補償手段は前記速度フィードフォワード計算手段に並列に接続されていてもよい。
(4) 上記(1)から(3)のいずれかのサーボモータ制御装置において、前記価値関数更新手段により更新された価値関数に基づいて、前記非線形摩擦補償手段の補正係数の組み合わせを生成して出力する最適化行動情報出力手段(例えば、後述の最適化行動情報出力部205)をさらに備えてもよい。
(5) 本発明に係るサーボモータ制御システムは、上記(1)から(4)のいずれかの機械学習装置(例えば、後述の機械学習装置200)と、非線形摩擦に対する補正値を作成する非線形摩擦補償手段を有するサーボモータ制御装置(例えば、後述のサーボモータ制御装置100)と、を備えたサーボモータ制御システムである。
(6) 上記(5)のサーボモータ制御システムにおいて、前記サーボモータ制御装置は、位置指令に基づいて速度フィードフォワード値を作成する速度フィードフォワード計算手段(例えば、後述の速度フィードフォワード計算部110)をさらに有し、前記非線形摩擦補償手段は速度フィードフォワード計算手段に並列に接続されていてもよい。
(7) 本発明に係るサーボモータ制御装置は、上記(1)から(4)のいずれかの機械学習装置と、非線形摩擦に対する補正値を作成する非線形摩擦補償手段と、を備えたサーボモータ制御装置である。
(8) 上記(8)のサーボモータ制御装置において、位置指令に基づいて速度フィードフォワード値を作成する速度フィードフォワード計算手段をさらに備え、前記非線形摩擦補償手段は速度フィードフォワード計算手段に並列に接続されていてもよい。
(9) 本発明に係る機械学習方法は、位置指令に基づいて非線形摩擦に対する補正値を作成する非線形摩擦補償手段(例えば、後述の非線形摩擦補償器111)を備える、サーボモータ制御装置(例えば、後述のサーボモータ制御装置100)に対して、機械学習を行う機械学習装置(例えば、後述の機械学習装置200)の機械学習方法であって、
所定のプログラムを前記サーボモータ制御装置に実行させることにより、少なくとも位置偏差を含むサーボ状態と、前記非線形摩擦補償手段の補正係数の組み合わせと、を含む状態情報を、前記サーボモータ制御装置から取得し、
前記状態情報に含まれる前記補正係数の組み合わせの調整情報を含む行動情報を前記サーボモータ制御装置に出力し、
前記状態情報に含まれる前記位置偏差に基づく、強化学習における報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する、機械学習方法である。
本発明によれば、非線形摩擦の補償を行い、サーボモータの反転動作時のサーボ系の応答性を改善することができる。
本発明の第1の実施形態のサーボモータ制御システムを示すブロック図である。 本発明の第1の実施形態のサーボモータ制御システムのサーボモータ制御装置と機械学習装置との組、及び制御対象を示すブロック図である。 非線形摩擦補正値f(ω)とモータ速度ωとの関係を示す特性図である。 制御対象の一例を示すブロック図である。 加工形状が円形の場合のサーボモータの動作を説明するための図である。 加工形状が四角形の場合のサーボモータの動作を説明するための図である。 制御対象に含まれるテーブルがX軸方向又はY軸方向に正弦波状に移動する状態を示す図である。 制御対象に含まれるテーブルがX軸方向又はY軸方向に三角波状に移動する状態を示す図である。 加工形状が星形の場合のサーボモータの動作を説明するための図である。 第1の実施形態の機械学習装置を示すブロック図である。 機械学習装置の動作を説明するフローチャートである。 機械学習装置の最適化行動情報出力部の動作を説明するフローチャートである。 機械学習による非線形摩擦補償器のパラメータ調整前のテーブルの移動軌跡を示す図である。 機械学習による非線形摩擦補償器のパラメータ調整後のテーブルの移動軌跡を示す図である。
以下、本発明の実施形態について図面を用いて詳細に説明する。
(第1の実施形態)
図1は発明の第1の実施形態のサーボモータ制御システムを示すブロック図である。サーボモータ制御システム10は、図1に示すように、n台のサーボモータ制御装置100−1〜100−n、n台の機械学習装置200−1〜200−n、及びネットワーク400を備えている。なお、nは任意の自然数である。
ここで、サーボモータ制御装置100−1と機械学習装置200−1とは1対1の組とされて、通信可能に接続されている。サーボモータ制御装置100−2〜100−nと機械学習装置200−2〜100−nについてもサーボモータ制御装置100−1と機械学習装置200−1と同様に接続される。図1では、サーボモータ制御装置100−1〜100−nと機械学習装置200−1〜200−nとのn個の組は、ネットワーク400を介して接続されているが、サーボモータ制御装置100−1〜100−nと機械学習装置200−1〜200−nとのn個の組は、それぞれの組のサーボモータ制御装置と機械学習装置とが接続インタフェースを介して直接接続されてもよい。これらサーボモータ制御装置100−1〜100−nと機械学習装置200−1〜200−nとのn個の組は、例えば同じ工場に複数組設置されていてもよく、それぞれ異なる工場に設置されていてもよい。
なお、ネットワーク400は、例えば、工場内に構築されたLAN(Local Area Network)や、インターネット、公衆電話網、接続インタフェースを介しての直接接続、或いは、これらの組み合わせである。ネットワーク400における具体的な通信方式や、有線接続および無線接続のいずれであるか等については、特に限定されない。
図2は本発明の第1の実施形態のサーボモータ制御システムのサーボモータ制御装置と機械学習装置との組、及び制御対象を示すブロック図である。図2のサーボモータ制御装置100と、機械学習装置200は例えば、図1に示すサーボモータ制御装置100−1と機械学習装置200−1とに対応している。
制御対象300は例えばサーボモータを含む、工作機械,ロボット,又は産業機械等である。サーボモータ制御装置100は工作機械,ロボット,又は産業機械等の一部として設けられてもよい。
最初に、サーボモータ制御装置100について説明する。
図2に示されるように、サーボモータ制御装置100は、位置指令作成部101、減算器102、位置制御部103、加算器104、減算器105、速度制御部106、加算器107、積分器108、位置フィードフォワード計算部109、速度フィードフォワード計算部110、及び非線形摩擦補償器111を備えている。
位置指令作成部101は図示しない上位制御装置や外部入力装置等から入力されるプログラムに従って、制御対象300に含まれるサーボモータを動作させるための位置指令値を作成し、作成した位置指令値を減算器102と位置フィードフォワード計算部109とに出力する。減算器102は位置指令値と位置フィードバックされた検出位置との差を求め、その差を位置偏差として、位置制御部103に出力するとともに機械学習装置200に対して送信する。
位置指令作成部101は、制御対象300に含まれるサーボモータを動作させるプログラムに基づいて位置指令値を作成する。制御対象300は、例えばサーボモータを含む工作機械で、被加工物(ワーク)を搭載するテーブルをX軸方向及びY軸方向に移動させて加工する場合には、X軸方向及びY軸方向に対してそれぞれ図2に示すサーボモータ制御装置が設けられる。テーブルを3軸以上の方向に移動させる場合には、それぞれの軸方向に対してサーボモータ制御装置が設けられる。
位置指令作成部101は、プログラムにより指定される加工形状となるように、サーボモータの速度を変化させるためにパルス周波数を変えて位置指令値を作成する。
位置制御部103は、例えば、位置偏差に予め設定されたポジションゲインKpを乗じた値を、速度指令値として加算器104に出力する。位置フィードフォワード計算部109は位置指令値を微分してフィードフォワード係数を掛けた値を、加算器104、速度フィードフォワード計算部110、及び非線形摩擦補償器111に出力する。
加算器104は、速度指令値と位置フィードフォワード計算部109の出力値とを加算して、フィードフォワード制御された速度指令値として減算器105に出力する。減算器105は加算器104の出力と速度フィードバックされた速度検出値との差を求め、その差を速度偏差として速度制御部106に出力する。
速度制御部106は、例えば、速度偏差に予め設定された積分ゲインK1vを乗じて積分した値と、速度偏差に予め設定された比例ゲインK2vを乗じた値とを加算して、トルク指令値として加算器107に出力する。
速度フィードフォワード計算部110は、例えば、数式1(以下に数1として示す)で示す伝達関数Gf(S)で示される速度フィードフォワード計算処理を行い、その計算結果を第1のトルク補正値として加算器107に出力する。速度フィードフォワード計算部110の係数a、bは、aについては0≦i≦m、bについては0≦j≦nとなる予め設定された定数である。次元m、nを予め設定された自然数である。

Figure 2019021024
非線形摩擦補償器111は、位置フィードフォワード計算部109の出力値に基づいて、制御対象300で生じた非線形摩擦を補償するための非線形摩擦補正値を、第2のトルク補正値として加算器107に出力する。非線形摩擦は例えば、制御対象300がサーボモータを含む工作機械である場合には、主としてサーボモータ以外の工作機械のボールねじ等で生ずるが、サーボモータにおいても非線形摩擦が生ずる。非線形摩擦補正値f(ω)は、例えば、モータ速度ωと数式2(以下に数2として示す)に示す関係を有し、モータ速度ωを用いて求めることができる。図3は非線形摩擦補正値f(ω)とモータ速度ωとの関係を示す特性図を示している。
Figure 2019021024
後述するように、機械学習装置200を用いて、数式2における、補正係数c、dの組み合わせの最適値が求められる。
加算器107は、トルク指令値、速度フィードフォワード計算部110の出力値、及び非線形摩擦補償器111の出力値を加算して、フィードフォワード制御されたトルク指令値として制御対象300のサーボモータに出力する。
制御対象300は速度検出値を出力し、速度検出値は速度フィードバックとして減算器105に入力される。速度検出値は積分器108で積分されて位置検出値となり、位置検出値は位置フィードバックとして減算器102に入力される。
以上のように、サーボモータ制御装置100は構成される。
次に、サーボモータ制御装置100により制御される制御対象300について説明する。
図4は制御対象300の一例となる、サーボモータを含む工作機械を示すブロック図である。
サーボモータ制御装置100は、サーボモータ302で連結機構303を介してテーブル304を移動させ、テーブル304の上に搭載された被加工物(ワーク)を加工する。連結機構303は、サーボモータ302に連結されたカップリング3031と、カップリング3031に固定されるボールねじ3033とを有し、ボールねじ3033にナット3032が螺合されている。サーボモータ302の回転駆動によって、ボールねじ3033に螺着されたナット3032がボールねじ3033の軸方向に移動する。非線形摩擦は、カップリング3031とボールねじ3033とを含む連結機構303、ナット3032等で生ずるが、サーボモータ302においても非線形摩擦が生ずる。
サーボモータ302の回転角度位置は、サーボモータ302に関連付けられた、位置検出部となるロータリーエンコーダ301によって検出され、検出された信号は速度フィードバックとして利用される。検出された信号は積分器108で積分することで位置フィードバックとして利用される。なお、ボールねじ3033の端部に取り付けられ、ボールねじ3033の移動距離を検出するリニアスケール305の出力を位置フィードバックとして用いてもよい。
<機械学習装置200>
機械学習装置200は、予め設定された評価用のプログラム(以下、「評価用プログラム」を実行することで、非線形摩擦補償器111の補正係数を学習する。ここで、サーボモータでテーブルをX軸方向及びY軸方向に移動させて加工する場合には、評価用プログラムにより指定される加工形状は、サーボモータの反転動作を評価するとき、例えば、円形、四角形、又は星形等を用いることができる。
図5は、加工形状が円形の場合のサーボモータの動作を説明するための図である。図6は、加工形状が四角形の場合のサーボモータの動作を説明するための図である。図5及び図6において、被加工物(ワーク)が時計まわりに加工されるようにテーブルが移動する。
サーボモータの反転動作を評価する場合、例えば図7又は図8に示されるように、制御対象300に含まれるテーブルが、X軸方向とY軸方向との少なくとも一方の方向に正弦波状又は三角波状に移動するように、サーボモータ302が制御される。
評価用プログラムは、サーボモータ制御装置100の位置指令作成部101から出力されるパルスの周波数を制御する。この周波数の制御により、テーブルのX軸方向又はY軸方向の送り速度が制御される。位置指令作成部101から出力されるパルスの周波数が高くなるとモータの回転速度が上がり、送り速度が高くなり、パルスの周波数が低くなるとモータの回転速度が低下し、送り速度が低くなる。サーボモータ302の回転方向が反転するときにテーブルの移動方向がX軸方向又はY軸方向について反転する。
加工形状が図5に示す円形の場合は、テーブルが、X軸方向に図7に示すように正弦波状に移動し、Y軸方向に余弦波状に移動するように、X軸方向とY軸方向のサーボモータが制御される。
図5に示す位置A1では、テーブルをY軸方向に移動するサーボモータは回転方向が反転し、テーブルはY軸方向に直線反転するように移動する。一方、位置A1で、テーブルをX軸方向に移動するサーボモータは位置A1の前後の速度と同じ速度で回転し、テーブルはX軸方向に位置A1の前後の速度と同じ速度で移動する。テーブルがY軸方向で反転する位置A1は図7で示した正方向の反転位置に対応する。一方、テーブルがX軸方向に等速度で移動するテーブルは、図7で示した波形(正弦波)の位相が90度遅れた又は進んだ波形(余弦波)となり、位置A1は図7で示す、正方向の反転位置と負方向の反転位置との中間の位置に対応する。
図5に示す位置A2では、テーブルをX軸方向に移動するサーボモータの動作と、テーブルをY軸方向に移動するサーボモータの動作とが逆になるように、各サーボモータが制御される。つまり、位置A2で、テーブルをX軸方向に移動するサーボモータは回転方向が反転し、テーブルはX軸方向に直線反転するように移動する。一方、位置A2で、テーブルをY軸方向に移動するサーボモータは位置A2の前後の速度と同じ速度で回転し、テーブルはY軸方向に位置A2の前後の速度と同じ速度で移動する。
加工形状が図6に示す四角形の場合は、テーブルが、X軸方向に図8に示すように三角波状に移動し、Y軸方向に図8で示した三角波の位相が90度遅れた又は進んだ三角波状に移動するように、X軸方向とY軸方向のサーボモータが制御される。なお、三角波状にテーブルが移動する場合、正の反転位置から負の反転位置まで、及び負の反転位置から正の反転位置までのサーボモータの回転速度は等速度である。
図6に示す位置B1では、テーブルをX軸方向に移動するサーボモータは回転方向が反転し、テーブルはX軸方向に直線反転するように移動する。一方、位置B1で、テーブルをY軸方向に移動するサーボモータは等速度で回転し、テーブルはY軸方向に等速度で移動する。テーブルがX軸方向で反転する位置B1は図8で示した負方向の反転位置に対応する。一方、テーブルがY軸方向に等速度で移動するテーブルは、図8で示した三角波の位相が90度遅れた又は進んだ三角波となり、位置B1は図8で示す、正方向の反転位置と負方向の反転位置との中間の位置に対応する。
図6に示す位置B2では、テーブルをX軸方向に移動するサーボモータの動作と、テーブルをY軸方向に移動するサーボモータの動作とが逆になるように、各サーボモータが制御される。つまり、位置B2で、テーブルをY軸方向に移動するサーボモータは回転方向が反転し、テーブルはY軸方向に直線反転するように移動する。一方、位置B2で、テーブルをX軸方向に移動するサーボモータは等速度で回転し、テーブルはX軸方向に等速度で移動する。
評価用プログラムを実行することで、サーボ制御装置100の位置指令作成部101は順次、円形、又は四角形の加工形状となるように位置指令値を出力する。また、円形又は四角形の加工形状ごとに、送り速度を変更し、複数の送り速度についての影響も学習できるようにする。送り速度は、加工形状の図形の移動途中、例えば四角の加工形状にテーブルを移動させているときに、角を過ぎたときに送り速度を変更してもよい。そうすることで、X軸方向又はY軸方向においてそれぞれ正弦波状又は三角波状に移動する場合に、周波数を高くしたり、周波数を徐々に高くするパターンを学習することができる。
また、加工形状が円形又は四角形の場合は、テーブルをX軸方向及びY軸方向に移動するサーボモータの一方の回転方向が反転するときに、他方のサーボモータの回転は一定速度になるが、テーブルをX軸方向及びY軸方向に移動する2つのサーボモータの回転方向がともに反転するような加工形状、例えば図9に示すような星形として、非線形摩擦補償器111の補正係数c、dの組み合わせを学習してもよい。
図9は加工形状が星形の場合のサーボモータの動作を説明するための図である。加工形状が図9に示すような星形の場合は、星形の4つの「<」形状の突出し部で、テーブルが、X軸方向及びY軸方向に三角波状に移動するように、X軸方向とY軸方向のサーボモータが制御される。
星形の4つの「<」形状の突出し部の頂点、例えば、図9に示す位置C1で、テーブルをX軸方向に移動するサーボモータは回転方向が反転し、テーブルはX軸方向に直線反転するように移動する。同様に、位置C1で、テーブルをY軸方向に移動するサーボモータは回転方向が反転し、テーブルはY軸方向に直線反転するように移動する。よって、テーブルをX軸方向及びY軸方向に移動する2つのサーボモータの回転方向がともに反転する場合のサーボモータの反転動作を評価することができる。
なお、図7に示す星形の加工形状において、4つの凹部の頂点では、加工形状が図6に示す四角形の場合と同様に、X軸方向とY軸方向のうちの一方の方向に移動するサーボモータは回転方向が反転し、他方の方向に移動するサーボモータは等速度で回転する動作を評価することができる。例えば、図9に示す位置C2では、テーブルをX軸方向に移動するサーボモータは回転方向が反転し、テーブルはX軸方向に直線反転するように移動する。一方、位置B1で、テーブルをY軸方向に移動するサーボモータは等速度で回転し、テーブルはY軸方向に等速度で移動する。
次に、機械学習装置200の構成について説明する。
機械学習装置200は、評価用プログラムに基づいて制御対象300を駆動させたときの、位置偏差を低減するための、非線形摩擦補償器111の補正係数c、dの組み合わせを学習する。
機械学習装置200に含まれる各機能ブロックの説明に先立って、まず強化学習の基本的な仕組みについて説明する。エージェント(本実施形態における機械学習装置200に相当)は、環境の状態を観測し、ある行動を選択し、当該行動に基づいて環境が変化する。環境の変化に伴って、何らかの報酬が与えられ、エージェントはより良い行動の選択(意思決定)を学習する。
教師あり学習が、完全な正解を示すのに対して、強化学習における報酬は、環境の一部の変化に基づく断片的な値であることが多い。このため、エージェントは、将来にわたっての報酬の合計を最大にするように行動を選択するように学習する。
このように、強化学習では、行動を学習することにより、環境に行動が与える相互作用を踏まえて適切な行動を学習、すなわち将来的に得られる報酬を最大にするための学習する方法を学ぶ。これは、本実施形態において、例えば、位置偏差を低減するための行動情報を選択するという、未来に影響をおよぼすような行動を獲得できることを表している。
ここで、強化学習としては、任意の学習方法を用いることができるが、以下の説明では、或る環境の状態sの下で、行動aを選択する価値関数Q(s,a)を学習する方法であるQ学習(Q-learning)を用いる場合を例にとって説明をする。
Q学習では、或る状態sのとき、取り得る行動aのなかから、価値関数Q(s,a)の最も高い行動aを最適な行動として選択することを目的とする。
しかしながら、Q学習を最初に開始する時点では、状態sと行動aとの組合せについて、価値関数Q(s,a)の正しい値は全く分かっていない。そこで、エージェントは、或る状態sの下で様々な行動aを選択し、その時の行動aに対して、与えられる報酬に基づいて、より良い行動の選択をすることにより、正しい価値関数Q(s,a)を学習していく。
また、将来にわたって得られる報酬の合計を最大化したいので、最終的にQ(s,a)=E[Σ(γ)r]となるようにすることを目指す。ここでE[]は期待値を表し、tは時刻、γは後述する割引率と呼ばれるパラメータ、rは時刻tにおける報酬、Σは時刻tによる合計である。この式における期待値は、最適な行動に従って状態変化した場合の期待値である。しかしQ学習の過程において最適な行動が何であるのかは不明であるので、様々な行動を行うことにより、探索しながら強化学習をする。このような価値関数Q(s,a)の更新式は、例えば、次の数式3(以下に数3として示す)により表すことができる。
Figure 2019021024
上記の数式3において、sは、時刻tにおける環境の状態を表し、aは、時刻tにおける行動を表す。行動aにより、状態はst+1に変化する。rt+1は、その状態の変化により得られる報酬を表している。また、maxの付いた項は、状態st+1の下で、その時に分かっている最もQ値の高い行動aを選択した場合のQ値にγを乗じたものになる。ここで、γは、0<γ≦1のパラメータで、割引率と呼ばれる。また、αは、学習係数で、0<α≦1の範囲とする。
上述した数式3は、試行aの結果、返ってきた報酬rt+1を元に、状態sにおける行動aの価値関数Q(s,a)を更新する方法を表している。
この更新式は、状態sにおける行動aの価値関数Q(s,a)よりも、行動aによる次の状態st+1における最良の行動の価値max Q(st+1,a)の方が大きければ、Q(s,a)を大きくし、逆に小さければ、Q(s,a)を小さくすることを示している。つまり、或る状態における或る行動の価値を、それによる次の状態における最良の行動の価値に近づける。ただし、その差は、割引率γと報酬rt+1のあり方により変わってくるが、基本的には、ある状態における最良の行動の価値が、それに至る一つ前の状態における行動の価値に伝播していく仕組みになっている。
ここで、Q学習では、すべての状態行動ペア(s,a)についての価値関数Q(s,a)のテーブルを作成して、学習を行う方法がある。しかし、すべての状態行動ペアの価値関数Q(s,a)の値を求めるには状態数が多すぎて、Q学習が収束するのに多くの時間を要してしまう場合がある。
そこで、公知のDQN(Deep Q-Network)と呼ばれる技術を利用するようにしてもよい。具体的には、価値関数Qを適当なニューラルネットワークを用いて構成し、ニューラルネットワークのパラメータを調整することにより、価値関数Qを適当なニューラルネットワークで近似することにより価値関数Q(s,a)の値を算出するようにしてもよい。DQNを利用することにより、Q学習が収束するのに要する時間を短くすることが可能となる。なお、DQNについては、例えば、以下の非特許文献に詳細な記載がある。
<非特許文献>
「Human-level control through deep reinforcement learning」、Volodymyr Mnih1著[online]、[平成29年1月17日検索]、インターネット〈URL:http://files.davidqiu.com/research/nature14236.pdf〉
以上説明をしたQ学習を機械学習装置200が行う。具体的には、機械学習装置200は、サーボモータ制御装置100における非線形摩擦補償器111の補正係数c、dの値、並びに評価用プログラムを実行することで取得されるサーボモータ制御装置100の位置偏差情報を含む、指令及びフィードバック等のサーボ状態を状態sとして、当該状態sに係る非線形摩擦補償器111の補正係数c、dの調整を行動aとして選択する価値関数Qを学習する。
機械学習装置200は、非線形摩擦補償器111の補正係数c、dに基づいて、評価用プログラムを実行することで得られるサーボモータ制御装置100の位置偏差情報を含む、指令及びフィードバック等のサーボ状態を含む状態情報sを観測して、行動aを決定する。機械学習装置200は、行動aをするたびに報酬が返ってくる。機械学習装置200は、例えば、将来にわたっての報酬の合計が最大になるように最適な行動aを試行錯誤的に探索する。そうすることで、機械学習装置200は、非線形摩擦補償器111の補正係数c、dに基づいて、評価用プログラムを実行することで取得されるサーボモータ制御装置100の位置偏差情報を含む指令、フィードバック等のサーボ状態を含む状態sに対して、最適な行動a(すなわち、非線形摩擦補償器111の最適な補正係数c、d)を選択することが可能となる。
すなわち、機械学習装置200により学習された価値関数Qに基づいて、或る状態sに係る非線形摩擦補償器111の補正係数c、dに対して適用される行動aのうち、Qの値が最大となるような行動aを選択することで、評価用プログラムを実行することで取得される位置偏差が最小になるような行動a(すなわち、非線形摩擦補償器111の補正係数c、dの組み合わせ)を選択することが可能となる。
図10は本発明の第1の実施形態の機械学習装置200を示すブロック図である。
上述した強化学習を行うために、図10に示すように、機械学習装置200は、状態情報取得部201、学習部202、行動情報出力部203、価値関数記憶部204、及び最適化行動情報出力部205を備える。学習部202は報酬出力部2021、価値関数更新部2022、及び行動情報生成部2023を備える。
状態情報取得部201は、サーボモータ制御装置100における非線形摩擦補償器111の補正係数c、dに基づいて、評価用プログラムを実行することで取得されるサーボモータ制御装置100の位置偏差情報を含む指令、フィードバック等のサーボ状態を含む状態sを、サーボモータ制御装置100から取得する。この状態情報sは、Q学習における、環境状態sに相当する。
状態情報取得部201は、取得した状態情報sを学習部202に対して出力する。
なお、最初にQ学習を開始する時点での非線形摩擦補償器111の補正係数c、dは、予めユーザが生成するようにする。本実施形態では、例えばユーザが作成した非線形摩擦補償器111の補正係数c、dの初期設定値を、強化学習により最適なものに調整する。
学習部202は、或る環境状態sの下で、ある行動aを選択する場合の価値関数Q(s,a)を学習する部分である。具体的には、学習部202は、報酬出力部2021、価値関数更新部2022及び行動情報生成部2023を備える。
報酬出力部2021は、或る状態sの下で、行動aを選択した場合の報酬を算出する部分である。ここで、状態sにおける状態変数である位置偏差の集合(位置偏差集合)をPD(s)、行動情報a(非線形摩擦補償器111の補正係数c、dの修正)により状態sから変化した状態情報s´に係る状態変数である位置偏差集合をPD(s´)で示す。また、状態sにおける位置偏差の値を、予め設定された評価関数f(PD(s))に基づいて算出される値とする。
評価関数fとしては、例えば、
位置偏差の絶対値の積算値を算出する関数
∫|e|dt
位置偏差の絶対値に時間の重み付けをして積算値を算出する関数
∫t|e|dt
位置偏差の絶対値の2n(nは自然数)乗の積算値を算出する関数、
∫e2ndt(nは自然数)
位置偏差の絶対値の最大値を算出する関数
Max{|e|}
等を適用することができる。なお、評価関数はこれに限定されない。位置偏差集合PD(s)の基づいて、状態sにおける位置偏差値を適切に評価する関数であればよい。
このとき、行動情報aにより修正された状態情報s´に係る修正後の非線形摩擦補償器111を用いて動作したサーボモータ制御装置100の位置偏差の値f(PD(s´))が、行動情報aにより修正される前の状態情報sに係る修正前の非線形摩擦補償器111を用いて動作したサーボモータ制御装置100の位置偏差の値f(PD(s))よりも大きくなった場合に、報酬出力部2021は、報酬の値を負の値とする。
一方で、行動情報aにより修正された状態情報s´に係る修正後の非線形摩擦補償器111を用いて動作したサーボモータ制御装置100の位置偏差の値f(PD(s´))が、行動情報aにより修正される前の状態情報sに係る修正前の非線形摩擦補償器111を用いて動作したサーボモータ制御装置100の位置偏差の値f(PD(s))よりも小さくなった場合に、報酬の値を正の値とする。
なお、行動情報aにより修正された状態情報s´に係る修正後の非線形摩擦補償器111を用いて動作したサーボモータ制御装置100の位置偏差の値f(PD(s´))が、行動情報aにより修正される前の状態情報sに係る非線形摩擦補償器111を用いて動作したサーボモータ制御装置100の位置偏差の値f(PD(s))と等しい場合は、報酬出力部2021は、例えば、報酬の値をゼロとする。
また、行動aを実行後の状態s´の位置偏差の値f(PD(s´))が、前の状態sにおける位置偏差の値f(PD(s))より大きくなった場合の負の値としては、比率に応じて負の値を大きくするようにしてもよい。つまり位置偏差の値が大きくなった度合いに応じて負の値が大きくなるようにするとよい。逆に、行動aを実行後の状態s´の位置偏差の値f(PD(s´))が、前の状態sにおける位置偏差の値f(PD(s))より小さくなった場合の正の値としては、比率に応じて正の値を大きくするようにしてもよい。つまり位置偏差の値が小さくなった度合いに応じて正の値が大きくなるようにするとよい。
価値関数更新部2022は、状態sと、行動aと、行動aを状態sに適用した場合の状態s´と、上記のようにして算出された報酬の値と、に基づいてQ学習を行うことにより、価値関数記憶部204が記憶する価値関数Qを更新する。
価値関数Qの更新は、オンライン学習で行ってもよく、バッチ学習で行ってもよく、ミニバッチ学習で行ってもよい。
オンライン学習とは、或る行動aを現在の状態sに適用することにより、状態sが新たな状態s´に遷移する都度、即座に価値関数Qの更新を行うという学習方法である。また、バッチ学習とは、或る行動aを現在の状態sに適用することにより、状態sが新たな状態s´に遷移することを繰り返すことにより、学習用のデータを収集し、収集した全ての学習用データを用いて、価値関数Qの更新を行うという学習方法である。更に、ミニバッチ学習とは、オンライン学習と、バッチ学習の中間的な、ある程度学習用データが溜まるたびに価値関数Qの更新を行うという学習方法である。
行動情報生成部2023は、現在の状態sに対して、Q学習の過程における行動aを選択する。行動情報生成部2023は、Q学習の過程において、サーボモータ制御装置100の非線形摩擦補償器111の各補正係数c、dを修正する動作(Q学習における行動aに相当)を行わせるために、行動情報aを生成して、生成した行動情報aを行動情報出力部203に対して出力する。より具体的には、行動情報生成部2023は、例えば、状態sに含まれる非線形摩擦補償器111の各補正係数に対して行動aに含まれる、非線形摩擦補償器111の各補正係数c、dをインクレメンタルに加算又は減算させる。
そして、行動情報生成部2023は、非線形摩擦補償器111の各補正係数c、dの増加又は減少を適用して、状態s´に遷移して、プラスの報酬(正の値の報酬)が返った場合、次の行動a´としては、非線形摩擦補償器111の各補正係数c、dに対して、前回のアクションと同様にインクレメンタルに加算又は減算させる等、位置偏差の値がより小さくなるような行動a´を選択する方策を取るようにしてもよい。
また、逆に、マイナスの報酬(負の値の報酬)が返った場合、行動情報生成部2023は、次の行動a´としては、例えば、非線形摩擦補償器111の各補正係数c、dに対して、前回のアクションとは逆にインクレメンタルに減算又は加算させる等、位置偏差が前回の値よりも小さくなるような行動a´を選択する方策を取るようにしてもよい。
また、行動情報生成部2023は、現在の推定される行動aの価値の中で、最も価値関数Q(s,a)の高い行動a´を選択するグリーディ法や、ある小さな確率εでランダムに行動a´選択し、それ以外では最も価値関数Q(s,a)の高い行動a´を選択するεグリーディ法といった公知の方法により、行動a´を選択する方策を取るようにしてもよい。
行動情報出力部203は、学習部202から出力される行動情報aをサーボモータ制御装置100に対して送信する部分である。サーボモータ制御装置100は上述したように、この行動情報に基づいて、現在の状態s、すなわち現在設定されている非線形摩擦補償器111の各補正係数c、dを微修正することで、次の状態s´(すなわち修正された、非線形摩擦補償器111の各補正係数)に遷移する。
価値関数記憶部204は、価値関数Qを記憶する記憶装置である。価値関数Qは、例えば状態s、行動a毎にテーブル(以下、行動価値テーブルと呼ぶ)として格納してもよい。価値関数記憶部204に記憶された価値関数Qは、価値関数更新部2022により更新される。また、価値関数記憶部204に記憶された価値関数Qは、他の機械学習装置200との間で共有されるようにしてもよい。価値関数Qを複数の機械学習装置200で共有するようにすれば、各機械学習装置200にて分散して強化学習を行うことが可能となるので、強化学習の効率を向上させることが可能となる。
最適化行動情報出力部205は、価値関数更新部2022がQ学習を行うことにより更新した価値関数Qに基づいて、価値関数Q(s,a)が最大となる動作を非線形摩擦補償器111に行わせるための行動情報a(以下、「最適化行動情報」と呼ぶ)を生成する。
より具体的には、最適化行動情報出力部205は、価値関数記憶部204が記憶している価値関数Qを取得する。この価値関数Qは、上述したように価値関数更新部2022がQ学習を行うことにより更新したものである。そして、最適化行動情報出力部205は、価値関数Qに基づいて、行動情報を生成し、生成した行動情報をサーボモータ制御装置100(非線形摩擦補償器111)に対して出力する。この最適化行動情報には、行動情報出力部203がQ学習の過程において出力する行動情報と同様に、非線形摩擦補償器111の各補正係数c、dを修正する情報が含まれる。
サーボモータ制御装置100では、この行動情報に基づいて非線形摩擦補償器111の各補正係数c、dが修正され、位置偏差の値を低減するように動作することができる。
以上のように、本発明に係る機械学習装置200を利用することで、サーボモータ制御装置100の非線形摩擦補償器111のパラメータ調整を簡易化することができる。
以上、サーボモータ制御装置100、機械学習装置200に含まれる機能ブロックについて説明した。
これらの機能ブロックを実現するために、サーボモータ制御装置100、及び機械学習装置200のそれぞれは、CPU(Central Processing Unit)等の演算処理装置を備える。また、サーボモータ制御装置100、及び機械学習装置200のそれぞれは、アプリケーションソフトウェアやOS(Operating System)等の各種の制御用プログラムを格納したHDD(Hard Disk Drive)等の補助記憶装置や、演算処理装置がプログラムを実行する上で一時的に必要とされるデータを格納するためのRAM(Random Access Memory)といった主記憶装置も備える。
そして、サーボモータ制御装置100、及び機械学習装置200のそれぞれにおいて、演算処理装置が補助記憶装置からアプリケーションソフトウェアやOSを読み込み、読み込んだアプリケーションソフトウェアやOSを主記憶装置に展開させながら、これらのアプリケーションソフトウェアやOSに基づいた演算処理を行なう。また、この演算結果に基づいて、各装置が備える各種のハードウェアを制御する。これにより、本実施形態の機能ブロックは実現される。つまり、本実施形態は、ハードウェアとソフトウェアが協働することにより実現することができる。
機械学習装置200については機械学習に伴う演算量が多いため、例えば、パーソナルコンピュータにGPU(Graphics Processing Units)を搭載し、GPGPU(General-Purpose computing on Graphics Processing Units)と呼ばれる技術により、GPUを機械学習に伴う演算処理に利用するようにすると高速処理できるようになるのでよい。更には、より高速な処理を行うために、このようなGPUを搭載したコンピュータを複数台用いてコンピュータ・クラスターを構築し、このコンピュータ・クラスターに含まれる複数のコンピュータにて並列処理を行うようにしてもよい。
次に、図11のフローチャートを参照して本実施形態におけるQ学習時の機械学習装置200の動作について説明をする。なお、ここでは加工形状が円形である場合について説明するが、加工形状は四角形であってよく、加工形状が円形及び四角形等の場合を順番に学習していってもよい。
ステップS11において、状態情報取得部201がサーボモータ制御装置100から状態情報sを取得する。取得した状態情報は、価値関数更新部2022や行動情報生成部2023に対して出力される。上述したように、この状態情報sは、Q学習における状態に相当する情報であり、ステップS11時点での、非線形摩擦補償器111の各補正係数c、dが含まれる。こうして、非線形摩擦補償器111から補正係数が初期値であるときの、円形の加工形状に対応する位置偏差の集合PD(s)が取得される。
なお、前述したように、初期状態sにおける非線形摩擦補償器111の補正係数c、dはユーザにより初期設定される。
最初にQ学習を開始する時点での減算器102から状態sにおける位置偏差の値PD(s)は、評価用プログラムでサーボモータ制御装置100を動作させることで得られる。位置指令作成部101は、評価用プログラムにより指定された円形の加工形状で位置指令を順次出力する。円形の加工形状に対応する位置指令値が位置指令作成部101から出力され、減算器102は位置指令値と積分器108から出力される検出位置との差を位置偏差PD(s)として機械学習装置200に出力する。
ステップS12において、行動情報生成部2023は新たな行動情報aを生成し、生成した新たな行動情報aを、行動情報出力部203を介してサーボモータ制御装置100に対して出力する。行動情報生成部2023は前述した方策に基づいて、新たな行動情報aを出力する。なお、行動情報aを受信したサーボモータ制御装置100は、受信した行動情報に基づいて現在の状態sに係る非線形摩擦補償器111の各補正係数c、dを修正した状態s´により、サーボモータを含む工作機械を駆動させる。上述したように、この行動情報は、Q学習における行動aに相当するものである。
ステップS13において、状態情報取得部201は、減算器102から新たな状態s´における位置偏差PD(s´)、及び非線形摩擦補償器111から補正係数c、dを取得する。こうして、状態情報取得部201は、非線形摩擦補償器111から状態s´における補正係数c、dであるときの、円形の加工形状に対応する位置偏差の集合PD(s´)を取得する。取得した状態情報は、報酬出力部2021に対して出力される。
ステップS14において、報酬出力部2021は、状態s´における位置偏差の値f(PD(s´))と状態sにおける位置偏差の値f(PD(s))との大小関係を判断し、f(PD(s´))>f(PD(s))の場合には、ステップS15において、報酬を負の値とする。f(PD(s´))<f(PD(s))の場合には、ステップS16において、報酬を正の値とする。f(PD(s´))=f(PD(s))の場合には、ステップS17において、報酬をゼロとする。なお、報酬の負の値、正の値について重みづけを行うようにしてもよい。
ステップS15、ステップS16及びステップS17の何れかが終了すると、ステップS18において、この何れかのステップにて算出された報酬の値に基づいて、価値関数更新部2022が、価値関数記憶部204に記憶している価値関数Qを更新する。そして、再度ステップS11に戻り、上述した処理を繰り返すことにより、価値関数Qは適切な値に収束していく。なお、上述した処理を、所定回数繰り返したことや、所定時間繰り返したことを条件として処理を終了するようにしてもよい。
なお、ステップS18はオンライン更新を例示しているが、オンライン更新に替えてバッチ更新又はミニバッチ更新に置き換えてもよい。
以上、図11を参照して説明した動作により、本実施形態では、機械学習装置200を利用することで、非線形摩擦補償器111の補正係数c、dの調整のための、適切な価値関数を得ることができ、フィードフォワードの補正係数c、dの最適化を簡易化することができる、という効果を奏する。
次に、図12のフローチャートを参照して、最適化行動情報出力部205による最適化行動情報の生成時の動作について説明をする。
まず、ステップS21において、最適化行動情報出力部205は、価値関数記憶部204に記憶している価値関数Qを取得する。価値関数Qは、上述したように価値関数更新部2022がQ学習を行うことにより更新したものである。
ステップS22において、最適化行動情報出力部205は、この価値関数Qに基づいて、最適化行動情報を生成し、生成した最適化行動情報をサーボモータ制御装置100の非線形摩擦補償器111に対して出力する。
また、図12を参照して説明した動作により、本実施形態では、機械学習装置200により学習することにより求められる価値関数Qに基づいて、最適化行動情報を生成し、サーボモータ制御装置100が、この最適化行動情報に基づいて、現在設定されている非線形摩擦補償器111の補正係数c、dの調整を簡易化するとともに、位置偏差の値を低減することができる。
以下、本実施形態の機械学習装置による効果について図13及び図14を用いて説明する。
図5に示したように、制御対象に含まれるテーブルがX軸方向又はY軸方向に正弦波状に移動する場合、機械学習による非線形摩擦補償器111のパラメータ調整前は、図13に示すように、サーボモータの回転方向が反転しようとした時に、位置指令作成部101で設定される、破線で示す正弦波状のテーブルの移動軌跡に対して、非線形摩擦のために実線で示す移動軌跡のように反転遅れが生じ、テーブルはすぐには反転移動しない。機械学習による非線形摩擦補償器111のパラメータ調整後は、図14に示すように、非線形摩擦による反転遅れは解消されて、実線で示すように、テーブルは正弦波状の移動軌跡で移動する。図13及び図14における矢印は反転位置を示している。
図6に示したように、制御対象に含まれるテーブルがX軸方向又はY軸方向に三角波状に移動する場合においても、正弦波状に移動する場合と同様に、サーボモータの回転方向が反転しようとした時に、位置指令作成部101で設定される、三角波状のテーブルの移動軌跡に対して、非線形摩擦のために反転遅れが生じ、テーブルはすぐには反転移動しない。しかし、機械学習による非線形摩擦補償器111のパラメータ調整後は、非線形摩擦による反転遅れは解消されて、テーブルは三角波状の移動軌跡で移動する。
上記のサーボモータ制御装置のサーボモータ制御部及び機械学習装置に含まれる各構成部は、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。また、上記のサーボモータ制御装置に含まれる各構成部のそれぞれの協働により行なわれるサーボモータ制御方法も、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。ここで、ソフトウェアによって実現されるとは、コンピュータがプログラムを読み込んで実行することにより実現されることを意味する。
プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えば、ハードディスクドライブ)、光磁気記録媒体(例えば、光磁気ディスク)、CD−ROM(Read Only Memory)、CD−R、CD−R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。
上述した実施形態は、本発明の好適な実施形態ではあるが、上記実施形態のみに本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において種々の変更を施した形態での実施が可能である。
<速度フィードフォワード計算部110をオプションとする場合>
上述した実施形態において、サーボモータ制御装置100は、速度フィードフォワード計算部110を備え、非線形摩擦補償器111を速度フィードフォワード計算部110に並列に接続される構成としたが、これに限定されない。速度フィードフォワード計算部110はオプションとして、サーボモータ制御装置100は、速度フィードフォワード計算部110を備えていないようにしてもよい。
<サーボモータ制御装置が機械学習装置を備える変形例>
上述した実施形態では、機械学習装置200を、サーボモータ制御装置100とは別体の装置により構成したが、機械学習装置200の機能の一部又は全部をサーボモータ制御装置100により実現するようにしてもよい。
<システム構成の自由度>
上述した実施形態では、機械学習装置200とサーボモータ制御装置100とが1対1の組として通信可能に接続されているが、例えば1台の機械学習装置200が複数のサーボモータ制御装置100とネットワーク400を介して通信可能に接続され、各サーボモータ制御装置100の機械学習を実施するようにしてもよい。
その際、機械学習装置200の各機能を、適宜複数のサーバに分散する、分散処理システムとしてもよい。また、クラウド上で仮想サーバ機能等を利用して、機械学習装置200の各機能を実現してもよい。
また、複数の同じ型名、同一仕様、又は同一シリーズのサーボモータ制御装置100−1〜100−nとそれぞれ対応する複数の機械学習装置200−1〜200−nがあった場合に、各機械学習装置200−1〜200−nにおける学習結果を共有するように構成するようにしてもよい。そうすることで、より最適なモデルを構築することが可能となる。
10 サーボモータ制御システム
100 サーボモータ制御装置
101 位置指令作成部
102 減算器
103 位置制御部
104 加算器
105 減算器
106 速度制御部
107 加算器
108 積分器
109 位置フィードフォワード計算部
110 速度フィードフォワード計算部
111 非線形摩擦補償器
200 機械学習装置
201 状態情報取得部
202 学習部
203 行動情報出力部
204 価値関数記憶部
205 最適化行動情報出力部
300 制御対象
400 ネットワーク

Claims (9)

  1. 位置指令に基づいて非線形摩擦に対する補正値を作成する非線形摩擦補償手段を備える、サーボモータ制御装置に対して、機械学習を行う機械学習装置であって、
    所定のプログラムを前記サーボモータ制御装置に実行させることにより、少なくとも位置偏差を含むサーボ状態と、前記非線形摩擦補償手段の補正係数の組み合わせと、を含む状態情報を、前記サーボモータ制御装置から取得する状態情報取得手段と、
    前記状態情報に含まれる前記補正係数の組み合わせの調整情報を含む行動情報を前記サーボモータ制御装置に出力する行動情報出力手段と、
    前記状態情報に含まれる前記位置偏差に基づく、強化学習における報酬の値を出力する報酬出力手段と、
    前記報酬出力手段により出力される報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新手段と、
    を備える機械学習装置。
  2. 前記報酬出力手段は、前記位置偏差の絶対値に基づいて前記報酬の値を出力する請求項1に記載の機械学習装置。
  3. 前記サーボモータ制御装置は、前記位置指令に基づいて速度フィードフォワード値を作成する速度フィードフォワード計算手段をさらに有し、前記非線形摩擦補償手段は前記速度フィードフォワード計算手段に並列に接続されている、請求項1又は2に記載の機械学習装置。
  4. 前記価値関数更新手段により更新された価値関数に基づいて、前記非線形摩擦補償手段の補正係数の組み合わせを生成して出力する最適化行動情報出力手段をさらに備えた請求項1から3のいずれか1項に記載の機械学習装置。
  5. 請求項1から請求項4のいずれか1項に記載の機械学習装置と、非線形摩擦に対する補正値を作成する非線形摩擦補償手段を有するサーボモータ制御装置と、を備えたサーボモータ制御システム。
  6. 前記サーボモータ制御装置は、位置指令に基づいて速度フィードフォワード値を作成する速度フィードフォワード計算手段をさらに有し、前記非線形摩擦補償手段は前記速度フィードフォワード計算手段に並列に接続されている、請求項5に記載のサーボモータ制御システム。
  7. 請求項1から請求項4のいずれか1項に記載の機械学習装置と、非線形摩擦に対する補正値を作成する非線形摩擦補償手段と、を備えたサーボモータ制御装置。
  8. 位置指令に基づいて速度フィードフォワード値を作成する速度フィードフォワード計算手段をさらに備え、前記非線形摩擦補償手段は前記速度フィードフォワード計算手段に並列に接続されている、請求項7に記載のサーボモータ制御装置。
  9. 位置指令に基づいて非線形摩擦に対する補正値を作成する非線形摩擦補償手段を備える、サーボモータ制御装置に対して、機械学習を行う機械学習装置の機械学習方法であって、
    所定のプログラムを前記サーボモータ制御装置に実行させることにより、少なくとも位置偏差を含むサーボ状態と、前記非線形摩擦補償手段の補正係数の組み合わせと、を含む状態情報を、前記サーボモータ制御装置から取得し、
    前記状態情報に含まれる前記補正係数の組み合わせの調整情報を含む行動情報を前記サーボモータ制御装置に出力し、
    前記状態情報に含まれる前記位置偏差に基づく、強化学習における報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する、機械学習方法。
JP2017138949A 2017-07-18 2017-07-18 機械学習装置、サーボモータ制御装置、サーボモータ制御システム、及び機械学習方法 Active JP6538766B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2017138949A JP6538766B2 (ja) 2017-07-18 2017-07-18 機械学習装置、サーボモータ制御装置、サーボモータ制御システム、及び機械学習方法
US16/021,447 US10418921B2 (en) 2017-07-18 2018-06-28 Machine learning device, servo motor control device, servo motor control system, and machine learning method
DE102018211148.0A DE102018211148A1 (de) 2017-07-18 2018-07-06 Maschinenlernvorrichtung, servomotor- regeleinrichtung, servomotor-regelsystem und maschinenlernverfahren
CN201810771452.8A CN109274314B (zh) 2017-07-18 2018-07-13 机器学习装置、伺服电动机控制装置、伺服电动机控制***以及机器学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017138949A JP6538766B2 (ja) 2017-07-18 2017-07-18 機械学習装置、サーボモータ制御装置、サーボモータ制御システム、及び機械学習方法

Publications (2)

Publication Number Publication Date
JP2019021024A true JP2019021024A (ja) 2019-02-07
JP6538766B2 JP6538766B2 (ja) 2019-07-03

Family

ID=64951961

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017138949A Active JP6538766B2 (ja) 2017-07-18 2017-07-18 機械学習装置、サーボモータ制御装置、サーボモータ制御システム、及び機械学習方法

Country Status (4)

Country Link
US (1) US10418921B2 (ja)
JP (1) JP6538766B2 (ja)
CN (1) CN109274314B (ja)
DE (1) DE102018211148A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020187489A (ja) * 2019-05-13 2020-11-19 株式会社東芝 制御装置、制御方法、及びモータ制御システム
JP2020198657A (ja) * 2019-05-30 2020-12-10 国立大学法人長岡技術科学大学 モータ制御装置、モータ装置および機械学習装置
DE102020210730A1 (de) 2019-09-03 2021-07-15 Fanuc Corporation Maschinenlernvorrichtung, empfangsvorrichtung und maschinenlernverfahren

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6544219B2 (ja) * 2015-11-30 2019-07-17 オムロン株式会社 制御装置
JP6474449B2 (ja) * 2017-04-07 2019-02-27 ファナック株式会社 調整装置及び調整方法
JP6646025B2 (ja) * 2017-09-15 2020-02-14 ファナック株式会社 制御装置及び機械学習装置
JP6748135B2 (ja) * 2018-03-19 2020-08-26 ファナック株式会社 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法
JP6982557B2 (ja) * 2018-08-31 2021-12-17 株式会社日立製作所 報酬関数の生成方法及び計算機システム
WO2020075316A1 (ja) * 2018-10-12 2020-04-16 三菱電機株式会社 位置決め制御装置及び位置決め方法
JP7000359B2 (ja) 2019-01-16 2022-01-19 ファナック株式会社 判定装置
JP6978452B2 (ja) * 2019-02-12 2021-12-08 ファナック株式会社 機械学習装置、制御装置、及び機械学習の探索範囲の設定方法
JP7000371B2 (ja) * 2019-03-22 2022-01-19 ファナック株式会社 機械学習装置、制御システム及び機械学習方法
JP2021002194A (ja) * 2019-06-21 2021-01-07 ファナック株式会社 数値制御装置、cnc工作機械、数値制御方法及び数値制御用プログラム
CN112083687B (zh) * 2020-09-11 2021-06-11 苏州浩智工业控制技术有限公司 基于现场总线的速度前馈的过象限补偿方法及装置
CN112828678B (zh) * 2021-02-09 2022-03-18 蓝思智能机器人(长沙)有限公司 速度补偿方法、装置和电子设备
CN113325804B (zh) * 2021-06-08 2022-03-29 中国科学院数学与***科学研究院 一种运动控制***的q学习扩张状态观测器设计方法
CN113472242B (zh) * 2021-07-05 2022-07-15 江南大学 基于多智能体的抗干扰自适应模糊滑模协同控制方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005071034A (ja) * 2003-08-22 2005-03-17 Mitsubishi Electric Corp サーボ制御装置
JP2010009529A (ja) * 2008-06-30 2010-01-14 Fanuc Ltd サーボモータの駆動制御装置及び駆動制御方法
JP2013003845A (ja) * 2011-06-16 2013-01-07 Institute Of National Colleges Of Technology Japan 組み込み知能コントローラ、制御システム、制御プログラム、記録媒体、及び制御方法
JP2017033138A (ja) * 2015-07-30 2017-02-09 ファナック株式会社 工作機械、シミュレーション装置、及び機械学習器
JP2017102613A (ja) * 2015-11-30 2017-06-08 ファナック株式会社 機械の送り軸の送りの滑らかさを最適化する機械学習装置および方法ならびに該機械学習装置を備えたモータ制御装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3465236B2 (ja) * 2000-12-20 2003-11-10 科学技術振興事業団 ロバスト強化学習方式
US7437201B2 (en) * 2003-01-14 2008-10-14 Cullen Christopher P Electric motor controller
JP3917094B2 (ja) 2003-03-17 2007-05-23 山洋電気株式会社 モータの制御方法及び装置
JP5340423B2 (ja) * 2010-01-27 2013-11-13 三菱電機株式会社 モータ制御装置
JP6214948B2 (ja) 2013-07-12 2017-10-18 三菱重工業株式会社 摩擦補償装置及び摩擦補償方法並びにサーボ制御装置
JP6020537B2 (ja) 2014-11-21 2016-11-02 株式会社安川電機 モータ制御装置及びモータ制御方法
CN105045103B (zh) * 2015-07-27 2018-06-29 台州学院 一种基于LuGre摩擦模型伺服机械手摩擦补偿控制***及方法
JP6106226B2 (ja) * 2015-07-31 2017-03-29 ファナック株式会社 ゲインの最適化を学習する機械学習装置及び機械学習装置を備えた電動機制御装置並びに機械学習方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005071034A (ja) * 2003-08-22 2005-03-17 Mitsubishi Electric Corp サーボ制御装置
JP2010009529A (ja) * 2008-06-30 2010-01-14 Fanuc Ltd サーボモータの駆動制御装置及び駆動制御方法
JP2013003845A (ja) * 2011-06-16 2013-01-07 Institute Of National Colleges Of Technology Japan 組み込み知能コントローラ、制御システム、制御プログラム、記録媒体、及び制御方法
JP2017033138A (ja) * 2015-07-30 2017-02-09 ファナック株式会社 工作機械、シミュレーション装置、及び機械学習器
JP2017102613A (ja) * 2015-11-30 2017-06-08 ファナック株式会社 機械の送り軸の送りの滑らかさを最適化する機械学習装置および方法ならびに該機械学習装置を備えたモータ制御装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020187489A (ja) * 2019-05-13 2020-11-19 株式会社東芝 制御装置、制御方法、及びモータ制御システム
JP7384572B2 (ja) 2019-05-13 2023-11-21 株式会社東芝 制御装置、制御方法、及びモータ制御システム
JP2020198657A (ja) * 2019-05-30 2020-12-10 国立大学法人長岡技術科学大学 モータ制御装置、モータ装置および機械学習装置
DE102020210730A1 (de) 2019-09-03 2021-07-15 Fanuc Corporation Maschinenlernvorrichtung, empfangsvorrichtung und maschinenlernverfahren

Also Published As

Publication number Publication date
JP6538766B2 (ja) 2019-07-03
US20190028043A1 (en) 2019-01-24
US10418921B2 (en) 2019-09-17
CN109274314A (zh) 2019-01-25
CN109274314B (zh) 2020-04-21
DE102018211148A1 (de) 2019-01-24

Similar Documents

Publication Publication Date Title
JP6538766B2 (ja) 機械学習装置、サーボモータ制御装置、サーボモータ制御システム、及び機械学習方法
JP6490127B2 (ja) 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法
JP6499720B2 (ja) 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法
JP6748135B2 (ja) 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法
US10824121B2 (en) Machine learning device, servo motor controller, servo motor control system, and machine learning method
JP6474456B2 (ja) 機械学習装置、サーボ制御システム及び機械学習方法
JP6740277B2 (ja) 機械学習装置、制御装置、及び機械学習方法
JP6474449B2 (ja) 調整装置及び調整方法
US11087509B2 (en) Output device, control device, and evaluation function value output method
JP6740278B2 (ja) 機械学習装置、制御装置、及び機械学習方法
JP6740279B2 (ja) 調整装置及び調整方法
JP2020177257A (ja) 機械学習装置、制御装置及び機械学習方法
CN112445181A (zh) 机器学习装置、伺服控制装置、伺服控制***以及机器学习方法
JP6978452B2 (ja) 機械学習装置、制御装置、及び機械学習の探索範囲の設定方法
CN111722530B (zh) 机器学习装置、控制***以及机器学习方法
JP6740263B2 (ja) 機械学習装置、サーボモータ制御装置、サーボモータ制御システム、及び機械学習方法
JP6740290B2 (ja) 機械学習装置、制御装置、及び機械学習方法
WO2021210483A1 (ja) 機械学習装置、制御装置及び機械学習方法

Legal Events

Date Code Title Description
A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20181211

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20190215

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190417

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190606

R150 Certificate of patent or registration of utility model

Ref document number: 6538766

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150