JP2019021024A

JP2019021024A - 機械学習装置、サーボモータ制御装置、サーボモータ制御システム、及び機械学習方法

Info

Publication number: JP2019021024A
Application number: JP2017138949A
Authority: JP
Inventors: 勇作於保; Yusaku Obo; 直人園田; Naoto Sonoda
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2017-07-18
Filing date: 2017-07-18
Publication date: 2019-02-07
Anticipated expiration: 2037-07-18
Also published as: JP6538766B2; US20190028043A1; US10418921B2; CN109274314A; CN109274314B; DE102018211148A1

Abstract

【課題】反転動作時のサーボ系の応答性を改善する。【解決手段】位置指令に基づいて非線形摩擦に対する補正値を作成する非線形摩擦補償器１１１を備える、サーボモータ制御装置１００に対して、機械学習を行う機械学習装置２００であって、所定のプログラムをサーボモータ制御装置に実行させることにより、少なくとも位置偏差を含むサーボ状態と、非線形摩擦補償手段の補正係数の組み合わせと、を含む状態情報を、サーボモータ制御装置から取得する状態情報取得部２０１と、状態情報に含まれる補正係数の組み合わせの調整情報を含む行動情報をサーボモータ制御装置に出力する行動情報出力部２０３と、状態情報に含まれる位置偏差に基づく、強化学習における報酬の値を出力する報酬出力部２０２１と、報酬出力部により出力される報酬の値と、状態情報と、行動情報とに基づいて行動価値関数を更新する価値関数更新部２０２２と、を備える。【選択図】図１０

Description

本発明は、非線形摩擦に対する補正を行うサーボモータ制御装置に対して、非線形摩擦の補正における補正係数に関する学習を行う機械学習装置、この機械学習装置を含むサーボモータ制御装置とサーボモータ制御システム、及び機械学習方法に関する。

従来のサーボモータ制御装置は、例えば、特許文献１に記載されたモータ制御装置、特許文献２に記載されたサーボ制御装置及び特許文献３に記載されたモータ制御装置が知られている。

特許文献１に記載されたモータ制御装置は、位置指令に基づいて位置偏差を少なくするための速度フィードフォワード指令を生成する速度フィードフォワード制御部と、位置指令に基づいて位置偏差を少なくするためのトルクフィードフォワード指令を生成するトルクフィードフォワード制御部とを有している。

特許文献２に記載されたサーボ制御装置は、位置指令に基づいてフィードフォワード指令を生成するフィードフォワード補償器を有している。また、特許文献２に記載されたサーボ制御装置は、工作機械における摩擦の影響による制御誤差を補償するための摩擦補償装置を有している。

特許文献３に記載されたモータ制御装置は、外乱オブザーバにより推定された摩擦トルクとトルク指令とに基づいてスティックモーションを補償し、速度指令に基づいてロストモーションを補償するための補償算出部を有している。

特開２０１６−１０１０１７号公報特開２０１５−０１８４９６号公報特開２００４−２８０５６５号公報

サーボモータ制御装置における、サーボモータの反転動作時の制御偏差の要因は、サーボ系の応答遅れ、機械系の弾性変形、及び摩擦の影響が考えられる。摩擦のうち、特に非線形摩擦の影響は大きく、これを補正することはサーボ性能向上において重要である。
本発明は、非線形摩擦の補償を行い、サーボモータの反転動作時のサーボ系の応答性を改善する、機械学習装置、サーボモータ制御装置、サーボモータ制御システム、及び機械学習方法を提供することを目的とする。

（１）本発明に係る機械学習装置（例えば、後述の機械学習装置２００）は、位置指令に基づいて非線形摩擦に対する補正値を作成する非線形摩擦補償手段（例えば、後述の非線形摩擦補償器１１１）を備える、サーボモータ制御装置（例えば、後述のサーボモータ制御装置１００）に対して、機械学習を行う機械学習装置であって、
所定のプログラムを前記サーボモータ制御装置に実行させることにより、少なくとも位置偏差を含むサーボ状態と、前記非線形摩擦補償手段の補正係数の組み合わせと、を含む状態情報を、前記サーボモータ制御装置から取得する状態情報取得手段（例えば、後述の状態情報取得部２０１）と、
前記状態情報に含まれる前記補正係数の組み合わせの調整情報を含む行動情報を前記サーボモータ制御装置に出力する行動情報出力手段（例えば、後述の行動情報出力部２０３）と、
前記状態情報に含まれる前記位置偏差に基づく、強化学習における報酬の値を出力する報酬出力手段（例えば、後述の報酬出力部２０２１）と、
前記報酬出力手段により出力される報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新手段（例えば、後述の価値関数更新部２０２２）と、
を備える機械学習装置である。

（２）上記（１）のサーボモータ制御装置において、前記報酬出力手段は、前記位置偏差の絶対値に基づいて前記報酬の値を出力してもよい。

（３）上記（１）又は（２）のサーボモータ制御装置において、前記サーボモータ制御装置は、前記位置指令に基づいて速度フィードフォワード値を作成する速度フィードフォワード計算手段（例えば、後述の速度フィードフォワード計算部１１０）をさらに有し、前記非線形摩擦補償手段は前記速度フィードフォワード計算手段に並列に接続されていてもよい。

（４）上記（１）から（３）のいずれかのサーボモータ制御装置において、前記価値関数更新手段により更新された価値関数に基づいて、前記非線形摩擦補償手段の補正係数の組み合わせを生成して出力する最適化行動情報出力手段（例えば、後述の最適化行動情報出力部２０５）をさらに備えてもよい。

（５）本発明に係るサーボモータ制御システムは、上記（１）から（４）のいずれかの機械学習装置（例えば、後述の機械学習装置２００）と、非線形摩擦に対する補正値を作成する非線形摩擦補償手段を有するサーボモータ制御装置（例えば、後述のサーボモータ制御装置１００）と、を備えたサーボモータ制御システムである。

（６）上記（５）のサーボモータ制御システムにおいて、前記サーボモータ制御装置は、位置指令に基づいて速度フィードフォワード値を作成する速度フィードフォワード計算手段（例えば、後述の速度フィードフォワード計算部１１０）をさらに有し、前記非線形摩擦補償手段は速度フィードフォワード計算手段に並列に接続されていてもよい。

（７）本発明に係るサーボモータ制御装置は、上記（１）から（４）のいずれかの機械学習装置と、非線形摩擦に対する補正値を作成する非線形摩擦補償手段と、を備えたサーボモータ制御装置である。

（８）上記（８）のサーボモータ制御装置において、位置指令に基づいて速度フィードフォワード値を作成する速度フィードフォワード計算手段をさらに備え、前記非線形摩擦補償手段は速度フィードフォワード計算手段に並列に接続されていてもよい。

（９）本発明に係る機械学習方法は、位置指令に基づいて非線形摩擦に対する補正値を作成する非線形摩擦補償手段（例えば、後述の非線形摩擦補償器１１１）を備える、サーボモータ制御装置（例えば、後述のサーボモータ制御装置１００）に対して、機械学習を行う機械学習装置（例えば、後述の機械学習装置２００）の機械学習方法であって、
所定のプログラムを前記サーボモータ制御装置に実行させることにより、少なくとも位置偏差を含むサーボ状態と、前記非線形摩擦補償手段の補正係数の組み合わせと、を含む状態情報を、前記サーボモータ制御装置から取得し、
前記状態情報に含まれる前記補正係数の組み合わせの調整情報を含む行動情報を前記サーボモータ制御装置に出力し、
前記状態情報に含まれる前記位置偏差に基づく、強化学習における報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する、機械学習方法である。

本発明によれば、非線形摩擦の補償を行い、サーボモータの反転動作時のサーボ系の応答性を改善することができる。

本発明の第１の実施形態のサーボモータ制御システムを示すブロック図である。本発明の第１の実施形態のサーボモータ制御システムのサーボモータ制御装置と機械学習装置との組、及び制御対象を示すブロック図である。非線形摩擦補正値ｆ(ω)とモータ速度ωとの関係を示す特性図である。制御対象の一例を示すブロック図である。加工形状が円形の場合のサーボモータの動作を説明するための図である。加工形状が四角形の場合のサーボモータの動作を説明するための図である。制御対象に含まれるテーブルがＸ軸方向又はＹ軸方向に正弦波状に移動する状態を示す図である。制御対象に含まれるテーブルがＸ軸方向又はＹ軸方向に三角波状に移動する状態を示す図である。加工形状が星形の場合のサーボモータの動作を説明するための図である。第１の実施形態の機械学習装置を示すブロック図である。機械学習装置の動作を説明するフローチャートである。機械学習装置の最適化行動情報出力部の動作を説明するフローチャートである。機械学習による非線形摩擦補償器のパラメータ調整前のテーブルの移動軌跡を示す図である。機械学習による非線形摩擦補償器のパラメータ調整後のテーブルの移動軌跡を示す図である。

以下、本発明の実施形態について図面を用いて詳細に説明する。
（第１の実施形態）
図１は発明の第１の実施形態のサーボモータ制御システムを示すブロック図である。サーボモータ制御システム１０は、図１に示すように、ｎ台のサーボモータ制御装置１００−１〜１００−ｎ、ｎ台の機械学習装置２００−１〜２００−ｎ、及びネットワーク４００を備えている。なお、ｎは任意の自然数である。

ここで、サーボモータ制御装置１００−１と機械学習装置２００−１とは１対１の組とされて、通信可能に接続されている。サーボモータ制御装置１００−２〜１００−ｎと機械学習装置２００−２〜１００−ｎについてもサーボモータ制御装置１００−１と機械学習装置２００−１と同様に接続される。図１では、サーボモータ制御装置１００−１〜１００−ｎと機械学習装置２００−１〜２００−ｎとのｎ個の組は、ネットワーク４００を介して接続されているが、サーボモータ制御装置１００−１〜１００−ｎと機械学習装置２００−１〜２００−ｎとのｎ個の組は、それぞれの組のサーボモータ制御装置と機械学習装置とが接続インタフェースを介して直接接続されてもよい。これらサーボモータ制御装置１００−１〜１００−ｎと機械学習装置２００−１〜２００−ｎとのｎ個の組は、例えば同じ工場に複数組設置されていてもよく、それぞれ異なる工場に設置されていてもよい。

なお、ネットワーク４００は、例えば、工場内に構築されたＬＡＮ（Local Area Network）や、インターネット、公衆電話網、接続インタフェースを介しての直接接続、或いは、これらの組み合わせである。ネットワーク４００における具体的な通信方式や、有線接続および無線接続のいずれであるか等については、特に限定されない。

図２は本発明の第１の実施形態のサーボモータ制御システムのサーボモータ制御装置と機械学習装置との組、及び制御対象を示すブロック図である。図２のサーボモータ制御装置１００と、機械学習装置２００は例えば、図１に示すサーボモータ制御装置１００−１と機械学習装置２００−１とに対応している。
制御対象３００は例えばサーボモータを含む、工作機械，ロボット，又は産業機械等である。サーボモータ制御装置１００は工作機械，ロボット，又は産業機械等の一部として設けられてもよい。

最初に、サーボモータ制御装置１００について説明する。
図２に示されるように、サーボモータ制御装置１００は、位置指令作成部１０１、減算器１０２、位置制御部１０３、加算器１０４、減算器１０５、速度制御部１０６、加算器１０７、積分器１０８、位置フィードフォワード計算部１０９、速度フィードフォワード計算部１１０、及び非線形摩擦補償器１１１を備えている。

位置指令作成部１０１は図示しない上位制御装置や外部入力装置等から入力されるプログラムに従って、制御対象３００に含まれるサーボモータを動作させるための位置指令値を作成し、作成した位置指令値を減算器１０２と位置フィードフォワード計算部１０９とに出力する。減算器１０２は位置指令値と位置フィードバックされた検出位置との差を求め、その差を位置偏差として、位置制御部１０３に出力するとともに機械学習装置２００に対して送信する。
位置指令作成部１０１は、制御対象３００に含まれるサーボモータを動作させるプログラムに基づいて位置指令値を作成する。制御対象３００は、例えばサーボモータを含む工作機械で、被加工物（ワーク）を搭載するテーブルをＸ軸方向及びＹ軸方向に移動させて加工する場合には、Ｘ軸方向及びＹ軸方向に対してそれぞれ図２に示すサーボモータ制御装置が設けられる。テーブルを３軸以上の方向に移動させる場合には、それぞれの軸方向に対してサーボモータ制御装置が設けられる。
位置指令作成部１０１は、プログラムにより指定される加工形状となるように、サーボモータの速度を変化させるためにパルス周波数を変えて位置指令値を作成する。

位置制御部１０３は、例えば、位置偏差に予め設定されたポジションゲインＫｐを乗じた値を、速度指令値として加算器１０４に出力する。位置フィードフォワード計算部１０９は位置指令値を微分してフィードフォワード係数を掛けた値を、加算器１０４、速度フィードフォワード計算部１１０、及び非線形摩擦補償器１１１に出力する。

加算器１０４は、速度指令値と位置フィードフォワード計算部１０９の出力値とを加算して、フィードフォワード制御された速度指令値として減算器１０５に出力する。減算器１０５は加算器１０４の出力と速度フィードバックされた速度検出値との差を求め、その差を速度偏差として速度制御部１０６に出力する。

速度制御部１０６は、例えば、速度偏差に予め設定された積分ゲインＫ１ｖを乗じて積分した値と、速度偏差に予め設定された比例ゲインＫ２ｖを乗じた値とを加算して、トルク指令値として加算器１０７に出力する。

速度フィードフォワード計算部１１０は、例えば、数式１（以下に数１として示す）で示す伝達関数Ｇｆ（Ｓ）で示される速度フィードフォワード計算処理を行い、その計算結果を第１のトルク補正値として加算器１０７に出力する。速度フィードフォワード計算部１１０の係数ａ_ｉ、ｂ_ｊは、ａ_ｉについては０≦ｉ≦ｍ、ｂ_ｊについては０≦ｊ≦ｎとなる予め設定された定数である。次元ｍ、ｎを予め設定された自然数である。

非線形摩擦補償器１１１は、位置フィードフォワード計算部１０９の出力値に基づいて、制御対象３００で生じた非線形摩擦を補償するための非線形摩擦補正値を、第２のトルク補正値として加算器１０７に出力する。非線形摩擦は例えば、制御対象３００がサーボモータを含む工作機械である場合には、主としてサーボモータ以外の工作機械のボールねじ等で生ずるが、サーボモータにおいても非線形摩擦が生ずる。非線形摩擦補正値ｆ(ω)は、例えば、モータ速度ωと数式２（以下に数２として示す）に示す関係を有し、モータ速度ωを用いて求めることができる。図３は非線形摩擦補正値ｆ(ω)とモータ速度ωとの関係を示す特性図を示している。

後述するように、機械学習装置２００を用いて、数式２における、補正係数ｃ、ｄの組み合わせの最適値が求められる。

加算器１０７は、トルク指令値、速度フィードフォワード計算部１１０の出力値、及び非線形摩擦補償器１１１の出力値を加算して、フィードフォワード制御されたトルク指令値として制御対象３００のサーボモータに出力する。

制御対象３００は速度検出値を出力し、速度検出値は速度フィードバックとして減算器１０５に入力される。速度検出値は積分器１０８で積分されて位置検出値となり、位置検出値は位置フィードバックとして減算器１０２に入力される。
以上のように、サーボモータ制御装置１００は構成される。

次に、サーボモータ制御装置１００により制御される制御対象３００について説明する。
図４は制御対象３００の一例となる、サーボモータを含む工作機械を示すブロック図である。
サーボモータ制御装置１００は、サーボモータ３０２で連結機構３０３を介してテーブル３０４を移動させ、テーブル３０４の上に搭載された被加工物（ワーク）を加工する。連結機構３０３は、サーボモータ３０２に連結されたカップリング３０３１と、カップリング３０３１に固定されるボールねじ３０３３とを有し、ボールねじ３０３３にナット３０３２が螺合されている。サーボモータ３０２の回転駆動によって、ボールねじ３０３３に螺着されたナット３０３２がボールねじ３０３３の軸方向に移動する。非線形摩擦は、カップリング３０３１とボールねじ３０３３とを含む連結機構３０３、ナット３０３２等で生ずるが、サーボモータ３０２においても非線形摩擦が生ずる。

サーボモータ３０２の回転角度位置は、サーボモータ３０２に関連付けられた、位置検出部となるロータリーエンコーダ３０１によって検出され、検出された信号は速度フィードバックとして利用される。検出された信号は積分器１０８で積分することで位置フィードバックとして利用される。なお、ボールねじ３０３３の端部に取り付けられ、ボールねじ３０３３の移動距離を検出するリニアスケール３０５の出力を位置フィードバックとして用いてもよい。

＜機械学習装置２００＞
機械学習装置２００は、予め設定された評価用のプログラム（以下、「評価用プログラム」を実行することで、非線形摩擦補償器１１１の補正係数を学習する。ここで、サーボモータでテーブルをＸ軸方向及びＹ軸方向に移動させて加工する場合には、評価用プログラムにより指定される加工形状は、サーボモータの反転動作を評価するとき、例えば、円形、四角形、又は星形等を用いることができる。
図５は、加工形状が円形の場合のサーボモータの動作を説明するための図である。図６は、加工形状が四角形の場合のサーボモータの動作を説明するための図である。図５及び図６において、被加工物（ワーク）が時計まわりに加工されるようにテーブルが移動する。

サーボモータの反転動作を評価する場合、例えば図７又は図８に示されるように、制御対象３００に含まれるテーブルが、Ｘ軸方向とＹ軸方向との少なくとも一方の方向に正弦波状又は三角波状に移動するように、サーボモータ３０２が制御される。
評価用プログラムは、サーボモータ制御装置１００の位置指令作成部１０１から出力されるパルスの周波数を制御する。この周波数の制御により、テーブルのＸ軸方向又はＹ軸方向の送り速度が制御される。位置指令作成部１０１から出力されるパルスの周波数が高くなるとモータの回転速度が上がり、送り速度が高くなり、パルスの周波数が低くなるとモータの回転速度が低下し、送り速度が低くなる。サーボモータ３０２の回転方向が反転するときにテーブルの移動方向がＸ軸方向又はＹ軸方向について反転する。

加工形状が図５に示す円形の場合は、テーブルが、Ｘ軸方向に図７に示すように正弦波状に移動し、Ｙ軸方向に余弦波状に移動するように、Ｘ軸方向とＹ軸方向のサーボモータが制御される。
図５に示す位置Ａ１では、テーブルをＹ軸方向に移動するサーボモータは回転方向が反転し、テーブルはＹ軸方向に直線反転するように移動する。一方、位置Ａ１で、テーブルをＸ軸方向に移動するサーボモータは位置Ａ１の前後の速度と同じ速度で回転し、テーブルはＸ軸方向に位置Ａ１の前後の速度と同じ速度で移動する。テーブルがＹ軸方向で反転する位置Ａ１は図７で示した正方向の反転位置に対応する。一方、テーブルがＸ軸方向に等速度で移動するテーブルは、図７で示した波形（正弦波）の位相が９０度遅れた又は進んだ波形（余弦波）となり、位置Ａ１は図７で示す、正方向の反転位置と負方向の反転位置との中間の位置に対応する。
図５に示す位置Ａ２では、テーブルをＸ軸方向に移動するサーボモータの動作と、テーブルをＹ軸方向に移動するサーボモータの動作とが逆になるように、各サーボモータが制御される。つまり、位置Ａ２で、テーブルをＸ軸方向に移動するサーボモータは回転方向が反転し、テーブルはＸ軸方向に直線反転するように移動する。一方、位置Ａ２で、テーブルをＹ軸方向に移動するサーボモータは位置Ａ２の前後の速度と同じ速度で回転し、テーブルはＹ軸方向に位置Ａ２の前後の速度と同じ速度で移動する。

加工形状が図６に示す四角形の場合は、テーブルが、Ｘ軸方向に図８に示すように三角波状に移動し、Ｙ軸方向に図８で示した三角波の位相が９０度遅れた又は進んだ三角波状に移動するように、Ｘ軸方向とＹ軸方向のサーボモータが制御される。なお、三角波状にテーブルが移動する場合、正の反転位置から負の反転位置まで、及び負の反転位置から正の反転位置までのサーボモータの回転速度は等速度である。
図６に示す位置Ｂ１では、テーブルをＸ軸方向に移動するサーボモータは回転方向が反転し、テーブルはＸ軸方向に直線反転するように移動する。一方、位置Ｂ１で、テーブルをＹ軸方向に移動するサーボモータは等速度で回転し、テーブルはＹ軸方向に等速度で移動する。テーブルがＸ軸方向で反転する位置Ｂ１は図８で示した負方向の反転位置に対応する。一方、テーブルがＹ軸方向に等速度で移動するテーブルは、図８で示した三角波の位相が９０度遅れた又は進んだ三角波となり、位置Ｂ１は図８で示す、正方向の反転位置と負方向の反転位置との中間の位置に対応する。
図６に示す位置Ｂ２では、テーブルをＸ軸方向に移動するサーボモータの動作と、テーブルをＹ軸方向に移動するサーボモータの動作とが逆になるように、各サーボモータが制御される。つまり、位置Ｂ２で、テーブルをＹ軸方向に移動するサーボモータは回転方向が反転し、テーブルはＹ軸方向に直線反転するように移動する。一方、位置Ｂ２で、テーブルをＸ軸方向に移動するサーボモータは等速度で回転し、テーブルはＸ軸方向に等速度で移動する。

評価用プログラムを実行することで、サーボ制御装置１００の位置指令作成部１０１は順次、円形、又は四角形の加工形状となるように位置指令値を出力する。また、円形又は四角形の加工形状ごとに、送り速度を変更し、複数の送り速度についての影響も学習できるようにする。送り速度は、加工形状の図形の移動途中、例えば四角の加工形状にテーブルを移動させているときに、角を過ぎたときに送り速度を変更してもよい。そうすることで、Ｘ軸方向又はＹ軸方向においてそれぞれ正弦波状又は三角波状に移動する場合に、周波数を高くしたり、周波数を徐々に高くするパターンを学習することができる。

また、加工形状が円形又は四角形の場合は、テーブルをＸ軸方向及びＹ軸方向に移動するサーボモータの一方の回転方向が反転するときに、他方のサーボモータの回転は一定速度になるが、テーブルをＸ軸方向及びＹ軸方向に移動する２つのサーボモータの回転方向がともに反転するような加工形状、例えば図９に示すような星形として、非線形摩擦補償器１１１の補正係数ｃ、ｄの組み合わせを学習してもよい。

図９は加工形状が星形の場合のサーボモータの動作を説明するための図である。加工形状が図９に示すような星形の場合は、星形の４つの「＜」形状の突出し部で、テーブルが、Ｘ軸方向及びＹ軸方向に三角波状に移動するように、Ｘ軸方向とＹ軸方向のサーボモータが制御される。
星形の４つの「＜」形状の突出し部の頂点、例えば、図９に示す位置Ｃ１で、テーブルをＸ軸方向に移動するサーボモータは回転方向が反転し、テーブルはＸ軸方向に直線反転するように移動する。同様に、位置Ｃ１で、テーブルをＹ軸方向に移動するサーボモータは回転方向が反転し、テーブルはＹ軸方向に直線反転するように移動する。よって、テーブルをＸ軸方向及びＹ軸方向に移動する２つのサーボモータの回転方向がともに反転する場合のサーボモータの反転動作を評価することができる。

なお、図７に示す星形の加工形状において、４つの凹部の頂点では、加工形状が図６に示す四角形の場合と同様に、Ｘ軸方向とＹ軸方向のうちの一方の方向に移動するサーボモータは回転方向が反転し、他方の方向に移動するサーボモータは等速度で回転する動作を評価することができる。例えば、図９に示す位置Ｃ２では、テーブルをＸ軸方向に移動するサーボモータは回転方向が反転し、テーブルはＸ軸方向に直線反転するように移動する。一方、位置Ｂ１で、テーブルをＹ軸方向に移動するサーボモータは等速度で回転し、テーブルはＹ軸方向に等速度で移動する。

次に、機械学習装置２００の構成について説明する。
機械学習装置２００は、評価用プログラムに基づいて制御対象３００を駆動させたときの、位置偏差を低減するための、非線形摩擦補償器１１１の補正係数ｃ、ｄの組み合わせを学習する。

機械学習装置２００に含まれる各機能ブロックの説明に先立って、まず強化学習の基本的な仕組みについて説明する。エージェント（本実施形態における機械学習装置２００に相当）は、環境の状態を観測し、ある行動を選択し、当該行動に基づいて環境が変化する。環境の変化に伴って、何らかの報酬が与えられ、エージェントはより良い行動の選択（意思決定）を学習する。
教師あり学習が、完全な正解を示すのに対して、強化学習における報酬は、環境の一部の変化に基づく断片的な値であることが多い。このため、エージェントは、将来にわたっての報酬の合計を最大にするように行動を選択するように学習する。

このように、強化学習では、行動を学習することにより、環境に行動が与える相互作用を踏まえて適切な行動を学習、すなわち将来的に得られる報酬を最大にするための学習する方法を学ぶ。これは、本実施形態において、例えば、位置偏差を低減するための行動情報を選択するという、未来に影響をおよぼすような行動を獲得できることを表している。

ここで、強化学習としては、任意の学習方法を用いることができるが、以下の説明では、或る環境の状態ｓの下で、行動ａを選択する価値関数Ｑ（ｓ，ａ）を学習する方法であるＱ学習（Q-learning）を用いる場合を例にとって説明をする。
Ｑ学習では、或る状態ｓのとき、取り得る行動ａのなかから、価値関数Ｑ（ｓ，ａ）の最も高い行動ａを最適な行動として選択することを目的とする。

しかしながら、Ｑ学習を最初に開始する時点では、状態ｓと行動ａとの組合せについて、価値関数Ｑ（ｓ，ａ）の正しい値は全く分かっていない。そこで、エージェントは、或る状態ｓの下で様々な行動ａを選択し、その時の行動ａに対して、与えられる報酬に基づいて、より良い行動の選択をすることにより、正しい価値関数Ｑ（ｓ，ａ）を学習していく。

また、将来にわたって得られる報酬の合計を最大化したいので、最終的にＱ（ｓ，ａ）＝Ｅ［Σ（γ^ｔ）ｒ_ｔ］となるようにすることを目指す。ここでＥ［］は期待値を表し、ｔは時刻、γは後述する割引率と呼ばれるパラメータ、ｒ_ｔは時刻ｔにおける報酬、Σは時刻ｔによる合計である。この式における期待値は、最適な行動に従って状態変化した場合の期待値である。しかしＱ学習の過程において最適な行動が何であるのかは不明であるので、様々な行動を行うことにより、探索しながら強化学習をする。このような価値関数Ｑ（ｓ，ａ）の更新式は、例えば、次の数式３（以下に数３として示す）により表すことができる。

上記の数式３において、ｓ_ｔは、時刻ｔにおける環境の状態を表し、ａ_ｔは、時刻ｔにおける行動を表す。行動ａ_ｔにより、状態はｓ_ｔ＋１に変化する。ｒ_ｔ＋１は、その状態の変化により得られる報酬を表している。また、ｍａｘの付いた項は、状態ｓ_ｔ＋１の下で、その時に分かっている最もＱ値の高い行動ａを選択した場合のＱ値にγを乗じたものになる。ここで、γは、０＜γ≦１のパラメータで、割引率と呼ばれる。また、αは、学習係数で、０＜α≦１の範囲とする。

上述した数式３は、試行ａ_ｔの結果、返ってきた報酬ｒ_ｔ＋１を元に、状態ｓ_ｔにおける行動ａ_ｔの価値関数Ｑ（ｓ_ｔ，ａ_ｔ）を更新する方法を表している。
この更新式は、状態ｓ_ｔにおける行動ａ_ｔの価値関数Ｑ（ｓ_ｔ，ａ_ｔ）よりも、行動ａ_ｔによる次の状態ｓ_ｔ＋１における最良の行動の価値ｍａｘ_ａＱ（ｓ_ｔ＋１，ａ）の方が大きければ、Ｑ（ｓ_ｔ，ａ_ｔ）を大きくし、逆に小さければ、Ｑ（ｓ_ｔ，ａ_ｔ）を小さくすることを示している。つまり、或る状態における或る行動の価値を、それによる次の状態における最良の行動の価値に近づける。ただし、その差は、割引率γと報酬ｒ_ｔ＋１のあり方により変わってくるが、基本的には、ある状態における最良の行動の価値が、それに至る一つ前の状態における行動の価値に伝播していく仕組みになっている。

ここで、Ｑ学習では、すべての状態行動ペア（ｓ，ａ）についての価値関数Ｑ（ｓ，ａ）のテーブルを作成して、学習を行う方法がある。しかし、すべての状態行動ペアの価値関数Ｑ（ｓ，ａ）の値を求めるには状態数が多すぎて、Ｑ学習が収束するのに多くの時間を要してしまう場合がある。

そこで、公知のＤＱＮ（Deep Q-Network）と呼ばれる技術を利用するようにしてもよい。具体的には、価値関数Ｑを適当なニューラルネットワークを用いて構成し、ニューラルネットワークのパラメータを調整することにより、価値関数Ｑを適当なニューラルネットワークで近似することにより価値関数Ｑ（ｓ，ａ）の値を算出するようにしてもよい。ＤＱＮを利用することにより、Ｑ学習が収束するのに要する時間を短くすることが可能となる。なお、ＤＱＮについては、例えば、以下の非特許文献に詳細な記載がある。

＜非特許文献＞
「Human-level control through deep reinforcement learning」、Volodymyr Mnih1著［ｏｎｌｉｎｅ］、［平成２９年１月１７日検索］、インターネット〈ＵＲＬ：http://files.davidqiu.com/research/nature14236.pdf〉

以上説明をしたＱ学習を機械学習装置２００が行う。具体的には、機械学習装置２００は、サーボモータ制御装置１００における非線形摩擦補償器１１１の補正係数ｃ、ｄの値、並びに評価用プログラムを実行することで取得されるサーボモータ制御装置１００の位置偏差情報を含む、指令及びフィードバック等のサーボ状態を状態ｓとして、当該状態ｓに係る非線形摩擦補償器１１１の補正係数ｃ、ｄの調整を行動ａとして選択する価値関数Ｑを学習する。

機械学習装置２００は、非線形摩擦補償器１１１の補正係数ｃ、ｄに基づいて、評価用プログラムを実行することで得られるサーボモータ制御装置１００の位置偏差情報を含む、指令及びフィードバック等のサーボ状態を含む状態情報ｓを観測して、行動ａを決定する。機械学習装置２００は、行動ａをするたびに報酬が返ってくる。機械学習装置２００は、例えば、将来にわたっての報酬の合計が最大になるように最適な行動ａを試行錯誤的に探索する。そうすることで、機械学習装置２００は、非線形摩擦補償器１１１の補正係数ｃ、ｄに基づいて、評価用プログラムを実行することで取得されるサーボモータ制御装置１００の位置偏差情報を含む指令、フィードバック等のサーボ状態を含む状態ｓに対して、最適な行動ａ（すなわち、非線形摩擦補償器１１１の最適な補正係数ｃ、ｄ）を選択することが可能となる。

すなわち、機械学習装置２００により学習された価値関数Ｑに基づいて、或る状態ｓに係る非線形摩擦補償器１１１の補正係数ｃ、ｄに対して適用される行動ａのうち、Ｑの値が最大となるような行動ａを選択することで、評価用プログラムを実行することで取得される位置偏差が最小になるような行動ａ（すなわち、非線形摩擦補償器１１１の補正係数ｃ、ｄの組み合わせ）を選択することが可能となる。

図１０は本発明の第１の実施形態の機械学習装置２００を示すブロック図である。
上述した強化学習を行うために、図１０に示すように、機械学習装置２００は、状態情報取得部２０１、学習部２０２、行動情報出力部２０３、価値関数記憶部２０４、及び最適化行動情報出力部２０５を備える。学習部２０２は報酬出力部２０２１、価値関数更新部２０２２、及び行動情報生成部２０２３を備える。

状態情報取得部２０１は、サーボモータ制御装置１００における非線形摩擦補償器１１１の補正係数ｃ、ｄに基づいて、評価用プログラムを実行することで取得されるサーボモータ制御装置１００の位置偏差情報を含む指令、フィードバック等のサーボ状態を含む状態ｓを、サーボモータ制御装置１００から取得する。この状態情報ｓは、Ｑ学習における、環境状態ｓに相当する。
状態情報取得部２０１は、取得した状態情報ｓを学習部２０２に対して出力する。
なお、最初にＱ学習を開始する時点での非線形摩擦補償器１１１の補正係数ｃ、ｄは、予めユーザが生成するようにする。本実施形態では、例えばユーザが作成した非線形摩擦補償器１１１の補正係数ｃ、ｄの初期設定値を、強化学習により最適なものに調整する。

学習部２０２は、或る環境状態ｓの下で、ある行動ａを選択する場合の価値関数Ｑ（ｓ，ａ）を学習する部分である。具体的には、学習部２０２は、報酬出力部２０２１、価値関数更新部２０２２及び行動情報生成部２０２３を備える。

報酬出力部２０２１は、或る状態ｓの下で、行動ａを選択した場合の報酬を算出する部分である。ここで、状態ｓにおける状態変数である位置偏差の集合（位置偏差集合）をＰＤ（ｓ）、行動情報ａ（非線形摩擦補償器１１１の補正係数ｃ、ｄの修正）により状態ｓから変化した状態情報ｓ´に係る状態変数である位置偏差集合をＰＤ（ｓ´）で示す。また、状態ｓにおける位置偏差の値を、予め設定された評価関数ｆ（ＰＤ（ｓ））に基づいて算出される値とする。
評価関数ｆとしては、例えば、
位置偏差の絶対値の積算値を算出する関数
∫|e|dt
位置偏差の絶対値に時間の重み付けをして積算値を算出する関数
∫t|e|dt
位置偏差の絶対値の２ｎ（ｎは自然数）乗の積算値を算出する関数、
∫e²ⁿdt（ｎは自然数）
位置偏差の絶対値の最大値を算出する関数
Ｍａｘ｛|e|｝
等を適用することができる。なお、評価関数はこれに限定されない。位置偏差集合ＰＤ（ｓ）の基づいて、状態ｓにおける位置偏差値を適切に評価する関数であればよい。

このとき、行動情報ａにより修正された状態情報ｓ´に係る修正後の非線形摩擦補償器１１１を用いて動作したサーボモータ制御装置１００の位置偏差の値ｆ（ＰＤ（ｓ´））が、行動情報ａにより修正される前の状態情報ｓに係る修正前の非線形摩擦補償器１１１を用いて動作したサーボモータ制御装置１００の位置偏差の値ｆ（ＰＤ（ｓ））よりも大きくなった場合に、報酬出力部２０２１は、報酬の値を負の値とする。

一方で、行動情報ａにより修正された状態情報ｓ´に係る修正後の非線形摩擦補償器１１１を用いて動作したサーボモータ制御装置１００の位置偏差の値ｆ（ＰＤ（ｓ´））が、行動情報ａにより修正される前の状態情報ｓに係る修正前の非線形摩擦補償器１１１を用いて動作したサーボモータ制御装置１００の位置偏差の値ｆ（ＰＤ（ｓ））よりも小さくなった場合に、報酬の値を正の値とする。

なお、行動情報ａにより修正された状態情報ｓ´に係る修正後の非線形摩擦補償器１１１を用いて動作したサーボモータ制御装置１００の位置偏差の値ｆ（ＰＤ（ｓ´））が、行動情報ａにより修正される前の状態情報ｓに係る非線形摩擦補償器１１１を用いて動作したサーボモータ制御装置１００の位置偏差の値ｆ（ＰＤ（ｓ））と等しい場合は、報酬出力部２０２１は、例えば、報酬の値をゼロとする。

また、行動ａを実行後の状態ｓ´の位置偏差の値ｆ（ＰＤ（ｓ´））が、前の状態ｓにおける位置偏差の値ｆ（ＰＤ（ｓ））より大きくなった場合の負の値としては、比率に応じて負の値を大きくするようにしてもよい。つまり位置偏差の値が大きくなった度合いに応じて負の値が大きくなるようにするとよい。逆に、行動ａを実行後の状態ｓ´の位置偏差の値ｆ（ＰＤ（ｓ´））が、前の状態ｓにおける位置偏差の値ｆ（ＰＤ（ｓ））より小さくなった場合の正の値としては、比率に応じて正の値を大きくするようにしてもよい。つまり位置偏差の値が小さくなった度合いに応じて正の値が大きくなるようにするとよい。

価値関数更新部２０２２は、状態ｓと、行動ａと、行動ａを状態ｓに適用した場合の状態ｓ´と、上記のようにして算出された報酬の値と、に基づいてＱ学習を行うことにより、価値関数記憶部２０４が記憶する価値関数Ｑを更新する。
価値関数Ｑの更新は、オンライン学習で行ってもよく、バッチ学習で行ってもよく、ミニバッチ学習で行ってもよい。

オンライン学習とは、或る行動ａを現在の状態ｓに適用することにより、状態ｓが新たな状態ｓ´に遷移する都度、即座に価値関数Ｑの更新を行うという学習方法である。また、バッチ学習とは、或る行動ａを現在の状態ｓに適用することにより、状態ｓが新たな状態ｓ´に遷移することを繰り返すことにより、学習用のデータを収集し、収集した全ての学習用データを用いて、価値関数Ｑの更新を行うという学習方法である。更に、ミニバッチ学習とは、オンライン学習と、バッチ学習の中間的な、ある程度学習用データが溜まるたびに価値関数Ｑの更新を行うという学習方法である。

行動情報生成部２０２３は、現在の状態ｓに対して、Ｑ学習の過程における行動ａを選択する。行動情報生成部２０２３は、Ｑ学習の過程において、サーボモータ制御装置１００の非線形摩擦補償器１１１の各補正係数ｃ、ｄを修正する動作（Ｑ学習における行動ａに相当）を行わせるために、行動情報ａを生成して、生成した行動情報ａを行動情報出力部２０３に対して出力する。より具体的には、行動情報生成部２０２３は、例えば、状態ｓに含まれる非線形摩擦補償器１１１の各補正係数に対して行動ａに含まれる、非線形摩擦補償器１１１の各補正係数ｃ、ｄをインクレメンタルに加算又は減算させる。

そして、行動情報生成部２０２３は、非線形摩擦補償器１１１の各補正係数ｃ、ｄの増加又は減少を適用して、状態ｓ´に遷移して、プラスの報酬（正の値の報酬）が返った場合、次の行動ａ´としては、非線形摩擦補償器１１１の各補正係数ｃ、ｄに対して、前回のアクションと同様にインクレメンタルに加算又は減算させる等、位置偏差の値がより小さくなるような行動ａ´を選択する方策を取るようにしてもよい。

また、逆に、マイナスの報酬（負の値の報酬）が返った場合、行動情報生成部２０２３は、次の行動ａ´としては、例えば、非線形摩擦補償器１１１の各補正係数ｃ、ｄに対して、前回のアクションとは逆にインクレメンタルに減算又は加算させる等、位置偏差が前回の値よりも小さくなるような行動ａ´を選択する方策を取るようにしてもよい。

また、行動情報生成部２０２３は、現在の推定される行動ａの価値の中で、最も価値関数Ｑ（ｓ，ａ）の高い行動ａ´を選択するグリーディ法や、ある小さな確率εでランダムに行動ａ´選択し、それ以外では最も価値関数Ｑ（ｓ，ａ）の高い行動ａ´を選択するεグリーディ法といった公知の方法により、行動ａ´を選択する方策を取るようにしてもよい。

行動情報出力部２０３は、学習部２０２から出力される行動情報ａをサーボモータ制御装置１００に対して送信する部分である。サーボモータ制御装置１００は上述したように、この行動情報に基づいて、現在の状態ｓ、すなわち現在設定されている非線形摩擦補償器１１１の各補正係数ｃ、ｄを微修正することで、次の状態ｓ´（すなわち修正された、非線形摩擦補償器１１１の各補正係数）に遷移する。

価値関数記憶部２０４は、価値関数Ｑを記憶する記憶装置である。価値関数Ｑは、例えば状態ｓ、行動ａ毎にテーブル（以下、行動価値テーブルと呼ぶ）として格納してもよい。価値関数記憶部２０４に記憶された価値関数Ｑは、価値関数更新部２０２２により更新される。また、価値関数記憶部２０４に記憶された価値関数Ｑは、他の機械学習装置２００との間で共有されるようにしてもよい。価値関数Ｑを複数の機械学習装置２００で共有するようにすれば、各機械学習装置２００にて分散して強化学習を行うことが可能となるので、強化学習の効率を向上させることが可能となる。

最適化行動情報出力部２０５は、価値関数更新部２０２２がＱ学習を行うことにより更新した価値関数Ｑに基づいて、価値関数Ｑ（ｓ，ａ）が最大となる動作を非線形摩擦補償器１１１に行わせるための行動情報ａ（以下、「最適化行動情報」と呼ぶ）を生成する。
より具体的には、最適化行動情報出力部２０５は、価値関数記憶部２０４が記憶している価値関数Ｑを取得する。この価値関数Ｑは、上述したように価値関数更新部２０２２がＱ学習を行うことにより更新したものである。そして、最適化行動情報出力部２０５は、価値関数Ｑに基づいて、行動情報を生成し、生成した行動情報をサーボモータ制御装置１００（非線形摩擦補償器１１１）に対して出力する。この最適化行動情報には、行動情報出力部２０３がＱ学習の過程において出力する行動情報と同様に、非線形摩擦補償器１１１の各補正係数ｃ、ｄを修正する情報が含まれる。

サーボモータ制御装置１００では、この行動情報に基づいて非線形摩擦補償器１１１の各補正係数ｃ、ｄが修正され、位置偏差の値を低減するように動作することができる。
以上のように、本発明に係る機械学習装置２００を利用することで、サーボモータ制御装置１００の非線形摩擦補償器１１１のパラメータ調整を簡易化することができる。

以上、サーボモータ制御装置１００、機械学習装置２００に含まれる機能ブロックについて説明した。
これらの機能ブロックを実現するために、サーボモータ制御装置１００、及び機械学習装置２００のそれぞれは、ＣＰＵ（Central Processing Unit）等の演算処理装置を備える。また、サーボモータ制御装置１００、及び機械学習装置２００のそれぞれは、アプリケーションソフトウェアやＯＳ（Operating System）等の各種の制御用プログラムを格納したＨＤＤ（Hard Disk Drive）等の補助記憶装置や、演算処理装置がプログラムを実行する上で一時的に必要とされるデータを格納するためのＲＡＭ（Random Access Memory）といった主記憶装置も備える。

そして、サーボモータ制御装置１００、及び機械学習装置２００のそれぞれにおいて、演算処理装置が補助記憶装置からアプリケーションソフトウェアやＯＳを読み込み、読み込んだアプリケーションソフトウェアやＯＳを主記憶装置に展開させながら、これらのアプリケーションソフトウェアやＯＳに基づいた演算処理を行なう。また、この演算結果に基づいて、各装置が備える各種のハードウェアを制御する。これにより、本実施形態の機能ブロックは実現される。つまり、本実施形態は、ハードウェアとソフトウェアが協働することにより実現することができる。

機械学習装置２００については機械学習に伴う演算量が多いため、例えば、パーソナルコンピュータにＧＰＵ（Graphics Processing Units）を搭載し、ＧＰＧＰＵ（General-Purpose computing on Graphics Processing Units）と呼ばれる技術により、ＧＰＵを機械学習に伴う演算処理に利用するようにすると高速処理できるようになるのでよい。更には、より高速な処理を行うために、このようなＧＰＵを搭載したコンピュータを複数台用いてコンピュータ・クラスターを構築し、このコンピュータ・クラスターに含まれる複数のコンピュータにて並列処理を行うようにしてもよい。

次に、図１１のフローチャートを参照して本実施形態におけるＱ学習時の機械学習装置２００の動作について説明をする。なお、ここでは加工形状が円形である場合について説明するが、加工形状は四角形であってよく、加工形状が円形及び四角形等の場合を順番に学習していってもよい。

ステップＳ１１において、状態情報取得部２０１がサーボモータ制御装置１００から状態情報ｓを取得する。取得した状態情報は、価値関数更新部２０２２や行動情報生成部２０２３に対して出力される。上述したように、この状態情報ｓは、Ｑ学習における状態に相当する情報であり、ステップＳ１１時点での、非線形摩擦補償器１１１の各補正係数ｃ、ｄが含まれる。こうして、非線形摩擦補償器１１１から補正係数が初期値であるときの、円形の加工形状に対応する位置偏差の集合ＰＤ(s)が取得される。

なお、前述したように、初期状態ｓ_０における非線形摩擦補償器１１１の補正係数ｃ、ｄはユーザにより初期設定される。

最初にＱ学習を開始する時点での減算器１０２から状態ｓ_０における位置偏差の値ＰＤ（ｓ_０）は、評価用プログラムでサーボモータ制御装置１００を動作させることで得られる。位置指令作成部１０１は、評価用プログラムにより指定された円形の加工形状で位置指令を順次出力する。円形の加工形状に対応する位置指令値が位置指令作成部１０１から出力され、減算器１０２は位置指令値と積分器１０８から出力される検出位置との差を位置偏差ＰＤ（ｓ_０）として機械学習装置２００に出力する。

ステップＳ１２において、行動情報生成部２０２３は新たな行動情報ａを生成し、生成した新たな行動情報ａを、行動情報出力部２０３を介してサーボモータ制御装置１００に対して出力する。行動情報生成部２０２３は前述した方策に基づいて、新たな行動情報ａを出力する。なお、行動情報ａを受信したサーボモータ制御装置１００は、受信した行動情報に基づいて現在の状態ｓに係る非線形摩擦補償器１１１の各補正係数ｃ、ｄを修正した状態ｓ´により、サーボモータを含む工作機械を駆動させる。上述したように、この行動情報は、Ｑ学習における行動ａに相当するものである。

ステップＳ１３において、状態情報取得部２０１は、減算器１０２から新たな状態ｓ´における位置偏差ＰＤ（ｓ´）、及び非線形摩擦補償器１１１から補正係数ｃ、ｄを取得する。こうして、状態情報取得部２０１は、非線形摩擦補償器１１１から状態ｓ´における補正係数ｃ、ｄであるときの、円形の加工形状に対応する位置偏差の集合ＰＤ（ｓ´）を取得する。取得した状態情報は、報酬出力部２０２１に対して出力される。

ステップＳ１４において、報酬出力部２０２１は、状態ｓ´における位置偏差の値ｆ（ＰＤ（ｓ´））と状態sにおける位置偏差の値ｆ（ＰＤ（ｓ））との大小関係を判断し、ｆ（ＰＤ（ｓ´））＞ｆ（ＰＤ（ｓ））の場合には、ステップＳ１５において、報酬を負の値とする。ｆ（ＰＤ（ｓ´））＜ｆ（ＰＤ（ｓ））の場合には、ステップＳ１６において、報酬を正の値とする。ｆ（ＰＤ（ｓ´））＝ｆ（ＰＤ（ｓ））の場合には、ステップＳ１７において、報酬をゼロとする。なお、報酬の負の値、正の値について重みづけを行うようにしてもよい。

ステップＳ１５、ステップＳ１６及びステップＳ１７の何れかが終了すると、ステップＳ１８において、この何れかのステップにて算出された報酬の値に基づいて、価値関数更新部２０２２が、価値関数記憶部２０４に記憶している価値関数Ｑを更新する。そして、再度ステップＳ１１に戻り、上述した処理を繰り返すことにより、価値関数Ｑは適切な値に収束していく。なお、上述した処理を、所定回数繰り返したことや、所定時間繰り返したことを条件として処理を終了するようにしてもよい。
なお、ステップＳ１８はオンライン更新を例示しているが、オンライン更新に替えてバッチ更新又はミニバッチ更新に置き換えてもよい。

以上、図１１を参照して説明した動作により、本実施形態では、機械学習装置２００を利用することで、非線形摩擦補償器１１１の補正係数ｃ、ｄの調整のための、適切な価値関数を得ることができ、フィードフォワードの補正係数ｃ、ｄの最適化を簡易化することができる、という効果を奏する。
次に、図１２のフローチャートを参照して、最適化行動情報出力部２０５による最適化行動情報の生成時の動作について説明をする。
まず、ステップＳ２１において、最適化行動情報出力部２０５は、価値関数記憶部２０４に記憶している価値関数Ｑを取得する。価値関数Ｑは、上述したように価値関数更新部２０２２がＱ学習を行うことにより更新したものである。

ステップＳ２２において、最適化行動情報出力部２０５は、この価値関数Ｑに基づいて、最適化行動情報を生成し、生成した最適化行動情報をサーボモータ制御装置１００の非線形摩擦補償器１１１に対して出力する。

また、図１２を参照して説明した動作により、本実施形態では、機械学習装置２００により学習することにより求められる価値関数Ｑに基づいて、最適化行動情報を生成し、サーボモータ制御装置１００が、この最適化行動情報に基づいて、現在設定されている非線形摩擦補償器１１１の補正係数ｃ、ｄの調整を簡易化するとともに、位置偏差の値を低減することができる。

以下、本実施形態の機械学習装置による効果について図１３及び図１４を用いて説明する。
図５に示したように、制御対象に含まれるテーブルがＸ軸方向又はＹ軸方向に正弦波状に移動する場合、機械学習による非線形摩擦補償器１１１のパラメータ調整前は、図１３に示すように、サーボモータの回転方向が反転しようとした時に、位置指令作成部１０１で設定される、破線で示す正弦波状のテーブルの移動軌跡に対して、非線形摩擦のために実線で示す移動軌跡のように反転遅れが生じ、テーブルはすぐには反転移動しない。機械学習による非線形摩擦補償器１１１のパラメータ調整後は、図１４に示すように、非線形摩擦による反転遅れは解消されて、実線で示すように、テーブルは正弦波状の移動軌跡で移動する。図１３及び図１４における矢印は反転位置を示している。

図６に示したように、制御対象に含まれるテーブルがＸ軸方向又はＹ軸方向に三角波状に移動する場合においても、正弦波状に移動する場合と同様に、サーボモータの回転方向が反転しようとした時に、位置指令作成部１０１で設定される、三角波状のテーブルの移動軌跡に対して、非線形摩擦のために反転遅れが生じ、テーブルはすぐには反転移動しない。しかし、機械学習による非線形摩擦補償器１１１のパラメータ調整後は、非線形摩擦による反転遅れは解消されて、テーブルは三角波状の移動軌跡で移動する。

上記のサーボモータ制御装置のサーボモータ制御部及び機械学習装置に含まれる各構成部は、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。また、上記のサーボモータ制御装置に含まれる各構成部のそれぞれの協働により行なわれるサーボモータ制御方法も、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。ここで、ソフトウェアによって実現されるとは、コンピュータがプログラムを読み込んで実行することにより実現されることを意味する。

プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えば、ハードディスクドライブ）、光磁気記録媒体（例えば、光磁気ディスク）、ＣＤ−ＲＯＭ(Read Only Memory)、ＣＤ−Ｒ、ＣＤ−Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ(Programmable ROM)、ＥＰＲＯＭ(Erasable PROM)、フラッシュＲＯＭ、ＲＡＭ(random access memory）)を含む。

上述した実施形態は、本発明の好適な実施形態ではあるが、上記実施形態のみに本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において種々の変更を施した形態での実施が可能である。

＜速度フィードフォワード計算部１１０をオプションとする場合＞
上述した実施形態において、サーボモータ制御装置１００は、速度フィードフォワード計算部１１０を備え、非線形摩擦補償器１１１を速度フィードフォワード計算部１１０に並列に接続される構成としたが、これに限定されない。速度フィードフォワード計算部１１０はオプションとして、サーボモータ制御装置１００は、速度フィードフォワード計算部１１０を備えていないようにしてもよい。

＜サーボモータ制御装置が機械学習装置を備える変形例＞
上述した実施形態では、機械学習装置２００を、サーボモータ制御装置１００とは別体の装置により構成したが、機械学習装置２００の機能の一部又は全部をサーボモータ制御装置１００により実現するようにしてもよい。

＜システム構成の自由度＞
上述した実施形態では、機械学習装置２００とサーボモータ制御装置１００とが１対１の組として通信可能に接続されているが、例えば１台の機械学習装置２００が複数のサーボモータ制御装置１００とネットワーク４００を介して通信可能に接続され、各サーボモータ制御装置１００の機械学習を実施するようにしてもよい。
その際、機械学習装置２００の各機能を、適宜複数のサーバに分散する、分散処理システムとしてもよい。また、クラウド上で仮想サーバ機能等を利用して、機械学習装置２００の各機能を実現してもよい。
また、複数の同じ型名、同一仕様、又は同一シリーズのサーボモータ制御装置１００−１〜１００−ｎとそれぞれ対応する複数の機械学習装置２００−１〜２００−ｎがあった場合に、各機械学習装置２００−１〜２００−ｎにおける学習結果を共有するように構成するようにしてもよい。そうすることで、より最適なモデルを構築することが可能となる。

１０サーボモータ制御システム
１００サーボモータ制御装置
１０１位置指令作成部
１０２減算器
１０３位置制御部
１０４加算器
１０５減算器
１０６速度制御部
１０７加算器
１０８積分器
１０９位置フィードフォワード計算部
１１０速度フィードフォワード計算部
１１１非線形摩擦補償器
２００機械学習装置
２０１状態情報取得部
２０２学習部
２０３行動情報出力部
２０４価値関数記憶部
２０５最適化行動情報出力部
３００制御対象
４００ネットワーク

Claims

位置指令に基づいて非線形摩擦に対する補正値を作成する非線形摩擦補償手段を備える、サーボモータ制御装置に対して、機械学習を行う機械学習装置であって、
所定のプログラムを前記サーボモータ制御装置に実行させることにより、少なくとも位置偏差を含むサーボ状態と、前記非線形摩擦補償手段の補正係数の組み合わせと、を含む状態情報を、前記サーボモータ制御装置から取得する状態情報取得手段と、
前記状態情報に含まれる前記補正係数の組み合わせの調整情報を含む行動情報を前記サーボモータ制御装置に出力する行動情報出力手段と、
前記状態情報に含まれる前記位置偏差に基づく、強化学習における報酬の値を出力する報酬出力手段と、
前記報酬出力手段により出力される報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新手段と、
を備える機械学習装置。
前記報酬出力手段は、前記位置偏差の絶対値に基づいて前記報酬の値を出力する請求項１に記載の機械学習装置。
前記サーボモータ制御装置は、前記位置指令に基づいて速度フィードフォワード値を作成する速度フィードフォワード計算手段をさらに有し、前記非線形摩擦補償手段は前記速度フィードフォワード計算手段に並列に接続されている、請求項１又は２に記載の機械学習装置。
前記価値関数更新手段により更新された価値関数に基づいて、前記非線形摩擦補償手段の補正係数の組み合わせを生成して出力する最適化行動情報出力手段をさらに備えた請求項１から３のいずれか１項に記載の機械学習装置。
請求項１から請求項４のいずれか１項に記載の機械学習装置と、非線形摩擦に対する補正値を作成する非線形摩擦補償手段を有するサーボモータ制御装置と、を備えたサーボモータ制御システム。
前記サーボモータ制御装置は、位置指令に基づいて速度フィードフォワード値を作成する速度フィードフォワード計算手段をさらに有し、前記非線形摩擦補償手段は前記速度フィードフォワード計算手段に並列に接続されている、請求項５に記載のサーボモータ制御システム。
請求項１から請求項４のいずれか１項に記載の機械学習装置と、非線形摩擦に対する補正値を作成する非線形摩擦補償手段と、を備えたサーボモータ制御装置。
位置指令に基づいて速度フィードフォワード値を作成する速度フィードフォワード計算手段をさらに備え、前記非線形摩擦補償手段は前記速度フィードフォワード計算手段に並列に接続されている、請求項７に記載のサーボモータ制御装置。
位置指令に基づいて非線形摩擦に対する補正値を作成する非線形摩擦補償手段を備える、サーボモータ制御装置に対して、機械学習を行う機械学習装置の機械学習方法であって、
所定のプログラムを前記サーボモータ制御装置に実行させることにより、少なくとも位置偏差を含むサーボ状態と、前記非線形摩擦補償手段の補正係数の組み合わせと、を含む状態情報を、前記サーボモータ制御装置から取得し、
前記状態情報に含まれる前記補正係数の組み合わせの調整情報を含む行動情報を前記サーボモータ制御装置に出力し、
前記状態情報に含まれる前記位置偏差に基づく、強化学習における報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する、機械学習方法。