JP2020035213A

JP2020035213A - 機械学習装置、制御システム及び機械学習方法

Info

Publication number: JP2020035213A
Application number: JP2018161751A
Authority: JP
Inventors: 亮太郎恒木; Ryotaro Tsuneki; 聡史猪飼; Satoshi Igai; 隆貴下田; Takaki Shimoda
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2018-08-30
Filing date: 2018-08-30
Publication date: 2020-03-05
Anticipated expiration: 2038-08-30
Also published as: JP6841801B2; DE102019212814A1; US20200073343A1; US11029650B2; CN110875703A

Abstract

【課題】フィルタの特性を決定するパラメータの設定を容易にする。【解決手段】工作機械、ロボット又は産業機械用のモータ１２７の回転を制御するモータ制御装置１００に設けられた、フィルタ１１０の係数を、モータ制御装置の外に設けられた外部測定器３００の測定情報とモータ制御装置に入力される制御指令とに基づいて最適化する機械学習を行う。【選択図】図１

Description

本発明は、工作機械、ロボット又は産業機械等のモータの回転を制御するモータ制御装置に設けられる、フィルタの係数を最適化する機械学習を行う機械学習装置、この機械学習装置を含む制御システム、及び機械学習方法に関する。

フィルタの特性を自動的に調整する装置は、例えば特許文献１及び特許文献２に記載されている。
特許文献１は、チューニングモード時には、周波数をスイープした交流信号を速度指令値の信号に重畳させ、重畳の結果、速度制御部から得られたトルク指令値信号の振幅を検出し、振幅の変化率が正から負に転じたときにおけるトルク指令値信号の周波数をノッチフィルタの中心周波数として設定するサーボアクチュエータを記載している。

特許文献２は、モータの速度を制御する速度フィードバックループを有し、この速度フィードバックループにノッチフィルタ手段を挿入して機械共振を除去するサーボアクチュエータにおいて、速度フィードバックループの周波数応答特性を示すデータを取得するデータ収集手段と、データ収集手段で取得されたデータを移動平均処理する移動平均手段と、この移動平均手段で得られたデータと、データ収集手段で得られたデータとを比較して、速度フィードバックループの共振特性を抽出する比較手段と、比較手段で抽出された共振特性に基づいてノッチフィルタ手段の周波数及びＱ値を設定するノッチフィルタ設定手段と、を備えるサーボアクチュエータを記載している。

特開平５−１９８５８号公報特開２００９−１０４４３９号公報

特許文献１のサーボアクチュエータはトルク指令値信号を用いてノッチフィルタの特性を調整し、特許文献２のサーボアクチュエータは速度フィードバックループの周波数応答特性に基づいてノッチフィルタの特性を調整している。
しかしながら、ノッチフィルタの特性を決めるときには、減衰係数、除去したい帯域の中心周波数、及び帯域幅等の複数のパラメータを決めることが求められ、これらの最適値を求めることは容易ではない。

また、特許文献１のサーボアクチュエータは、周波数をスイープした交流信号を速度指令値の信号に重畳させる手段、重畳の結果、速度制御部から得られたトルク指令値信号の振幅を検出する手段をサーボ制御回路とは別に設ける必要があって、回路構成が複雑になる。特許文献２のサーボアクチュエータにおいても、速度フィードバックループの周波数応答特性を示すデータを取得するデータ収集手段、データ収集手段で取得されたデータを移動平均処理する移動平均手段、この移動平均手段で得られたデータと、データ収集手段で得られたデータとを比較して、速度フィードバックループの共振特性を抽出する比較手段等の手段をサーボ制御回路とは別に設ける必要があって、回路構成が複雑になる。

本発明は、フィルタの特性を決定するパラメータの設定を容易にし、また、機械学習後に外部測定器を取り外すことが可能となり、コストを低減するとともに信頼性を向上させることができる機械学習装置、この機械学習装置を含む制御システム、及び機械学習方法を提供することを目的とする。

（１）本発明に係る機械学習装置は、モータ（例えば、後述のサーボモータ１２７）の回転を制御するモータ制御装置（例えば、後述のモータ制御装置１００）に設けられた、フィルタ（例えば、後述のフィルタ１１０）の係数を、前記モータ制御装置の外に設けられた外部測定器（例えば、後述の加速度センサ３００）の測定情報と前記モータ制御装置に入力される制御指令とに基づいて最適化する機械学習を行う機械学習装置（例えば、後述の機械学習部１３０）である。

（２）上記（１）の機械学習装置において、前記外部測定器の測定情報は、位置、速度、加速度のうち少なくとも１つを含んでもよい。

（３）上記（１）又は（２）の機械学習装置において、前記モータ制御装置は、位置フィードバックループ及び速度フィードバックループの少なくとも一つを有し、前記フィルタは前記位置フィードバックループ又は前記速度フィードバックループの外にあってもよい。

（４）上記（１）又は（２）の機械学習装置において、前記モータ制御装置は、フィードバックループを有し、前記外部測定器の測定情報は前記フィードバックループのフィードバック制御に使わないようにしてもよい。

（５）上記（１）から（４）のいずれかの機械学習装置において、前記外部測定器は機械学習による前記フィルタの調整後に取り外してもよい。

（６）上記（１）から（５）のいずれかの機械学習装置において、前記測定情報と、前記制御指令と、前記フィルタの係数と、を含む状態情報を取得する状態情報取得部（例えば、後述の状態情報取得部１３１）と、
前記状態情報に含まれる前記係数の調整情報を含む行動情報を前記フィルタに出力する行動情報出力部（例えば、後述の行動情報出力部１３３）と、
前記測定情報と前記制御指令と差に基づく評価関数を用いた、強化学習における報酬の値を出力する報酬出力部（例えば、後述の報酬出力部１３２１）と、
前記報酬出力部により出力される報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新部（例えば、後述の価値関数更新部１３２２）と、
を備えてもよい。

（７）上記（６）の機械学習装置において前記価値関数更新部により更新された価値関数に基づいて、前記係数の調整情報を出力する最適化行動情報出力部（例えば、後述の最適化行動情報出力部１３５）を備えてもよい。

（８）本発明に係る制御システムは、上記（１）から（７）のいずれかの機械学習装置（例えば、後述の機械学習部１３０）、モータ（例えば、後述のサーボモータ１２７）、及びフィルタ（例えば、後述のフィルタ１１０）を含み、前記モータの回転を制御するモータ制御装置（例えば、後述のモータ制御装置１００）と、
前記モータ制御装置の外に設けられた外部測定器（例えば、後述の加速度センサ３００）と、を備えた制御システムである。

（９）本発明に係る機械学習方法は、モータの回転を制御するモータ制御装置に設けられた、フィルタの係数と、前記モータ制御装置の外に設けられた外部測定器の測定情報と、前記モータ制御装置に入力される制御指令とを取得し、前記測定情報と前記制御指令とに基づいて前記係数を最適化する機械学習を行う、機械学習装置の機械学習方法である。

本発明によれば、フィルタの特性を決定する係数（パラメータ）の設定が容易となる。また外部測定器は、モータ制御装置の外に配置されるため、機械学習後に外部測定器を取り外すことが可能となり、コストを低減するとともに信頼性を向上させることができる。

本発明の一実施形態のモータ制御装置、工作機械及び加速度センサを含む制御システムを示すブロック図である。テーブルの移動軌跡が円形の場合のモータの動作を説明するための図である。テーブルの移動軌跡が四角形の場合のモータの動作を説明するための図である。テーブルの移動軌跡が八角形の場合のモータの動作を説明するための図である。テーブルの移動軌跡が角形の角が一つ置きに円弧に置き換えられた形である場合のモータの動作を説明するための図である。本発明の一実施形態の機械学習部を示すブロック図である。本発明の一実施形態の機械学習部の動作を説明するフローチャートである。本発明の一実施形態の機械学習部の最適化行動情報出力部の動作を説明するフローチャートである。機械本体のテーブルにスケールを取り付けた状態を示す説明図である。複数のフィルタを直接接続してフィルタを構成した例を示すブロック図である。制御システムの他の構成例を示すブロック図である。

以下、本発明の実施形態について図面を用いて詳細に説明する。

図１は本発明の一実施形態のモータ制御装置、工作機械及び加速度センサを含む制御システムを示すブロック図である。
図１に示すように、制御システム１０は、モータ制御装置１００と、モータ制御装置１００により制御される工作機械２００と、工作機械２００に取り付けられた加速度センサ３００とを備えている。加速度センサ３００はモータ制御装置１００の外に設けられる外部測定器となり、測定される加速度は測定情報となる。
モータ制御装置１００の制御対象として、ここでは工作機械を取り上げて説明するが、制御対象は工作機械に限定されず、例えばロボット，産業機械等であってもよい。モータ制御装置１００は、工作機械、ロボット、産業機械等の制御対象の一部として設けられてもよい。

モータ制御装置１００は、フィルタ１１０、サーボ制御部１２０、及び機械学習部１３０を備えている。なお、ここでは、モータ制御装置１００はサーボモータを制御するサーボ制御部１２０を含んでいるが、スピンドルモータを制御し、フィードバック制御を行わない制御部を含んでいてもよい。
フィルタ１１０は工作機械２００のフィルタで、例えばノッチフィルタ、加減速時定数を設定するフィルタ、又は逆特性フィルタ等が用いられる。フィルタ１１０には位置指令が入力され、フィルタ１１０は、入力された位置指令の整形を行う位置指令値整形器となる。位置指令は、上位制御装置や外部入力装置等で、所定の加工プログラムに従って、サーボモータ１２７の速度を変化させるためにパルス周波数を変えるように生成される。位置指令は制御指令となる。フィルタ１１０はサーボ制御部１２０の外、すなわち、後述する位置フィードバックループ及び速度フィードループの外に設けられているが、サーボ制御部１２０の位置フィードバックループ又は速度フィードループの中に設けてもよい。例えばサーボ制御部１２０の後述する速度制御部１２６の出力側又は加算器１２３の出力側にフィルタ１１０を接続してもよい。ただし、サーボ制御部１２０の制御ループ（位置フィードバックループ又は速度フィードバックループ）の外の振動を抑えるため、フィルタは位置フィードバックループ又は速度フィードバックループの外に設けることが好ましい。図１ではフィルタ１１０は位置偏差を求める後述の減算器１２１の前に配置している。フィルタ１１０の構成は特に限定されないが、２次以上のＩＩＲフィルタであることが望ましい。

数式１（以下に数１として示す）は、フィルタ１１０としてのノッチフィルタの伝達関数Ｆ(ρ，ｓ)を示す。パラメータρは係数ω、ζ、Ｒを示す。
数式１の係数Ｒは減衰係数、係数ωは中心角周波数、係数ζは比帯域である。中心周波数をｆｃ、帯域幅をｆｗとすると、係数ωはω＝２πｆｃ、係数ζはζ＝ｆｗ／ｆｃで表される。

サーボ制御部１２０は、減算器１２１、位置制御部１２２、加算器１２３、位置フィードフォワード部１２４、減算器１２５、速度制御部１２６、サーボモータ１２７、サーボモータ１２７に関連付けられた、位置検出部となるロータリーエンコーダ１２８、及び積分器１２９を備えている。減算器１２１、位置制御部１２２、加算器１２３、減算器１２５、速度制御部１２６、サーボモータ１２７、ロータリーエンコーダ１２８、及び積分器１２９は位置フィードバックループを構成する。また、減算器１２５、速度制御部１２６、サーボモータ１２７、及びロータリーエンコーダ１２８は速度フィードバックループを構成する。

減算器１２１はフィルタ１１０から出力される整形後の位置指令と位置フィードバックされた検出位置との差を求め、その差を位置偏差として位置制御部１２２及び位置フィードフォワード部１２４に出力する。

位置制御部１２２は、位置偏差にポジションゲインＫｐを乗じた値を、速度指令値として加算器１２３に出力する。
位置フィードフォワード部１２４は、位置指令値を微分して定数αを掛けた値に、数式２（以下に数２として示す）で示す伝達関数Ｇ（ｓ）で示された位置フィードフォワード処理を行い、その処理結果を位置フィードフォワード項として、加算器１２３に出力する。数式２の係数ａ_ｉ、ｂ_ｊ(Ｘ≧ｉ，ｊ≧０、Ｘは自然数)は伝達関数Ｇ（ｓ）の各係数である。

加算器１２３は、速度指令値と位置フィードフォワード部１２４の出力値（位置フィードフォワード項）とを加算して、フィードフォワード制御された速度指令値として減算器１２５に出力する。減算器１２５は加算器１２３の出力と速度フィードバックされた速度検出値との差を求め、その差を速度偏差として速度制御部１２６に出力する。

速度制御部１２６は、速度偏差に積分ゲインＫ１ｖを乗じて積分した値と、速度偏差に比例ゲインＫ２ｖを乗じた値とを加算して、トルク指令としてサーボモータ１２７に出力する。

サーボモータ１２７の回転角度位置は、ロータリーエンコーダ１２８によって検出され、速度検出値は速度フィードバック（速度ＦＢ）として減算器１２５に入力される。速度検出値は積分器１２９で積分されて位置検出値となり、位置検出値は位置フィードバック（位置ＦＢ）として減算器１２１に入力される。
以上のように、サーボ制御部１２０は構成される。

次に、機械学習部１３０の説明に先立って、工作機械２００及び工作機械２００に取り付けられた加速度センサ３００について説明する。
工作機械２００は、サーボモータ１２７の回転軸に連結されたボールねじ２３０、ボールねじ２３０に螺合されたナット２４０、ナットに接続されたテーブル２５１を含む機械本体２５０を備えている。サーボモータ１２７の回転駆動によって、ボールねじ２３０に螺着されたナット２４０がボールねじ２３０の軸方向に移動する。

工作機械２００において、被加工物（ワーク）を搭載するテーブル２５１がＸ軸方向及びＹ軸方向に移動される場合には、Ｘ軸方向及びＹ軸方向に対してそれぞれ図１に示すモータ制御装置１００が設けられる。テーブルを３軸以上の方向に移動させる場合には、それぞれの軸方向に対してモータ制御装置１００が設けられる。

加速度センサ３００は、サーボ制御部１２０の外に設けられ、ここでは機械本体２５０に取り付けられる。加速度センサは外部測定器となる。加速度センサは、一軸、二軸、三軸等の加速度センサが知られているが、必要に応じて、これらの加速度センサを選択することができる。例えば、機械本体２５０のテーブルをＸ方向及びＹ方向に移動する場合には、２軸の加速度センサを用い、機械本体２５０のテーブルをＸ方向、Ｙ方向及びＺ方向に移動する場合には、３軸の加速度センサを用いることができる。加速度センサ３００は、加工点に近い場所に設けることが望ましい。
加速度センサ３００は機械本体２５０の加速度を測定して機械学習部１３０に出力する。加速度センサ３００は、機械学習中にのみ用いる場合には、出荷前に機械学習を行ってフィルタ１１０の係数を調整し、フィルタ１１０の調整後に機械本体２５０から取り外してもよい。出荷後に再学習を行う場合、再学習後に取り外してもよい。加速度センサ３００から出力される加速度はサーボ制御部１２０のフィードバック制御に使ってもよいが、フィードバック制御に使わなければ加速度センサ３００は取り外し可能である。この場合、工作機械２００のコストを低減でき、信頼性も向上する。

＜機械学習部１３０＞
機械学習部１３０は、予め設定された加工プログラム（以下、「学習時の加工プログラム」ともいう）を実行し、位置指令及び加速度センサ３００からの加速度測定値を用いて、フィルタ１１０の伝達関数の係数ω、ζ、Ｒを機械学習（以下、学習という）する。機械学習部１３０は機械学習装置となる。機械学習部１３０による学習は出荷前に行われるが、出荷後に再学習を行ってもよい。
ここで、モータ制御装置１００は、学習時の加工プログラムによりサーボモータ１２７を駆動し、被加工物（ワーク）を搭載しない状態で、テーブル２５１を移動させる。Ｘ軸方向及びＹ軸方向に移動されるテーブル２５１の任意の点の移動軌跡は、例えば、円形、四角形、八角形、又は八角形の角が一つ置きに円弧に置き換えられた形等である。図２〜図５はそれぞれ、移動軌跡が円形、四角形、八角形、又は八角形の角が一つ置きに円弧に置き換えられた形である場合のモータの動作を説明するための図である。図２〜図５において、テーブル２５１は時計まわりにＸ軸及びＹ軸方向に移動するものとする。

テーブル２５１の移動軌跡が図２に示す円形の場合は、図２に示す位置Ａ１では、テーブルをＹ軸方向に移動するサーボモータは位置Ａ１に近づくにつれて徐々に減速し、位置Ａ１で回転方向が反転し、位置Ａ１を過ぎると徐々に加速する。そして、テーブルは位置Ａ１を挟んでＹ軸方向に徐々に直線反転するように移動する。一方、位置Ａ１で、テーブルをＸ軸方向に移動するサーボモータは位置Ａ１の前後の速度と同じ速度で回転し、テーブルはＸ軸方向に位置Ａ１の前後の速度と同じ速度で移動する。図２に示す位置Ａ２では、テーブルをＸ軸方向に移動するサーボモータの動作と、テーブルをＹ軸方向に移動するサーボモータの動作とが逆になるように、各サーボモータが制御される。

テーブル２５１の移動軌跡が図３に示す四角形の場合は、図３に示す位置Ｂ１では、テーブルをＸ軸方向に移動するサーボモータは回転方向が急激に反転し、テーブルは位置Ｂ１を挟んでＸ軸方向に急激に直線反転するように移動する。一方、位置Ｂ１で、テーブルをＹ軸方向に移動するサーボモータは位置Ｂ１の前後の速度と同じ速度で回転し、テーブルはＹ軸方向に位置Ｂ１の前後の速度と同じ速度で移動する。図３に示す位置Ｂ２では、テーブルをＸ軸方向に移動するサーボモータの動作と、テーブルをＹ軸方向に移動するサーボモータの動作とが逆になるように、各サーボモータが制御される。

テーブル２５１の移動軌跡が図４に示す八角形の場合は、図４に示すように、角の位置Ｃ１で、テーブルをＹ軸方向に移動するモータは回転速度が遅くなり、テーブルをＸ軸方向に移動するモータは回転速度が速くなる。
角の位置Ｃ２で、テーブルをＹ軸方向に移動するモータは、回転方向が反転し、テーブルはＹ軸方向に直線反転するように移動する。また、テーブルをＸ軸方向に移動するモータは、位置Ｃ１から位置Ｃ２及び位置Ｃ２から位置Ｃ３にかけて、同じ回転方向で、等速度で回転する。
角の位置Ｃで、テーブルをＹ軸方向に移動するモータは回転速度が速くなり、テーブルをＸ軸方向に移動するモータは回転速度が遅くなる。
角の位置Ｃ４で、テーブルをＸ軸方向に移動するモータは、回転方向が反転し、テーブルはＸ軸方向に直線反転するように移動する。また、テーブルをＹ軸方向に移動するモータは、位置Ｃ３から位置Ｃ４及び位置Ｃ４から次の角の位置にかけて、同じ回転方向で、等速度で回転する。

テーブル２５１の移動軌跡が八角形の角が一つ置きに円弧に置き換えられた形の場合は、図５に示すように、角の位置Ｄ１で、テーブルをＹ軸方向に移動するモータは回転速度が遅くなり、テーブルをＸ軸方向に移動するモータは回転速度が速くなる。
円弧の位置Ｄ２で、テーブルをＹ軸方向に移動するモータは、回転方向が反転し、テーブルはＹ軸方向に直線反転するように移動する。また、テーブルをＸ軸方向に移動するモータは位置Ｄ１から位置Ｄ３にかけて同じ回転方向で、等速度で回転する。図４に示した移動軌跡が八角形の場合と異なり、テーブルをＹ軸方向に移動するモータは位置Ｄ２の前後で円弧の移動軌跡が形成されるように、位置Ｄ２に向かって徐々に減速され、位置Ｄ２で回転が停止され、位置Ｄ２を過ぎると回転方向が徐々に増加していく。
角の位置Ｄ３で、テーブルをＹ軸方向に移動するモータは回転速度が速くなり、テーブルをＸ軸方向に移動するモータは回転速度が遅くなる。
円弧の位置Ｄ４で、テーブルをＸ軸方向に移動するモータは、回転方向が反転し、テーブルはＸ軸方向に直線反転するように移動する。また、テーブルをＹ軸方向に移動するモータは位置Ｄ３から位置Ｄ４、及び位置Ｄ４から次の角の位置にかけて同じ回転方向で、等速度で回転する。テーブルをＸ軸方向に移動するモータは位置Ｄ４の前後で円弧の移動軌跡が形成されるように、位置Ｄ４に向かって徐々に減速され、位置Ｄ４で回転が停止され、位置Ｄ４を過ぎると回転方向が徐々に増加していく。

本実施形態では、以上説明した、学習時の加工プログラムにより指定される移動軌跡の、位置Ａ１とＡ２、位置Ｂ１とＢ２、位置Ｃ２とＣ４、及び位置Ｄ２とＤ４により、Ｘ軸方向又はＹ軸方向の一方の回転方向が反転する場合に生ずる振動を、加速度センサ３００を用いて測定することができる。また、位置Ｃ１とＣ３、及び位置Ｄ１とＤ３により、反転しない線形制御において回転速度が変更されたときの振動を、加速度センサ３００を用いて測定することができる。その結果、振動を抑制するように、フィルタ１１０の係数の機械学習を行うことができる。

以下、機械学習部１３０について更に詳細に説明する。
以下の説明では機械学習部１３０が強化学習を行う場合について説明するが、機械学習部１３０が行う学習は特に強化学習に限定されず、例えば、教師あり学習を行う場合にも本発明は適用可能である。

機械学習部１３０に含まれる各機能ブロックの説明に先立って、まず強化学習の基本的な仕組みについて説明する。エージェント（本実施形態における機械学習部１３０に相当）は、環境の状態を観測し、ある行動を選択し、当該行動に基づいて環境が変化する。環境の変化に伴って、何らかの報酬が与えられ、エージェントはより良い行動の選択（意思決定）を学習する。
教師あり学習が、完全な正解を示すのに対して、強化学習における報酬は、環境の一部の変化に基づく断片的な値であることが多い。このため、エージェントは、将来にわたっての報酬の合計を最大にするように行動を選択するように学習する。

このように、強化学習では、行動を学習することにより、環境に行動が与える相互作用を踏まえて適切な行動を学習、すなわち将来的に得られる報酬を最大にするための学習する方法を学ぶ。これは、本実施形態において、例えば、機械端の振動を抑制するための行動情報を選択するという、未来に影響をおよぼすような行動を獲得できることを表している。

ここで、強化学習としては、任意の学習方法を用いることができるが、以下の説明では、或る環境の状態Ｓの下で、行動Ａを選択する価値Ｑ（Ｓ，Ａ）を学習する方法であるＱ学習（Q-learning）を用いる場合を例にとって説明をする。
Ｑ学習では、或る状態Ｓのとき、取り得る行動Ａのなかから、価値Ｑ（Ｓ，Ａ）の最も高い行動Ａを最適な行動として選択することを目的とする。

しかしながら、Ｑ学習を最初に開始する時点では、状態Ｓと行動Ａとの組合せについて、価値Ｑ（Ｓ，Ａ）の正しい値は全く分かっていない。そこで、エージェントは、或る状態Ｓの下で様々な行動Ａを選択し、その時の行動Ａに対して、与えられる報酬に基づいて、より良い行動の選択をすることにより、正しい価値Ｑ（Ｓ，Ａ）を学習していく。

また、将来にわたって得られる報酬の合計を最大化したいので、最終的にＱ（Ｓ，Ａ）＝Ｅ［Σ（γ^ｔ）ｒ_ｔ］となるようにすることを目指す。ここでＥ［］は期待値を表し、ｔは時刻、γは後述する割引率と呼ばれるパラメータ、ｒ_ｔは時刻ｔにおける報酬、Σは時刻ｔによる合計である。この式における期待値は、最適な行動に従って状態変化した場合の期待値である。しかしＱ学習の過程において最適な行動が何であるのかは不明であるので、様々な行動を行うことにより、探索しながら強化学習をする。このような価値Ｑ（Ｓ，Ａ）の更新式は、例えば、次の数式３（以下に数３として示す）により表すことができる。

上記の数式３において、Ｓ_ｔは、時刻ｔにおける環境の状態を表し、Ａ_ｔは、時刻ｔにおける行動を表す。行動Ａ_ｔにより、状態はＳ_ｔ＋１に変化する。ｒ_ｔ＋１は、その状態の変化により得られる報酬を表している。また、ｍａｘの付いた項は、状態Ｓ_ｔ＋１の下で、その時に分かっている最もＱ値の高い行動Ａを選択した場合のＱ値にγを乗じたものになる。ここで、γは、０＜γ≦１のパラメータで、割引率と呼ばれる。また、αは、学習係数で、０＜α≦１の範囲とする。

上述した数式３は、試行Ａ_ｔの結果、返ってきた報酬ｒ_ｔ＋１を元に、状態Ｓ_ｔにおける行動Ａ_ｔの価値Ｑ（Ｓ_ｔ，Ａ_ｔ）を更新する方法を表している。
この更新式は、状態Ｓ_ｔにおける行動Ａ_ｔの価値Ｑ（Ｓ_ｔ，Ａ_ｔ）よりも、行動Ａ_ｔによる次の状態Ｓ_ｔ＋１における最良の行動の価値ｍａｘ_ａＱ（Ｓ_ｔ＋１，Ａ）の方が大きければ、Ｑ（Ｓ_ｔ，Ａ_ｔ）を大きくし、逆に小さければ、Ｑ（Ｓ_ｔ，Ａ_ｔ）を小さくすることを示している。つまり、或る状態における或る行動の価値を、それによる次の状態における最良の行動の価値に近づける。ただし、その差は、割引率γと報酬ｒ_ｔ＋１のあり方により変わってくるが、基本的には、ある状態における最良の行動の価値が、それに至る一つ前の状態における行動の価値に伝播していく仕組みになっている。

ここで、Ｑ学習では、すべての状態行動ペア（Ｓ，Ａ）についてのＱ（Ｓ，Ａ）のテーブルを作成して、学習を行う方法がある。しかし、すべての状態行動ペアのＱ（Ｓ，Ａ）の値を求めるには状態数が多すぎて、Ｑ学習が収束するのに多くの時間を要してしまう場合がある。

そこで、公知のＤＱＮ（Deep Q-Network）と呼ばれる技術を利用するようにしてもよい。具体的には、価値関数Ｑを適当なニューラルネットワークを用いて構成し、ニューラルネットワークのパラメータを調整することにより、価値関数Ｑを適当なニューラルネットワークで近似することにより価値Ｑ（Ｓ，Ａ）の値を算出するようにしてもよい。ＤＱＮを利用することにより、Ｑ学習が収束するのに要する時間を短くすることが可能となる。なお、ＤＱＮについては、例えば、以下の非特許文献に詳細な記載がある。

＜非特許文献＞
「Human-level control through deep reinforcement learning」、Volodymyr Mnih1著［ｏｎｌｉｎｅ］、［平成２９年１月１７日検索］、インターネット〈ＵＲＬ：http://files.davidqiu.com/research/nature14236.pdf〉

以上説明をしたＱ学習を機械学習部１３０が行う。具体的には、機械学習部１３０は、フィルタ１１０の伝達関数の各係数ω、ζ、Ｒの値、学習時の加工プログラムを実行することで取得される加速度センサ３００からの測定加速度、及び位置指令を状態Ｓとして、当該状態Ｓに係る、フィルタ１１０の伝達関数の各係数ω、ζ、Ｒの値の調整を行動Ａとして選択する価値Ｑを学習する。

機械学習部１３０は、フィルタ１１０の伝達関数の各係数ω、ζ、Ｒに基づいて、前述した学習時の加工プログラムの一つ又は複数を組み合わせて実行することで、加速度センサ３００からの測定加速度及び位置指令を含む状態情報Ｓを観測して、行動Ａを決定する。機械学習部１３０は、行動Ａをするたびに報酬が返ってくる。機械学習部１３０は、例えば、将来にわたっての報酬の合計が最大になるように最適な行動Ａを試行錯誤的に探索する。そうすることで、機械学習部１３０は、フィルタ１１０の伝達関数の各係数ω、ζ、Ｒに基づいて、学習時の加工プログラムを実行することで取得される加速度センサ３００からの測定加速度、及び位置指令を含む状態Ｓに対して、最適な行動Ａ（すなわち、フィルタ１１０の伝達関数の最適な係数ω、ζ、Ｒ）を選択することが可能となる。

すなわち、機械学習部１３０により学習された価値関数Ｑに基づいて、或る状態Ｓに係るフィルタ１１０の伝達関数の各係数ω、ζ、Ｒに対して適用される行動Ａのうち、Ｑの値が最大となるような行動Ａを選択することで、学習時の加工プログラムを実行することで生ずる機械端の振動が最小になるような行動Ａ（すなわち、フィルタ１１０の伝達関数の各係数ω、ζ、Ｒ）を選択することが可能となる。

図６は本発明の一実施形態の機械学習部１３０を示すブロック図である。
上述した強化学習を行うために、図６に示すように、機械学習部１３０は、状態情報取得部１３１、学習部１３２、行動情報出力部１３３、価値関数記憶部１３４、及び最適化行動情報出力部１３５を備える。学習部１３２は報酬出力部１３２１、価値関数更新部１３２２、及び行動情報生成部１３２３を備える。

状態情報取得部１３１は、フィルタ１１０の伝達関数の各係数ω、ζ、Ｒに基づいて、学習時の加工プログラムを実行することで取得される加速度センサ３００からの測定加速度、及び位置指令を含む状態Ｓを取得する。この状態情報Ｓは、Ｑ学習における、環境状態Ｓに相当する。
状態情報取得部１３１は、取得した状態情報Ｓを学習部１３２に対して出力する。

なお、最初にＱ学習を開始する時点でのフィルタ１１０の伝達関数の各係数ω、ζ、Ｒは、予めユーザが生成するようにする。本実施形態では、ユーザが作成したフィルタ１１０の伝達関数の各係数ω、ζ、Ｒの初期設定値を、強化学習により最適なものに調整する。
なお、係数ω、ζ、Ｒは予め操作者が工作機械を調整している場合には、調整済の値を初期値として機械学習してもよい。

学習部１３２は、或る環境状態Ｓの下で、ある行動Ａを選択する場合の価値Ｑ（Ｓ，Ａ）を学習する部分である。

報酬出力部１３２１は、或る状態Ｓの下で、行動Ａを選択した場合の報酬を算出する部分である。ここで、状態Ｓにおける状態変数である測定加速度をｙ（Ｓ）、状態情報Ｓに係る状態変数である位置指令をｒ（Ｓ）、行動情報Ａ（フィルタ１１０の伝達関数の各係数ω、ζ、Ｒの修正）により状態Ｓから変化した状態情報Ｓ´に係る状態変数である測定加速度をｙ（Ｓ´）、状態情報Ｓ´に係る状態変数である位置指令をｒ（Ｓ´）で示す。

評価関数ｆは、例えば、以下の数式４（以下に数４として示す）を適用することができる。数式４は、評価関数ｆが位置指令ｒの２回微分と測定加速度ｙとの差の絶対値を２乗した値の時間積分であることを示している。

なお、評価関数は式（ｄ^２ｒ／ｄｔ^２−ｙ）の絶対値の時間積分、式（ｄ^２ｒ／ｄｔ^２−ｙ）の絶対値に時間ｔの重み付けした時間積分、式（ｄ^２ｒ／ｄｔ^２−ｙ）の絶対値の集合の最大値を用いてもよい。

このとき、行動情報Ａにより修正された状態情報Ｓ´に係る修正後のフィルタ１１０に基づいてモータ制御装置１００が動作したときの評価関数ｆ（ｒ（Ｓ´），ｙ（Ｓ´））が、行動情報Ａにより修正される前の状態情報Ｓに係る修正前のフィルタ１１０に基づいてモータ制御装置１００が動作したときの評価関数ｆ（ｒ（Ｓ），ｙ（Ｓ））よりも大きくなった場合に、報酬出力部１３２１は、報酬の値を負の値とする。

一方で、行動情報Ａにより修正された状態情報Ｓ´に係る修正後のフィルタ１１０に基づいてモータ制御装置１００が動作したときの評価関数ｆ（ｒ（Ｓ´），ｙ（Ｓ´））が、行動情報Ａにより修正される前の状態情報Ｓに係る修正前のフィルタ１１０に基づいてモータ制御装置１００が動作したときの評価関数ｆ（ｒ（Ｓ），ｙ（Ｓ））よりも小さくなった場合に、報酬出力部１３２１は、報酬の値を正の値とする。
なお、行動情報Ａにより修正された状態情報Ｓ´に係る修正後のフィルタ１１０に基づいてモータ制御装置１００が動作したときの評価関数ｆ（ｒ（Ｓ´），ｙ（Ｓ´））が、行動情報Ａにより修正される前の状態情報Ｓに係る修正前のフィルタ１１０に基づいてモータ制御装置１００が動作したときの評価関数ｆ（ｒ（Ｓ），ｙ（Ｓ））と等しい場合は、報酬出力部１３２１は、報酬の値をゼロとする。

また、行動Ａを実行後の状態Ｓ´の評価関数ｆ（ｒ（Ｓ´），ｙ（Ｓ´））が、前の状態Ｓにおける評価関数ｆ（ｒ（Ｓ），ｙ（Ｓ））より大きくなった場合の負の値としては、比率に応じて負の値を大きくするようにしてもよい。つまりｆ（ｒ（Ｓ´），ｙ（Ｓ´））の値が大きくなった度合いに応じて負の値が大きくなるようにするとよい。逆に、行動Ａを実行後の状態Ｓ´の評価関数ｆ（ｒ（Ｓ´），ｙ（Ｓ´））が、前の状態Ｓにおける評価関数ｆ（ｒ（Ｓ），ｙ（Ｓ））より小さくなった場合の正の値としては、比率に応じて正の値を大きくするようにしてもよい。つまりｆ（ｒ（Ｓ´），ｙ（Ｓ´））の値が小さくなった度合いに応じて正の値が大きくなるようにするとよい。

価値関数更新部１３２２は、状態Ｓと、行動Ａと、行動Ａを状態Ｓに適用した場合の状態Ｓ´と、上記のようにして算出された報酬の値と、に基づいてＱ学習を行うことにより、価値関数記憶部１３４が記憶する価値関数Ｑを更新する。
価値関数Ｑの更新は、オンライン学習で行ってもよく、バッチ学習で行ってもよく、ミニバッチ学習で行ってもよい。
オンライン学習は、或る行動Ａを現在の状態Ｓに適用することにより、状態Ｓが新たな状態Ｓ´に遷移する都度、即座に価値関数Ｑの更新を行う学習方法である。また、バッチ学習は、或る行動Ａを現在の状態Ｓに適用することにより、状態Ｓが新たな状態Ｓ´に遷移することを繰り返すことにより、学習用のデータを収集し、収集した全ての学習用データを用いて、価値関数Ｑの更新を行う学習方法である。更に、ミニバッチ学習は、オンライン学習と、バッチ学習の中間的な、ある程度学習用データが溜まるたびに価値関数Ｑの更新を行う学習方法である。

行動情報生成部１３２３は、現在の状態Ｓに対して、Ｑ学習の過程における行動Ａを選択する。行動情報生成部１３２３は、Ｑ学習の過程において、フィルタ１１０の伝達関数の各係数ω、ζ、Ｒを修正する動作（Ｑ学習における行動Ａに相当）を行わせるために、行動情報Ａを生成して、生成した行動情報Ａを行動情報出力部１３３に対して出力する。より具体的には、行動情報生成部１３２３は、例えば、状態Ｓに含まれるフィルタ１１０の伝達関数の各係数ω、ζ、Ｒに対して行動Ａに含まれる、フィルタ１１０の伝達関数の各係数ω、ζ、Ｒをインクレメンタルに加算又は減算させる。

そして、行動情報生成部１３２３は、フィルタ１１０の伝達関数の各係数ω、ζ、Ｒの増加又は減少を適用して、状態Ｓ´に遷移して、プラスの報酬（正の値の報酬）が返った場合、次の行動Ａ´としては、フィルタ１１０の伝達関数の各係数ω、ζ、Ｒに対して、前回のアクションと同様にインクレメンタルに加算又は減算させる等、評価関数ｆの値がより小さくなるような行動Ａ´を選択する方策を取るようにしてもよい。

また、逆に、マイナスの報酬（負の値の報酬）が返った場合、行動情報生成部１３２３は、次の行動Ａ´としては、例えば、フィルタ１１０の伝達関数の各係数ω、ζ、Ｒに対して、前回のアクションとは逆にインクレメンタルに減算又は加算させる等、評価関数ｆが前回の値よりも小さくなるような行動Ａ´を選択する方策を取るようにしてもよい。

また、行動情報生成部１３２３は、現在の推定される行動Ａの価値の中で、最も価値Ｑ（Ｓ，Ａ）の高い行動Ａ´を選択するグリーディ法や、ある小さな確率εでランダムに行動Ａ´選択し、それ以外では最も価値Ｑ（Ｓ，Ａ）の高い行動Ａ´を選択するεグリーディ法といった公知の方法により、行動Ａ´を選択する方策を取るようにしてもよい。

行動情報出力部１３３は、学習部１３２から出力される行動情報Ａをフィルタ１１０に対して送信する部分である。フィルタ１１０は上述したように、この行動情報に基づいて、現在の状態Ｓ、すなわち現在設定されている各係数ω、ζ、Ｒを微修正することで、次の状態Ｓ´（すなわち修正された、フィルタ１１０の各係数）に遷移する。

価値関数記憶部１３４は、価値関数Ｑを記憶する記憶装置である。価値関数Ｑは、例えば状態Ｓ、行動Ａ毎にテーブル（以下、行動価値テーブルと呼ぶ）として格納してもよい。価値関数記憶部１３４に記憶された価値関数Ｑは、価値関数更新部１３２２により更新される。また、価値関数記憶部１３４に記憶された価値関数Ｑは、他の機械学習部１３０との間で共有されるようにしてもよい。価値関数Ｑを複数の機械学習部１３０で共有するようにすれば、各機械学習部１３０にて分散して強化学習を行うことが可能となるので、強化学習の効率を向上させることが可能となる。

最適化行動情報出力部１３５は、価値関数更新部１３２２がＱ学習を行うことにより更新した価値関数Ｑに基づいて、価値Ｑ（Ｓ，Ａ）が最大となる動作をフィルタ１１０に行わせるための行動情報Ａ（以下、「最適化行動情報」と呼ぶ）を生成する。
より具体的には、最適化行動情報出力部１３５は、価値関数記憶部１３４が記憶している価値関数Ｑを取得する。この価値関数Ｑは、上述したように価値関数更新部１３２２がＱ学習を行うことにより更新したものである。そして、最適化行動情報出力部１３５は、価値関数Ｑに基づいて、行動情報を生成し、生成した行動情報をフィルタ１１０に対して出力する。この最適化行動情報には、行動情報出力部１３３がＱ学習の過程において出力する行動情報と同様に、フィルタ１１０の伝達関数の各係数ω、ζ、Ｒを修正する情報が含まれる。

フィルタ１１０では、この行動情報に基づいて伝達関数の各係数ω、ζ、Ｒが修正される。
機械学習部１３０は、以上の動作で、フィルタ１１０の伝達関数の各係数ω、ζ、Ｒの最適化を行い、機械端の振動を抑制するように動作することができる。
以上のように、本発明に係る機械学習部１３０を利用することで、フィルタ１１０のパラメータ調整を簡易化することができる。

以上、モータ制御装置１００に含まれる機能ブロックについて説明した。
これらの機能ブロックを実現するために、モータ制御装置１００は、ＣＰＵ（Central Processing Unit）等の演算処理装置を備える。また、モータ制御装置１００は、アプリケーションソフトウェアやＯＳ（Operating System）等の各種の制御用プログラムを格納したＨＤＤ（Hard Disk Drive）等の補助記憶装置や、演算処理装置がプログラムを実行する上で一時的に必要とされるデータを格納するためのＲＡＭ（Random Access Memory）といった主記憶装置も備える。

そして、モータ制御装置１００において、演算処理装置が補助記憶装置からアプリケーションソフトウェアやＯＳを読み込み、読み込んだアプリケーションソフトウェアやＯＳを主記憶装置に展開させながら、これらのアプリケーションソフトウェアやＯＳに基づいた演算処理を行なう。また、この演算結果に基づいて、各装置が備える各種のハードウェアを制御する。これにより、本実施形態の機能ブロックは実現される。つまり、本実施形態は、ハードウェアとソフトウェアが協働することにより実現することができる。

機械学習部１３０については機械学習に伴う演算量が多いため、例えば、パーソナルコンピュータにＧＰＵ（Graphics Processing Units）を搭載し、ＧＰＧＰＵ（General-Purpose computing on Graphics Processing Units）と呼ばれる技術により、ＧＰＵを機械学習に伴う演算処理に利用するようにすると高速処理できるようになるのでよい。更には、より高速な処理を行うために、このようなＧＰＵを搭載したコンピュータを複数台用いてコンピュータ・クラスターを構築し、このコンピュータ・クラスターに含まれる複数のコンピュータにて並列処理を行うようにしてもよい。

次に、図７のフローチャートを参照して本実施形態におけるＱ学習時の機械学習部１３０の動作について説明をする。

ステップＳ１１において、状態情報取得部１３１がモータ制御装置１００から状態情報Ｓを取得する。取得した状態情報は、価値関数更新部１３２２や行動情報生成部１３２３に対して出力される。上述したように、この状態情報Ｓは、Ｑ学習における状態に相当する情報であり、ステップＳ１１時点での、フィルタ１１０の伝達関数の各係数ω、ζ、Ｒが含まれる。こうして、フィルタ１１０の伝達関数の各係数が初期値であるときの、所定の送り速度且つ移動軌跡の形状に対応する位置指令ｒ（Ｓ）、及び測定加速度ｙ（Ｓ）が取得される。

最初にＱ学習を開始する時点での状態Ｓ_０における位置指令ｒ（Ｓ_０）、及び加速度センサ３００からの測定加速度ｙ（Ｓ_０）は、学習時の加工プログラムでモータ制御装置１００を動作させることで得られる。モータ制御装置１００に入力される位置指令は、加工プログラムにより指定された所定の移動軌跡、例えば、図４及び図５に示した八角形の移動軌跡に対応する位置指令である。その位置指令は、フィルタ１１０及び機械学習部１３０に入力される。フィルタ１１０の伝達関数の各係数ω、ζ、Ｒの初期値は予めユーザが生成し、機械学習部１３０にその係数ω、ζ、Ｒの初期値が送られる。加速度センサ３００は、前述した移動軌跡の位置Ｃ１−Ｃ４、及び位置Ｄ１−Ｄ４等の各位置における測定加速度ｙ（Ｓ_０）を機械学習部１３０に出力する。なお、機械学習部１３０において、前述した移動軌跡の位置Ｃ１−Ｃ４、及び位置Ｄ１−Ｄ４等の各位置における位置指令ｒ（Ｓ_０）と測定加速度ｙ（Ｓ_０）を抽出するようにしてもよい。

ステップＳ１２において、行動情報生成部１３２３は新たな行動情報Ａを生成し、生成した新たな行動情報Ａを、行動情報出力部１３３を介してフィルタ１１０に対して出力する。行動情報生成部１３２３は前述した方策に基づいて、新たな行動情報Ａを出力する。なお、行動情報Ａを受信したモータ制御装置１００は、受信した行動情報に基づいて現在の状態Ｓに係るフィルタ１１０の伝達関数の各係数ω、ζ、Ｒを修正した状態Ｓ´により、サーボモータ１２７を含む工作機械を駆動させる。上述したように、この行動情報は、Ｑ学習における行動Ａに相当するものである。

ステップＳ１３において、状態情報取得部１３１は、新たな状態Ｓ´における、位置指令ｒ（Ｓ´）、加速度センサ３００からの測定加速度ｙ（Ｓ´）及びフィルタ１１０から伝達関数の各係数ω、ζ、Ｒを取得する。こうして、状態情報取得部１３１は、フィルタ１１０からから状態Ｓ´における係数ω、ζ、Ｒであるときの、八角形の移動軌跡（具体的には、前述した移動軌跡の位置Ｃ１−Ｃ４、及び位置Ｄ１−Ｄ４等の各位置）に対応する、位置指令ｒ（Ｓ´）及び測定加速度ｙ（Ｓ´）を取得する。取得した状態情報は、報酬出力部１３２１に対して出力される。

ステップＳ１４において、報酬出力部１３２１は、状態Ｓ´における評価関数ｆ（ｒ（Ｓ´），ｙ（Ｓ´））と状態Ｓにおける評価関数ｆ（ｒ（Ｓ），ｙ（Ｓ））との大小関係を判断し、ｆ（ｒ（Ｓ´），ｙ（Ｓ´））＞ｆ（ｒ（Ｓ），ｙ（Ｓ））の場合には、ステップＳ１５において、報酬を負の値とする。ｆ（ｒ（Ｓ´），ｙ（Ｓ´））＜ｆ（ｒ（Ｓ），ｙ（Ｓ））の場合には、ステップＳ１６において、報酬を正の値とする。ｆ（ｒ（Ｓ´），ｙ（Ｓ´））＝ｆ（ｒ（Ｓ），ｙ（Ｓ））の場合には、ステップＳ１７において、報酬をゼロとする。なお、報酬の負の値、正の値について重みづけを行うようにしてもよい。なお、状態ＳはＱ学習を開始する時点では状態Ｓ_０となる。

ステップＳ１５、ステップＳ１６及びステップＳ１７の何れかが終了すると、ステップＳ１８において、この何れかのステップにて算出された報酬の値に基づいて、価値関数更新部１３２２が、価値関数記憶部１３４に記憶している価値関数Ｑを更新する。そして、再度ステップＳ１１に戻り、上述した処理を繰り返すことにより、価値関数Ｑは適切な値に収束していく。なお、上述した処理を、所定回数繰り返したことや、所定時間繰り返したことを条件として処理を終了するようにしてもよい。
なお、ステップＳ１８はオンライン更新を例示しているが、オンライン更新に替えてバッチ更新又はミニバッチ更新に置き換えてもよい。

以上、図７を参照して説明した動作により、本実施形態では、機械学習部１３０を利用することで、フィルタ１１０の伝達関数の各係数ω、ζ、Ｒの調整のための、適切な価値関数を得ることができ、フィルタ１１０の伝達関数の各係数ω、ζ、Ｒの最適化を簡易化することができる、という効果を奏する。
次に、図８のフローチャートを参照して、最適化行動情報出力部１３５による最適化行動情報の生成時の動作について説明をする。
まず、ステップＳ２１において、最適化行動情報出力部１３５は、価値関数記憶部１３４に記憶している価値関数Ｑを取得する。価値関数Ｑは、上述したように価値関数更新部１３２２がＱ学習を行うことにより更新したものである。

ステップＳ２２において、最適化行動情報出力部１３５は、この価値関数Ｑに基づいて、最適化行動情報を生成し、生成した最適化行動情報をフィルタ１１０に対して出力する。

また、図８を参照して説明した動作により、本実施形態では、機械学習部１３０により学習することにより求められる価値関数Ｑに基づいて、最適化行動情報を生成し、この最適化行動情報に基づいて、現在設定されているフィルタ１１０の伝達関数の各係数ω、ζ、Ｒの調整を簡易化するとともに、機械端の振動を抑制し、ワークの加工面の品位を向上させることができる。外部測定器は、モータ制御装置の外に配置されるため、機械学習後に外部測定器を取り外することが可能となり、コストを低減するとともに信頼性を向上させることができる。

上記のモータ制御装置のサーボ制御部及び機械学習部に含まれる各構成部は、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。また、上記のモータ制御装置に含まれる各構成部のそれぞれの協働により行なわれるサーボ制御方法も、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。ここで、ソフトウェアによって実現されるとは、コンピュータがプログラムを読み込んで実行することにより実現されることを意味する。

プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えば、フレキシブルディスク、ハードディスクドライブ）、光磁気記録媒体（例えば、光磁気ディスク）、ＣＤ−ＲＯＭ(Read Only Memory)、ＣＤ−Ｒ、ＣＤ−Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ(Programmable ROM)、ＥＰＲＯＭ(Erasable PROM)、フラッシュＲＯＭ、ＲＡＭ(random access memory）)を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。

上述した実施形態は、本発明の好適な実施形態ではあるが、上記実施形態のみに本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において種々の変更を施した形態での実施が可能である。

上述した実施形態では、外部測定器として加速度センサを用い、測定情報が加速度情報である場合について説明したが、加速度情報を得る場合に、外部測定器として位置センサ、速度センサを用いて、位置情報、速度情報を得て、それぞれ１回微分、２回微分して加速度情報を得てもよい。

また、評価関数ｆは、位置指令ｒを２回微分した値ｄ^２ｒ／ｄｔ^２と測定加速度ｙとの差、即ち加速度偏差を用いた関数としたが、位置偏差又は速度偏差を用いた関数としてもよい。
具体的には、評価関数として、位置偏差を用いる場合には、機械学習部１３０は、状態情報として、位置指令と、外部測定器としての位置センサからの測定位置を取得し、位置指令と測定位置との差（位置偏差）の絶対値の時間積分、位置偏差の絶対値の２乗の時間積分、位置偏差の絶対値に時間ｔの重み付けした時間積分、位置偏差の絶対値の集合の最大値を評価関数とすることができる。

また、評価関数として、速度偏差を用いる場合には、機械学習部１３０は、状態情報として、位置指令と、外部測定器としての速度センサからの測定位置を取得し、位置指令を１回微分した値と測定速度との差（速度偏差）の絶対値の時間積分、速度偏差の絶対値の２乗の時間積分、速度偏差の絶対値に時間ｔの重み付けした時間積分、速度偏差の絶対値の集合の最大値を評価関数とすることができる。

位置偏差と速度偏差と加速度偏差とを用いた評価関数の例は、例えば、[ｃ_a×（位置偏差）^２＋ｃ_ｂ×（速度偏差）^２＋ｃ_ｃ×（加速度偏差）^２]の時間積分である。係数ｃ_ａ、ｃ_ｂ、ｃ_ｃは重み付けを与える係数である。

外部測定器として位置センサを用いる場合には、例えば、テーブルに外部測定器としてスケール（リニアスケール）を取り付ける。図９は機械本体２５０のテーブル２５１にスケールを取り付けた状態を示す説明図である。この場合、テーブル２５１の位置をスケール３０１で検出して、位置情報を機械学習部１３０に出力する。
また、上述した実施形態では、工作機械２００に１つの共振点がある場合について説明したが、工作機械２００に複数の共振点がある場合もある。工作機械２００に複数の共振点がある場合には、各共振点に対応するようにフィルタを複数個設けて、直列に接続することで、すべての共振を減衰させることができる。図１０は複数のフィルタを直接接続してフィルタを構成した例を示すブロック図である。図１０において、ｍ個（ｍは２以上の自然数）の共振点がある場合に、フィルタ１１０は、ｍ個のフィルタ１１０−１〜１１０−ｍを直列接続して構成する。ｍ個のフィルタ１１０−１〜１１０−ｍのそれぞれの係数ω、ζ、Ｒについて、順次、共振点を減衰させる最適値を機械学習により求めていく。

図１に示した、モータ制御装置１００のサーボ制御部１２では、フィードフォワード制御として、位置フィードフォワード部１２４のみを設けた例を示しているが、位置フィードフォワード部１２４の他に、さらに速度フィードフォワード部を設けてもよい。図１に示した速度制御部１２６の出力側に加算器を設け、この加算器の入力側とフィルタ１１０の出力側との間に速度フィードフォワード部を設ける。この加算器は速度制御部１２６の出力と速度フィードフォワード部の出力とを加算して、サーボモータ１２７に出力する。
速度フィードフォワード部は、位置指令値を２回微分して定数βを掛けた値に、数式５（以下に数５として示す）で示す伝達関数Ｈ（ｓ）で示された速度フィードフォワード処理を行い、その処理結果を速度フィードフォワード項として、加算器に出力する。数式５の係数ｃ_ｉ、ｄ_ｊ(Ｘ≧ｉ，ｊ≧０、Ｘは自然数)は伝達関数Ｈ（ｓ）の各係数である。自然数Ｘは数式２の自然数Ｘと同じ値でも別の値でもよい。

また、制御システムの構成は図１の構成以外にも以下の構成がある。
＜機械学習装置がモータ制御装置の外部に設けられた変形例＞
図１１は制御システムの他の構成例を示すブロック図である。図１１に示す制御システム１０Ａが、図１に示した制御システム１０と異なる点は、ｎ（ｎは２以上の自然数）個のモータ制御装置１００Ａ−１〜１００Ａ−ｎと、それぞれ加速度センサ３００−１〜３００−ｎが取り付けられたｎ個の工作機械２００−１〜２００−ｎとがネットワーク４００を介して機械学習装置１３０Ａ−１〜１３０Ａ−ｎが接続されていることである。モータ制御装置１００Ａ−１〜１００Ａ−ｎの各々は機械学習部を備えていない点を除き、図１のモータ制御装置１００と同じ構成を有している。機械学習装置１３０Ａ−１〜１３０Ａ−ｎは図６に示した機械学習部１３０と同じ構成を有している。

ここで、モータ制御装置１００Ａ−１及び加速度センサ３００−１と、機械学習装置１３０Ａ−１とは１対１の組とされて、通信可能に接続されている。モータ制御装置１００Ａ−２〜１００Ａ−ｎ及び加速度センサ３００−１〜３００−ｎと、機械学習装置１３０Ａ−２〜１３０Ａ−ｎについてもモータ制御装置１００Ａ−１及び工作機械２００−１と機械学習装置１３０Ａ−１と同様に接続される。図１１では、モータ制御装置１００Ａ−１〜１００Ａ−ｎ及び加速度センサ３００−１〜３００−ｎと、機械学習装置１３０Ａ−１〜１３０Ａ−ｎとのｎ個の組は、ネットワーク４００を介して接続されているが、モータ制御装置１００Ａ−１〜１００Ａ−ｎ及び加速度センサ３００−１〜３００−ｎと、機械学習装置１３０Ａ−１〜１３０Ａ−ｎとのｎ個の組は、それぞれの組のモータ制御装置及び工作機械と機械学習装置とが接続インタフェースを介して直接接続されてもよい。これらモータ制御装置１００Ａ−１〜１００Ａ−ｎ及び加速度センサ３００−１〜３００−ｎが取り付けられた工作機械２００−１〜２００−ｎと機械学習装置１３０Ａ−１〜１３０Ａ−ｎとのｎ個の組は、例えば同じ工場に複数組設置されていてもよく、それぞれ異なる工場に設置されていてもよい。

なお、ネットワーク４００は、例えば、工場内に構築されたＬＡＮ（Local Area Network）や、インターネット、公衆電話網、或いは、これらの組み合わせである。ネットワーク４００における具体的な通信方式や、有線接続および無線接続のいずれであるか等については、特に限定されない。

＜システム構成の自由度＞
上述した実施形態では、モータ制御装置１００Ａ−１〜１００Ａ−ｎ及び加速度センサ３００−１〜３００−ｎと、機械学習装置１３０Ａ−１〜１３０Ａ−ｎとはそれぞれ１対１の組とされて通信可能に接続されているが、例えば１台の機械学習装置が複数のモータ制御装置及び複数の加速度センサとネットワーク４００を介して通信可能に接続され、各モータ制御装置と各工作機械の機械学習を実施するようにしてもよい。
その際、１台の機械学習装置の各機能を、適宜複数のサーバに分散する、分散処理システムとしてもよい。また、クラウド上で仮想サーバ機能等を利用して、１台の機械学習装置の各機能を実現してもよい。

また、ｎ台の同じ型名、同一仕様、又は同一シリーズのモータ制御装置１００Ａ−１〜１００Ａ−ｎ及び工作機械２００−１〜２００−ｎとそれぞれ対応するｎ個の機械学習装置１３０Ａ−１〜１３０Ａ−ｎがあった場合に、各機械学習装置１３０Ａ−１〜１３０Ａ−ｎにおける学習結果を共有するように構成するようにしてもよい。そうすることで、より最適なモデルを構築することが可能となる。

１０、１０Ａ制御システム
１００、１００Ａ−１〜１００Ａ−ｎモータ制御装置
１１０フィルタ
１２０サーボ制御部
１２１減算器
１２２位置制御部
１２３加算器
１２４位置フィードフォワード部
１２５減算器
１２６速度制御部
１２７サーボモータ
１２８ロータリーエンコーダ
１２９積分器
１３０機械学習部
１３０Ａ−１〜１３０Ａ−ｎ機械学習装置
１３１状態情報取得部
１３２学習部
１３３行動情報出力部
１３４価値関数記憶部
１３５最適化行動情報出力部
２００、２００−１〜２００−ｎ工作機械
３００加速度センサ
４００ネットワーク

Claims

モータの回転を制御するモータ制御装置に設けられたフィルタの係数を、前記モータ制御装置の外に設けられた外部測定器の測定情報と前記モータ制御装置に入力される制御指令とに基づいて最適化する機械学習を行う機械学習装置。
前記外部測定器の測定情報は、位置、速度、加速度のうち少なくとも１つを含むことを特徴とする請求項１に記載の機械学習装置。
前記モータ制御装置は、位置フィードバックループ及び速度フィードバックループの少なくとも一つを有し、前記フィルタは前記位置フィードバックループ又は前記速度フィードバックループの外にあることを特徴とする請求項１又は２に記載の機械学習装置。
前記モータ制御装置は、フィードバックループを有し、前記外部測定器の測定情報は前記フィードバックループのフィードバック制御に使わないことを特徴とする請求項１又は２に記載の機械学習装置。
前記外部測定器は機械学習による前記フィルタの調整後に取り外されることを特徴とする請求項１から４のいずれか１項に記載の機械学習装置。
前記測定情報と、前記制御指令と、前記フィルタの係数と、を含む状態情報を取得する状態情報取得部と、
前記状態情報に含まれる前記係数の調整情報を含む行動情報を前記フィルタに出力する行動情報出力部と、
前記測定情報と前記制御指令と差に基づく評価関数を用いた、強化学習における報酬の値を出力する報酬出力部と、
前記報酬出力部により出力される報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新部と、
を備えた請求項１から５のいずれか１項に記載の機械学習装置。
前記価値関数更新部により更新された価値関数に基づいて、前記係数の調整情報を出力する最適化行動情報出力部を備えた請求項６に記載の機械学習装置。
請求項１から請求項７のいずれか１項に記載の機械学習装置、モータ、及びフィルタを含み、前記モータの回転を制御するモータ制御装置と、
前記モータ制御装置の外に設けられた外部測定器と、
を備えた制御システム。
モータの回転を制御するモータ制御装置に設けられたフィルタの係数と、前記モータ制御装置の外に設けられた外部測定器の測定情報と、前記モータ制御装置に入力される制御指令とを取得し、前記測定情報と前記制御指令とに基づいて前記係数を最適化する機械学習を行う、機械学習装置の機械学習方法。