JP2020154989A

JP2020154989A - 機械学習装置、制御システム及び機械学習方法

Info

Publication number: JP2020154989A
Application number: JP2019054837A
Authority: JP
Inventors: 亮太郎恒木; Ryotaro Tsuneki; 聡史猪飼; Satoshi Igai
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2019-03-22
Filing date: 2019-03-22
Publication date: 2020-09-24
Anticipated expiration: 2039-03-22
Also published as: JP7000371B2; CN111722530A; CN111722530B; DE102020203377A1; US11243501B2; US20200301376A1

Abstract

【課題】機械端の振動低減と移動軌跡の誤差の低減を両立する。【解決手段】モータを制御するモータ制御装置に設けられたフィルタの第１の係数及び該モータ制御装置に設けられたサーボ制御部の速度フィードフォワード部の第２の係数を、モータ制御装置の外に設けられた外部測定器による、加減速後の測定情報と、モータ制御装置に入力される位置指令と、位置指令とサーボ制御部の検出器からの位置フィードバック情報との差である位置偏差との関数となる評価関数に基づいて第１の係数及び第２の係数を最適化する機械学習を行う。【選択図】図１

Description

本発明は、工作機械、ロボット又は産業機械等のモータを制御するモータ制御装置に設けられる、フィルタ及び速度フィードフォワード部の係数を最適化する機械学習を行う機械学習装置、この機械学習装置を含む制御システム、及び機械学習方法に関する。

フィルタの特性を自動的に調整する装置は、例えば特許文献１及び特許文献２に記載されている。
特許文献１は、チューニングモード時には、周波数をスイープした交流信号を速度指令値の信号に重畳させ、重畳の結果、速度制御部から得られたトルク指令値信号の振幅を検出し、振幅の変化率が正から負に転じたときにおけるトルク指令値信号の周波数をノッチフィルタの中心周波数として設定するサーボアクチュエータを記載している。

特許文献２は、モータの速度を制御する速度フィードバックループを有し、この速度フィードバックループにノッチフィルタ手段を挿入して機械共振を除去するサーボアクチュエータにおいて、速度フィードバックループの周波数応答特性を示すデータを取得するデータ収集手段と、データ収集手段で取得されたデータを移動平均処理する移動平均手段と、この移動平均手段で得られたデータと、データ収集手段で得られたデータとを比較して、速度フィードバックループの共振特性を抽出する比較手段と、比較手段で抽出された共振特性に基づいてノッチフィルタ手段の周波数及びＱ値を設定するノッチフィルタ設定手段と、を備えるサーボアクチュエータを記載している。

フィードフォワード制御を用いたサーボ制御装置は、例えば特許文献３及び特許文献４に記載されている。
特許文献３は、位置指令値から速度指令のフィードフォワード項を計算して、位置制御部から出力される速度指令に加算する神経回路網と、速度指令値からトルク指令のフィードフォワード項を計算して、速度制御部から出力されるトルク指令に加算する神経回路網とを記載している。そして、各神経回路網は駆動系の慣性モーメントの変動及び駆動系の持つ共振特性などを学習して、最適なフォードフォワード項を演算する。

特許文献４は、位置指令値から速度指令のフィードフォワード項を計算して、位置制御器から出力される速度指令に加算する位置フィードフォワード計算部と、位置指令値からトルク指令のフィードフォワード項を計算して、速度制御器から出力されるトルク指令に加算する速度フィードフォワード計算部とを記載している。また特許文献２は、位置指令値とフィードバックされた位置検出値との差である位置偏差に基づいて位置フィードフォワード計算部のゲインを学習する学習制御器と、位置偏差又は、速度指令値とフィードバックされた速度検出値との差である速度偏差に基づいて速度フィードフォワード計算部のゲインを学習する学習制御器とを記載している。

特開平５−１９８５８号公報特開２００９−１０４４３９号公報特開平４−０８４３０３号公報特開平２−０８５９０２号公報

ノッチフィルタ等のフィルタの特性を決めるときには、フィルタの伝達関数の減衰係数、除去したい帯域の中心周波数、及び帯域幅等の複数の係数（パラメータ）を決めることが求められる。また、サーボ制御装置によって回転速度が変更されたときに、位置偏差が発生する場合があるが、このような場合に、速度フィードフォワード部の伝達関数の係数（パラメータ）を決めることが求められる。
そして、フィルタの伝達関数の係数と速度フィードフォワード部の伝達関数の係数の両方の最適値を求めることは容易ではない。

（１）本開示の一態様は、モータを制御するモータ制御装置に設けられたフィルタの第１の係数及び該モータ制御装置に設けられたサーボ制御部の速度フィードフォワード部の第２の係数を、前記モータ制御装置の外に設けられた外部測定器による、加減速後の測定情報と、前記モータ制御装置に入力される位置指令と、該位置指令と前記サーボ制御部の検出器からの位置フィードバック情報との差である位置偏差との関数となる評価関数に基づいて前記第１の係数及び前記第２の係数を最適化する機械学習を行う機械学習装置である。

（２）本開示の他の一態様は、上記（１）に記載の機械学習装置、モータ、速度フィードフォワード部を有するサーボ制御部及びフィルタを含み、前記モータを制御するモータ制御装置と、
前記モータ制御装置の外に設けられた外部測定器と、
を備えた制御システムである。

（３）本開示の更に他の一態様は、モータを制御するモータ制御装置に設けられたフィルタの第１の係数及び該モータ制御装置に設けられたサーボ制御部の速度フィードフォワード部の第２の係数と、前記モータ制御装置の外に設けられた外部測定器による、加減速後の測定情報と、前記モータ制御装置に入力される位置指令と、該位置指令と位置フィードバック情報との差である位置偏差とを取得し、前記測定情報と前記位置指令と前記位置偏差との関数となる評価関数に基づいて前記第１の係数及び前記第２の係数を最適化する機械学習を行う機械学習装置の機械学習方法である。

本開示の各態様によれば、フィルタの特性を決定する第１の係数と速度フィードフォワード部の第２の係数とを機械学習することで、機械端の振動低減と移動軌跡の誤差の低減を両立することが可能となる。また外部測定器は、モータ制御装置の外に配置されるため、機械学習後に外部測定器を取り外すことが可能となり、コストを低減するとともに信頼性を向上させることができる。

本開示の一実施形態のモータ制御装置、及び工作機械及び加速度センサを含む制御システムを示すブロック図である。モータ、工作機械の一部及び加速度センサを示す構成図である。機械本体の移動軌跡が円形の場合のモータの動作を説明するための図である。機械本体の移動軌跡が四角形の場合のモータの動作を説明するための図である。機械本体の移動軌跡が八角形の場合のモータの動作を説明するための図である。機械本体の移動軌跡が角形の角が一つ置きに円弧に置き換えられた形である場合のモータの動作を説明するための図である。本開示の一実施形態の機械学習部を示すブロック図である。指令加速度と機械端加速度を示す特性図である。本開示の一実施形態の機械学習部の動作を説明するフローチャートである。本開示の一実施形態の機械学習部の最適化行動情報出力部の動作を説明するフローチャートである。機械本体にスケールを取り付けた状態を示す説明図である。複数のフィルタを直接接続してフィルタを構成した例を示すブロック図である。制御システムの他の構成例を示すブロック図である。

以下、本開示の実施形態について図面を用いて詳細に説明する。

図１は本開示の一実施形態のモータ制御装置、及び工作機械及び加速度センサを含む制御システムを示すブロック図である。
図１に示すように、制御システム１０は、モータ制御装置１００と、モータ制御装置１００により制御される工作機械２００と、工作機械２００に取り付けられた加速度センサ３００とを備えている。加速度センサ３００はモータ制御装置１００の外に設けられる外部測定器となり、測定される加速度は測定情報となる。
モータ制御装置１００の制御対象として、ここでは工作機械を取り上げて説明するが、制御対象は工作機械に限定されず、例えばロボット，産業機械等であってもよい。モータ制御装置１００は、工作機械、ロボット、産業機械等の制御対象の一部として設けられてもよい。

モータ制御装置１００は、指令フィルタ１１０、サーボ制御部１２０、及び機械学習部１４０を備えている。なお、機械学習部１４０はモータ制御装置１００外に設けられてもよい。
指令フィルタ１１０は、例えばノッチフィルタ、加減速時定数を設定するフィルタ、又は逆特性フィルタ等が用いられる。指令フィルタ１１０には位置指令が入力され、指令フィルタ１１０は、入力された位置指令の整形を行う位置指令値整形器となる。
位置指令は、上位制御装置や外部入力装置等で、所定の加工プログラムに従って、サーボモータ１２７の速度を変化させるためにパルス周波数を変えるように生成される。位置指令は制御指令となる。位置指令は指令フィルタ１１０と機械学習部１４０に出力される。指令フィルタ１１０はサーボ制御部１２０の外、すなわち、後述する位置フィードバックループ及び速度フィードループの外に設けられているが、サーボ制御部１２０の位置フィードバックループ又は速度フィードループの中に設けてもよい。例えばサーボ制御部１２０の後述する速度制御部１２５の出力側又は加算器１２３の出力側に指令フィルタ１１０を接続してもよい。
ただし、サーボ制御部１２０の制御ループ（位置フィードバックループ又は速度フィードバックループ）の外の振動を抑えるため、指令フィルタ１１０は位置フィードバックループ又は速度フィードバックループの外に設けることが好ましい。図１では指令フィルタ１１０は位置偏差を求める後述の減算器１２１の前に配置され、指令フィルタ１１０の出力は減算器１２１及び後述する位置フィードフォワード部１３０に出力される。指令フィルタ１１０の構成は特に限定されないが、２次以上のＩＩＲフィルタ（Infinite impulse response filter；無限インパルス応答フィルタ）であることが望ましい。

数式１（以下に数１として示す）は、指令フィルタ１１０としてのノッチフィルタの伝達関数Ｆ(ρ，ｓ)を示す。パラメータρは係数ω、ζ、Ｒを示す。係数ω、ζ、Ｒは第１の係数となる。
数式１の係数Ｒは減衰係数、係数ωは中心角周波数、係数ζは比帯域である。中心周波数をｆｃ、帯域幅をｆｗとすると、係数ωはω＝２πｆｃ、係数ζはζ＝ｆｗ／ｆｃで表される。

サーボ制御部１２０は、減算器１２１、位置制御部１２２、加算器１２３、減算器１２４、速度制御部１２５、加算器１２６、サーボモータ１２７、積分器１２９、位置フィードフォワード部１３０、及び速度フィードフォワード部１３１を備えている。減算器１２１、位置制御部１２２、加算器１２３、減算器１２４、速度制御部１２５、加算器１２６、サーボモータ１２７、及び積分器１２９は位置フィードバックループを構成する。また、減算器１２４、速度制御部１２５、加算器１２６、及びサーボモータ１２７は速度フィードバックループを構成する。モータとなるサーボモータ１２７には、ロータリーエンコーダ１２８が取り付けられている。ロータリーエンコーダ１２８及び積分器１２９は検出器となり、積分器１２９は位置検出値を位置フィードバック情報として減算器１２１に出力する。サーボモータ１２７は、以下の説明では回転運動をするモータとして説明するが、直線運動をするリニアモータであってもよい。

減算器１２１は指令フィルタ１１０から出力される整形後の位置指令と位置フィードバックされた検出位置との差を求め、その差を位置偏差として位置制御部１２２及び機械学習部１４０に出力する。

位置制御部１２２は、位置偏差にポジションゲインＫｐを乗じた値を、速度指令値として加算器１２３に出力する。

加算器１２３は、速度指令値と位置フィードフォワード部１３０の出力値（位置フィードフォワード項）とを加算して、フィードフォワード制御された速度指令値として減算器１２４に出力する。減算器１２４は加算器１２３の出力と速度フィードバックされた速度検出値との差を求め、その差を速度偏差として速度制御部１２５に出力する。

速度制御部１２５は、速度偏差に積分ゲインＫ１ｖを乗じて積分した値と、速度偏差に比例ゲインＫ２ｖを乗じた値とを加算して、トルク指令値として加算器１２６に出力する。
加算器１２６は、トルク指令値と速度フィードフォワード部１３１の出力値（速度フィードフォワード項）とを加算して、フィードフォワード制御されたトルク指令値としてサーボモータ１２７に出力する。
積分器１２９はロータリーエンコーダ１２８から出力される速度検出値を積分して位置検出値を出力する。

サーボモータ１２７の回転角度位置は、ロータリーエンコーダ１２８によって検出され、速度検出値は速度フィードバック情報（速度ＦＢ情報）として減算器１２４に入力される。速度検出値は積分器１２９で積分されて位置検出値となり、位置検出値は位置フィードバック情報（位置ＦＢ情報）として減算器１２１に入力される。

位置フィードフォワード部１３０は、指令フィルタ１１０から出力される位置指令値を微分して定数を掛けた値に、数式２（以下に数２として示す）で示す伝達関数Ｇ（ｓ）で示された位置フィードフォワード処理を行い、その処理結果を位置フィードフォワード項として、加算器１２３に出力する。数式２の係数ａ_ｉ、ｂ_ｊ(ｍ、ｎ≧ｉ，ｊ≧０、ｍ、ｎは自然数)は伝達関数Ｇ（ｓ）の各係数である。

速度フィードフォワード部１３１は、位置指令値を２回微分して定数を掛けた値に、数式３（以下に数３として示す）で示す伝達関数Ｈ（ｓ）で示された速度フィードフォワード処理を行い、その処理結果を速度フィードフォワード項として、加算器１２６に出力する。数式３の係数ｃ_ｉ、ｄ_ｊ(ｍ、ｎ≧ｉ，ｊ≧０、ｍ、ｎは自然数)は伝達関数Ｈ（ｓ）の各係数である。係数ｃ_ｉ、ｄ_ｊは第２の係数となる。自然数ｍ、ｎは数式２の自然数ｍ、ｎと同じ値でも別の値でもよい。

以上のように、サーボ制御部１２０は構成される。

次に、機械学習部１４０の説明に先立って、工作機械２００及び工作機械２００に取り付けられた加速度センサ３００について説明する。図２は、モータ、工作機械の一部及び加速度センサを示す構成図である。
工作機械２００は、サーボモータ１２７の回転軸に連結された、カップリング（軸継手）２０１、ボールねじ２０２、ボールねじ２０２に螺合された２つのナット２０３ａ、２０３ｂを有する機械本体２０３を備えている。サーボモータ１２７の回転駆動によって、ボールねじ２０２に螺着された２つのナット２０３ａ、２０３ｂがボールねじ２０２の軸方向に移動することで機械本体２０３が移動する。

工作機械２００において、機械本体２０３は被加工物（ワーク）を搭載するテーブルを含み、機械本体２０３をＸ軸方向及びＹ軸方向に移動する場合には、Ｘ軸方向及びＹ軸方向に対してそれぞれ図１に示すモータ制御装置１００が設けられる。機械本体２０３を３軸以上の方向に移動させる場合には、それぞれの軸方向に対してモータ制御装置１００が設けられる。

加速度センサ３００は、サーボ制御部１２０の外に設けられ、ここでは機械本体２０３の機械端に取り付けられる。加速度センサ３００は加工点に近い機械端に取り付けることが望ましい。加速度センサ３００は外部測定器となる。
加速度センサは、一軸、二軸、三軸等の加速度センサが知られているが、必要に応じて、これらの加速度センサを選択することができる。例えば、機械本体２０３をＸ方向及びＹ方向に移動する場合には、２軸の加速度センサを用い、機械本体２０３をＸ方向、Ｙ方向及びＺ方向に移動する場合には、３軸の加速度センサを用いることができる。加速度センサ３００は、加工点に近い場所に設けることが望ましい。
加速度センサ３００は機械本体２０３の加速度を測定して機械学習部１４０に出力する。加速度センサ３００は、機械学習中にのみ用いる場合には、出荷前に機械学習を行って指令フィルタ１１０の係数を調整し、指令フィルタ１１０の調整後に機械本体２０３から取り外してもよい。出荷後に再学習を行う場合、再学習後に取り外してもよい。加速度センサ３００から出力される加速度はサーボ制御部１２０のフィードバック制御に使ってもよいが、フィードバック制御に使わなければ加速度センサ３００は取り外し可能である。この場合、工作機械２００のコストを低減でき、信頼性も向上する。

＜機械学習部１４０＞
機械学習部１４０は、予め設定された加工プログラム（以下、「学習時の加工プログラム」ともいう）を実行し、位置指令、位置偏差及び加速度センサ３００からの加速度測定値を用いて、指令フィルタ１１０の伝達関数の係数ω、ζ、Ｒ及び速度フィードフォワード部１３１の伝達関数の係数ｃ_ｉ、ｄ_ｊを機械学習（以下、学習という）する。機械学習部１４０は機械学習装置となる。機械学習部１４０による学習は出荷前に行われるが、出荷後に再学習を行ってもよい。
ここで、モータ制御装置１００は、学習時の加工プログラムによりサーボモータ１２７を駆動し、被加工物（ワーク）を搭載しない状態で、機械本体２０３を移動させる。Ｘ軸方向及びＹ軸方向に移動される機械本体２０３の任意の点の移動軌跡は、例えば、円形、四角形、八角形、又は八角形の角が一つ置きに円弧に置き換えられた形等である。図３〜図６はそれぞれ、移動軌跡が円形、四角形、八角形、又は八角形の角が一つ置きに円弧に置き換えられた形である場合のモータの動作を説明するための図である。図３〜図６において、機械本体２０３は時計まわりにＸ軸及びＹ軸方向に移動するものとする。

機械本体２０３の移動軌跡が図３に示す円形の場合は、図３に示す位置Ａ１では、機械本体２０３をＹ軸方向に移動するサーボモータは位置Ａ１に近づくにつれて徐々に減速し、位置Ａ１で回転方向が反転し、位置Ａ１を過ぎると徐々に加速する。そして、機械本体２０３は位置Ａ１を挟んでＹ軸方向に徐々に直線反転するように移動する。一方、位置Ａ１で、機械本体２０３をＸ軸方向に移動するサーボモータは位置Ａ１の前後の速度と同じ速度で回転し、機械本体２０３はＸ軸方向に位置Ａ１の前後の速度と同じ速度で移動する。図３に示す位置Ａ２では、機械本体２０３をＸ軸方向に移動するサーボモータの動作と、機械本体２０３をＹ軸方向に移動するサーボモータの動作とが逆になるように、各サーボモータが制御される。

機械本体２０３の移動軌跡が図４に示す四角形の場合は、図４に示す位置Ｂ１では、機械本体２０３をＸ軸方向に移動するサーボモータは回転方向が急激に反転し、機械本体２０３は位置Ｂ１を挟んでＸ軸方向に急激に直線反転するように移動する。一方、位置Ｂ１で、機械本体２０３をＹ軸方向に移動するサーボモータは位置Ｂ１の前後の速度と同じ速度で回転し、機械本体２０３はＹ軸方向に位置Ｂ１の前後の速度と同じ速度で移動する。図４に示す位置Ｂ２では、機械本体２０３をＸ軸方向に移動するサーボモータの動作と、機械本体２０３をＹ軸方向に移動するサーボモータの動作とが逆になるように、各サーボモータが制御される。

機械本体２０３の移動軌跡が図５に示す八角形の場合は、図５に示すように、角の位置Ｃ１で、機械本体２０３をＹ軸方向に移動するモータは回転速度が遅くなり、機械本体２０３をＸ軸方向に移動するモータは回転速度が速くなる。
角の位置Ｃ２で、機械本体２０３をＹ軸方向に移動するモータは、回転方向が反転し、機械本体２０３はＹ軸方向に直線反転するように移動する。また、機械本体２０３をＸ軸方向に移動するモータは、位置Ｃ１から位置Ｃ２及び位置Ｃ２から位置Ｃ３にかけて、同じ回転方向で、等速度で回転する。
角の位置Ｃ３で、機械本体２０３をＹ軸方向に移動するモータは回転速度が速くなり、機械本体２０３をＸ軸方向に移動するモータは回転速度が遅くなる。
角の位置Ｃ４で、機械本体２０３をＸ軸方向に移動するモータは、回転方向が反転し、機械本体２０３はＸ軸方向に直線反転するように移動する。また、機械本体２０３をＹ軸方向に移動するモータは、位置Ｃ３から位置Ｃ４及び位置Ｃ４から次の角の位置にかけて、同じ回転方向で、等速度で回転する。

機械本体２０３の移動軌跡が八角形の角が一つ置きに円弧に置き換えられた形の場合は、図６に示すように、角の位置Ｄ１で、機械本体２０３をＹ軸方向に移動するモータは回転速度が遅くなり、機械本体２０３をＸ軸方向に移動するモータは回転速度が速くなる。
円弧の位置Ｄ２で、機械本体２０３をＹ軸方向に移動するモータは、回転方向が反転し、機械本体２０３はＹ軸方向に直線反転するように移動する。また、機械本体２０３をＸ軸方向に移動するモータは位置Ｄ１から位置Ｄ３にかけて同じ回転方向で、等速度で回転する。図５に示した移動軌跡が八角形の場合と異なり、機械本体２０３をＹ軸方向に移動するモータは位置Ｄ２の前後で円弧の移動軌跡が形成されるように、位置Ｄ２に向かって徐々に減速され、位置Ｄ２で回転が停止され、位置Ｄ２を過ぎると回転方向が徐々に増加していく。
角の位置Ｄ３で、機械本体２０３をＹ軸方向に移動するモータは回転速度が速くなり、機械本体２０３をＸ軸方向に移動するモータは回転速度が遅くなる。
円弧の位置Ｄ４で、機械本体２０３をＸ軸方向に移動するモータは、回転方向が反転し、機械本体２０３はＸ軸方向に直線反転するように移動する。また、機械本体２０３をＹ軸方向に移動するモータは位置Ｄ３から位置Ｄ４、及び位置Ｄ４から次の角の位置にかけて同じ回転方向で、等速度で回転する。機械本体２０３をＸ軸方向に移動するモータは位置Ｄ４の前後で円弧の移動軌跡が形成されるように、位置Ｄ４に向かって徐々に減速され、位置Ｄ４で回転が停止され、位置Ｄ４を過ぎると回転方向が徐々に増加していく。

本実施形態では、以上説明した、学習時の加工プログラムにより指定される移動軌跡の、位置Ａ１とＡ２、位置Ｂ１とＢ２、位置Ｃ２とＣ４、及び位置Ｄ２とＤ４により、Ｘ軸方向又はＹ軸方向の一方の回転方向が反転する場合に生ずる振動を、加速度センサ３００を用いて測定することができる。また、位置Ｃ１とＣ３、及び位置Ｄ１とＤ３により、反転しない線形制御において回転速度が変更されたときの振動を、加速度センサ３００を用いて測定することができる。その結果、振動を抑制するように、指令フィルタ１１０の係数の学習を行うことができる。
さらに、本実施形態では、位置Ｃ１と位置Ｃ３、及び位置Ｄ１と位置Ｄ３により、反転しない線形制御において回転速度が変更されたとき位置偏差に対する影響を調べることで、軌跡誤差を低減するように、速度フィードフォワード部１３１の係数の学習を行うことができる。

以下、機械学習部１４０について更に詳細に説明する。
以下の説明では機械学習部１４０が強化学習を行う場合について説明するが、機械学習部１４０が行う学習は特に強化学習に限定されず、例えば、教師あり学習を行う場合にも本発明は適用可能である。

機械学習部１４０に含まれる各機能ブロックの説明に先立って、まず強化学習の基本的な仕組みについて説明する。エージェント（本実施形態における機械学習部１４０に相当）は、環境の状態を観測し、ある行動を選択し、当該行動に基づいて環境が変化する。環境の変化に伴って、何らかの報酬が与えられ、エージェントはより良い行動の選択（意思決定）を学習する。
教師あり学習が、完全な正解を示すのに対して、強化学習における報酬は、環境の一部の変化に基づく断片的な値であることが多い。このため、エージェントは、将来にわたっての報酬の合計を最大にするように行動を選択するように学習する。

このように、強化学習では、行動を学習することにより、環境に行動が与える相互作用を踏まえて適切な行動を学習、すなわち将来的に得られる報酬を最大にするための学習する方法を学ぶ。これは、本実施形態において、例えば、機械端の振動を抑制するための行動情報を選択するという、未来に影響をおよぼすような行動を獲得できることを表している。

ここで、強化学習としては、任意の学習方法を用いることができるが、以下の説明では、或る環境の状態Ｓの下で、行動Ａを選択する価値Ｑ（Ｓ，Ａ）を学習する方法であるＱ学習（Q-learning）を用いる場合を例にとって説明をする。
Ｑ学習では、或る状態Ｓのとき、取り得る行動Ａのなかから、価値Ｑ（Ｓ，Ａ）の最も高い行動Ａを最適な行動として選択することを目的とする。

しかしながら、Ｑ学習を最初に開始する時点では、状態Ｓと行動Ａとの組合せについて、価値Ｑ（Ｓ，Ａ）の正しい値は全く分かっていない。そこで、エージェントは、或る状態Ｓの下で様々な行動Ａを選択し、その時の行動Ａに対して、与えられる報酬に基づいて、より良い行動の選択をすることにより、正しい価値Ｑ（Ｓ，Ａ）を学習していく。

また、将来にわたって得られる報酬の合計を最大化したいので、最終的にＱ（Ｓ，Ａ）＝Ｅ［Σ（γ^ｔ）ｒ_ｔ］となるようにすることを目指す。ここでＥ［］は期待値を表し、ｔは時刻、γは後述する割引率と呼ばれるパラメータ、ｒ_ｔは時刻ｔにおける報酬、Σは時刻ｔによる合計である。この式における期待値は、最適な行動に従って状態変化した場合の期待値である。しかしＱ学習の過程において最適な行動が何であるのかは不明であるので、様々な行動を行うことにより、探索しながら強化学習をする。このような価値Ｑ（Ｓ，Ａ）の更新式は、例えば、次の数式４（以下に数４として示す）により表すことができる。

上記の数式４において、Ｓ_ｔは、時刻ｔにおける環境の状態を表し、Ａ_ｔは、時刻ｔにおける行動を表す。行動Ａ_ｔにより、状態はＳ_ｔ＋１に変化する。ｒ_ｔ＋１は、その状態の変化により得られる報酬を表している。また、ｍａｘの付いた項は、状態Ｓ_ｔ＋１の下で、その時に分かっている最もＱ値の高い行動Ａを選択した場合のＱ値にγを乗じたものになる。ここで、γは、０＜γ≦１のパラメータで、割引率と呼ばれる。また、αは、学習係数で、０＜α≦１の範囲とする。

上述した数式３は、試行Ａ_ｔの結果、返ってきた報酬ｒ_ｔ＋１を元に、状態Ｓ_ｔにおける行動Ａ_ｔの価値Ｑ（Ｓ_ｔ，Ａ_ｔ）を更新する方法を表している。
この更新式は、状態Ｓ_ｔにおける行動Ａ_ｔの価値Ｑ（Ｓ_ｔ，Ａ_ｔ）よりも、行動Ａ_ｔによる次の状態Ｓ_ｔ＋１における最良の行動の価値ｍａｘ_ａＱ（Ｓ_ｔ＋１，Ａ）の方が大きければ、Ｑ（Ｓ_ｔ，Ａ_ｔ）を大きくし、逆に小さければ、Ｑ（Ｓ_ｔ，Ａ_ｔ）を小さくすることを示している。つまり、或る状態における或る行動の価値を、それによる次の状態における最良の行動の価値に近づける。ただし、その差は、割引率γと報酬ｒ_ｔ＋１のあり方により変わってくるが、基本的には、ある状態における最良の行動の価値が、それに至る一つ前の状態における行動の価値に伝播していく仕組みになっている。

ここで、Ｑ学習では、すべての状態行動ペア（Ｓ，Ａ）についてのＱ（Ｓ，Ａ）のテーブルを作成して、学習を行う方法がある。しかし、すべての状態行動ペアのＱ（Ｓ，Ａ）の値を求めるには状態数が多すぎて、Ｑ学習が収束するのに多くの時間を要してしまう場合がある。

そこで、公知のＤＱＮ（Deep Q-Network）と呼ばれる技術を利用するようにしてもよい。具体的には、価値関数Ｑを適当なニューラルネットワークを用いて構成し、ニューラルネットワークのパラメータを調整することにより、価値関数Ｑを適当なニューラルネットワークで近似することにより価値Ｑ（Ｓ，Ａ）の値を算出するようにしてもよい。ＤＱＮを利用することにより、Ｑ学習が収束するのに要する時間を短くすることが可能となる。なお、ＤＱＮについては、例えば、以下の非特許文献に詳細な記載がある。

＜非特許文献＞
「Human-level control through deep reinforcement learning」、Volodymyr Mnih1著［ｏｎｌｉｎｅ］、［平成２９年１月１７日検索］、インターネット〈ＵＲＬ：http://files.davidqiu.com/research/nature14236.pdf〉

以上説明をしたＱ学習を機械学習部１４０が行う。具体的には、機械学習部１４０は、指令フィルタ１１０の伝達関数の各係数ω、ζ、Ｒの値、速度フィードフォワード部１３１の伝達関数の係数ｃ_ｉ、ｄ_ｊ、学習時の加工プログラムを実行することで取得される加速度センサ３００からの測定加速度、位置指令、及び位置偏差を状態Ｓとして、当該状態Ｓに係る、指令フィルタ１１０の伝達関数の各係数ω、ζ、Ｒ及び速度フィードフォワード部１３１の係数ｃ_ｉ、ｄ_ｊの値の調整を行動Ａとして選択する価値Ｑを学習する。

機械学習部１４０は、指令フィルタ１１０の伝達関数の各係数ω、ζ、Ｒ及び速度フィードフォワード部１３１の伝達関数の係数ｃ_ｉ、ｄ_ｊに基づいて、前述した学習時の加工プログラムの一つ又は複数を組み合わせて実行することで、加速度センサ３００からの測定加速度、位置指令、及び位置偏差を含む状態情報Ｓを観測して、行動Ａを決定する。機械学習部１４０は、行動Ａをするたびに報酬が返ってくる。機械学習部１４０は、例えば、将来にわたっての報酬の合計が最大になるように最適な行動Ａを試行錯誤的に探索する。そうすることで、機械学習部１４０は、指令フィルタ１１０の伝達関数の各係数ω、ζ、Ｒ及び速度フィードフォワード部１３１の係数ｃ_ｉ、ｄ_ｊに基づいて、学習時の加工プログラムを実行することで取得される加速度センサ３００からの測定加速度、位置指令、及び位置偏差を含む状態Ｓに対して、最適な行動Ａ（すなわち、指令フィルタ１１０の伝達関数の最適な係数ω、ζ、Ｒ及び速度フィードフォワード部１３１の伝達関数の最適な係数ｃ_ｉ、ｄ_ｊ）を選択することが可能となる。

すなわち、機械学習部１４０により学習された価値関数Ｑに基づいて、或る状態Ｓに係る指令フィルタ１１０の伝達関数の各係数ω、ζ、Ｒ及び速度フィードフォワード部１３１の伝達関数の各係数ｃ_ｉ、ｄ_ｊに対して適用される行動Ａのうち、Ｑの値が最大となるような行動Ａを選択することで、学習時の加工プログラムを実行することで生ずる機械端の振動が最小になるような行動Ａ（すなわち、指令フィルタ１１０の伝達関数の各係数ω、ζ、Ｒ及び速度フィードフォワード部１３１の伝達関数の各係数ｃ_ｉ、ｄ_ｊ）を選択することが可能となる。

図７は本開示の一実施形態の機械学習部１４０を示すブロック図である。
上述した強化学習を行うために、図７に示すように、機械学習部１４０は、状態情報取得部１４１、学習部１４２、行動情報出力部１４３、価値関数記憶部１４４、及び最適化行動情報出力部１４５を備える。学習部１４２は報酬出力部１４２１、価値関数更新部１４２２、及び行動情報生成部１４２３を備える。

状態情報取得部１４１は、指令フィルタ１１０の伝達関数の各係数ω、ζ、Ｒ及び速度フィードフォワード部１３１の伝達関数の各係数ｃ_ｉ、ｄ_ｊに基づいて、学習時の加工プログラムを実行することで取得される加速度センサ３００からの測定加速度、位置指令、及び位置偏差を含む状態Ｓを取得する。この状態情報Ｓは、Ｑ学習における、環境状態Ｓに相当する。
状態情報取得部１４１は、取得した状態情報Ｓを学習部１４２に対して出力する。

なお、最初にＱ学習を開始する時点での指令フィルタ１１０の伝達関数の各係数ω、ζ、Ｒ及び速度フィードフォワード部１３１の伝達関数の各係数ｃ_ｉ、ｄ_ｊは、予めユーザが生成するようにする。本実施形態では、ユーザが作成した指令フィルタ１１０の伝達関数の各係数ω、ζ、Ｒ及び速度フィードフォワード部１３１の伝達関数の各係数ｃ_ｉ、ｄ_ｊの初期設定値を、強化学習により最適なものに調整する。
なお、係数ω、ζ、Ｒ及び係数ｃ_ｉ、ｄ_ｊは予め操作者が工作機械を調整している場合には、調整済の値を初期値として機械学習してもよい。

学習部１４２は、或る環境状態Ｓの下で、ある行動Ａを選択する場合の価値Ｑ（Ｓ，Ａ）を学習する部分である。

報酬出力部１４２１は、或る状態Ｓの下で、行動Ａを選択した場合の報酬を算出する部分である。ここで、状態Ｓにおける状態変数である測定加速度をｙ（Ｓ）、状態情報Ｓに係る状態変数である位置指令をｒ（Ｓ）、及び状態情報Ｓに係る状態変数である位置偏差をｅ（Ｓ）で示す。また、行動情報Ａ（指令フィルタ１１０の伝達関数の各係数ω、ζ、Ｒ及び速度フィードフォワード部１３１の伝達関数の各係数ｃ_ｉ、ｄ_ｊの修正）により状態Ｓから変化した状態情報Ｓ´に係る状態変数である測定加速度をｙ（Ｓ´）、状態情報Ｓ´に係る状態変数である位置指令をｒ（Ｓ´）及び状態情報Ｓ´に係る状態変数である位置偏差をｅ（Ｓ´）で示す。

評価関数は、測定加速度、位置指令、及び位置偏差の関数であり、例えば、以下に示す数式５（以下に数５として示す）で示される評価関数ｆ（ｒ，ｙ，ｅ）を適用することができる。数式５は、評価関数ｆ（ｒ，ｙ，ｅ）が、加減速後の加速度偏差（位置指令ｒの２回微分と測定加速度ｙとの差）を２乗した値の積分合計（積分）と、位置偏差の２回微分の合計（積分）との和であることを示している。測定加速度ｙは加減速後の測定加速度となる。係数α及び係数βは所定の定数である。

加減速後の加速度偏差は、図８に示すように、加減速が終了して機械端加速度が収束状態にある領域（図８の点線で示した領域）で抽出した値である。図８は指令加速度と機械端加速度を示す特性図である。図８において、実線で示される指令加速度は位置指令を２回微分して求められ、点線で示される機械端加速度は加速度センサ３００の測定加速度である。
評価関数ｆ（ｒ，ｙ，ｅ）は、以下に示す各数式６及び数式７（以下に数６及び数７として示す）を適用することができる。係数α、係数β及び係数γは所定の定数である。

なお、数式５〜数式８の各項では、２乗の積算を行っているが、絶対値の積算、又は絶対値に時間ｔの重み付けをしてもよい。例えば、数式５〜数式８の第１項は、（ｄ^２ｒ／ｄｔ^２−ｙ）の絶対値の時間積分、式（ｄ^２ｒ／ｄｔ^２−ｙ）の絶対値に時間ｔの重み付けした時間積分を用いてもよい。

このとき、行動情報Ａにより修正された状態情報Ｓ´に係る修正後の指令フィルタ１１０及び速度フィードフォワード部１３１に基づいてモータ制御装置１００が動作したときの評価関数ｆ（ｒ（Ｓ´），ｙ（Ｓ´），ｅ（Ｓ´））が、行動情報Ａにより修正される前の状態情報Ｓに係る修正前の指令フィルタ１１０及び速度フィードフォワード部１３１に基づいてモータ制御装置１００が動作したときの評価関数ｆ（ｒ（Ｓ），ｙ（Ｓ），ｅ（Ｓ））よりも大きくなった場合に、報酬出力部１４２１は、報酬の値を負の値とする。

一方で、評価関数ｆ（ｒ（Ｓ´），ｙ（Ｓ´），ｅ（Ｓ´））が、評価関数ｆ（ｒ（Ｓ），ｙ（Ｓ），ｅ（Ｓ））よりも小さくなった場合に、報酬出力部１４２１は、報酬の値を正の値とする。
なお、評価関数ｆ（ｒ（Ｓ´），ｙ（Ｓ´），ｅ（Ｓ´））が、評価関数ｆ（ｒ（Ｓ），ｙ（Ｓ），ｅ（Ｓ））と等しい場合は、報酬出力部１４２１は、報酬の値をゼロとする。

また、行動Ａを実行後の状態Ｓ´の評価関数ｆ（ｒ（Ｓ´），ｙ（Ｓ´），ｅ（Ｓ´））が、前の状態Ｓにおける評価関数ｆ（ｒ（Ｓ），ｙ（Ｓ），ｅ（Ｓ））より大きくなった場合の負の値としては、比率に応じて負の値を大きくするようにしてもよい。つまりｆ（ｒ（Ｓ´），ｙ（Ｓ´），ｅ（Ｓ´））の値が大きくなった度合いに応じて負の値が大きくなるようにするとよい。逆に、行動Ａを実行後の状態Ｓ´の評価関数ｆ（ｒ（Ｓ´），ｙ（Ｓ´），ｅ（Ｓ´））が、前の状態Ｓにおける評価関数ｆ（ｒ（Ｓ），ｙ（Ｓ），ｅ（Ｓ））より小さくなった場合の正の値としては、比率に応じて正の値を大きくするようにしてもよい。つまりｆ（ｒ（Ｓ´），ｙ（Ｓ´），ｅ（Ｓ´））の値が小さくなった度合いに応じて正の値が大きくなるようにするとよい。

価値関数更新部１４２２は、状態Ｓと、行動Ａと、行動Ａを状態Ｓに適用した場合の状態Ｓ´と、上記のようにして算出された報酬の値と、に基づいてＱ学習を行うことにより、価値関数記憶部１４４が記憶する価値関数Ｑを更新する。
価値関数Ｑの更新は、オンライン学習で行ってもよく、バッチ学習で行ってもよく、ミニバッチ学習で行ってもよい。
オンライン学習は、或る行動Ａを現在の状態Ｓに適用することにより、状態Ｓが新たな状態Ｓ´に遷移する都度、即座に価値関数Ｑの更新を行う学習方法である。また、バッチ学習は、或る行動Ａを現在の状態Ｓに適用することにより、状態Ｓが新たな状態Ｓ´に遷移することを繰り返すことにより、学習用のデータを収集し、収集した全ての学習用データを用いて、価値関数Ｑの更新を行う学習方法である。更に、ミニバッチ学習は、オンライン学習と、バッチ学習の中間的な、ある程度学習用データが溜まるたびに価値関数Ｑの更新を行う学習方法である。

行動情報生成部１４２３は、現在の状態Ｓに対して、Ｑ学習の過程における行動Ａを選択する。行動情報生成部１４２３は、Ｑ学習の過程において、指令フィルタ１１０の伝達関数の各係数ω、ζ、Ｒ及び速度フィードフォワード部１３１の伝達関数の各係数ｃ_ｉ、ｄ_ｊを修正する動作（Ｑ学習における行動Ａに相当）を行わせるために、行動情報Ａを生成して、生成した行動情報Ａを行動情報出力部１４３に対して出力する。より具体的には、行動情報生成部１４２３は、例えば、状態Ｓに含まれる指令フィルタ１１０の伝達関数の各係数ω、ζ、Ｒ及び速度フィードフォワード部１３１の伝達関数の各係数ｃ_ｉ、ｄ_ｊに対して行動Ａに含まれる、指令フィルタ１１０の伝達関数の各係数ω、ζ、Ｒ及び速度フィードフォワード部１３１の伝達関数の各係数ｃ_ｉ、ｄ_ｊをインクレメンタルに加算又は減算させる。

そして、行動情報生成部１４２３は、指令フィルタ１１０の伝達関数の各係数ω、ζ、Ｒ及び速度フィードフォワード部１３１の伝達関数の各係数ｃ_ｉ、ｄ_ｊの増加又は減少を適用して、状態Ｓ´に遷移して、プラスの報酬（正の値の報酬）が返った場合、次の行動Ａ´としては、指令フィルタ１１０の伝達関数の各係数ω、ζ、Ｒ及び速度フィードフォワード部１３１の伝達関数の各係数ｃ_ｉ、ｄ_ｊに対して、前回のアクションと同様にインクレメンタルに加算又は減算させる等、評価関数ｆの値がより小さくなるような行動Ａ´を選択する方策を取るようにしてもよい。

また、逆に、マイナスの報酬（負の値の報酬）が返った場合、行動情報生成部１４２３は、次の行動Ａ´としては、例えば、指令フィルタ１１０の伝達関数の各係数ω、ζ、Ｒ及び速度フィードフォワード部１３１の伝達関数の各係数ｃ_ｉ、ｄ_ｊに対して、前回のアクションとは逆にインクレメンタルに減算又は加算させる等、評価関数が前回の値よりも小さくなるような行動Ａ´を選択する方策を取るようにしてもよい。

また、行動情報生成部１４２３は、現在の推定される行動Ａの価値の中で、最も価値Ｑ（Ｓ，Ａ）の高い行動Ａ´を選択するグリーディ法や、ある小さな確率εでランダムに行動Ａ´選択し、それ以外では最も価値Ｑ（Ｓ，Ａ）の高い行動Ａ´を選択するεグリーディ法といった公知の方法により、行動Ａ´を選択する方策を取るようにしてもよい。

行動情報出力部１４３は、学習部１４２から出力される行動情報Ａを指令フィルタ１１０に対して送信する部分である。指令フィルタ１１０は上述したように、この行動情報に基づいて、現在の状態Ｓ、すなわち現在設定されている各係数ω、ζ、Ｒ及び各係数ｃ_ｉ、ｄ_ｊを微修正することで、次の状態Ｓ´（すなわち修正された、指令フィルタ１１０の各係数及び速度フィードフォワード部１３１の各係数ｃ_ｉ、ｄ_ｊ）に遷移する。

価値関数記憶部１４４は、価値関数Ｑを記憶する記憶装置である。価値関数Ｑは、例えば状態Ｓ、行動Ａ毎にテーブル（以下、行動価値テーブルと呼ぶ）として格納してもよい。価値関数記憶部１４４に記憶された価値関数Ｑは、価値関数更新部１４２２により更新される。また、価値関数記憶部１４４に記憶された価値関数Ｑは、他の機械学習部１４０との間で共有されるようにしてもよい。価値関数Ｑを複数の機械学習部１４０で共有するようにすれば、各機械学習部１４０にて分散して強化学習を行うことが可能となるので、強化学習の効率を向上させることが可能となる。

最適化行動情報出力部１４５は、価値関数更新部１４２２がＱ学習を行うことにより更新した価値関数Ｑに基づいて、価値Ｑ（Ｓ，Ａ）が最大となる動作を指令フィルタ１１０及び速度フィードフォワード部１３１に行わせるための行動情報Ａ（以下、「最適化行動情報」と呼ぶ）を生成する。
より具体的には、最適化行動情報出力部１４５は、価値関数記憶部１４４が記憶している価値関数Ｑを取得する。この価値関数Ｑは、上述したように価値関数更新部１４２２がＱ学習を行うことにより更新したものである。そして、最適化行動情報出力部１４５は、価値関数Ｑに基づいて、行動情報を生成し、生成した行動情報を指令フィルタ１１０に対して出力する。この最適化行動情報には、行動情報出力部１４３がＱ学習の過程において出力する行動情報と同様に、指令フィルタ１１０の伝達関数の各係数ω、ζ、Ｒ及び速度フィードフォワード部１３１の伝達関数の各係数ｃ_ｉ、ｄ_ｊを修正する情報が含まれる。

指令フィルタ１１０では、この行動情報に基づいて伝達関数の各係数ω、ζ、Ｒ及び伝達関数の各係数ｃ_ｉ、ｄ_ｊが修正される。
機械学習部１４０は、以上の動作で、指令フィルタ１１０の伝達関数の各係数ω、ζ、Ｒ及び速度フィードフォワード部１３１の伝達関数の各係数ｃ_ｉ、ｄ_ｊの最適化を行い、機械端の振動を抑制するように動作することができる。
以上のように、本実施形態に係る機械学習部１４０を利用することで、指令フィルタ１１０及び速度フィードフォワード部１３１のパラメータ調整を簡易化することができる。

以上、モータ制御装置１００に含まれる機能ブロックについて説明した。
これらの機能ブロックを実現するために、モータ制御装置１００は、ＣＰＵ（Central Processing Unit）等の演算処理装置を備える。また、モータ制御装置１００は、アプリケーションソフトウェアやＯＳ（Operating System）等の各種の制御用プログラムを格納したＨＤＤ（Hard Disk Drive）等の補助記憶装置や、演算処理装置がプログラムを実行する上で一時的に必要とされるデータを格納するためのＲＡＭ（Random Access Memory）といった主記憶装置も備える。

そして、モータ制御装置１００において、演算処理装置が補助記憶装置からアプリケーションソフトウェアやＯＳを読み込み、読み込んだアプリケーションソフトウェアやＯＳを主記憶装置に展開させながら、これらのアプリケーションソフトウェアやＯＳに基づいた演算処理を行なう。また、この演算結果に基づいて、各装置が備える各種のハードウェアを制御する。これにより、本実施形態の機能ブロックは実現される。つまり、本実施形態は、ハードウェアとソフトウェアが協働することにより実現することができる。

機械学習部１４０については機械学習に伴う演算量が多いため、例えば、パーソナルコンピュータにＧＰＵ（Graphics Processing Units）を搭載し、ＧＰＧＰＵ（General-Purpose computing on Graphics Processing Units）と呼ばれる技術により、ＧＰＵを機械学習に伴う演算処理に利用するようにすると高速処理できるようになるのでよい。更には、より高速な処理を行うために、このようなＧＰＵを搭載したコンピュータを複数台用いてコンピュータ・クラスターを構築し、このコンピュータ・クラスターに含まれる複数のコンピュータにて並列処理を行うようにしてもよい。

次に、図９のフローチャートを参照して本実施形態におけるＱ学習時の機械学習部１４０の動作について説明をする。

ステップＳ１１において、状態情報取得部１４１がモータ制御装置１００から状態情報Ｓを取得する。取得した状態情報は、価値関数更新部１４２２や行動情報生成部１４２３に対して出力される。上述したように、この状態情報Ｓは、Ｑ学習における状態に相当する情報であり、ステップＳ１１時点での、指令フィルタ１１０の伝達関数の各係数ω、ζ、Ｒ及び速度フィードフォワード部１３１の伝達関数の各係数ｃ_ｉ、ｄ_ｊが含まれる。こうして、指令フィルタ１１０及び速度フィードフォワード部１３１の伝達関数の各係数が初期値であるときの、所定の送り速度且つ移動軌跡の形状に対応する位置指令ｒ（Ｓ）、位置偏差ｅ（Ｓ）及び測定加速度ｙ（Ｓ）が取得される。

最初にＱ学習を開始する時点での状態Ｓ_０における位置指令ｒ（Ｓ_０）、位置偏差ｅ（Ｓ_０）及び加速度センサ３００からの測定加速度ｙ（Ｓ_０）は、学習時の加工プログラムでモータ制御装置１００を動作させることで得られる。モータ制御装置１００に入力される位置指令は、加工プログラムにより指定された所定の移動軌跡、例えば、図５及び図６に示した八角形の移動軌跡に対応する位置指令である。その位置指令は、指令フィルタ１１０及び機械学習部１４０に入力される。指令フィルタ１１０の伝達関数の各係数ω、ζ、Ｒ及び速度フィードフォワード部１３１の伝達関数の各係数ｃ_ｉ、ｄ_ｊの初期値は予めユーザが生成し、機械学習部１４０に係数ω、ζ、Ｒ及び係数ｃ_ｉ、ｄ_ｊの初期値が送られる。加速度センサ３００は、前述した移動軌跡の位置Ｃ１−Ｃ４、及び位置Ｄ１−Ｄ４等の各位置における測定加速度ｙ（Ｓ_０）を機械学習部１４０に出力する。なお、機械学習部１４０において、前述した移動軌跡の位置Ｃ１−Ｃ４、及び位置Ｄ１−Ｄ４等の各位置における位置指令ｒ（Ｓ_０）と位置偏差ｅ（Ｓ_０）と測定加速度ｙ（Ｓ_０）とを抽出するようにしてもよい。

ステップＳ１２において、行動情報生成部１４２３は新たな行動情報Ａを生成し、生成した新たな行動情報Ａを、行動情報出力部１４３を介して指令フィルタ１１０に対して出力する。行動情報生成部１４２３は前述した方策に基づいて、新たな行動情報Ａを出力する。なお、行動情報Ａを受信したモータ制御装置１００は、受信した行動情報に基づいて現在の状態Ｓに係る指令フィルタ１１０の伝達関数の各係数ω、ζ、Ｒ及び速度フィードフォワード部１３１の伝達関数の各係数ｃ_ｉ、ｄ_ｊを修正した状態Ｓ´により、サーボモータ１２７を含む工作機械を駆動させる。上述したように、この行動情報は、Ｑ学習における行動Ａに相当するものである。

ステップＳ１３において、状態情報取得部１４１は、新たな状態Ｓ´における、位置指令ｒ（Ｓ´）、位置偏差ｅ（Ｓ´）、加速度センサ３００からの測定加速度ｙ（Ｓ´）、指令フィルタ１１０から伝達関数の各係数ω、ζ、Ｒ及び速度フィードフォワード部１３１の伝達関数の各係数ｃ_ｉ、ｄ_ｊを取得する。こうして、状態情報取得部１４１は、状態Ｓ´における係数ω、ζ、Ｒ及び係数ｃ_ｉ、ｄ_ｊであるときの、八角形の移動軌跡（具体的には、前述した移動軌跡の位置Ｃ１−Ｃ４、及び位置Ｄ１−Ｄ４等の各位置）に対応する、位置指令ｒ（Ｓ´）、位置偏差ｅ（Ｓ´）、及び測定加速度ｙ（Ｓ´）を取得する。取得した状態情報は、報酬出力部１４２１に対して出力される。

ステップＳ１４において、報酬出力部１４２１は、状態Ｓ´における評価関数ｆ（ｒ（Ｓ´），ｙ（Ｓ´），ｅ（Ｓ´））と状態Ｓにおける評価関数ｆ（ｒ（Ｓ），ｙ（Ｓ），ｅ（Ｓ））との大小関係を判断し、ｆ（ｒ（Ｓ´），ｙ（Ｓ´），ｅ（Ｓ´））＞ｆ（ｒ（Ｓ），ｙ（Ｓ），ｅ（Ｓ））の場合には、ステップＳ１５において、報酬を負の値とする。ｆ（ｒ（Ｓ´），ｙ（Ｓ´），ｅ（Ｓ´））＜ｆ（ｒ（Ｓ），ｙ（Ｓ），ｅ（Ｓ））の場合には、ステップＳ１６において、報酬を正の値とする。ｆ（ｒ（Ｓ´），ｙ（Ｓ´），ｅ（Ｓ´））＝ｆ（ｒ（Ｓ），ｙ（Ｓ），ｅ（Ｓ））の場合には、ステップＳ１７において、報酬をゼロとする。なお、報酬の負の値、正の値について重みづけを行うようにしてもよい。なお、状態ＳはＱ学習を開始する時点では状態Ｓ_０となる。

ステップＳ１５、ステップＳ１６及びステップＳ１７の何れかが終了すると、ステップＳ１８において、この何れかのステップにて算出された報酬の値に基づいて、価値関数更新部１４２２が、価値関数記憶部１４４に記憶している価値関数Ｑを更新する。そして、再度ステップＳ１１に戻り、上述した処理を繰り返すことにより、価値関数Ｑは適切な値に収束していく。なお、上述した処理を、所定回数繰り返したことや、所定時間繰り返したことを条件として処理を終了するようにしてもよい。
なお、ステップＳ１８はオンライン更新を例示しているが、オンライン更新に替えてバッチ更新又はミニバッチ更新に置き換えてもよい。

以上、図９を参照して説明した動作により、本実施形態では、機械学習部１４０を利用することで、指令フィルタ１１０の伝達関数の各係数ω、ζ、Ｒ及び速度フィードフォワード部１３１の伝達関数の各係数ｃ_ｉ、ｄ_ｊの調整のための、適切な価値関数を得ることができ、指令フィルタ１１０の伝達関数の各係数ω、ζ、Ｒ及び速度フィードフォワード部１３１の伝達関数の各係数ｃ_ｉ、ｄ_ｊの最適化を簡易化することができる、という効果を奏する。
次に、図１０のフローチャートを参照して、最適化行動情報出力部１４５による最適化行動情報の生成時の動作について説明をする。
まず、ステップＳ２１において、最適化行動情報出力部１４５は、価値関数記憶部１４４に記憶している価値関数Ｑを取得する。価値関数Ｑは、上述したように価値関数更新部１４２２がＱ学習を行うことにより更新したものである。

ステップＳ２２において、最適化行動情報出力部１４５は、この価値関数Ｑに基づいて、最適化行動情報を生成し、生成した最適化行動情報を指令フィルタ１１０に対して出力する。

また、図１０を参照して説明した動作により、本実施形態では、機械学習部１４０により学習することにより求められる価値関数Ｑに基づいて、最適化行動情報を生成し、この最適化行動情報に基づいて、現在設定されている指令フィルタ１１０の伝達関数の各係数ω、ζ、Ｒ及び速度フィードフォワード部１３１の伝達関数の各係数ｃ_ｉ、ｄ_ｊの調整を簡易化するとともに、軌跡誤差低減と機械端の振動の抑制を両立し、ワークの加工面の品位を向上させることができる。外部測定器は、モータ制御装置の外に配置されるため、機械学習後に外部測定器を取り外することが可能となり、コストを低減するとともに信頼性を向上させることができる。

上記のモータ制御装置のサーボ制御部及び機械学習部に含まれる各構成部は、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。また、上記のモータ制御装置に含まれる各構成部のそれぞれの協働により行なわれるサーボ制御方法も、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。ここで、ソフトウェアによって実現されるとは、コンピュータがプログラムを読み込んで実行することにより実現されることを意味する。

プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えば、フレキシブルディスク、ハードディスクドライブ）、光磁気記録媒体（例えば、光磁気ディスク）、ＣＤ−ＲＯＭ(Read Only Memory)、ＣＤ−Ｒ、ＣＤ−Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ(Programmable ROM)、ＥＰＲＯＭ(Erasable PROM)、フラッシュＲＯＭ、ＲＡＭ(random access memory）)を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。

上述した実施形態は、本発明の好適な実施形態ではあるが、上記実施形態のみに本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において種々の変更を施した形態での実施が可能である。

上述した実施形態では、外部測定器として加速度センサを用い、測定情報が加速度情報である場合について説明したが、加速度情報を得る場合に、外部測定器として位置センサ、速度センサを用いて、測定情報となる、位置情報、速度情報を得て、それぞれ２回微分、１回微分して加速度情報を得てもよい。

以上説明した実施形態では、指令フィルタ１１０の伝達関数の各係数ω、ζ、Ｒ及び速度フィードフォワード部１３１の伝達関数の各係数ｃ_ｉ、ｄ_ｊは同時に学習する例について説明したが、機械学習部１４０は、係数ω、ζ、Ｒと係数ｃ_ｉ、ｄ_ｊとのうちの一方の係数を先に学習して最適化した後に、他方の係数を学習を最適化してもよい。
また、位置フィードフォワード部１３０の伝達関数の各係数ａ_ｉ、ｂ_ｊを合わせて学習してもよい。

外部測定器として位置センサを用いる場合には、例えば、機械本体２０３に外部測定器としてスケール（リニアスケール）を取り付ける。図１１は機械本体２０３にスケールを取り付けた状態を示す説明図である。この場合、機械本体２０３の位置をスケール３０１で検出して、位置情報を機械学習部１４０に出力する。機械学習部１４０は、得られた位置情報を２回微分して加速度情報を得ることができる。

また、上述した実施形態では、工作機械２００に１つの共振点がある場合について説明したが、工作機械２００に複数の共振点がある場合もある。工作機械２００に複数の共振点がある場合には、各共振点に対応するようにフィルタを複数個設けて、直列に接続して指令フィルタ１１０とすることで、すべての共振を減衰させることができる。図１２は複数のフィルタを直接接続してフィルタを構成した例を示すブロック図である。図１２において、ｍ個（ｍは２以上の自然数）の共振点がある場合に、指令フィルタ１１０は、ｍ個の指令フィルタ１１０−１〜１１０−ｍを直列接続して構成する。ｍ個の指令フィルタ１１０−１〜１１０−ｍのそれぞれの係数ω、ζ、Ｒについて、順次、共振点を減衰させる最適値を機械学習により求めていく。

また、制御システムの構成は図１の構成以外にも以下の構成がある。
＜機械学習装置がモータ制御装置の外部に設けられた変形例＞
図１３は制御システムの他の構成例を示すブロック図である。図１３に示す制御システム１０Ａが、図１に示した制御システム１０と異なる点は、ｎ（ｎは２以上の自然数）個のモータ制御装置１００Ａ−１〜１００Ａ−ｎと、それぞれ加速度センサ３００−１〜３００−ｎが取り付けられたｎ個の工作機械２００−１〜２００−ｎとがネットワーク４００を介して機械学習装置１４０Ａ−１〜１４０Ａ−ｎが接続されていることである。モータ制御装置１００Ａ−１〜１００Ａ−ｎの各々は機械学習部を備えていない点を除き、図１のモータ制御装置１００と同じ構成を有している。機械学習装置１４０Ａ−１〜１４０Ａ−ｎは図７に示した機械学習部１４０と同じ構成を有している。

ここで、モータ制御装置１００Ａ−１及び加速度センサ３００−１と、機械学習装置１４０Ａ−１とは１対１の組とされて、通信可能に接続されている。モータ制御装置１００Ａ−２〜１００Ａ−ｎ及び加速度センサ３００−１〜３００−ｎと、機械学習装置１４０Ａ−２〜１４０Ａ−ｎについてもモータ制御装置１００Ａ−１及び工作機械２００−１と機械学習装置１４０Ａ−１と同様に接続される。図１３では、モータ制御装置１００Ａ−１〜１００Ａ−ｎ及び加速度センサ３００−１〜３００−ｎと、機械学習装置１４０Ａ−１〜１４０Ａ−ｎとのｎ個の組は、ネットワーク４００を介して接続されているが、モータ制御装置１００Ａ−１〜１００Ａ−ｎ及び加速度センサ３００−１〜３００−ｎと、機械学習装置１４０Ａ−１〜１４０Ａ−ｎとのｎ個の組は、それぞれの組のモータ制御装置及び工作機械と機械学習装置とが接続インタフェースを介して直接接続されてもよい。これらモータ制御装置１００Ａ−１〜１００Ａ−ｎ及び加速度センサ３００−１〜３００−ｎが取り付けられた工作機械２００−１〜２００−ｎと機械学習装置１４０Ａ−１〜１４０Ａ−ｎとのｎ個の組は、例えば同じ工場に複数組設置されていてもよく、それぞれ異なる工場に設置されていてもよい。

なお、ネットワーク４００は、例えば、工場内に構築されたＬＡＮ（Local Area Network）や、インターネット、公衆電話網、或いは、これらの組み合わせである。ネットワーク４００における具体的な通信方式や、有線接続および無線接続のいずれであるか等については、特に限定されない。

＜システム構成の自由度＞
上述した実施形態では、モータ制御装置１００Ａ−１〜１００Ａ−ｎ及び加速度センサ３００−１〜３００−ｎと、機械学習装置１４０Ａ−１〜１４０Ａ−ｎとはそれぞれ１対１の組とされて通信可能に接続されているが、例えば１台の機械学習装置が複数のモータ制御装置及び複数の加速度センサとネットワーク４００を介して通信可能に接続され、各モータ制御装置と各工作機械の機械学習を実施するようにしてもよい。
その際、１台の機械学習装置の各機能を、適宜複数のサーバに分散する、分散処理システムとしてもよい。また、クラウド上で仮想サーバ機能等を利用して、１台の機械学習装置の各機能を実現してもよい。

また、ｎ台の同じ型名、同一仕様、又は同一シリーズのモータ制御装置１００Ａ−１〜１００Ａ−ｎ及び工作機械２００−１〜２００−ｎとそれぞれ対応するｎ個の機械学習装置１４０Ａ−１〜１４０Ａ−ｎがあった場合に、各機械学習装置１４０Ａ−１〜１４０Ａ−ｎにおける学習結果を共有するように構成するようにしてもよい。そうすることで、より最適なモデルを構築することが可能となる。

本開示による機械学習装置、制御システム及び機械学習方法、上述した実施形態を含め、次のような構成を有する各種各様の実施形態を取ることができる。
（１）本開示の一態様は、モータを制御するモータ制御装置に設けられたフィルタの第１の係数及び該モータ制御装置に設けられたサーボ制御部の速度フィードフォワード部の第２の係数を、前記モータ制御装置の外に設けられた外部測定器による、加減速後の測定情報と、前記モータ制御装置に入力される位置指令と、該位置指令と前記サーボ制御部の検出器からの位置フィードバック情報との差である位置偏差との関数となる評価関数に基づいて前記第１の係数及び前記第２の係数を最適化する機械学習を行う機械学習装置である。
この機械学習装置によれば、フィルタの特性を決定する第１の係数と速度フィードフォワード部の第２の係数とを機械学習することで、機械端の振動低減と移動軌跡の誤差の低減を両立することが可能となる。また外部測定器は、モータ制御装置の外に配置されるため、機械学習後に外部測定器を取り外すことが可能となり、コストを低減するとともに信頼性を向上させることができる。

（２）前記外部測定器の測定情報は、位置、速度、加速度のうち少なくとも１つを含む上記（１）に記載の機械学習装置。

（３）前記サーボ制御部は、位置フィードバックループ及び速度フィードバックループの少なくとも一つを有し、前記フィルタは前記位置フィードバックループ又は前記速度フィードバックループの外にある上記（１）又は（２）に記載の機械学習装置。
この機械学習装置によれば、サーボ制御部の制御ループ（位置フィードバックループ又は速度フィードバックループ）の外の振動を抑えことができる。

（４）前記サーボ制御部は、フィードバックループを有し、前記外部測定器の測定情報は前記フィードバックループのフィードバック制御に使わない上記（１）又は（２）に記載の機械学習装置。
この機械学習装置によれば、外部測定器は取り外し可能となる。その結果、工作機械等のコストを低減でき、信頼性も向上する。

（５）前記外部測定器は機械学習による前記フィルタの調整後に取り外される上記（１）から（４）のいずれかに記載の機械学習装置。
この機械学習装置によれば、外部測定器はフィルタの調整後に取り外し可能となり、その結果、工作機械等のコストを低減でき、信頼性も向上する。

（６）前記フィルタは、２次以上のＩＩＲフィルタである上記（１）から（５）のいずれかに記載の機械学習装置。
この機械学習装置によれば、ＦＩＲフィルタよりタップ数を小さくすることができるため、より高速なフィルタとすることができる。

（７）前記測定情報と、前記位置指令と、前記位置偏差と、前記フィルタの前記第１の係数及び前記速度フィードフォワード部の前記第２の係数と、を含む状態情報を取得する状態情報取得部と、
前記状態情報に含まれる前記第１及び第２の係数の調整情報を含む行動情報を前記フィルタ及び前記速度フィードフォワード部に出力する行動情報出力部と、
前記測定情報と前記位置指令と前記位置偏差との関数となる評価関数を用いた、強化学習における報酬の値を出力する報酬出力部と、
前記報酬出力部により出力される報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新部と、
を備えた上記（１）から（６）のいずれかに記載の機械学習装置。

（８）前記価値関数更新部により更新された価値関数に基づいて、前記第１及び第２の係数の調整情報を出力する最適化行動情報出力部を備えた（７）に記載の機械学習装置。

（９）上記（１）から（８）のいずれかに記載の機械学習装置、モータ、速度フィードフォワード部を有するサーボ制御部及びフィルタを含み、前記モータを制御するモータ制御装置と、
前記モータ制御装置の外に設けられた外部測定器と、
を備えた制御システム。

（１０）モータを制御するモータ制御装置に設けられたフィルタの第１の係数及び該モータ制御装置に設けられたサーボ制御部の速度フィードフォワード部の第２の係数と、前記モータ制御装置の外に設けられた外部測定器による、加減速後の測定情報と、前記モータ制御装置に入力される位置指令と、該位置指令と位置フィードバック情報との差である位置偏差とを取得し、前記測定情報と前記位置指令と前記位置偏差との関数となる評価関数に基づいて前記第１の係数及び前記第２の係数を最適化する機械学習を行う機械学習装置の機械学習方法。
この機械学習方法によれば、フィルタの特性を決定する第１の係数と速度フィードフォワード部の第２の係数とを機械学習することで、機械端の振動低減と移動軌跡の誤差の低減を両立することが可能となる。また外部測定器は、モータ制御装置の外に配置されるため、機械学習後に外部測定器を取り外すことが可能となり、コストを低減するとともに信頼性を向上させることができる。

１０、１０Ａ制御システム
１００、１００Ａ−１〜１００Ａ−ｎモータ制御装置
１１０指令フィルタ
１２０サーボ制御部
１２１減算器
１２２位置制御部
１２３加算器
１２４減算器
１２５速度制御部
１２６加算器
１２７サーボモータ
１２８ロータリーエンコーダ
１２９積分器
１３０位置フィードフォワード部
１３１速度フィードフォワード部
１４０機械学習部
１４０Ａ−１〜１４０Ａ−ｎ機械学習装置
１４１状態情報取得部
１４２学習部
１４３行動情報出力部
１４４価値関数記憶部
１４５最適化行動情報出力部
２００、２００−１〜２００−ｎ工作機械
３００加速度センサ
４００ネットワーク

Claims

モータを制御するモータ制御装置に設けられたフィルタの第１の係数及び該モータ制御装置に設けられたサーボ制御部の速度フィードフォワード部の第２の係数を、前記モータ制御装置の外に設けられた外部測定器による、加減速後の測定情報と、前記モータ制御装置に入力される位置指令と、該位置指令と前記サーボ制御部の検出器からの位置フィードバック情報との差である位置偏差との関数となる評価関数に基づいて前記第１の係数及び前記第２の係数を最適化する機械学習を行う機械学習装置。
前記外部測定器の測定情報は、位置、速度、加速度のうち少なくとも１つを含む請求項１に記載の機械学習装置。
前記サーボ制御部は、位置フィードバックループ及び速度フィードバックループの少なくとも一つを有し、前記フィルタは前記位置フィードバックループ又は前記速度フィードバックループの外にある請求項１又は２に記載の機械学習装置。
前記サーボ制御部は、フィードバックループを有し、前記外部測定器の測定情報は前記フィードバックループのフィードバック制御に使わない請求項１又は２に記載の機械学習装置。
前記外部測定器は機械学習による前記フィルタの調整後に取り外される請求項１から４のいずれか１項に記載の機械学習装置。
前記フィルタは、２次以上のＩＩＲフィルタである請求項１から５のいずれか１項に記載の機械学習装置。
前記測定情報と、前記位置指令と、前記位置偏差と、前記フィルタの前記第１の係数及び前記速度フィードフォワード部の前記第２の係数と、を含む状態情報を取得する状態情報取得部と、
前記状態情報に含まれる前記第１及び第２の係数の調整情報を含む行動情報を前記フィルタ及び前記速度フィードフォワード部に出力する行動情報出力部と、
前記測定情報と前記位置指令と前記位置偏差との関数となる評価関数を用いた、強化学習における報酬の値を出力する報酬出力部と、
前記報酬出力部により出力される報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新部と、
を備えた請求項１から６のいずれか１項に記載の機械学習装置。
前記価値関数更新部により更新された価値関数に基づいて、前記第１及び第２の係数の調整情報を出力する最適化行動情報出力部を備えた請求項７に記載の機械学習装置。
請求項１から請求項８のいずれか１項に記載の機械学習装置、モータ、速度フィードフォワード部を有するサーボ制御部及びフィルタを含み、前記モータを制御するモータ制御装置と、
前記モータ制御装置の外に設けられた外部測定器と、
を備えた制御システム。
モータを制御するモータ制御装置に設けられたフィルタの第１の係数及び該モータ制御装置に設けられたサーボ制御部の速度フィードフォワード部の第２の係数と、前記モータ制御装置の外に設けられた外部測定器による、加減速後の測定情報と、前記モータ制御装置に入力される位置指令と、該位置指令と位置フィードバック情報との差である位置偏差とを取得し、前記測定情報と前記位置指令と前記位置偏差との関数となる評価関数に基づいて前記第１の係数及び前記第２の係数を最適化する機械学習を行う機械学習装置の機械学習方法。