JP6740277B2

JP6740277B2 - 機械学習装置、制御装置、及び機械学習方法

Info

Publication number: JP6740277B2
Application number: JP2018077558A
Authority: JP
Inventors: 翔吾篠田; 亮太郎恒木
Original assignee: FANUC Corp
Current assignee: FANUC Corp
Priority date: 2018-04-13
Filing date: 2018-04-13
Publication date: 2020-08-12
Anticipated expiration: 2038-04-13
Also published as: DE102019204861A1; US20190317457A1; DE102019204861B4; CN110376965B; JP2019185529A; CN110376965A; US10877442B2

Description

本発明は、少なくとも１つのフィードバックループと、フィードバックループに加える補正を生成する補正生成部とを備えたサーボ制御装置に対して、補正生成部の補正量の最適化に係る機械学習を行う機械学習装置、この機械学習装置を含む制御装置及び機械学習方法に関する。

フィードバックループを有し、フィードバックループに補正を加えるサーボ制御装置は、例えば特許文献１に記載されている。

特許文献１は、学習制御による位置偏差が収束するまでの加工によるワークの無駄を無くし、補正データの記憶、及び実加工を自動的に行うことができるようにする数値制御装置を開示している。具体的には、位置偏差が生成される位置フィードバックループを備え、同一動作パターンにおける位置偏差に基づく補正データを作成して記憶し、補正データに基づいて同一動作パターン実行時の位置偏差を補正する学習制御手段を有する数値制御装置において、プログラムで指令された位置から工具とワークが干渉しない位置にシフトし、指定回数または位置偏差が指定値以下になるまで、同一動作パターンの空運転を自動的に繰り返して補正データを作成し、補正データ作成後に、自動的に、補正データを記憶すると共に前記シフトを戻して工具とワークが干渉する指令された位置に戻し、作成された補正データに基づいて位置偏差を補正して同一動作パターンを実行して加工することを開示している。

特開平２００６−２１５７３２号公報

フィードバックループを有し、位置偏差等に基づいてフィードバックループに加える補正を生成するサーボ制御装置において、生成する補正量が適正な範囲になく、位置偏差が増大すると、サーボ制御装置によって駆動される、工作機械、ロボット、又は産業機械の動作が不安定となって、アラームで工作機械等が停止、終了してしまう場合がある。
例えば、空運転ではなく、工作機械を実動作させながら補正量を学習する場合、その補正量が適切な範囲にないと、モータや機械先端に振動が発生して有効な学習ができなくなったり、また、アラームで工作機械等が停止、終了して、学習が中断する恐れがある。
この点、特許文献１に記載の学習制御は、空運転を繰り返して、補正データを生成することから、空運転の学習制御中に、モータや機械先端に振動が発生して有効な学習ができなくなったり、また、アラームで工作機械等が停止、終了して、学習が中断することはなかった。
他方、フィードバックループに加える補正を、後述する高次の伝達関数を用いて生成する場合に、当該伝達関数の係数を、工作機械を実動作させながら機械学習により求める方法が考えられる。
このような学習方法の一例として、強化学習による伝達関数の係数の機械学習が考えられる。強化学習とは、エージェントが、環境の状態を観測し、ある行動を選択し、当該行動に基づいて環境が変化し、環境の変化に伴って、何らかの報酬が与えられ、エージェントはより良い行動の選択（意思決定）を学習する、いわゆる教師無し学習である。このような強化学習により伝達関数の係数を機械学習する場合、環境の状態が位置偏差である場合に、例えばこの位置偏差が増大するような係数が選択されると、モータや機械先端に振動が発生して有効な機械学習ができなくなったり、また、アラームで工作機械等が停止、終了して、機械学習が中断する可能性がある。このため、工作機械を実動作させながら、補正量を機械学習する場合に、仮に不適切な補正量が選択されることがあっても、モータや機械先端に振動が発生して有効な学習ができなくなったり、また、アラームで工作機械等が停止、終了して、学習が中断することがないように、安全に機械学習を継続することができる機械学習装置、この機械学習装置を含む制御装置、及び機械学習方法が求められる。

本発明は、少なくとも１つのフィードバックループと、フィードバックループに加える補正を生成する補正生成部とを備えたサーボ制御装置において、工作機械、ロボット又は産業機械等を実動作させながら、補正生成部における補正量の算出式を機械学習する場合に、機械学習中に、仮に不適切な補正量が算出されることがあっても、モータや機械先端に振動が発生して有効な学習ができなくなったり、また、アラームで工作機械等が停止、終了して、学習が中断することがないように、安全に機械学習を継続することができる機械学習装置、この機械学習装置を含む制御装置、及び機械学習方法を提供することを目的とする。

（１）本発明に係る機械学習装置は、工作機械、ロボット又は産業機械の軸を駆動するサーボモータ（例えば、後述のサーボモータ１０６）を制御する、少なくとも１つのフィードバックループと、該フィードバックループに加える補正量を生成する補正生成部（例えば、後述の位置フィードフォワード処理部１１６、速度フィードフォワード処理部１１３、又は補正生成部１１０、１２２）とを備えたサーボ制御装置（例えば、後述のサーボ制御装置１００、１００Ａ、１００Ｂ又は１００Ｃ）に対して、前記補正生成部の補正量の最適化に係る機械学習を行う機械学習装置（例えば、後述の機械学習装置２００）であって、
機械学習動作中に、前記サーボ制御装置において、前記異常検出部が異常を検出した場合に、前記補正生成部からの補正を停止し、前記機械学習装置において、前記補正生成部にて生成する補正量の最適化を継続する、機械学習装置である。

（２）上記（１）の機械学習装置において、前記サーボ制御装置は、前記サーボモータの異常な動作を検出する異常検出部（例えば、後述の異常検出部１０９又は１２４）と、前記フィードバックループと前記補正生成部内又は前記補正生成部の後段との間に設けられたスイッチ（例えば、後述のスイッチ１１４、１１７、１２６、１２８、１３０、１３２）とを備え、前記異常検出部は異常な動作を検出したときに、前記スイッチをオフし、前記フィードバックループへの補正が停止されたことを前記機械学習装置に通知し、
前記機械学習装置は、前記フィードバックループへの補正が停止されたことの通知を受けたときに、前記補正量を学習に反映させてもよい。

（３）上記（１）又は（２）の機械学習装置において、前記機械学習として強化学習を行い、
前記異常検出部から補正停止通知を受けたときに、異常な動作をする前記補正量が選択されないような報酬を与えてもよい。

（４）上記（３）の機械学習装置において、前記報酬に基づいて価値関数を更新し、更新された価値関数に基づいて、最適な前記補正量又は補正パラメータの調整情報を生成して、前記補正生成部に出力してもよい。

（５）上記（１）から（４）のいずれかの機械学習装置において、前記異常検出部は、位置偏差、トルク指令、あるいはその両方があらかじめ設定した閾値以上となった際に異常としてもよい。

（６）上記（１）から（５）のいずれかの機械学習装置において、前記サーボ制御装置は、前記異常検出部にて異常を検出した際に、異常の検出を報知する報知部をさらに有してもよい。

（７）上記（２）から（６）のいずれかの機械学習装置において、前記サーボ制御装置は、前記スイッチの後段に設けられたローパスフィルタ（例えば、後述のローパスフィルタ１２７、１２９、１３１、又は１３３）を備え、前記スイッチによる切り換え時に前記ローパスフィルタを通してもよい。

（８）上記（２）から（６）のいずれかの機械学習装置において、前記フィードバックループは速度偏差を積算する積分器（例えば、後述の積分器１０４１）を有する速度制御部を備え、
前記スイッチによる切り換え時に前記積分器の書き替えを行ってもよい。

（９）上記（１）から（８）のいずれかの機械学習装置において、少なくとも１つのフィードバックループは、位置フィードバックループ及び速度フィードバックループの少なくとも１つを含み、前記補正生成部は前記位置フィードバックループに位置フィードフォワード項を加える位置フィードフォワード処理部及び前記速度フィードバックループに速度フィードフォワード項を加える速度フィードフォワード処理部の少なくとも１つを含んでもよい。

（１０）上記（１）から（８）のいずれかの機械学習装置において、少なくとも１つのフィードバックループは、位置フィードバックループであり、前記補正生成部は前記サーボモータの反転時の補正を生成してもよい。

（１１）本発明に係る制御装置は、上記（１）から（１０）のいずれかの機械学習装置と、
工作機械、ロボット又は産業機械の軸を駆動するサーボモータを制御する、少なくとも１つのフィードバックループ、該フィードバックループに加える補正を生成する補正生成部、及び前記サーボモータの異常な動作を検出する異常検出部を備えたサーボ制御装置と、
を備えた制御装置である。

（１２）上記（１１）の制御装置において、前記機械学習装置は、前記サーボ制御装置に含まれてもよい。

（１３）本発明に係る機械学習方法は、工作機械、ロボット又は産業機械の軸を駆動するサーボモータを制御する、少なくとも１つのフィードバックループに加える補正を生成し、前記サーボモータの異常な動作を検出するサーボ制御装置に対して、前記少なくとも１つのフィードバックループに加える補正量の最適化に係る機械学習を行う機械学習装置の機械学習方法であって、
機械学習動作中に、前記サーボ制御装置が異常を検出した場合、少なくとも１つのフィードバックループに加える補正を停止し、前記機械学習装置が、前記補正量の最適化を継続する、機械学習方法である。

本発明によれば、少なくとも１つのフィードバックループと、フィードバックループに加える補正を生成する補正生成部とを備えたサーボ制御装置において、工作機械、ロボット又は産業機械等を実動作させながら、前記補正生成部を機械学習する場合に、機械学習中に、仮に不適切な補正量が算出されることがあっても、モータや機械先端に振動が発生して有効な学習ができなくなったり、また、アラームで工作機械等が停止、終了して、学習が中断することがないように、安全に機械学習を継続することができる機械学習装置、この機械学習装置を含む制御装置、及び機械学習方法を提供することができる。

本発明の第１実施形態の制御装置の一構成例を示すブロック図である。第１実施形態の補正生成部の一構成例を示すブロック図である。加工形状が八角形の場合のモータの動作を説明するための図である。加工形状が八角形の角が一つ置きに円弧に置き換えられた形の場合のモータの動作を説明するための図である。本発明の第１実施形態の機械学習装置を示すブロック図である。第１実施形態における機械学習装置の動作を示すフローチャートである。本発明の第２実施形態の制御装置の一構成例を示すブロック図である。本発明の第３の実施形態の制御装置の一構成例を示すブロック図である。本発明の第４の実施形態の制御装置の一構成例を示すブロック図である。本発明の第５実施形態となるサーボ制御装置の速度フィードフォワード処理部の後段の構成の一部を示すブロック図である。本発明の第５実施形態となるサーボ制御装置の位置フィードフォワード処理部の後段の構成の一部を示すブロック図である。フィルタの有無による位置フィードフォワード（位置ＦＦ）処理又は速度フィードフォワード（速度ＦＦ）処理による補正量の変化を示す特性図である。本発明の第５実施形態となる他の構成のサーボ制御装置の２回微分器の後段の構成の一部を示すブロック図である。本発明の第５実施形態となる他の構成のサーボ制御装置の微分器の後段の構成の一部を示すブロック図である。他の構成のサーボ制御装置における、フィルタの有無による位置フィードフォワード（位置ＦＦ）処理又は速度フィードフォワード（速度ＦＦ）処理による補正量の変化を示す特性図である。本発明の第６実施形態となるサーボ制御装置の速度制御部の構成を示すブロック図である。積分器の書き換えの有無によるトルク指令の変化を示す特性図である。本発明の他の実施形態の制御装置を示すブロック図である。

以下、本発明の実施形態について図面を用いて詳細に説明する。
（第１実施形態）

図１は本発明の第１実施形態の制御装置の一構成例を示すブロック図である。図１に示す制御装置１０は、サーボ制御装置１００と機械学習装置２００とを備えている。サーボ制御装置１００は数値制御装置（ＣＮＣ装置）４００と接続される。

最初に、サーボ制御装置１００について説明する。
サーボ制御装置１００は、減算器１０１、位置制御部１０２、加減算器１０３、速度制御部１０４、スイッチ１１７、サーボモータ１０６、積分器１０７、位置検出処理部１０８、異常検出部１０９、補正生成部１１０、及び報知部１１８を備えている。

数値制御装置４００は、サーボモータ１０６を動作させるプログラムに基づいて位置指令値を作成する。工作機械において、被加工物（ワーク）を搭載するテーブルがＸ軸方向及びＹ軸方向に移動される場合には、Ｘ軸方向及びＹ軸方向に対してそれぞれ図１に示すサーボ制御装置１００が設けられる。テーブルを３軸以上の方向に移動させる場合には、それぞれの軸方向に対してサーボ制御装置１００が設けられる。
数値制御装置４００は、加工プログラムにより指定される加工形状となるように、送り速度を設定して位置指令値を作成し、減算器１０１、補正生成部１１０及び機械学習装置２００に出力する。

減算器１０１は、数値制御装置４００から入力されるプログラムや命令に従って作成された位置指令を受け、位置指令と位置フィードバックされた検出位置との差を求め、その差を位置偏差として位置制御部１０２、異常検出部１０９及び機械学習装置２００に出力する。

位置制御部１０２は、減算器１０１から出力される位置偏差にポジションゲインＫｐを乗じた値を、速度指令として加減算器１０３に出力する。

加減算器１０３は、速度指令と、補正生成部１１０からスイッチ１１７を介して入力される補正量とを加算し、さらに、その加算値と速度フィードバックされた速度検出値との差を求め、その差を補正された速度偏差として速度制御部１０４に出力する。

速度制御部１０４は、補正された速度偏差に比例積分処理（ＰＩ処理）を行い、サーボモータ１０６に出力する。具体的には、速度制御部１０４は、補正された速度偏差を積分器で積分して、その積分値に積分ゲインＫｉを乗じた値と、補正された速度偏差に比例ゲインＫｖを乗じた値とを加算して、トルク指令としてサーボモータ１０６に出力してサーボモータ１０６を駆動する。

サーボモータ１０６は、例えば工作機械，ロボット，産業機械等に含まれてもよい。サーボ制御装置１００はサーボモータ１０６とともに、工作機械，ロボット，産業機械等の一部として設けられてもよい。

サーボモータ１０６の回転角度位置は、サーボモータ１０６に関連付けられた、位置検出部となるロータリーエンコーダによって検出され、速度検出値は速度フィードバックとして加減算器１０３に入力される。加減算器１０３からサーボモータ１０６は、速度フィードバックループを構成する。

積分器１０７は速度検出値を積分して積分値を位置検出処理部１０８に出力する。位置検出処理部１０８は積分値に基づいて位置検出値を求める。位置検出値は位置フィードバックとして減算器１０１に入力される。減算器１０１から位置検出処理部１０８は、位置フィードバックループを構成する。

異常検出部１０９は、減算器１０１から出力される位置偏差に基づいて、位置偏差が閾値以上となった場合に、スイッチ１１７をオフ（非導通状態）となるように切換信号となる異常検出信号を送る。その後、異常検出部１０９は機械学習装置２００へ補正停止を通知する補正停止通知信号を送る。そして、機械学習をするために動かす動作プログラムである学習時の加工プログラムは、補正を停止したまま動作させて動作プログラムが終了するまで動作させることが好ましい。仮に、動作プログラムを途中で停止させた場合、次の動作時には機械の停止時の位置から開始されるため、動作プログラムが開始位置に戻るための処理が機械によっては必要となる。他方、機械学習をするために動かす動作プログラムは、連続で運転するために開始位置に戻る動作が基本的には入る。したがって、機械学習をするために動かす動作プログラムは、補正を停止したまま動作させて動作プログラムが終了させることで開始位置に戻らせて、次の学習を継続することができる。なお、機械学習をするために動かす動作プログラムは、補正を停止した場合に、動作プログラムを途中で停止させてもよいが、この場合には、機械が開始位置に戻るための処理が必要となることがある。
なお補正停止通知信号は異常検出信号と別に設けなくともよく、異常検出信号を用いてもよい。機械学習装置２００からは、補正生成部１１０の補正量が、異常を検出したときの補正量とは異なる補正量に調整したことを通知する補正量調整通知信号を送る。異常検出部１０９はこの補正量調整通知信号を受けると、機械学習装置２００で異常が生じたときの補正量とは異なる新たな補正量が探索されて調整されたことを認識し、新たな学習動作が開始されるときに、スイッチ１１７をオン（導通状態）となるように切換信号を送る。
このように、異常検出部１０９が異常を検出して、スイッチ１１７をオフした場合、補正量は加減算器１０３に出力されないので、サーボ制御装置１００は、位置フィードバックループと速度フィードバックループのみで動作することになり、動作が安定する。

補正生成部１１０は、位置偏差に基づいて位置フィーバックループに対する補正量を生成し、スイッチ１１７を介して加減算器１０３に出力する。補正量は、例えば位置指令に基づいて位置フィードフォワード項、又は象限突起を抑制する補正量である。なお、異常検出部１０９によってスイッチ１１７がオフしている場合には、補正生成部１１０により生成される補正量は加減算器１０３に出力されない。

報知部１１８は、異常検出部１０９にて異常が検出されたときに、管理者に、液晶モニタ、ＬＥＤ、又はスピーカにより、表示、点灯又は音声で報知する。報知部１１８はネットワークで外部に異常を知らせる情報を送信する通信部であってもよい。

図２は第１実施形態の補正生成部１１０の一構成例を示すブロック図である。ここでは、補正生成部１１０として、位置指令に基づいて速度指令に対する位置フィードフォワード項を生成する位置フィードフォワード項生成部を備えるものとして説明する。

図２に示すように、位置フィードフォワード項生成部は、微分器１１５と、位置フィードフォワード処理部１１６とを備える。微分器１１５は、位置指令を微分して定数βを掛ける。位置フィードフォワード処理部１１６は微分器１１５の出力に、数式１（以下に数１として示す）で示す伝達関数Ｇ（ｓ）で示された位置フィードフォワード処理を行う。その処理結果を位置フィードフォワード項（補正量となる）としてスイッチ１１７を介して加減算器１０３に出力する。
数式１の係数ａ_ｉ、ｂ_ｊ(ｉ，ｊ≧０)は位置フィードフォワード処理部１１６の伝達関数Ｇ（ｓ）の各係数である。

機械学習装置２００は、補正量を探索して機械学習を行う。本実施形態では、機械学習の一例として強化学習について説明するが、機械学習は特に強化学習に限定されない。強化学習において、エージェント（本実施形態における機械学習装置２００に相当）は、環境の状態を観測し、ある行動を選択し、当該行動に基づいて環境が変化する。環境の変化に伴って、何らかの報酬が与えられ、エージェントはより良い行動の選択（意思決定）を学習する。本実施形態において、例えば、減算器１０１から出力される位置偏差が環境の状態となり、位置偏差を低減するための行動情報として補正生成部１１０の補正量を選択する。
ここでは、前述した補正生成部１１０として例示した、位置指令に基づいて速度指令に対する補正量を生成する位置フィードフォワード項に係る機械学習（強化学習）を例として説明する。
機械学習装置２００は、予め設定された加工プログラム（「学習時の加工プログラム」となる）を実行することで、位置フィードフォワード処理部１１６の伝達関数の係数を機械学習（以下、学習という）する。

ここで、学習時の加工プログラムにより指定される加工形状は、例えば、図３に示す八角形、及び／又は図４に示す八角形の角が一つ置きに円弧に置き換えられた形等である。
ここでは、学習時の加工プログラムにより指定される加工形状の位置Ａ１と位置Ａ３、及び／又は位置Ｂ１と位置Ｂ３により、線形制御において回転速度が変更されたときの振動を評価し、位置偏差に対する影響を調べることで、伝達関数Ｇ（ｓ）に係る係数の学習を行うものとする。
なお、加工形状の位置Ａ２と位置Ａ４、及び／又は位置Ｂ２と位置Ｂ４により、回転方向が反転する場合に生ずる惰走（いわゆる「象限突起」）を評価し、位置偏差に対する影響を調べることで、象限突起を抑制する補正量を算出するための伝達関数の係る係数の学習を行うこともできる。

機械学習装置２００に含まれる各機能ブロックの説明に先立って、まず強化学習の基本的な仕組みについて説明する。エージェント（本実施形態における機械学習装置２００に相当）は、環境の状態を観測し、ある行動を選択し、当該行動に基づいて環境が変化する。環境の変化に伴って、何らかの報酬が与えられ、エージェントはより良い行動の選択（意思決定）を学習する。
教師あり学習が、完全な正解を示すのに対して、強化学習における報酬は、環境の一部の変化に基づく断片的な値であることが多い。このため、エージェントは、将来にわたっての報酬の合計を最大にするように行動を選択するように学習する。

このように、強化学習では、行動を学習することにより、環境に行動が与える相互作用を踏まえて適切な行動を学習、すなわち将来的に得られる報酬を最大にするための学習する方法を学ぶ。これは、本実施形態において、例えば、位置偏差を低減するための行動情報を選択するという、未来に影響をおよぼすような行動を獲得できることを表している。

ここで、強化学習としては、任意の学習方法を用いることができるが、以下の説明では、或る環境の状態Ｓの下で、行動Ａを選択する価値Ｑ（Ｓ，Ａ）を学習する方法であるＱ学習（Q-learning）を用いる場合を例にとって説明をする。
Ｑ学習では、或る状態Ｓのとき、取り得る行動Ａのなかから、価値Ｑ（Ｓ，Ａ）の最も高い行動Ａを最適な行動として選択することを目的とする。

しかしながら、Ｑ学習を最初に開始する時点では、状態Ｓと行動Ａとの組合せについて、価値Ｑ（Ｓ，Ａ）の正しい値は全く分かっていない。そこで、エージェントは、或る状態Ｓの下で様々な行動Ａを選択し、その時の行動Ａに対して、与えられる報酬に基づいて、より良い行動の選択をすることにより、正しい価値Ｑ（Ｓ，Ａ）を学習していく。

また、将来にわたって得られる報酬の合計を最大化したいので、最終的にＱ（Ｓ，Ａ）＝Ｅ［Σ（γ^ｔ）ｒ_ｔ］となるようにすることを目指す。ここでＥ［］は期待値を表し、ｔは時刻、γは後述する割引率と呼ばれるパラメータ、ｒ_ｔは時刻ｔにおける報酬、Σは時刻ｔによる合計である。この式における期待値は、最適な行動に従って状態変化した場合の期待値である。しかしＱ学習の過程において最適な行動が何であるのかは不明であるので、様々な行動を行うことにより、探索しながら強化学習をする。このような価値Ｑ（Ｓ，Ａ）の更新式は、例えば、次の数式２（以下に数２として示す）により表すことができる。

上記の数式２において、Ｓ_ｔは、時刻ｔにおける環境の状態を表し、Ａ_ｔは、時刻ｔにおける行動を表す。行動Ａ_ｔにより、状態はＳ_ｔ＋１に変化する。ｒ_ｔ＋１は、その状態の変化により得られる報酬を表している。また、ｍａｘの付いた項は、状態Ｓ_ｔ＋１の下で、その時に分かっている最もＱ値の高い行動Ａを選択した場合のＱ値にγを乗じたものになる。ここで、γは、０＜γ≦１のパラメータで、割引率と呼ばれる。また、αは、学習係数で、０＜α≦１の範囲とする。

上述した数式２は、試行Ａ_ｔの結果、返ってきた報酬ｒ_ｔ＋１を元に、状態Ｓ_ｔにおける行動Ａ_ｔの価値Ｑ（Ｓ_ｔ，Ａ_ｔ）を更新する方法を表している。
この更新式は、状態Ｓ_ｔにおける行動Ａ_ｔの価値Ｑ（Ｓ_ｔ，Ａ_ｔ）よりも、行動Ａ_ｔによる次の状態Ｓ_ｔ＋１における最良の行動の価値ｍａｘ_ａＱ（Ｓ_ｔ＋１，Ａ）の方が大きければ、Ｑ（Ｓ_ｔ，Ａ_ｔ）を大きくし、逆に小さければ、Ｑ（Ｓ_ｔ，Ａ_ｔ）を小さくすることを示している。つまり、或る状態における或る行動の価値を、それによる次の状態における最良の行動の価値に近づける。ただし、その差は、割引率γと報酬ｒ_ｔ＋１のあり方により変わってくるが、基本的には、ある状態における最良の行動の価値が、それに至る一つ前の状態における行動の価値に伝播していく仕組みになっている。

ここで、Ｑ学習では、すべての状態行動ペア（Ｓ，Ａ）についてのＱ（Ｓ，Ａ）のテーブルを作成して、学習を行う方法がある。しかし、すべての状態行動ペアのＱ（Ｓ，Ａ）の値を求めるには状態数が多すぎて、Ｑ学習が収束するのに多くの時間を要してしまう場合がある。

そこで、公知のＤＱＮ（Deep Q-Network）と呼ばれる技術を利用するようにしてもよい。具体的には、価値関数Ｑを適当なニューラルネットワークを用いて構成し、ニューラルネットワークのパラメータを調整することにより、価値関数Ｑを適当なニューラルネットワークで近似することにより価値Ｑ（Ｓ，Ａ）の値を算出するようにしてもよい。ＤＱＮを利用することにより、Ｑ学習が収束するのに要する時間を短くすることが可能となる。なお、ＤＱＮについては、例えば、以下の非特許文献に詳細な記載がある。

＜非特許文献＞
「Human-level control through deep reinforcement learning」、Volodymyr Mnih1著［ｏｎｌｉｎｅ］、［平成２９年１月１７日検索］、インターネット〈ＵＲＬ：http://files.davidqiu.com/research/nature14236.pdf〉

以上説明をしたＱ学習を機械学習装置２００が行う。具体的には、機械学習装置２００は、サーボ制御装置１００における、位置フィードフォワード処理部１１６の伝達関数の各係数ａ_ｉ、ｂ_ｊ(ｉ，ｊ≧０)の値、並びに学習時の加工プログラムを実行することで取得されるサーボ制御装置１００の位置偏差情報、及び位置指令を含む、指令及びフィードバック等のサーボ状態を状態Ｓとして、当該状態Ｓに係る、位置フィードフォワード処理部１１６の伝達関数の各係数ａ_ｉ、ｂ_ｊの値の調整を行動Ａとして選択する価値Ｑを学習する。

機械学習装置２００は、位置フィードフォワード処理部１１６の伝達関数の各係数ａ_ｉ、ｂ_ｊの値に基づいて、学習時の加工プログラムを実行することで前述した加工形状の位置Ａ１と位置Ａ３、及び／又は位置Ｂ１と位置Ｂ３における、サーボ制御装置１００の位置指令及び位置偏差情報を含む、指令及びフィードバック等のサーボ状態を含む状態情報Ｓを観測して、行動Ａを決定する。機械学習装置２００は、行動Ａをするたびに報酬が返ってくる。機械学習装置２００は、例えば、将来にわたっての報酬の合計が最大になるように最適な行動Ａを試行錯誤的に探索する。そうすることで、機械学習装置２００は、位置フィードフォワード処理部１１６の伝達関数の各係数ａ_ｉ、ｂ_ｊの値に基づいて、学習時の加工プログラムを実行することで取得されるサーボ制御装置１００の位置指令及び位置偏差情報を含む指令、フィードバック等のサーボ状態を含む状態Ｓに対して、最適な行動Ａ（すなわち、位置フィードフォワード処理部１１６の最適な係数ａ_ｉ、ｂ_ｊ）を選択することが可能となる。機械学習装置２００は線形動作時の位置フィードフォワード処理部１１６の伝達関数の各係数ａ_ｉ、ｂ_ｊの学習を行うことができる。

すなわち、機械学習装置２００により学習された価値関数Ｑに基づいて、或る状態Ｓに係る位置フィードフォワード処理部１１６の伝達関数の各係数ａ_ｉ、ｂ_ｊに対して適用される行動Ａのうち、Ｑの値が最大となるような行動Ａを選択することで、学習時の加工プログラムを実行することで取得される位置偏差が最小になるような行動Ａ（すなわち、位置フィードフォワード処理部１１６の係数ａ_ｉ、ｂ_ｊを選択することが可能となる。

図５は第１実施形態の機械学習装置２００を示すブロック図である。
上述した強化学習を行うために、図５に示すように、機械学習装置２００は、状態情報取得部２０１、学習部２０２、行動情報出力部２０３、価値関数記憶部２０４、及び最適化行動情報出力部２０５を備える。学習部２０２は報酬出力部２０２１、価値関数更新部２０２２、及び行動情報生成部２０２３を備える。

状態情報取得部２０１は、サーボ制御装置１００における位置フィードフォワード処理部１１６の伝達関数の各係数ａ_ｉ、ｂ_ｊ、及びこれらの係数に基づいて、学習時の加工プログラムを実行することで取得されるサーボ制御装置１００の位置指令及び位置偏差情報を含む指令、フィードバック等のサーボ状態を含む状態Ｓを、サーボ制御装置１００から取得する。また、状態情報取得部２０１は、異常検出部１０９から補正停止を通知する補正停止通知信号を取得する。この状態情報Ｓは、Ｑ学習における、環境状態Ｓに相当する。
状態情報取得部２０１は、取得した状態情報Ｓを学習部２０２に対して出力する。

なお、最初にＱ学習を開始する時点での位置フィードフォワード処理部１１６の係数ａ_ｉ、ｂ_ｊは、予めユーザが生成するようにする。本実施形態では、ユーザが作成した位置フィードフォワード処理部１１６の係数ａ_ｉ、ｂ_ｊの初期設定値を、強化学習により最適なものに調整する。微分器１１５の係数βを固定値とし、例えばβ＝１とする。また、位置フィードフォワード処理部１１６の係数ａ_ｉ、ｂ_ｊは例えば、初期設定値として、数式１のａ_０＝１、ａ_１＝０、ａ_２＝０、ａ_x＝０、ｂ_０＝１、ｂ_１＝０、ｂ_２＝０、ｂ_ｘ＝０とする。また、係数ａ_ｉ、ｂ_ｊの次元ｍ、ｎを予め設定する。すなわち、ａ_ｉについては０≦ｉ≦ｍｂ_ｊについては０≦ｊ≦ｎとする。
なお、係数ａ_ｉ、ｂ_ｊは予め操作者が工作機械を調整している場合には、調整済の値を初期値として機械学習してもよい。

学習部２０２は、或る環境状態Ｓの下で、ある行動Ａを選択する場合の価値Ｑ（Ｓ，Ａ）を学習する部分である。また、学習部２０２は、異常検出部１０９から補正停止通知信号を受けると、状態Ｓにおける位置フィードフォワード処理部１１６の係数ａ_ｉ、ｂ_ｊをサーボモータ１０６が異常な動作をする補正パラメータとして学習に反映させることができる。その際、当該状態Ｓの学習のための加工プログラムの実行については、前述したように、補正を停止したまま、加工プログラムが終了するまで動作させる。その場合、加工プログラムは、位置フィードバックループと速度フィードバックループのみで動作することとなる。その後、学習部２０２は、異常が生じたときの位置フィードフォワード処理部１１６の係数ａ_ｉ、ｂ_ｊとは異なる、次の学習のための係数を新たに探索して、位置フィードフォワード処理部１１６に設定するとともに、位置フィードフォワード処理部１１６の係数を設定したことを示す係数設定通知信号を異常検出部１０９へ送る。

報酬出力部２０２１は、或る状態Ｓの下で、行動Ａを選択した場合の報酬を算出する部分である。ここで、状態Ｓにおける状態変数である位置偏差の集合（位置偏差集合）をＰＤ（Ｓ）、行動情報Ａにより状態Ｓから変化した状態情報Ｓ´に係る状態変数である位置偏差集合をＰＤ（Ｓ´）で示す。また、状態Ｓにおける位置偏差の値を、予め設定された評価関数ｆ（ＰＤ（Ｓ））に基づいて算出される値とする。行動情報Ａは位置フィードフォワード処理部１１６の各係数ａ_ｉ、ｂ_ｊ（ｉ，ｊは０及び正の整数を示す）の修正である。
ここで、状態Ｓにおける状態変数である位置偏差の集合とは、前述した加工形状の位置Ａ１と位置Ａ３、及び／又は位置Ｂ１と位置Ｂ３を含む所定の範囲内で計測される位置偏差の集合を意味する。
評価関数ｆとしては、例えば、
位置偏差の絶対値の積算値を算出する関数
∫|e|dt
位置偏差の絶対値に時間の重み付けをして積算値を算出する関数
∫t|e|dt
位置偏差の絶対値の２ｎ（ｎは自然数）乗の積算値を算出する関数
∫e²ⁿdt（ｎは自然数）
位置偏差の絶対値の最大値を算出する関数
Ｍａｘ｛|e|｝
等を適用することができる。

このとき、行動情報Ａにより修正された状態情報Ｓ´に係る修正後の位置フィードフォワード処理部１１６に基づいて動作したサーボ制御装置１００の位置偏差の値ｆ（ＰＤ（Ｓ´））が、行動情報Ａにより修正される前の状態情報Ｓに係る修正前の位置フィードフォワード処理部１１６に基づいて動作したサーボ制御装置１００の位置偏差の値ｆ（ＰＤ（Ｓ））よりも大きくなった場合に、報酬出力部２０２１は、報酬の値を負の値とする。
なお、報酬出力部２０２１は、異常検出部１０９からの補正停止通知信号を受けたときには、異常が検知されたときの位置フィードフォワード処理部１１６の係数ａ_ｉ、ｂ_ｊが選択されないように報酬の値を絶対値の大きな負の値とすることができる。そうすることで、異常が検知されたときの位置フィードフォワード処理部１１６の係数ａ_ｉ、ｂ_ｊは、今後の学習範囲から実質的に外すことができる。

一方で、行動情報Ａにより修正された状態情報Ｓ´に係る修正後の位置フィードフォワード処理部１１６に基づいて動作したサーボ制御装置１００の位置偏差の値ｆ（ＰＤ（Ｓ´））が、行動情報Ａにより修正される前の状態情報Ｓに係る修正前の位置フィードフォワード処理部１１６に基づいて動作したサーボ制御装置１００の位置偏差の値ｆ（ＰＤ（Ｓ））よりも小さくなった場合に、報酬出力部２０２１は、報酬の値を正の値とする。
なお、行動情報Ａにより修正された状態情報Ｓ´に係る修正後の位置フィードフォワード処理部１１６に基づいて動作したサーボ制御装置１００の位置偏差の値ｆ（ＰＤ（Ｓ´））が、行動情報Ａにより修正される前の状態情報Ｓに係る修正前の位置フィードフォワード処理部１１６に基づいて動作したサーボ制御装置１００の位置偏差の値ｆ（ＰＤ（Ｓ））と等しい場合は、報酬出力部２０２１は、報酬の値をゼロとするようにしてもよい。

また、行動Ａを実行後の状態Ｓ´の位置偏差の値ｆ（ＰＤ（Ｓ´））が、前の状態Ｓにおける位置偏差の値ｆ（ＰＤ（Ｓ））より大きくなった場合の負の値としては、比率に応じて負の値を大きくするようにしてもよい。つまり位置偏差の値が大きくなった度合いに応じて負の値が大きくなるようにするとよい。逆に、行動Ａを実行後の状態Ｓ´の位置偏差の値ｆ（ＰＤ（Ｓ´））が、前の状態Ｓにおける位置偏差の値ｆ（ＰＤ（Ｓ））より小さくなった場合の正の値としては、比率に応じて正の値を大きくするようにしてもよい。つまり位置偏差の値が小さくなった度合いに応じて正の値が大きくなるようにするとよい。

価値関数更新部２０２２は、状態Ｓと、行動Ａと、行動Ａを状態Ｓに適用した場合の状態Ｓ´と、上記のようにして算出された報酬の値と、に基づいてＱ学習を行うことにより、価値関数記憶部２０４が記憶する価値関数Ｑを更新する。
価値関数Ｑの更新は、オンライン学習で行ってもよく、バッチ学習で行ってもよく、ミニバッチ学習で行ってもよい。
オンライン学習は、或る行動Ａを現在の状態Ｓに適用することにより、状態Ｓが新たな状態Ｓ´に遷移する都度、即座に価値関数Ｑの更新を行う学習方法である。また、バッチ学習は、或る行動Ａを現在の状態Ｓに適用することにより、状態Ｓが新たな状態Ｓ´に遷移することを繰り返すことにより、学習用のデータを収集し、収集した全ての学習用データを用いて、価値関数Ｑの更新を行う学習方法である。更に、ミニバッチ学習は、オンライン学習と、バッチ学習の中間的な、ある程度学習用データが溜まるたびに価値関数Ｑの更新を行う学習方法である。

行動情報生成部２０２３は、現在の状態Ｓに対して、Ｑ学習の過程における行動Ａを選択する。行動情報生成部２０２３は、Ｑ学習の過程において、サーボ制御装置１００の位置フィードフォワード処理部１１６の各係数ａ_ｉ、ｂ_ｊを修正する動作（Ｑ学習における行動Ａに相当）を行わせるために、行動情報Ａを生成して、生成した行動情報Ａを行動情報出力部２０３に対して出力する。より具体的には、行動情報生成部２０２３は、例えば、状態Ｓに含まれる位置フィードフォワード処理部１１６の各係数ａ_ｉ、ｂ_ｊに対して行動Ａに含まれる、位置フィードフォワード処理部１１６の各係数ａ_ｉ、ｂ_ｊをインクレメンタル（例えば０．０１程度）に加算又は減算させる。

そして、行動情報生成部２０２３は、位置フィードフォワード処理部１１６の各係数ａ_ｉ、ｂ_ｊの増加又は減少を適用して、状態Ｓ´に遷移して、プラスの報酬（正の値の報酬）が返った場合、次の行動Ａ´としては、位置フィードフォワード処理部１１６の各係数ａ_ｉ、ｂ_ｊに対して、前回のアクションと同様にインクレメンタルに加算又は減算させる等、位置偏差の値がより小さくなるような行動Ａ´を選択する方策を取るようにしてもよい。

また、逆に、マイナスの報酬（負の値の報酬）が返った場合、行動情報生成部２０２３は、次の行動Ａ´としては、例えば、位置フィードフォワード処理部１１６の各係数ａ_ｉ、ｂ_ｊに対して、前回のアクションとは逆にインクレメンタルに減算又は加算させる等、位置偏差が前回の値よりも小さくなるような行動Ａ´を選択する方策を取るようにしてもよい。

また、行動情報生成部２０２３は、現在の推定される行動Ａの価値の中で、最も価値Ｑ（Ｓ，Ａ）の高い行動Ａ´を選択するグリーディ法、又はある小さな確率εでランダムに行動Ａ´選択し、それ以外では最も価値Ｑ（Ｓ，Ａ）の高い行動Ａ´を選択するεグリーディ法といった公知の方法により、行動Ａ´を選択する方策を取るようにしてもよい。

行動情報出力部２０３は、学習部２０２から出力される行動情報Ａをサーボ制御装置１００に対して送信する部分である。サーボ制御装置１００は上述したように、この行動情報に基づいて、現在の状態Ｓ、すなわち現在設定されている位置フィードフォワード処理部１１６の各係数ａ_ｉ、ｂ_ｊを微修正することで、次の状態Ｓ´（すなわち修正された、位置フィードフォワード処理部１１６の各係数ａ_ｉ、ｂ_ｊ）に遷移する。

また、行動情報生成部２０２３は、位置フィードフォワード処理部１１６の各係数ａ_ｉ、ｂ_ｊを、異常を検出したときの係数ａ_ｉ、ｂ_ｊとは異なる係数ａ_ｉ、ｂ_ｊに調整して係数を設定したこと通知する係数設定通知信号を異常検出部１０９に対して送る。

価値関数記憶部２０４は、価値関数Ｑを記憶する記憶装置である。価値関数Ｑは、例えば状態Ｓ、行動Ａ毎にテーブル（以下、行動価値テーブルと呼ぶ）として格納してもよい。価値関数記憶部２０４に記憶された価値関数Ｑは、価値関数更新部２０２２により更新される。また、価値関数記憶部２０４に記憶された価値関数Ｑは、他の機械学習装置２００との間で共有されるようにしてもよい。価値関数Ｑを複数の機械学習装置２００で共有するようにすれば、各機械学習装置２００にて分散して強化学習を行うことが可能となるので、強化学習の効率を向上させることが可能となる。

最適化行動情報出力部２０５は、価値関数更新部２０２２がＱ学習を行うことにより更新した価値関数Ｑに基づいて、価値Ｑ（Ｓ，Ａ）が最大となる動作を位置フィードフォワード処理部１１６に行わせるための行動情報Ａ（以下、「最適化行動情報」と呼ぶ）を生成する。
より具体的には、最適化行動情報出力部２０５は、価値関数記憶部２０４が記憶している価値関数Ｑを取得する。この価値関数Ｑは、上述したように価値関数更新部２０２２がＱ学習を行うことにより更新したものである。そして、最適化行動情報出力部２０５は、価値関数Ｑに基づいて、行動情報を生成し、生成した行動情報をサーボ制御装置１００（位置フィードフォワード処理部１１６）に対して出力する。この最適化行動情報には、行動情報出力部２０３がＱ学習の過程において出力する行動情報と同様に、位置フィードフォワード処理部１１６の各係数ａ_ｉ、ｂ_ｊを修正する情報が含まれる。

サーボ制御装置１００では、この行動情報に基づいて位置フィードフォワード処理部１１６の各係数ａ_ｉ、ｂ_ｊが修正される。
機械学習装置２００は、以上の動作で、位置フィードフォワード処理部１１６の各係数ａ_ｉ、ｂ_ｊの学習及び最適化を行い、位置偏差の値を低減するように動作することができる。
以上のように、本発明に係る機械学習装置２００を利用することで、サーボ制御装置１００の位置フィードフォワード処理部１１６の補正パラメータ（係数ａ_ｉ、ｂ_ｊ）調整を簡易化することができる。補正パラメータ（係数ａ_ｉ、ｂ_ｊ）調整により位置フィードフォワード処理部１１６の位置フィードフォワード項の調整がなされる。

以上、サーボ制御装置１００、機械学習装置２００に含まれる機能ブロックについて説明した。
これらの機能ブロックを実現するために、サーボ制御装置１００、及び機械学習装置２００のそれぞれは、ＣＰＵ（Central Processing Unit）等の演算処理装置を備える。また、サーボ制御装置１００、及び機械学習装置２００のそれぞれは、アプリケーションソフトウェアやＯＳ（Operating System）等の各種の制御用プログラムを格納したＨＤＤ（Hard Disk Drive）等の補助記憶装置や、演算処理装置がプログラムを実行する上で一時的に必要とされるデータを格納するためのＲＡＭ（Random Access Memory）といった主記憶装置も備える。

そして、サーボ制御装置１００、及び機械学習装置２００のそれぞれにおいて、演算処理装置が補助記憶装置からアプリケーションソフトウェアやＯＳを読み込み、読み込んだアプリケーションソフトウェアやＯＳを主記憶装置に展開させながら、これらのアプリケーションソフトウェアやＯＳに基づいた演算処理を行なう。また、この演算結果に基づいて、各装置が備える各種のハードウェアを制御する。これにより、本実施形態の機能ブロックは実現される。つまり、本実施形態は、ハードウェアとソフトウェアが協働することにより実現することができる。

機械学習装置２００については機械学習に伴う演算量が多いため、例えば、パーソナルコンピュータにＧＰＵ（Graphics Processing Units）を搭載し、ＧＰＧＰＵ（General-Purpose computing on Graphics Processing Units）と呼ばれる技術により、ＧＰＵを機械学習に伴う演算処理に利用するようにすると高速処理できるようになるのでよい。更には、より高速な処理を行うために、このようなＧＰＵを搭載したコンピュータを複数台用いてコンピュータ・クラスターを構築し、このコンピュータ・クラスターに含まれる複数のコンピュータにて並列処理を行うようにしてもよい。

以上のように、本実施形態では、サーボ制御装置１００は、異常検出部１０９、及びスイッチ１１７を備え、異常検出部１０９からの切換通知信号により、スイッチ１１７がオフとなり、機械学習装置２００は、異常検出部１０９からの補正停止通知信号により、異常が検知されたことを認識する。機械学習装置２００は、異常が検知されたことを認識すると、状態Ｓにおける位置フィードフォワード処理部１１６の係数ａ_ｉ、ｂ_ｊをサーボモータ１０６が異常な動作をする補正パラメータとして学習に反映させる。そして、当該状態Ｓの学習のための加工プログラムの実行については、前述したように、補正を停止したまま、動作プログラムが終了するまで動作させて、当該状態Ｓの学習動作を終了させる。その後、次の学習のための係数を新たに探索して、次の行動情報を選択して、位置フィードフォワード処理部１１６に設定するとともに、位置フィードフォワード処理部１１６の係数を新たに設定したことを示す係数設定通知信号を異常検出部１０９へ送る。そうすることで、次の行動に基づく学習動作を開始することができる。以上のように、本実施形態の機械学習装置は、補正生成部１１０を機械学習する場合に、機械学習中に、仮に不適切な補正量が選択されることがあっても、モータや機械先端に振動が発生して有効な学習ができなくなったり、また、アラームで工作機械等が停止、終了して、学習が中断することがないように、安全に機械学習を継続することが可能となる。

次に、図６を参照して、本実施形態の機械学習装置２００の動作について説明する。
図６に示すように、ステップＳ２１で、機械学習装置２００は学習動作を開始する。ここで、学習動作とは、状態Ｓにおいて、行動Ａ（位置フィードフォワード処理部１１６の係数ａ_ｉ、ｂ_ｊ）を選択して、補正生成部１１０に設定し、学習時の加工プログラムを実行させることにより前述した加工形状の位置Ａ１と位置Ａ３、及び／又は位置Ｂ１と位置Ｂ３における位置偏差の集合（状態Ｓ´における状態変数）を取得して、当該位置偏差の評価値を算出し、状態Ｓにおける位置偏差の評価値と比較することにより、報酬を算出し、価値関数記憶部２０４が記憶する価値関数Ｑを更新する一連の処理を意味する。以下のステップにおいて、一連の処理を実行する。
そして、学習動作時に、異常検出部１０９が、異常を検知した場合、機械学習装置２００は、状態Ｓにおける行動Ａ（位置フィードフォワード処理部１１６の係数ａ_ｉ、ｂ_ｊ）をサーボモータ１０６が異常な動作をする行動（補正パラメータ）として報酬に反映させることができる。その際、当該状態Ｓの学習時の加工プログラムは、前述したように、補正を停止したまま、加工プログラムが終了するまで動作させる。それにより、機械学習装置は、次の行動を探索して、新たな行動を生成することで、学習が中断することがないように、安全に機械学習を継続することが可能となる。

ステップＳ２２において、機械学習装置２００は、異常動作が検出されたか否かを判定する。異常動作が検出されたと判定した場合（Ｙｅｓ）、ステップＳ２５に移る。異常動作が検出されない場合（Ｎｏ）、ステップＳ２３に移る。

ステップＳ２３において、機械学習装置２００は、当該学習動作が終了したか否かを判定する。当該学習動作が終了した場合（Ｙｅｓ）、ステップＳ２４に移る。当該学習動作が終了していない場合（Ｎｏ）、ステップＳ２２に移る。

ステップＳ２４において、機械学習装置２００は、次の行動を探索して、新たなパラメータを設定する。具体的には、機械学習装置２００は補正生成部１１０の補正量（位置フィードフォワード項）を調整するための補正パラメータ設定（位置フィードフォワード処理部１１６の係数ａ_ｉ、ｂ_ｊの設定）をする。その後ステップＳ２８に移る。

ステップＳ２５において、機械学習装置２００は、該学習動作が終了したか否かを判定する。当該学習動作が終了した場合（Ｙｅｓ）、ステップＳ２６に移る。当該学習動作が終了していない場合（Ｎｏ）、ステップＳ２５に戻る。

ステップＳ２６において、機械学習装置２００は、異常が生じたときの補正生成部１１０の補正量を学習し、次の行動を探索して、新たな補正生成部１１０の補正量が、異常を検出したときの補正量とは異なる補正量に調整して設定する。

ステップＳ２７において、機械学習装置２００は、新たな補正量に設定されたことを異常検出部１０９に対して通知する。

ステップＳ２８において、機械学習装置２００は、機械学習を終了するかどうかを判断し、機械学習を継続する場合（Ｎｏ）、ステップＳ２１に戻る。機械学習を終了する場合（Ｙｅｓ）には機械学習処理を終了する。

（変形例）
第１実施形態では、補正生成部１１０として、位置指令に基づいて速度指令に対する補正量を生成する位置フィードフォワード項生成部を備えるものとしたが、これに限られない。
例えば、補正生成部１１０として、位置フィードフォワード項生成部に換えて、後述する速度フィードフォワード項生成部を備えるものとしてもよい。その場合、速度フィードフォワード項生成部から速度フィードフォワード項がスイッチを介して、速度フィードバックループを構成する速度制御部１０４の出力に加えられる。
また、補正生成部１１０として、後述する象限突起の補正量を生成するものとしてもよい。その場合、象限突起の補正量がスイッチを介して速度フィードバックループを構成する加減算器１０３に加えられる。

以上のように、本実施形態によると、少なくとも一つのフィードバックループと、フィードバックループに加える補正を生成する補正生成部とを備えたサーボ制御装置において、工作機械、ロボット又は産業機械等を動作させながら、前記補正生成部を機械学習する場合に、機械学習中に、仮に不適切な補正量が算出されることがあっても、モータや機械先端に振動が発生して有効な学習ができなくなったり、また、アラームで工作機械等が停止、終了して、学習が中断することがないように、安全に機械学習を継続することができる。

（第２実施形態）
第１実施形態は、補正生成部１１０として、位置指令に基づいて速度指令に対する補正量を生成する位置フィードフォワード項生成部を備えるものについて説明した。第２実施形態では、補正生成部１１０として、位置指令に基づいて速度指令に対する補正量を生成する位置フィードフォワード項生成部に加えて、位置指令に基づいてトルク指令に対する補正量を生成する速度フィードフォワード項生成部を備えるものとする。

図７は本発明の第２実施形態の制御装置の一構成例を示すブロック図である。第２実施形態の制御装置１０Ａが、図１に示した第１実施形態の制御装置１０と異なる構成は、補正生成部１１０（図示せず）が、微分器１１５と位置フィードフォワード処理部１１６とを備える位置フィードフォワード項生成部に加えて、２回微分器１１２、速度フィードフォワード処理部１１３を備える速度フィードフォワード項生成部（図示せず）を含むこと、スイッチ１１４を備えること、及び加算器１１１を備えることである。以下、第２実施形態の制御装置１０Ａと図１に示した第１実施形態の制御装置１０との同一構成部材については、同一符号を付して構成及び動作の説明を省略する。

第２実施形態では、機械学習装置２００は、位置フィードフォワード処理部１１６の伝達関数の係数と、速度フィードフォワード処理部１１３の伝達関数の係数とを機械学習（以下、学習という）する。
第２実施形態では、機械学習装置２００は、速度フィードフォワード処理部１１３の伝達関数の係数の学習と、位置フィードフォワード処理部１１６の伝達関数の係数の学習とは別に行い、位置フィードフォワード処理部１１６より内側（インナーループ）にある速度フィードフォワード処理部１１３の伝達関数の係数の学習を位置フィードフォワード処理部１１６の伝達関数の係数の学習よりも先に行う。具体的には、位置フィードフォワード処理部１１６の伝達関数の係数を固定し、速度フィードフォワード処理部１１３の伝達関数の係数の最適な値を学習する。その後に、機械学習装置２００は、速度フィードフォワード処理部１１３の伝達関数の係数を学習で得られた最適な値に固定して、位置フィードフォワード処理部１１６の伝達関数の係数を学習する。
そうすることで、学習により最適化された速度フィードフォワード項の条件下で、位置フィードフォワード処理部１１６の伝達関数の係数の最適化に係る学習を行うことができ、位置偏差の変動を抑制することができる。
このため、位置フィードフォワード処理部１１６より内側（インナーループ）にある速度フィードフォワード処理部１１３の伝達関数の係数の学習が位置フィードフォワード処理部１１６の伝達関数の係数の学習より先にした方が、位置偏差の変動を抑制し、高精度化を実現できる。

＜速度フィードフォワード項生成部について＞
位置指令値は２回微分器１１２に出力される。
２回微分器１１２は、位置指令を２回微分して定数αを掛け、速度フィードフォワード処理部１１３は２回微分器１１２の出力に、数式３（以下に数３として示す）で示された伝達関数Ｆ（ｓ）で示される速度フィードフォワード処理を行い、その処理結果を速度フィードフォワード項（補正量となる）としてスイッチ１１４を介して加算器１１１に出力する。異常検出部１０９によってスイッチ１１４がオフしている場合には、速度フィードフォワード項は加算器１１１に出力されない。数式３の係数ｃ_ｉ、ｄ_ｊ(ｉ，ｊ≧０)は速度フィードフォワード処理部１１３の伝達関数Ｆ（ｓ）の各係数である。

加算器１１１は、速度制御部１０４から出力されるトルク指令と、速度フィードフォワード処理部１１３からスイッチ１１４を介して入力される速度フィードフォワード項とを加算して、フィードフォワード制御されたトルク指令としてサーボモータ１０６に出力してサーボモータ１０６を駆動する。

機械学習装置２００が、速度フィードフォワード処理部１１３の伝達関数の係数の学習を位置フィードフォワード処理部１１６の伝達関数の係数の学習よりも先に行う場合に、異常検出部１０９は、減算器１０１から出力される位置偏差に基づいて、位置偏差が閾値以上となった場合に、スイッチ１１４をオフ（非導通状態）となるように切換信号となる異常検出信号を送る。機械学習装置２００から異常検出部１０９に対して、第１実施形態と同様に速度フィードフォワード処理部１１３の伝達関数の各係数ｃ_ｉ、ｄ_ｊ(ｉ，ｊ≧０)の値が、異常を検出したときの係数とは異なる新たな係数が探索されて調整されたことを通知する係数設定通知信号を送る。異常検出部１０９はこの係数設定通知信号を受けると、機械学習装置２００で異常が生じたときの係数とは異なる新たな係数が探索されて調整されたことを認識し、係数設定通知信号を受けたとき又は新たな学習動作が開始されるときに、スイッチ１１４をオン（導通状態）となるように切換信号を送る。

異常検出部１０９が異常を検出して、スイッチ１１４をオフした場合、速度フィードフォワード項は、加算器１１１に出力されないので、サーボ制御装置１００は、動作が安定する。

＜機械学習装置２００＞
機械学習装置２００は、第１実施形態と同様に、予め設定された加工プログラム（学習時の加工プログラム」となる）を実行することで、速度フィードフォワード処理部１１３の伝達関数の係数、及び位置フィードフォワード処理部１１６の伝達関数の係数を機械学習（学習）する。以下の説明では速度フィードフォワード処理部１１３の伝達関数の係数の学習について説明するが、速度フィードフォワード処理部１１３の伝達関数の係数の学習後に、第１実施形態で説明した、位置フィードフォワード処理部１１６の伝達関数の係数の学習が行われる。

機械学習装置２００は、サーボ制御装置１００における、速度フィードフォワード処理部１１３の伝達関数の各係数ｃ_ｉ、ｄ_ｊ(ｉ，ｊ≧０)の値、学習時の加工プログラムを実行することで取得されるサーボ制御装置１００の位置偏差情報、及び位置指令を含む、指令及びフィードバック等のサーボ状態を状態Ｓとして、当該状態Ｓに係る、速度フィードフォワード処理部１１３の伝達関数の各係数ｃ_ｉ、ｄ_ｊの値の調整を行動Ａとして選択する価値Ｑを学習する。

機械学習装置２００は、速度フィードフォワード処理部１１３の伝達関数の各係数ｃ_ｉ、ｄ_ｊに基づいて、学習時の加工プログラムを実行することで前述した加工形状の位置Ａ１と位置Ａ３、及び位置Ｂ１と位置Ｂ３における、サーボ制御装置１００の位置指令及び位置偏差情報を含む、指令及びフィードバック等のサーボ状態を含む状態情報Ｓを観測して、行動Ａを決定する。機械学習装置２００は、行動Ａをするたびに報酬が返ってくる。機械学習装置２００は、例えば、将来にわたっての報酬の合計が最大になるように最適な行動Ａを試行錯誤的に探索する。そうすることで、機械学習装置２００は、速度フィードフォワード処理部１１３の伝達関数の各係数ｃ_ｉ、ｄ_ｊに基づいて、学習時の加工プログラムを実行することで取得されるサーボ制御装置１００の位置指令及び位置偏差情報を含む指令、フィードバック等のサーボ状態を含む状態Ｓに対して、最適な行動Ａ（すなわち、速度フィードフォワード処理部１１３の最適な係数ｃ_ｉ、ｄ_ｊ）を選択することが可能となる。位置Ａ１と位置Ａ３、及び位置Ｂ１と位置Ｂ３とでは、Ｘ軸方向及びＹ軸方向のサーボモータの回転方向は変わらず、機械学習装置２００は線形動作時の速度フィードフォワード処理部１１３の伝達関数の各係数ｃ_ｉ、ｄ_ｊの学習を行うことができる。

すなわち、機械学習装置２００により学習された価値関数Ｑに基づいて、或る状態Ｓに係る速度フィードフォワード処理部１１３の伝達関数の各係数ｃ_ｉ、ｄ_ｊに対して適用される行動Ａのうち、Ｑの値が最大となるような行動Ａを選択することで、学習時の加工プログラムを実行することで取得される位置偏差が最小になるような行動Ａ（すなわち、速度フィードフォワード処理部１１３の係数ｃ_ｉ、ｄ_ｊ）を選択することが可能となる。

なお、機械学習装置２００の備える状態情報取得部２０１、（報酬出力部２０２１、価値関数更新部２０２２、行動情報生成部２０２３を含む）学習部２０２、行動情報出力部２０３、価値関数記憶部２０４、及び最適化行動情報出力部２０５における速度フィードフォワード処理部１１３の伝達関数の各係数ｃ_ｉ、ｄ_ｊに係る処理については、第１実施形態における位置フィードフォワード処理部１１６を速度フィードフォワード処理部１１３に読み換えるとともに、位置フィードフォワード処理部１１６の各係数ａ_ｉ、ｂ_ｊを速度フィードフォワード処理部１１３の伝達関数の各係数ｃ_ｉ、ｄ_ｊに読み換えることで説明できるため、詳細な説明は省略する。

また、最初にＱ学習を開始する時点での速度フィードフォワード処理部１１３の係数ｃ_ｉ、ｄ_ｊは、予めユーザが生成するようにする。本実施形態では、ユーザが作成した速度フィードフォワード処理部１１３の係数ｃ_ｉ、ｄ_ｊの初期設定値を、強化学習により最適なものに調整する。２回微分器１１２の係数αは固定値とし、例えばα＝１とする。また、速度フィードフォワード処理部１１３の係数ｃ_ｉ、ｄ_ｊは例えば、初期設定値として、数式２のｃ_０＝１、ｃ_１＝０、ｃ_２＝０、ｃ_x＝０、ｄ_０＝１、ｄ_１＝０、ｄ_２＝０、ｄ_ｘ＝０とする。また、係数ｃ_ｉ、ｄ_ｊの次元ｍ、ｎを予め設定する。すなわち、ｃ_ｉについては０≦ｉ≦ｍｄ_ｊについては０≦ｊ≦ｎとする。
また、係数ｃ_ｉ、ｄ_ｊの初期設定値は、位置フィードフォワード処理部１１６の各係数ａ_ｉ、ｂ_ｊの初期設定値と同じ値を適用してもよい。
同様に、サーボ制御装置１００における速度フィードフォワード処理部１１３の各係数ｃ_ｉ、ｄ_ｊに係る処理についても、位置フィードフォワード処理部１１６の各係数ａ_ｉ、ｂ_ｊを速度フィードフォワード処理部１１３の伝達関数の各係数ｃ_ｉ、ｄ_ｊに読み換えることで説明できる。

以上のように、第２実施形態では、サーボ制御装置１００は、２回微分器１１２、速度フィードフォワード処理部１１３、及びスイッチ１１４を備え、異常検出部１０９からの切換通知信号により、スイッチ１１４がオフとなり、機械学習装置２００は、異常検出部１０９からの補正停止通知信号により、異常が検知されたことを認識する。機械学習装置２００は、異常が検知されたことを認識すると、状態Ｓにおける速度フィードフォワード処理部１１３の係数ｃ_ｉ、ｄ_ｊをサーボモータ１０６が異常な動作をする補正パラメータとして学習に反映させることができる。その際、当該状態Ｓの学習のための加工プログラムの実行については、前述したように、補正を停止したまま、加工プログラムが終了するまで動作させることで、当該状態Ｓの学習を終了させる。補正パラメータ（係数ｃ_ｉ、ｄ_ｊ）調整により速度フィードフォワード処理部１１３の速度フィードフォワード項の調整がなされる。その後、次の学習のための係数を新たに探索して、次の行動情報を選択して、速度フィードフォワード処理部１１３に設定するとともに、速度フィードフォワード処理部１１３の係数を新たに設定したことを示す係数設定通知信号を異常検出部１０９へ送る。そうすることで、次の行動に基づく学習動作を開始することができる。以上のように、本実施形態の機械学習装置は、補正生成部１１０を機械学習する場合に、機械学習中に、仮に不適切な補正量が選択されることがあっても、モータや機械先端に振動が発生して有効な学習ができなくなったり、また、アラームで工作機械等が停止、終了して、学習が中断することがないように、安全に機械学習を継続することが可能となる。

次に、第２実施形態の機械学習装置２００の動作について説明する。
第２実施形態の機械学習装置２００の速度フィードフォワード処理部１１３の伝達関数の各係数ｃ_ｉ、ｄ_ｊに関連する動作についても、第１実施形態における図６に示した機械学習装置２００の処理フローにおいて、位置フィードフォワード処理部１１６を速度フィードフォワード処理部１１３に読み換え、位置フィードフォワード処理部１１６の各係数ａ_ｉ、ｂ_ｊを速度フィードフォワード処理部１１３の伝達関数の各係数ｃ_ｉ、ｄ_ｊに読み換えることで説明できるため、詳細な説明は省略する。

（変形例）
第２実施形態において、機械学習装置２００は、速度フィードフォワード処理部１１３の伝達関数の係数の学習を先に行い、速度フィードフォワード処理部１１３の伝達関数の係数を最適化した後に、位置フィードフォワード処理部１１６の伝達関数の係数の学習を行うようにしたが、第２の実施形態は、これに限定されない。
例えば、機械学習装置２００は、位置フィードフォワード処理部１１６の伝達関数の係数、及び速度フィードフォワード処理部１１３の伝達関数の係数を同時に学習するようにしてもよい。この場合、異常検出部１０９は異常を検出した場合、スイッチ１１４及びスイッチ１１７を同時にオンして、機械学習装置２００が同時に学習できるようにする。このように、機械学習装置２００が同時に学習した場合、二つの学習が相互に干渉して情報処理量が増大する可能性がある。

（第３実施形態）
第１実施形態の制御装置１０では、図１に示すように、異常検出部１０９は、異常を検出したときに、微分器１１５と位置フィードフォワード処理部１１６を含む補正生成部１１０を、スイッチ１１７をオフすることで位置フィードバックループから切り離した。
同様に、第２実施形態の制御装置１０Ａでは、図７に示すように、異常検出部１０９は、異常を検出したときに、２回微分器１１２と速度フィードフォワード処理部１１３を、スイッチ１１４をオフすることで速度フィードバックループから切り離し、微分器１１５と位置フィードフォワード処理部１１６を、スイッチ１１７をオフすることで位置フィードバックループから切り離していた。

これに対して、第３実施形態の制御装置では、第１実施形態及び第２実施形態において、異常検出部１０９が異常を検出したときに、機械学習装置２００の学習部分である、補正生成部内の速度フィードフォワード処理部１１３及び／又は位置フィードフォワード処理部１１６のみを切り離すように構成した。
図８は本発明の第３実施形態の制御装置の一構成例を示すブロック図である。図８において、図７に示した制御装置の各構成部材と同一構成部材については同一符号を付して説明を省略する。

本実施形態では、図８に示すように、サーボ制御装置１００Ｂは、スイッチ１１４の代わりに、２回微分器１１２と速度フィードフォワード処理部１１３との間にスイッチ１１９を備えている。またサーボ制御装置１００Ｂは、スイッチ１１７の代わりに、微分器１１５と位置フィードフォワード処理部１１６との間にスイッチ１２０を備えている。
スイッチ１１９は、２回微分器１１２が速度フィードフォワード処理部１１３か、加算器１１１かに接続されるように切り換える。スイッチ１２０は、微分器１１５が位置フィードフォワード処理部１１６か、加減算器１０３かに接続されるように切り換える。

異常検出部１０９は、異常を検出したときに、スイッチ１１９及び／又はスイッチ１２０を切り替えて、２回微分器１１２が加算器１１１に接続され、微分器１１５が加減算器１０３に接続されるようにする。このように構成することで、本実施形態では、機械学習装置２００で学習される部分となる、速度フィードフォワード処理部１１３及び／又は位置フィードフォワード処理部１１６のみが切り離される。
このため、異常検出部１０９が異常を検出したときに、位置フィードバックループには、微分器１１５の出力が加えられて補正ができ、速度フィードバックには２回微分器１１２の出力が加えられて補正ができる。

本実施形態は、第１実施形態と第２実施形態のいずれにも適用でき、第１の実施形態に適用する場合には、微分器１１５と位置フィードフォワード処理部１１６との間にスイッチ１２０を備えるようにする。第１実施形態の変形例である、速度フィードフォワード項生成部を設ける場合に適用する場合は、２回微分器１１２と速度フィードフォワード処理部１１３との間にスイッチ１１９を備えるようにする。
本実施形態を、第２実施形態に適用する場合は、スイッチ１１９とスイッチ１２０を備えるようにする。
（変形例）
本実施形態において、第２実施形態と同様に、機械学習装置２００が、速度フィードフォワード処理部１１３の伝達関数の係数の学習と、位置フィードフォワード処理部１１６の伝達関数の係数の学習とは別に行う場合は、速度フィードフォワード処理部１１３の伝達関数の係数の学習を位置フィードフォワード処理部１１６の伝達関数の係数の学習よりも先に行う。しかし、第２実施形態の変形例と同様に、機械学習装置２００は、位置フィードフォワード処理部１１６の伝達関数の係数、及び速度フィードフォワード処理部１１３の伝達関数の係数を同時に学習するようにしてもよい。

（第４実施形態）
以上説明した実施形態においては、機械学習装置２００は、Ｘ軸方向及びＹ軸方向のサーボモータの回転方向が変わらない線形動作時に関する機械学習装置２００の学習動作時に、異常検出部１０９が異常を検出した場合の処理について説明した。
しかし、本発明は、線形動作時の学習動作に限定されず、非線形動作の学習動作にも適用することができる。例えば、既に説明したように、工作機械において、非線形動作として、モータとボールねじにより駆動される送り駆動系で円運動を行うと、軸の運動方向が反転する象限切替え時に突起状の軌跡誤差（以下、「象限突起」という）が生じることが知られている。

第４実施形態では、象限突起の補正量を機械学習装置２００で学習する例について説明する。
図９は本発明の第４実施形態の制御装置の一構成例を示すブロック図である。図９の制御装置１０Ｃにおいて、図７に示した制御装置の各構成部材と同一構成部材については同一符号を付して説明を省略する。
図９に示すように、サーボ制御装置１００Ｃは、反転検出部１２１、補正生成部１２２、スイッチ１２３、異常検出部１２４、及び報知部１２５を備えている。サーボ制御装置１００Ｃは、図７に示す、異常検出部１０９、２回微分器１１２、速度フィードフォワード処理部１１３、スイッチ１１４、微分器１１５、位置フィードフォワード処理部１１６、スイッチ１１７、及び報知部１１８を備えていない。

数値制御装置４００は、例えば図４に示す、八角形の角が一つ置きに円弧に置き換えられた形の加工形状の、学習時の加工プログラムに基づいて位置指令を作成する。
位置指令は、減算器１０１、反転検出部１２１、及び機械学習装置２００に入力される。減算器１０１は、位置指令と位置フィードバックされた検出位置との差を求め、その差を位置偏差として位置制御部１０２及び機械学習装置２００に出力する。

反転検出部１２１は、位置指令から反転部を検出する。例えば、図４に示す円弧の位置Ｂ２で、テーブルをＹ軸方向に移動するモータは、回転方向が反転するが、反転検出部１２１は、位置指令に基づいて、位置Ｂ２での反転を検出する。補正生成部１２２は反転の検出信号に基づいて補正量を、スイッチ１２３を介して加減算器１０３に出力する。

異常検出部１２４は、速度制御部１０４から出力されるトルク指令に基づいて、トルク指令が閾値以上となった場合に、スイッチ１２３がオフ（非導通状態）となるように切換信号を送り、位置フィードバックループに対する補正を停止する。その後、異常検出部１２４は機械学習装置２００へ補正停止信号を送るとともに、学習のための加工プログラムの実行については、前述したように、補正を停止したまま、加工プログラムが終了するまで動作させる。その後、機械学習装置２００からは、補正生成部１２２の補正量が、異常を検出したときの補正量とは異なる補正量が探索されて調整されたことを通知する補正量調整通知信号を送る。異常検出部１２４はこの補正量調整通知信号を受けると、機械学習装置２００で異常が生じたときの補正量が新たな補正量に調整されたことを認識し、新たな学習動作が開始されるときに、スイッチ１２３がオン（導通状態）となるように切換信号を送る。

報知部１２５は異常検出部１２４にて異常が検出されたときに、管理者に、液晶モニタ、ＬＥＤ、又はスピーカにより、表示、点灯又は音声で報知する。報知部１２５はネットワークで外部に異常を知らせる情報を送信する通信部であってもよい。

機械学習装置２００は、象限突起の補正のために、図４に示す加工形状の位置Ｂ２と位置Ｂ４における、減算器１０１の出力となる位置偏差を用いて学習し、補正生成部１２２の補正量を調整する。
異常検出部１２４が異常を検出して、スイッチ１２３をオフした場合、補正量は、加減算器１０３に出力されないので、サーボ制御装置１００Ｃは、位置フィードバックループと速度フィードバックループのみで動作することになり、動作が安定する。

象限突起の補正を行う場合、図３に示した八角形の加工形状の、学習時の加工プログラムを用いてもよい。その場合、例えば、図３に示す位置Ａ２で、テーブルをＹ軸方向に移動するモータの回転方向が反転し、位置Ａ４で、テーブルをＸ軸方向に移動するモータの回転方向が反転する。機械学習装置２００は、象限突起の補正のために、例えば、図３に示す八角形の加工形状の位置Ａ２と位置Ａ４における、減算器１０１の出力となる位置偏差を用いて学習し、補正生成部１２２の補正量を調整する。

（第５実施形態）
前述した第１実施形態や第２実施形態の制御装置では、異常検出部１０９がスイッチ１１４及び／又はスイッチ１１７をオンからオフに切り替えると、切り替え時に位置フィードバックループ及び速度フィードバックループにそれぞれ加えられる位置フィードフォワード項及び／又は速度フィードフォワード項（補正量となる）が不連続に変わる。
また、前述した第３実施形態の制御装置においても、異常検出部１０９がスイッチ１１９及び／又はスイッチ１２０を切り替えると、切り替え時に位置フィードバックループ及び速度フィードバックループにそれぞれ加えられる位置フィードフォワード項及び／又は速度フィードフォワード項（補正量となる）が不連続に変わる。
また、前述した第４実施形態の制御装置においては、異常検出部１２４がスイッチ１２３を切り替えると、切り替え時に補正量が不連続に変わる。

第１実施形態から第４実施形態において生ずる不連続な補正量は、不連続な速度指令及び／又は不連続なトルク指令を生じさせる。
本実施形態では、補正量の不連続を防止するためローパスフィルタを設ける。以下、第１実施形態から第４実施形態において、本実施形態の構成を適用する場合について説明する。

本実施形態の構成を第１実施形態や第２実施形態の制御装置に適用する場合は、補正量の不連続を防止するために、速度フィードフォワード処理部１１３及び／又は位置フィードフォワード処理部１１６の後段のそれぞれにローパスフィルタを設ける。補正量をローパスフィルタに通すことで、不連続な値を緩やかに追従させることができる。
図１０は本発明の第５実施形態となるサーボ制御装置の速度フィードフォワード処理部１１３の後段の構成の一部を示すブロック図である。図１１は本発明の第５実施形態となるサーボ制御装置の位置フィードフォワード処理部１１６の後段の構成の一部を示すブロック図である。

図１０に示すように、速度フィードフォワード処理部１１３に、スイッチ１１４の代わりにスイッチ１２６を接続する。スイッチ１２６は、異常検出部１０９からの異常検出信号を受けると、速度フィードフォワード処理部１１３を加算器１１１へ直接接続した状態から、速度フィードフォワード処理部１１３をローパスフィルタ１２７を介して加算器１１１へ接続する状態に切り替え、その状態を一定時間保持した後に、未接続に切り替える。一定時間は補正量が十分に収束する時間又はローパスフィルタ１２７の時定数によって決めることができる。

また、図１１に示すように、位置フィードフォワード処理部１１６に、スイッチ１１７の代わりにスイッチ１２８を接続する。スイッチ１２８は、異常検出部１０９からの異常検出信号を受けると、位置フィードフォワード処理部１１６を加減算器１０３へ直接接続した状態から、位置フィードフォワード処理部１１６をローパスフィルタ１２９を介して加減算器１０３への接続する状態に切り替え、その状態を一定時間保持した後に、未接続に切り替える。一定時間は補正量が十分に収束する時間又はローパスフィルタ１２９の時定数によって決めることができる。
このように、速度フィードフォワード処理部１１３と加算器１１１との間の接続を不連続に切り替えるのでなく、一旦ローパスフィルタ１２７を介して接続状態に切り替えて緩やかに収束させる。また、位置フィードフォワード処理部１１６と加減算器１０３との間の接続を不連続に切り替えるのでなく、一旦ローパスフィルタ１２９を介して接続状態に切り替えて緩やかに収束させる。
図１２は、フィルタの有無による位置フィードフォワード（位置ＦＦ）処理又は速度フィードフォワード（速度ＦＦ）処理による補正量の変化を示す特性図である。

本実施形態の構成を第３実施形態の制御装置に適用する場合は、補正量の不連続を防止するために、２回微分器１１２及び微分器１１５の後段のそれぞれにローパスフィルタを設ける。補正量をローパスフィルタに通すことで、不連続な値を緩やかに追従させることができる。
図１３は本発明の第５実施形態となる他の構成のサーボ制御装置の２回微分器１１２の後段の構成の一部を示すブロック図である。図１４は本発明の第５実施形態となる他の構成のサーボ制御装置の微分器１１５の後段の構成の一部を示すブロック図である。

図１３に示すように、２回微分器１１２に、スイッチ１１９の代わりにスイッチ１３０を接続する。スイッチ１３０は、異常検出部１０９からの異常検出信号を受けると、２回微分器１１２を速度フィードフォワード処理部１１３を介して加算器１１１へ接続した状態から、２回微分器１１２をローパスフィルタ１３１を介して加算器１１１へ接続する状態に切り替え、その状態を一定時間保持した後に、２回微分器１１２を加算器１１１へ直接接続する。一定時間は補正量が十分に収束する時間又はローパスフィルタ１３１の時定数によって決めることができる。

また、図１４に示すように、微分器１１５に、スイッチ１２０の代わりにスイッチ１３２を接続する。スイッチ１３２は、異常検出部１０９からの異常検出信号を受けると、微分器１１５を位置フィードフォワード処理部１１６を介して加減算器１０３へ接続した状態から、微分器１１５をローパスフィルタ１３３を介して加減算器１０３へ接続する状態に切り替え、その状態を一定時間保持した後に、微分器１１５を加減算器１０３へ直接接続する。一定時間は補正量が十分に収束する時間又はローパスフィルタ１３３の時定数によって決めることができる。
このように、２回微分器１１２と加算器１１１との間の接続を不連続に切り替えるのでなく、一旦ローパスフィルタ１３１を介して接続状態に切り替えて緩やかに収束させる。また、微分器１１５と加減算器１０３との間の接続を不連続に切り替えるのでなく、一旦ローパスフィルタ１３３を介して接続状態に切り替えて緩やかに収束させる。
図１５は、フィルタの有無による位置フィードフォワード（位置ＦＦ）処理又は速度フィードフォワード（速度ＦＦ）処理による補正量の変化を示す特性図である。

また、本実施形態の構成を第４実施形態の制御装置に適用する場合は、補正量の不連続を防止するために、図９に示す補正生成部１２２の後段にローパスフィルタを設ける。補正量をローパスフィルタに通すことで、不連続な値を緩やかに追従させることができる。なお、ローパスフィルタ、及びローパスフィルタに切り換えるスイッチの構成は、図１０における、速度フィードフォワード処理部１１３を補正生成部１２２に置き換えた構成と同じなので、説明を省略する。

（第６実施形態）
第５実施形態の制御装置では、補正量の不連続を防止するためにローパスフィルタを設けたが、ローパスフィルタの代わりに速度制御部１０４の積分器の書き換えを行い、速度制御部１０４から出力されるトルク指令値が連続になるようにしてもよい。本実施形態において、積分器の書き換えとともに第５実施形態で説明したローパスフィルタを設けてもよい。以下の説明では、図４に示した第２実施形態の制御装置を例にとって説明するが、第１、第３及び第４実施形態のサーボ制御装置にも適用できる。

図１６は本発明の第６実施形態となる制御装置の速度制御部１０４の構成を示すブロック図である。図１６に示すように、積分器１０４１に異常検出部１０９から異常検出信号が送られる。
図１６に示すように、速度制御部１０４は、位置フィードフォワード項が加えられた速度偏差が入力される積分器１０４１、積分器１０４１から出力される積分値に係数Ｋｉを掛ける乗算器１０４２、位置フィードフォワード項が加えられた速度偏差が入力され、係数Ｋｖを掛ける乗算器１０４３、及び乗算器１０４２の出力と乗算器１０４３の出力とを加算して出力する加算器１０４４を備えている。

異常検出部１０９は異常検出信号をスイッチ１１７に送り、スイッチ１１７をオンからオフに切り替えるとともに、積分器１０４１に異常検出信号を送る。積分器１０４１は異常検出信号を受けると、スイッチ１１７のオフによる位置フィードフォワード項の補正の停止による補正量の不連続を防止するために、以下の書き換えを行い、トルク指令値が連続になるようにする。
位置フィードフォワード（位置ＦＦ）の停止直前のトルク指令Tcmd(i)は、Verrを速度偏差、ｋｐを比例ゲイン、ｋｉを積分ゲインとすると、以下の数式４であらわされる。

また、位置フィードフォワードの停止直後のトルク指令Tcmd(i+1)は、以下の数式５であらわされる。

位置フィードフォワードの停止直後にVerr(i+1)が大きく変動するため、Tcmd(i)とTcmd(i+1)との間で不連続が生じショックが発生する場合がある。
そこで、数式６に示すように、位置フィードフォワードの停止直後のトルク指令の積分器による積分項を以下のように置き換える。

すると、積分器を書き換えたトルク指令Tcmd’(i+1)は、数式７にようになる。

すなわち、積分器１０４１の書き換えにより、Tcmd’(i+1)＝Tcmd(i)となり、連続的に変化するために、位置フィードフォワード停止前後のショックがなくなる。
書き換え後の積分器１０４１は、(Tcmd(i)-Verr(i+1)×kp)／kiにVerr(n)を足し合わせて計算する。
図１７は、積分器の書き換えの有無によるトルク指令の変化を示す特性図である。

以上本発明に係る各実施形態について説明したが、上記のサーボ制御装置のサーボ制御部及び機械学習装置に含まれる各構成部は、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。また、上記のサーボ制御装置に含まれる各構成部のそれぞれの協働により行なわれるサーボ制御方法も、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。ここで、ソフトウェアによって実現されるとは、コンピュータがプログラムを読み込んで実行することにより実現されることを意味する。

プログラムは、様々なタイプの非一時的なコンピュータ読み取り可能な記録媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ読み取り可能な記録媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ読み取り可能な記録媒体の例は、磁気記録媒体（例えば、フレキシブルディスク、ハードディスクドライブ）、光磁気記録媒体（例えば、光磁気ディスク）、ＣＤ−ＲＯＭ(Read Only Memory)、ＣＤ−Ｒ、ＣＤ−Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ(Programmable ROM)、ＥＰＲＯＭ(Erasable PROM)、フラッシュＲＯＭ、ＲＡＭ(random access memory）)を含む。

上述した実施形態は、本発明の好適な実施形態ではあるが、上記実施形態のみに本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において種々の変更を施した形態での実施が可能である。

＜サーボ制御装置が機械学習装置を備える変形例＞
上述した実施形態では、機械学習装置２００と、サーボ制御装置１００、１００Ａ、１００Ｂ又は１００Ｃとを制御装置内に設けて構成し、機械学習装置２００とサーボ制御装置１００、１００Ａ、１００Ｂ又は１００Ｃとは別体の装置により構成したが、機械学習装置２００の機能の一部又は全部をサーボ制御装置１００により実現するようにしてもよい。
また、上述した実施形態では、サーボ制御装置１００、１００Ａ、１００Ｂ又は１００Ｃと数値制御装置４００とは別体の装置により構成したが、サーボ制御装置１００、１００Ａ、１００Ｂ又は１００Ｃの機能の一部又は全部を数値制御装置４００により実現するようにしてもよい。数値制御装置４００は、機械学習装置２００、サーボ制御装置１００、１００Ａ、１００Ｂ又は１００Ｃを含んでもよく、その場合、数値制御装置４００が制御装置を構成する。

＜システム構成の自由度＞
図１８は他の構成の制御装置を示すブロック図である。制御装置１０Ｄは、図１８に示すように、ｎ台のサーボ制御装置１００−１〜１００−ｎ、ｎ台の機械学習装置２００−１〜２００−ｎ、ネットワーク３００、及び数値制御装置４００−１〜４００−ｎを備えている。なお、ｎは任意の自然数である。ｎ台のサーボ制御装置１００−１〜１００−ｎのそれぞれは図１、図７、図８及び図９に示したサーボ制御装置１００、１００Ａ〜１００Ｃのいずれかに対応している。ｎ台の機械学習装置２００−１〜２００−ｎのそれぞれは図１、図７、図８及び図９に示した機械学習装置２００のいずれかに対応している。数値制御装置４００−１〜４００−ｎは数値制御装置４００に対応し、サーボ制御装置１００−１〜１００−ｎのそれぞれに対して設けられる。サーボ制御装置１００−１〜１００−ｎは数値制御装置４００−１〜４００−ｎに含まれていてもよい。

ここで、サーボ制御装置１００−１と機械学習装置２００−１とは１対１の組とされて、通信可能に接続されている。サーボ制御装置１００−２〜１００−ｎと機械学習装置２００−２〜２００−ｎについてもサーボ制御装置１００−１と機械学習装置２００−１と同様に接続される。図２０では、サーボ制御装置１００−１〜１００−ｎと機械学習装置２００−１〜２００−ｎとのｎ個の組は、ネットワーク３００を介して接続されているが、サーボ制御装置１００−１〜１００−ｎと機械学習装置２００−１〜２００−ｎとのｎ個の組は、それぞれの組のサーボ制御装置と機械学習装置とが接続インタフェースを介して直接接続されてもよい。これらサーボ制御装置１００−１〜１００−ｎと機械学習装置２００−１〜２００−ｎとのｎ個の組は、例えば同じ工場に複数組設置されていてもよく、それぞれ異なる工場に設置されていてもよい。

なお、ネットワーク３００は、例えば、工場内に構築されたＬＡＮ（Local Area Network）や、インターネット、公衆電話網、或いは、これらの組み合わせである。ネットワーク３００における具体的な通信方式や、有線接続および無線接続のいずれであるか等については、特に限定されない。

上述した図１８の制御装置では、機械学習装置２００−１〜２００−ｎとサーボ制御装置１００−１−１００−ｎとが１対１の組として通信可能に接続されているが、例えば１台の機械学習装置２００−１が複数のサーボ制御装置１００−１〜１００−ｍ（ｍ＜ｎ又はｍ＝ｎ）とネットワーク３００を介して通信可能に接続され、各サーボ制御装置１００−１〜１００−ｍの機械学習を実施するようにしてもよい。
その際、機械学習装置２００−１の各機能を、適宜複数のサーバに分散する、分散処理システムとしてもよい。また、クラウド上で仮想サーバ機能等を利用して、機械学習装置２００−１の各機能を実現してもよい。
また、複数の同じ型名、同一仕様、又は同一シリーズのサーボ制御装置１００−１〜１００−ｎとそれぞれ対応する複数の機械学習装置２００−１〜２００−ｎがあった場合に、各機械学習装置２００−１〜２００−ｎにおける学習結果を共有するように構成するようにしてもよい。そうすることで、より最適なモデルを構築することが可能となる。

１０、１０Ａ〜１０Ｄ制御装置
１００、１００Ａ〜１００Ｃサーボ制御装置
１０１減算器
１０２位置制御部
１０３加減算器
１０４速度制御部
１１１加算器
１０６モータ
１０７積分器
１０８位置検出処理部
１０９、１２４異常検出部
１１２２回微分器
１１３速度フィードフォワード処理部
１１４、１１７、１２３スイッチ
１１５微分器
１１６位置フィードフォワード処理部
１１８、１２５報知部
１２１反転検出部
１２２補正生成部
２００機械学習装置
２０１状態情報取得部
２０２学習部
２０３行動情報出力部
２０４価値関数記憶部
２０５最適化行動情報出力部
３００ネットワーク

Claims

工作機械、ロボット又は産業機械の軸を駆動するサーボモータを制御する、少なくとも１つのフィードバックループと、該フィードバックループに加える補正量を生成する補正生成部と、前記サーボモータの異常な動作を検出する異常検出部と、を備えたサーボ制御装置に対して、前記補正生成部の補正量の最適化に係る機械学習を行う機械学習装置であって、
機械学習動作中に、前記サーボ制御装置において、前記異常検出部が異常を検出した場合、前記補正生成部からの補正を停止し、前記機械学習装置において、前記補正生成部にて生成する補正量の最適化を継続する機械学習装置。
前記サーボ制御装置は、前記フィードバックループと前記補正生成部内又は前記補正生成部の後段との間に設けられたスイッチを備え、前記異常検出部は異常な動作を検出したときに、前記スイッチをオフし、前記フィードバックループへの補正が停止されたことを前記機械学習装置に通知し、
前記機械学習装置は、前記フィードバックループへの補正が停止されたことの通知を受けたときに、前記補正量を学習に反映させる、請求項１に記載の機械学習装置。
前記機械学習として強化学習を行い、
前記異常検出部から補正停止通知を受けたときに、異常な動作をする前記補正量が選択されないような報酬を与える請求項１又は２に記載の機械学習装置。
前記報酬に基づいて価値関数を更新し、更新された価値関数に基づいて、最適な前記補正量又は補正パラメータの調整情報を生成して、前記補正生成部に出力する請求項３に記載の機械学習装置。
前記異常検出部は、位置偏差、トルク指令、あるいはその両方があらかじめ設定した閾値以上となった際に異常とする請求項１から４のいずれか１項に記載の機械学習装置。
前記サーボ制御装置は、前記異常検出部にて異常を検出した際に、異常の検出を報知する報知部をさらに有する請求項１から５のいずれか１項に記載の機械学習装置。
前記サーボ制御装置は、前記スイッチの後段に設けられたローパスフィルタを備え、前記スイッチによる切り換え時に前記ローパスフィルタを通す請求項２から６のいずれか１項に記載の機械学習装置。
前記フィードバックループは速度偏差を積算する積分器を有する速度制御部を備え、
前記スイッチによる切り換え時に前記積分器の書き替えを行う請求項２から６のいずれか１項に記載の機械学習装置。
少なくとも１つのフィードバックループは、位置フィードバックループ及び速度フィードバックループの少なくとも１つを含み、前記補正生成部は前記位置フィードバックループに位置フィードフォワード項を加える位置フィードフォワード処理部及び前記速度フィードバックループに速度フィードフォワード項を加える速度フィードフォワード処理部の少なくとも１つを含む請求項１から８のいずれか１項に記載の機械学習装置。
少なくとも１つのフィードバックループは、位置フィードバックループであり、前記補正生成部は前記サーボモータの反転時の補正を生成する請求項１から８のいずれか１項に記載の機械学習装置。
請求項１から１０のいずれか１項に記載の機械学習装置と、
工作機械、ロボット又は産業機械の軸を駆動するサーボモータを制御する、少なくとも１つのフィードバックループ、該フィードバックループに加える補正を生成する補正生成部、及び前記サーボモータの異常な動作を検出する異常検出部を備えたサーボ制御装置と、
を備えた制御装置。
前記機械学習装置は、前記サーボ制御装置に含まれる、請求項１１に記載の制御装置。
工作機械、ロボット又は産業機械の軸を駆動するサーボモータを制御する、少なくとも１つのフィードバックループに加える補正を生成し、前記サーボモータの異常な動作を検出するサーボ制御装置に対して、前記少なくとも１つのフィードバックループに加える補正量の最適化に係る機械学習を行う機械学習装置の機械学習方法であって、
機械学習動作中に、前記サーボ制御装置が異常を検出した場合、少なくとも１つのフィードバックループに加える補正を停止し、前記機械学習装置が、前記補正量の最適化を継続する、機械学習方法。