JP6564432B2

JP6564432B2 - 機械学習装置、制御システム、制御装置、及び機械学習方法

Info

Publication number: JP6564432B2
Application number: JP2017164062A
Authority: JP
Inventors: 大輔田嶋; 有紀森田
Original assignee: FANUC Corp
Current assignee: FANUC Corp
Priority date: 2017-08-29
Filing date: 2017-08-29
Publication date: 2019-08-21
Anticipated expiration: 2037-08-29
Also published as: CN109420800A; CN109420800B; US11029651B2; DE102018214276A1; JP2019040556A; DE102018214276B4; US20190064756A1

Description

本発明は、主軸モータと送り軸モータとの同期運転を制御する、工作機械の制御装置に対して機械学習を行う機械学習装置、制御システム、制御装置、及び機械学習方法に関する。

従来より、主軸モータと送り軸モータとの同期運転により被加工物にタップ加工（ねじ穴加工）を行う、工作機械の制御装置が知られている。例えば、特許文献１は、主軸の加速能力を最大限に発揮させる制御を行ってサイクルタイムを短縮できる、工作機械の制御装置を開示している。具体的には、この制御装置は、主軸モータを駆動する主軸制御部が、最高回転速度Ｖ０を目標値として加工開始位置から主軸を最大能力で加速回転させる初期動作制御部と、加速回転中に主軸の最大加速度Ａ０を検出する最大加速度検出部と、現在位置から目標ねじ深さまでの主軸の残回転量Ｓｒを検出する残回転量検出部と、主軸の現在速度Ｖｃを検出する現在速度検出部と、加速回転後に主軸を減速回転させて目標ねじ深さに到達させる位置決め動作制御部と、減速回転中に目標ねじ深さに対する主軸の行き過ぎ量Ｏｖを検出する行き過ぎ検出部とを備えている。

特開２０１７−３００６１号公報

主軸モータと送り軸モータとの同期運転により被加工物にタップ加工、工具を回転させる駆動状態は、加速、一定速、減速、停止の順となる。ここで、減速時の主軸トルク指令値を大きくして減速期間を短くし、一定速期間を延ばせばサイクルタイムを短縮することができるが、減速時の主軸トルク指令値を大きくしすぎると減速時の主軸トルク指令値を超えてしまう場合がある。

本発明は、加工プログラムに対して減速時でのモータ能力を目標値に近づけつつ、機械毎又は動作条件毎の安定させることができる、機械学習装置、制御システム、制御装置、及び機械学習方法を提供することを目的とする。

（１）本発明に係る機械学習装置（例えば、後述の機械学習装置３００）は、主軸モータ（例えば、後述の主軸モータ１０１）と送り軸モータ（例えば、後述の送り軸モータ１０５）との同期運転を制御する、工作機械（例えば、後述の工作機械１００）の制御装置（例えば、後述の制御装置２００）に対して、機械学習を行う機械学習装置であって、
タップ加工プログラムを前記制御装置に実行させることにより、少なくとも前記主軸モータに対するトルク指令値と、前記主軸モータの減速を含む駆動状態と、前記主軸モータの加速時移動距離と減速時移動距離との比率と、を含む状態情報を、前記制御装置から取得する状態情報取得手段（例えば、後述の状態情報取得部３０１）と、
前記状態情報に含まれる前記主軸モータの加速時移動距離と減速時移動距離との前記比率の調整情報を含む行動情報を前記制御装置に出力する行動情報出力手段（例えば、後述の行動情報出力部３０３）と、
前記状態情報に含まれる減速時のトルク指令値と減速時の目標トルク指令値に基づく、強化学習における報酬の値を出力する報酬出力手段（例えば、後述の報酬出力部３０２１）と、
前記報酬出力手段により出力される報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新手段（例えば、後述の価値関数更新部３０２２）と、
を備える機械学習装置である。

（２）上記（１）に記載の機械学習装置において、前記報酬出力手段は、減速時のトルク指令値Ｔｍ、減速時の目標トルク指令値Ｔｔ、係数ａを用いて、報酬を数式１によって求めてもよい。

（３）上記（１）又は（２）に記載の機械学習装置において、前記価値関数更新手段により更新された価値関数に基づいて、前記主軸モータの加速時移動距離と減速時移動距離との比率を生成して出力する最適化行動情報出力手段（例えば、後述の最適化行動情報出力部３０５）を備えてもよい。

（４）本発明に係る制御システムは、上記（１）から（３）のいずれかに記載の機械学習装置と、主軸モータと送り軸モータとの同期運転を制御する、工作機械の制御装置と、を備えた制御システムである。

（５）本発明に係る制御装置は、上記（１）から（３）のいずれかに記載の機械学習装置を含み、主軸モータと送り軸モータとの同期運転を制御する、工作機械の制御装置である。

（６）上記（４）に記載の制御システムにおいて、前記制御装置（例えば、後述の制御装置２００）は、
タップ加工プログラムに基づき主軸指令及び送り軸指令を作成する数値制御部（例えば、後述の数値制御部２１０）と、
前記主軸指令に従って主軸モータの回転動作を制御する主軸制御部（例えば、後述の主軸制御部２２０）と、
前記主軸モータの回転位置を検出する回転検出部（例えば、後述の回転検出部２３０）と、
前記送り軸指令に従って、前記回転位置に基づき前記送り軸の送り動作を制御する送り軸制御部（例えば、後述の送り軸制御部２４０）と、を具備し、
前記数値制御部は、始動位置から目標位置に至る間の前記主軸モータの総回転量と最高回転速度とを前記タップ加工プログラムから取得して、該総回転量と該最高回転速度とを前記主軸指令として前記主軸制御部に送る主軸指令出力部（例えば、後述の主軸指令出力部２１１）を備え、
前記主軸制御部は、前記最高回転速度を目標値とする速度制御により前記始動位置から前記主軸モータを、加速回転させる初期動作制御部（例えば、後述の初期動作制御部２２１）と、
前記加速回転中に前記回転位置に基づき前記主軸モータの回転量を検出する回転量検出部（例えば、後述の回転量検出部２２２）と、
前記総回転量と前記回転位置とに基づき、現在位置から前記目標位置に至るまでの前記主軸モータの残回転量を検出する残回転量検出部（例えば、後述の残回転量検出部２２３）と、
前記回転位置に基づき前記主軸モータの現在速度を検出する現在速度検出部（例えば、後述の現在速度検出部２２４）と、
前記加速回転の後に、前記主軸モータの加速時移動距離と減速時移動距離との比率と、前記残回転量と、前記現在速度とに基づき、位置制御により前記主軸モータを減速回転させて前記目標位置に到達させる位置決め動作制御部（例えば、後述の位置決め動作制御部２２５）とを備えていてもよい。

（７）上記（５）に記載の制御装置において、タップ加工プログラムに基づき主軸指令及び送り軸指令を作成する数値制御部（例えば、後述の数値制御部２１０）と、
前記主軸指令に従って主軸モータの回転動作を制御する主軸制御部（例えば、後述の主軸制御部２２０）と、
前記主軸モータの回転位置を検出する回転検出部（例えば、後述の回転検出部２３０）と、
前記送り軸指令に従って、前記回転位置に基づき前記送り軸の送り動作を制御する送り軸制御部（例えば、後述の送り軸制御部２４０）と、を具備し、
前記数値制御部は、始動位置から目標位置に至る間の前記主軸モータの総回転量と最高回転速度とを前記タップ加工プログラムから取得して、該総回転量と該最高回転速度とを前記主軸指令として前記主軸制御部に送る主軸指令出力部（例えば、後述の主軸指令出力部２１１）を備え、
前記主軸制御部は、前記最高回転速度を目標値とする速度制御により前記始動位置から前記主軸モータを、加速回転させる初期動作制御部（例えば、後述の初期動作制御部２２１）と、
前記加速回転中に前記回転位置に基づき前記主軸モータの回転量を検出する回転量検出部（例えば、後述の回転量検出部２２２）と、
前記総回転量と前記回転位置とに基づき、現在位置から前記目標位置に至るまでの前記主軸モータの残回転量を検出する残回転量検出部（例えば、後述の残回転量検出部２２３）と、
前記回転位置に基づき前記主軸モータの現在速度を検出する現在速度検出部（例えば、後述の現在速度検出部２２４）と、
前記加速回転の後に、前記主軸モータの加速時移動距離と減速時移動距離との比率と、前記残回転量と、前記現在速度とに基づき、位置制御により前記主軸モータを減速回転させて前記目標位置に到達させる位置決め動作制御部（例えば、後述の位置決め動作制御部２２５）とを備えていてもよい。

（８）本発明に係る機械学習方法は、主軸モータ（例えば、後述の主軸モータ１０１）と送り軸モータ（例えば、後述の送り軸モータ１０５）との同期運転を制御する、工作機械（例えば、後述の工作機械１００）の制御装置（例えば、後述の制御装置２００）に対して、機械学習を行う機械学習装置（例えば、後述の機械学習装置３００）の機械学習方法であって、
タップ加工プログラムを前記制御装置に実行させることにより、少なくとも前記主軸モータに対するトルク指令値と、前記主軸モータの減速を含む駆動状態と、前記主軸モータの加速時移動距離と減速時移動距離との比率と、を含む状態情報を、前記制御装置から取得し、
前記状態情報に含まれる前記主軸モータの加速時移動距離と減速時移動距離との前記比率の調整情報を含む行動情報を前記制御装置に出力し、
前記状態情報に含まれる減速時のトルク指令値と減速時の目標トルク指令値に基づく、強化学習における報酬の値を出力し、
前記報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する、機械学習方法である。

本発明によれば、加工プログラムに対して減速時でのモータ能力を目標値に近づけつつ、機械毎又は動作条件毎に安定したタップ動作とすることができる。

本発明の第１の実施形態の制御システムと工作機械とを示すブロック図である。工作機械の構成を示す図である。本発明の第１の実施形態の制御システムの制御装置の構成を示すブロック図である。加速時移動距離Ｓａと減速時移動距離Ｓｄとの比率が１対１の場合の、減速時の主軸モータの回転速度ｖと時間ｔとの関係を示す図である。機械学習装置の構成を示すブロック図である。本実施形態におけるＱ学習時の機械学習装置の動作を示すフローチャートである。加速時移動距離Ｓａと修正後の減速時移動距離Ｓｄ’の比率が１対０．７である場合の、減速時の主軸モータの回転速度ｖと時間ｔとの関係を示す図である。加速時移動距離Ｓａと修正後の減速時移動距離Ｓｄ’’の比率が１対０．４である場合の、減速時の主軸モータの回転速度ｖと時間ｔとの関係を示す図である。最適化行動情報出力部による最適化行動情報の生成時の動作を示すフローチャートである。

以下、本発明の実施形態について図面を用いて詳細に説明する。
（第１の実施形態）
本実施形態の、工作機械の制御システムは、制御装置と機械学習装置とを備えており、工作機械の主軸モータと送り軸モータとの同期運転を制御してタップ加工を行う場合に好適に用いられる。このようなタップ加工をリジットタップ加工という。本実施形態ではリジットタップ加工を例にとって説明するが、本発明は主軸モータと送り軸モータとの同期運転により行う加工に適用でき、リジットタップ加工に特に限定されるものではない。

図１は本発明の第１の実施形態の制御システムと工作機械とを示すブロック図である。制御システム１０は、図１に示すように、ｎ台の制御装置２００−１〜２００−ｎと、ネットワーク４００と、ネットワーク４００を介して制御装置２００−１〜２００−ｎと接続される機械学習装置３００−１〜３００−ｎとを備えている。ｎ台の工作機械１００−１〜１００−ｎは、ｎ台の制御装置２００−１〜２００−ｎと接続される。なお、ｎは任意の自然数である。

工作機械１００−１と制御装置２００−１とは１対１の組とされて、通信可能に接続されている。工作機械１００−２〜１００−ｎと制御装置２００−２〜１００−ｎについても工作機械１００−１と制御装置２００−１と同様に接続される。工作機械１００−１〜１００−ｎと制御装置２００−１〜２００−ｎとのｎ個の組は、接続インタフェースを介して直接接続されても、又はＬＡＮ（Local Area Network）などのネットワークを介して接続されてもよい。工作機械１００−１〜１００−ｎと制御装置２００−１〜２００−ｎとのｎ個の組は、例えば同じ工場に複数組設置されていてもよく、それぞれ異なる工場に設置されていてもよい。

また、制御装置２００−１と機械学習装置３００−１とは１対１の組とされて、通信可能に接続されている。制御装置２００−２〜２００−ｎと機械学習装置３００−２〜３００−ｎについても制御装置２００−１と機械学習装置３００−１と同様に接続される。図１では、制御装置２００−１〜２００−ｎと機械学習装置３００−１〜３００−ｎとのｎ個の組は、ネットワーク４００を介して接続されているが、制御装置２００−１〜２００−ｎと機械学習装置３００−１〜３００−ｎとのｎ個の組は、それぞれの組の制御装置と機械学習装置とが接続インタフェースを介して直接接続されてもよい。なお、ネットワーク４００は、例えば、工場内に構築されたＬＡＮ（Local Area Network）や、インターネット、公衆電話網、或いは、これらの組み合わせである。ネットワーク４００における具体的な通信方式や、有線接続および無線接続のいずれであるか等については、特に限定されない。

次に、工作機械１００−１〜１００−ｎと、制御システム１０に含まれる、制御装置２００−１〜２００−ｎ及び機械学習装置３００−１〜３００−ｎの構成について説明する。
図２は本発明の第１の実施形態の制御システム１０の工作機械１００の構成を示す図である。図３は本発明の第１の実施形態の制御システム１０の制御装置２００の構成を示すブロック図である。図２の工作機械１００及び図３の制御装置２００は例えば、図１に示す工作機械１００−１及び制御装置２００−１にそれぞれ対応している。工作機械１００−２〜１００−ｎ及び制御装置２００−２〜２００−ｎも同様な構成を有している。

最初に、工作機械１００について説明する。
工作機械１００は、図２に示すように、主軸モータ１０１、主軸モータ１０１に結びついたエンコーダ等の位置検出器１０２、主軸モータ１０１を支持する支持部１０３、支持部１０３を直線移動させるボールネジ１０４、ボールネジ１０４に接続される送り軸モータ１０５、及び送り軸モータ１０５に結びついたエンコーダ等の位置検出器１０６を備えている。

主軸モータ１０１は、回転軸に工具が取り付けられ、回転軸を必要な速度で回転運動させるサーボモータ等のモータである。送り軸モータ１０５は、主軸モータ１０１が取り付けられた支持部１０３を加工に必要な速度でワークに対して送り運動させるサーボモータ等のモータである。

なお、図２では主軸モータ１０１で回転する工具を、ワークに対して送り軸モータ１０５で直線送りすることでリジットタップ加工を行っている工作機械を示している。しかし、主軸モータ１０１で回転するワークに対して工具を送り軸モータ１０５で直線送りしたり、主軸モータ１０１で回転するワークを、工具に対して送り軸モータ１０５で直線送りしてもよい。また、主軸モータ１０１で回転する工具に対してワークを送り軸モータ１０５で直線送りしたりすることができる。いずれの場合も、動作中の加減速トルクに比較的余裕の有る送り軸モータ１０５が、動作中の加減速トルクに比較的余裕の無い主軸モータ１０１に追従するように動作することで、同期誤差を低減して加工精度を向上させることができる。

次に、制御装置２００について説明する。
図３に示すように、制御装置２００は、主軸モータ１０１と送り軸モータ１０５との同期運転によりタップ加工を行う工作機械（例えば旋盤、ボール盤、マシニンングセンタ等）において、送り軸モータ１０５が、タップ加工プログラム５００で指定されるねじピッチを考慮しながら、主軸モータ１０１の回転動作に追従するように動作する同期運転（いわゆるマスター・スレーブ同期方式）を制御する装置である。

制御装置２００は、数値制御部２１０と、主軸制御部２２０と、回転検出部２３０と、送り軸制御部２４０とを備えている。

数値制御部２１０は、主軸指令出力部２１１と、プログラム解釈部２１２と、送り軸指令出力部２１３とを備えている。

主軸指令出力部２１１は、タップ加工の開始に先立ち、プログラム解釈部２１２が解釈したタップ加工プログラム５００の指令値から、加工開始位置（回転位置）から目標ねじ深さ（回転位置）に至る間の主軸モータ１０１の総回転量Ｓ０と、最高回転速度Ｖ０とを取得して、これら総回転量Ｓ０と最高回転速度Ｖ０とを主軸指令ＣＳとして主軸制御部２２０に送る。
例えばタップ加工プログラム５００が、主軸モータ１０１の最高回転速度（この例では１分間当りの最大回転数）Ｖ０を３０００ｒｅｖ／ｍｉｎとして、ねじピッチ１．２５ｍｍ、ねじ深さ３０ｍｍの雌ねじを加工する指令を含む場合、加工開始位置から目標ねじ深さに至る間の主軸モータ１０１の総回転量Ｓ０は、３０÷１．２５＝２４（ｒｅｖ）となる。よって、主軸指令出力部２１１は、最高回転速度Ｖ０＝３０００（ｒｅｖ／ｍｉｎ）と総回転量Ｓ０＝２４（ｒｅｖ）とを主軸制御部２２０に通知する。このように主軸指令ＣＳは、主軸モータ１０１を目標ねじ深さまで回転運動させるための位置指令や加減速指令を含まないものとなっている。

プログラム解釈部２１２は、タップ加工プログラム５００を解釈する。
送り軸指令出力部２１３は、プログラム解釈部２１２の解釈に従い送り軸指令ＣＦを作成して、送り軸制御部２４０に送り軸指令ＣＦを送る。

主軸制御部２２０は、初期動作制御部２２１と、回転量検出部２２２と、残回転量検出部２２３と、現在速度検出部２２４と、位置決め動作制御部２２５とを備えている。
初期動作制御部２２１は、主軸指令出力部２１１から送られた最高回転速度Ｖ０を目標値とする速度制御により加工開始位置から主軸モータ１０１を最大能力で加速回転させる。
回転量検出部２２２は、加速回転中に、回転検出部２３０から出力される回転位置ＦＢＳに基づき、回転開始からの主軸モータ１０１の回転量を検出する。主軸モータ１０１の加速回転を開始してから最高回転速度Ｖ０になるまでの回転量が加速時移動距離となる。
残回転量検出部２２３は、主軸指令出力部２１１から送られた総回転量Ｓ０と、回転検出部２３０から出力される回転位置ＦＢＳとに基づき、現在位置（回転位置）から目標ねじ深さに至るまでの主軸モータ１０１の残回転量Ｓｒを検出する。回転量検出部２２２は検出した残回転量Ｓｒは検出の度に数値制御部２１０に送る。数値制御部２１０は残回転量Ｓｒによってタップ加工において、工具の先端が目標ねじ深さに達したことを判断する。
現在速度検出部２２４は、回転検出部２３０から出力される回転位置ＦＢＳに基づき、主軸モータ１０１の現在速度Ｖｃを検出する。現在速度Ｖｃが、最高回転速度Ｖ０に達したときに主軸モータ１０１の回転を加速回転から最高回転速度Ｖ０の回転とする。
位置決め動作制御部２２５は、最高回転速度Ｖ０での回転の後に、機械学習装置３００から受信する加速時移動距離と減速時移動距離の比率と、残回転量Ｓｒと、現在速度Ｖｃとに基づき、主軸モータ１０１を減速回転させて目標ねじ深さに到達させるための位置制御を実行する。
なお、位置決め動作制御部２２５は、主軸モータ１０１の現在速度Ｖｃが最高回転速度に到達する前に、加速回転から減速回転に移す場合がある。例えば、加速時移動距離と減速時移動距離の比率が１：ｍ（ｍ≦１）である場合、回転量検出部２２２が回転開始からの主軸モータ１０１の回転量が総回転量Ｓ０の１／（１＋ｍ）になったことを検出した場合は、位置決め動作制御部２２５は、主軸モータ１０１の加速回転を減速回転に移す。

また、主軸制御部２２０は、回転検出部２３０が検出した主軸モータ１０１の回転位置ＦＢＳ（すなわちフィードバック値）を用いて、一般的なフィードバック制御によりトルク指令値を主軸モータ１０１に送り、主軸モータ１０１の回転動作を制御する。

回転検出部２３０は、主軸モータ１０１の動作位置を検出するエンコーダ等の位置検出器１０２の出力から、回転位置ＦＢＳを取得することができる。
送り軸制御部２４０は、送り軸指令出力部２１３から送られた送り軸指令ＣＦに従って、送り軸モータ１０５の動作位置を検出するエンコーダ等の位置検出器１０２からの送り位置のフィードバック値に加えて、主軸モータ１０１の回転位置ＦＢＳを用いて、フィードバック制御により主軸モータ１０１の動作に追従する送り軸モータ１０５の送り動作を制御する。なお、送り軸制御部２４０は、ワークに対して送り軸モータ１０５をＺ方向に対して直線送りしている。しかし、ワーク又は工具をＸ軸方向及びＹ軸方向に対して送り動作させる２つの送り軸モータを制御する２つの送り軸制御部をさらに備えていてもよい。

以下、具体的に図４を用いて主軸制御部２２０の動作について説明する。ここでは、加速時移動距離Ｓａと減速時移動距離Ｓｄとの比率が１対１の場合について説明する。
図４は加速時移動距離Ｓａと減速時移動距離Ｓｄとの比率が１対１の場合の、減速時の主軸モータの回転速度ｖと時間ｔとの関係を示す図である。図４は、タップ加工において、工具がワークの表面から目標ねじ深さまで達して停止し、目標ねじ深さからワークの表面まで引き出されるまでの一サイクルを示している。図４における時間ｔ１は一サイクルの時間（サイクルタイム）を示している。

まず、工具によって、ワークの表面から目標ねじ深さまでタップ加工をする動作について説明する。
初期動作制御部２２１が、主軸指令出力部２１１から送られた最高回転速度Ｖ０を目標値とする速度制御により加工開始位置から主軸モータ１０１を最大能力で加速回転させる。回転量検出部２２２で、回転開始からの主軸モータ１０１の回転量を検出する。
現在速度検出部２２４が現在速度Ｖｃが最高回転速度Ｖ０に達したことを検出すると、初期動作制御部２２１は主軸モータ１０１を最高回転速度Ｖ０で回転させる。回転量検出部２２２は、主軸モータ１０１が加速回転を開始してから最高回転速度Ｖ０になるまでの回転量（加速時移動距離）を求める。加速時移動距離Ｓａは、主軸モータ１０１が回転を始めて加速し最高回転速度Ｖ０に達するまでの、主軸モータの回転速度ｖと時間ｔとの積（ｖ・ｔ）の積分値である。
残回転量検出部２２３が検出する、主軸モータ１０１の残回転量Ｓｒが、加速時移動距離（加速時回転量）Ｓａと等しくなったときに、位置決め動作制御部２２５は、減速回転させて目標ねじ深さで停止するように減速の加速度を設定して減速回転させる。減速の加速度は残回転量Ｓｒと現在速度Ｖｃによって求められる。（残回転量Ｓｒ）／（現在速度Ｖｃ）により、減速の回転期間ｔｒが求められ、（現在速度Ｖｃ）／（減速の回転期間ｔｒ）により減速時の加速度を求めることができる。減速時移動距離Ｓｄは、主軸モータ１０１が減速回転を始めて停止するまでの、主軸モータの回転速度ｖと時間ｔとの積（ｖ・ｔ）の積分値である。
なお、位置決め動作制御部２２５は、主軸モータ１０１の現在速度Ｖｃが最高回転速度に到達する前に、加速回転から減速回転に移る場合は、減速回転に移るまでの加速時移動距離が減速時移動距離、すなわち残回転量Ｓｒとなり、上記と同様に、減速の加速度を求めることができる。

次に、ワークの表面から目標ねじ深さまでタップ加工する動作と、主軸モータの回転方向が逆であることを除き同じ動作で、目標ねじ深さからワークの表面まで工具を回転させて引き出す。

また制御装置２００は、工作機械１００を用いたタップ加工において、ワークの下穴を工具で目標ねじ深さまで切削するための主軸モータ１０１の動作（切削動作と称する）を制御することができる。また制御装置２００は、工作機械を用いたタップ加工において、ワークの下穴を目標ねじ深さまで切削加工した後に工具をワークから引き抜くための主軸モータ１０１の動作（戻り動作と称する）を制御することができる。

以上、工作機械１００及び制御装置２００の構成について説明したが、上述した構成は本実施形態の動作に特に関連する部分である。工作機械１００及び制御装置２００の各構成の詳細、例えば主軸制御部２２０と送り軸制御部内の位置・速度フィードバックループを構成するための位置制御部、速度制御部、トルク指令値に基づいて主軸モータ又は送り軸モータを駆動するモータ駆動アンプ、及びユーザの操作を受け付けるための操作盤等は当業者によく知られているので詳細な説明及び図示を省略する。

＜機械学習装置３００＞
図５は機械学習装置３００の構成を示すブロック図である。機械学習装置３００は例えば、図１に示す機械学習装置３００−１に対応している。工作機械１００−２〜１００−ｎも同様な構成を有している。
機械学習装置３００は、予め用意されたタップ加工プログラム５００を制御装置２００が実行することで、タップ加工プログラム５００によって工作機械１００を動作させたときに、減速時のトルク指令値が減速時のトルク指令目標値に最も近い、タップ動作における加速時移動距離と減速時移動距離との比率を強化学習する装置である。

機械学習装置３００に含まれる各機能ブロックの説明に先立って、まず強化学習の基本的な仕組みについて説明する。エージェント（本実施形態における機械学習装置３００に相当）は、環境の状態を観測し、ある行動を選択し、当該行動に基づいて環境が変化する。環境の変化に伴って、何らかの報酬が与えられ、エージェントはより良い行動の選択（意思決定）を学習する。
教師あり学習が、完全な正解を示すのに対して、強化学習における報酬は、環境の一部の変化に基づく断片的な値であることが多い。このため、エージェントは、将来にわたっての報酬の合計を最大にするように行動を選択するように学習する。

このように、強化学習では、行動を学習することにより、環境に行動が与える相互作用を踏まえて適切な行動を学習、すなわち将来的に得られる報酬を最大にするための学習する方法を学ぶ。これは、本実施形態において、例えば、減速時のトルク指令値が減速時のトルク指令目標値に近づけつつ、サイクルタイムを短縮するための行動情報（「アクション」ともいう）を選択するという、未来に影響をおよぼすような行動を獲得できることを表している。

ここで、強化学習としては、任意の学習方法を用いることができるが、以下の説明では、或る環境の状態ｓの下で、行動ａを選択する価値関数Ｑ（ｓ，ａ）を学習する方法であるＱ学習（Q-learning）を用いる場合を例にとって説明をする。
Ｑ学習では、或る状態ｓのとき、取り得る行動ａのなかから、価値関数Ｑ（ｓ，ａ）の最も高い行動ａを最適な行動として選択することを目的とする。

しかしながら、Ｑ学習を最初に開始する時点では、状態ｓと行動ａとの組合せについて、価値関数Ｑ（ｓ，ａ）の正しい値は全く分かっていない。そこで、エージェントは、或る状態ｓの下で様々な行動ａを選択し、その時の行動ａに対して、与えられる報酬に基づいて、より良い行動の選択をすることにより、正しい価値関数Ｑ（ｓ，ａ）を学習していく。

また、将来にわたって得られる報酬の合計を最大化したいので、最終的にＱ（ｓ，ａ）＝Ｅ［Σ（γ^ｔ）ｒ_ｔ］となるようにすることを目指す。ここでＥ［］は期待値を表し、ｔは時刻、γは後述する割引率と呼ばれるパラメータ、ｒ_ｔは時刻ｔにおける報酬、Σは時刻ｔによる合計である。この式における期待値は、最適な行動に従って状態変化した場合の期待値である。しかしＱ学習の過程において最適な行動が何であるのかは不明であるので、様々な行動を行うことにより、探索しながら強化学習をする。このような価値関数Ｑ（ｓ，ａ）の更新式は、例えば、次の数式２（以下に数２として示す）により表すことができる。

上記の数式２において、ｓ_ｔは、時刻ｔにおける環境の状態を表し、ａ_ｔは、時刻ｔにおける行動を表す。行動ａ_ｔにより、状態はｓ_ｔ＋１に変化する。ｒ_ｔ＋１は、その状態の変化により得られる報酬を表している。また、ｍａｘの付いた項は、状態ｓ_ｔ＋１の下で、その時に分かっている最もＱ値の高い行動ａを選択した場合のＱ値にγを乗じたものになる。ここで、γは、０＜γ≦１のパラメータで、割引率と呼ばれる。また、αは、学習係数で、０＜α≦１の範囲とする。

上述した数式２は、試行ａ_ｔの結果、返ってきた報酬ｒ_ｔ＋１を元に、状態ｓ_ｔにおける行動ａ_ｔの価値関数Ｑ（ｓ_ｔ，ａ_ｔ）を更新する方法を表している。
この更新式は、状態ｓ_ｔにおける行動ａ_ｔの価値関数Ｑ（ｓ_ｔ，ａ_ｔ）よりも、行動ａ_ｔによる次の状態ｓ_ｔ＋１における最良の行動の価値ｍａｘ_ａＱ（ｓ_ｔ＋１，ａ）の方が大きければ、Ｑ（ｓ_ｔ，ａ_ｔ）を大きくし、逆に小さければ、Ｑ（ｓ_ｔ，ａ_ｔ）を小さくすることを示している。つまり、或る状態における或る行動の価値を、それによる次の状態における最良の行動の価値に近づける。ただし、その差は、割引率γと報酬ｒ_ｔ＋１のあり方により変わってくるが、基本的には、ある状態における最良の行動の価値が、それに至る一つ前の状態における行動の価値に伝播していく仕組みになっている。

ここで、Ｑ学習では、すべての状態行動ペア（ｓ，ａ）についてのＱ（ｓ，ａ）のテーブルを作成して、学習を行う方法がある。しかし、すべての状態行動ペアのＱ（ｓ，ａ）の値を求めるには状態数が多すぎて、Ｑ学習が収束するのに多くの時間を要してしまう場合がある。

そこで、公知のＤＱＮ（Deep Q-Network）と呼ばれる技術を利用するようにしてもよい。具体的には、価値関数Ｑを適当なニューラルネットワークを用いて構成し、ニューラルネットワークのパラメータを調整することにより、価値関数Ｑを適当なニューラルネットワークで近似することにより価値関数Ｑ（ｓ，ａ）の値を算出するようにしてもよい。ＤＱＮを利用することにより、Ｑ学習が収束するのに要する時間を短くすることが可能となる。なお、ＤＱＮについては、例えば、以下の非特許文献に詳細な記載がある。

＜非特許文献＞
「Human-level control through deep reinforcement learning」、Volodymyr Mnih1著［ｏｎｌｉｎｅ］、［平成２９年１月１７日検索］、インターネット〈ＵＲＬ：http://files.davidqiu.com/research/nature14236.pdf〉

以上説明をしたＱ学習を機械学習装置３００が行う。具体的には、機械学習装置３００は、制御装置２００から出力される、主軸モータ１０１を駆動するためのトルク指令値と、主軸モータ１０１が加速、減速、一定速、及び停止のいずれにあるかを示す駆動状態情報（主軸モータ１０１の駆動状態）と、加速時移動距離Ｓａと減速時移動距離Ｓｄとの比率とを状態ｓとし、当該状態ｓに係る加速時移動距離Ｓａと減速時移動距離Ｓｄとの比率の調整を行動ａとして、選択する価値関数Ｑを学習する。

機械学習装置３００は、タップ加工プログラム５００を用いてタップ加工を実行することで制御装置２００から、トルク指令値、主軸モータ１０１の駆動状態情報、及び加速時移動距離Ｓａと減速時移動距離Ｓｄとの比率を含む状態情報ｓを取得して、行動ａを出力する。そして、トルク指令値及び主軸モータ１０１の駆動状態に基づいて得られる減速時におけるトルク指令値を判定情報として、減速時におけるトルク指令値の目標値を用いて報酬を算出する。減速時におけるトルク指令値の目標値は予め機械学習装置３３０に記憶されている。機械学習装置３００は、行動ａをするたびに報酬が返ってくる。機械学習装置３００は、例えば、将来にわたっての報酬の合計が最大になるように最適な行動ａを試行錯誤的に探索する。そうすることで、機械学習装置３００は、予め用意されたプログラムを用いてタップ加工を実行することで取得される、トルク指令値、及び主軸モータ１０１の駆動状態情報を含む状態ｓに対して、最適な行動ａ（すなわち、減速時のトルク指令値が減速時のトルク指令目標値に最も近い、最適な、加速時移動距離Ｓａと減速時移動距離Ｓｄとの比率）を選択することが可能となる。

すなわち、機械学習装置３００により学習された価値関数Ｑに基づいて、或る状態ｓに係る、加速時移動距離Ｓａと減速時移動距離Ｓｄとの比率に対して適用される行動ａのうち、価値関数Ｑの値が最大となるような行動ａを選択することで、減速時のトルク指令値が目標となるトルク指令値に近くなるような行動ａ（すなわち、加速時移動距離Ｓａと減速時移動距離Ｓｄの比率）を選択することが可能となる。

図５は本発明の第１の実施形態の機械学習装置３００を示すブロック図である。
上述した強化学習を行うために、図５に示すように、機械学習装置３００は、状態情報取得部３０１、学習部３０２、行動情報出力部３０３、価値関数記憶部３０４、及び最適化行動情報出力部３０５を備える。学習部３０２は報酬出力部３０２１、価値関数更新部３０２２、及び行動情報生成部３０２３を備える。

状態情報取得部３０１は、主軸モータ１０１を駆動するためのトルク指令値と、主軸モータ１０１が加速、減速、一定速、及び停止のいずれかにあるかを示す駆動状態情報と、加速時移動距離Ｓａと減速時移動距離Ｓｄとの比率と、を含む状態ｓを、制御装置２００から取得する。この状態情報（「ステータス」ともいう）ｓは、Ｑ学習における、環境状態ｓに相当する。
状態情報取得部３０１は、取得した状態情報ｓを学習部３０２に対して出力する。
なお、最初にＱ学習を開始する時点での加速時移動距離Ｓａと減速時移動距離Ｓｄとの比率は、予めユーザが設定する。ここでは、最初にＱ学習を開始する時点での加速時移動距離Ｓａと減速時移動距離Ｓｄとの比率は、１対１に設定する。そして、機械学習装置３００が、ユーザが設定した加速時移動距離Ｓａと減速時移動距離Ｓｄとの比率を、強化学習により調整することで、減速時のトルク指令値が目標となるトルク指令値に近い値となるように最適化する。

学習部３０２は、或る状態情報（環境状態）ｓの下で、ある行動ａを選択する場合の価値関数Ｑ（ｓ，ａ）を学習する部分である。具体的には、学習部３０２は、報酬出力部３０２１、価値関数更新部３０２２及び行動情報生成部３０２３を備える。

報酬出力部３０２１は、或る状態ｓの下で、行動ａを選択した場合の報酬を算出する部分である。
行動ａにより状態ｓから状態ｓ’に遷移した場合に、状態ｓ及び状態ｓ’における、加速時移動距離Ｓａと減速時移動距離Ｓｄとの比率に基づいて動作した工作機械１００の一サイクルにおける減速時のトルク指令値の集合の平均値をトルク指令値Ｔｍ（ｓ）及びトルク指令値Ｔｍ（ｓ’）とする。
報酬出力部３０２１は、例えば、減速時のトルク指令値の集合の平均値Ｔｍ及び減速時のトルク指令値の目標値Ｔｔに基づいて報酬を算出することができる。ここで、減速時のトルク指令値の目標値Ｔｔは、減速時のトルク指令値の最大値よりも少し小さな値、例えば減速時のトルク指令値の最大値の９５％に設定する。なお、減速時のトルク指令値の目標値Ｔｔは、最大値の９５％に限定されない。

具体的には、減速時のトルク指令値Ｔｍ、減速時の目標トルク指令値Ｔｔ、係数ａを用いて、報酬は以下の数式３（以下に数３として示す）によって求めることができる。

数式３から明らかなように、トルク指令値Ｔｍ（ｓ）、Ｔｍ（ｓ’）のそれぞれに基づいて報酬を求めることができる。トルク指令値Ｔｍ（ｓ’）がトルク指令値Ｔｍ（ｓ）よりも目標トルク指令値Ｔｔから遠ざかった場合、報酬はトルク指令値Ｔｍ（ｓ）よりも低い値となる。
トルク指令値Ｔｍ（ｓ’）がトルク指令値Ｔｍ（ｓ）よりも目標トルク指令値Ｔｔに近づいた場合は、報酬はトルク指令値Ｔｍ（ｓ）よりも高い値となる。

なお、上記の方法は報酬の付与の方法の一例であり、以下の方法によってもよい。
例えば、トルク指令値Ｔｍ（ｓ’）がトルク指令値Ｔｍ（ｓ）よりも目標トルク指令値Ｔｔから遠ざかった場合は、報酬を負の値とする。トルク指令値Ｔｍ（ｓ’）がトルク指令値Ｔｍ（ｓ）と等しい場合は、報酬をゼロとする。トルク指令値Ｔｍ（ｓ’）がトルク指令値Ｔｍ（ｓ）よりも目標トルク指令値Ｔｔに近づいた場合は、報酬を正の値とする。このようにして報酬を算出することができる。
なお、報酬出力部３０２１は、トルク指令値Ｔｍ（ｓ’）がトルク指令値Ｔｍ（ｓ）と等しい場合に報酬を正の値とし、トルク指令値Ｔｍ（ｓ’）がトルク指令値Ｔｍ（ｓ）よりも目標トルク指令値Ｔｔに近づいた場合の報酬を、トルク指令値Ｔｍ（ｓ’）がトルク指令値Ｔｍ（ｓ）と等しい場合の報酬よりも大きい正の値としてもよい。

価値関数更新部３０２２は、状態ｓと、行動ａと、行動ａを状態ｓに適用した場合の状態ｓ’と、上記のようにして算出された報酬の値と、に基づいてＱ学習を行うことにより、価値関数記憶部３０４が記憶する価値関数Ｑを更新する。
価値関数Ｑの更新は、オンライン学習で行ってもよく、バッチ学習で行ってもよく、ミニバッチ学習で行ってもよい。

オンライン学習とは、或る行動ａを現在の状態ｓに適用することにより、状態ｓが新たな状態ｓ’に遷移する都度、即座に価値関数Ｑの更新を行うという学習方法である。また、バッチ学習とは、或る行動ａを現在の状態ｓに適用することにより、状態ｓが新たな状態ｓ’に遷移することを繰り返すことにより、学習用のデータを収集し、収集した全ての学習用データを用いて、価値関数Ｑの更新を行うという学習方法である。更に、ミニバッチ学習とは、オンライン学習と、バッチ学習の中間的な、ある程度学習用データが溜まるたびに価値関数Ｑの更新を行うという学習方法である。

行動情報生成部３０２３は、現在の状態ｓに対して、Ｑ学習の過程における行動ａを選択する。行動情報生成部３０２３は、Ｑ学習の過程において、加速時移動距離Ｓａと減速時移動距離Ｓｄとの比率を修正する動作（Ｑ学習における行動ａに相当）を行わせるために、行動情報ａを生成して、生成した行動情報ａを行動情報出力部３０３に対して出力する。

より具体的には、行動情報生成部３０２３は、例えば、状態ｓに含まれる、加速時移動距離Ｓａと減速時移動距離Ｓｄとの比率に対して、行動ａにより、加速時移動距離Ｓａと減速時移動距離Ｓｄとの比率を調整して増加又は減少させる。ここでは加速時移動距離Ｓａを一定とし、状態ｓにおける減速時移動距離Ｓｄを状態ｓ’においては減速時移動距離Ｓｄ’に修正を行うとする。
行動情報生成部３０２３は、行動ａにより加速時移動距離Ｓａと減速時移動距離Ｓｄとの比率を調整して、状態ｓ’に遷移した場合に、減速時のトルク指令値Ｔｍ（ｓ’）が目標トルク指令値Ｔｔに近づいたか又は目標トルク指令値Ｔｔを超えたかによって次の行動ａ’の加速時移動距離Ｓａと減速時移動距離Ｓｄとの比率を選択してもよい。例えば、減速時のトルク指令値Ｔｍ（ｓ’）が目標トルク指令値Ｔｔに近づいたときには、加速時移動距離Ｓａに対する減速時移動距離Ｓｄの比率を下げ、減速時のトルク指令値Ｔｍ（ｓ’）が目標トルク指令値Ｔｔを超えたときには、加速時移動距離Ｓａに対する減速時移動距離Ｓｄの比率を上げることができる。

また、行動情報生成部３０２３は、現在の推定される行動ａの価値の中で、最も価値関数Ｑ（ｓ，ａ）の高い行動ａ’を選択するグリーディ法や、ある小さな確率εでランダムに行動ａ’を選択し、それ以外では最も価値関数Ｑ（ｓ，ａ）の高い行動ａ’を選択するεグリーディ法といった公知の方法により、行動ａ’を選択する方策を取るようにしてもよい。

行動情報出力部３０３は、学習部３０２から出力される行動情報ａを制御装置２００に対して送信する部分である。

価値関数記憶部３０４は、価値関数Ｑを記憶する記憶装置である。価値関数Ｑは、例えば状態ｓ、行動ａ毎にテーブル（以下、行動価値テーブルと呼ぶ）として格納してもよい。価値関数記憶部３０４に記憶された価値関数Ｑは、価値関数更新部３０２２により更新される。また、価値関数記憶部３０４に記憶された価値関数Ｑは、他の機械学習装置３００との間で共有されるようにしてもよい。価値関数Ｑを複数の機械学習装置３００で共有するようにすれば、各機械学習装置３００にて分散して強化学習を行うことが可能となるので、強化学習の効率を向上させることが可能となる。

最適化行動情報出力部３０５は、価値関数更新部３０２２がＱ学習を行うことにより更新した価値関数Ｑに基づいて、価値関数Ｑ（ｓ，ａ）が最大となる動作を工作機械１００に行わせるための行動情報ａ（以下、「最適化行動情報」と呼ぶ）を生成する。
より具体的には、最適化行動情報出力部３０５は、価値関数記憶部３０４が記憶している価値関数Ｑを取得する。この価値関数Ｑは、上述したように価値関数更新部３０２２がＱ学習を行うことにより更新したものである。そして、最適化行動情報出力部３０５は、価値関数Ｑに基づいて、行動情報を生成し、生成した行動情報を制御装置２００に対して出力する。この最適化行動情報には、行動情報出力部３０３がＱ学習の過程において出力する行動情報と同様に、加速時移動距離Ｓａと減速時移動距離Ｓｄとの比率を修正する情報が含まれる。

制御装置２００は、この最適化行動情報に基づいて現在設定されている加速時移動距離Ｓａと減速時移動距離Ｓｄとの比率を修正して、トルク指令値を生成することにより、工作機械１００は、減速時のトルク指令値Ｔｍを減速時のトルク指令値の目標値Ｔｔに近づけつつ、機械毎又は動作条件毎に安定したタップ動作とし、機械毎加工サイクルタイムがより短くなるように動作させることができる。

以上、制御装置２００及び機械学習装置３００に含まれる機能ブロックについて説明した。
これらの機能ブロックを実現するために、制御装置２００及び機械学習装置３００のそれぞれは、ＣＰＵ（Central Processing Unit）等の演算処理装置を備える。また、制御装置２００及び機械学習装置３００のそれぞれは、アプリケーションソフトウェアやＯＳ（Operating System）等の各種の制御用プログラムを格納したＨＤＤ（Hard Disk Drive）等の補助記憶装置や、演算処理装置がプログラムを実行する上で一時的に必要とされるデータを格納するためのＲＡＭ（Random Access Memory）といった主記憶装置も備える。

そして、制御装置２００及び機械学習装置３００のそれぞれにおいて、演算処理装置が補助記憶装置からアプリケーションソフトウェアやＯＳを読み込み、読み込んだアプリケーションソフトウェアやＯＳを主記憶装置に展開させながら、これらのアプリケーションソフトウェアやＯＳに基づいた演算処理を行なう。また、この演算結果に基づいて、各装置が備える各種のハードウェアを制御する。これにより、本実施形態の機能ブロックは実現される。つまり、本実施形態は、ハードウェアとソフトウェアが協働することにより実現することができる。

機械学習装置３００については機械学習に伴う演算量が多いため、例えば、パーソナルコンピュータにＧＰＵ（Graphics Processing Units）を搭載し、ＧＰＧＰＵ（General-Purpose computing on Graphics Processing Units）と呼ばれる技術により、ＧＰＵを機械学習に伴う演算処理に利用するようにすると高速処理できるようになるのでよい。更には、より高速な処理を行うために、このようなＧＰＵを搭載したコンピュータを複数台用いてコンピュータ・クラスターを構築し、このコンピュータ・クラスターに含まれる複数のコンピュータにて並列処理を行うようにしてもよい。

次に、図６のフローチャートを参照して本実施形態におけるＱ学習時の機械学習装置３００の動作について説明をする。図６は本実施形態におけるＱ学習時の機械学習装置３００の動作を示すフローチャートである。なお、最適化の対象とするタップ加工プログラム５００が用意され、また、各パラメータ値（例えば、減速時のトルク指令値の目標値Ｔｔ、最大試行回数等）が予め設定されているものとする。

まず、ステップＳ１１において、状態情報取得部３０１が制御装置２００から最初の状態情報を取得する。取得した状態情報は、価値関数更新部３０２２及び行動情報生成部３０２３に対して出力される。上述したように、この状態情報は、Ｑ学習における状態ｓに相当する情報であり、ステップＳ１１時点での、主軸モータ１０１に対するトルク指令値、主軸モータ１０１が加速、減速、一定速、及び停止のいずれにあるかを示す駆動状態情報（主軸モータ１０１の駆動状態情報）、並びに加速時移動距離Ｓａと減速時移動距離Ｓｄの比率が含まれる。本実施形態では、加速時移動距離Ｓａは一定とされている。なお、最初にＱ学習を開始する時点での加速時移動距離Ｓａと減速時移動距離Ｓｄの比率は、予めユーザが設定し、ここでは比率は１：１とされている。本実施形態では、ユーザが作成した加速時移動距離Ｓａと減速時移動距離Ｓｄの比率を、強化学習により最適なものに調整する。

ステップＳ１２において、状態情報取得部３０１は、状態ｓに係る主軸モータ１０１に対するトルク指令値、及び主軸モータ１０１の駆動状態情報により、タップ加工における一サイクルにおける状態ｓに係る減速時のトルク指令値Ｔｍ（ｓ）を求め、これを判定情報とする。状態情報取得部３０１は学習部３０２に対して取得した状態情報、及び判定情報を出力する。

ステップＳ１３において、報酬出力部３０２１は入力された判定情報、すなわち減速時のトルク指令値Ｔｍ（ｓ）に基づいて報酬を算出する。ステップＳ１３においては、状態ｓに係る減速時のトルク指令値Ｔｍ（ｓ）と、主軸モータ１０１に対する減速時のトルク指令値の目標値Ｔｔとを用いて、上述した数式３により報酬を算出する。

ステップＳ１３が終了すると、ステップＳ１４において、報酬の値に基づいて、価値関数更新部３０２２が、価値関数記憶部３０４が記憶している価値関数Ｑを更新する。次に、ステップＳ１５において、価値関数更新部３０２２は機械学習を継続するかどうかを判断する。機械学習を継続するかどうかは、現在の試行回数が予め設定された最大試行回数に到達したかどうかで判断することができる。最大試行回数に到達していなければ、ステップＳ１６に進む。最大試行回数に達していれば、処理を終了する。

ステップＳ１６において、行動情報生成部３０２３は新たな行動情報ａを生成し、生成した新たな行動情報ａを、行動情報出力部３０３を介して制御装置２００に対して出力する。行動情報を受信した制御装置２００は、受信した行動情報に基づいて現在の状態ｓに係る加速時移動距離Ｓａと減速時移動距離Ｓｄの比率を修正して状態ｓ’とし、制御装置２００は修正された状態ｓ’により、工作機械１００を駆動させてタップ加工を行う。
例えば、制御装置２００は、図４に示した加速時移動距離Ｓａと減速時移動距離Ｓｄの比率が１対１の状態ｓを、比率が１：０．７の状態ｓ’とする。図７は加速時移動距離Ｓａと修正後の減速時移動距離Ｓｄ’の比率が１対０．７である場合の、減速時の主軸モータの回転速度ｖと時間ｔとの関係を示す図である。一サイクルの時間（サイクルタイム）は、時間ｔ１から時間ｔ１より小さいｔ２となる。
ステップＳ１６が終了すると、ステップＳ１２に戻る。

ここで、ステップＳ１６、及び次のステップＳ１２における具体的な制御装置２００の動作について図３を参照して具体的に説明する。図３に示すように、主軸制御部２２０は、現在速度検出部２２４が検出する現在速度Ｖｃと、初期動作制御部２２１が制御する加速状態と、位置決め動作制御部２２５が制御する減速状態とに基づいて、主軸モータ１０１が加速、減速、一定速、及び停止のいずれにあるかを示す駆動状態情報（主軸モータ１０１の駆動状態情報）を機械学習装置３００へ送る。また、主軸制御部２２０は、トルク指令値を主軸モータ１０１の他に、機械学習装置３００へも送る。さらに、主軸制御部２２０は、タップ加工プログラム５００で実行されるタップ加工の一サイクルでの、加速時移動距離Ｓａと減速時移動距離Ｓｄとの比率を機械学習装置３００へ送る。
トルク指令値と、主軸モータ１０１の駆動状態情報と、加速時移動距離Ｓａと減速時移動距離Ｓｄとの比率とが、機械学習装置３００へ送る状態情報ｓとなる。
また、主軸制御部２２０は、機械学習装置３００から加速時移動距離Ｓａと減速時移動距離Ｓｄとの比率を行動情報として受信する。位置決め動作制御部２２５は、この比率と回転量検出部２２２により検出される加速時移動距離Ｓａとから減速時移動距離Ｓｄを求める。図７に示すような、加速時移動距離Ｓａと減速時移動距離Ｓｄとの比率が１：０．７の場合は、回転量検出部２２２により検出される加速時移動距離Ｓａに０．７を掛けて、減速時移動距離Ｓｄを求める。求められた減速時移動距離Ｓｄに残回転量Ｓｒが達した時に減速を開始する。減速時の加速度は、既に説明したように、求められた減速時移動距離（残回転量Ｓｒ）と現在速度Ｖｃとに基づき減速時の加速度を求めことができる。

次のステップＳ１２から次のステップＳ１５までの処理が終了すると、次のステップＳ１６において、図７に示した加速時移動距離Ｓａと減速時移動距離Ｓｄ’の比率を１対０．７の状態ｓ’から、比率が１：０．４の状態ｓ’’とすることができる。図９は加速時移動距離Ｓａと修正後の減速時移動距離Ｓｄ’’の比率が１対０．４である場合の、減速時の主軸モータの回転速度ｖと時間ｔとの関係を示す図である。一サイクルの時間は、時間ｔ２から時間ｔ２より小さいｔ３となる。
ステップＳ１２からステップＳ１６までの処理は最大試行回数に到達するまで繰り返し行われる。なお、ここでは試行回数が最大試行回数に到達したときに処理を終了させているが、ステップＳ１２からステップＳ１６の処理を所定時間繰り返したことを条件として処理を終了するようにしてもよい。

以上説明したステップＳ１６では、加速時移動距離Ｓａに対する減速時移動距離Ｓｄの比率を下げた場合について説明しているが、加速時移動距離Ｓａに対する減速時移動距離Ｓｄの比率を増やすことも行って機械学習を行う。
なお、ステップＳ１４はオンライン更新を例示しているが、オンライン更新に替えてバッチ更新又はミニバッチ更新に置き換えてもよい。

以上、図６を参照して説明した動作により、本実施形態では、加工プログラムに対して減速時でのモータ能力を目標値に近づけつつ、機械毎又は動作条件毎に安定したタップ動作とし、よりサイクルタイムを短縮するための行動情報を生成するための価値関数Ｑを生成することができる、という効果を奏する。

次に、図９のフローチャートを参照して、最適化行動情報出力部３０５による最適化行動情報の生成時の動作について説明をする。
まず、ステップＳ２１において、最適化行動情報出力部３０５は、価値関数記憶部３０４に記憶している価値関数Ｑを取得する。価値関数Ｑは、上述したように価値関数更新部３０２２がＱ学習を行うことにより更新したものである。

ステップＳ２２において、最適化行動情報出力部３０５は、この価値関数Ｑに基づいて、最適化行動情報を生成し、生成した最適化行動情報を制御装置２００に対して出力する。

以上のように、制御装置２００が、この最適化行動情報に基づいてトルク指令値を生成することにより、工作機械１００は、減速時でのモータ能力を目標値に近づけつつ、機械毎又は動作条件毎に安定したタップ動作とし、よりサイクルタイムを短縮することができる、という効果を奏する。

以上、本発明の実施形態について説明したが、上記の制御装置及び機械学習装置のそれぞれは、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。また、上記の制御装置及び機械学習装置のそれぞれの協働により行なわれる機械学習方法も、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。ここで、ソフトウェアによって実現されるとは、コンピュータがプログラムを読み込んで実行することにより実現されることを意味する。

プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えば、ハードディスクドライブ）、光磁気記録媒体（例えば、光磁気ディスク）、ＣＤ−ＲＯＭ(Read Only Memory)、ＣＤ−Ｒ、ＣＤ−Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ(Programmable ROM)、ＥＰＲＯＭ(Erasable PROM)、フラッシュＲＯＭ、ＲＡＭ(random access memory）)を含む。

また、上述した各実施形態は、本発明の好適な実施形態ではあるが、上記各実施形態のみに本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において種々の変更を施した形態での実施が可能である。

＜変形例＞
上述した実施形態では、機械学習装置３００を、工作機械１００や制御装置２００とは別体の装置により実現することを想定していたが、機械学習装置３００の機能の一部又は全部を工作機械１００又は制御装置２００により実現するようにしてもよい。機械学習装置３００の機能の一部又は全部を、制御装置２００の数値制御部２１０又は主軸制御部２２０により実現するようにしてもよく、数値制御部２１０又は主軸制御部２２０とは別に機械学習装置３００の機能の一部又は全部を有する機械学習部を制御装置２００内に設けてもよい。
また、機械学習装置３００の最適化行動情報出力部３０５は機械学習装置３００とは別の最適化行動情報出力装置としてもよい。この場合、最適化行動情報出力装置は複数の機械学習装置３００に対して１つ又は複数設けて共通化してもよい。

＜システム構成の自由度＞
上述した実施形態では、機械学習装置３００と制御装置２００とが１対１の組として通信可能に接続されているが、例えば１台の機械学習装置３００が複数の制御装置２００とネットワーク４００を介して通信可能に接続され、各制御装置２００の機械学習を実施するようにしてもよい。
その際、機械学習装置３００の各機能を、適宜複数のサーバに分散する、分散処理システムとしてもよい。また、クラウド上で仮想サーバ機能等を利用して、機械学習装置３００の各機能を実現してもよい。

また、複数の同じ型名、同一仕様、又は同一シリーズの制御装置２００−１〜２００−ｎとそれぞれ対応する複数の機械学習装置３００−１〜３００−ｎがあった場合に、各機械学習装置３００−１〜３００−ｎにおける学習結果を共有するように構成するようにしてもよい。そうすることで、より最適なモデルを構築することが可能となる。

１０制御システム
１００、１００−１〜１００−ｎ工作機械
１０１主軸モータ
１０２送り軸モータ
１０５サイクルカウンタ
２００、２００−１〜２００−ｎ制御装置
２１０数値制御部
２２０主軸制御部
２３０回転検出部
２４０送り軸モータ制御部
３００、３００−１〜３００−ｎ機械学習装置
３０１状態情報取得部
３０２学習部
３０３行動情報出力部
３０４価値関数記憶部
３０５最適化行動情報出力部
４００ネットワーク
５００タップ加工プログラム

Claims

主軸モータと送り軸モータとの同期運転を制御する、工作機械の制御装置に対して、機械学習を行う機械学習装置であって、
タップ加工プログラムを前記制御装置に実行させることにより、少なくとも前記主軸モータに対するトルク指令値と、前記主軸モータの減速を含む駆動状態と、前記主軸モータの加速時移動距離と減速時移動距離との比率と、を含む状態情報を、前記制御装置から取得する状態情報取得手段と、
前記状態情報に含まれる前記主軸モータの加速時移動距離と減速時移動距離との前記比率の調整情報を含む行動情報を前記制御装置に出力する行動情報出力手段と、
前記状態情報に含まれる減速時のトルク指令値と減速時の目標トルク指令値とに基づく、強化学習における報酬の値を出力する報酬出力手段と、
前記報酬出力手段により出力される報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新手段と、
を備える機械学習装置。
前記報酬出力手段は、減速時のトルク指令値Ｔｍ、減速時の目標トルク指令値Ｔｔ、係数ａを用いて、報酬を以下の数式４によって求める請求項１に記載の機械学習装置。
前記価値関数更新手段により更新された価値関数に基づいて、前記主軸モータの加速時移動距離と減速時移動距離との比率を生成して出力する最適化行動情報出力手段を備えた請求項１又は２に記載の機械学習装置。
請求項１から請求項３のいずれか１項に記載の機械学習装置と、主軸モータと送り軸モータとの同期運転を制御する、工作機械の制御装置と、を備えた制御システム。
請求項１から請求項３のいずれか１項に記載の機械学習装置を含み、主軸モータと送り軸モータとの同期運転を制御する、工作機械の制御装置。
前記制御装置は、
タップ加工プログラムに基づき主軸指令及び送り軸指令を作成する数値制御部と、
前記主軸指令に従って主軸モータの回転動作を制御する主軸制御部と、
前記主軸モータの回転位置を検出する回転検出部と、
前記送り軸指令に従って、前記回転位置に基づき前記送り軸の送り動作を制御する送り軸制御部と、を具備し、
前記数値制御部は、始動位置から目標位置に至る間の前記主軸モータの総回転量と最高回転速度とを前記タップ加工プログラムから取得して、該総回転量と該最高回転速度とを前記主軸指令として前記主軸制御部に送る主軸指令出力部を備え、
前記主軸制御部は、前記最高回転速度を目標値とする速度制御により前記始動位置から前記主軸モータを、加速回転させる初期動作制御部と、
前記加速回転中に前記回転位置に基づき前記主軸モータの回転量を検出する回転量検出部と、
前記総回転量と前記回転位置とに基づき、現在位置から前記目標位置に至るまでの前記主軸モータの残回転量を検出する残回転量検出部と、
前記回転位置に基づき前記主軸モータの現在速度を検出する現在速度検出部と、
前記加速回転の後に、前記主軸モータの加速時移動距離と減速時移動距離との比率と、前記残回転量と、前記現在速度とに基づき、位置制御により前記主軸モータを減速回転させて前記目標位置に到達させる位置決め動作制御部とを備えている請求項４に記載の制御システム。
タップ加工プログラムに基づき主軸指令及び送り軸指令を作成する数値制御部と、
前記主軸指令に従って主軸モータの回転動作を制御する主軸制御部と、
前記主軸モータの回転位置を検出する回転検出部と、
前記送り軸指令に従って、前記回転位置に基づき前記送り軸の送り動作を制御する送り軸制御部と、を具備し、
前記数値制御部は、始動位置から目標位置に至る間の前記主軸モータの総回転量と最高回転速度とを前記タップ加工プログラムから取得して、該総回転量と該最高回転速度とを前記主軸指令として前記主軸制御部に送る主軸指令出力部を備え、
前記主軸制御部は、前記最高回転速度を目標値とする速度制御により前記始動位置から前記主軸モータを、加速回転させる初期動作制御部と、
前記加速回転中に前記回転位置に基づき前記主軸モータの回転量を検出する回転量検出部と、
前記総回転量と前記回転位置とに基づき、現在位置から前記目標位置に至るまでの前記主軸モータの残回転量を検出する残回転量検出部と、
前記回転位置に基づき前記主軸モータの現在速度を検出する現在速度検出部と、
前記加速回転の後に、前記主軸モータの加速時移動距離と減速時移動距離との比率と、前記残回転量と、前記現在速度とに基づき、位置制御により前記主軸モータを減速回転させて前記目標位置に到達させる位置決め動作制御部とを備えている請求項５に記載の制御装置。
主軸モータと送り軸モータとの同期運転を制御する、工作機械の制御装置に対して、機械学習を行う機械学習装置の機械学習方法であって、
タップ加工プログラムを前記制御装置に実行させることにより、少なくとも前記主軸モータに対するトルク指令値と、前記主軸モータの減速を含む駆動状態と、前記主軸モータの加速時移動距離と減速時移動距離との比率と、を含む状態情報を、前記制御装置から取得し、
前記状態情報に含まれる前記主軸モータの加速時移動距離と減速時移動距離との前記比率の調整情報を含む行動情報を前記制御装置に出力し、
前記状態情報に含まれる減速時のトルク指令値と減速時の目標トルク指令値とに基づく、強化学習における報酬の値を出力し、
前記報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する、機械学習方法。