JP7364699B2

JP7364699B2 - 機械学習装置、コンピュータ装置、制御システム、及び機械学習方法

Info

Publication number: JP7364699B2
Application number: JP2021575779A
Authority: JP
Inventors: 修二佐藤
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2020-02-05
Filing date: 2021-02-01
Publication date: 2023-10-18
Anticipated expiration: 2041-02-01
Also published as: CN115066659A; DE112021000842T5; JPWO2021157515A1; US20230068058A1; WO2021157515A1

Description

本発明は、機械学習装置、コンピュータ装置、制御システム、及び機械学習方法に関する。

例えば、工作機械やロボット等の産業機械を制御する制御装置と接続されたコンピュータ装置（例えば、パーソナルコンピュータ、タブレット端末、スマートフォン等）には、コンピュータ装置上で動作するアプリケーションが制御装置内のデータにアクセスするために、制御装置とのインタフェースとなる通信処理部が存在している。
制御装置内のデータにアクセスするアプリケーションには、ほとんど間隔を空けず頻繁にアクセスするもの、定期的にアクセスするもの、散発的にアクセスするものがある。
このようなアプリケーションが多数同時に動作している状態においては、制御装置内のデータに頻繁にアクセスするアプリケーションに妨げられて、他のアプリケーションのアクセスがしばしば遅延し、アプリケーションの動作が全体的に緩慢になることがある。
この点、コンピュータ装置としてのパーソナルコンピュータのアプリケーションで設定したデータの優先度を、制御装置としての数値制御装置へ伝達し、パーソナルコンピュータのアプリケーションから複数のデータが要求されたとき、数値制御装置は優先度の高いデータを先に送信しバッファへ格納するとともに、数値制御装置の負荷と応答許容時間に従って送信間隔を調整する技術が知られている。例えば、特許文献１参照。

特許第６５１７７０６号

コンピュータ装置と接続された制御装置において、全体のパフォーマンスを考慮しないアプリケーションが制御装置へ頻繁にアクセスしたり、非常に多くのアプリケーションが同時に制御装置へアクセスしたりすると、アクセスの遅延によるパフォーマンス低下や、処理の遅延が発生する。
図１０は、コンピュータ装置としてのパーソナルコンピュータ上で動作する複数のアプリケーションが出力するコマンドのタイムチャートの一例を示す図である。なお、図１０は、コンピュータ装置としてのパーソナルコンピュータが４つのアプリケーションＡ１－Ａ４を実行する場合を示す。また、図１０では、円形、四角形、ひし形、三角形のコマンドの順に緊急度が高いことを示す。
図１０に示すように、アプリケーションＡ１は、緊急度が比較的高いコマンドを定期的に出力し、制御装置内のデータにアクセスする。アプリケーションＡ２は、緊急度が最も高いコマンドを散発的に出力し、制御装置内のデータにアクセスする。アプリケーションＡ３は、コマンドを頻繁に出力し、制御装置内のデータに頻繁にアクセスする。アプリケーションＡ４は、定期的に複数のコマンドを出力し、制御装置内のデータにアクセスする。
図１０の場合、例えば、時間Ｔ１、Ｔ２において、アプリケーションＡ１－Ａ４のコマンドが集中し、制御装置に対して過度なアクセスが発生する。このような状態で発生する問題としては、定期的に処理すべきデータのアクセスが不定期になる、至急処理すべきイベントが発生していても処理が遅延する、アプリケーションの動作が全体的に緩慢になる等が存在する。
特許文献１では、データ要求のコマンドに対して数値制御装置が返すデータの効率化に限定されており、コンピュータ装置としてのパーソナルコンピュータから制御装置としての数値制御装置へのコマンド配信の効率化や負荷軽減はできず、書込み要求の送信データには効果がない。
また、従来技術では、制御装置へのコマンド配信を調整するには、個々のアプリケーションを修正する必要がある。

そこで、データ通信のコマンドが制御装置へ過度に配信され過負荷となることを防止するとともに、コマンドの配信遅延時間を短縮することが望まれている。

（１）本開示の機械学習装置の一態様は、通信可能に接続された制御装置にアクセスするためのコマンドを発行するコンピュータ装置に対して機械学習を行う機械学習装置であって、前記コンピュータ装置上で動作する１つ以上のアプリケーションの各々が指令する前記制御装置内のデータにアクセスするためのコマンドを監視し、少なくとも前記コマンドの配信スケジュールと、前記配信スケジュールに基づいて配信される前記コマンドの受付時刻及び配信時刻とを含む状態データを取得する状態データ取得部と、前記状態データに含まれる前記配信スケジュールの修正情報を含む行動情報を前記コンピュータ装置に出力する行動情報出力部と、前記コマンドが前記制御装置へ配信されるまでの前記コマンド毎の遅延時間と、配信される全ての前記コマンドの平均配信間隔と、に基づいて、前記行動情報に対する報酬を計算する報酬計算部と、前記報酬計算部により計算される報酬に基づいて、前記状態データ及び前記行動情報に係る価値関数を更新する価値関数更新部と、を備える。

（２）本開示のコンピュータ装置の一態様は、（１）の機械学習装置を備え、前記機械学習装置によって前記配信スケジュールが機械学習される。

（３）本開示の制御システムの一態様は、（１）の機械学習装置と、前記機械学習装置によって前記配信スケジュールが機械学習されるコンピュータ装置と、を備える。

（４）本開示の機械学習方法の一態様は、通信可能に接続された制御装置にアクセスするためのコマンドを発行するコンピュータ装置に対して機械学習を行う機械学習方法であって、前記コンピュータ装置上で動作する１つ以上のアプリケーションの各々が指令する前記制御装置内のデータにアクセスするためのコマンドを監視し、少なくとも前記コマンドの配信スケジュールと、前記配信スケジュールに基づいて配信される前記コマンドの受付時刻及び配信時刻とを含む状態データを取得し、前記状態データに含まれる前記配信スケジュールの修正情報を含む行動情報を前記コンピュータ装置に出力し、前記コマンドが前記制御装置へ配信されるまでの前記コマンド毎の遅延時間と、配信される全ての前記コマンドの平均配信間隔と、に基づいて、前記行動情報に対する報酬を計算し、計算される報酬に基づいて、前記状態データ及び前記行動情報に係る価値関数を更新する。

一態様によれば、データ通信のコマンドが制御装置へ過度に配信され過負荷となることを防止するとともに、コマンドの配信遅延時間を短縮することができる。

一実施形態に係る制御システムの機能的構成例を示す機能ブロック図である。配信スケジュールを含むコマンドテーブルの一例を示す図である。機械学習装置の機能的構成例を示す機能ブロック図である。報酬計算部により計算されたコマンド毎の報酬の一例を示す図である。更新前及び更新後のコマンドのタイムチャートの一例を示す図である。一実施形態におけるＱ学習時の機械学習装置４０の動作を示すフローチャートである。最適化行動情報出力部による最適化行動情報の生成時の動作を示すフローチャートである。制御システムの構成の一例を示す図である。制御システムの構成の一例を示す図である。パーソナルコンピュータ上で動作する複数のアプリケーションが出力するコマンドのタイムチャートの一例を示す図である。

以下、本開示の一実施形態について、図面を用いて説明する。
＜一実施形態＞
図１は、一実施形態に係る制御システムの機能的構成例を示す機能ブロック図である。ここでは、産業機械として工作機械を例示し、制御装置として数値制御装置を例示する。本発明は、工作機械に限定されず、例えば産業用ロボット、サービス用ロボット等にも適用可能である。また、産業機械がロボットの場合、制御装置は、ロボット制御装置等を含む。また、コンピュータ装置として、パーソナルコンピュータを例示するが、本発明はパーソナルコンピュータに限定されず、例えばタブレット端末、スマートフォン等のいわゆるクライアント端末に適用可能である。
図１に示すように、制御システム１は、工作機械１０、数値制御装置２０、パーソナルコンピュータ３０、及び機械学習装置４０を有する。

工作機械１０、数値制御装置２０、パーソナルコンピュータ３０、及び機械学習装置４０は、図示しない接続インタフェースを介して互いに直接接続されてもよい。また、工作機械１０、数値制御装置２０、パーソナルコンピュータ３０、及び機械学習装置４０は、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）やインターネット等の図示しないネットワークを介して相互に接続されていてもよい。この場合、工作機械１０、数値制御装置２０、パーソナルコンピュータ３０、及び機械学習装置４０は、かかる接続によって相互に通信を行うための図示しない通信部を備えている。なお、後述するように、パーソナルコンピュータ３０は、機械学習装置４０を含むようにしてもよい。また、数値制御装置２０は、工作機械１０に含まれてもよい。

工作機械１０は、当業者にとって公知の工作機械であり、後述する数値制御装置２０からの制御情報に基づいて動作する。

数値制御装置２０は、当業者にとって公知の数値制御装置であり、制御情報に基づいて動作指令を生成し、生成した動作指令を工作機械１０に送信する。これにより、数値制御装置２０は、工作機械１０の動作を制御する。また、数値制御装置２０は、後述するパーソナルコンピュータ３０上で動作するｎ個のアプリケーションＡＰ１－ＡＰｎの各々が数値制御装置２０内のデータにアクセスするためのデータ通信のコマンドを受信し、受信したコマンドの順にデータをパーソナルコンピュータ３０に送信する。ここで、ｎは２以上の整数である。

＜パーソナルコンピュータ３０＞
パーソナルコンピュータ３０は、中央処理部３０１、データ通信インタフェース部３０２、コマンド処理部３０３、通信処理部３０４、及び記憶部３０５を有する。
中央処理部３０１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌ－Ｏｘｉｄｅ－Ｓｅｍｉｃｏｎｄｕｃｔｏｒ）メモリ等を有し、これらはバスを介して相互に通信可能に構成される、当業者にとって公知のものである。
ＣＰＵはパーソナルコンピュータ３０を全体的に制御するプロセッサである。ＣＰＵは、ＲＯＭに格納されたシステムプログラム及びｎ個のアプリケーションＡＰ１－ＡＰｎのプログラムを、バスを介して読み出し、前記システムプログラム及びアプリケーションＡＰ１－ＡＰｎのプログラムに従ってパーソナルコンピュータ３０全体を制御する。ＲＡＭには一時的な計算データや表示データ等の各種データが格納される。また、ＣＭＯＳメモリは図示しないバッテリでバックアップされ、数値制御装置２０の電源がオフされても記憶状態が保持される不揮発性メモリとして構成される。

データ通信インタフェース部３０２は、一般的な通信インタフェースであり、例えば、バッファ（図示しない）を有する。データ通信インタフェース部３０２は、数値制御装置２０内のデータにアクセスするためのデータ通信のコマンドを受信し、受信したコマンドデータを一時的にバッファ（図示しない）に格納する。

コマンド処理部３０３は、例えば、データ通信インタフェース部３０２のバッファ（図示しない）に格納されたコマンドを、配信スケジュールに基づいて取得し、取得したコマンドを通信処理部３０４を介して配信する。
ここで、配信スケジュールについて説明する。本実施形態では、配信スケジュールとして、例えば、データ通信インタフェース部３０２のバッファに格納されるコマンドに対して、各コマンドの「配信順序」及び「配信間隔」を定めたものを例示する。
このため、本実施形態では、配信スケジュールを決定するための構成として、コマンドテーブルＣＴを導入する。コマンドテーブルＣＴとは、数値制御装置２０内のデータにアクセスするためのデータ通信のコマンドに対して、「コマンド番号」、「コマンド受付番号」、「コマンド優先度Ｐａ」、「指令プロセスＩＤ」、「プロセス優先度Ｐｂ」、「総合優先度Ｐｓ」、「必要処理時間Ｔｃ」、「遅延係数Ｔｄ」、及び「配信スケジュール」等のデータを対応づけた、コマンド番号をインデックスとする配列テーブルである。

コマンドテーブルＣＴ内の「コマンド番号」は、アプリケーションＡＰ１－ＡＰｎが指令するコマンドそれぞれを識別するための識別番号であり、コマンドテーブルＣＴにおけるインデックスである。コマンド番号は、当該コマンドを発行するアプリケーションＡＰｉ（１≦ｉ≦ｎ）毎に識別されるものとする。
コマンドテーブルＣＴ内の「コマンド受付番号」は、データ通信インタフェース部３０２がアプリケーションＡＰ１－ＡＰｎの各々から受信し、バッファ（図示しない）に格納したコマンドの受付番号を示す。
コマンドテーブルＣＴ内の「コマンド優先度Ｐａ」は、当該コマンドの優先度を示す値であり、値が高いほど優先的に実行されるように予め設定されるものとする。なお、「コマンド優先度Ｐａ」は、値が小さいほど優先的に実行されるように予め設定するようにしてもよい。
コマンドテーブルＣＴ内の「指令プロセスＩＤ」は、プロセスＩＤであり、プロセスの起動時にパーソナルコンピュータ３０のＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）によって割り当てられ、ＯＳや他のプロセスがそのプロセスを指定して働きかけを行う際の識別子である。

コマンドテーブルＣＴ内の「プロセス優先度Ｐｂ」は、コマンドを指令したプロセスの優先度を示す係数である。「プロセス優先度Ｐｂ」は、例えば、初期値として「１」が設定され、後述する機械学習装置４０により選択される行動に含まれる少なくとも１つの係数パラメータである。
コマンドテーブルＣＴ内の「総合優先度Ｐｓ」は、「コマンド優先度Ｐａ」と「プロセス優先度Ｐｂ」とを合計した値であり、値が高い順序でコマンドを配信する。なお、例えば、２つ以上の異なるコマンドに対して「総合優先度Ｐｓ」が同じ場合、コマンド処理部３０３は、「コマンド優先度Ｐａ」が高い方のコマンドを優先的に配信するように予め設定してもよい。
なお、コマンド処理部３０３は、「プロセス優先度Ｐｂ」が高い方のコマンドを優先的に配信するように予め設定してもよい。

コマンドテーブルＣＴ内の「必要処理時間Ｔｃ」は、当該コマンドの処理に必要な時間を示し、次のコマンド配信はこの時間以上間隔を空けることが望ましい。
コマンドテーブルＣＴ内の「遅延係数Ｔｄ」は、「必要処理時間Ｔｃ」に基づいてコマンドの配信間隔を調整する時間係数である。具体的には、各コマンドの「必要処理時間Ｔｃ」に該コマンドの「遅延係数Ｔｄ」を加算した値を当該コマンドの「配信間隔Ｔｓ」とする。「遅延係数Ｔｄ」を調整することで、各コマンドの最適な配信間隔を調整することができる。

コマンドテーブルＣＴ内の「配信スケジュール」の「配信順序」は、上述したように、「総合優先度Ｐｓ」に基づいて、コマンド処理部３０３がデータ通信インタフェース部３０２のバッファ（図示しない）に格納されたコマンドを配信する順序を示す。
コマンドテーブルＣＴ内の「配信スケジュール」の「配信間隔Ｔｓ」は、「必要処理時間Ｔｃ」と「遅延係数Ｔｄ」とを合計した値であり、コマンド処理部３０３は「配信間隔Ｔｓ」の時間間隔でコマンドを配信する。
なお、機械学習装置４０により学習を開始するときのコマンドテーブルＣＴは、ユーザにより任意に設定してもよい。
図２は、コマンドテーブルＣＴの一例を示す図である。図２を参照すると、コマンドテーブルＣＴは、説明を簡単にするために、５つのコマンドに係るデータの配列が格納されている。
図２に示すように、これら５つのコマンドに対して、配信順序を総合優先度の値の大きな順に設定されている。また、総合優先度の値が同じ値となるコマンド番号１８とコマンド番号８については、前述したとおり、「コマンド優先度Ｐａ」の値が高いコマンド番号８を優先していることがわかる。
また、各コマンドの配信間隔は、前述したように、各コマンドの必要処理時間に各コマンドの遅延係数を加算した値が設定されている。
そして、後述するように、機械学習装置４０は、「プロセス優先度Ｐｂ」及び「遅延係数Ｔｄ」を行動として、様々な行動を、例えば、ある方策に基づいて選択することにより、探索しながら、強化学習を行うことで、最適な配信スケジュールを選択することが可能となる。

通信処理部３０４は、当業者にとって公知の通信部であり、数値制御装置２０との間でデータや加工プログラム等の送受信を行う。
具体的には、通信処理部３０４は、コマンド処理部３０３から受信したコマンドを順次に数値制御装置２０に送信し、送信したコマンドに対するデータを受信する。

記憶部３０５は、ＲＡＭやＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）等である。記憶部３０５は、システムプログラム及びｎ個のアプリケーションＡＰ１－ＡＰｎのプログラム、及びコマンドテーブルＣＴ等を記憶する。

＜機械学習装置４０＞
機械学習装置４０は、パーソナルコンピュータ３０がアプリケーションＡＰ１－ＡＰｎのプログラムを実行することで、データ通信インタフェース部３０２のバッファ（図示しない）に格納されたアプリケーションＡＰ１－ＡＰｎの未配信のコマンドに対する配信スケジュールを強化学習する装置である。

機械学習装置４０に含まれる各機能ブロックの説明に先立って、まず強化学習の基本的な仕組みについて説明する。エージェント（本実施形態における機械学習装置４０に相当）は、環境（本実施形態における数値制御装置２０及びパーソナルコンピュータ３０に相当）の状態を観測し、或る行動を選択し、選択した行動に基づいて環境が変化する。環境の変化に伴って、何らかの報酬が与えられ、与えられた報酬に基づいて、エージェントはより良い行動を選択できるよう、学習する。
教師あり学習が、完全な正解を示すのに対して、強化学習における報酬は、環境の一部の変化に基づく断片的な値であることが多い。このため、エージェントは、将来にわたっての得られる報酬の合計を最大にするように学習する。

このように、強化学習では、行動を学習することにより、環境に行動が与える相互作用を踏まえて適切な行動を学習、すなわち将来的に得られる報酬を最大にするための学習する方法を学ぶ。これは、本実施形態において、例えば、データ通信のコマンドが数値制御装置２０へ過度に配信され過負荷となることを防止しつつ、コマンドの配信遅延時間を短縮するための行動情報を選択するという、未来に影響をおよぼすような行動を獲得できることを表している。

ここで、強化学習としては、任意の学習方法を用いることができるが、以下の説明では、或る環境の状態ｓの下で、行動ａを選択する価値関数Ｑ（ｓ，ａ）を学習する方法であるＱ学習（Ｑ－ｌｅａｒｎｉｎｇ）を用いる場合を例にとって説明をする。
Ｑ学習では、或る状態ｓのとき、取り得る行動ａのなかから、価値関数Ｑ（ｓ，ａ）の最も高い行動ａを最適な行動として選択することを目的とする。

しかしながら、Ｑ学習を最初に開始する時点では、状態ｓと行動ａとの組合せについて、価値関数Ｑ（ｓ，ａ）の正しい値は全く分かっていない。そこで、エージェントは、或る状態ｓの下で様々な行動ａを選択し、その時の行動ａに対して、与えられる報酬に基づいて、より良い行動の選択をすることにより、正しい価値関数Ｑ（ｓ，ａ）を学習していく。

また、将来にわたって得られる報酬の合計を最大化したいので、最終的にＱ（ｓ，ａ）＝Ｅ［Σ（γ^ｔ）ｒ_ｔ］となるようにすることを目指す。ここでＥ［］は期待値を表し、ｔは時刻、γは後述する割引率と呼ばれるパラメータ、ｒ_ｔは時刻ｔにおける報酬、Σは時刻ｔによる合計である。この式における期待値は、最適な行動に従って状態変化した場合の期待値である。しかしＱ学習の過程において最適な行動が何であるのかは不明であるので、様々な行動を行うことにより、探索しながら強化学習をする。このような価値関数Ｑ（ｓ，ａ）の更新式は、例えば、次の数１式により表すことができる。

上記の数１式において、ｓ_ｔは、時刻ｔにおける環境の状態を表し、ａ_ｔは、時刻ｔにおける行動を表す。行動ａ_ｔにより、状態はｓ_ｔ＋１に変化する。ｒ_ｔ＋１は、その状態の変化により得られる報酬を表している。また、ｍａｘの付いた項は、状態ｓ_ｔ＋１の下で、その時に分かっている最もＱ値の高い行動ａを選択した場合のＱ値にγを乗じたものになる。ここで、γは、０＜γ≦１のパラメータで、割引率と呼ばれる。また、αは、学習係数で、０＜α≦１の範囲とする。

上述した数１式は、試行ａ_ｔの結果、返ってきた報酬ｒ_ｔ＋１を元に、状態ｓ_ｔにおける行動ａ_ｔの価値関数Ｑ（ｓ_ｔ，ａ_ｔ）を更新する方法を表している。
この更新式は、状態ｓ_ｔにおける行動ａ_ｔの価値関数Ｑ（ｓ_ｔ，ａ_ｔ）よりも、行動ａ_ｔによる次の状態ｓ_ｔ＋１における最良の行動の価値ｍａｘ_ａＱ（ｓ_ｔ＋１，ａ）の方が大きければ、Ｑ（ｓ_ｔ，ａ_ｔ）を大きくし、逆に小さければ、Ｑ（ｓ_ｔ，ａ_ｔ）を小さくすることを示している。つまり、或る状態における或る行動の価値を、それによる次の状態における最良の行動の価値に近づける。ただし、その差は、割引率γと報酬ｒ_ｔ＋１のあり方により変わってくるが、基本的には、ある状態における最良の行動の価値が、それに至る一つ前の状態における行動の価値に伝播していく仕組みになっている。

ここで、Ｑ学習では、すべての状態行動ペア（ｓ，ａ）についてのＱ（ｓ，ａ）のテーブルを作成して、学習を行う方法がある。しかし、すべての状態行動ペアのＱ（ｓ，ａ）の値を求めるには状態数が多すぎて、Ｑ学習が収束するのに多くの時間を要してしまう場合がある。

そこで、公知のＤＱＮ（ＤｅｅｐＱ－Ｎｅｔｗｏｒｋ）と呼ばれる技術を利用するようにしてもよい。具体的には、価値関数Ｑを適当なニューラルネットワークを用いて構成し、ニューラルネットワークのパラメータを調整することにより、価値関数Ｑを適当なニューラルネットワークで近似することにより価値関数Ｑ（ｓ，ａ）の値を算出するようにしてもよい。ＤＱＮを利用することにより、Ｑ学習が収束するのに要する時間を短くすることが可能となる。なお、ＤＱＮについては、例えば、以下の非特許文献に詳細な記載がある。

＜非特許文献＞
「Human-level control through deep reinforcement learning」、Volodymyr Mnih1著［ｏｎｌｉｎｅ］、［平成２９年１月１７日検索］、インターネット〈ＵＲＬ：http://files.davidqiu.com/research/nature14236.pdf〉

以上説明をしたＱ学習を機械学習装置４０が行う。具体的には、機械学習装置４０は、データ通信インタフェース部３０２のバッファ（図示しない）に格納された未配信のコマンドに対するコマンドテーブルＣＴと、データ通信インタフェース部３０２が各コマンドを受信した受付時刻、及びコマンド処理部３０３が通信処理部３０４を介して各コマンドを配信した配信時刻と、を状態ｓとし、状態ｓに係るコマンドテーブルＣＴに含まれる配信スケジュールを調整するパラメータの設定、変更を行動ａとして、選択する価値関数Ｑを学習する。ここでは、パラメータとして、「プロセス優先度Ｐｂ」及び「遅延係数Ｔｄ」を例示する。

機械学習装置４０は、アプリケーションＡＰ１－ＡＰｎの各々から指令されるコマンドを監視し、コマンドテーブルＣＴと、コマンドテーブルＣＴの「配信スケジュール」に従って配信される各コマンドの受付時刻及び配信時刻と、を含む状態情報（状態データ）ｓを観測して、行動ａを決定する。機械学習装置４０は、行動ａを決定するたびに報酬が返ってくる。機械学習装置４０は、例えば、将来にわたっての報酬の合計が最大になるように最適な行動ａを試行錯誤的に探索する。そうすることで、機械学習装置４０は、パーソナルコンピュータ３０がアプリケーションＡＰ１－ＡＰｎを実行することで取得される、コマンドテーブルＣＴと、コマンドテーブルＣＴの「配信スケジュール」とに従って配信される各コマンドの受付時刻及び配信時刻と、を含む状態ｓに対して、最適な行動ａ（すなわち「プロセス優先度Ｐｂ」及び「遅延係数Ｔｄ」）を選択することが可能となる。

図３は、機械学習装置４０の機能的構成例を示す機能ブロック図である。
上述した強化学習を行うために、図３に示すように、機械学習装置４０は、状態データ取得部４０１、判定データ取得部４０２、学習部４０３、行動情報出力部４０４、価値関数記憶部４０５、最適化行動情報出力部４０６、及び制御部４０７を備える。学習部４０３は報酬計算部４３１、価値関数更新部４３２、及び行動情報生成部４３３を備える。制御部４０７は、状態データ取得部４０１、判定データ取得部４０２、学習部４０３、行動情報出力部４０４、及び最適化行動情報出力部４０６の動作を制御する。

状態データ取得部４０１は、パーソナルコンピュータ３０から数値制御装置２０へのデータ通信の状態として、コマンドテーブルＣＴと、コマンドテーブルＣＴの「配信スケジュール」に従って配信される、後述するように予め設定された特定時間内に受け付けた全ての各コマンドの受付時刻及び配信時刻と、を含む状態データｓを、パーソナルコンピュータ３０から取得する。この状態データｓは、Ｑ学習における、環境状態ｓに相当する。
状態データ取得部４０１は、取得した状態データｓを判定データ取得部４０２及び学習部４０３に出力する。
なお、最初にＱ学習を開始する時点でのコマンドテーブルＣＴは、上述したように、ユーザが設定してもよい。
状態データ取得部４０１は、取得した状態データｓを機械学習装置４０に含まれる図示しない記憶部に記憶してもよい。この場合、後述する判定データ取得部４０２及び学習部４０３は、状態データｓを機械学習装置４０の記憶部（図示しない）から読み込んでもよい。

判定データ取得部４０２は、状態データ取得部４０１から受信したコマンドテーブルＣＴと、予め設定された特定時間内に受け付けた全ての各コマンドの受付時刻及び配信時刻とを、定期的に解析して判定データを取得する。
具体的には、判定データ取得部４０２は、特定時間内に受け付けた全てのコマンドについて、予め設定した所定の時間（例えば、１分間）毎にデータ通信インタフェース部３０２が受け付けた全てのコマンドの平均配信間隔、各コマンドの配信遅延時間、コマンド優先度等を、判定データとして取得する。判定データ取得部４０２は、取得した判定データを学習部４０３に出力する。
なお、コマンドの平均配信間隔とは、予め設定した所定の時間（例えば、１分間）に受け付けたコマンドの配信間隔の平均値である。また、各コマンドの配信遅延時間とは、予め設定した所定の時間（例えば、１分間）に受け付けた各コマンドの受付時刻と配信時刻との差である。

学習部４０３は、或る状態データ（環境状態）ｓの下で、或る行動ａを選択する場合の価値関数Ｑ（ｓ，ａ）を学習する部分である。具体的には、学習部４０３は、報酬計算部４３１、価値関数更新部４３２、及び行動情報生成部４３３を有する。
なお、学習部４０３は、学習を継続するかどうかを判断する。学習を継続するかどうかは、例えば、機械学習を始めてからの試行回数が最大試行回数に達したかどうか、又は、機械学習を始めてからの経過時間が所定時間を超えた(又は以上)かどうかに基づいて判断することができる。

報酬計算部４３１は、或る状態ｓの下で、コマンドテーブルＣＴの「プロセス優先度Ｐｂ」及び「遅延係数Ｔｄ」の調整である行動ａを選択した場合の報酬を算出する部分である。
ここで、行動ａに対する報酬の計算例を説明する。
具体的には、先ず、報酬計算部４３１は、例えば、予め設定された特定時間内に受け付けたコマンドすべてについて、前述したように、判定データ取得部４０２により取得された平均配信間隔Ｔａ、配信遅延時間Ｔｂ、及びコマンド優先度Ｐａに基づいてコマンド毎の評価値Ｖを算出する。なお、予め設定された特定時間としては、パーソナルコンピュータ３０上で実行されるアプリケーションＡＰ１－ＡＰｎが同時並行的に実行される時間を設定することが好ましい。また、特定時間は、前述の所定の時間（例えば、１分間）と同じでもよく、当該所定の時間（例えば、１分間）を含んでもよい。
評価値の算出例として以下の数式（数２式）を例示する。
［数２］
Ｖ＝平均配信間隔Ｔａ×ａ_１－配信遅延時間Ｔｂ×コマンド優先度Ｐａ×ａ_２
ここで、ａ_１及びａ_２は係数であり、例えば、「２０」及び「１」にそれぞれ設定される。なお、ａ_１及びａ_２の値はこれに限定されず、要求される機械学習の精度等に応じて決定されてもよい。
そして、報酬計算部４３１は、特定時間内に受け付けた全てのコマンドに対して評価値Ｖを算出し、算出された全ての評価値の平均値を行動ａの報酬ｒとする。こうすることで、行動ａは、判定対象となったコマンドの配信遅延時間が小さいほど、大きな報酬を得ることができる。また、判定対象となったコマンドの平均配信間隔が大きいほど、大きな報酬を得ることができる。

図４は、報酬計算部４３１により計算されたコマンド（コマンド番号）毎の評価値Ｖの一例を示す図である。なお、数２式の平均配信間隔Ｔａは、各コマンドの配信間隔の平均値（平均配信間隔）であり、図４の場合「２１」である。そして、図４に示すとおり、各コマンドの評価値を算出し、算出された全ての評価値の平均値（＝１７６）を報酬ｒとする。

価値関数更新部４３２は、状態ｓと、行動ａと、行動ａを状態ｓに適用した場合の状態ｓ´と、上記のようにして算出された報酬の値ｒと、に基づいてＱ学習を行うことにより、価値関数記憶部４０５が記憶する価値関数Ｑを更新する。
価値関数Ｑの更新は、オンライン学習で行ってもよく、バッチ学習で行ってもよく、ミニバッチ学習で行ってもよい。
オンライン学習とは、或る行動ａを現在の状態ｓに適用することにより、状態ｓが新たな状態ｓ´に遷移する都度、即座に価値関数Ｑの更新を行うという学習方法である。また、バッチ学習とは、或る行動ａを現在の状態ｓに適用することにより、状態ｓが新たな状態ｓ´に遷移することを繰り返すことにより、学習用のデータを収集し、収集した全ての学習用データを用いて、価値関数Ｑの更新を行うという学習方法である。さらに、ミニバッチ学習とは、オンライン学習と、バッチ学習の中間的な、ある程度学習用データが溜まるたびに価値関数Ｑの更新を行うという学習方法である。

行動情報生成部４３３は、現在の状態ｓに対して、Ｑ学習の過程における行動ａを選択する。行動情報生成部４３３は、Ｑ学習の過程において、コマンドテーブルＣＴの「プロセス優先度Ｐｂ」及び「遅延係数Ｔｄ」を修正する動作（Ｑ学習における行動ａに相当）を行わせるために、行動情報ａを生成し、生成した行動情報ａを行動情報出力部４０４に対して出力する。

より具体的には、行動情報生成部４３３は、例えば、状態ｓに含まれる、コマンドテーブルＣＴの「プロセス優先度Ｐｂ」、及び「遅延係数Ｔｄ」に対して、行動ａに含まれる「プロセス優先度Ｐｂ」及び「遅延係数Ｔｄ」をインクレメンタルに増加又は減少させるようにしてもよい。

行動情報生成部４３３は、行動ａによりコマンドテーブルＣＴの「プロセス優先度Ｐｂ」及び「遅延係数Ｔｄ」を調整して、状態ｓ´に遷移した場合に、コマンドテーブルＣＴの「配信スケジュール」の状態（「配信順序」及び「配信間隔Ｔｓ」が適正かどうか）によって次の行動ａ´のコマンドテーブルＣＴの「プロセス優先度Ｐｂ」及び「遅延係数Ｔｄ」を選択してもよい。
例えば、「プロセス優先度Ｐｂ」及び／又は「遅延係数Ｔｄ」の増加により報酬ｒが増加し、且つ「配信スケジュール」の「配信順序」及び「配信間隔Ｔｓ」が適正である場合、次の行動ａ´としては、例えば、「プロセス優先度Ｐｂ」及び／又は「遅延係数Ｔｄ」をインクレメンタルに増加させる等、優先コマンドの配信遅延時間の短縮と配信間隔の最適化となるような行動ａ´を選択する方策を取るようにしてもよい。
あるいは、「プロセス優先度Ｐｂ」及び／又は「遅延係数Ｔｄ」の増加により報酬ｒが減少する場合、次の行動ａ´としては、例えば、「プロセス優先度Ｐｂ」及び／又は「遅延係数Ｔｄ」を１つ前に戻す等、優先コマンドの配信遅延時間の短縮と配信間隔の最適化となるような行動ａ´を選択する方策を取るようにしてもよい。
また、「プロセス優先度Ｐｂ」及び「遅延係数Ｔｄ」のそれぞれは、例えば、増加して報酬ｒが増加する場合＋１増加され、報酬ｒが減少する場合１つ前に戻されてもよい。

また、行動情報生成部４３３は、現在の推定される行動ａの価値の中で、最も価値関数Ｑ（ｓ，ａ）の高い行動ａ´を選択するグリーディ法や、ある小さな確率εでランダムに行動ａ´選択し、それ以外では最も価値関数Ｑ（ｓ，ａ）の高い行動ａ´を選択するεグリーディ法といった公知の方法により、行動ａ´を選択する方策を取るようにしてもよい。

行動情報出力部４０４は、学習部４０３から出力される行動情報ａをパーソナルコンピュータ３０に対して出力する部分である。行動情報出力部４０４は、例えば行動情報としての、更新された「プロセス優先度Ｐｂ」及び「遅延係数Ｔｄ」の値を、パーソナルコンピュータ３０に出力するようにしてもよい。これにより、パーソナルコンピュータ３０は、受信した更新された「プロセス優先度Ｐｂ」及び「遅延係数Ｔｄ」の値に基づいて、コマンドテーブルＣＴを更新する。そして、コマンド処理部３０３は、更新されたコマンドテーブルＣＴの「配信スケジュール」に基づいて、データ通信のコマンドを通信処理部３０４へ配信する。
なお、行動情報出力部４０４は、行動情報としての、更新された「プロセス優先度Ｐｂ」及び「遅延係数Ｔｄ」の値に基づいて更新したコマンドテーブルＣＴを、パーソナルコンピュータ３０に出力してもよい。

価値関数記憶部４０５は、価値関数Ｑを記憶する記憶装置である。価値関数Ｑは、例えば状態ｓ、行動ａ毎にテーブル（以下、「行動価値テーブル」ともいう）として格納してもよい。価値関数記憶部４０５に記憶された価値関数Ｑは、価値関数更新部４３２により更新される。

最適化行動情報出力部４０６は、価値関数更新部４３２がＱ学習を行うことにより更新した価値関数Ｑに基づいて、価値関数Ｑ（ｓ，ａ）が最大となる動作をパーソナルコンピュータ３０に行わせるための行動情報ａ（以下、「最適化行動情報」と呼ぶ）を生成する。
より具体的には、最適化行動情報出力部４０６は、価値関数記憶部４０５が記憶している価値関数Ｑを取得する。この価値関数Ｑは、上述したように価値関数更新部４３２がＱ学習を行うことにより更新したものである。そして、最適化行動情報出力部４０６は、価値関数Ｑに基づいて、行動情報を生成し、生成した行動情報をパーソナルコンピュータ３０に対して出力する。この最適化行動情報には、行動情報出力部４０４がＱ学習の過程において出力する行動情報と同様に、更新された「プロセス優先度Ｐｂ」及び「遅延係数Ｔｄ」の値を示す情報が含まれる。

図５は、更新前及び更新後のコマンドのタイムチャートの一例を示す図である。図５の上段は、図１０の場合と同様に、パーソナルコンピュータ３０上で動作する４つのアプリケーションＡＰ１－ＡＰ４が出力する更新前のコマンドのタイムチャートの一例を示す。図５の下段は、４つのアプリケーションＡＰ１－ＡＰ４が出力する更新後のコマンドのタイムチャートの一例を示す。なお、図１０の場合と同様に、円形、四角形、ひし形、三角形の順に緊急度が高いコマンドを示す。また、パーソナルコンピュータ３０が４つ以外のアプリケーションＡＰ１－ＡＰｎを実行する場合についても、図５の場合と同様であり、説明を省略する。
図５の下段に示すように、コマンド処理部３０３は、総合優先度Ｐｓに従ってコマンドの配信順序が調整された更新後のコマンドテーブルＣＴの「配信スケジュール」に基づいて、未送信のコマンドを配信する。これにより、コマンド処理部３０３は、図５の上段の時間Ｔ１及びＴ２に対応する時間Ｔ１´及びＴ２´と、時間Ｔ３´とにおいて、過度のアクセスにならないようにコマンドの配信間隔を空けて平均化することができる。

このように、パーソナルコンピュータ３０は、コマンドテーブルＣＴを更新することにより、データ通信のコマンドが数値制御装置２０へ過度に配信され過負荷となることを防止するとともに、コマンドの配信遅延時間を短縮することができる。

以上、機械学習装置４０に含まれる機能ブロックについて説明した。
これらの機能ブロックを実現するために、機械学習装置４０は、ＣＰＵ等の演算処理装置を備える。また、機械学習装置４０は、アプリケーションソフトウェアやＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）等の各種の制御用プログラムを格納したＨＤＤ等の補助記憶装置や、演算処理装置がプログラムを実行する上で一時的に必要とされるデータを格納するためのＲＡＭといった主記憶装置も備える。

そして、機械学習装置４０において、演算処理装置が補助記憶装置からアプリケーションソフトウェアやＯＳを読み込み、読み込んだアプリケーションソフトウェアやＯＳを主記憶装置に展開させながら、これらのアプリケーションソフトウェアやＯＳに基づいた演算処理を行なう。また、この演算結果に基づいて、機械学習装置４０が備える各種のハードウェアを制御する。これにより、本実施形態の機能ブロックは実現される。つまり、本実施形態は、ハードウェアとソフトウェアが協働することにより実現することができる。

機械学習装置４０については機械学習に伴う演算量が多いため、例えば、パーソナルコンピュータにＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔｓ）を搭載し、ＧＰＧＰＵ（Ｇｅｎｅｒａｌ－ＰｕｒｐｏｓｅｃｏｍｐｕｔｉｎｇｏｎＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔｓ）と呼ばれる技術により、ＧＰＵを機械学習に伴う演算処理に利用するようにすると高速処理できるようになるのでよい。さらには、より高速な処理を行うために、このようなＧＰＵを搭載したコンピュータを複数台用いてコンピュータ・クラスターを構築し、このコンピュータ・クラスターに含まれる複数のコンピュータにて並列処理を行うようにしてもよい。

次に、図６のフローチャートを参照して本実施形態におけるＱ学習時の機械学習装置４０の動作について説明をする。
図６は、一実施形態におけるＱ学習時の機械学習装置４０の動作を示すフローチャートである。

ステップＳ１１において、制御部４０７は、試行回数を「１」として状態データ取得部４０１に状態データの取得を指示する。

ステップＳ１２において、状態データ取得部４０１は、パーソナルコンピュータ３０から最初の状態データを取得する。取得した状態データは、行動情報生成部４３３に対して出力される。上述したように、この状態データ（状態情報）は、Ｑ学習における状態ｓに相当する情報であり、ステップＳ１２時点での、コマンドテーブルＣＴと、コマンドテーブルＣＴの「配信スケジュール」に従って配信される各コマンドの受付時刻及び配信時刻と、が含まれる。なお、最初にＱ学習を開始する時点でのコマンドテーブルＣＴは、予めユーザが生成するようにする。

ステップＳ１３において、行動情報生成部４３３は、新たな行動情報ａを生成し、生成した新たな行動情報ａを、行動情報出力部４０４を介してパーソナルコンピュータ３０に対して出力する。行動情報を受信したパーソナルコンピュータ３０は、受信した行動情報ａに基づいて現在の状態ｓに係る「プロセス優先度Ｐｂ」及び「遅延係数Ｔｄ」を更新して状態ｓ´とする。パーソナルコンピュータ３０は、更新された行動ａに基づいて状態ｓを状態ｓ´に更新する。具体的には、パーソナルコンピュータ３０は、コマンドテーブルＣＴを更新する。コマンド処理部３０３は、更新されたコマンドテーブルＣＴの「配信スケジュール」に基づいて、データ通信インタフェース部３０２のバッファ（図示しない）に格納された未送信のコマンドを配信する。

ステップＳ１４において、状態データ取得部４０１は、パーソナルコンピュータ３０から取得した新たな状態ｓ´に相当する状態データを取得する。ここで、新たな状態データは、状態ｓ´に係るコマンドテーブルＣＴと、コマンドテーブルＣＴの「配信スケジュール」に従って配信される各コマンドの受付時刻及び配信時刻と、を含む。状態データ取得部４０１は、判定データ取得部４０２及び学習部４０３に対して取得した状態データを出力する。

ステップＳ１５において、判定データ取得部４０２は、状態データ取得部４０１が受信した新たな状態データに含まれるコマンドテーブルＣＴと、予め設定された特定時間内に受け付けたコマンドすべてについて各コマンドの受付時刻及び配信時刻とから、所定の時間（例えば、１分間）毎に判定データを取得する。判定データ取得部４０２は、取得した判定データを学習部４０３に出力する。この判定データは、例えば１分間等の所定の時間毎にデータ通信インタフェース部３０２が受け付けたコマンドの平均配信間隔Ｔａ、各コマンドの配信遅延時間Ｔｂ、コマンド優先度Ｐａ等を含む。

ステップＳ１６において、報酬計算部４３１は、取得された判定データ、すなわちコマンドの平均配信間隔Ｔａ、各コマンドの配信遅延時間Ｔｂ、及びコマンド優先度Ｐａと、数２式とに基づいて予め設定された特定時間内に受け付けたコマンドすべてについて各コマンドの評価値Ｖを計算する。報酬計算部４３１は、各コマンドの評価値Ｖの平均値を報酬ｒとする。

ステップＳ１７において、価値関数更新部４３２は、計算された報酬ｒに基づいて、価値関数記憶部４０５が記憶している価値関数Ｑを更新する。

ステップＳ１８において、制御部３０６は、機械学習を始めてからの試行回数が最大試行回数に到達したかどうかを判断する。最大試行回数は予め設定しておく。最大試行回数に到達していなければ、ステップＳ１９で試行回数をカウントアップして、ステップＳ１３に戻る。ステップＳ１３からステップＳ１９までの処理は最大試行回数に到達するまで繰り返し行われる。

なお、図６のフローは、試行回数が最大試行回数に到達したときに処理を終了させているが、ステップＳ１３からステップＳ１９の処理に係る時間を、機械学習を始めてから累積した時間が、予め設定された最大経過時間を超えた（又は以上になった）ことを条件として処理を終了するようにしてもよい。
また、ステップＳ１７はオンライン更新を例示しているが、オンライン更新に替えてバッチ更新又はミニバッチ更新に置き換えてもよい。

以上、図６を参照して説明した動作により、本実施形態では、データ通信のコマンドが数値制御装置２０へ過度に配信され過負荷となることを防止しつつ、コマンドの配信遅延時間を短縮するための行動情報を生成するための価値関数Ｑを生成することができる。

次に、図７のフローチャートを参照して、最適化行動情報出力部４０６による最適化行動情報の生成時の動作について説明をする。
ステップＳ２１において、最適化行動情報出力部４０６は、価値関数記憶部４０５に記憶している価値関数Ｑを取得する。価値関数Ｑは、上述したように価値関数更新部４３２がＱ学習を行うことにより更新したものである。

ステップＳ２２において、最適化行動情報出力部４０６は、この価値関数Ｑに基づいて、最適化行動情報を生成し、生成した最適化行動情報をパーソナルコンピュータ３０に対して出力する。

以上のように、パーソナルコンピュータ３０は、コマンドテーブルＣＴを更新することにより、データ通信のコマンドが制御装置へ過度に配信され過負荷となることを防止するとともに、コマンドの配信遅延時間を短縮することができる。

以上、一実施形態について説明したが、パーソナルコンピュータ３０、及び機械学習装置４０は、上述の実施形態に限定されるものではなく、目的を達成できる範囲での変形、改良等を含む。

＜変形例１＞
上述の実施形態では、機械学習装置４０は、パーソナルコンピュータ３０と異なる装置として例示したが、機械学習装置４０の一部又は全部の機能を、パーソナルコンピュータ３０が備えるようにしてもよい。
あるいは、機械学習装置４０の状態データ取得部４０１、判定データ取得部４０２、学習部４０３、行動情報出力部４０４、価値関数記憶部４０５、最適化行動情報出力部４０６、及び制御部４０７の一部又は全部を、例えば、サーバが備えるようにしてもよい。また、クラウド上で仮想サーバ機能等を利用して、機械学習装置４０の各機能を実現してもよい。
さらに、機械学習装置４０は、機械学習装置４０の各機能を適宜複数のサーバに分散される、分散処理システムとしてもよい。

＜変形例２＞
また例えば、上述の実施形態では、制御システム１において、１つのパーソナルコンピュータ３０と、１つの機械学習装置４０と、が通信可能に接続されたが、これに限定されない。例えば、図８に示すように、制御システム１は、ｍ個のパーソナルコンピュータ３０Ａ（１）－３０Ａ（ｍ）と、ｍ個の機械学習装置４０Ａ（１）－４０Ａ（ｍ）とを有してもよい（ｍは２以上の整数）。この場合、機械学習装置４０Ａ（ｊ）は、ネットワーク５０を介してパーソナルコンピュータ３０Ａ（ｊ）と１対１に通信可能に接続され、パーソナルコンピュータ３０Ａ（ｊ）に対して機械学習を実施するようにしてもよい（ｊは１からｍの整数）。
なお、機械学習装置４０Ａ（ｊ）の価値関数記憶部４０５に記憶された価値関数Ｑは、他の機械学習装置４０Ａ（ｋ）との間で共有されるようにしてもよい（ｋは１からｍの整数であり、ｋ≠ｊ）。価値関数Ｑを機械学習装置４０Ａ（１）－４０Ａ（ｍ）で共有するようにすれば、各機械学習装置４０Ａにて分散して強化学習を行うことが可能となるので、強化学習の効率を向上させることが可能となる。
なお、パーソナルコンピュータ３０Ａ（１）－３０Ａ（ｍ）の各々は、数値制御装置２０Ａ（１）－２０Ａ（ｍ）の各々と接続され、数値制御装置２０Ａ（１）－２０Ａ（ｍ）の各々は、工作機械１０Ａ（１）－１０Ａ（ｍ）の各々と接続される。
また、工作機械１０Ａ（１）－１０Ａ（ｍ）の各々は、図１の工作機械１０に対応する。数値制御装置２０Ａ（１）－２０Ａ（ｍ）の各々は、図１の数値制御装置２０に対応する。パーソナルコンピュータ３０Ａ（１）－３０Ａ（ｍ）の各々は、図１のパーソナルコンピュータ３０に対応する。機械学習装置４０Ａ（１）－４０Ａ（ｍ）の各々は、図１の機械学習装置４０に対応する。

また、図９に示すように、サーバ６０は、機械学習装置４０として動作し、ネットワーク５０を介してｍ個のパーソナルコンピュータ３０Ａ（１）－３０Ａ（ｍ）と通信可能に接続され、パーソナルコンピュータ３０Ａ（１）－３０Ａ（ｍ）の各々に対して機械学習を実施するようにしてもよい。

＜変形例３＞
また例えば、上述の実施形態では、配信スケジュールを調整するパラメータとして、プロセス優先度Ｐｂ及び遅延係数Ｔｄを適用したが、プロセス優先度Ｐｂ及び遅延係数Ｔｄ以外のパラメータを用いるようにしてもよい。

なお、一実施形態における、パーソナルコンピュータ３０、及び機械学習装置４０に含まれる各機能は、ハードウェア、ソフトウェア又はこれらの組み合わせによりそれぞれ実現することができる。ここで、ソフトウェアによって実現されるとは、コンピュータがプログラムを読み込んで実行することにより実現されることを意味する。

パーソナルコンピュータ３０、及び機械学習装置４０に含まれる各構成部は、電子回路等を含むハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、コンピュータにインストールされる。また、これらのプログラムは、リムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。また、ハードウェアで構成する場合、上記の装置に含まれる各構成部の機能の一部又は全部を、例えば、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ゲートアレイ、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、ＣＰＬＤ（ＣｏｍｐｌｅｘＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）等の集積回路（ＩＣ）で構成することができる。

プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（Ｎｏｎ－ｔｒａｎｓｉｔｏｒｙｃｏｍｐｕｔｅｒｒｅａｄａｂｌｅｍｅｄｉｕｍ）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（Ｔａｎｇｉｂｌｅｓｔｏｒａｇｅｍｅｄｉｕｍ）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えば、フレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば、光磁気ディスク）、ＣＤ－ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（ＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰＲＯＭ）、フラッシュＲＯＭ、ＲＡＭ）を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（Ｔｒａｎｓｉｔｏｒｙｃｏｍｐｕｔｅｒｒｅａｄａｂｌｅｍｅｄｉｕｍ）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は、無線通信路を介して、プログラムをコンピュータに供給できる。

なお、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

以上を換言すると、本開示の機械学習装置、コンピュータ装置、制御システム、及び機械学習方法は、次のような構成を有する各種各様の実施形態を取ることができる。

（１）本開示の機械学習装置４０は、通信可能に接続された数値制御装置２０にアクセスするためのコマンドを発行するパーソナルコンピュータ３０に対して機械学習を行う機械学習装置であって、パーソナルコンピュータ３０上で動作する１つ以上のアプリケーションＡＰ１－ＡＰｎの各々が指令する数値制御装置２０内のデータにアクセスするためのコマンドを監視し、少なくともコマンドの配信スケジュールと、配信スケジュールに基づいて配信されるコマンドの受付時刻及び配信時刻とを含む状態データを取得する状態データ取得部４０１と、状態データに含まれる配信スケジュールの修正情報を含む行動情報ａをパーソナルコンピュータ３０に出力する行動情報出力部４０４と、コマンドが数値制御装置２０へ配信されるまでのコマンド毎の配信遅延時間Ｔｂと、配信される全てのコマンドの平均配信間隔Ｔａと、に基づいて、行動情報ａに対する報酬ｒを計算する報酬計算部４３１と、報酬計算部４３１により計算される報酬ｒに基づいて、状態データ及び行動情報ａに係る価値関数Ｑを更新する価値関数更新部４３２と、を備える。
この機械学習装置４０によれば、データ通信のコマンドが制御装置へ過度に配信され過負荷となることを防止するとともに、コマンドの配信遅延時間を短縮することができる。

（２）（１）に記載の機械学習装置４０において、配信スケジュールの修正情報ａは、コマンドを指令したプロセスの優先度を示すプロセス優先度Ｐｂと、コマンドの配信を遅延させる遅延係数Ｔｄと、を含んでもよい。
そうすることで、機械学習装置４０は、配信スケジュールを最適に調整することができる。

（３）（１）又は（２）に記載の機械学習装置４０において、報酬計算部４３１は、コマンド毎の配信遅延時間Ｔｂと平均配信間隔Ｔａに基づいてコマンド毎の評価値Ｖを計算し、計算したコマンド毎の評価値の平均値を報酬ｒとしてもよい。
そうすることで、機械学習装置４０は、報酬を正確に計算することができる。

（４）（１）から（３）のいずれかに記載の機械学習装置４０において、価値関数更新部４３２により更新された価値関数Ｑに基づいて、価値関数Ｑの値が最大となる行動情報ａを出力する最適化行動情報出力部４０６をさらに備えてもよい。
そうすることで、機械学習装置４０は、より最適な配信スケジュールを取得することができる。

（５）（１）から（４）のいずれかに記載の機械学習装置４０において、数値制御装置２０は、産業機械の制御装置であってもよい。
そうすることで、機械学習装置４０は、工作機械やロボット等の制御装置に対して適用することができる。

（６）（１）から（５）のいずれかに記載の機械学習装置４０において、機械学習の最大試行回数を設けて、機械学習を行ってもよい。
そうすることで、機械学習装置４０は、機械学習が長時間に亘って行われることを回避することができる。

（７）本開示のパーソナルコンピュータ３０は、（１）から（６）のいずれかに記載の機械学習装置４０を備え、機械学習装置４０によって配信スケジュールが機械学習される。
このパーソナルコンピュータ３０によれば、（１）から（６）と同様の効果を奏することができる。

（８）本開示の制御システム１は、（１）から（６）のいずれかに記載の機械学習装置４０と、機械学習装置４０によって配信スケジュールが機械学習されるコンピュータ装置と、を備える。
この制御システム１によれば、（１）から（６）と同様の効果を奏することができる。

（９）本開示の機械学習方法は、通信可能に接続された数値制御装置２０にアクセスするためのコマンドを発行するパーソナルコンピュータ３０に対して機械学習を行う機械学習方法であって、パーソナルコンピュータ３０上で動作する１つ以上のアプリケーションＡＰ１－ＡＰｎの各々が指令する数値制御装置２０内のデータにアクセスするためのコマンドを監視し、少なくともコマンドの配信スケジュールと、配信スケジュールに基づいて配信されるコマンドの受付時刻及び配信時刻とを含む状態データを取得し、状態データに含まれる配信スケジュールの修正情報を含む行動情報をパーソナルコンピュータ３０に出力し、コマンドが数値制御装置２０へ配信されるまでのコマンド毎の配信遅延時間Ｔｂと、配信される全てのコマンドの平均配信間隔Ｔａと、に基づいて、行動情報に対する報酬ｒを計算し、計算される報酬ｒに基づいて、状態データ及び行動情報に係る価値関数Ｑを更新する。
この機械学習方法によれば、（１）と同様の効果を奏することができる。

１制御システム
１０工作機械
２０数値制御装置
３０パーソナルコンピュータ
３０１中央処理部
３０２データ通信インタフェース部
３０３コマンド処理部
３０４通信処理部
３０５記憶部
４０機械学習装置
４０１状態データ取得部
４０２判定データ取得部
４０３学習部
４０４行動情報出力部
４０５価値関数記憶部
４０６最適化行動情報出力部

Claims

通信可能に接続された制御装置にアクセスするためのコマンドを発行するコンピュータ装置に対して機械学習を行う機械学習装置であって、
前記コンピュータ装置上で動作する１つ以上のアプリケーションの各々が指令する前記制御装置内のデータにアクセスするためのコマンドを監視し、少なくとも前記コマンドの配信スケジュールと、前記配信スケジュールに基づいて配信される前記コマンドの受付時刻及び配信時刻とを含む状態データを取得する状態データ取得部と、
前記状態データに含まれる前記配信スケジュールの修正情報を含む行動情報を前記コンピュータ装置に出力する行動情報出力部と、
前記コマンドが前記制御装置へ配信されるまでの前記コマンド毎の遅延時間と、配信される全ての前記コマンドの平均配信間隔と、に基づいて、前記行動情報に対する報酬を計算する報酬計算部と、
前記報酬計算部により計算される報酬に基づいて、前記状態データ及び前記行動情報に係る価値関数を更新する価値関数更新部と、
を備える機械学習装置。
前記配信スケジュールの修正情報は、前記コマンドを指令したプロセスの優先度を示すプロセス優先度と、前記コマンドの配信を遅延させる遅延係数と、を含む、請求項１に記載の機械学習装置。
前記報酬計算部は、前記コマンド毎の前記遅延時間と、前記平均配信間隔と、に基づいて前記コマンド毎の評価値を計算し、計算した前記コマンド毎の評価値の平均値を前記報酬とする、請求項１又は請求項２に記載の機械学習装置。
前記価値関数更新部により更新された前記価値関数に基づいて、前記価値関数の値が最大となる行動情報を出力する最適化行動情報出力部をさらに備える、請求項１から請求項３のいずれか１項に記載の機械学習装置。
前記制御装置は、産業機械の制御装置である、請求項１から請求項４のいずれか１項に記載の機械学習装置。
前記機械学習の最大試行回数を設けて、前記機械学習を行う、請求項１から請求項５のいずれか１項に記載の機械学習装置。
請求項１から請求項６のいずれか１項に記載の機械学習装置を備え、前記機械学習装置によって前記配信スケジュールが機械学習されるコンピュータ装置。
請求項１から請求項６のいずれか１項に記載の機械学習装置と、
前記機械学習装置によって前記配信スケジュールが機械学習されるコンピュータ装置と、
を備える制御システム。
通信可能に接続された制御装置にアクセスするためのコマンドを発行するコンピュータ装置に対して機械学習を行う機械学習方法であって、
前記コンピュータ装置上で動作する１つ以上のアプリケーションの各々が指令する前記制御装置内のデータにアクセスするためのコマンドを監視し、少なくとも前記コマンドの配信スケジュールと、前記配信スケジュールに基づいて配信される前記コマンドの受付時刻及び配信時刻とを含む状態データを取得し、
前記状態データに含まれる前記配信スケジュールの修正情報を含む行動情報を前記コンピュータ装置に出力し、
前記コマンドが前記制御装置へ配信されるまでの前記コマンド毎の遅延時間と、配信される全ての前記コマンドの平均配信間隔と、に基づいて、前記行動情報に対する報酬を計算し、
計算される前記報酬に基づいて、前記状態データ及び前記行動情報に係る価値関数を更新する、
機械学習方法。