WO2021084587A1

WO2021084587A1 - 機械学習データ生成装置、機械学習装置、作業システム、コンピュータプログラム、機械学習データ生成方法及び作業機械の製造方法

Info

Publication number: WO2021084587A1
Application number: PCT/JP2019/042216
Authority: WO
Inventors: 浩貴太刀掛; 諒増村; 剛横矢
Original assignee: 株式会社安川電機
Priority date: 2019-10-28
Filing date: 2019-10-28
Publication date: 2021-05-06
Also published as: EP4052869A4; WO2021085345A1; US20220234196A1; JP7344977B2; EP4052869A1; JPWO2021085345A1; CN114599488A

Abstract

作業機械（４）が得るセンサ入力を仮想的に生成したものである仮想センサ入力を、仮想対象物モデルに基づいて生成する仮想センサ入力生成部（１０２）と、作業機械（４）のオペレーティングマシン（４０３）に対する動作指令を仮想的に生成したものである仮想動作指令を、前記仮想対象物モデル及び前記仮想センサ入力の少なくともいずれかに応じて生成する仮想動作指令生成部（１０３）と、仮想オペレーティングマシンモデルと、前記仮想対象物モデルを用いて、前記仮想動作指令に基づいて物理的作業のコンピュータシミュレーションを実行するシミュレータ（１０４）と、シミュレーション結果より前記物理的作業の目的の達成状況を評価する達成状況評価部（１０５）と、前記仮想センサ入力と、前記仮想動作指令と、前記達成状況に基づいて機械学習データを生成する機械学習データ生成部（１）と、を有する機械学習データ生成装置。

Description

機械学習データ生成装置、機械学習装置、作業システム、コンピュータプログラム、機械学習データ生成方法及び作業機械の製造方法

　本発明は、機械学習データ生成装置、機械学習装置、作業システム、コンピュータプログラム、機械学習データ生成方法及び作業機械の製造方法に関する。

　特許文献１には、三次元計測機により撮影した深度画像に基づいて、機械学習装置が制御指令を出力し、当該制御指令に基づくシミュレーションの実行結果に問題がなければ、当該制御指令に基づいてロボットが作業を行い、問題があれば、ロボットに対する制御指令の入力を停止し、結果ラベルを訓練データとして機械学習器に与えてさらなる学習を行うように構成された機械学習装置が記載されている。

特開２０１７－１８５５７７号公報

　対象物に反復・継続的に物理的作業を行う自動機械である作業機械において、機械学習を用いて対象物に応じた動作をさせるためには、対象物の種々の現実に起こり得る態様に即した機械学習データにより機械学習を行う必要がある。しかしながら、対象物と、対象物に対して想定される動作からは、その物理的作業の成否が自明でない場合には、種々の対象物を現実に用意し、実機を実際に動作させて機械学習をさせなければならず、多大な労力と時間を要する場合があった。

　本発明は、かかる事情に鑑みてなされたものであり、その目的は、現実の物理的作業を要さずに、物理的作業の成否を反映した機械学習データを得ることである。

　本発明の一側面に係る機械学習データ生成装置は、作業機械のオペレーティングマシンによる物理的作業の対象となる対象物に対し、前記作業機械のセンサによるセンシングの結果として得るセンサ入力を仮想的に生成したものである、仮想センサ入力を、前記対象物の仮想モデルである仮想対象物モデルに基づいて生成する仮想センサ入力生成部と、前記産業機器のオペレーティングマシンに対する動作指令を仮想的に生成したものである、仮想動作指令を前記仮想対象物モデル及び前記仮想センサ入力の少なくともいずれかに応じて生成する仮想動作指令生成部と、前記オペレーティングマシンの仮想モデルである仮想オペレーティングマシンモデルと、前記仮想対象物モデルを用いて、前記仮想動作指令に基づいて前記物理的作業のコンピュータシミュレーションを実行するシミュレータと、前記コンピュータシミュレーションの結果による前記物理的作業の目的の達成状況を評価する達成状況評価部と、前記仮想センサ入力と、前記仮想動作指令と、前記達成状況に基づいて機械学習データを生成する機械学習データ生成部と、を有する。

　また、本発明の別の一側面に係る機械学習データ生成装置は、前記対象物の複数のバリエーションについての前記仮想対象物モデルを生成する、仮想モデル生成部を有するものであってよい。

　また、本発明の別の一側面に係る機械学習装置は、上記のいずれかの機械学習データ生成装置と、前記機械学習データに基づいて、前記センサ入力を入力とし、前記動作指令を出力とするニューラルネットワークである、ニューラルネットワークモデルを、前記達成状況に応じて学習させる学習部と、　を有する。

　また、本発明の別の一側面に係る機械学習装置では、前記学習部は、前記達成状況に応じて、前記機械学習データによる学習の可否を決定する学習可否決定部を有するものであってよい。

　また、本発明の別の一側面に係る機械学習装置では、前記学習部は、前記達成状況に応じて、前記機械学習データによる学習を正の方向の学習とするか負の方向の学習とするかを定める学習方向決定部を有するものであってよい。

　また、本発明の別の一側面に係る機械学習装置では、前記学習部は、前記達成状況に応じて、前記機械学習データによる学習の強度を定める学習強度決定部を有するものであってよい。

　また、本発明の別の一側面に係る機械学習データ生成装置では、前記仮想動作指令生成部は、前記仮想センサ入力を入力とし、前記仮想動作指令を出力とするニューラルネットワークモデルである、仮想動作指令生成ニューラルネットワークモデルを有するものであってよい。

　また、本発明の別の一側面に係る機械学習装置では、前記仮想動作指令生成部は、前記仮想センサ入力を入力とし、前記仮想動作指令を出力とするニューラルネットワークモデルである、仮想動作指令生成ニューラルネットワークモデルを有するものであってよい。

　また、本発明の別の一側面に係る機械学習装置では、前記仮想動作指令生成ニューラルネットワークモデルは、前記動作指令生成ニューラルネットワークモデルと同一であるか、または、前記学習部において学習がなされた前記動作指令生成ニューラルネットワークモデルによって、前記仮想動作指令生成ニューラルネットワークモデルが更新されるものであってよい。

　また、本発明の別の一側面に係る作業システムは、上記のいずれかの機械学習装置と、前記オペレーティングマシンと、前記センサと、前記機械学習装置の前記学習部により学習のなされた前記ニューラルネットワークモデルを有し、前記センサからのセンサ入力を入力とし、前記オペレーティングマシンに対する動作指令を出力とする動作指令生成部と、を有する前記作業機械と、を有する。

　また、本発明の別の一側面に係るコンピュータプログラムは、コンピュータを、作業機械のオペレーティングマシンによる物理的作業の対象となる対象物に対し、前記作業機械のセンサによるセンシングの結果として得るセンサ入力を仮想的に生成したものである、仮想センサ入力を、前記対象物の仮想モデルである仮想対象物モデルに基づいて生成する仮想センサ入力生成部と、前記産業機器のオペレーティングマシンに対する動作指令を仮想的に生成したものである、仮想動作指令を前記仮想対象物モデル及び前記仮想センサ入力の少なくともいずれかに応じて生成する仮想動作指令生成部と、前記オペレーティングマシンの仮想モデルである仮想オペレーティングマシンモデルと、前記仮想対象物モデルを用いて、前記仮想動作指令に基づいて前記物理的作業のコンピュータシミュレーションを実行するシミュレータと、前記コンピュータシミュレーションの結果による前記物理的作業の目的の達成状況を評価する達成状況評価部と、前記仮想センサ入力と、前記仮想動作指令と、前記達成状況に基づいて機械学習データを生成する機械学習データ生成部と、を有する機械学習データ生成装置として動作させる。

　また、本発明の別の一側面に係る機械学習データ生成方法は、作業機械のオペレーティングマシンによる物理的作業の対象となる対象物に対し、前記作業機械のセンサによるセンシングの結果として得るセンサ入力を仮想的に生成したものである、仮想センサ入力を、前記対象物の仮想モデルである仮想対象物モデルに基づいて生成し、前記産業機器のオペレーティングマシンに対する動作指令を仮想的に生成したものである、仮想動作指令を前記仮想対象物モデル及び前記仮想センサ入力の少なくともいずれかに応じて生成し、前記オペレーティングマシンの仮想モデルである仮想オペレーティングマシンモデルと、前記仮想対象物モデルを用いて、前記仮想動作指令に基づいて前記物理的作業のコンピュータシミュレーションを実行し、前記コンピュータシミュレーションの結果による前記物理的作業の目的の達成状況を評価し、前記仮想センサ入力と、前記仮想動作指令と、前記達成状況に基づいて機械学習データを生成する。

　また、本発明の別の一側面に係る作業機械の製造方法は、対象物に対して物理的作業を行うオペレーティングマシンと、前記対象物に対してセンシングを行い、センサ入力を得るセンサと、前記センサ入力をニューラルネットワークモデルに入力し、前記オペレーティングマシンに対する動作指令を得る動作指令生成部と、有する作業機械の製造方法において、前記センサ入力を仮想的に生成したものである、仮想センサ入力を、前記対象物の仮想モデルである仮想対象物モデルに基づいて生成し、前記動作指令を仮想的に生成したものである、仮想動作指令を前記仮想対象物モデル及び前記仮想センサ入力の少なくともいずれかに応じて生成し、前記オペレーティングマシンの仮想モデルである仮想オペレーティングマシンモデルと、前記仮想対象物モデルを用いて、前記仮想動作指令に基づいて前記物理的作業のコンピュータシミュレーションを実行し、前記コンピュータシミュレーションの結果による前記物理的作業の目的の達成状況を評価し、前記仮想センサ入力と、前記仮想動作指令と、前記達成状況に基づいて機械学習データを生成し、前記機械学習データに基づいて、前記ニューラルネットワークモデルを、前記達成状況に応じて学習させることを含む。

本発明の第１の実施形態に係る機械学習データ生成装置を含む機械学習装置の全体の構成を示す機能ブロック図である。機械学習データ生成装置及び機械学習装置のハードウェア構成の一例を示す図である。本実施形態に係る機械学習データ生成装置及び機械学習装置において想定される作業機械の例を示す外観図である。図３に示した作業機械の機能的構成を示す構成図である。本発明の第１の実施形態に係る仮想モデル生成部の一例の詳細な構成を示す構成図である。ＶＡＥを説明する図である。本発明の第１の実施形態に係る仮想センサ入力生成部の一例の構成を示す構成図である。ＧＡＮを説明する図である。機械学習データ生成装置により生成される機械学習データの構成の一例を示す図である。学習部の構成を示す構成図である。フィルタの種々の形状の例を示す図である。本発明の第１の実施形態に係る機械学習データ生成装置及び機械学習装置による、機械学習データ生成方法及び機械学習方法のフロー図である。本発明の第２の実施形態に係る機械学習データ生成装置を含む機械学習装置の全体の構成を示す機能ブロック図である。作業機械の製造工程を示すフロー図である。

　以下、本発明の第１の実施形態に係る機械学習データ生成装置、機械学習装置、コンピュータプログラム及び機械学習データ生成方法を、図１～１２を参照して説明する。

　図１は、本発明の第１の実施形態に係る機械学習データ生成装置１を含む機械学習装置２の全体の構成を示す機能ブロック図である。ここで、「機械学習データ生成装置」とは、教師あり学習がなされる機械学習モデルにおける学習に用いられる教師データである、機械学習データを生成する装置を指し、「機械学習装置」とは、機械学習データを用いて、機械学習モデルの学習を実行する装置を指す。

　機械学習データ生成装置１及び機械学習装置２は、物理的には、それぞれ単独の装置として用意されてもよいが、これに限られず、他の機械や装置の一部として組み込まれていてもよく、または必要に応じて他の機械や装置の物理的構成を用いて適宜構成されるものであってもよい。より具体的には、機械学習データ生成装置１及び機械学習装置２は、一般的なコンピュータを用いて、ソフトウェアにより実装されてよく、また、コンピュータを機械学習データ生成装置１及び機械学習装置２として動作させるコンピュータプログラムは、一体のものであってもよいし、それぞれ単独で実行されるものであってもよく、さらには、モジュールとして他のソフトウェアに組み込まれるものであってもよい。また、機械学習データ生成装置１及び機械学習装置２を、いわゆるサーバコンピュータ上に構築し、インターネットなどの公衆電気通信回線を経由してその機能のみを遠隔地に提供するようにしてもよい。

　図２は、機械学習データ生成装置１及び機械学習装置２のハードウェア構成の一例を示す図である。同図に示されているのは、一般的なコンピュータ３であり、プロセッサであるＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）３０１、メモリであるＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）３０２、外部記憶装置３０３、ＧＣ（Ｇｒａｐｈｉｃｓ　Ｃｏｎｔｒｏｌｌｅｒ）３０４、入力デバイス３０５及びＩ／Ｏ（Ｉｎｐｕｒ／Ｏｕｔｐｕｔ）３０６がデータバス３０７により相互に電気信号のやり取りができるよう接続されている。なお、ここで示したコンピュータ３のハードウェア構成は一例であり、これ以外の構成のものでぁってもよい。

外部記憶装置３０３はＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）やＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）等の静的に情報を記録できる装置である。またＧＣ３０４からの信号はＣＲＴ（Ｃａｔｈｏｄｅ　Ｒａｙ　Ｔｕｂｅ）やいわゆるフラットパネルディスプレイ等の、使用者が視覚的に画像を認識するモニタ３０８に出力され、画像として表示される。入力デバイス３０５はキーボードやマウス、タッチパネル等の、ユーザが情報を入力するための一又は複数の機器であり、Ｉ／Ｏ３０６はコンピュータ３が外部の機器と情報をやり取りするための一又は複数のインタフェースである。Ｉ／Ｏ３０６には、有線接続するための各種ポート及び、無線接続のためのコントローラが含まれていてよい。

コンピュータ３を機械学習データ生成装置１及び機械学習装置２として機能させるためのコンピュータプログラムは外部記憶装置３０３に記憶され、必要に応じてＲＡＭ３０２に読みだされてＣＰＵ３０１により実行される。すなわち、ＲＡＭ３０２には、ＣＰＵ３０１により実行されることにより、図１に機能ブロックとして示した各種機能を実現させるためのコードが記憶されることとなる。かかるコンピュータプログラムは、適宜の光ディスク、光磁気ディスク、フラッシュメモリ等の適宜のコンピュータ可読情報記録媒体に記録されて提供されても、Ｉ／Ｏ３０６を介して外部のインターネット等の情報通信回線を介して提供されてもよい。

　図１に戻り、機械学習データ生成装置１は、その機能的構成として、仮想モデル生成部１０１、仮想センサ入力生成部１０２、仮想動作指令生成部１０３、シミュレータ１０４、達成状況評価部１０５、及び、機械学習データ生成部１０６を有している。さらに、機械学習装置２は、機械学習データ生成装置１及び学習部２０１を有している。

　機械学習データ生成装置１は、物理的作業を行う特定の作業機械に即して用意されるものであり、その有する各機能は、当該作業機械と密接に関連している。また、機械学習装置２は、かかる作業機械が使用する機械学習モデルへの学習を行うものである。

　ここで、本明細書に言う「物理的作業」は、対象物に対し、何らかの物理的な作用を及ぼす作業を指す。例えば、部品やパーツのピックアップ、部品の取りつけ（例えば、ベアリングのハウジングへの嵌め込みや、ねじの締結など）、梱包（菓子などの食品の箱詰めなど）、各種加工（バリ取りや研磨などの金属加工、食品などの柔軟物の成型や切断、樹脂成型やレーザー加工など）、塗装及び洗浄といった様々な作業が物理的作業には含まれる。また、「作業機械」は、同等又は類似の物理的作業を反復・継続的に行う自動機械を指す。

　本実施形態に係る機械学習データ生成装置１及び機械学習装置２は、ある特定の物理的作業を行う作業機械に具体的に即したものとして構築される。物理的作業がどのようなものであり、作業機械の用途がなんであるかは特段限定されるものではないが、以降の理解を容易とする目的で、本実施形態に係る機械学習データ生成装置１及び機械学習装置２において想定される作業機械の例を図３に示す。

　図３は、本実施形態に係る機械学習データ生成装置１及び機械学習装置２において想定される作業機械４の例を示す外観図である。本例では、作業機械４は、トレイである架台４０１に入れられた調理済みの唐揚げである対象物４０２を、ロボットであるオペレーティングマシン４０３により把持し、図示しない別の工程（例えば、容器への梱包）に移送する機械設備である。対象物４０２の位置や形状は、映像撮影装置であるセンサ４０４により画像データとして取り込まれ、かかる画像データに基づいて、コントローラ４０５によりオペレーティングマシン４０３の動作が制御される。

　本明細書において、「対象物」は、物理的作業の対象となる物理的実体を指す。また、対象物４０２が載置される架台４０１は、トレイに限らず、コンベアやホッパ、自動万力や自律走行車など、その物理的作業や対象物４０２に応じた任意のものであってよい。センサ４０４は、対象物４０２に対し何らかのセンシングを行い、オペレーティングマシン４０３が物理的作業を実行するために必要な情報であるセンサ入力を得るために設けられる。センサ４０４もまた、その物理的作業や対象物に応じた任意のものであってよく、必ずしも本例のように画像データをセンサ入力とするものではなくともよい。オペレーティングマシン４０３は、対象物４０２に物理的作業を行う際に、対象物に物理的作用を及ぼす作用端を持つ機械であり、物理的作業に応じたものが用意される。図３に示した例では、汎用の縦型多関節ロボットがオペレーティングマシン４０３として示されているが、オペレーティングマシン４０３は、必ずしもいわゆる産業用ロボットを使用するものでなくともよい。

　図４は、図３に示した作業機械４の機能的構成を示す構成図である。同図では、対象物４０２は作業機械４を構成する要素ではないので破線で示している。図４に示されるように、センサ４０４は、架台４０１上の対象物４０２に対してセンシングを行い、その結果得られるセンサ入力をコントローラ４０５に入力する。また、オペレーティングマシン４０３は、対象物４０２に対して物理的作業を行う。

　コントローラ４０５は、センサ入力に基づいて、オペレーティングマシン４０３に物理的作業を行わせるよう制御するために必要な種々の機能を有しており、図４では、それらの機能のうち、オペレーティングマシン４０３に対する動作指令を生成する機能を有する部分を動作指令生成部４０６、オペレーティングマシン４０３に適切な動力その他を供給して制御する機能を有する部分をオペレーティングマシン制御部４０８として示した。

　動作指令は、センサ４０４により検出された対象物４０２の状態に応じて変化するオペレーティングマシン４０３への動作の指令を意味している。本例のように、対象物４０２が不定形でなおかつ柔軟な唐揚げであれば、動作指令は、オペレーティングマシン４０３による把持の目標座標（ロボットハンドの目標位置及び目標角度）、把持力（及び／又はロボットハンドの挟み込み量）であってよく、さらに、ロボットハンドの移動経路やその他の指令を含むものであってもよい。オペレーティングマシン制御部４０８は、本例では、いわゆるロボットコントローラに該当する機能を有する部分であり、動作指令に従ってオペレーティングマシン４０３を動作させるために必要な動力の供給や帰還制御を行う。

　本例のように、対象物４０２が、架台４０１上でのその位置及び姿勢が不定であるだけでなく、その形状も不定形であり、さらに柔軟性も有する場合には、決定的アルゴリズムによっては適切な動作指令を得ることがむつかしい。一般に、決定的アルゴリズムにより適切な解を得ることが困難な問題に対しては、機械学習を用い、適切に設計された機械学習モデルに対し、適切な機械学習データにより学習をさせることにより、高い確度で適切な解が得られる場合があることが知られている。そこで、本例の動作指令生成部４０６は、機械学習モデルである、ニューラルネットワークモデル４０７を有しており、センサ入力を必要に応じて適切な前処理を施した上でニューラルネットワークモデル４０７に入力し、出力として、動作指令を得るものとなっている。ニューラルネットワークモデル４０７は、いわゆる深層学習の手法により学習されたものであってよい。

　このように、作業機械４では、適切に学習されたニューラルネットワークモデル４０７を有する動作指令生成部４０６により動作指令を生成することで、決定的アルゴリズムによっては適切な動作指令を得ることがむつかしい対象物４０２に対して、物理的作業をするための動作指令を高い確度で得るようにしている。

　ところが、本例に示す唐揚げの例でも容易に理解できるように、動作指令生成部４０６のニューラルネットワークモデル４０７を十分に学習させるための、十分な数の適切な機械学習データを現実に用意することは容易ではない。なぜなら、本例に即していえば、機械学習データを現実に用意することとは、機械学習のために種々の形状や大きさを持つ対象物４０２、すなわち、調理済みの唐揚げを十分な数用意することに他ならないからである。また、仮に対象物４０２を用意したとしても、その対象物４０２に対する適切な動作指令は決定的アルゴリズムによっては得られないか、得るのがむつかしいため、対象物４０２に対して逐一オペレーティングマシン４０３を動作させて、その結果を評価して機械学習データとしなければならないが、そのような機械学習データを十分な数得るには、あまりに多大な時間とコストを要するため、現実的ではない。

　本実施形態に係る機械学習データ生成装置１は、上述した作業機械４による対象物４０２に対する物理的作業を仮想的に実行することで、ニューラルネットワークモデルに対する十分な数の機械学習データを現実的な時間及びコストで生成するものである。また、本実施形態に係る機械学習装置２は、そのようにして生成された機械学習データによりニューラルネットワークモデルを学習させるものである。

　再度図１に戻り、機械学習データ生成装置１及び機械学習装置２の各機能ブロックを詳細に説明する。

　まず、仮想モデル生成部１０１は、対象物４０２の複数のバリエーションについての仮想対象物モデルを生成する部分である。ここで、対象物４０２は、先に説明したとおりの想定される物理的作業の対象となる物理的実体であり、その形状や大きさ、物理的性状は必ずしも一定ではなく、ある程度のばらつきがある。仮想モデル生成部１０１は、そのようなばらつきにより生じる多数の対象物１０２のバリエーションを、現実に作成することなく、仮想モデルとして生成する。以降、生成された対象物４０２の仮想モデルを、仮想対象物モデルと称する。仮想対象物モデルは、後ほど説明するシミュレータ１０４におけるシミュレーションに使用されるため、かかるシミュレーションを行うために必要な情報を持つモデルである必要がある。本例では、仮想対象物モデルは、その形状や大きさが特定される三次元モデルであり、さらに、重量（比重）、弾性率、摩擦係数といった物理的性状が設定されている。

　図５は、本実施形態に係る仮想モデル生成部１０１の一例の詳細な構成を示す構成図である。本例では、仮想モデル生成部１０１は、ＶＡＥ（Ｖａｒｉａｔｉｏｎａｌ　Ａｕｔｏｅｎｃｏｄｅｒ）として知られる技術を用いている。そのため、仮想モデル生成部１０１は、ＶＡＥにより得られるデコーダ１０７を備えている。

　デコーダ１０７には、潜在変数生成部１０８により生成された潜在変数ｚが入力される。潜在変数ｚはベクトル量であり、その次元数は、対象物４０２の複雑さに依存するものの、数十～数百次元としてよい。本例の潜在変数生成部１０８は、正規分布Ｎに従って、潜在変数ｚを確率的に生成するものとなっている。

　ここで、図６を参照して、ＶＡＥについて簡単に説明する。ＶＡＥ自体は既知のものであるから、説明は最小限のものにとどめる。

　ＶＡＥ５は、図６に示した構成をしており、エンコーダ５０１及びデコーダ５０２と称される２つのニューラルネットワークを有している。エンコーダ５０１は、データＸの入力を受け、潜在変数ｚを出力する。換言すれば、情報量の多いデータＸを、その本質的な特徴に着目して、次元数の低い潜在変数ｚに圧縮しているといえる。そして、潜在変数ｚは、ＶＡＥでは、正規分布Ｎに従うように設計される。

　図１に戻り、仮想センサ入力生成部１０２は、仮想対象物モデルに基づいて仮想センサ入力を生成する。ここで、センサ入力は、図３を参照して説明したとおり、対象物４０２をセンサ４０４によりセンシングして得られる情報であり、仮想センサ入力は、かかるセンサ入力に相当するものとして仮想的に生成された情報のことである。すなわち、仮想センサ入力とは、仮想対象物モデルが、現実に存在する対象物４０２であった場合に、センサ４０４により得られるであろうセンサ入力を、仮想的に実現したものということもできる。

　図７は、本実施形態に係る仮想センサ入力生成部１０２の一例の構成を示す構成図である。本例では、仮想センサ入力生成部１０２は、ＧＡＮ（Ｇｅｎｅｒａｔｉｖｅ　Ａｄｖｅｒｓａｒｉａｌ　Ｎｅｔｗｏｒｋ）として知られる技術を用いている。そのため、仮想センサ入力生成部１０２は、ＧＡＮにより得られるジェネレータ１１１を備えている。

　また、背景画像生成部１１３により、背景画像が別途生成される。背景画像生成部１１３は、作業機械４において現実的に有り得る背景画像を生成するものであり、その方法の一例として、作業機械４の架台４０１の複数の実際の写真から一枚を確率的に選択することが挙げられる。得られた平面投影画像および合成画像は、合成部１１４により合成され、合成画像とされる。

合成画像は、ジェネレータ１１１に入力される。ジェネレータ１１１は、入力された合成画像から、あたかも本物のセンサ４０４により得られたセンサ入力であるかのごとき仮想センサ入力を出力するニューラルネットワークである。これにより、確率的に生成された仮想対象物モデルに基づいて、本物のセンサ入力と区別のつきがたい仮想センサ入力が得られることになる。

　ここで、図８を参照して、ＧＡＮについて簡単に説明する。ＧＡＮ自体もまた既知のものであるから、説明は最小限のものにとどめる。

　ＧＡＮ６は、図８に示した構成をしており、ジェネレータ６０１及びディスクリミネータ６０２と称される２つのニューラルネットワークを有している。ジェネレータ６０１は、上述したように、合成画像の入力を受け、仮想センサ入力を出力する。一方、ディスクリミネータ６０２には、ジェネレータ６０１により生成された仮想センサ入力と、現実のセンサ４０４により得られた実センサ入力の両方が入力される。この時、ディスクリミネータ６０２には、入力されたデータが仮想センサ入力と実センサ入力のいずれであるかは知らされない。

　ディスクリミネータ６０２の出力は、入力データが仮想センサ入力と実センサ入力のいずれであるかを判別するものである。そして、ＧＡＮ６では、あらかじめ用意したいくつかの仮想センサ入力と実センサ入力について、ディスクリミネータ６０２ではこの両者を正しく判別するように、また、ジェネレータ６０１では、ディスクリミネータ６０２においてこの両者が判別できないように繰り返し強化学習を行う。

　この結果、最終的にはディスクリミネータ６０２においてこの両者が判別できない（例えば、仮想センサ入力と実センサ入力を同数用意した場合には、正答率が５０％となるなど）状態となり、かかる状態においては、ジェネレータ６０１は、合成画像に基づいて、実センサ入力と区別のつかない、あたかも現実のセンサ入力であるかのごとき仮想センサ入力を出力するものと考えられる。したがって、図７に示した仮想センサ入力生成部１０２では、このようにして学習させたジェネレータ１１１を用い、仮想センサ入力が生成されることになる。

　なお、以上説明した仮想モデル生成部１０１及び仮想センサ入力生成部１０２の構成は一例であり、機械学習データ生成装置１及び機械学習装置２が想定する作業機械４に応じた適宜の構成としてよい。例えば、仮想モデル生成部１０１は、ＶＡＥを使用したものでなく、単に乱数で定めたパラメータに基づいて、所定のアルゴリズムにより仮想対象物モデルを生成するものであってもよい。また、仮想センサ入力生成部１０２は、ＧＡＮを使用したものでなく、レイトレーシングやフォトリアリスティックレンダリングといった既知のコンピュータグラフィクスの手法を用いて仮想センサ入力を生成するものであってもよい。さらには、想定される対象物４０２やセンサ４０４が異なれば、当然にそれらに適した構成の仮想モデル生成部１０１及び仮想センサ入力生成部１０２の構成を採用すべきである。本実施形態で説明した仮想モデル生成部１０１及び仮想センサ入力生成部１０２の構成は、対象物４０２が不揃いな三次元プロファイルを有し、センサ４０４が映像撮影装置である場合に特に有効である。

　図１に戻り、仮想動作指令生成部１０３は、仮想対象物モデル及び仮想センサ入力の少なくともいずれかに応じて仮想動作指令を生成する。ここで、動作指令は、すでに説明したとおり、作業機械４において、センサ４０４により検出された対象物４０２の状態に応じて変化するオペレーティングマシン４０３への動作の指令であり、仮想動作指令は、かかる動作指令を仮想的に生成したものである。

　仮想動作指令生成部１０３において生成される仮想動作指令は、作業機械４の動作指令生成部４０６と異なり、決定的アルゴリズムによって生成されるものであってもよい。仮想動作指令に要求されるものは、仮想対象物モデルが現実の対象物４０２であったとしたならば、かかる対象物４０２に対して物理的作業を実行可能である蓋然性が高いことである。なお、仮想動作指令によって、実際に、あるいは後述するように、シミュレーション上で、物理的作業が成功裏に実行されることは必ずしも必要ではない。

　本例では、仮想動作指令生成部１０３は、仮想対象物モデル及び仮想センサ入力の両方を用い、仮想対象物モデル１０１からその重心位置と単軸方向及び単軸方向長さを演算して求め、仮想センサ入力から、かかる重心位置、単軸方向をオペレーティングマシン４０３の座標に変換して目標位置とし、単軸方向長さからロボットハンドの把持力を算出する。このように、仮想対象物モデルを利用すると、成功裏に物理的作業を実行可能である蓋然性の高い仮想動作指令が、比較的容易にかつ一意に生成される。

　もちろん、仮想動作指令を生成する方法は上述べた方法に限られず、他の方法であってもよい。他の方法は、例示したものと同様に、決定的アルゴリズムを用いるものであってもよいし、後ほど説明するように、非決定的アルゴリズムによるものであってもよい。

　さらには、オペレータ（人）が補助するものであってもよい。例えば、仮想センサ入力が画像である場合、当該画像をオペレータに提示し、仮想動作指令を生成するうえで目標となるポイントをオペレータに指示させるなど、仮想動作指令生成部１０３が、仮想対象物モデル及び仮想センサ入力の少なくともいずれかに応じて仮想動作指令を生成する際に、オペレータが介在する方法も選択できる。かかる方法では、人であるオペレータの経験や判断が簡易な方法により、仮想動作指令に反映される。いずれにせよ、仮想動作指令を生成する方法は対象物４０２や、センサ４０４等の性質に応じて適切なものを選択すればよい。

　シミュレータ１０４は、物理的作業の物理シミュレーションを実行する。すなわち、シミュレータ１０４には、現実の作業機械４のオペレーティングマシン４０３の仮想モデルである仮想オペレーティングマシンモデルがあらかじめ用意されており、シミュレータ１０４の仮想空間上にかかる仮想オペレーティングマシンモデルと、仮想対象物モデルを配置し、仮想オペレーティングマシンモデルを仮想動作指令に従って動作させることにより、作業機械４が行う物理的作業を仮想空間上でシミュレートする。仮想オペレーティングマシンモデルと仮想対象モデルの仮想空間上における配置は、当然に、仮想センサ入力生成部１０２において仮想センサ入力が生成された際の状況を再現したものとする。

　物理シミュレーションに使用される物理演算エンジンは、想定している物理的作業に応じたものを用いればよい。本例のように、対象物４０２の把持を想定している場合には、衝突判定及びダイナミックシミュレーションを実行可能な物理演算エンジンを選択もしくは構築すればよいし、物理的作業が異なれば、当然に、流体シミュレーションや破壊シミュレーション、その他あらゆる物理現象をシミュレートする物理演算エンジンを適宜選択するか、構築することになる。

　シミュレータ１０４におけるシミュレーションが完了すると、シミュレーションの結果は、達成状況評価部１０５によりその達成状況が評価される。ここで、「達成状況」とは、物理的作業の目的が達成された度合いを評価する指標である。この指標は、２値のものであってもよいし、連続的評価、段階的評価であってもよい。本例の場合であれば、把持に成功したか、失敗したかの２値評価を行えばよい。それ以外では、例えば、対象物２が不定形の肉塊であり、物理的作業がこの肉塊をｎ等分に切断することであれば、切断後の各肉片の重量のばらつきを達成状況としてよく、あるいはそのばらつきの程度や目的の達成に応じた段階的評価としてもよい。段階的評価としては、肉片の重量のばらつきの大きさにより、達成状況を不可、可、良の３段階評価としたり、切断に失敗した、切断には成功したが各肉片のばらつきが許容範囲外、切断に成功しかつ各肉片のばらつきが許容範囲内、といった、質的に異なる多段階評価としたりしてもよい。

　最後に、機械学習データ生成部１０６において、仮想センサ入力生成部１０２により生成された仮想センサ入力と、仮想動作指令生成部１０３により生成された仮想動作指令と、達成状況評価部１０５により評価された達成状況を互いに紐づけ、機械学習データとする。

　機械学習データ生成装置１では、仮想モデル生成部１０１により生成された、対象物４０２の複数のバリエーションについての仮想対象物モデルごとに１又は複数の機械学習データを生成することができ、多数の互いに異なる機械学習データが容易に、かつ、実用的な時間及びコストの範囲で得られる。そして、対象物４０２と、対象物４０２に対して想定される動作、すなわち、動作指令からは、成否が自明でない物理的作業の場合であっても、シミュレータ１０４による物理シミュレーションによって、その物理的作業の成否が高い確度で推定され、その評価結果が機械学習データに反映されることとなる。

　そして、機械学習装置２は、上述の機械学習データ生成装置１及び学習部２０１を備えており、機械学習データ生成装置１により生成された機械学習データを用いて、作業機械４の動作指令生成部４０６において用いられるべきニューラルネットワークモデル４０７の学習を行う。学習部２０１は、機械学習データに基づいて、センサ入力を入力とし、動作指令を出力とするニューラルネットワークである、ニューラルネットワークモデルを、前記達成状況に応じて学習させる。したがって、機械学習装置２では、現実の物理的作業を必ずしも要することなく、実用的な時間及びコストの範囲で、物理的作業の成否を反映した機械学習がなされる。

　図９は、機械学習データ生成装置１により生成される機械学習データの構成の一例を示す図である。同図に示す一つ一つのレコードが一個の機械学習データに相当しており、各レコードには、仮想センサ入力、仮想動作指令及び、達成状況がふくまれる。以降の説明では、必要に応じ、同一のレコードに属する仮想センサ入力及び仮想動作指令には、レコード番号を末尾につけて区別する。

　図１０は、学習部２０１の構成を示す構成図である。学習部２０１には、ニューラルネットワークモデル２０２が記憶されている。ニューラルネットワークモデル２０２は、学習が完了したのち、将来的に作業機械４の動作指令生成部４０６におけるニューラルネットワークモデル４０７としての使用が予定されているモデルである。

　学習部２０１には、機械学習データが入力される。図１０では、機械学習データとしてレコードｎが入力された状態を示しており、レコードｎのうち、仮想センサ入力ｎはニューラルネットワークモデル２０２への設問、仮想指令ｎは、かかる設問に対する解答として、ニューラルネットワークモデル２０２の学習が行われる。この時、レコードｎの達成状況は、フィルタ２０３により係数ｋへと変換され、ニューラルネットワークモデル２０２の学習に用いられる。

　係数ｋは、レコードｎの機械学習データによるニューラルネットワークモデル２０２の学習の可否、学習の方向の正負あるいはその強度を示すものである。したがって、学習部２０１は、ニューラルネットワークモデル２０２を、達成状況に応じて学習させているといえる。

　学習時における具体的なｋの利用方法は必ずしも限定されない。一例として、学習部２０１が正方向の学習と、負方向の学習の両方を行うものである場合、それぞれの方向の学習を行うコードを別々に用意しておき、ｋの値に応じて、例えばｋ＞０であれば正の方向の学習用コードを実行し、ｋ＜０であれば負の方向の学習用コードを実行することが考えられる。なおこのケースにおいて、ｋ＝０の場合には、正負いずれの学習を行うかを任意に定めておいてもよいし、当該レコードによっては学習を行わないものとしてもよい。

　あるいは、ニューラルネットワークモデル２０２の学習の際の（確率的）勾配降下法における学習率をηとした際に、既定の学習率をη_０として、

としてもよい。この場合、ｋを正とすると正の方向の学習が、ｋを負とすると負の方向の学習が行われ、ｋ＝０の場合には学習が行われないことになる。このような方法を用いると、フィルタ２０３の形状を適切に設計することにより、中間的な強度の学習を含め、学習の有無、正負及びその強度が自由に設計できる。

　図１１は、フィルタ２０３の種々の形状の例を示す図である。同図に示す、（Ａ）のフィルタは、達成状況が「良」を示す場合には、正の方向の学習を行い、達成状況が「負」を示す場合には、負の方向の学習を行うものである。このように、ｋが正となる領域と、負となる領域の両方が含まれている場合、フィルタ２０３は、達成状況に応じて、機械学習データによる学習を正の方向の学習とするか負の方向の学習とするかを定める学習方向決定部として機能しているということができる。

　（Ｂ）のフィルタは、達成状況が「良」を示す場合に限り、正の方向の学習のみを行うというものである。このように、ｋ＝０となる領域が含まれている場合、フィルタ２０３は、達成状況に応じて、機械学習データによる学習の可否を決定する学習可否決定部として機能しているということができる。

　（Ｃ）のフィルタは、達成状況に応じて、係数ｋが連続的に変化するというものである。このように、ｋの値が中間的な値（１、０、－１でない値）となる領域が含まれている場合、フィルタ２０３は、達成状況に応じて、機械学習データによる学習の強度を定める学習強度決定部として機能としているということができる。また、このフィルタは同時に、ｋが正となる領域と負となる領域の両方を含んでおり、かつ、ｋ＝０となる領域もまた含んでいるため、フィルタ２０３は、学習方向決定部及び学習可否決定部としても同時に機能しているということができる。

　（Ｄ）のフィルタは、達成状況に応じて、係数ｋが段階的に変化するというものである。この場合においても、（Ｃ）のフィルタと同様に、フィルタ２０３は、学習強度決定部、学習方向決定部及び学習可否決定部として同時に機能しているということができる。

　なお、（Ｃ）及び（Ｄ）のフィルタにみられるように、達成状況が「良」でも「不良」でもないかその区別が明確でない場合に、ｋの値を０か、その付近の絶対値の小さい値とすることにより、学習精度を高めることに寄与しないかその寄与が少ない機械学習データにより無駄な学習がなされ、かえってニューラルネットワークモデル２０２の学習の妨げとなる事態が防止される。

　以上説明したように、フィルタ２０３を適切に設計し、機械学習データに含まれる達成状況に応じて、学習の可否、方向及び強度の少なくともいずれかを定めることにより、シミュレータ１０４におけるシミュレーションの結果をニューラルネットワークモデル２０２の学習に適切に反映することができ、学習の効率化・収束の高速化が期待される。また、フィルタ２０３を用いて学習の可否や方向を定めるようにすると、学習の可否や方向ごとにコードを用意する必要がなく、機械学習装置２の生産性がよい。

　なお、フィルタ２０３は学習部２０１において必ずしも必須の構成ではなく、達成状況をそのままニューラルネットワークモデル２０２の学習に用いるようにしてもよい。その場合には、フィルタ２０３として「１」が設けられているとみなすことができる。

　図１２は、本実施形態に係る機械学習データ生成装置１及び機械学習装置２による、機械学習データ生成方法及び機械学習方法のフロー図である。同図に示したフローのうち、（１）の部分（ＳＴ１１～ＳＴ１７）が機械学習データ生成方法に該当し、（２）の部分（ＳＴ１１～ＳＴ１８）が機械学習方法に該当する。

　まず、ＳＴ１１にて、仮想モデル生成部１０１により、対象物４０２の複数のバリエーションについての仮想対象物モデルを生成する。続くＳＴ１２では、仮想センサ入力生成部１０２により、仮想対象物モデルに基づいて仮想センサ入力を生成する。さらに、ＳＴ１３では、仮想動作指令生成部１０３により、仮想対象物モデル及び仮想センサ入力の少なくともいずれかに基づいて仮想動作指令を生成する。

　ＳＴ１４では、シミュレータ１０４により、仮想オペレーティングマシンモデルと、仮想対象物モデルを用いて、仮想動作指令に基づいて物理的作業のコンピュータシミュレーションを実行する。そしてＳＴ１５にて、達成状況評価部１０５により、コンピュータシミュレーションの結果による物理的作業の目的の達成状況を評価する。ＳＴ１６へと進み、機械学習データ生成部１０６により、仮想センサ入力と、仮想動作指令と、達成状況に基づいて機械学習データを生成する。

　生成された機械学習データはレコードとして蓄積される。ＳＴ１７において、レコード数、すなわち、蓄積された機械学習データの数が十分であるか否かを判断し、十分でなければ（ＳＴ１７：Ｎ）、ＳＴ１１へと戻り、繰り返し機械学習データの生成を行う。レコード数が十分であれば（ＳＴ１７：Ｙ）、ＳＴ１８へと進む。必要なレコード数は、あらかじめ目標数を定めておいてよい。あるいは、ＳＴ１８での機械学習の結果を評価し、学習が十分でない場合には、ＳＴ１１～ＳＴ１７を改めて実行し、機械学習データを追加で生成するようにしてもよい。機械学習の結果の評価は、学習部２０１におけるニューラルネットワークモデル２０２の内部状態の収束を評価することにより行ってもよいし、かかるニューラルネットワークモデル２０２にテストデータを入力し、得られた出力の正解率により行ってもよい。

　ＳＴ１８では、学習部２０１により、生成された機械学習データに基づいて、ニューラルネットワークモデル２０２を、達成状況に応じて学習させる。このようにして、本実施形態では、作業機械４に適した、学習済みのニューラルネットワークモデル２０２を得る。

　以上説明した本発明の第１の実施形態に係る機械学習データ生成装置１及び機械学習装置２では、仮想動作指令生成部１０３による仮想動作指令の生成方法として、仮想対象物モデル及び仮想センサ入力の両方を用いる決定的アルゴリズムを使用する方法を説明した。以下では、本発明の第２の実施形態に係る機械学習データ生成装置１及び機械学習装置２として、仮想動作指令生成部１０３による仮想動作指令の生成方法として、非決定的アルゴリズムを用いた一例を説明する。

　図１３は、本発明の第２の実施形態に係る機械学習データ生成装置１を含む機械学習装置２の全体の構成を示す機能ブロック図である。なお、本実施形態の説明を容易とするため、先の実施形態と同一又は対応する構成には同一の符号を付し、重複する説明についてはこれを省略するものとする。

　本実施形態に係る仮想動作指令生成部１０３は、ニューラルネットワークモデル１１５を有している。このニューラルネットワークモデル１１５は、学習部２０１が有しており、学習の対象となるニューラルネットワークモデル２０２と同様に、センサ入力（又は仮想センサ入力）を入力とし、動作指令（又は仮想動作指令）を出力とするものである。ニューラルネットワークモデル１１５とニューラルネットワークモデル２０２との関係は後述する。

　ニューラルネットワークモデル１１５は、あらかじめある程度の学習が進められている。すなわち、何らかのセンサ入力または仮想センサ入力を入力すると、それなりの動作指令又は仮想動作指定を出力することができる。ここで、「それなり」という語は、ニューラルネットワークモデル１１５から出力された動作指令により作業機械４のオペレーティングマシン４０３を動作させ、あるいはニューラルネットワークモデル１１５から出力された仮想動作指令によりシミュレータ１０４によるシミュレーションを実行すると、物理的作業の目的を達成するか、達成するに至らなくとも、達成に近いと考えられる程度の結果が得られることを意味するものとして使用されている。

　ニューラルネットワークモデル１１５を用いた推論は非決定的アルゴリズムであるから、本例は、非決定的アルゴリズムを用いた仮想動作指令生成部１０３による仮想動作指令の生成方法の一例を示している。決定的アルゴリズムにより、学習に用い得る程度にそれなりの仮想動作指令を得ることが困難又は難しい場合には、このような方法が有効である。

　そして、仮想動作指令生成部１０３において用いられるニューラルネットワークモデル１１５と、学習部２０１において学習対象となるニューラルネットワークモデル２０２とは、本実施形態における機械学習データの生成及び機械学習の当初においては、同じものを用いてよい。例えば、作業機械４の実機を用い、数は必ずしも多くないものの、いくばくかの実物の対象物４０２を用いて学習させたニューラルネットワークモデル（図４にて示したニューラルネットワークモデル４０７であってよい）を初期モデルとして用いてよい。または、全く未学習のニューラルネットワークモデルを初期モデルとしてもよく、さらに、人為的に作成した機械学習データにより学習をある程度進めたニューラルネットワークモデルをこれらの初期モデルとしてもよい。

　このようなニューラルネットワークモデル１１５を含む仮想動作指令生成部１０３を有する機械学習データ生成装置１を用いて機械学習データを生成し、さらに機械学習装置２によりかかる機械学習データを用いて機械学習を進めると、学習部２０１において、ニューラルネットワークモデル２０２の学習が進み、ニューラルネットワークモデル２０２により得られる動作指令又は仮想動作指令の精度、すなわち、かかる動作指令又は仮想動作指令を用いた時の物理的作業の目的が達成される見込み、は向上していくと考えられる。

　そのようにニューラルネットワークモデル２０２の学習が進んだ段階で、複写部２０４は、ニューラルネットワークモデル２０２によってニューラルネットワークモデル１１５を上書きして更新する。これにより、仮想動作指令生成部１０３により生成される仮想動作指令の精度が漸増していくため、ニューラルネットワークモデル２０２の学習がより効率的に進み、収束が早くなるものと期待される。

　複写部２０４によるニューラルネットワークモデル１１５の更新は、適宜のタイミングで行われてよい。例えば、一定のレコード数の機械学習データによる学習が行われるごとのタイミングとしてもよいし、ニューラルネットワークモデル２０２の学習の進み具合をモニタしておき、何らかの指標、例えば、収束率に基づくタイミングとしてもよい。

　あるいは、１レコードごと、すなわち、一件の機械学習データによる学習が学習部２０１により行われるごとに、ニューラルネットワークモデル１１５を更新してもよい。その場合には、図１３に示した構成でなく、複写部２０４を設けずに、仮想動作指令生成部１０３及び学習部２０１が、メモリ上の共通のニューラルネットワークモデル１１５，２０２を直接参照する構成としてもよい。

　以上説明した第１及び第２の実施形態においては、物理的作業としてオペレーティングマシン４０３による把持を例として説明したため、仮想センサ入力生成部１０２は、仮想対象物モデルの平面投影画像から仮想センサ入力を生成するものであったが、仮想センサ入力は、仮想対象物モデルに基づく限り、その生成手法に限定はなく、対象物４０２や物理的作業に応じた適切なものを選択し又は設計してよい。

　一例として、物理的作業が金属部品のバリ取りのための研磨作業であり、得るべき動作指令が、バリの形状に応じた砥石の押し付け力の時間プロファイルである場合には、仮想センサ入力生成部１０２は、シミュレータ１０４を用いて、仮の動作指令により仮想対象物モデルに対するシミュレーションを行い、得られた加工反力の時間プロファイルを仮想センサ入力とするものであってもよい。これは、この例における作業機械４の実機がバリ取りを行う際に、所定の押し付け力による仮研磨を行い、その際の反力に基づいて仕上げ研磨の押し付け力の時間プロファイルを設定するものであることに対応している。

　以上説明した機械学習装置２により得られた学習済みのニューラルネットワークモデル２０２を搭載することにより、高い確度で目的を達成する作業機械４が得られる。図１４は、かかる作業機械４の製造工程を示すフロー図である。

　まず、ＳＴ２１にて、架台４０１、オペレーティングマシン４０３、センサ４０４、コントローラ４０５と、その他、作業機械４を構成するにあたって必要な機器を用意する。この際、各機器の接続や接合、配線など作業機械４を物理的に構成する際に必要な作業を行う。

　続いて、ＳＴ２２にて、図１２の（２）に示したフローに従い、機械学習データを生成し、かかる機械学習データに基づいて機械学習を行い、学習済みのニューラルネットワークモデル２０２を得る。

　最後に、ＳＴ２３にて、得られたニューラルネットワークモデル２０２を作業機械４の動作指令部４０６に複写してニューラルネットワークモデル４０７とする。このような方法により、現実の物理的作業による学習を行うことなく、または現実の物理的作業による学習を低減して、対象物と、対象物に対して想定される動作からは、その物理的作業の成否が自明でない物理的作業を行う作業機械４が製造される。

　そして、図１に示した機械学習装置２と、図３及び図４に示した作業機械４を含む作業システムを観念すると、かかる作業システムにおいては、機械学習装置２により、現実の物理的作業による学習を行うことなく、または現実の物理的作業による学習を低減して、物理的作業についての機械学習がなされ、作業機械４においては、かかる機械学習の成果を反映した物理的作業がなされる。したがって、かかる作業システムを用いることにより、現実的なコスト及び時間の範囲内において、対象物と、対象物に対して想定される動作からは、その物理的作業の成否が自明でない物理的作業が自動かつ高精度に実行される。

Claims

　作業機械のオペレーティングマシンによる物理的作業の対象となる対象物に対し、前記作業機械のセンサによるセンシングの結果として得るセンサ入力を仮想的に生成したものである、仮想センサ入力を、前記対象物の仮想モデルである仮想対象物モデルに基づいて生成する仮想センサ入力生成部と、
　前記産業機器のオペレーティングマシンに対する動作指令を仮想的に生成したものである、仮想動作指令を前記仮想対象物モデル及び前記仮想センサ入力の少なくともいずれかに応じて生成する仮想動作指令生成部と、
　前記オペレーティングマシンの仮想モデルである仮想オペレーティングマシンモデルと、前記仮想対象物モデルを用いて、前記仮想動作指令に基づいて前記物理的作業のコンピュータシミュレーションを実行するシミュレータと、
　前記コンピュータシミュレーションの結果による前記物理的作業の目的の達成状況を評価する達成状況評価部と、
　前記仮想センサ入力と、前記仮想動作指令と、前記達成状況に基づいて機械学習データを生成する機械学習データ生成部と、
　を有する機械学習データ生成装置。
　前記対象物の複数のバリエーションについての前記仮想対象物モデルを生成する、仮想モデル生成部を有する、
　請求項１に記載の機械学習データ生成装置。
　請求項１又は２に記載の機械学習データ生成装置と、
　前記機械学習データに基づいて、前記センサ入力を入力とし、前記動作指令を出力とするニューラルネットワークである、ニューラルネットワークモデルを、前記達成状況に応じて学習させる学習部と、
　を有する機械学習装置。
　前記学習部は、前記達成状況に応じて、前記機械学習データによる学習の可否を決定する学習可否決定部を有する、
　請求項３に記載の機械学習装置。
　前記学習部は、前記達成状況に応じて、前記機械学習データによる学習を正の方向の学習とするか負の方向の学習とするかを定める学習方向決定部を有する、
　請求項３又は４に記載の機械学習装置。
　前記学習部は、前記達成状況に応じて、前記機械学習データによる学習の強度を定める学習強度決定部を有する、
　請求項３～５のいずれか１項に記載の機械学習装置。
　前記仮想動作指令生成部は、前記仮想センサ入力を入力とし、前記仮想動作指令を出力とするニューラルネットワークモデルである、仮想動作指令生成ニューラルネットワークモデルを有する、
　請求項１又は２に記載の機械学習データ生成装置。
　前記仮想動作指令生成部は、前記仮想センサ入力を入力とし、前記仮想動作指令を出力とするニューラルネットワークモデルである、仮想動作指令生成ニューラルネットワークモデルを有する、
　請求項３～６のいずれか１項に記載の機械学習装置。
　前記仮想動作指令生成ニューラルネットワークモデルは、前記動作指令生成ニューラルネットワークモデルと同一であるか、または、前記学習部において学習がなされた前記動作指令生成ニューラルネットワークモデルによって、前記仮想動作指令生成ニューラルネットワークモデルが更新される、
　請求項８に記載の機械学習装置。
　請求項３～６、８及び９のいずれか１項に記載の機械学習装置と、
　前記オペレーティングマシンと、前記センサと、前記機械学習装置の前記学習部により学習のなされた前記ニューラルネットワークモデルを有し、前記センサからのセンサ入力を入力とし、前記オペレーティングマシンに対する動作指令を出力とする動作指令生成部と、を有する前記作業機械と、
　を有する作業システム。
　コンピュータを、
　作業機械のオペレーティングマシンによる物理的作業の対象となる対象物に対し、前記作業機械のセンサによるセンシングの結果として得るセンサ入力を仮想的に生成したものである、仮想センサ入力を、前記対象物の仮想モデルである仮想対象物モデルに基づいて生成する仮想センサ入力生成部と、
　前記産業機器のオペレーティングマシンに対する動作指令を仮想的に生成したものである、仮想動作指令を前記仮想対象物モデル及び前記仮想センサ入力の少なくともいずれかに応じて生成する仮想動作指令生成部と、
　前記オペレーティングマシンの仮想モデルである仮想オペレーティングマシンモデルと、前記仮想対象物モデルを用いて、前記仮想動作指令に基づいて前記物理的作業のコンピュータシミュレーションを実行するシミュレータと、
　前記コンピュータシミュレーションの結果による前記物理的作業の目的の達成状況を評価する達成状況評価部と、
　前記仮想センサ入力と、前記仮想動作指令と、前記達成状況に基づいて機械学習データを生成する機械学習データ生成部と、
　を有する機械学習データ生成装置として動作させるコンピュータプログラム。
　作業機械のオペレーティングマシンによる物理的作業の対象となる対象物に対し、前記作業機械のセンサによるセンシングの結果として得るセンサ入力を仮想的に生成したものである、仮想センサ入力を、前記対象物の仮想モデルである仮想対象物モデルに基づいて生成し、
　前記産業機器のオペレーティングマシンに対する動作指令を仮想的に生成したものである、仮想動作指令を前記仮想対象物モデル及び前記仮想センサ入力の少なくともいずれかに応じて生成し、
　前記オペレーティングマシンの仮想モデルである仮想オペレーティングマシンモデルと、前記仮想対象物モデルを用いて、前記仮想動作指令に基づいて前記物理的作業のコンピュータシミュレーションを実行し、
　前記コンピュータシミュレーションの結果による前記物理的作業の目的の達成状況を評価し、
　前記仮想センサ入力と、前記仮想動作指令と、前記達成状況に基づいて機械学習データを生成する、
　機械学習データ生成方法。
　対象物に対して物理的作業を行うオペレーティングマシンと、
　前記対象物に対してセンシングを行い、センサ入力を得るセンサと、
　前記センサ入力をニューラルネットワークモデルに入力し、前記オペレーティングマシンに対する動作指令を得る動作指令生成部と、
を有する作業機械の製造方法において、
　前記センサ入力を仮想的に生成したものである、仮想センサ入力を、前記対象物の仮想モデルである仮想対象物モデルに基づいて生成し、
　前記動作指令を仮想的に生成したものである、仮想動作指令を前記仮想対象物モデル及び前記仮想センサ入力の少なくともいずれかに応じて生成し、
　前記オペレーティングマシンの仮想モデルである仮想オペレーティングマシンモデルと、前記仮想対象物モデルを用いて、前記仮想動作指令に基づいて前記物理的作業のコンピュータシミュレーションを実行し、
　前記コンピュータシミュレーションの結果による前記物理的作業の目的の達成状況を評価し、
　前記仮想センサ入力と、前記仮想動作指令と、前記達成状況に基づいて機械学習データを生成し、
　前記機械学習データに基づいて、前記ニューラルネットワークモデルを、前記達成状況に応じて学習させることを含む、
　作業機械の製造方法。