WO2021192119A1

WO2021192119A1 - 情報処理装置、プログラム、および方法

Info

Publication number: WO2021192119A1
Application number: PCT/JP2020/013460
Authority: WO
Inventors: 村林　昇; 健常田
Original assignee: ソニーグループ株式会社
Priority date: 2020-03-25
Filing date: 2020-03-25
Publication date: 2021-09-30
Also published as: EP4130904A1

Abstract

所定の作業の撮影動画から複数の撮影画像を取得する取得部と、撮影画像から、基準となる基準画像を決定する決定部と、基準画像と、撮影画像の他の画像との第１の画像間距離を算出する算出部と、第１の画像間距離に基づいて、撮影画像から、機械学習の教師データとして用いる入力画像を選択する選択部とを備えた、情報処理装置が提供される。このような情報処理装置により、撮影動画から偏りの少ない教師データを効率的に集めることができる。

Description

情報処理装置、プログラム、および方法

　本開示は、情報処理装置、プログラム、および方法に関する。

　作業手順書に基づいて作業者が所定の作業を繰り返し行うような製造現場では、製造作業を動画で撮影してイレギュラーな動作などを検出し、作業の効率化を図ったり、品質や安全管理を行ったりしている。これは、例えば、機械学習を用いて撮影動画中の作業者の作業状態をオブジェクトとして検出し、作業者が作業手順書通りの作業を行っているか否かを判断している。

特開２０１８－１６３５５６号公報特開２０１９－１０１５１６号公報

　しかしながら、撮影動画中に頻出するオブジェクトと比較して、あまり映らないオブジェクトが存在する。オブジェクトを検出するための機械学習は撮影動画（画像）を教師データとして学習を行うため、このようなオブジェクトの出現頻度の違いは機械学習の教師データに偏りを生じさせてしまう。例えば、撮影動画中に頻出するオブジェクトの教師データばかり集まってしまう。これは、同じような教師データで機械学習を行うことになるため、機械学習の精度に悪影響を及ぼす。

　そこで、本開示では、撮影動画から偏りの少ない教師データを効率的に集めることができる情報処理装置、プログラム、および方法を提案する。

　本開示によれば、所定の作業の撮影動画から複数の撮影画像を取得する取得部と、撮影画像から、基準となる基準画像を決定する決定部と、基準画像と、撮影画像の他の画像との第１の画像間距離を算出する算出部と、第１の画像間距離に基づいて、撮影画像から、機械学習の教師データとして用いる入力画像を選択する選択部とを備えた、情報処理装置が提供される。

　また、本開示によれば、所定の作業の撮影動画から複数の撮影画像を取得する取得部と、予め定められた作業手順書に基づいて、撮影画像から、所定の作業の開始時に対応する撮影画像を基準画像に決定する決定部と、撮影画像から任意のオブジェクトを検出する検出部と、作業手順書に基づいて、開始時から所定の作業の終了時の間のオブジェクトを含んだ撮影画像から、機械学習の教師データとして用いる入力画像を選択する選択部とを備えた、情報処理装置が提供される。

　また、本開示によれば、所定の作業の撮影動画から複数の撮影画像を取得する取得部と、所定の作業の作業者を検出し、撮影画像から任意のオブジェクトを検出する検出部と、作業者が代わったか否かを判定する判定部と、作業者が代わったと判定した場合に、作業者が代わったと判定した時点以降のオブジェクトを含んだ撮影画像から、機械学習の教師データとして用いる入力画像を選択する選択部とを備えた、情報処理装置が提供される。

　また、本開示によれば、情報処理装置に、所定の作業の撮影動画から複数の撮影画像を取得し、撮影画像から、基準となる基準画像を決定し、基準画像と、撮影画像の他の画像との第１の画像間距離を算出し、第１の画像間距離に基づいて、撮影画像から、機械学習の教師データとして用いる入力画像を選択する処理を実行させる、プログラムが提供される。

　また、本開示によれば、情報処理装置が、所定の作業の撮影動画から複数の撮影画像を取得し、撮影画像から、基準となる基準画像を決定し、基準画像と、撮影画像の他の画像との第１の画像間距離を算出し、第１の画像間距離に基づいて、撮影画像から、機械学習の教師データとして用いる入力画像を選択する処理を実行する、方法が提供される。

　また、本開示によれば、情報処理装置に、予め定められた作業手順書に基づいて、所定の作業の撮影動画から複数の撮影画像を取得し、作業手順書に基づいて、撮影画像から、所定の作業の開始時に対応する撮影画像を基準画像に決定し、撮影画像から任意のオブジェクトを検出し、作業手順書に基づいて、開始時から所定の作業の終了時の間のオブジェクトを含んだ撮影画像から、機械学習の教師データとして用いる入力画像を選択する処理を実行させる、プログラムが提供される。

　また、本開示によれば、情報処理装置が、予め定められた作業手順書に基づいて、所定の作業の撮影動画から複数の撮影画像を取得し、作業手順書に基づいて、撮影画像から、所定の作業の開始時に対応する撮影画像を基準画像に決定し、撮影画像から任意のオブジェクトを検出し、作業手順書に基づいて、開始時から所定の作業の終了時の間のオブジェクトを含んだ撮影画像から、機械学習の教師データとして用いる入力画像を選択する処理を実行する、方法が提供される。

　また、本開示によれば、情報処理装置に、所定の作業の撮影動画から複数の撮影画像を取得し、所定の作業の作業者を検出し、撮影画像から任意のオブジェクトを検出し、作業者が代わったか否かを判定し、作業者が代わったと判定した場合に、作業者が代わったと判定した時点以降のオブジェクトを含んだ撮影画像から、機械学習の教師データとして用いる入力画像を選択する処理を実行させる、プログラムが提供される。

　また、本開示によれば、情報処理装置が、所定の作業の撮影動画から複数の撮影画像を取得し、所定の作業の作業者を検出し、撮影画像から任意のオブジェクトを検出し、作業者が代わったか否かを判定し、作業者が代わったと判定した場合に、作業者が代わったと判定した時点以降のオブジェクトを含んだ撮影画像から、機械学習の教師データとして用いる入力画像を選択する処理を実行する、方法が提供される。

本実施形態に係る情報処理装置１００の機能構成例を示すブロック図である。同実施形態に係る作業手順書データの一例を示す図である。同実施形態に係る作業手順書データからのキーワード抽出の一例を示す図である。同実施形態に係るオブジェクト検出モデルの一例を示す図である。同実施形態に係るクラステーブルの一例を示す図である。同実施形態に係る基準画像との画像間距離を表すグラフの一例を示す図である。同実施形態に係る教師データとして偏りの少ない撮影画像の選択の一例を示す図である。同実施形態に係る教師データとして偏りの少ない撮影画像の選択の別例を示す図である。同実施形態に係る画像全体の画像間距離を算出する方法の一例を示す図である。同実施形態に係る画像の一部の画像間距離を算出する方法の一例を示す図である。同実施形態に係る教師データとして偏りの少ない撮影画像の選択処理の流れを示すフローチャートである。同実施形態に係る教師データとして偏りの少ない撮影画像の選択の変形例１を示す図である。同実施形態に係る教師データとして偏りの少ない撮影画像の選択の変形例２を示す図である。同実施形態に係る情報処理装置１００のハードウェア構成例を示すブロック図である。

　次に、本実施形態について図面に基づいて詳細に説明する。なお、本明細書および図面において、実質的に同一の部位には、同一の符号を付することにより重複する説明を省略する。

　なお、説明は以下の順序で行うものとする。
　１．実施形態
　　１．１．機能構成例
　　１．２．機能の詳細
　　１．３．機能の流れ
　２．実施形態の変形例
　　２．１．変形例１
　　２．２．変形例２
　３．ハードウェア構成例
　４．まとめ

＜１．実施形態＞
＜＜１．１．機能構成例＞＞
　まず、本実施形態に係る情報処理装置１００の機能構成例について説明する。情報処理装置１００は、製造作業を行うメーカーなどによって管理されるサーバ装置であってもよいし、据え置き端末やノートＰＣ（Ｐｅｒｓｏｎａｌ　Ｃｏｍｐｕｔｅｒ）であってもよい。また、情報処理装置１００は、クラウドサーバ装置であってもよいし、複数台のコンピュータで構成される分散型コンピューティングシステムであってもよい。

　図１は、本実施形態に係る情報処理装置１００の機能構成例を示すブロック図である。図１に示すように、本実施形態に係る情報処理装置１００は、記憶部１１０、取得部１２０、決定部１３０、算出部１４０、選択部１５０、検出部１６０、判定部１７０、制御部１８０を備える。

（記憶部１１０）
　本実施形態に係る記憶部１１０は、各種プログラムやデータを一時的または恒常的に記憶するための記憶領域である。記憶部１１０には、情報処理装置１００が各種機能を実行するためのプログラムやデータが記憶されてよい。具体的な一例として、記憶部１１０には、画像間距離を算出するためのプログラムやデータ、作業ごとの作業手順を示した作業手順書データ、撮影動画からオブジェクトを検出するための学習モデルやオブジェクトの定義データ、各種設定などを管理するための管理データなどが記憶されてよい。もちろん、上記はあくまで一例であり、記憶部１１０に記憶されるデータの種別は特に限定されない。

　図２は、本実施形態に係る作業手順書データの一例を示す図である。図２は、例えば、スマートフォンの製造作業を形成する複数の作業工程の中の一工程である「スピーカー取付」の作業手順を示す作業手順書データである。例えば、「スピーカー取付」という作業工程における作業手順は、図２に示すように、「１：移動作業」→「２：設置作業」→「３：スイッチ動作」→…のように作業番号順に進む。また、作業ごとに作業時間を設定することができる。このような作業手順書データに基づいて、撮影動画から作業者の作業状態として検出されるオブジェクトと、作業内容から抽出されるキーワードとを突き合わせて、作業時間内に作業者が作業手順書通りの作業を行っているか否かを判断することができる。

　なお、作業手順書データからキーワードを抽出するには、形態素解析を用いることができる。図３は、本実施形態に係る作業手順書データからのキーワード抽出の一例を示す図である。図３に示すように、まず、情報処理装置１００は、図２に示す作業手順書データから、「作業内容」のテキストデータを抽出する。次に、情報処理装置１００は、抽出したテキストデータを形態素解析し、形態素解析後のデータからキーワードを抽出する。この結果、例えば、作業番号「１」の「移動作業」の作業内容のテキストデータからキーワード「手」が抽出され、作業番号「３」の「スイッチ動作」の作業内容のテキストデータからキーワード「スイッチ」および「手」が抽出される。次に、情報処理装置１００は、抽出したキーワードを変換する。例えば、キーワード「手」は“hand”に変換され、キーワード「スイッチ」は“sw”に変換される。変換後の“hand”などは、後述するように、オブジェクトに付与されるラベルである。情報処理装置１００は、オブジェクトと、作業内容から抽出されるキーワードとを突き合わせるために、作業手順書から抽出されたキーワードを変換する。

（取得部１２０）
　図１の説明に戻り、本実施形態に係る取得部１２０は、所定の作業の撮影動画から複数の撮影画像を取得する。取得される画像は、撮影動画のフレームごとの画像である。ここで、本実施形態が対象とする「作業」は、例えば、工場、ラインなどで工員が行う製品の製造作業である。スマートフォンの製造作業（スピーカー取り付け作業）を例とすると、「作業」は、例えば、移動作業、設置作業、スイッチ動作、スピーカー移動、ごみ処理、シール作業、スピーカー設置、作業キャリア回転、などである。なお、「作業」は、スピーカー取り付け作業に限られず、スマートフォンの製造における他の作業であってもよい。また、「作業」は、スマートフォンの製造作業に限られず、他の製品の製造作業であってもよい。さらに、「作業」は、製品の製造作業に限られず、例えば、介護サービス等のサービスにおける作業であってもよい。

（決定部１３０）
　本実施形態に係る決定部１３０は、取得部１２０によって取得された撮影画像から、基準となる基準画像を決定する。これは、例えば、後述する検出部１６０によって撮影画像からオブジェクトが検出された時を作業開始時と判断し、その際のフレームを基準画像とすることができる。また、記憶部１１０に記憶された作業手順書データに基づいて、所定の作業の開始時に対応する撮影画像を基準画像に決定することもできる。

（算出部１４０）
　本実施形態に係る算出部１４０は、決定部１３０によって決定された基準画像と、取得部１２０によって取得された各撮影画像との画像間距離（「第１の画像間距離」に相当）を算出する。また、算出部１４０は、算出した画像間距離の最大値を所定の間隔で分割することにより、それぞれの分割点と、決定部１３０によって決定された基準画像との画像間距離（「第２の画像間距離」に相当）を算出する。ここで、所定の間隔とは、オブジェクトを検出するための機械学習の教師データとして用いるために撮影動画から選択したい画像の枚数に基づいて定められる。例えば、選択したい画像の枚数が４枚の場合は、算出した画像間距離の最大値を３つに分割（例えば、３等分）した間隔が所定の間隔となる。なお、算出部１４０によって算出される画像間距離は、画像間の各画素のＲＧＢ値や輝度値の差の大きさの合計である。すなわち、当該差の大きさが大きいほど画像間距離も大きく離れ、画像同士が類似しなくなることを示している。

（選択部１５０）
　本実施形態に係る選択部１５０は、算出部１４０によって算出された画像間距離に基づいて、取得部１２０によって取得された撮影画像から、オブジェクトを検出するための機械学習の教師データとして用いる入力画像を選択する。ここで、選択される撮影画像は、機械学習の教師データとして用いるため、撮影画像同士の画像間距離が離れ、ばらついていた方がよい。そのため、選択部１５０は、決定部１３０によって決定された基準画像と、基準画像と類似せず、画像間距離が所定の間隔離れている画像とを選択する。選択される画像は、例えば、算出部１４０によって算出された画像間距離の最大値を所定の間隔で分割した各分割点の画像間距離と同一または最も近い撮影画像を選択する。また、選択される画像は、オブジェクトを検出するための機械学習の教師データとして用いるため、オブジェクトを含んだ画像である必要がある。

　また、選択部１５０は、記憶部１１０に記憶された作業手順書データに基づいて、作業の開始時から終了時の間の撮影画像から、機械学習の教師データとして用いる入力画像を選択することもできる（後述する変形例１）。

　また、選択部１５０は、判定部１７０によって作業者が代わったと判定された時点以降の撮影画像から、機械学習の教師データとして用いる入力画像を選択することもできる（後述する変形例２）。

（検出部１６０）
　本実施形態に係る検出部１６０は、取得部１２０によって取得された撮影画像から、任意のオブジェクトを検出する。オブジェクトの検出は、撮影画像を入力、オブジェクトを正解とする教師データとして学習された学習モデル（オブジェクト検出モデル）を用いて行うことができる。

　図４は、実施形態に係るオブジェクト検出モデルの一例を示す図である。図４に示すように、例えば、スマートフォンの製造作業の撮影画像をオブジェクト検出モデルに入力し、製造作業の一工程を形成する複数の作業状態の各々を規定する１つまたは複数のオブジェクトを出力させることで、オブジェクトを検出する。図４の例は、オブジェクト検出モデルにより、撮影画像に対して、“car_with2”，“hand”，“hand_two”，“car_with”，“tweezer”の５つのオブジェクトが検出されたことを示している。検出されたオブジェクトは、図４に示すように、例えば、バウンディングボックス（枠線）で囲まれ、各オブジェクト名を示すラベルが付与され表示される。なお、このようなオブジェクト検出モデルを生成する際の機械学習として、例えば、ＳＳＤ（Ｓｉｎｇｌｅ　Ｓｈｏｔ　Ｍｕｌｔｉｂｏｘ　Ｄｅｔｅｃｔｏｒ）やＹＯＬＯ（Ｙｏｕ　Ｏｎｌｙ　Ｌｏｏｋ　Ｏｎｃｅ）を用いることができる。

　また、検出されるオブジェクトは、予め定義され、例えば、以下のクラステーブルとして記憶部１１０に記憶される。図５は、本実施形態に係るクラステーブルの一例を示す図である。図５に示すように、例えば、２２個のキーワードの各々を「ラベル」とするクラスＣ０～Ｃ２１を設定し、クラスとラベルとオブジェクト内容との対応付けを示す「クラステーブルＣＬＴ」を生成する。クラスとラベルとオブジェクト内容とは互いに１対１で対応する。

　図１の説明に戻り、また、検出部１６０は、例えば、情報処理装置１００と有線または無線で接続されたカメラ装置などによって撮影された作業者の動画に対し、顔認識などの認識技術により個々の作業者を検出する。

（判定部１７０）
　本実施形態に係る判定部１７０は、検出部１６０によって検出された作業者に基づいて、作業中の作業者が代わったか否かを判定する。

（制御部１８０）
　本実施形態に係る制御部１８０は、情報処理装置１００全体を司る処理部であり、情報処理装置１００が備える各構成を制御する。制御部１８０が有する機能の詳細については後述される。

　以上、本実施形態に係る情報処理装置１００の機能構成例について説明した。なお、図１を用いて説明した上記の機能構成はあくまで一例であり、本実施形態に係る情報処理装置１００の機能構成は係る例に限定されない。例えば、情報処理装置１００は、必ずしも図１に示す構成のすべてを備えなくてもよいし、上記の機能構成の一部を情報処理装置１００とは異なる別の装置に備えることも可能である。本実施形態に係る情報処理装置１００の機能構成は、仕様や運用に応じて柔軟に変形可能である。

　また、各構成要素の機能を、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｃｅｓｓｉｎｇ　Ｕｎｉｔ）などの演算装置がこれらの機能を実現する処理手順を記述した制御プログラムを記憶したＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）やＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）などの記憶媒体から制御プログラムを読み出し、そのプログラムを解釈して実行することにより行ってもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜利用する構成を変更することが可能である。また、情報処理装置１００のハードウェア構成の一例については後述される。

＜＜１．２．機能の詳細＞＞
　次に、本実施形態に係る情報処理装置１００が有する機能について詳細に説明する。本実施形態は、所定の作業の撮影動画から取得された撮影画像から基準画像を決定し、基準画像と、撮影画像の他の画像との画像間距離を算出する。そして、算出したそれぞれの画像間距離に基づいて、オブジェクトを検出するための機械学習の教師データとして偏りが少なくなるように、撮影画像から複数の画像を選択する。

　図６は、本実施形態に係る基準画像との画像間距離を表すグラフの一例を示す図である。図６に示すグラフは、横軸を時間、縦軸を基準画像ｆｓと各撮影画像との画像間距離とするグラフを示している。基準画像ｆｓは、例えば、作業開始時ｔｓの撮影画像である。図６に示すように、作業開始直後ｔａの撮影画像ｆａは、基準画像ｆｓと比較して、作業者の動きがほとんどなく、画像間距離も小さい。このような、基準画像ｆｓと、これに類似している画像とを機械学習の教師データとして集めても、どちらか１枚で十分であり、画像２枚分の学習効果は期待できない。作業終了時ｔｚの撮影画像ｆｚなども画像間距離が小さいため、同様のことが言える。一方、作業時ｔｂの撮影画像ｆｂは、基準画像ｆｓとの画像間距離が大きく、教師データとして選択されるべき画像である。

　しかしながら、基準画像ｆｓとの画像間距離が大きいからといって、作業時ｔｂ付近の撮影画像ばかりを教師データとしても、今度は撮影画像ｆｂと類似する撮影画像ばかりが集まりため、画像分の学習効果は期待できない。そこで、教師データとして偏りの少ない撮影画像の選択方法について説明する。

　図７は、本実施形態に係る教師データとして偏りの少ない撮影画像の選択の一例を示す図である。図７において、基準画像ｆｓとの画像間距離が最大の画像は、作業時ｔｂの撮影画像ｆｂであったとする。そして、この撮影画像ｆｂと基準画像ｆｓとの画像間距離をｄｂとする。また、機械学習の教師データとして選択したい撮影画像の枚数を４枚とする。

　この場合、図７に示すように、画像間距離ｄｂを３つに分割（例えば、距離ｄｘずつ３等分）し、それぞれの分割点が示す画像間距離ｄｃおよびｄｄと同一または最も近い撮影画像ｆｃおよびｆｄを選択する。そして、撮影画像ｆｃおよびｆｄに加え、撮影画像ｆｂおよび基準画像ｆｓを選択し、計４枚の撮影画像を教師データとして選択することができる。これら４枚の撮影画像は、画像間距離が各々で離れており、教師データとして適度にばらつきがあると言える。

　なお、分割数や分割点ごとの選択枚数は図７の例に限られず、図７の例より多くても少なくてもよい。また、図７の例では、画像間距離ｄｃを示す撮影画像は、時間ｔｂより前にも存在する。そのため、画像間距離ｄｃを示す撮影画像が複数枚ある場合は、これら複数枚を選択してもよいし、いずれか１枚の撮影画像を選択してもよい。

　また、図７に示すように、基準画像ｆｓとの画像間距離が近い撮影画像は、作業開始直後や終了直前である傾向が強いため、そのような撮影画像は選択され難くなるように、画像間距離に閾値を設け、当該閾値以上の撮影画像を選択するようにすることもできる。これにより、基準画像ｆｓとより離れた撮影画像を教師データとして選択することができる。図８は、本実施形態に係る教師データとして偏りの少ない撮影画像の選択の別例を示す図である。図８に示すように、画像間距離に閾値ｔｈを設定し、閾値ｔｈと画像間距離ｄｂとの間を分割し、それぞれの分割点が示す画像間距離ｄｃ´およびｄｄ´と同一または最も近い撮影画像ｆｃ´およびｆｄ´を選択する。撮影画像ｆｃ´およびｆｄ´は、図７の撮影画像ｆｃおよびｆｄと比較すると、それぞれの画像間距離は少し小さくなるが、基準画像ｆｓとの画像間距離が大きくなっている。閾値ｔｈをどの程度にするかは、例えば、撮影画像全体の画像間距離の割合に基づいてよい。

　次に、画像間距離の算出方法について説明する。画像間距離は、例えば、画像間の各画素のＲＧＢ値や輝度値の差の大きさの合計である（後述する図９の例）。さらに、処理効率などを考慮して、所定領域内の画像間の各画素のＲＧＢ値や輝度値の平均値の差を用いることができる（後述する図１０の例）。

　図９は、本実施形態に係る画像全体の画像間距離を算出する方法の一例を示す図である。図９に示すように、画像間距離を算出する撮影画像ｆＡおよびｆＢを、例えば、８×８の領域Ａ０～Ａ６３およびＢ０～Ｂ６３にそれぞれ分割する。なお、各領域に含まれる画素数は均等でなくてよい。また、分割数の８×８は一例であり、８×８より多くても少なくてもよい（例えば、５×５や１６×１６）。しかしながら、分割された１つの領域がバウンディングボックスより大きいと画像間距離が正しく算出できない場合があるため、個々の領域がバウンディングボックスより小さくなるような分割数にする。

　次に、分割した各領域内の画素のＲＧＢ値や輝度値の平均値ｄＡｎおよびｄＢｎ（図９の例の場合、ｎは０～６３までの整数）を算出する。そして、次式（１）を用いて、画像全体の画像間距離Ｉｍｇ＿ｄｓｔ＿ａｌｌを算出する。

　なお、式（１）中のｎの上限６３は、撮影画像の分割数に応じて任意に変更される。

　以上、図９を用いて、画像全体の画像間距離の算出方法について説明したが、画像全体の場合、動きが発生しないような背景部分の領域の画像間距離は、ほぼゼロに近くなる。また、そのような領域は作業状態の変化が起き難い領域であるため、そもそもオブジェクトとして検出され難い。そこで、画像全体ではなく、オブジェクトとして検出された一部の領域の画像間距離を算出するができる。

　図１０は、本実施形態に係る画像の一部の画像間距離を算出する方法の一例を示す図である。図１０の撮影画像ｆＡおよびｆＢには、それぞれ、検出されたオブジェクトをバウンディングボックスで囲んだ一部の領域ｂａおよびｂｂが示されている。図９の画像全体と同様に、これら一部の領域ｂａおよびｂｂを、例えば、８×８の領域ａ０～ａ６３およびｂ０～ｂ６３にそれぞれ分割する。なお、図９の画像全体と同様に、各領域に含まれる画素数は均等でなくてよいし、分割数は、８×８より多くても少なくてもよい。

　次に、分割した各領域内の画素のＲＧＢ値や輝度値の平均値ｄａｎおよびｄｂｎ（図１０の例の場合、ｎは０～６３までの整数）を算出する。そして、次式（２）を用いて、画像の一部の画像間距離Ｉｍｇ＿ｄｓｔ＿ｐａｒｔを算出する。

　なお、式（２）中のｎの上限６３も、撮影画像の分割数に応じて任意に変更される。

　以上、図９および図１０を用いて、画像全体および画像の一部の２つの画像間距離の算出方法について説明したが、次式（３）に示すように、これら２つの画像間距離を合計して、画像間距離Ｉｍｇ＿ｄｓｔ＿ｔｏｔａｌとすることもできる。

　式（３）における重み係数ｔは、０＜ｔ＜１の範囲の数値であり、重み係数ｔを用いて、画像全体および画像の一部の２つの画像間距離のどちらかに、重みを持たせることができる。

＜＜１．３．機能の流れ＞＞
　次に、図１１を用いて、本実施形態に係る教師データとして偏りの少ない撮影画像の選択処理の手順について説明する。図１１は、本実施形態に係る教師データとして偏りの少ない撮影画像の選択処理の流れを示すフローチャートである。本処理は、撮影動画から取得される複数の撮影画像の画像間距離に基づいて、当該撮影画像から、オブジェクトを検出するための機械学習の教師データとして用いる入力画像を選択する処理である。本処理は、例えば、ユーザが、情報処理装置１００に接続された入力装置を介して、本処理の実行プログラムに対し実行意思を示した場合に開始される。または、本処理は、定期もしくは不定期に実行されるバッチ処理であってもよい。

　図１１に示すように、まず、情報処理装置１００の取得部１２０は、所定の作業の撮影動画から複数の撮影画像を取得する（ステップＳ１０１）。取得される画像は、撮影動画のフレームごとの画像であり、記憶部１１０に記憶されていてもよいし、情報処理装置１００とは別の装置や媒体などに記憶されていてもよい。

　次に、情報処理装置１００の決定部１３０は、取得部１２０によって取得された撮影画像から、基準となる基準画像を決定する（ステップＳ１０２）。決定される基準画像は、例えば、検出部１６０によってオブジェクトが検出された時を作業開始時として、その際の撮影画像であってよい。

　次に、情報処理装置１００の算出部１４０は、決定部１３０によって決定された基準画像と、取得部１２０によって取得された、基準画像以外の他の撮影画像との画像間距離を算出する（ステップＳ１０３）。算出される画像間距離は、上述したように、画像全体の画像間距離Ｉｍｇ＿ｄｓｔ＿ａｌｌであってもよいし、画像の一部の画像間距離Ｉｍｇ＿ｄｓｔ＿ｐａｒｔであってもよい。または、算出される画像間距離は、これら２つの画像間距離に基づいた、画像間距離Ｉｍｇ＿ｄｓｔ＿ｔｏｔａｌであってもよい。

　次に、算出部１４０は、算出した画像間距離の最大値を、所定の間隔で分割する（ステップＳ１０４）。所定の間隔とは、上述したように、例えば、機械学習の教師データとして選択したい画像の枚数が４枚の場合は、画像間距離の最大値を３等分した間隔である。

　次に、情報処理装置１００の選択部１５０は、算出部１４０によって算出された画像間距離の最大値を所定の間隔で分割した各分割点の画像間距離と同一または最も近い撮影画像を選択する（ステップＳ１０５）。ステップＳ１０５の後、本処理は終了する。

＜２．実施形態の変形例＞
＜＜２．１．変形例１＞＞
　次に、本実施形態の変形例について説明する。上述したように、オブジェクトを検出するための機械学習の教師データとして用いる撮影画像は、撮影画像同士が類似せず、ばらついていた方がよい。そこで、上述した実施例では、類似しない撮影画像を画像間距離に基づいて選択した。以下に示す変形例１では、１つの作業中の作業時間の違いによる撮影画像の違いに着目し、作業時間に基づいて、教師データとして用いる撮影画像を選択する。

　図１２は、本実施形態に係る教師データとして偏りの少ない撮影画像の選択の変形例１を示す図である。図１２に示すように、情報処理装置１００の選択部１５０は、作業開始時ｔｓの撮影画像ｆｓを基準画像とし、作業開始時ｔｓから作業終了時ｔｚの間の作業中の撮影画像を選択する。これら基準画像および作業中の撮影画像は、後述するように記憶部１１０に記憶された作業手順書データに基づいて選択されることができる。

　図１２の例では、作業時間ｔｅおよびｔｆの２つの時点の撮影画像ｆｅおよびｆｆを選択する。また、選択部１５０は、作業終了時ｔｚの撮影画像ｆｚをさらに選択してもよい。なお、変形例においても、選択される画像は、オブジェクトを検出するための機械学習の教師データとして用いるため、オブジェクトを含んだ画像である必要がある。

　図１２の例に示される１サイクルの作業時間は、例えば、記憶部１１０に記憶された作業手順書データの「作業時間」から取得することができる。当該作業時間によって作業開始時ｔｓおよび作業終了時ｔｚを導出し、各時点の撮影画像ｆｓおよび撮影画像ｆｚを選択することができる。また、作業開始時ｔｓと作業終了時ｔｚとの間を所定の間隔で分割することで、作業時間ｔｅおよびｔｆの２つの時点を導出し、撮影画像ｆｅおよびｆｆを選択することができる。なお、所定の間隔とは等間隔であってもよいし、そうでなくてもよい。また、図１２の例では、作業中の撮影画像として撮影画像ｆｅおよびｆｆの２枚を選択しているが、選択される作業中の撮影画像の枚数は２枚より多くても少なくてもよい。図１２の例では、作業中の撮影画像ｆｅおよびｆｆに加え、基準画像ｆｓや撮影画像ｆｚを、オブジェクトを検出するための機械学習の教師データとして選択することができる。

＜＜２．２．変形例２＞＞
　以下に示す変形例２では、同一の作業工程であっても、作業者が異なれば撮影画像も異なってくることに着目し、作業者を検出し、作業中の作業者が代わった場合に、教師データとして用いる撮影画像を選択する。

　図１３は、本実施形態に係る教師データとして偏りの少ない撮影画像の選択の変形例２を示す図である。図１３に示すように、同一の作業工程を作業者Ａ、Ｂ、Ｃで交代して行っていた場合、情報処理装置１００の検出部１６０は、作業者Ａ、Ｂ、Ｃの撮影された動画に対し、顔認識などの認識技術により個々の作業者を検出する。そして、情報処理装置１００の判定部１７０は、検出された作業者に基づいて、作業中の作業者が代わったか否かを判定する。

　次に、情報処理装置１００の選択部１５０は、作業者が代わったと判定した場合に、作業者が代わったと判定した時点以降のオブジェクトを含んだ撮影画像から、機械学習の教師データとして用いる入力画像を選択する。これにより、撮影画像ｆＢおよびｆＣを選択することができる。また、作業者が代わったと判定した時点より前のオブジェクトを含んだ撮影画像から撮影画像ｆＡを選択することができる。

　なお、作業者が代わったと判定した時点以降またはより前のどの時点の撮影画像を選択するかは、例えば、選択する枚数に基づいて所定の間隔に分割して各分割点の撮影画像を選択することができる。

　以上、本実施形態の変形例１および２を説明したが、これらは、別々に実施される必要はなく、複合的に実施してもよい。例えば、作業者が代わったと判定した場合に、作業者が代わったと判定した時点を基準画像とし、基準画像と以降の撮影画像との画像間距離を算出し、画像間距離に基づいて、機械学習の教師データとして用いる入力画像を選択することができる。

＜３．ハードウェア構成例＞
　次に、本実施形態に係る情報処理装置１００のハードウェア構成例について説明する。図１４は、本実施形態に係る情報処理装置１００のハードウェア構成例を示すブロック図である。図１４を参照すると、情報処理装置１００は、例えば、プロセッサ８０１と、ＲＯＭ８０２と、ＲＡＭ８０３と、ホストバス８０４と、ブリッジ８０５と、外部バス８０６と、インターフェース８０７と、入力装置８０８と、出力装置８０９と、ストレージ８１０と、ドライブ８１１と、接続ポート８１２と、通信装置８１３と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。

（プロセッサ８０１）
　プロセッサ８０１は、例えば、演算処理装置または制御装置として機能し、ＲＯＭ８０２、ＲＡＭ８０３、ストレージ８１０、またはリムーバブル記録媒体９０１に記録された各種プログラムに基づいて各構成要素の動作全般またはその一部を制御する。

（ＲＯＭ８０２、ＲＡＭ８０３）
　ＲＯＭ８０２は、プロセッサ８０１に読み込まれるプログラムや演算に用いるデータなどを格納する手段である。ＲＡＭ８０３には、例えば、プロセッサ８０１に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータなどが一時的または永続的に格納される。

（ホストバス８０４、ブリッジ８０５、外部バス８０６、インターフェース８０７）
　プロセッサ８０１、ＲＯＭ８０２、ＲＡＭ８０３は、例えば、高速なデータ伝送が可能なホストバス８０４を介して相互に接続される。一方、ホストバス８０４は、例えば、ブリッジ８０５を介して比較的データ伝送速度が低速な外部バス８０６に接続される。また、外部バス８０６は、インターフェース８０７を介して種々の構成要素と接続される。

（入力装置８０８）
　入力装置８０８には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、およびレバーなどが用いられる。さらに、入力装置８０８としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ（以下、リモコン）が用いられることもある。また、入力装置８０８には、マイクロフォンなどの音声入力装置が含まれる。

（出力装置８０９）
　出力装置８０９は、例えば、ＣＲＴ（Ｃａｔｈｏｄｅ　Ｒａｙ　Ｔｕｂｅ）、ＬＣＤ、または有機ＥＬなどのディスプレイ装置、スピーカー、ヘッドホンなどのオーディオ出力装置、プリンタ、携帯電話、またはファクシミリなど、取得した情報を利用者に対して視覚的または聴覚的に通知することが可能な装置である。また、本実施形態に係る出力装置８０９は、触覚刺激を出力することが可能な種々の振動デバイスを含む。

（ストレージ８１０）
　ストレージ８１０は、各種のデータを格納するための装置である。ストレージ８１０としては、例えば、ハードディスクドライブ（ＨＤＤ）などの磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどが用いられる。

（ドライブ８１１）
　ドライブ８１１は、例えば、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体９０１に記録された情報を読み出し、またはリムーバブル記録媒体９０１に情報を書き込む装置である。

（接続ポート８１２）
　接続ポート８１２は、例えば、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（Ｓｍａｌｌ　Ｃｏｍｐｕｔｅｒ　Ｓｙｓｔｅｍ　Ｉｎｔｅｒｆａｃｅ）、ＲＳ－２３２Ｃポート、または光オーディオ端子などのような外部接続機器９０２を接続するためのポートである。

（通信装置８１３）
　通信装置８１３は、ネットワークに接続するための通信デバイスであり、例えば、有線または無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、またはＷＵＳＢ（Ｗｉｒｅｌｅｓｓ　ＵＳＢ）用の通信カード、光通信用のルータ、ＡＤＳＬ（Ａｓｙｍｍｅｔｒｉｃ　Ｄｉｇｉｔａｌ　Ｓｕｂｓｃｒｉｂｅｒ　Ｌｉｎｅ）用のルータ、または各種通信用のモデムなどである。

（リムーバブル記録媒体９０１）
　リムーバブル記録媒体９０１は、例えば、ＤＶＤメディア、Ｂｌｕ－ｒａｙ（登録商標）メディア、ＨＤ　ＤＶＤメディア、各種の半導体記憶メディアなどである。もちろん、リムーバブル記録媒体９０１は、例えば、非接触型ＩＣチップを搭載したＩＣカード、または電子機器などであってもよい。

（外部接続機器９０２）
　外部接続機器９０２は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、またはＩＣレコーダなどである。

　なお、本実施形態に係る記憶部１１０は、ＲＯＭ８０２やＲＡＭ８０３、ストレージ８１０によって実現される。また、プロセッサ８０１によって実現される本実施形態に係る制御部１８０が、取得部１２０、決定部１３０、算出部１４０、選択部１５０、検出部１６０、判定部１７０を実現する各制御プログラムを、ＲＯＭ８０２やＲＡＭ８０３などから読み出し実行する。

＜４．まとめ＞
　以上説明したように、情報処理装置１００は、所定の作業の撮影動画から複数の撮影画像を取得する取得部１２０と、前記撮影画像から、基準となる基準画像を決定する決定部１３０と、前記基準画像と、前記撮影画像の他の画像との第１の画像間距離を算出する算出部１４０と、前記第１の画像間距離に基づいて、前記撮影画像から、機械学習の教師データとして用いる入力画像を選択する選択部１５０とを備える。

　これにより、撮影動画から偏りの少ない教師データを効率的に集めることができる。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　なお、本技術は以下のような構成も取ることができる。
（１）所定の作業の撮影動画から複数の撮影画像を取得する取得部と、
　前記撮影画像から、基準となる基準画像を決定する決定部と、
　前記基準画像と、前記撮影画像の他の画像との第１の画像間距離を算出する算出部と、
　前記第１の画像間距離に基づいて、前記撮影画像から、機械学習の教師データとして用いる入力画像を選択する選択部と
　を備えた、情報処理装置。
（２）前記算出部はさらに、前記第１の画像間距離の最大値を所定の間隔で分割することにより、前記基準画像との第２の画像間距離を算出し、
　前記選択部は、前記入力画像として、前記撮影画像から、前記第２の画像間距離と同一または最も近い画像を選択する、前記（１）に記載の情報処理装置。
（３）前記算出部はさらに、前記第１の画像間距離の最大値を、所定の閾値以上の範囲で所定の間隔で分割することにより、前記基準画像との第２の画像間距離を算出し、
　前記選択部は、前記入力画像として、前記撮影画像から、前記第２の画像間距離と同一または最も近い画像を選択する、前記（１）に記載の情報処理装置。
（４）前記撮影画像から任意のオブジェクトを検出する検出部をさらに備え、
　前記決定部はさらに、
　前記基準画像から検出された前記オブジェクトを含んだ所定範囲を第１の部分画像に決定し、
　前記他の画像から検出された前記オブジェクトを含んだ所定範囲を第２の部分画像に決定し、
　前記算出部は、前記第１の部分画像と前記第２の部分画像との前記第１の画像間距離を算出する、前記（１）乃至（３）のいずれか１つに記載の情報処理装置。
（５）前記撮影画像から任意のオブジェクトを検出する検出部をさらに備え、
　前記決定部はさらに、
　前記基準画像から検出された前記オブジェクトを含んだ所定範囲を第１の部分画像に決定し、
　前記他の画像から検出された前記オブジェクトを含んだ所定範囲を第２の部分画像に決定し、
　前記算出部は、前記撮影画像全体と前記他の画像全体との第３の画像間距離、および前記第１の部分画像と前記第２の部分画像との第４の画像間距離に基づいて、前記第１の画像間距離を算出する、前記（１）乃至（３）のいずれか１つに記載の情報処理装置。
（６）所定の作業の撮影動画から複数の撮影画像を取得する取得部と、
　予め定められた作業手順書に基づいて、前記撮影画像から、前記所定の作業の開始時に対応する前記撮影画像を基準画像に決定する決定部と、
　前記撮影画像から任意のオブジェクトを検出する検出部と、
　前記作業手順書に基づいて、前記開始時から前記所定の作業の終了時の間の前記オブジェクトを含んだ前記撮影画像から、機械学習の教師データとして用いる入力画像を選択する選択部と
　を備えた、情報処理装置。
（７）所定の作業の撮影動画から複数の撮影画像を取得する取得部と、
　前記所定の作業の作業者を検出し、
　前記撮影画像から任意のオブジェクトを検出する検出部と、
　前記作業者が代わったか否かを判定する判定部と、
　前記作業者が代わったと判定した場合に、前記作業者が代わったと判定した時点以降の前記オブジェクトを含んだ前記撮影画像から、機械学習の教師データとして用いる入力画像を選択する選択部と
　を備えた、情報処理装置。
（８）情報処理装置に、
　所定の作業の撮影動画から複数の撮影画像を取得し、
　前記撮影画像から、基準となる基準画像を決定し、
　前記基準画像と、前記撮影画像の他の画像との第１の画像間距離を算出し、
　前記第１の画像間距離に基づいて、前記撮影画像から、機械学習の教師データとして用いる入力画像を選択する
　処理を実行させる、プログラム。
（９）情報処理装置が、
　所定の作業の撮影動画から複数の撮影画像を取得し、
　前記撮影画像から、基準となる基準画像を決定し、
　前記基準画像と、前記撮影画像の他の画像との第１の画像間距離を算出し、
　前記第１の画像間距離に基づいて、前記撮影画像から、機械学習の教師データとして用いる入力画像を選択する
　処理を実行する、方法。
（１０）情報処理装置に、
　予め定められた作業手順書に基づいて、所定の作業の撮影動画から複数の撮影画像を取得し、
　前記作業手順書に基づいて、前記撮影画像から、前記所定の作業の開始時に対応する前記撮影画像を基準画像に決定し、
　前記撮影画像から任意のオブジェクトを検出し、
　前記作業手順書に基づいて、前記開始時から前記所定の作業の終了時の間の前記オブジェクトを含んだ前記撮影画像から、機械学習の教師データとして用いる入力画像を選択する
　処理を実行させる、プログラム。
（１１）情報処理装置が、
　予め定められた作業手順書に基づいて、所定の作業の撮影動画から複数の撮影画像を取得し、
　前記作業手順書に基づいて、前記撮影画像から、前記所定の作業の開始時に対応する前記撮影画像を基準画像に決定し、
　前記撮影画像から任意のオブジェクトを検出し、
　前記作業手順書に基づいて、前記開始時から前記所定の作業の終了時の間の前記オブジェクトを含んだ前記撮影画像から、機械学習の教師データとして用いる入力画像を選択する
　処理を実行する、方法。
（１２）情報処理装置に、
　所定の作業の撮影動画から複数の撮影画像を取得し、
　前記所定の作業の作業者を検出し、
　前記撮影画像から任意のオブジェクトを検出し、
　前記作業者が代わったか否かを判定し、
　前記作業者が代わったと判定した場合に、前記作業者が代わったと判定した時点以降の前記オブジェクトを含んだ前記撮影画像から、機械学習の教師データとして用いる入力画像を選択する
　処理を実行させる、プログラム。
（１３）情報処理装置が、
　所定の作業の撮影動画から複数の撮影画像を取得し、
　前記所定の作業の作業者を検出し、
　前記撮影画像から任意のオブジェクトを検出し、
　前記作業者が代わったか否かを判定し、
　前記作業者が代わったと判定した場合に、前記作業者が代わったと判定した時点以降の前記オブジェクトを含んだ前記撮影画像から、機械学習の教師データとして用いる入力画像を選択する
　処理を実行する、方法。

　１００　情報処理装置
　１１０　記憶部
　１２０　取得部
　１３０　決定部
　１４０　算出部
　１５０　選択部
　１６０　検出部
　１７０　判定部
　１８０　制御部

Claims

　所定の作業の撮影動画から複数の撮影画像を取得する取得部と、
　前記撮影画像から、基準となる基準画像を決定する決定部と、
　前記基準画像と、前記撮影画像の他の画像との第１の画像間距離を算出する算出部と、
　前記第１の画像間距離に基づいて、前記撮影画像から、機械学習の教師データとして用いる入力画像を選択する選択部と
　を備えた、情報処理装置。
　前記算出部はさらに、前記第１の画像間距離の最大値を所定の間隔で分割することにより、前記基準画像との第２の画像間距離を算出し、
　前記選択部は、前記入力画像として、前記撮影画像から、前記第２の画像間距離と同一または最も近い画像を選択する、請求項１に記載の情報処理装置。
　前記算出部はさらに、前記第１の画像間距離の最大値を、所定の閾値以上の範囲で所定の間隔で分割することにより、前記基準画像との第２の画像間距離を算出し、
　前記選択部は、前記入力画像として、前記撮影画像から、前記第２の画像間距離と同一または最も近い画像を選択する、請求項１に記載の情報処理装置。
　前記撮影画像から任意のオブジェクトを検出する検出部をさらに備え、
　前記決定部はさらに、
　前記基準画像から検出された前記オブジェクトを含んだ所定範囲を第１の部分画像に決定し、
　前記他の画像から検出された前記オブジェクトを含んだ所定範囲を第２の部分画像に決定し、
　前記算出部は、前記第１の部分画像と前記第２の部分画像との前記第１の画像間距離を算出する、請求項１に記載の情報処理装置。
　前記撮影画像から任意のオブジェクトを検出する検出部をさらに備え、
　前記決定部はさらに、
　前記基準画像から検出された前記オブジェクトを含んだ所定範囲を第１の部分画像に決定し、
　前記他の画像から検出された前記オブジェクトを含んだ所定範囲を第２の部分画像に決定し、
　前記算出部は、前記撮影画像全体と前記他の画像全体との第３の画像間距離、および前記第１の部分画像と前記第２の部分画像との第４の画像間距離に基づいて、前記第１の画像間距離を算出する、請求項１に記載の情報処理装置。
　所定の作業の撮影動画から複数の撮影画像を取得する取得部と、
　予め定められた作業手順書に基づいて、前記撮影画像から、前記所定の作業の開始時に対応する前記撮影画像を基準画像に決定する決定部と、
　前記撮影画像から任意のオブジェクトを検出する検出部と、
　前記作業手順書に基づいて、前記開始時から前記所定の作業の終了時の間の前記オブジェクトを含んだ前記撮影画像から、機械学習の教師データとして用いる入力画像を選択する選択部と
　を備えた、情報処理装置。
　所定の作業の撮影動画から複数の撮影画像を取得する取得部と、
　前記所定の作業の作業者を検出し、
　前記撮影画像から任意のオブジェクトを検出する検出部と、
　前記作業者が代わったか否かを判定する判定部と、
　前記作業者が代わったと判定した場合に、前記作業者が代わったと判定した時点以降の前記オブジェクトを含んだ前記撮影画像から、機械学習の教師データとして用いる入力画像を選択する選択部と
　を備えた、情報処理装置。
　情報処理装置に、
　所定の作業の撮影動画から複数の撮影画像を取得し、
　前記撮影画像から、基準となる基準画像を決定し、
　前記基準画像と、前記撮影画像の他の画像との第１の画像間距離を算出し、
　前記第１の画像間距離に基づいて、前記撮影画像から、機械学習の教師データとして用いる入力画像を選択する
　処理を実行させる、プログラム。
　情報処理装置が、
　所定の作業の撮影動画から複数の撮影画像を取得し、
　前記撮影画像から、基準となる基準画像を決定し、
　前記基準画像と、前記撮影画像の他の画像との第１の画像間距離を算出し、
　前記第１の画像間距離に基づいて、前記撮影画像から、機械学習の教師データとして用いる入力画像を選択する
　処理を実行する、方法。
　情報処理装置に、
　予め定められた作業手順書に基づいて、所定の作業の撮影動画から複数の撮影画像を取得し、
　前記作業手順書に基づいて、前記撮影画像から、前記所定の作業の開始時に対応する前記撮影画像を基準画像に決定し、
　前記撮影画像から任意のオブジェクトを検出し、
　前記作業手順書に基づいて、前記開始時から前記所定の作業の終了時の間の前記オブジェクトを含んだ前記撮影画像から、機械学習の教師データとして用いる入力画像を選択する
　処理を実行させる、プログラム。
　情報処理装置が、
　予め定められた作業手順書に基づいて、所定の作業の撮影動画から複数の撮影画像を取得し、
　前記作業手順書に基づいて、前記撮影画像から、前記所定の作業の開始時に対応する前記撮影画像を基準画像に決定し、
　前記撮影画像から任意のオブジェクトを検出し、
　前記作業手順書に基づいて、前記開始時から前記所定の作業の終了時の間の前記オブジェクトを含んだ前記撮影画像から、機械学習の教師データとして用いる入力画像を選択する
　処理を実行する、方法。
　情報処理装置に、
　所定の作業の撮影動画から複数の撮影画像を取得し、
　前記所定の作業の作業者を検出し、
　前記撮影画像から任意のオブジェクトを検出し、
　前記作業者が代わったか否かを判定し、
　前記作業者が代わったと判定した場合に、前記作業者が代わったと判定した時点以降の前記オブジェクトを含んだ前記撮影画像から、機械学習の教師データとして用いる入力画像を選択する
　処理を実行させる、プログラム。
　情報処理装置が、
　所定の作業の撮影動画から複数の撮影画像を取得し、
　前記所定の作業の作業者を検出し、
　前記撮影画像から任意のオブジェクトを検出し、
　前記作業者が代わったか否かを判定し、
　前記作業者が代わったと判定した場合に、前記作業者が代わったと判定した時点以降の前記オブジェクトを含んだ前記撮影画像から、機械学習の教師データとして用いる入力画像を選択する
　処理を実行する、方法。