WO2023058221A1

WO2023058221A1 - 画像処理装置及び画像処理方法

Info

Publication number: WO2023058221A1
Application number: PCT/JP2021/037332
Authority: WO
Inventors: 雅己岡本
Original assignee: 日産自動車株式会社
Priority date: 2021-10-08
Filing date: 2021-10-08
Publication date: 2023-04-13
Also published as: CN118076972A; JPWO2023058221A1

Abstract

本発明は、人間（７）及び前記人間（７）が身に付ける物品のうち少なくとも一方に装着された撮像装置（１１）から、前記人間（７）を含む画像を取得し、前記画像から前記人間（７）の姿勢を検出し、前記画像から、位置ずれを算出する基準としての基準位置を用いて前記撮像装置（１１）の位置ずれを算出し、前記位置ずれを用いて前記姿勢を補正する画像処理装置（１３）及び画像処理方法を提供する。

Description

画像処理装置及び画像処理方法

　本発明は、人間の行動を認識するための画像処理装置及び画像処理方法に関するものである。

　撮影者側からカメラにより撮影した三次元画像データ及び二次元画像データのペアを取得し、三次元画像データに基づいてカメラの位置姿勢を推定し、推定されたカメラの位置姿勢と、予め求められた撮影者の体型を表す体型パラメータと、三次元画像データとに基づいて、撮影者の骨格姿勢を表す骨格姿勢パラメータを抽出し、骨格姿勢パラメータに基づいて撮影者の姿勢特徴量を抽出し、二次元画像データに基づいて画像特徴量を抽出し、姿勢特徴量及び画像特徴量と、撮影者の行動を識別するための予め学習された識別器パラメータとに基づいて、撮影者の行動を認識する方法が知られている（特許文献１）。

特開２０１６－９９９８２号公報

　しかしながら、上記従来技術では、人間の頭部などに装着されたカメラの装着位置が最初の位置からずれた場合に、カメラで取得した画像データを用いて人間の姿勢を正しく認識できないという問題がある。

　本発明が解決しようとする課題は、カメラの装着位置がずれた場合でも、人間の姿勢を正しく認識することができる画像処理装置及び画像処理方法を提供することである。

　本発明は、人間及び前記人間が身に付ける物品のうち少なくとも一方に装着された撮像装置から、前記人間を含む画像を取得し、前記画像から前記人間の姿勢を検出し、前記画像から、位置ずれを算出する基準としての基準位置を用いて前記撮像装置の位置ずれを算出し、前記位置ずれを用いて前記姿勢を補正することによって上記課題を解決する。

　本発明によれば、カメラの装着位置がずれた場合でも、人間の姿勢を正しく認識することができる。

本発明に係る画像処理装置を含む画像処理システムの実施形態の一つを示すブロック図である。図１の撮像装置を備えるウェアラブル端末と、操作者の左腕の前腕及び左手とを示す平面図である。人間（操作者）の頭部と、図１の撮像装置であるカメラが取付けられたヘルメットとを示す斜視図である。図１の撮像装置であるカメラと、操作者の右腕とを示す平面図である。図２Ａのウェアラブル端末で撮影した操作者の画像の一例を示す図である。図２Ｂのカメラで撮影した操作者の画像の一例を示す図である。図２Ｃのカメラで撮影した操作者の画像の一例を示す図である。図３Ａに示す操作者の姿勢を検出する方法の一例を示す図である。図３Ｂに示す操作者の姿勢を検出する方法の一例を示す図である。図３Ｃに示す操作者の姿勢を検出する方法の一例を示す図である。図２Ａのウェアラブル端末で撮影した操作者の画像の別の例を示す図である。図２Ｃのカメラで撮影した操作者の画像の別の例を示す図である。図２Ｂのカメラで撮影した操作者の画像の別の例を示す図である（その１）。図２Ｂのカメラで撮影した操作者の画像の別の例を示す図である（その２）。図１の画像処理システムにおける情報処理の手順の一例を示すフローチャートである。

　以下、本発明に係る画像処理装置と画像処理方法の実施形態を図面に基づいて説明する。

［画像処理システム］
　図１は、本発明に係る画像処理システム１を示すブロック図である。画像処理システム１は、所定操作を行う操作者（本発明に係る人間に相当する。）の行動を検出する装置である。所定操作は特に限定されず、たとえば、車両の乗員（ドライバーを含む。以下同じ。）による車載機器の操作と、工場において組立て作業に従事する作業員の工具の操作と、車両の販売店（以下、「ディーラー」とも言う。）において、車両の整備に従事する整備士の整備用具の操作とが挙げられる。画像処理システム１により行動を検出される操作者（以下、単に「操作者」とも言う。）は特に限定されず、車両の乗員、工場の作業員及びディーラーの整備士などが挙げられる。画像処理システム１により検出される行動は、たとえば、車両の乗員がエアコンなどの車載機器を操作するために、車載機器のスイッチに手を延ばす行動と、組立て工場の作業員が工具箱からトルクレンチを取り出す行動と、ディーラーの整備士が車両を持ち上げるリフトを上下させるスイッチに触れる行動とが挙げられる。本実施形態の画像処理システム１により上述したような行動を検出することで、車載機器の操作に付随した機能が適切に発現したか否か、車両の組立て工場において、組立て作業に従事する作業員の組立て作業が、予め決められた手順に従って行われたか否か、車両の販売店において、車両の整備に従事する整備士の整備がマニュアルに従って行われたか否かなどを確認することができる。

　図１に示すように、画像処理システム１は、撮像装置１１と、表示装置１２と、画像処理装置１３とを備える。画像処理システム１を構成する機器は、有線又は無線ＬＡＮなどの公知の手段により、互いにデータの授受が可能な状態で接続されている。撮像装置１１及び表示装置１２の数は、それぞれ、少なくとも１以上であれば特に限定されない。また、撮像装置１１及び表示装置１２は、画像処理装置１３と共に設けられている必要はなく、画像処理装置１３から離れた場所に設置されていてもよい。たとえば、撮像装置１１と表示装置１２とを、組立て工場の組立てラインの近くに設置し、画像処理装置１３を、組立てラインから離れた中央制御室、又は組立て工場から離れた遠隔地のサーバーに設けてもよい。

　撮像装置１１は、操作者の周囲に存在する対象物の画像データを取得するための装置であり、たとえば、ＣＣＤなどの撮像素子を備えるカメラ、超音波カメラ、赤外線カメラなどのカメラである。対象物には、操作者に加えて、操作者の周囲に存在する物体が含まれる。たとえば、車両の乗員の周囲にあるスイッチやタッチパネル、作業員が組立てているパーツや使用している工具、ディーラーの整備士が整備する車両などが、対象物に含まれる。また、撮像装置１１は、車両のダッシュボード、ルーフ及び座席、組立て工場の組立てライン、作業台及び作業員が使用する道具の近傍、並びにディーラーのリフトなど、操作者の身体の姿勢を検出することができる位置に設置される。

　本実施形態の撮像装置１１は、上述した所定操作を行う操作者、及び操作者が身に付ける物品のうち少なくとも一方に装着される。この際、撮像装置１１は、操作者の身体の少なくとも一部が撮影できるように取付けられる。操作者に撮像装置１１を装着する場合には、たとえば、撮像装置１１を操作者の頭部、上腕、前腕、腹部、大腿及び下腿などに装着する。装着方法としては、たとえば、面ファスナーやバックルを用いて、操作者の身体に巻き付けて固定する方法と、粘着性のテープを用いて操作者の身体に貼り付ける方法と、接着剤を用いて操作者の身体に接着させる方法とが挙げられる。

　一例として、撮像装置１１と、表示装置１２と、画像処理装置１３とを、スマートウォッチのような一つのウェアラブル端末３に統合した場合には、図２Ａに示すように装着される。図２Ａは、操作者の左腕の前腕７３ｂと左手７３ｃとを示す平面図であり、左腕の前腕７３ｂは衣服により覆われている。この場合に、ウェアラブル端末３は、面ファスナーを備えるバンド３１によって、操作者の左腕の前腕７３ｂにおいて手首に近い部分に巻き付けて装着されている。ウェアラブル端末３は撮像装置１１を備えており、撮像装置１１は、図２Ａに破線で示す視野４の範囲の画像を撮影する。これにより、ウェアラブル端末３を装着した操作者の身体を含む画像を撮影できる。

　一方、操作者が身に付ける物品とは、所定操作を行う際に操作者が着る衣服及び防具などである。衣服及び防具としては、車両の乗員が身に付けるジャケット、コート、腕時計、指輪、イヤリング及びピアス、並びに組立て工場の作業員とディーラーの整備士とが身に付ける作業着、帽子、安全靴、ヘルメット、マスク及び防護メガネなどが挙げられる。操作者が着る衣服及び防具に撮像装置１１を装着する方法としては、たとえば、コート又は作業着に面ファスナーを用いて固定する方法と、帽子、ヘルメット、マスク、防護メガネなどにクランプのような部材を取付けて、当該部材により撮像装置１１を把持することで装着する方法と、粘着性のテープや接着剤を用いて、腕時計や安全靴に接着させる方法とが挙げられる。

　一例として、撮像装置１１が、広角レンズ、魚眼レンズ又は超広角レンズを備えたＣＣＤカメラである場合には、図２Ｂに示すように装着される。図２Ｂは、操作者の頭部７１と、頭部７１に装着されたヘルメット５とを示す斜視図である。この場合に、カメラ６は、操作者の身に付けるヘルメット５のつば５１に、操作者の身体が撮影できるように、下向きに取付けられている。カメラ６の取付け方法は、カメラ６を保持するためのブラケット５２をヘルメット５に取付け、ブラケット５２によりカメラ６を保持する。またこれに代えて、カメラ６を挟持する部分をヘルメット５に設け、当該部分をヘルメット５として一体成形し、カメラ６を挟持してもよい。カメラ６は、図２Ｂに破線で示す視野４ａの範囲の画像を撮影する。これにより、ヘルメット５を装着した操作者の身体を含む画像を撮影できる。

　また、カメラ６を操作者に装着する場合は、たとえば図２Ｃに示すように装着される。図２Ｃは、右腕の上腕７４ａ、右腕の前腕７４ｂ及び右手７４ｃからなる、操作者の右腕を示す平面図である。この場合に、カメラ６は、面ファスナーを備えるバンド６１によって、操作者の右腕の前腕７４ｂにおいて肘に近い部分に巻き付けて装着されている。カメラ６は、図２Ｃに破線で示す視野４ｂの範囲の画像を撮影する。これにより、カメラ６を装着した操作者の右手７４ｃを含む画像を撮影できる。図２Ｃでは、操作者の右手７４ｃの手の甲側を撮影できるようにカメラ６が装着されているが、カメラ６は、操作者の右手７４ｃの掌側を撮影できるように装着されていてもよい。どちらの側を撮影するかは、検出する操作者の行動により適宜選択する。なお、図２Ａの例では左腕にウェアラブル端末３を装着し、図２Ｃの例では右腕にカメラ６を装着しているが、ウェアラブル端末３及びカメラ６は、左右どちらの腕に装着してもよい。また、これらの装着位置は、操作者の行動を適切に検出できる範囲内で適宜の位置に設定することができる。

　図１に戻り、表示装置１２は、画像処理装置１３にて検出された行動を操作者に通知するための装置である。表示装置１２は、たとえば、液晶ディスプレイ、プロジェクターなどであり、スピーカーを備えていてもよい。表示装置１２は、車両のダッシュボード、組立て工場の作業員の作業場所など、操作者の近くであって、操作者に必要な情報を通知することができる位置に設置されるが、操作者の操作を監視する監督者が存在する場合は、監督者の近くに設置される。この場合、監督者が操作者から離れた場所にいるとすると、表示装置１２は、操作者から離れた位置に設置されることになる。また、表示装置１２は、メガネのようなウェアラブル端末として操作者に取付けられていてもよい。さらに、表示装置１２に代えて、検出された行動に応じて警報音を発するスピーカーのみとしてもよい。

　画像処理装置１３は、所定操作を行う操作者の姿勢から、当該操作者の行動を推定するための装置であり、たとえばコンピュータである。特に、画像処理装置１３は、操作者の姿勢を検出する際に、撮像装置１１の位置ずれを考慮することができる。画像処理装置１３は、撮像装置１１及び表示装置１２と協働することで、所定の時間間隔で撮像装置１１から画像データを取得し、取得した画像データを処理することで、操作者の姿勢検出と、撮像装置１１の位置ずれの補正と、操作者の行動推定とを行う。

　これらのデータ取得機能と、姿勢検出機能と、位置ずれ補正機能と、行動推定機能とを実現するため、画像処理装置１３は、プロセッサであるＣＰＵ（Central Processing Unit）１３１と、プログラムが格納されたＲＯＭ（Read Only Memory）１３２と、アクセス可能な記憶装置として機能するＲＡＭ（Random Access Memory）１３３とを備える。ＣＰＵ１３１は、ＲＯＭ１３２に格納されたプログラムを実行することで、画像処理装置１３として機能するための動作回路である。なお、画像処理装置１３は、撮像装置１１及び表示装置１２と共に設けられている必要はなく、これらの機器から離れた遠隔地のサーバーに設けられていてもよい。

［処理部］
　画像処理装置１３で用いるプログラムは、上述した画像処理装置１３の機能を実現するための機能ブロックである処理部２を含む。処理部２は、撮像装置１１と、表示装置１２とを制御して協働させることで、撮像装置１１から操作者を含む画像データを取得する機能（データ取得機能）と、取得した画像データを処理し、撮像装置１１の位置ずれを補正したうえで操作者の姿勢を検出する機能（姿勢検出機能及び位置ずれ補正機能）と、操作者の姿勢から操作者の行動を推定する機能（行動推定機能）とを実現する。これらの機能に対応する機能ブロックとして、処理部２は、図１に示すように、取得部２１と、検出部２２と、算出部２３と、補正部２４と、推定部２５と、出力部２６とを備える。図１には、各部を便宜的に抽出して示す。

　図１に示す画像処理装置１３は上記の機能ブロックを全て備えるが、単一の画像処理装置１３が全ての機能ブロックを備える必要はなく、上記の機能ブロックのうち一部のものを、画像処理システム１に含まれる他の機器、又は図示しない別の情報処理装置に設けてもよい。たとえば、図１の画像処理システム１において、検出部２２を撮像装置１１に設けてもよい。この場合には、撮像装置１１のＣＰＵ、ＲＯＭ、及びＲＡＭを用いて検出部２２の機能が実行されることになる。

　また、各機能ブロックの処理の全てを単一の装置にて実行する必要はなく、データが授受できる状態で接続された複数の装置をまたいで、各機能ブロックの機能を実現してもよい。たとえば、図１の画像処理システム１において、算出部２３にて実行される処理のうち、一部の処理を撮像装置１１にて実行し、残りの処理を画像処理装置１３にて実行するようにしてもよい。この場合には、撮像装置１１のＣＰＵ、ＲＯＭ、及びＲＡＭを用いて、算出部２３の機能を実現するための処理の一部が行われることになる。

　以下、処理部２の各機能ブロックが果たす機能について説明する。

　取得部２１は、撮像装置１１から、操作者を含む画像を取得する機能を有する。本実施形態の撮像装置１１は、図２Ａ～２Ｃに示すように、操作者の身体を含む画像を撮影できる位置及び向きに設置されているため、取得部２１は、撮像装置１１により撮影された画像のデータを所定の時間間隔で取得することで、操作者を含む画像を取得することができる。また、取得部２１により取得される画像データは静止画に限られず、動画のような時系列の画像であってもよい。取得部２１により取得された画像の例を図３Ａ～３Ｃに示す。

　図３Ａは、図２Ａに示すウェアラブル端末３により撮影された画像であり、車両の乗員である操作者７を含む画像である。車両の乗員である操作者７は、左腕の前腕７３ｂにウェアラブル端末３を装着しているため、ウェアラブル端末３から操作者７を撮影すると、図３Ａに示すように、左腕の上腕７３ａと左腕の前腕７３ｂが右側に写り、右腕の上腕７４ａと右腕の前腕７４ｂとが左側に写る。また、操作者７の頭部７１と首７２の全体が撮影され、胴体７５の一部も撮影されている。

　図３Ｂは、図２Ｂに示すカメラ６により撮影された画像であり、車両の組立て工場の作業員である操作者７を含む画像である。作業員である操作者７は、頭部７１に身に付けるヘルメット５のつば５１に、カメラ６を下向きに装着しているため、カメラ６から操作者７を撮影すると、頭部７１のうちつば５１より上の部分（つまりヘルメット５により覆われた部分）は撮影できない。そのため、図３Ｂに示すように、頭部７１の上側の部分については、画像を取得することができない。頭部７１の下には首７２と胴体７５とが写り、胴体７５の左側には、右腕の上腕７４ａと、右腕の前腕７４ｂと、右手７４ｃとが写り、胴体７５の右側には、左腕の上腕７３ａと、左腕の前腕７３ｂと、左手７３ｃとが写る。カメラ６は、操作者７を、操作者７の正面方向から撮影するため、図３Ａと同様に左右が反対になる。また、胴体７５の下側には、左脚７６の一部と、右脚７７の一部とが撮影されている。

　図３Ｃは、図２Ｃに示すカメラ６により撮影された画像であり、車両の組立て工場の作業員である操作者の右手７４ｃを含む画像である。作業員である操作者は、右腕の前腕７４ｂの肘に近い部分にカメラ６を装着しているため、カメラ６から右手７４ｃを撮影すると、図３Ｃに示すように、右腕の前腕７４ｂの手首側と、右手７４ｃとが写る。

　図１に戻り、検出部２２は、取得部２１により取得された画像から操作者７の姿勢を検出する機能を有する。操作者７の姿勢とは、操作者７の身体の構え又は格好であり、具体的には、操作者７の身体の各関節の位置と、関節同士が接続する関係のことを言う。たとえば、操作者７の身体の各関節の位置と、関節と関節を結ぶ身体の部位とが明らかになっている場合であれば、直交座標系で定義される三次元空間において、各関節の位置に対応する座標に点をプロットし、当該部位によりつながっている関節（点）と関節（点）との間を直線で結ぶことで、操作者の身体の構えを幾何学的に表すことができる。

　一例として、取得部２１により、図３Ａに示す画像が取得された場合には、検出部２２は、図４Ａに示すような処理を行い、操作者７の姿勢を検出する。図４Ａでは、まず、パターンマッチングなどにより、画像に含まれる操作者７の中から、操作者７の関節を検出する。具体的には、入力された画像データにおいて、操作者７の身体の向きが変化している部分などの特徴部分を抽出し、抽出された特徴部分について、データベース１４に格納されたクラス辞書と比較することで、特徴部分がどのクラスに属するのかを判定する。クラス辞書において、関節ごとのクラスが設定されていれば、特徴部分が関節に該当するか否かを判定することができる。

　次に、関節と判定された部分に点をプロットする。具体的には、図４Ａに示すように、操作者７の首７２の関節に相当する部分に点Ｐ１をプロットし、右肩の関節に相当する部分に点Ｐ２をプロットし、右肘の関節に相当する部分に点Ｐ３をプロットし、左肩の関節に相当する部分に点Ｐ４をプロットし、左肘の関節に相当する部分に点Ｐ５をプロットする。次に、点Ｐ１と点Ｐ２との間に、右肩に相当する直線を引き、点Ｐ２と点Ｐ３との間に、右腕の上腕７４ａに相当する直線を引き、点Ｐ１と点Ｐ４との間に、左肩に相当する直線を引き、点Ｐ４と点Ｐ５との間に、左腕の上腕７３ａに相当する直線を引く。

　また、図３Ａに示す画像には、操作者７の右手と左手とが含まれていないが、肘の関節から手首の間に関節は存在しないので、図４Ａに含まれる右腕の前腕７４ｂの延長線上に右手が存在し、左腕の前腕７３ｂの延長線上に左手が存在すると推測される。そこで、図４Ａに示すように、推測された右手（不図示）の位置に向けて点Ｐ３から直線を引き、推測された左手（不図示）の位置に向けて点Ｐ５から直線を引く。これらの直線は、たとえば、右腕の前腕７４ｂ及び左腕の前腕７３ｂの長さ方向に直行する方向において、右腕の前腕７４ｂ及び左腕の前腕７３ｂの中心を通る。また、図３Ａに示す画像には胴体７５の腰より下の部分が含まれていないが、首７２の関節に相当する点Ｐ１から、胴体７５の左右の中心部分を通る直線を引き、胴体７５の位置を表す。このように、検出部２２は、図３Ａに含まれる操作者７の身体の各関節の位置と、関節同士が接続する関係を、図４Ａに示す点Ｐ１～Ｐ５と、各点から引かれた直線とにより表すことで、操作者７の姿勢を検出する。

　また別の例として、取得部２１により、図３Ｂに示す画像が取得された場合には、検出部２２は、図４Ｂに示すような処理を行い、操作者７の姿勢を検出する。図４Ｂでは、まず、図４Ａにて説明したパターンマッチングと同様の処理により、関節を検出する。次に、図４Ａの場合と同様に、関節と判定された部分に点をプロットする。具体的には、図４Ｂに示すように、操作者７の首７２の関節に相当する部分に点Ｐ６をプロットし、右肩の関節に相当する部分に点Ｐ７をプロットし、右肘の関節に相当する部分に点Ｐ８をプロットし、右手首の関節に相当する部分に点Ｐ９をプロットし、左肩の関節に相当する部分に点Ｐ１０をプロットし、左肘の関節に相当する部分に点Ｐ１１をプロットし、左手首の関節に相当する部分に点Ｐ１２をプロットする。さらに、腰の関節に相当する部分に点Ｐ１３をプロットし、右脚の付け根の関節に相当する部分に点Ｐ１４をプロットし、右膝の関節に相当する部分に点Ｐ１５をプロットし、左脚の付け根の関節に相当する部分に点Ｐ１６をプロットし、左膝の関節に相当する部分に点Ｐ１７をプロットする。

　次に、点Ｐ６と点Ｐ７との間に、右肩に相当する直線を引き、点Ｐ７と点Ｐ８との間に、右腕の上腕７４ａに相当する直線を引き、点Ｐ８と点Ｐ９との間に、右腕の前腕７４ｂに相当する直線を引き、点Ｐ７と点Ｐ１０との間に、左肩に相当する直線を引き、点Ｐ１０と点Ｐ１１との間に、左腕の上腕７３ａに相当する直線を引き、点Ｐ１１と点Ｐ１２との間に、左腕の前腕７３ｂに相当する直線を引く。さらに、点Ｐ６と点Ｐ１３との間に、胴体７５に相当する直線を引き、点Ｐ１３と点Ｐ１４との間、及び点Ｐ１３と点Ｐ１６との間に、脚の付け根に相当する直線を引き、点Ｐ１４と点Ｐ１５との間に、右脚７７に相当する直線を引き、点Ｐ１６と点Ｐ１７との間に、左脚７６に相当する直線を引く。

　また、図３Ｂに示す画像には、操作者７の右足首と左足首とが含まれていないが、膝の関節から足首の間に関節は存在しないので、図４Ｂに含まれる右脚７７の延長線上に右足首が存在し、左脚７６の延長線上に左足首が存在すると推測される。そこで、図４Ｂに示すように、推測された両足首（不図示）の位置に向けて点Ｐ１５及びＰ１７から直線を引く。これらの直線は、たとえば、右脚７７及び左脚７６の長さ方向に直行する方向において、右脚７７及び左脚７６の中心を通る。このように、検出部２２は、図３Ｂに含まれる操作者７の身体の各関節の位置と、関節同士が接続する関係を、図４Ｂに示す点Ｐ６～Ｐ１７と、各点から引かれた直線とにより表すことで、操作者７の姿勢を検出する。

　さらに別の例として、取得部２１により、図３Ｃに示す画像が取得された場合には、検出部２２は、図４Ｃに示すような処理を行い、操作者の右手７４ｃの姿勢を検出する。図４Ｃでは、まず、図４Ａにて説明したパターンマッチングと同様の処理により、関節を検出する。次に、図４Ａの場合と同様に、関節と判定された部分に点をプロットする。具体的には、図４Ｃに示すように、操作者の右手首の関節に相当する部分に点Ｐ１８をプロットし、親指の関節に相当する部分に点Ｐ１９～Ｐ２０をプロットし、人差し指の関節に相当する部分に点Ｐ２１～Ｐ２３をプロットし、中指の関節に相当する部分に点Ｐ２４～Ｐ２６をプロットし、薬指の関節に相当する部分に点Ｐ２７～Ｐ２９をプロットし、小指の関節に相当する部分に点Ｐ３０～Ｐ３２をプロットする。次に、点Ｐ１８と点Ｐ１９との間と、点Ｐ１８と点Ｐ２１との間と、点Ｐ１８と点Ｐ２４との間と、点Ｐ１８と点Ｐ２７との間と、点Ｐ１８と点Ｐ３０との間に掌に相当する直線を引く。さらに、点Ｐ１９と点Ｐ２０との間に親指に相当する直線を引き、点Ｐ２１と点Ｐ２２との間と、点Ｐ２２と点Ｐ２３との間に人差し指に相当する直線を引き、点Ｐ２４と点Ｐ２５との間と、点Ｐ２５と点Ｐ２６との間に中指に相当する直線を引き、点Ｐ２７と点Ｐ２８との間と、点Ｐ２８と点Ｐ２９との間に薬指に相当する直線を引き、点Ｐ３０と点Ｐ３１との間と、点Ｐ３１と点Ｐ３２との間に小指に相当する直線を引く。

　また、図３Ｃに示す画像には、操作者の右肘が含まれていないが、肘から手首の間に関節は存在しないので、図４Ｃに含まれる右腕の前腕７４ｂの延長線上に右肘が存在すると推測される。そこで、図４Ｃに示すように、推測された右肘（不図示）の位置に向けて点Ｐ１８から直線を引く。この直線は、たとえば、右腕の前腕７４ｂの長さ方向に直行する方向において、右腕の前腕７４ｂの中心を通る。このように、検出部２２は、図３Ｃに含まれる操作者の右手７４ｃの各関節の位置と、関節同士が接続する関係を、図４Ｃに示す点Ｐ１８～Ｐ３２と、各点から引かれた直線とにより表すことで、操作者の右手７４ｃの姿勢を検出する。

　検出部２２は、上述した方法以外に、操作者７の身体の部位と、操作者７の周囲の物体との相対的な位置関係に基づいて、操作者７の姿勢を検出することができる。たとえば、操作者７が立っている地面に対して、操作者７の頭部７１および腕などがどこに位置するかを算出し、当該算出結果を基に操作者７の姿勢を検出する。またこれに代えて、又はこれに加えて、検出部２２は、操作者７の身体の部位の向きから姿勢を検出することができる。たとえば、操作者７の眼の位置（視線）、手の向き、足の向き、胴体７５の向きから、操作者７の姿勢を検出する。

　また、検出部２２により点が設定される関節は、図４Ａ～４Ｃに示す関節に限定されない。図４Ａ及び４Ｂでは、図４Ａ及び４Ｂに示す関節より細かい関節を検出し、より多くの点をプロットしてもよい。たとえば、図４Ｃに示すように、左手７３ｃ及び右手７４ｃの指の関節に相当する部分に点をプロットし、左手７３ｃ及び右手７４ｃの指がどのような格好になっているかを検出してもよい。これにより、車両の乗員が車両の車載機器に触れているか否か、組立てラインの作業員が工具を握っているか否かといった、細かな姿勢の検出ができる。

　検出部２２は、取得部２１により取得された画像から操作者７の姿勢を検出する場合に、操作者７が含まれる画像から操作者７の姿勢を推定するように予め学習された姿勢推定モデルを用いてもよい。姿勢推定モデルは、たとえば、図１に示すデータベース１４に格納されている。姿勢推定モデルでは、操作者７が含まれる画像と、当該画像において検出された操作者７の姿勢とが対応するように関連付けられており、ある画像データを入力すると、入力した画像データに対応する、操作者７の姿勢が出力される。姿勢推定モデルは、図１に示す第１機械学習部２２１により機械学習される。具体的には、データベース１４に格納された、過去の画像と操作者７の姿勢の検出結果とを用いて、姿勢推定モデルが、入力された画像データに対して適切な姿勢を検出し、結果を出力するように、学習させる。

　また、姿勢推定モデルは、機械学習を行った学習済みモデルであってもよい。学習済みモデルとは、ある入力データに対して適切な出力データが得られるように、予め機械学習により学習されたモデルであり、少なくとも、入力データから出力データを得るまでの演算を行うプログラムと、当該演算に用いられる重み付け係数（パラメータ）とを備える。当該学習済みモデルは、取得部２１にて取得された画像データが入力データとして入力されると、当該入力データに基づいて、操作者７の姿勢を含む出力データが出力されるようにコンピュータ（特に、プロセッサであるＣＰＵ１３１）を機能させる。このような学習済みモデルを用いることで、学習された操作以外の操作を行う操作者７についても、姿勢を検出することができる。

　本実施形態の学習済みモデルは特に限定されないが、たとえばニューラルネットワークである。ニューラルネットワークは、入力層と、中間層と、及び出力層とを備え、各層には少なくとも一つのニューロンが含まれている。入力層には、取得部２１にて取得された画像データを含む入力データが入力され、入力されたデータを中間層に出力する。中間層は、入力層から入力されたデータから、操作者７のデータを抽出する。次に、抽出した操作者７のデータから、姿勢と検出する。出力層は、中間層から入力されたデータを、姿勢のデータを含む出力データとして出力する。中間層におけるパラメータとしては、操作者７の関節の位置と、関節同士の接続関係が考慮される。

　算出部２３は、取得部２１により取得された画像から、位置ずれを算出する基準としての基準位置を識別し、識別された基準位置を用いて撮像装置１１の位置ずれを算出する機能を有する。本実施形態の撮像装置１１は、操作者７、及び操作者７が身に付ける物品のうち少なくとも一方に装着されるが、装着された撮像装置１１が完全に固定されているとは限らず、操作者７が所定操作を行う間に、撮像装置１１の装着位置が、最初に装着された位置から移動する場合がある。たとえば、図２Ａにおいて、バンド３１が手首に対して回転することで、ウェアラブル端末３が、左手７３ｃの親指側に回転して移動した場合には、取得部２１により、図５Ａのような操作者７が反時計回り（矢印８の方向）に回転した画像が取得される。また、図２Ｃにおいて、バンド６１が緩むことで、カメラ６が時計回りに回転した場合には、取得部２１により、図５Ｂのような右手７４ｃが時計回り（矢印９の方向）に回転した画像が取得される。これら場合に、検出部２２において、操作者７の姿勢が正しく検出されないおそれがあるため、算出部２３の機能により、撮像装置１１の装着位置の位置ずれを算出し、後述する補正部２４の機能により、検出部２２により検出された姿勢を補正する。これにより、操作者７の姿勢が正しく検出される。

　撮像装置１１の位置ずれは、所定状態の基準位置に対して算出される。所定状態とは、たとえば、撮像装置１１を装着した最初の状態（以下、「初期状態」とも言う。）、操作者７が所定操作を開始したときの状態、ある時点（たとえば現在）から所定時間前の状態又はある時間における状態である。これらの状態における基準位置に対して、基準位置がどれだけ移動したか（ずれたか）を算出し、当該算出結果を撮像装置１１の位置ずれとする。当該位置ずれを算出する際に、算出部２３は、画像に含まれる操作者７の身体の一部を基準位置として識別し、識別した身体の一部を用いて位置ずれを算出する。

　上述した身体の一部は、位置ずれを可能な限り簡単に算出するために識別される身体の部位であって、部位自体が関節などの可動部分を持たないものである。具体的には、撮像装置１１が操作者７に装着されている場合には、撮像装置１１が装着された部分との間に関節が存在しない部位であり、撮像装置１１が、操作者７が身に付ける物品に装着されている場合には、操作者７が身に付けた物品と接触している部分との間に関節が存在しない部位である。部位自体に関節により可動する部分が存在しない理由は、身体の部位を基準位置として位置ずれを算出する場合に、関節が可動して基準位置の部位が移動したのか、撮像装置１１の装着位置が位置ずれて基準位置の部位が移動したのかを区別する必要があり、位置ずれを正確に算出することが難しくなるためである。また、撮像装置１１が装着された部分、及び操作者７が身に付けた物品と接触している部分との間に関節が存在しない理由は、撮像装置１１と識別した部位との間に関節が存在すると、基準位置として設定した部位の移動が、関節の可動によるものか、装着位置の位置ずれによるものかを区別することが難しくなるためである。

　ただし、撮像装置１１が装着された位置を用いて、撮像装置１１の装着部分の位置ずれを算出することはできないため、操作者７の身体の部位のうち、撮像装置１１が装着された部分と、操作者７が身に付ける物品と接触している部分は、基準位置となる部位の候補から除かれる。ここで、撮像装置１１が装着された部分と、操作者７が身に付ける物品と接触している部分は、操作者７の身体の部位の一部である。つまり、基準位置となる部位として識別された部位と、撮像装置１１の装着された部位は、同じ部位であってもよい。また、基準位置となる部位として識別された部位と、操作者７が身に付ける物品と接触している部位は、同じ部位であってもよい。

　基準位置となる部位を検出する場合には、たとえば、画像データに含まれる操作者７の身体のうち、予め設定された部位をパターンマッチングにより検出する。そして、予め設定された部位が識別された場合に、当該部位を、位置ずれを算出するための基準位置として設定する。一例として、図２Ａに示すように、左手７３ｃの手首にウェアラブル端末３を装着している場合は、手首から左肘の関節までの間に存在する左腕の前腕７３ｂを、基準位置となる部位として予め設定しておく。左腕の前腕７３ｂ自体は関節により可動する部分を持たず、装着されたウェアラブル端末３と左腕の前腕７３ｂとの間に関節は存在しない。これに対して、左手７３ｃは指の関節を備えるため、位置ずれを算出するための基準位置にはならない。別の例として、図２Ｂに示すように、頭部７１にヘルメット５を装着している場合は、ヘルメット５により覆われていない鼻を、基準位置となる部位として予め設定しておく。鼻自体は関節により可動する部分を持たず、ヘルメット５により覆われた部分と鼻との間に関節は存在しない。これに対して、顎及び口は、顎の関節により下顎が動くため、位置ずれを算出するための基準位置にはならない。さらに別の例として、図２Ｃに示すように、右腕の前腕７４ｂにおいて肘に近い部分にカメラ６を装着している場合は、右腕の前腕７４ｂを、基準位置となる部位として予め設定しておく。右腕の前腕７４ｂ自体は関節により可動する部分を持たず、装着されたカメラ６と右腕の前腕７４ｂ（特に右腕の前腕７４ｂの手首側）との間に関節は存在しない。これに対して、右手７４ｃは右手首の関節により動くため、位置ずれを算出するための基準位置にはならない。

　一例として、図６Ａ～６Ｂに、位置ずれを算出するための基準位置として鼻を識別し、識別した鼻を基準位置に設定した場合に、位置ずれを算出する方法を示す。図６Ａは、図２Ｂに示すカメラ６にて頭部７１を撮影したときに取得された画像の一例を示す平面図である。図６Ａには、頭部７１と鼻７１１が含まれており、鼻７１１が、位置ずれを算出するための基準位置に設定されている。ここで、図６Ａの場合の位置ずれは、最初に撮像装置１１を装着したときの位置、すなわち図６Ａに示す初期状態の位置に対して算出されるものとする。この場合に、ヘルメット５が反時計回りに回転したとすると、図６Ｂに示すように、最初にヘルメット５を被ったときの撮像装置１１の位置と比較して、操作者７を平面視した場合の頭部７１の中心７１２に対して、角度αだけ頭部７１が時計回りに回転したように見える。ところが、ヘルメット５がきちんと操作者７に装着されていれば、操作者７が回転しても、画像における鼻７１１の位置は変化しない。実際には、操作者７自身は回転しておらず、ヘルメット５が回転しただけである。算出部２３は、図６Ｂのように、基準位置である鼻が、初期状態である、最初に撮像装置１１を装着した位置に対して移動した画像が取得された場合には、初期状態の鼻７１１の位置（つまり中心７１２の位置）に対して鼻が移動した距離及び角度（図６Ｂの場合は角度α）を検出する。次に、検出した距離及び角度から、ヘルメット５（カメラ６）が回転したことに起因する位置ずれを算出する。そして、算出した位置ずれの情報を、補正部２４に出力する。なお、初期状態の撮像装置１１の装着位置又は鼻７１１の位置を、位置ずれを算出するための起算位置とも言う。

　また、基準位置となる部位を予め設定せずに、取得部２１により取得された時系列の画像から、基準位置となる部位を識別してもよい。たとえば、所定の周期で撮影された時系列の画像において、撮像装置１１の装着位置の位置ずれを検出することができる所定の範囲内（たとえば５ｍｍ以下）の距離しか移動していない部位を検出し、当該部位を基準位置として識別する。たとえば、右脚の足首に上向きに撮像装置１１を装着した場合には、１分の周期で撮影された時系列の画像において、画像内における移動量が５ｍｍ以下となる部位を検出する。この場合、右脚の足首から上向きに操作者７を撮影しているため、右脚のふくらはぎは足首に対してほとんど移動しない。そのため、右脚のふくらはぎが基準位置として識別される。

　さらに、算出部２３は、取得部２１が、基準位置となる部位を含む時系列の画像を取得した場合に、当該時系列の画像における当該部位の移動量から位置ずれを算出する。たとえば、図６Ａ及び６Ｂに示す鼻７１１の動きを、ヘルメット５を装着してから、図６Ｂのようにヘルメット５が回転するまでの間の時系列の画像として取得し、ヘルメット５を装着してから鼻７１１がどの方向にどれだけ移動したかを算出し、算出結果を位置ずれとすることができる。この場合に、位置ずれを算出するための起算位置は、時系列の画像における当該部位の最初の位置に設定してもよい。

　算出部２３は、取得部２１により取得された画像から位置ずれを算出する場合に、当該画像における、基準位置として設定された部位の位置から位置ずれを推定するように予め学習された位置ずれ推定モデルを用いてもよい。位置ずれ推定モデルは、たとえば、図１に示すデータベース１４に格納されている。位置ずれ推定モデルでは、操作者７が含まれる画像と、当該画像において算出された位置ずれが対応するように関連付けられており、ある画像データを入力すると、入力した画像データに対応する位置ずれが出力される。位置ずれ推定モデルは、図１に示す第２機械学習部２３１により機械学習される。具体的には、データベース１４に格納された、過去の画像と位置ずれの算出結果とを用いて、位置ずれ推定モデルが、入力された画像データに対して適切な位置ずれを推定し、結果を出力するように、学習させる。

　また、位置ずれ推定モデルは、機械学習を行った学習済みモデルであってもよい。当該学習済みモデルは、取得部２１にて取得された画像データが入力データとして入力されると、当該入力データに基づいて、位置ずれを含む出力データが出力されるようにコンピュータ（特に、プロセッサであるＣＰＵ１３１）を機能させる。このような学習済みモデルを用いることで、学習された操作以外の操作を行う操作者７についても、位置ずれを算出することができる。

　本実施形態の学習済みモデルは特に限定されないが、たとえばニューラルネットワークである。ニューラルネットワークは、入力層と、中間層と、及び出力層とを備え、各層には少なくとも一つのニューロンが含まれている。入力層には、取得部２１にて取得された画像データを含む入力データが入力され、入力されたデータを中間層に出力する。中間層は、入力層から入力されたデータから、操作者７のデータを抽出する。次に、抽出した操作者７のデータから、位置ずれを推定する。出力層は、中間層から入力されたデータを、位置ずれのデータを含む出力データとして出力する。中間層におけるパラメータとしては、操作者７の関節の位置と、関節同士の接続関係が考慮される。

　また、算出部２３は、取得部２１により、撮像装置１１の位置を特定するための模様を含む画像が取得された場合には、当該模様を基準位置として識別し、模様から特定された撮像装置１１の位置を用いて位置ずれを算出してもよい。模様とは、画像において位置ずれを算出する際に基準となるものであれば特に限定されず、交差する複数の線、星型のマークなどが挙げられる。たとえば、車両の乗員が装着するマスクにグリッド線の模様を付しておき、グリッド線を用いて、撮像装置１１の装着位置の位置ずれを算出する。さらに、算出部２３は、検出部２２により、操作者７の周囲に設置された検出装置を用いて、撮像装置１１の位置と、操作者７の姿勢とが検出された場合には、検出部２２にて検出された、撮像装置１１の位置と操作者７の姿勢とに基づいて位置ずれを算出してもよい。たとえば、組立て工場の作業員の前に設置されたカメラを用いて、撮像装置１１の位置と操作者７の姿勢とを検出し、検出した結果を用いて操作者７の行動を推定する。

　補正部２４は、算出部２３により算出された撮像装置１１の位置ずれを用いて、検出部２２により検出された姿勢を補正する機能を有する。補正部２４は、算出部２３により算出された位置ずれの情報を用いて、検出部２２にて取得された、幾何学的に表された操作者７の姿勢に対して、幾何学的な変換を行う。たとえば、図６Ｂに示すように、ヘルメット５が角度αだけ反時計回りに回転した場合には、検出された姿勢について、角度αだけ時計回りに回転する変換を行う。これにより、ヘルメット５が回転し、装着位置がずれる前の操作者７の姿勢、つまり操作者７の正確な姿勢を検出することができる。また、ヘルメット５が、操作者７に対して前後方法及び左右方向にずれた場合には、検出された姿勢について、並進、回転、拡大及び縮小のうち少なくとも一つの線形変換を行い、ヘルメット５の移動（つまり位置ずれ）を補正する処理を行う。図２Ａに示すウェアラブル端末３及び図２Ｃに示すカメラ６についても、同様の幾何学的な変換を行うことで、位置ずれを補正することができる。

　推定部２５は、補正部２４により補正された、操作者７の姿勢から、操作者７の行動を推定する機能を有する。操作者７の行動とは、所定操作を完了させるために必要なあらゆる行動のことを言い、車両の乗員がエアコンなどの車載機器を操作するために、車載機器のスイッチに手を延ばす行動、組立て工場の作業員が工具箱からトルクレンチを取り出す行動、及びディーラーの整備士が車両を持ち上げるリフトを上下させるスイッチに触れる行動に加えて、車両の乗員が、車両の窓ガラスを上下させるスイッチを押込む行動、車両の乗員が、タッチパネルに触れてナビゲーション装置の地図の表示を変更する行動、組立て工場の作業員が、センサーに接続されたカプラーと、電子制御装置（ＥＣＵ）に接続されたカプラーとを嵌合する行動、組立て工場の作業員が、工具を用いてボルトを締めて、エンジンブロックにエキゾーストマニホールドを取り付ける行動、ディーラーの整備士が、エンジンにスパークプラグを嵌める行動、ディーラーの整備士が、トルクレンチを用いてボルトを締める行動などの行動を挙げることができる。

　たとえば、推定部２５は、図４Ａに示す姿勢が検出された場合に、図４Ａに示す点Ｐ１～Ｐ３の位置と、点Ｐ１～Ｐ３から引かれた直線の形状とから、車両の乗員である操作者７は、車載機器を操作しようと、車載機器の操作部に右手（不図示）を延ばしていると推定する。また、図４Ｂに示す姿勢が検出された場合に、図４Ｂに示す点Ｐ７～Ｐ９及びＰ１０～Ｐ１２の位置と、点Ｐ７～Ｐ９及びＰ１０～Ｐ１２に引かれた直線の形状とから、組立て工場の作業員である操作者７は、組立てに用いる工具を操作しようと、左手７３ｃと右手７４ｃとで工具を掴もうとしていると推定する。さらに、図４Ｃに示す姿勢が検出された場合に、図４Ｃに示す点Ｐ１９～Ｐ３２の位置と、点Ｐ１９～Ｐ３２から引かれた直線の形状とから、工場の作業員である操作者７は、指を延ばして、組立てに用いる工具を右手７４ｃで掴もうとしていると推定する。このような行動の推定には、たとえばパターンマッチングを用いる。具体的には、入力された姿勢のデータにおいて、操作者７の関節の位置と、関節同士が接続している関係と、関節を接続する身体の部位の形状などの特徴部分を抽出し、抽出された特徴部分について、データベース１４に格納されたクラス辞書と比較することで、特徴部分がどのクラスに属するのかを判定する。クラス辞書において、姿勢に対応する行動がクラスとして設定されていれば、姿勢から行動を推定することができる。

　推定部２５は、行動の推定する場合に、検出部２２により検出され、補正部２４により補正された、操作者７の姿勢から、操作者７の行動を推定するように予め学習された行動推定モデルを用いることができる。行動推定モデルは、たとえば、図１に示すデータベース１４に格納されている。行動推定モデルでは、検出された操作者７の姿勢と、操作者７の行動とが対応するように関連付けられており、ある姿勢のデータを入力すると、入力した姿勢のデータに対応する、操作者７の行動が出力される。行動推定モデルは、図１に示す第３機械学習部２５１により機械学習される。具体的には、データベース１４に格納された、操作者７の姿勢の過去の検出結果と、推定された操作者７の行動とを用いて、行動推定モデルが、入力された姿勢のデータに対して適切な行動を推定し、結果を出力するように、学習させる。

　また、行動推定モデルは、機械学習を行った学習済みモデルであってもよい。当該学習済みモデルは、検出部２２により検出された姿勢のデータが入力データとして入力されると、当該入力データに基づいて、操作者７の行動を含む出力データが出力されるようにコンピュータ（特に、プロセッサであるＣＰＵ１３１）を機能させる。このような学習済みモデルを用いることで、学習された操作以外の操作を行う操作者７についても、行動を適切に検出することができる。なお、入力される姿勢のデータは、補正部２４により補正されていても、補正されていなくともよい。

　本実施形態の学習済みモデルは特に限定されないが、たとえばニューラルネットワークである。ニューラルネットワークは、入力層と、中間層と、及び出力層とを備え、各層には少なくとも一つのニューロンが含まれている。入力層には、検出部２２にて検出された姿勢のデータを含む入力データが入力され、入力されたデータを中間層に出力する。中間層は、入力層から入力されたデータから、操作者７の姿勢のデータを抽出する。次に、抽出した操作者７の姿勢のデータから、行動と推定する。出力層は、中間層から入力されたデータを、行動のデータを含む出力データとして出力する。中間層におけるパラメータとしては、たとえば、操作者７の関節を示す点の位置と、関節同士の接続関係を示す直線の形とが考慮される。

　なお、操作者７の姿勢に対して複数の行動が推定される場合があるが、本実施形態の操作者７は所定操作を行うため、推定部２５は、操作者７の属性が特定されれば、姿勢に対応する行動を特定することができる。操作者７の属性とは、たとえば、操作者７が車両の乗員であるか、組立て工場の組立てラインで作業する作業員であるか、車両のディーラーの整備工場の整備士であるかなどの、操作者７の役割及び操作者７の存在する場所についての特徴である。

　出力部２６は、推定部２５にて推定された行動を表示装置１２に出力する機能を有する。出力部２６から出力された、操作者７の行動は、表示装置１２により受け取られる。そして、表示装置１２に表示され、操作者７及び操作者７の監督者などに提示される。操作者７及び監督者は、表示装置１２により提示された行動を確認することで、操作者７の行動が所定操作に必要なものか否か、操作者７が所定操作を所定の手順で行っているか否か、操作者７が必要な手順を飛ばしているか否か、などを確認することができる。また、操作者７及び監督者に代えて、処理部２において、操作者７の行動が所定操作に必要か否か、操作者７が所定操作を所定の手順で行っているか否か、操作者７が必要な手順を飛ばしているか否か、などを判定してもよい。この場合、所定操作、所定操作の手順、所定操作に必要な行動などはデータベース１４に格納され、必要に応じて、処理部２により取得される。

［画像処理システムにおける処理］
　図７を参照して、画像処理装置１３が情報を処理する際の手順を説明する。図７は、本実施形態の画像処理システム１における情報の処理を示すフローチャートの一例である。以下に説明する処理は、操作者７が所定操作を行っている間、画像処理装置１３のプロセッサであるＣＰＵ１３１により所定の時間間隔で実行される。

　まず、ステップＳ１にて、取得部２１の機能により、撮像装置１１にて撮影された画像データを取得する。続くステップＳ２にて、操作者７を含む画像データが取得されたか否かを判定する。取得した画像データに操作者７が含まれていない場合は、ステップＳ１に戻る。これに対して、取得した画像データに操作者７が含まれている場合は、ステップＳ３に進む。

　ステップＳ３にて、検出部２２の機能により、画像に含まれた操作者７の姿勢を検出する。続くステップＳ４にて、操作者７の姿勢が適切に検出できたか否かを判定する。操作者７の姿勢が適切に検出できなかった場合は、ステップＳ１に戻る。これに対して、操作者７の姿勢が適切に検出できた場合は、ステップＳ５に進む。

　ステップＳ５にて、算出部２３の機能により、撮像装置１１の装着位置が、たとえば初期状態の基準位置に対してどの程度ずれているのかを算出する。続くステップＳ６にて、撮像装置１１の装着位置がずれているか否かを判定する。具体的には、算出された位置ずれの量が、操作者７の姿勢を正しく検出することができる範囲内であるか否かを判定する。算出された位置ずれの量が、操作者７の姿勢を正しく検出することができる範囲内であれば、ステップＳ８に進む。これに対して、算出された位置ずれの量が、操作者７の姿勢を正しく検出することができる範囲を超えている場合は、ステップＳ７に進む。

　ステップＳ７にて、補正部２４の機能により、算出部２３により算出されたずれ量に基づいて、操作者７の姿勢を補正する。続くステップＳ８にて、推定部２５の機能により、操作者７の姿勢から、操作者７の行動を推定する。続くステップＳ９にて、操作者７の行動が適切に推定できたか否かを判定する。操作者７の行動が適切に推定できなかった場合は、ルーチンの実行を停止して情報の処理を終了する。これに対して、操作者７の行動が適切に推定できた場合は、ステップＳ１０に進む。

　ステップＳ１０にて、出力部２６の機能により、推定された行動を含むデータを、画像処理装置１３から表示装置１２に出力する。続くステップＳ１１にて、処理部２の機能により、推定部２５により推定された行動に基づいて、操作者７が所定操作を適切に実行しているか否かを判定する。この際に、当該判定結果を表示装置１２に出力してもよい。ステップＳ１１における処理が完了すると、ルーチンの実行を停止して情報の処理を終了する。なお、ステップＳ２と、ステップＳ４と、ステップＳ６と、ステップＳ９～Ｓ１１とは、必須のステップではなく、必要に応じて設けることができる。

［本発明の実施態様］
　以上のとおり、本実施形態によれば、所定操作を行う操作者７、及び前記操作者７が身に付ける物品のうち少なくとも一方に装着された撮像装置１１から、前記操作者７を含む画像を取得する取得部２１と、前記画像から前記操作者７の姿勢を検出する検出部２２と、前記画像から、位置ずれを算出する基準としての基準位置を用いて前記撮像装置１１の位置ずれを算出する算出部２３と、前記位置ずれを用いて前記姿勢を補正する補正部２４と、を備える、画像処理装置１３が提供される。これにより、撮像装置１１（たとえばカメラ）の装着位置がずれた場合でも、操作者７の姿勢を正しく認識することができる。

　また、本実施形態の画像処理装置１３によれば、前記姿勢から前記操作者７の行動を推定するように予め学習された行動推定モデルを用いて、補正された前記姿勢から前記操作者７の行動を推定する推定部２５を備える。これにより、操作者７の姿勢と行動とを関連付けて、操作者７の行動を推定することができる。

　また、本実施形態の画像処理装置１３によれば、前記検出部２２は、前記画像から前記操作者７の姿勢を推定するように予め学習された姿勢推定モデルを用いて、前記画像から前記操作者７の姿勢を検出する。これにより、これまでの検出結果を用いた、精度の高い姿勢検出を行うことができる。

　また、本実施形態の画像処理装置１３によれば、前記算出部２３は、前記画像に含まれる前記操作者７の身体の一部を前記基準位置として識別し、所定状態の前記基準位置に対する前記位置ずれを算出する。これにより、身体の部位を用いた簡易で正確な位置ずれの算出が実現できる。

　また、本実施形態の画像処理装置１３によれば、前記基準位置は、前記撮像装置１１が前記操作者に装着されている場合には、前記撮像装置１１が装着された部分以外の前記操作者７の身体の部位のうち、部位自体に関節により可動する部分が存在せず、且つ、前記撮像装置１１が装着された部分との間に関節が存在しない部位であり、前記撮像装置１１が前記物品に装着されている場合には、前記物品と接触している部分以外の前記操作者７の身体の部位のうち、部位自体に関節により可動する部分が存在せず、且つ、前記操作者７が身に付けた前記物品と接触している部分との間に関節が存在しない部位である。これにより、身体の部位をより正確に特定することができる。

　また、本実施形態の画像処理装置１３によれば、前記取得部２１は、前記基準位置を含む時系列の画像を取得し、前記算出部２３は、前記時系列の画像における前記基準位置の移動量を用いて前記位置ずれを算出する。これにより、撮像装置１１の位置ずれをより正確に算出することができる。

　また、本実施形態の画像処理装置１３によれば、前記算出部２３は、前記画像における前記基準位置の位置から前記位置ずれを推定するように予め学習された位置ずれ推定モデルを用いて前記位置ずれを算出する。これにより、画像を入力するだけで位置ずれの量を算出することができる。

　また、本実施形態の画像処理装置１３によれば、前記取得部２１は、前記撮像装置１１の位置を特定するための模様を含む画像を取得し、前記算出部２３は、前記模様を前記基準位置として識別し、前記模様から特定された前記撮像装置１１の位置を用いて前記位置ずれを算出する。これにより、撮像装置１１の位置ずれをより正確に算出することができる。

　また、本実施形態の画像処理装置１３によれば、前記検出部２２は、前記操作者７の周囲に設置された検出装置を用いて、前記撮像装置１１の位置と、前記操作者７の姿勢とを検出し、前記算出部２３は、前記検出部２２にて検出された、前記撮像装置１１の位置と前記操作者７の姿勢とに基づいて前記位置ずれを算出する。これにより、撮像装置１１の位置ずれをより正確に算出することができる。

　また、本実施形態によれば、プロセッサにより実行される画像処理方法において、前記プロセッサは、所定操作を行う操作者７、及び前記操作者７が身に付ける物品のうち少なくとも一方に装着された撮像装置１１から、前記操作者７を含む画像を取得し、前記画像から前記操作者７の姿勢を検出し、前記画像から、位置ずれを算出する基準としての基準位置を用いて前記撮像装置１１の位置ずれを算出し、前記位置ずれを用いて前記姿勢を補正する、画像処理方法が提供される。これにより、撮像装置１１（たとえばカメラ）の装着位置がずれた場合でも、操作者７の姿勢を正しく認識することができる。

１…画像処理システム
　１１…撮像装置
　１２…表示装置
　１３…画像処理装置
　　１３１…ＣＰＵ
　　１３２…ＲＯＭ
　　１３３…ＲＡＭ
　１４…データベース
２…処理部
　２１…取得部
　２２…検出部
　　２２１…第１機械学習部
　２３…算出部
　　２３１…第２機械学習部
　２４…補正部
　２５…推定部
　　２５１…第３機械学習部
　２６…出力部
３…ウェアラブル端末
　３１…バンド
４、４ａ、４ｂ…視野
５…ヘルメット
　５１…つば
　５２…ブラケット
６…カメラ
　６１…バンド
７…操作者（人間）
　７１…頭部
　　７１１…鼻
　　７１２…中心
　７２…首
　７３ａ…左腕の上腕
　７３ｂ…左腕の前腕
　７３ｃ…左手
　７４ａ…右腕の上腕
　７４ｂ…右腕の前腕
　７４ｃ…右手
　７５…胴体
　７６…左脚
　７７…右脚
８、９…矢印
Ｐ１～Ｐ３２…点
α…角度

Claims

　人間及び前記人間が身に付ける物品のうち少なくとも一方に装着された撮像装置から、前記人間を含む画像を取得する取得部と、
　前記画像から前記人間の姿勢を検出する検出部と、
　前記画像から、位置ずれを算出する基準としての基準位置を用いて前記撮像装置の位置ずれを算出する算出部と、
　前記位置ずれを用いて前記姿勢を補正する補正部と、を備える、画像処理装置。
　前記姿勢から前記人間の行動を推定するように予め学習された行動推定モデルを用いて、補正された前記姿勢から前記人間の行動を推定する推定部を備える、請求項１に記載の画像処理装置。
　前記検出部は、前記画像から前記人間の姿勢を推定するように予め学習された姿勢推定モデルを用いて、前記画像から前記人間の姿勢を検出する、請求項１又は２に記載の画像処理装置。
　前記算出部は、前記画像に含まれる前記人間の身体の一部を前記基準位置として識別し、所定状態の前記基準位置に対する前記位置ずれを算出する、請求項１～３のいずれか一項に記載の画像処理装置。
　前記基準位置は、
　　前記撮像装置が前記人間に装着されている場合には、前記撮像装置が装着された部分以外の前記人間の身体の部位のうち、部位自体に関節により可動する部分が存在せず、且つ、前記撮像装置が装着された部分との間に関節が存在しない部位であり、
　　前記撮像装置が前記物品に装着されている場合には、前記物品と接触している部分以外の前記人間の身体の部位のうち、部位自体に関節により可動する部分が存在せず、且つ、前記人間が身に付けた前記物品と接触している部分との間に関節が存在しない部位である、請求項４に記載の画像処理装置。
　前記取得部は、前記基準位置を含む時系列の画像を取得し、
　前記算出部は、前記時系列の画像における前記基準位置の移動量を用いて前記位置ずれを算出する、請求項４又は５に記載の画像処理装置。
　前記算出部は、前記画像における前記基準位置の位置から前記位置ずれを推定するように予め学習された位置ずれ推定モデルを用いて前記位置ずれを算出する、請求項４又は５に記載の画像処理装置。
　前記取得部は、前記撮像装置の位置を特定するための模様を含む画像を取得し、
　前記算出部は、前記模様を前記基準位置として識別し、前記模様から特定された前記撮像装置の位置を用いて前記位置ずれを算出する、請求項１～７のいずれか一項に記載の画像処理装置。
　前記検出部は、前記人間の周囲に設置された検出装置を用いて、前記撮像装置の位置と、前記人間の姿勢とを検出し、
　前記算出部は、前記検出部にて検出された、前記撮像装置の位置と前記人間の姿勢とに基づいて前記位置ずれを算出する、請求項１～８のいずれか一項に記載の画像処理装置。
　プロセッサにより実行される画像処理方法において、
　前記プロセッサは、
　　人間及び前記人間が身に付ける物品のうち少なくとも一方に装着された撮像装置から、前記人間を含む画像を取得し、
　　前記画像から前記人間の姿勢を検出し、
　　前記画像から、位置ずれを算出する基準としての基準位置を用いて前記撮像装置の位置ずれを算出し、
　　前記位置ずれを用いて前記姿勢を補正する、画像処理方法。