図3は、一実施形態に係る判定装置の機能ブロック図である。判定装置10は、検出追跡部1及び判定部4を備え、歩行者等の移動対象が撮影された映像を入力として受け取り、当該映像を各部1,4で解析することにより、当該映像の各時点における歩行者等の移動対象の状態を判定して出力する。
判定装置10では特に、移動対象の状態として、入力された映像における歩行者等の移動対象が歩行等によって、当該映像を撮影しているカメラに対して真っすぐに向かってきている状態であるか、及び/又は、当該カメラから真っすぐに離れていく状態にあるか、という判定結果を得ることができる。すなわち、図2で説明したような状態に関する判定結果を得ることができる。
なお、判定装置10に入力される映像における移動対象は人物の他にも、図2で説明したような振る舞いを示すものであれば、動物、ロボット、乗り物その他の任意の移動する対象であってよく、判定装置10ではこのような任意の対象に関して、映像を撮影しているカメラに向かって真っすぐに近づいてきている状態である、あるいはその逆向きに遠ざかっていっている状態である、という判定結果を得ることができる。同様に、撮影環境もオフィスに限られず、屋外等でもよい。また同様に移動の態様も、歩行に限らず走りその他であってもよい。
ただし、以下の説明においては、わかりやすい具体例で説明するという観点から、移動対象は図2で説明したようにオフィス環境における歩行者であり、歩行によってカメラに真っすぐに近づいている、あるいはその逆向きに進んでいる、ということを判定する場合を主な例として説明するものとする。すなわち、歩行者の歩行に関する判定は、移動対象がカメラに真っすぐに近づく/カメラから真っすぐに遠ざかる一例にすぎず、以下説明する処理によって、人物以外の同様の移動が判定可能であり、人物の移動であった場合でも、歩行に限らず走ることで近づく/遠ざかるような場合も判定可能である。
判定装置10の各部1,4の概要は次の通りである。
検出追跡部1は、移動対象が撮影された映像を読み込んで、当該映像の各時刻の画像(各フレーム)において、移動対象の検出及び追跡を行い、当該追跡結果を判定部4へと出力する。
判定部4は、検出追跡部1より出力された当該映像の各時刻における追跡結果(各時刻において移動対象が占める領域、当該領域の位置、速度、大きさ変化等)に対して分類器及びルールベースの判定手法を適用することにより、各時刻における移動対象が映像におけるカメラに対して真っすぐに近づいている状態であるか、その逆に遠ざかっている状態か、また、その他の状態であるか、という判定結果を出力する。
以下、各部1,4の詳細を説明する。
図4は、一実施形態に係る検出追跡部1の機能ブロック図であり、検出追跡部1は検出部2及び追跡部3を備える。各部2,3の概要は次の通りである。
検出部2は、入力される移動対象が撮影された映像の各時刻の画像につき、移動対象の領域を(その他の背景領域と区別される)前景領域として検出し、当該検出された各時刻における前景領域を追跡部3へと出力する。追跡部3では、当該出力された各時刻の前景領域は移動対象の本来の領域に対してノイズを含むものであることから、カルマンフィルタを適用することによって、移動対象の各時刻における追跡結果を得て、判定部4へと出力する。以下、各部2,3の詳細を説明する。
検出部2では、以下の第一〜第三処理を順に実施することで、前景領域を得て追跡部3へと出力する。
第一処理として、周知の手法である背景差分法を適用することで、映像の各時刻の画像につき前景領域を検出する。ここで、背景差分法としては種々のものが利用可能であるが、例えば前掲の非特許文献4に開示のものを利用することができる。非特許文献4においては、混合正規分布(Mixture of Gaussian Distribution, MoG)を用いて背景をモデル化し、新たに観測された画像を用いて逐次的に背景モデルを更新しながら、当フレームの前景領域(動きのある領域)を検出している。
第二処理として、上記の第一処理で得た前景領域は本来の移動対象の領域の他にも、いわゆるゴマ塩状の領域等をノイズとして含んでいるので、当該ノイズ影響を低減するために、第一処理で得た前景領域に対してさらに、2値画像におけるノイズ低減処理として周知の膨張・収縮処理を適用する。ここで、膨張(erode)処理は以下の式(1)で示され、収縮(dilate)処理は以下の式(2)で示される。
なお、式(1),(2)において、dst(x,y)は膨張・収縮処理のそれぞれにおける出力画像(出力される前景領域)の構成画素を、src(x,y)は入力画像(入力される前景領域)の構成画素を表す。(x,y)は当該画像(すなわち領域)内に含まれる座標であり、図5に示すように、画像処理分野において慣用的に用いられているのと同様に、画像P(横Nx、縦Nyのサイズとする)の左上の頂点を原点とし、右方向にx軸を、下方向にy軸を取るものとする。図4では画像P内において座標(x,y)=(a1,a2)として特定される点Aが当該座標系を用いた画素位置指定の例として示されている。以下、本発明の説明において、図5で示したのと同様の座標系を用いる。
式(1),(2)では各画素位置(x,y)に関して、2値画像処理の分野で行われているように、当該位置に前景領域が存在すれば0の値(最小値の黒)を定義し、存在しなければ1の値(最大値の白)を定義するものとする。こうして、式(1),(2)では共に各画素位置(x,y)の所定近傍の一連の画素(x+x', y+y')を参照することで、式(1)では画素位置(x,y)の所定近傍内に1つでも0すなわち前景領域に属している画素があれば当該位置(x,y)を前景領域に置き換えることで膨張処理が実施され、式(2)ではこの逆の処理(近傍に1つでも背景領域があれば背景領域に置き換える処理)によって収縮処理が実施される。ここで、近傍については所定距離内などを採用すればよい。
第三処理として、上記の第二処理において前掲領域におけるゴマ塩状のノイズ領域は除去されたものの、本来は1つである移動対象が2つ以上の互いに近接した前景領域に分断されてしまっている可能性があるので、さらに、このような分断している領域を1つの移動対象であるものとして互いに合併する処理を行う。例えば、移動対象が歩行者である場合で当該歩行者が大きく腕を振って歩いているような場合、第二処理を終えた時点で頭、胴体及び脚の領域と腕の領域とが互いに分断されて別の前景領域となってしまっていることがあるので、第三処理ではこのような分断された領域を本来の1つの歩行者の領域であるものとして合併する。
第三処理は具体的には例えば、第二処理において得られた複数の前景領域のうち、領域の中心間の距離が所定の閾値以下となるようなもの同士を合併すればよい。ここで、領域の中心に関しては、領域の重心や、領域を囲む最小サイズの矩形の中心(対角線の交点)等の、領域に関して定義される所定位置を採用すればよい。当該囲む矩形については追跡部3に関して後述する図6におけるのと同様の矩形を用いることができる。
追跡部3では、上記の検出部2における最後の処理としての第三処理を経た前景領域を入力として受け取り、これに前掲の非特許文献3等に開示されている周知のカルマンフィルタを適用して、判定部4へと出力する。ここで、カルマンフィルタの適用に際して状態及び状態遷移を定義する必要があるが、例えば以下のようにすればよい。
まず、状態に関しては次のように定義すればよい。すなわち、各時刻の画像P(t)における前景領域F(t)に関して、図6に示すように当該前景領域F(t)を囲む最小矩形R(t)の中心C(t)(対角線の交点)を当該前景領域F(t)の位置(x(t),y(t))として定義し、さらに、この速度(vx(t),vy(t))を定義し、当該位置及び速度を合わせた(x(t),y(t), vx(t),vy(t))を状態として定義する。なお、速度(vx(t),vy(t))に関しては例えば、現時刻tの直近の過去時刻t-1の位置(x(t-1),y(t-1))との差分として以下の式(3),(4)のように求めればよい。
また、位置及び速度として定義された状態の時刻tから時刻t+1への状態遷移については以下の式(5)〜(8)ように定義すればよい。ここで、nx(t),ny(t),nvx(t),nvy(t)はノイズである。
判定部4では、検出追跡部1の追跡部3が以上のように出力した移動対象の状態(x(t),y(t), vx(t),vy(t))及び矩形領域R(t)の情報に基づき、移動対象が以下のように定義される3つの状態W,T,Nのいずれに該当するかを出力する。
W:walkingすなわち、歩行等で移動している状態である。
T:toward cameraすなわち、カメラ視点に向かって真っすぐに移動している状態である。
N:non-walkingすなわち、歩行等での移動をしていない状態である、あるいは移動対象ではない。
上記では移動に関して歩行(walking)として状態を表す符号として採用しているが、前述の通り、歩行は移動の一例に過ぎないことに注意されたい。また、状態Tに関してはカメラ視点に向かって真っすぐに近づくよう移動する状態の他、その逆向きであるカメラ視点から真っすぐに遠ざかる(away from camera)場合も含むものとする。
なお、現時刻の画像P(t)において追跡部3が2以上の移動対象につきその状態を求めている場合は、判定部4では各移動対象につきそれぞれ、状態W,T,Nのいずれに該当するかを出力する。以下、判定部4が現時刻tの画像P(t)における移動対象に関して当該3つの状態W,T,Nのいずれに該当するかを判定する処理の詳細を説明する。
図7は、一実施形態に係る判定部4の機能ブロック図であり、判定部4は状態N(移動対象に該当しない)であるか否かを判定する第一判定部41と、状態W(移動している)であるか否かを判定する第二判定部42と、状態T(カメラ視点に対して真っすぐに移動している)であるか否かを判定する第三判定部43と、を備える。
図8は、図7の第一〜第三判定部41〜43が互いに連携して判定を行う一実施形態のフローチャートである。以下、図8の各ステップを説明しながら、各部41〜43の詳細を説明する。
ステップS1では、第一判定部41が、移動対象の状態(x(t),y(t), vx(t),vy(t))に対して事前学習されたランダム木やSVM(サポートベクトルマシン)等の分類器を適用し、移動対象ではなく状態Nに該当するか否かを判定してから、ステップS2へと進む。
ここで、ステップS1の目的は、次の通りである。すなわち、検出追跡部1においては移動対象として検出されたが、実際は歩行者のように継続的に移動するものではなく、オフィス空間にある物(パソコンなど)が偶然少し動いたものであった、あるいは人物の動きではあるが歩行のように移動を伴うものではなく、頭や手だけが動いていたものであった、というような場合をノイズとして排除することがステップS1の目的である。従って、分類器を事前に学習する際には、学習用映像に対して検出追跡部1を適用し、一連の移動対象の追跡結果を得たうえで、人手などにより追跡された移動対象が本当に移動対象であるか否かのラベル付与を行ったものを学習用データとし、分類器を構築するようにすればよい。
ステップS2では、ステップS1の判定結果が状態N(移動対象ではない)であったか否かが判断され、状態Nであった場合はステップS11へと進み、判定部4の判定結果として状態Nを出力して当該フローを終了する。一方、ステップS2で状態Nではなかった場合にはステップS3へと進む。
ステップS3では、第二判定部42が、ルールベースの手法により移動対象が状態Wに該当するか否かを判定してから、ステップS4へ進む。ステップS3の詳細は以下の通りである。
すなわち、移動対象の状態(x(t),y(t), vx(t),vy(t))に関して、過去時刻t0から現時刻tに至るまでの各時刻i(i=t0,t0+1,t0+2, … , t-2,t-1,t)の一連の状態(x(i),y(i), vx(i),vy(i))を参照することにより、時刻t0〜t間におけるx方向の移動量Dxと平均速度avg_vxとを求め、以下のルールベースの式(9)が成立する場合に、状態Wであると判定する。そして、成立しなければ状態Wではないと判定する。
式(9)において、THD及びTHVはそれぞれ、移動量Dxと平均速度avg_vxとに対する所定の閾値である。式(9)はすなわち、x方向の移動量Dxと平均速度avg_vxとが共に大きい場合に、状態Wであると判定するものである。
また、図5で画像の座標(x,y)を説明し、図2で画像の実例を示した通り、画像上の縦方向であるy方向がカメラ視点に向かって真っすぐに近づく又は遠ざかる方向であるのに対し、画像上の横方向であるx方向はカメラ視点を横切って移動する方向(カメラに平行な方向)を意味している。従って、ステップS3において第二判定部42により判定される状態Wとはすなわち、移動対象がカメラ視点を横切って移動している状態である。
なお、式(9)の過去の時刻t0に関しては、現時刻tから所定フレーム数の過去時刻としてもよいし、現時刻tにおいて(状態判定の対象として)当該注目している移動対象が初めて検出された時刻としてもよい。
第二判定部42ではまた、式(9)に加えて次の条件も満たす場合に、状態Wであると判定するようにしてもよい。すなわち、現時刻tにおいて当該注目している移動対象が、検出追跡部1において連続して一定フレーム数以上、追跡されているという条件である。当該条件を課すことで、時間軸上の安定性を考慮することができる。
ステップS4では、ステップS3の判定結果が状態W(x方向の移動対象である)であったか否かが判断され、状態Wであった場合はステップS13へと進み、判定部4の判定結果として状態Wを出力して当該フローを終了する。一方、ステップS4で状態Wではなかった場合にはステップS5へと進む。
ステップS5では、第三判定部43が、式(9)と同様の過去時刻t0から現時刻tまでにおける一連の移動対象の領域R(i)(i=t0,t0+1, …, t-1,t)の変化量r(i)より現時刻tにおける移動対象の領域R(t)の特徴量Q(t)を求め、当該特徴量Q(t)に対して予め学習されているランダム木やSVM等の分類器を適用することにより、現時刻tの移動対象が状態Tに該当するか否かを判定し、ステップS6へ進む。ステップS5の詳細は以下の通りである。
すなわち、領域R(t)とは図6で説明したのと同様の、現時刻tにおける前景領域としての移動対象の領域F(t)を囲む矩形である。特徴量Q(t)には、図2で説明したような状態Tを判定可能な特徴量として、例えば以下のようなものを採用することができる。
第一実施形態として、以下の式(10)のように各時刻iにおける領域R(i)の面積S(i)の変化量r1(i)を求め、式(11)のように当該面積の変化量r1(i)の時刻t0〜t間での平均を特徴量Q(t)として求めることができる。
第二実施形態として、以下の式(12)のように各時刻iにおける領域R(i)の幅w(i)(図5,6等で定義した座標におけるy方向の幅、すなわち横幅)の変化量r2(i)を求め、式(13)のように当該横幅の変化量r2(i)の時刻t0〜t間での平均を特徴量Q(t)として求めることができる。
なお、上記の第一及び第二実施形態の式(10),(12)ではそれぞれ、変化量r1(i),r2(i)を面積S(i),横幅w(i)の変化比率として求めているが、差の絶対値などとして求めるようにしてもよい。その他、変化を表す任意の量として求めるようにしてもよい。また、第三実施形態として、第一実施形態で求めた特徴量をQ1(t)とし、第二実施形態で求めた特徴量をQ2(t)とし、これらを合わせた(Q1(t),Q2(t))を特徴量として採用するようにしてもよい。
また、特徴量Q(t)に関しては、以上の式(10)〜(14)のような面積変化や横幅変化に基づく量に限られず、図2で説明したような領域R(t)の変化、特に大きさの変化を反映するものとして算出される任意の量を用いることができる。
なお、ステップS5における第三判定部43による状態Tに該当するか否かの判定では、上記のように特徴量Q(t)に対して分類器を適用することに加えて、次の条件を課すようにしてもよい。すなわち、ステップS3における第二判定部42で課すことのできる追加条件と同様に、現時刻tにおいて当該注目している移動対象が、検出追跡部1において連続して一定フレーム数以上、追跡されているという条件である。当該条件を課すことで同様に、時間軸上の安定性を考慮することができる。
ステップS6では、ステップS5の判定結果が状態T(カメラ視点に対して真っすぐに移動する移動対象である)であったか否かが判断され、状態Tであった場合はステップS12へと進み、判定部4の判定結果として状態Tを出力して当該フローを終了する。一方、ステップS5で状態Tではなかった場合にはステップS11へと進み、判定部4の判定結果として状態N(移動対象ではない)を出力して当該フローを終了する。
以上、図7及び図8を参照して、判定部4の一実施形態を説明した。以下、これに関しての補足を何点か説明する。
(補足1)上記の一実施形態では、第一判定部41及び第二判定部42が第三判定部43の判定を行うための振り分け判定として機能しているが、第一判定部41及び/又は第二判定部42を省略して、第三判定部43を適用するようにしてもよい。例えば、第一判定部41で状態Nではなかった場合に、第二判定部42を省略して第三判定部43の判定を行うようにしてもよいし、最初から第三判定部43のみの判定を行うようにしてもよい。また、第一判定部41及び第二判定部42の振り分け判定を行う順番を逆転させるようにしてもよい。
なお、第一判定部41を省略する場合は、ステップS1,S2の処理を省略して分岐ステップS2では常にステップS3に進むようにすればよい。第二判定部42を省略する場合は、ステップS3,S4の処理を省略して分岐ステップS4は常にステップS5に進むようにすればよい。
(補足2)第三判定部43では各時刻iの領域R(i)の面積S(i)や横幅w(i)といった量を用いたが、これらはノイズの影響を受けている場合もありうるので、各時刻iの時系列としての面積S(i)や横幅w(i)に対してローパスフィルタを適用、あるいは関数フィッティングなどを適用することでノイズの影響を除外したうえで、式(10),(12)のような変化量r1(i),r2(i)を計算するようにしてもよい。
(補足3)第三判定部43で状態Tの判定が得られた場合、第三判定部43における追加処理として、当該カメラ視点に対して真っすぐの方向であるy方向の移動対象の速度を算出するようにしてもよい。すなわち、追跡部3におけるカルマンフィルタの出力として各時刻iの状態(x(i),y(i), vx(i),vy(i))が得られているものの、現時刻tが状態Tであると判定された場合、図2で説明したような状況であるため、カルマンフィルタ出力におけるy方向の速度vy(t)は実際の速度を反映していない可能性が高い。そこで、第三判定部43において以下のようにして、実際の値を推定するものとして、y方向の移動対象の速度を算出するようにしてもよい。
具体的には、式(10)のr1(t)又は式(12)のr2(t)とy方向の速度V(t)とに相関があるものとし、以下の式(14)又は(15)のように算出することができる。
V(t)=k1*r1(t) …(14)
V(t)=k2*r2(t) …(15)
なお、上記において推定対象となっているy方向の速度V(t)とは、仮に図2のような状況が発生していなかったとした場合に画像上において検知されるであろうy方向に関する速度である。
ここで、k1,k2は共に、相関を考慮して予め与えておく定数であり、カメラのキャリブレーションや、実際に映像が撮影される空間における奥行き(y方向)の3D空間の距離を考慮した定数として与えることができる。
また、k1又はk2を上記のように定数として与えておく以外の実施形態として、実際に撮影している映像からkを算出する実施形態も以下のように可能である。
すなわち、状態Tが判定された現時刻tの直前時刻t-1(1フレーム手前の時刻)が状態W(x方向の移動)と判定されていたのであれば、カルマンフィルタ出力において得られている当該直前時刻t-1のx方向の速度vx(t-1)から相関が取得可能であるものとして、以下の式(16)又は(17)のように算出すればよい。
k1= vx(t-1)/r1(t-1) …(16)
k2= vx(t-1)/r2(t-1) …(17)
また、直前時刻t-1が状態Wではない場合は、一定範囲内の直近時刻t-kにおいて状態Wがあれば、当該直近時刻t-kにおいて上記の式(16),(17)と同様に算出するようにしてもよいし、これまで計測されている全ての移動対象の速度の平均値をvx(t-1)として使うようにしてもよい。当該平均値を使う場合、判定装置10において図3等に不図示の記憶部を備えるようにし、状態Wが判定される都度、その時点iのx方向の速度vx(i)(カルマンフィルタが出力したもの)を記憶させるようにしておき、平均値を算出するようにすればよい。ここで、平均値の算出においては、所定期間の過去のみ(例えば過去1週間のみ)の平均として算出するようにしてもよい。
以下、以上説明した判定装置10の応用利用として、遠隔コミュニケーション支援装置に判定装置10の全部又は一部を組み込んで利用する、又は判定装置10と遠隔コミュニケーション支援装置とを組み合わせて利用することに関する一実施形態を説明する。
図9は、遠隔コミュニケーション支援装置の一部又は全部、あるいは遠隔コミュニケーション支援装置と組み合わせて利用可能な、いわゆる首型のテレプレゼンスロボットTR1が図1と同様のオフィス空間に配置されている模式的な例を示す図である。図9ではすなわち、図1と同様のオフィス空間O1においてドアD1の位置に、ドアD1の代わりにテレプレゼンスロボットTR1(以下、ロボットTR1と略称する)が配置されている点を除いて、図1と同様のオフィス空間O1が示されている。
ロボットTR1はカメラC1を備え、オフィスO1における勤務者H1等を撮影することができ、ディスプレイDP1を備えることで、オフィスO1とは別の自宅等において勤務している遠隔勤務者の顔画像等をオフィスO1側に表示することができる。その他、ロボットTR1はマイク及びスピーカを備えることで、遠隔勤務者とオフィス側とでテレビ電話機能によって遠隔コミュニケーションを実現することができる。なお、図9では示されていないが、ロボットTR1と同様のテレビ電話機能を備える機器を遠隔勤務者の側にも配置しておく必要がある。
ロボットTR1はまた、遠隔勤務者等の操作によって、配置されているオフィス空間O1においてカメラC1で撮影している範囲を変える(すなわちロボットTR1の視点を変える)機能や、オフィス空間O1内を車輪等のアクチュエータを駆動して移動する機能を備えていてもよい。
図10は、一実施形態に係る遠隔コミュニケーション支援装置の機能ブロック図である。遠隔コミュニケーション支援装置20(以下、支援装置20と略称する)は、図3〜8等で説明したのと同様の判定装置10と、ロボットTR1の動作を制御する制御部11と、遠隔勤務者の側へ通知を行う通知部12と、を備える。
図10の実施形態において、判定装置10は第一地点(オフィス空間等)の映像を入力として受け取り、第一地点において移動対象が存在して状態Tに該当するか否かを判定する。状態Tに該当すると判定された場合、制御部11及び通知部12が以下のように動作することが可能である。
制御部11は、状態Tとして移動対象(オフィスの歩行者等)が検出された場合に、ロボットTR1の視線(図10のカメラC1)が当該移動対象の方を向く(つまり、ロボットTR1が移動対象の方に視線を向ける)ように、ロボットTR1を制御する。なお、当該制御を行う場合、ロボットTR1には少なくとも、カメラC1の視線を水平方向内において移動調整するアクチュエータ機構が備わっているものとする。
具体的には、まず、一定時間間隔(例えば、0.5秒間隔)で現時点の目標角度θを式(18)で算出する。ここで、図9の例のようにロボットTR1の顔に相当する正面方向とカメラC1の光軸方向が同じであることを前提とする。図9の例は、カメラC1がロボットTR1の頭部と一体になっている構成であり、この前提が満たされている。
図11は上記の式(18)が想定している配置を、画像Pを水平に切った断面において示す図であり、xは歩行者の中心と画像の中心間のピクセル数であり、Lは映像における画像Pの横幅(図5のNx)の半分(すなわち、L=Nx/2)であり、ФはカメラC1の視野角度の半分である。図11において、点P1はカメラ位置、点P2は画像Pの中心、点P3は画像Pにおいて検出された移動対象の中心位置である。
次に、現時点のロボットTR1の視線の角度と目標角度を比較し、ロボットTR1を制御する。目標角度との差が一定数値(TH1)以上、または一定数値(TH2)以下になると、ロボットTR1は動かさないように制御する。目標角度との差がこれに該当しない場合には、一定時間間隔以内に目標角度まで移動できる場合は目標角度まで移動し、間に合わない場合は最大スピードで一定時間間隔だけ移動させるようにする。
なお、ロボットの視線を移動対象等の目標に一致させるための制御に関しては、上記に限らず種々の既存技術を利用してもよい。
通知部12では、歩行者等の移動対象が判定装置10によって状態Tと判定され、且つ、ロボットTR1と一定距離以内に接近した場合に、第二地点への当該移動対象が存在して接近している旨の通知を行う。テレワーク支援の場合、第二地点には例えば在宅勤務者が存在しており、在宅勤務者へ通知が行われる。ここで、通知部12では、在宅勤務者の状態が忙しいか否かによって、通知の形を選択することができる。
通知部12において、一定距離内、例えば2メートル以内の距離にいるかどうかを判定するために、映像の中に検出した歩行者等の移動対象の領域R(t)の横縦比と大きさを利用することができ、以下の条件1、2の両者を満たす場合に当該判定を下すことができる。
(条件1):移動対象の領域の横縦比(アスペクト比)が一定値以下となること、すなわち、移動対象の領域が閾値判定によって縦に長い状態ではないと判定されること
(条件2):大きさ(領域R(t)の横幅及び/又は縦幅)が一定値以上になること
また、通知部12において、在宅勤務者が忙しいかどうかを判定する手法としては、例えば、前掲の非特許文献5に開示の手法を利用することができる。非特許文献5では、在宅勤務者等の対象者に精神生理学上のデータを取得する特定のセンサ(例えば、EEGセンサ(脳波センサ)を付けるNeurosky Mindband(商品名)、EDAセンサ(皮膚電位センサ)を付けるEmpatica E3(商品名))を装着し、当該センサの取得したデータを予め学習された単純ベイズ分類器に入力し、忙しいかどうかの判定結果を得ている。
通知部12では、在宅勤務者が忙しいと判定したら、文字等視覚通知のみを表示する。また、在宅勤務者が忙しくないと判定したら、前記文字等視覚通知を表示すると共に効果音を再生する。すなわち、通知の内容については、第一地点側において移動対象が存在して状態Tである旨の情報その他の、支援装置20の用途に応じた所定の内容とすればよい。なお、在宅勤務者が忙しい時には、制御部11の制御により、オフィス側(第一地点側)での勤務者がロボットTR1に見られている感(注目されている感覚)に用いるロボット動作を抑制するようにしてもよい。
以下、前述の(補足1)〜(補足3)の続きとして、本発明における補足事項を述べる。
(補足4)判定装置10及び支援装置20のそれぞれに関して、その各部(図3や図10等で説明した各要素機能部)を実現するためのハードウェア構成に関しては、通常のコンピュータにおけるハードウェア構成を採用することができる。
すなわち、各部を実現する判定装置10及び支援装置20のハードウェア構成としては、スマートフォンやタブレット端末といったような携帯端末の他、デスクトップ型、ラップトップ型その他の一般的なコンピュータの構成を採用することができる。すなわち、CPU(中央演算装置)と、CPUにワークエリアを提供する一時記憶装置と、プログラム等のデータを格納する二次記憶装置と、各種の入出力装置と、これらの間でのデータ通信を担うバスと、を備える一般的なコンピュータのハードウェア構成を採用できる。CPUが二次記憶装置に格納されたプログラムを読み込んで実行することで、図3や図10等に示した各部が実現される。本発明はこのようなプログラムとしても提供可能である。なお、各種の入出力装置としては、画像取得するカメラ、表示を行うディスプレイ、ユーザ入力を受け取るタッチパネルやキーボード、音声を入出力するマイク・スピーカ、外部と有線・無線にて通信を行う通信インタフェース、といったものの中から必要機能に応じたものを利用することができる。
(補足5)第三判定部43においては、各時刻iにおけるr1(i)やr2(i)といった領域R(i)の変化を反映したものとして現時刻tについて算出された特徴量Q(t)に分類器を適用して状態Tの判定を行うものとしたが、このための分類器については、第一判定部41において説明したのと同様に、事前にラベル付与された教師データを人手等で与えておいて学習により構築しておけばよい。
第三判定部43においてはまた、上記の特徴量Q(t)に加えて、カルマンフィルタの出力した現時刻tの状態(x(t),y(t), vx(t),vy(t))も、特徴量として採用し、上記と同様に事前学習された分類器で状態Tの判定を行うようにしてもよい。すなわち、(Q(t),x(t),y(t),vx(t),vy(t))の全体を特徴量として採用するようにしてもよい。
第三判定部43ではまた、カメラ視点に対して真っすぐ近づいてきている状態と、これとは逆方向に遠ざかっている状態と、を区別して判定するようにしてもよい。この場合、以上説明したのと同様にして、近づいてきている状態を判定する分類器と、遠ざかってきている状態を判定する分類器と、をそれぞれ個別に事前学習させて用意しておけばよい。特徴量Q(t)等に関しても、それぞれ個別の特徴量を求めるようにしてもよい。
(補足6)以上の説明より明らかなように、判定装置10は次のような映像にも適用可能である。すなわち、対象は静止しているがこれに対してカメラが移動することで、図2のような映像が得られる場合には、このような映像にも判定装置10は適用可能であり、カメラに対して対象が真っすぐに近づいている、あるいは遠ざかっている、という判定結果を得ることができる。ただし、この場合、背景差分法が適用可能なように、対象は大きさ等が変化するが背景は(非常に遠方にある等によって)ほぼ変化しない状態であることが好ましい。同様に、対象及びカメラの両者が移動して図2のような映像が得られるのであれば、このような映像に対しても判定装置10による判定が可能である。
さらに同様に、カメラで撮影された実写映像に限らず、コンピュータグラフィックで作成された映像や、アニメーション映像や、これらの組み合わせの映像に対しても判定装置10による判定が可能である。すなわち、映像が生成された過程によらず、図2のような移動対象の変化が起きている任意に映像に対して、判定装置10による判定が可能であり、当該映像の視点(実写映像の場合、カメラ視点)に対して移動対象が真っすぐに近づいているか遠ざかっているかの判定を行うことができる。
(補足7)検出追跡部1に関して、以上説明したような動き特徴量によって領域を検出及び追跡する手法は、映像がオフィス環境等において撮影されたものである場合に好適な一例の手法である。すなわち、オフィス環境では、照明なども相対的に安定であり、風などにより木やものの動きも少ないため、殆どの動きは人間に起因するものであることが想定される。例えば、人の移動、手や頭の動き、人の操作によるPCや椅子など物の移動である。よって、オフィス環境では、動きを安定的に検出できる、且つ、ほとんどの場合において動きの意味・種類は明確である。一方、オフィス環境では、家具や他人によりオクルージョンが多発するので、前掲の非特許文献2におけるHoGや色ヒストグラム、エッジなどテクスチャ関連の特徴量に対して時間的な連続性が足りないことが想定される。
しかしながら、テクスチャ関連の特徴量の方が領域の検出・追跡に好適な環境で映像が撮影されている場合は、検出追跡部1は当該テクスチャ関連の特徴量に基づいて領域の検出・追跡を行うようにすればよい。その他、映像の特性に応じた任意の既存手法を用いて、検出追跡部1による映像からの移動領域F(t)の検出・追跡を実現し、以上説明したのと同様に領域F(t)を囲む矩形として領域R(t)を検出してからカルマンフィルタを適用して状態(x(t),y(t), vx(t),vy(t))を出力するようにしてよい。